JP2996895B2 - 索引型式作成装置 - Google Patents

索引型式作成装置

Info

Publication number
JP2996895B2
JP2996895B2 JP7121065A JP12106595A JP2996895B2 JP 2996895 B2 JP2996895 B2 JP 2996895B2 JP 7121065 A JP7121065 A JP 7121065A JP 12106595 A JP12106595 A JP 12106595A JP 2996895 B2 JP2996895 B2 JP 2996895B2
Authority
JP
Japan
Prior art keywords
character
appearance frequency
appearance
characters
calculating means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7121065A
Other languages
English (en)
Other versions
JPH08314964A (ja
Inventor
葉 光 昭 稲
口 直 彦 野
野 祐 司 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP7121065A priority Critical patent/JP2996895B2/ja
Publication of JPH08314964A publication Critical patent/JPH08314964A/ja
Application granted granted Critical
Publication of JP2996895B2 publication Critical patent/JP2996895B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、電子計算機を利用した
文書検索システムや文書編集システムにおける文書中か
ら文字列等を検索するための索引型式作成装置に関する
ものである。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータの普及、コンピュータの記憶装置の容量の増
大、コンピュータによる文字認識の実用化等に伴い、文
書中のすべての文字情報を蓄積した全文データベースが
増加してきている。このため、大量の文字情報を蓄積
し、必要に応じて文書情報を検索する全文データベース
検索システムに対する関心が高まってきている。
【0003】従来の文書データベースシステムでは、文
書を検索する際の鍵として、文書毎に人手により付与さ
れたキーワードを利用するキーワード検索方式が一般的
であった。しかし、キーワード付け作業が蓄積文書の増
加に間に合わない、時間が経過するとキーワードが陳腐
化する、キーワード付けを行なった者と検索するものと
のキーワードの解釈の相違により検索洩れが生じる、な
どの問題があった。このような背景から、近年、全文検
索(フルテキストサーチ)と呼ばれる文書検索方式が注
目されている。
【0004】全文検索は、文書データの他には補助的な
情報を持たずに、検索毎に文書データを全文走査する
「フルテキストスキャン」方式と、検索に先だって、文
書データ中に出現する文字あるいは文字列の情報を高速
に取り出せるような索引情報を自動的に作成しておい
て、検索時にこの索引を検索する方式の2種類に大別さ
れる。
【0005】このうちフルテキストスキャン方式は、原
文書以外の情報を用いないので、記憶容量が少なくて済
むとともに文書データの更新直後でも即座に検索できる
点、および正規表現等の文字列パターンや論理条件を含
む複雑な検索条件の場合や検索結果が多い場合でも、検
索時間がほぼ一定である点が長所であるが、文書データ
の全てを走査するため、索引方式に比べて検索時間が遅
いという問題が指摘されている。
【0006】一方、索引方式は、一般にフルテキストス
キャン方式よりも検索速度が速く、索引の作成方法によ
っては、検索速度が文書量にほとんど依存しないという
利点があるが、索引情報の容量が大きいこと、索引を作
成する時間が長いこと、検索条件が複雑な場合や検索結
果が多い場合に検索速度が低下すること等の問題が指摘
されている。
【0007】索引方式の問題点を解決するものとして、
シグネチャファイルを用いたプリサーチ方式がある。そ
の中で、本願出願人は、文字または文字連接の出現頻度
に応じてグループ化を行ないシグネチャファイルの型式
を作成するという手法を提案した(特許願平成5年第2
53032号)。図4はこの方法による実施例の索引型
式作成装置の構成を示すブロック図である。サンプル文
書データ401中における各文書レコードが、文書区切
り手段403によりサンプル文書区切りデータ402か
らの位置情報をもとに切り出され、各文字の出現の度合
を文字出現頻度算定手段404が統計的に調べ、出現の
度合が予め定められた値すなわち絞り込み率以下である
低頻度文字については、文字グループ化手段407が複
数の文字のグループ化を行なう。この時、当該グループ
に属する文字の少なくとも1種が出現する度合が予め定
められた絞り込み率を越えないように文字を振り分け
る。サンプル文書データ401中における出現の度合が
絞り込み率を越える高頻度文字については、2つの高頻
度文字から成る2文字連続のサンプル文書データ中にお
ける出現の度合を2文字連続出現頻度算定手段405が
調べ、出現の度合が絞り込み率以下である低頻度2文字
連続については、2文字連続グループ化手段408が文
字の場合と同様にグループ化を行う。出現の度合が絞り
込み率を越える高頻度2文字連続については、高頻度2
文字連続に属する2つの2文字連続をそれぞれ初めの2
文字、および最後の2文字に持つ3文字連続のサンプル
文書中における出現の度合を3文字連続出現頻度算定手
段406が調べ、出現の度合が絞り込み率以下である低
頻度3文字連続については、3文字連続グループ化手段
409が文字または2文字連続の場合と同様にグループ
化を行う。高頻度3文字連続については、各高頻度3文
字連続だけから成るグループにする。その後、索引型式
出力手段410が各グループに対して1bitの索引情
報を割り当てるような索引型式データ411を出力す
る。
【0008】このようにして、文字および文字列の出現
の度合が異なっていても、検索条件によらずに絞り込み
率以下に検索対象文書データを絞り込むことを可能に
し、多くの種類の低頻度文字がある場合でも、容量の小
さな索引を作成することを可能にするような索引型式デ
ータを作成することができる。
【0009】
【発明が解決しようとする課題】しかしながら、文字お
よび文字列をグループ化する上記の従来技術では、サン
プル文書において出現頻度の低い文字および文字列は利
用者の検索要求にどれほど使われるかということとは関
係なく、当該グループに属する文字および文字列の少な
くとも1種が出現する度合が予め定められた絞り込み率
を越えないようにグループ化されてしまうため、検索速
度の向上は絞り込み率の逆数倍程度に抑えられ、それ以
上には検索速度は向上できないという課題があった。
【0010】また、利用者が設定できるパラメータは検
索対象文書の絞り込み率であり、絞り込み率によって変
化する索引データ量を予め知ることができないため、記
憶容量に制限のある場合などには、索引型式データの作
成を繰り返し行って適切な絞り込み率を求める必要があ
り、必要な索引型式データ作成までに時間がかかるとい
う課題があった。
【0011】本発明は、上記従来技術の課題を解決する
もので、利用者が設定した特定の検索要求に対して、も
しくは過去の検索履歴から調べた利用者が良く用いる検
索要求に対しては、他の検索要求に対する検索速度を低
下させることなく絞り込み率の逆数倍を上回る高速な検
索を可能にする索引型式作成装置を提供することを目的
とする。また、索引データ量に対する制限を直接与える
ことにより、適切な絞り込み率を自動的に設定して索引
型式を作成することのできる索引型式作成装置を提供す
ることを目的とする。
【0012】
【課題を解決するための手段】上記目的を達成するため
に、本発明による索引型式作成装置は、1つの要素だけ
からなる単独グループに入れる文字または文字列を指定
する特別区分入力手段を備え、その他に従来技術による
索引作成装置の持つ、サンプル文書データ中のある1文
字の出現の度合を統計的に調べる文字出現頻度算定手段
と、(N−1)文字の文字列の出現の度合がある値より
も高い場合に、それら(N−1)文字の文字列全てを含
むN文字(Nは2、3、・・・の自然数)の文字列につ
いての出現の度合を統計的に調べる複数のN文字連続出
現頻度算定手段と、文字出現頻度算定手段および複数の
N文字連続出現頻度算定手段の出力と特別区分入力手段
の出力から文字または文字列をグループ化する複数のグ
ループ化手段とを備えたものである。
【0013】また本発明による索引型式作成装置は、過
去の検索要求履歴における検索要求文字列の出現頻度を
算定する検索要求文字列出現頻度算定手段を備え、その
他に従来技術による索引作成装置の持つ、サンプル文書
データ中のある1文字の出現の度合を統計的に調べる文
字出現頻度算定手段と、(N−1)文字の文字列の出現
の度合がある値よりも高い場合に、それら(N−1)文
字の文字列全てを含むN文字(Nは2、3、・・・の自
然数)の文字列についての出現の度合を統計的に調べる
複数のN文字連続出現頻度算定手段と、文字出現頻度算
定手段および複数のN文字連続出現頻度算定手段の出力
と検索要求文字列出現頻度算定手段の出力から文字また
は文字列をグループ化する複数のグループ化手段とを備
えたものである。
【0014】また本発明による索引型式作成装置は、サ
ンプル文書データ中のある1文字の出現の度合を統計的
に調べる文字出現頻度算定手段と、(N−1)文字の文
字列の出現の度合がある値よりも高い場合に、それら
(N−1)文字の文字列全てを含むN文字(Nは2、
3、・・・の自然数)の文字列についての出現の度合を
統計的に調べる複数のN文字連続出現頻度算定手段と、
索引データ量に対する制限を入力するための最大索引量
入力手段と、文字出現頻度算定手段および複数のN文字
連続出現頻度算定手段の出力と最大索引量入力手段の出
力から最大索引量以下の大きさの索引作成を可能とする
絞り込み率を求め、再度文字出現頻度算定手段および複
数のN文字連続出現頻度算定手段に結果を出力する絞り
込み率算定手段と、文字出現頻度算定手段および複数の
N文字連続出現頻度算定手段の出力から文字または文字
列をグループ化する複数のグループ化手段とを備えたも
のである。
【0015】
【作用】本発明は上記構成によって、予め与えられた絞
り込み率に対してサンプル文書データ中の文字または文
字列の出現の度合を文字出現頻度算定手段および複数の
N文字連続出現頻度算定手段が調べた後、グループ化手
段が文字および文字列の区分を決定する際に、特別区分
入力手段で入力された文字および文字列についてその構
成文字のうち低頻度文字を、その文字だけからなるグル
ープとして登録することによって、それらを含む検索要
求文字列で検索した場合に、他の検索要求に対する検索
速度を低下させることなく、さらに高速な検索が可能と
なる索引型式を作成することができる。
【0016】また、予め与えられた絞り込み率に対して
サンプル文書データ中の文字または文字列の出現の度合
を文字出現頻度算定手段および複数のN文字連続出現頻
度算定手段が調べた後、グループ化手段が文字および文
字列の区分を決定する際に、過去の検索要求履歴におけ
る検索要求文字列の出現頻度を検索要求文字列出現頻度
算定手段によって算定し、高頻度で現れる検索要求文字
列についてその構成文字のうちサンプル文書中の低頻度
文字であるものは、その文字だけからなるグループとし
て登録することによって、各利用者が良く用いる検索要
求に対して高速な検索が可能となる索引型式を自動的に
作成することができる。
【0017】また、予め与えられた絞り込み率に対して
サンプル文書データ中の文字または文字列の出現の度合
を文字出現頻度算定手段および複数のN文字連続出現頻
度算定手段が調べ、絞り込み率算定手段が文字および文
字列の出現頻度から最大索引量入力手段で入力された索
引量を上限として絞り込み率を算定し、さらにこの絞り
込み率に対して再度文字または文字列の出現の度合を文
字出現頻度算定手段および複数のN文字連続出現頻度算
定手段が調べ、その後グループ化手段が文字および文字
列の区分を決定することによって、記憶容量に制限のあ
る場合でも、予め設定された最大索引量を越えない範囲
で最も高速化が図れるような索引型式を短時間に作成す
ることができる。
【0018】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図
面を参照しながら説明する。図1は本発明の第1の実施
例における索引型式作成装置の構成を示すブロック図で
ある。図1において、101は文書データを構成する複
数の文書レコードを格納したサンプル文書データであ
る。サンプル文書データ101は、検索対象文書データ
の全部または一部でもよく、検索対象文書データに対
し、文字および文字列の出現に関する統計的性質が類似
している他の文書データであってもよい。102はサン
プル文書データ101中の各文書レコードの位置を記録
したサンプル文書区切りデータ、103はサンプル文書
区切りデータ102の位置情報に従ってサンプル文書デ
ータ101から指定された文書レコードを切り出して、
レコード先頭を表す特別な文字<START>を文書レ
コード先頭に付与し、レコード終了を表す特別な文字<
END>を文書レコード末尾に付与した文字列を出力す
る文書区切り手段、104は文書区切り手段103の出
力である文書レコード文字列を受け取ってサンプル文書
データ101中に出現する各文字の出現の度合を「当該
文字の出現する文書レコードの文字数の総和を全文書レ
コードの文字数の総和で除した値」として算定する文字
出現頻度算定手段、105は文書区切り手段103の出
力である文書レコード文字列と、文字出現頻度算定手段
104の算定結果とを受けとってサンプル文書データ1
01中に高頻度で出現する2文字連続の出現の度合を
「当該2文字連続の出現する文書レコードの文字数の総
和を全文書レコードの文字数の総和で除した値」として
算定する2文字連続出現頻度算定手段、106は文書区
切り手段103の出力である文書レコード文字列と2文
字連続出現頻度算定手段105の算定結果とを受け取っ
て、サンプル文書データ101中に高頻度で出現する3
文字連続の出現の度合を「当該3文字連続の出現する文
書レコードの文字数の総和を全文書レコードの文字数の
総和で除した値」として算定する3文字連続出現頻度算
定手段、107は文字出現頻度算定手段104の算定結
果を受け取って、出現の度合が予め定められた「絞り込
み率」以下である複数の文字をグループ化し、グループ
に属するいずれかの文字が出現する度合が絞り込み率を
越えない範囲で絞り込み率にもっとも近くなるように調
整する文字グループ化手段、108は2文字連続出現頻
度算定手段105の算定結果を受け取って、出現の度合
が絞り込み率以下である複数の2文字連続をグループ化
し、グループに属するいずれかの2文字連続が出現する
度合が絞り込み率を越えない範囲で絞り込み率に最も近
くなるように調整する2文字連続グループ化手段、10
9は3文字連続出現頻度算定手段106の算定結果を受
け取って、出現の度合が絞り込み率以下である複数の3
文字連続がある場合には、これをグループ化し、グルー
プに属するいずれかの3文字連続が出現する度合が絞り
込み率を越えない範囲で絞り込み率に最も近くなるよう
に調整し、出現の度合が絞り込み率よりも高い3文字連
続はそれ1つだけで1グループにする3文字連続グルー
プ化手段、110は文字グループ化手段107と2文字
連続グループ化手段108と3文字連続グループ化手段
109の出力であるグループ化情報を受け取って各グル
ープに通し番号を付与し、各グループの通し番号と、所
属文字あるいは2文字連続あるいは3文字連続との対応
表を出力する索引型式出力手段、111は索引型式出力
手段110の出力する索引型式データである。そして、
112は文字グループ化手段107に対して、指定した
要素だけからなるグループを作成するよう指示する特別
区分入力手段である。
【0019】以上のように構成された索引型式作成装置
について、その動作を説明する。まず、サンプル文書デ
ータ101中の各文書レコードが、文書区切り手段10
3で切り出されて、文字出現頻度算定手段104に送ら
れ、各文字の出現の度合が、該当文字の出現する文書レ
コードの文字数の総和/全文書レコードの文字数の総和
によって算定される。利用者は、特別区分入力手段11
2により検索速度を改善したい検索要求文字列を入力す
る。文字グループ化手段107は、文字出現頻度算定手
段104の算定結果を受け取って、出現の度合が予め定
められた「絞り込み率」以下である複数の文字をグルー
プ化し、グループに属するいずれかの文字が出現する度
合が絞り込み率を越えない範囲で絞り込み率に最も近く
なるように調整する。この時、グループのいずれかの文
字が現れる度合の算定法は、グループ内の各文字の出現
が統計的に独立であると仮定し、以下の式から求める。
【0020】
【数1】 ただし、Pはグループ内のn個の文字のいずれかが現れ
る度合であり、Pj (j=1,2,・・・n)はグルー
プ内のj番目の文字が現れる度合である。
【0021】またグループ化の際、特別区分入力手段1
12で入力された文字または各文字列についてその構成
文字のうち文字出現頻度算定手段104の結果が低頻度
である文字については、それらの各低頻度文字をその文
字だけからなる単独グループとして登録する。
【0022】サンプル文書データ101の1回目の走査
が終了したら、文書区切り手段103は、サンプル文書
データ101の2回目の走査を開始し、切り出した文書
レコードを2文字連続出現頻度算定手段105に送る。
2文字連続出現頻度算定手段105は、文書レコード中
の2文字連続のうちで、高頻度文字同士の連続のみを抽
出し、各2文字連続の出現度合が「当該2文字連続の出
現する文書レコードの文字数の総和/全文書レコードの
文字数の総和」によって算定される。高頻度文字同士か
らなる2文字連続のうち高頻度2文字連続以外のすべて
を、式(1)と同様の基準によってグループに属するい
ずれかの2文字連続が現れる度合が絞り込み率以下にな
るように、2文字連続グループ化手段108がグループ
化する。
【0023】こうして、サンプル文書データ101の2
回目の走査が終了したら、文書区切り手段103は、サ
ンプル文書データ101の3回目の走査を開始し、切り
出した文書レコードを3文字連続出現頻度算定手段10
6に送る。3文字連続出現頻度算定手段106は、文書
レコード中の3文字連続のうちで、(第1文字、第2文
字)および(第2文字、第3文字)がいずれも高頻度2
文字連続である3文字連続のみを抽出し、各3文字連続
の出現の度合が、「当該3文字連続の出現する文書レコ
ードの文字数の総和/全文書レコードの文字数の総和」
によって算定され、その結果が3文字連続グループ化手
段109に送られ、式(1)と同様の基準によって絞り
込み率をもとにグループ化される。
【0024】こうして得られたグループ化情報が、索引
型式出力手段110に送られ、低頻度文字グループ、2
文字連続グループ、3文字連続グループの1つ1つに対
して、1bitの索引情報を割り当てるような索引型式
を索引型式データ111に出力する。
【0025】以上のように、本実施例によれば、サンプ
ル文書中にはあまり出現しないが、利用者が高速で検索
したいという文字に対しては、特別区分に指定しグルー
プ化を行なわないことで、索引容量をあまり大きくする
ことなく、また他の検索要求に対する検索速度を低下さ
せることなく、その文字を含む検索要求対しては、高速
な検索が可能となる索引型式を作成することができる。
特に、特別区分に指定した1文字で検索した場合、絞り
込み率をc、当該文字が文書中に出現する度合をc’
(c’<c<1)とすれば、グループ化を行う従来の方
法では、全文書量のc倍の文書をフルテキストスキャン
しなければならないのに対し、本実施例によれば、全文
書量のc’倍の文書をフルテキストスキャンするだけで
よいので、検索速度はc/c’倍に向上する。
【0026】(実施例2)次に、本発明の第2の実施例
について、図面を参照しながら説明する。図2は本発明
の第2の実施例における索引型式作成装置の構成を示す
ブロック図である。図2において、201はサンプル文
書データ、202はサンプル文書区切りデータ、203
は文書区切り手段、204は文字出現頻度算定手段、2
05は2文字連続出現頻度算定手段、206は3文字連
続出現頻度算定手段、207は文字グループ化手段、2
08は2文字連続グループ化手段、209は3文字連続
グループ化手段、210は索引型式出力手段、211は
索引型式データである。そして、212は検索要求履歴
データ、213は過去の検索要求履歴データ212から
検索要求文字列の出現頻度を算定し、文字グループ化手
段207に対して、単一の要素だけからなるグループを
作成するよう指示する検索要求文字列出現頻度算定手段
である。
【0027】以上のように構成された索引型式作成装置
について、その動作を説明する。まず、サンプル文書デ
ータ201中の各文書レコードが、文書区切り手段20
3で切り出されて、文字出現頻度算定手段204に送ら
れ、各文字の出現の度合が、該当文字の出現する文書レ
コードの文字数の総和/全文書レコードの文字数の総和
によって算定される。文字グループ化手段207は、文
字出現頻度算定手段204の算定結果を受け取って、出
現の度合が予め定められた「絞り込み率」以下である複
数の文字をグループ化し、グループに属するいずれかの
文字が出現する度合が絞り込み率を越えない範囲で絞り
込み率に最も近くなるように調整する。この時、グルー
プのいずれかの文字が現れる度合の算定法は、グループ
内の各文字の出現が統計的に独立であると仮定し、式
(1)から求める。またグループ化の際、検索要求文字
列出現頻度算定手段213が検索要求履歴データ212
から算定した出現頻度が高い検索要求文字または文字列
について、その構成文字のうち文字出現頻度算定手段2
04の結果が低頻度である文字については、それらの各
低頻度文字をその文字だけからなる単独グループとして
登録する。
【0028】サンプル文書データ201の1回目の走査
が終了したら、文書区切り手段203は、サンプル文書
データ201の2回目の走査を開始し、切り出した文書
レコードを2文字連続出現頻度算定手段205に送る。
2文字連続出現頻度算定手段205は、文書レコード中
の2文字連続のうちで、高頻度文字同士の連続のみを抽
出し、各2文字連続の出現度合が「当該2文字連続の出
現する文書レコードの文字数の総和/全文書レコードの
文字数の総和」によって算定される。高頻度文字同士か
らなる2文字連続のうち高頻度2文字連続以外のすべて
を、式(1)と同様の基準によってグループに属するい
ずれかの2文字連続が現れる度合が絞り込み率以下にな
るように、2文字連続グループ化手段208がグループ
化する。
【0029】こうして、サンプル文書データ201の2
回目の走査が終了したら、文書区切り手段203は、サ
ンプル文書データ201の3回目の走査を開始し、切り
出した文書レコードを3文字連続出現頻度算定手段20
6に送る。3文字連続出現頻度算定手段206は、文書
レコード中の3文字連続のうちで、(第1文字、第2文
字)および(第2文字、第3文字)がいずれも高頻度2
文字連続である3文字連続のみを抽出し、各3文字連続
の出現の度合が、「当該3文字連続の出現する文書レコ
ードの文字数の総和/全文書レコードの文字数の総和」
によって算定され、その結果が3文字連続グループ化手
段209に送られ、式(1)と同様の基準によって絞り
込み率をもとにグループ化される。
【0030】こうして得られたグループ化情報が、索引
型式出力手段210に送られ、低頻度文字グループ、2
文字連続グループ、3文字連続グループの1つ1つに対
して、1bitの索引情報を割り当てるような索引型式
を索引型式データ211に出力する。
【0031】以上のように、本実施例によれば、サンプ
ル文書中にはあまり出現しないが、利用者が検索要求と
して頻繁に用いるという文字を検索要求履歴から自動的
に選びだし、そのような文字に対してはグループ化を行
なわないことで、索引容量をあまり大きくすることな
く、また他の検索要求に対する検索速度を低下させるこ
となく、各利用者に応じた高速な検索を可能にする索引
型式を作成することができる。
【0032】(実施例3)次に、本発明の第3の実施例
について、図面を参照しながら説明する。図3は本発明
の一実施例における索引型式作成装置の構成を示すブロ
ック図である。図3において、301はサンプル文書デ
ータ、302はサンプル文書区切りデータ、303は文
書区切り手段、304は文字出現頻度算定手段、305
は2文字連続出現頻度算定手段、306は3文字連続出
現頻度算定手段、307は文字グループ化手段、308
は2文字連続グループ化手段、309は3文字連続グル
ープ化手段、310は索引型式出力手段、311は索引
型式データである。そして、312は作成する索引の最
大量を入力する最大索引量入力手段、313は最大索引
量入力手段312からの入力と文字出現頻度算定手段3
04の算定結果と2文字連続出現頻度算定手段305の
算定結果と3文字連続出現頻度算定手段306の算定結
果を受け取って絞り込み率を算定し、その結果を再度文
字出現頻度算定手段304と2文字連続出現頻度算定手
段305と3文字連続出現頻度算定手段306に出力す
る絞り込み率算定手段である。
【0033】以上のように構成された索引型式作成装置
について、その動作を説明する。まず、サンプル文書デ
ータ301中の各文書レコードが、文書区切り手段30
3で切り出されて、文字出現頻度算定手段304に送ら
れ、各文字の出現の度合が、「該当文字の出現する文書
レコードの文字数の総和/全文書レコードの文字数の総
和」によって算定される。文書中に出現した文字の総数
をNとし、絞り込み率の初期値として予め定められた値
cよりも高い出現頻度をもつ文字を高頻度文字(その数
をα(c))とし、それ以外の文字を低頻度文字とす
る。
【0034】サンプル文書データ301の1回目の走査
が終了したら、文書区切り手段303は、サンプル文書
データ301の2回目の走査を開始し、切り出した文書
レコードを2文字連続出現頻度算定手段305に送る。
2文字連続出現頻度算定手段305は、文書レコード中
の2文字連続のうちで、高頻度文字同士の連続のみを抽
出し(その総数をW(c)とする)、各2文字連続の出
現度合が「当該2文字連続の出現する文書レコードの文
字数の総和/全文書レコードの文字数の総和」によって
算定される。cよりも高い出現頻度をもつ2文字連続を
高頻度2文字連続(その数をβ(c))とする。
【0035】こうして、サンプル文書データ301の2
回目の走査が終了したら、文書区切り手段303は、サ
ンプル文書データ301の3回目の走査を開始し、切り
出した文書レコードを3文字連続出現頻度算定手段30
6に送る。3文字連続出現頻度算定手段306は、文書
レコード中の3文字連続のうちで、(第1文字、第2文
字)および(第2文字、第3文字)がいずれも高頻度2
文字連続である3文字連続のみを抽出し(その総数をT
(c)とする)、各3文字連続の出現の度合が、「当該
3文字連続の出現する文書レコードの文字数の総和/全
文書レコードの文字数の総和」によって算定される。c
よりも高い出現頻度をもつ3文字連続を高頻度3文字連
続(その数をγ(c))とする。
【0036】こうして得られた絞り込み率の初期値cに
対する文字出現頻度分布、2文字連続出現頻度分布、3
文字連続出現頻度分布と最大索引量入力手段312で入
力された索引量の上限から、再度出現頻度分布を調べる
ことなく、絞り込み率算定手段313が以下のような方
法で絞り込み率を決定する。
【0037】文字出現頻度分布は、絞り込み率によって
変化しない。したがって、絞り込み率c1 のときの高頻
度文字数は、前に調べた文字出現頻度分布から直接知る
ことができ、これをα(c1 )とする。文書中に現れる
高頻度文字同士の2文字連続の数は、任意の高頻度文字
同士の組合せの総数に比例すると仮定すると、絞り込み
率c1 のときの高頻度文字同士の2文字連続の数W(c
1 )は、式(2)によって表される。 W(c1 )=W(c)×{α(c1 2 /α(c)2 } ・・・(2) 絞り込み率c1 における2文字連続出現頻度分布(x軸
にランク、y軸に出現頻度をとったもの)は絞り込み率
cにおける2文字連続出現頻度分布をx軸方向に拡大縮
小したものと仮定すると、絞り込み率c1 に対する高頻
度2文字連続の数β(c1 )は、絞り込み率cに対する
2文字連続出現頻度分布で出現頻度がc 1 より高くなる
2文字連続の数β’(c1 )を用いて式(3)のように
表せる。 β(c1 )=β’(c1 )×{W(c1 )/W(c)} =β’(c1 )×{α(c1 2 /α(c)2 }・・・(3)
【0038】また、文書中に現れる3文字連続のうち
で、(第1文字、第2文字)および(第2文字、第3文
字)がいずれも高頻度2文字連続であるような3文字連
続の数は、任意の高頻度2文字連続同士の組合せの総数
に比例すると仮定すると、絞り込み率c1 のときの前記
の条件を満たす3文字連続の数T(c1 )は、式(4)
によって表される。 T(c1 )=T(c)×{β(c1 2 /β(c)2 } ・・・(4)
【0039】絞り込み率c1 のときの3文字連続出現頻
度分布は、絞り込み率cのときの3文字連続出現頻度分
布をx軸方向に拡大縮小したものと仮定すると、絞り込
み率c1 に対する高頻度3文字連続の数γ(c1 )は、
絞り込み率cに対する3文字連続出現頻度分布において
出現頻度がc1 より高くなる3文字連続の数γ’
(c 1 )を用いて、式(5)のように表せる。 γ(c1 )=γ’(c1 )×{T(c1 )/T(c)} =γ’(c1 )×{β(c1 2 /β(c)2 }・・・(5)
【0040】作成される索引の大きさは、後の各グルー
プ化手段によって得られる低頻度文字グループ、低頻度
2文字連続グループ、3文字連続グループの総数に文書
レコード数Rを乗じたもの(単位bit)になる。絞り
込み率c1 に対する低頻度文字の出現頻度の総和をS1
とすると、低頻度文字グループの数はS1 /c1 と近似
できる。絞り込み率c1 に対する低頻度2文字連続の出
現頻度の総和S2 は、3直線x=β(c1 )、x=W
(c1 )、y=0と絞り込み率c1 に対する2文字連続
出現頻度分布の曲線で囲まれた面積と考えられるので、
3直線x=β’(c1 )、x=W(c)、y=0と絞り
込み率cに対する2文字連続出現頻度分布の曲線で囲ま
れた面積、すなわち絞り込み率cに対する2文字連続出
現頻度分布において出現頻度がc1 以下であるような2
文字連続の出現頻度の総和S2 ’を用いて式(6)のよ
うに表せる。 S2 =S2 ’×{W(c1 )/W(c)} =S2 ’×{α(c1 2 /α(c)2 } ・・・(6)
【0041】3文字連続グループの総数については、高
頻度3文字連続の数は無視できるほど少ないと仮定し、
低頻度3文字連続のみを考える。絞り込み率c1 に対す
る低頻度3文字連続の出現頻度の総和S3 は、3直線x
=γ(c1 )、x=T(c1)、y=0と絞り込み率c
1 に対する3文字連続出現頻度分布の曲線で囲まれた面
積と考えられるので、3直線x=γ’(c1 )、x=T
(c)、y=0と絞り込み率cに対する3文字連続出現
頻度分布の曲線で囲まれた面積、すなわち絞り込み率c
に対する3文字連続出現頻度分布において出現頻度がc
1 以下であるような3文字連続の出現頻度の総和S3
を用いて、式(7)のように表せる。 S3 =S3 ’×{T(c1 )/T(c)} =S3 ’×{β(c1 2 /β(c)2 } =S3 ’×{β’(c1 2 /β(c)2 }×{α(c1 4 /α(c )4 } ・・・(7)
【0042】すなわち絞り込み率c1 としたときに作成
される索引の大きさI(c1 )(単位はbit)は、絞
り込み率cにおける各出現頻度分布から算出できる値に
よって、式(8)のように近似的に求めることができ
る。 I(c1 )={(S1 +S2 +S3 )/c1 }×R =[[S1 +S2 ’×{α(c1 2 /α(c)2 } +S3 ’×{β’(c1 2 /β(c)2 } ×{α(c1 4 /α(c)4 }]/c1 ]×R・・(8)
【0043】絞り込み率算定手段313は、最大索引量
以下の大きさの索引作成を可能にする絞り込み率c1
算定し、再度、文字出現頻度算定手段304、2文字連
続出現頻度算定手段305、3文字連続出現頻度算定手
段306に出力する。
【0044】文字グループ化手段307は、文字出現頻
度算定手段304の算定結果を受け取って、出現の度合
が絞り込み率c1 以下である複数の文字をグループ化
し、グループに属するいずれかの文字が出現する度合が
絞り込み率を越えない範囲で絞り込み率に最も近くなる
ように調整する。この時、グループのいずれかの文字が
現れる度合の算定法は、グループ内の各文字の出現が統
計的に独立であると仮定し、式(1)から求める。
【0045】2文字連続出現頻度算定手段305は、文
書レコード中の2文字連続のうちで、高頻度文字同士の
連続のみを抽出し、各2文字連続の出現度合が「当該2
文字連続の出現する文書レコードの文字数の総和/全文
書レコードの文字数の総和」によって算定される。高頻
度文字同士からなる2文字連続のうち高頻度2文字連続
以外のすべてを、式(1)と同様の基準によってグルー
プに属するいずれかの2文字連続が現れる度合が絞り込
み率以下になるように、2文字連続グループ化手段30
8がグループ化する。
【0046】3文字連続出現頻度算定手段306は、文
書レコード中の3文字連続のうちで、(第1文字、第2
文字)および(第2文字、第3文字)がいずれも高頻度
2文字連続である3文字連続のみを抽出し、各3文字連
続の出現の度合が、「当該3文字連続の出現する文書レ
コードの文字数の総和/全文書レコードの文字数の総
和」によって算定され、その結果が3文字連続グループ
化手段309に送られ、式(1)と同様の基準によって
絞り込み率c1 をもとにグループ化される。
【0047】こうして得られたグループ化情報が、索引
型式出力手段310に送られ、低頻度文字グループ、2
文字連続グループ、3文字連続グループの1つ1つに対
して、1bitの索引情報を割り当てるような索引型式
を索引型式データ311に出力する。
【0048】以上のように、本実施例によれば、コンピ
ュータの記憶容量に制限がある場合でも、索引データ量
の上限を直接与えることにより適切な絞り込み率を自動
的に求め、何度も索引型式の作成を繰り返すことをしな
くても要求を満たす大きさの索引型式を作成することが
できる。
【0049】
【発明の効果】以上のように、本発明によれば、利用者
が設定した特定の検索要求に対して、もしくは過去の検
索履歴から調べた利用者が良く用いる検索要求に対して
は、他の検索要求に対する検索速度を低下させることな
く、予め指定された絞り込み率の逆数倍を上回る検索速
度の向上を実現する索引型式を作成することができる。
【0050】また、記憶装置の容量に制限のある場合な
どに、作成される索引量の上限を利用者が設定でき、何
度も試行錯誤を繰り返して最適な絞り込み率を決定する
必要がなく、利用者の手間が省けるとともに、トータル
な索引型式作成時間の短縮が可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施例における索引型式作成装
置の構成を示すブロック図
【図2】本発明の第2の実施例における索引型式作成装
置の構成を示すブロック図
【図3】本発明の第3の実施例における索引型式作成装
置の構成を示すブロック図
【図4】従来技術による索引型式作成装置の構成を示す
ブロック図
【符号の説明】
101 サンプル文書データ 102 サンプル文書区切りデータ 103 文書区切り手段 104 文字出現頻度算定手段 105 2文字連続出現頻度算定手段 106 3文字連続出現頻度算定手段 107 文字グループ化手段 108 2文字連続グループ化手段 109 3文字連続グループ化手段 110 索引型式出力手段 111 索引型式データ 112 特別区分入力手段 201 サンプル文書データ 202 サンプル文書区切りデータ 203 文書区切り手段 204 文字出現頻度算定手段 205 2文字連続出現頻度算定手段 206 3文字連続出現頻度算定手段 207 文字グループ化手段 208 2文字連続グループ化手段 209 3文字連続グループ化手段 210 索引型式出力手段 211 索引型式データ 212 検索要求履歴データ 213 検索要求文字列出現頻度算定手段 301 サンプル文書データ 302 サンプル文書区切りデータ 303 文書区切り手段 304 文字出現頻度算定手段 305 2文字連続出現頻度算定手段 306 3文字連続出現頻度算定手段 307 文字グループ化手段 308 2文字連続グループ化手段 309 3文字連続グループ化手段 310 索引型式出力手段 311 索引型式データ 312 最大索引量入力手段 313 絞り込み率算定手段 401 サンプル文書データ 402 サンプル文書区切りデータ 403 文書区切り手段 404 文字出現頻度算定手段 405 2文字連続出現頻度算定手段 406 3文字連続出現頻度算定手段 407 文字グループ化手段 408 2文字連続グループ化手段 409 3文字連続グループ化手段 410 索引型式出力手段 411 索引型式データ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−105237(JP,A) 岩崎雅二郎、小川泰嗣,「文字成分表 による文字列検索の実現と評価」,情報 処理学会研究報告,Vol.93,No. 29(93−DBS−92−1),1993年3月 22日,p.1−10 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 サンプル文書データ中のある1文字の出
    現の度合を統計的に調べる文字出現頻度算定手段と、
    (N−1)文字の文字列の出現の度合がある値よりも高
    い場合に、それら(N−1)文字の文字列全てを含むN
    文字(Nは2、3、・・・の自然数)の文字列について
    の出現の度合を統計的に調べる複数のN文字連続出現頻
    度算定手段と、1つの要素だけからなる単独グループに
    入れる文字または文字列を指定する特別区分入力手段
    と、前記文字出現頻度算定手段および前記複数のN文字
    連続出現頻度算定手段の出力と前記特別区分入力手段の
    出力から文字または文字列をグループ化する複数のグル
    ープ化手段とを備えることを特徴とする索引型式作成装
    置。
  2. 【請求項2】 サンプル文書データ中のある1文字の出
    現の度合を統計的に調べる文字出現頻度算定手段と、
    (N−1)文字の文字列の出現の度合がある値よりも高
    い場合に、それら(N−1)文字の文字列全てを含むN
    文字(Nは2、3、・・・の自然数)の文字列について
    の出現の度合を統計的に調べる複数のN文字連続出現頻
    度算定手段と、過去の検索要求履歴における検索要求文
    字列の出現頻度を算定する検索要求文字列出現頻度算定
    手段と、前記文字出現頻度算定手段および前記複数のN
    文字連続出現頻度算定手段の出力と前記検索要求文字列
    出現頻度算定手段の出力から文字または文字列をグルー
    プ化する複数のグループ化手段とを備えることを特徴と
    する索引型式作成装置。
  3. 【請求項3】 サンプル文書データ中のある1文字の出
    現の度合を統計的に調べる文字出現頻度算定手段と、
    (N−1)文字の文字列の出現の度合がある値よりも高
    い場合に、それら(N−1)文字の文字列全てを含むN
    文字(Nは2、3、・・・の自然数)の文字列について
    の出現の度合を統計的に調べる複数のN文字連続出現頻
    度算定手段と、索引データ量に対する制限を入力するた
    めの最大索引量入力手段と、前記文字出現頻度算定手段
    および前記複数のN文字連続出現頻度算定手段の出力と
    前記最大索引量入力手段の出力から最大索引量以下の大
    きさの索引作成を可能にする絞り込み率を求め、再度前
    記文字出現頻度算定手段および前記複数のN文字連続出
    現頻度算定手段に結果を出力する絞り込み率算定手段
    と、前記文字出現頻度算定手段および前記複数のN文字
    連続出現頻度算定手段の出力から文字または文字列をグ
    ループ化する複数のグループ化手段とを備えることを特
    徴とする索引型式作成装置。
JP7121065A 1995-05-19 1995-05-19 索引型式作成装置 Expired - Fee Related JP2996895B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7121065A JP2996895B2 (ja) 1995-05-19 1995-05-19 索引型式作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7121065A JP2996895B2 (ja) 1995-05-19 1995-05-19 索引型式作成装置

Publications (2)

Publication Number Publication Date
JPH08314964A JPH08314964A (ja) 1996-11-29
JP2996895B2 true JP2996895B2 (ja) 2000-01-11

Family

ID=14801979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7121065A Expired - Fee Related JP2996895B2 (ja) 1995-05-19 1995-05-19 索引型式作成装置

Country Status (1)

Country Link
JP (1) JP2996895B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4574186B2 (ja) * 2004-02-17 2010-11-04 株式会社リコー 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3081093B2 (ja) * 1993-10-08 2000-08-28 松下電器産業株式会社 索引作成方法およびその装置と文書検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岩崎雅二郎、小川泰嗣,「文字成分表による文字列検索の実現と評価」,情報処理学会研究報告,Vol.93,No.29(93−DBS−92−1),1993年3月22日,p.1−10

Also Published As

Publication number Publication date
JPH08314964A (ja) 1996-11-29

Similar Documents

Publication Publication Date Title
US6587850B2 (en) Method and apparatus for profile score threshold setting and updating
US6658626B1 (en) User interface for displaying document comparison information
CA2618854C (en) Ranking search results using biased click distance
KR100304335B1 (ko) 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
US7792833B2 (en) Ranking search results using language types
US9015194B2 (en) Root cause analysis using interactive data categorization
US8862565B1 (en) Techniques for web site integration
CN109783787A (zh) 一种结构化文档的生成方法、装置及存储介质
EP1003111B1 (en) A method of searching documents and a service for searching documents
US8015171B2 (en) Document analysis and retrieval
US5761666A (en) Document retrieval system
CA2275391C (en) File processing method, data processing device, and storage medium
JP2002230012A (ja) ドキュメントクラスタリング装置
JP2996895B2 (ja) 索引型式作成装置
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JPH064584A (ja) 文章検索装置
JPH11282874A (ja) 情報フィルタリング方法および装置
JPH11338873A (ja) 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
JP2773682B2 (ja) 適合フィードバック装置
US20050198059A1 (en) Database and database management system
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH09185632A (ja) 情報検索・編集方法及び装置
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees