JPH08161357A

JPH08161357A - 文書管理装置

Info

Publication number: JPH08161357A
Application number: JP7121370A
Authority: JP
Inventors: Masajirou Iwasaki; 雅二郎岩崎; Yasutsugu Ogawa; 泰嗣小川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1994-06-02
Filing date: 1995-05-19
Publication date: 1996-06-21
Anticipated expiration: 2019-09-08
Also published as: JP3563823B2

Abstract

(57)【要約】【目的】文字成分表の構成を目的に合わせて変更でき
るようにし、効率的な文書管理システムを構築するこ
と。【構成】文書登録手段２は、文書データベース９に登
録文書１の登録操作を行う。該文書データベース９に
は、文書本文データ８と文字成分表７と文字成分表エン
トリ指定６とが含まれる。文字成分表７は、登録文書１
に含まれる各文字あるいは文字列から抽出された情報の
存在の有無を文書ごとに記録した表である。文書登録手
段２は、登録文書１を保存するとともに、該登録文書１
に含まれる各文字あるいは連続する２文字から算出され
る値を前記文字成分表７に登録し記録する。文書検索手
段４は、前記文字成分表７を用いて検索条件３に該当す
る文書５を高速に探し出す。文字成分表エントリ指定６
により文字成分表７の構成を変更可能とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書管理装置に関し、
より詳細には、文字成分表を利用し、全文書に対して文
字列を検索する文書管理装置に関するもので、例えば、
文書管理システムや画像管理システム，データベース管
理システム等に適用し得るものである。

【０００２】

【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平５−３２４７２２号公
報がある。この公報のものは、文字列検索において、利
用する文字成分表を小さく抑え、かつ、検索程度を上
げ、高速な文書登録を可能とするために、入力部に入力
された検索文字列は、処理部の文字列入力処理で処理
し、文書検索処理部において、データ部の文字成分表を
利用して文字列を含むと思われる文書を検索する。検索
した文書に対応する文書データを文書出力処理により出
力部に出力し、文書登録処理では、登録する文書を文書
データに登録し、文書データより文字成分を抽出して文
字成分表に登録する。検索文字列を文書から検索する場
合、文字成分表として、文字成分が文書中に存在するか
否かを示す１文字成分表及び隣接する文字から抽出した
あるビット列が文書中に存在するか否かを示す隣接文字
成分表を利用して文書を検索する。すなわち、文書ごと
に出現した文字を記録した文字成分表を用いて文書を高
速に検索するシステムである。

【０００３】また、前述した特開平５−３２４７２２号
公報や、先に提案した特願平５−２９８４３３号に記載
のものは、文字成分が文書中に存在するか否かを示す単
一文字成分表、及び隣接する文字から抽出したある文字
成分が文書中に存在するか否かを示す隣接文字成分表を
利用して文書を検索するもので、さらに、文字成分表は
可変長の文字エントリを固定長ブロックに分割して二次
記憶に格納し、検索処理を高速にするために、小さいブ
ロックを大きなブロックにまとめ上げる処理を行うもの
である。

【０００４】

【発明が解決しようとする課題】しかし、前記公報等に
記載の方式には、以下に示すような問題点がある。．文字成分表の構成が固定的だった。．検索文字列が長くなるのに応じて検索時間がかか
る。．単一の文字列しか検索条件として指定できない。そ
のため、複数の文字列を論理演算子（ＡＮＤ，ＯＲ）で
組み合わせた条件を満たす文書を検索することができな
い。．文字成分表のビットマップデータを格納するブロッ
クの大きさ（ブロックサイズ）が固定的であるため、ブ
ロックサイズを小さくすると検索速度が低下し、ブロッ
クサイズを大きくすると登録速度が低下してしまう。．複数の文書を一括して登録する機能がなく、多量の
文書を登録するのに処理時間がかかる。．文書のデータがシステム内にあるので、ユーザにと
って参照するのに手間がかかったり、文書の登録，削
除，更新などの処理が面倒である。

【０００５】本発明は、このような実情に鑑みてなされ
たもので、文字成分表の構成を目的に合わせて変更で
きるようにすること、重複エントリを単一化して最適
化すること、また、文字成分表のエントリに３文字以上
のものを含めること、論理演算子に対応すること、ま
た、論理演算子に合わせた最適化すること、ブロック
サイズに大小２種類用意すること、従来の文字成分表
ではデータブロックが小さく二次記憶上で分散し、広範
囲の二次記憶をアクセスすることになり、検索速度が遅
いので、それを改善すること、従来では文字エントリ
へのアクセス、つまり二次記憶へのアクセスが多く、検
索速度の低下を招いていたので、それを改善すること、
多数の文書の登録処理の速度を改善すること、ユー
ザや他のアプリケーションによる登録文書の参照を容易
にすること、複数の文書の登録時の文書指定を容易に
すること、また、文書の登録，更新，削除があった場合
に当該装置の文書管理の自動化を行うようにした文書管
理装置を提供することを目的としている。

【０００６】

【課題を解決するための手段】本発明は、上記目的を達
成するために、（１）登録文書を保存するとともに、該
登録文書に含まれる各文字あるいは連続する２文字から
算出される値（文字成分）を文字成分表に登録し記録す
る文書登録手段と、前記文字成分表を用いて検索条件に
該当する文書を高速に探し出す文書検索手段とを有する
文書管理装置において、文字成分表エントリ指定により
前記文字成分表の構成を変更可能とすること、或いは、
（２）前記（１）において、前記登録文書を複数のフォ
ルダに分割して管理可能で、かつフォルダごとに文字成
分表エントリ指定のできること、或いは、（３）前記
（１）において、文書検索手段で単一の文字列から抽出
される文字成分に同一のものが二個以上ある場合、前記
文字成分表の文字成分に対するアクセスを一回しか行わ
ないこと、或いは、（４）前記（１）において、文字成
分の算出値として、連続する３文字以上の文字列から算
出される値をも用いること、或いは、（５）前記（４）
において、文書登録時の文字成分の算出において、連続
する３文字以上の文字列から算出される値を用いる場合
には、該文字列から１文字あるいは連続する２文字から
算出される値を文字成分表に登録しないこと、或いは、
（６）前記（１）において、前記文書検索手段におい
て、単一の文字列あるいは複数の文字列をＡＮＤ論理演
算子あるいはＯＲ論理演算子で組み合わせた検索条件を
処理可能とすること、或いは、（７）前記（６）におい
て、前記文書検索手段でＡＮＤ論理演算子で結合される
２つの文字列から抽出される文字成分に同一のものが２
個以上ある場合、文字成分表の文字成分に対するアクセ
スを一回しか行わないこと、或いは、（８）前記（６）
において、前記文書検索手段でＯＲ論理演算子で結合さ
れる２つの文字列から抽出される文字成分に同一のもの
が２個以上ある場合、文字成分表の文字成分に対するア
クセスを一回しか行わないこと、或いは、（９）前記
（１）において、前記文字成分表を、該文字成分表を保
存する大小２種類のブロックから構成されるデータファ
イルと、文字成分ごとのブロック位置を記録するインデ
ックスファイルによって記憶し、複数の小さいブロック
を大きいブロックにまとめるブロック融合手段を有する
こと、或いは、（１０）前記（９）において、前記ブロ
ック融合手段において、データファイルの前方に大きい
ブロックをまとめ、後方に小さいブロックをまとめるこ
と、或いは、（１１）前記（１０）において、前記ブロ
ック融合手段において、データファイルの小さいブロッ
クが存在する領域のみをブロック融合の対象とするこ
と、或いは、（１２）前記（９）において、前記ブロッ
ク融合手段において、検索時に高速に文字成分表エント
リを二次記憶から読み出すために、複数の固定長ブロッ
クに分割された各文字成分表エントリを大きな固定長ブ
ロックにまとめあげる時に大きな固定長ブロックをアロ
ケートの単位とし、まとめ上げられた大きな固定長ブロ
ック及びまとめあげられなかった残りの小さな固定長ブ
ロックを詰め込んだ大きな固定長ブロックを順時書き出
すことによって、文字成分表のデータを一回のスキャン
で処理し、高速にかつ処理時に必要な二次記憶領域を最
小限に抑えること、或いは、（１３）大量の文書データ
を保持し、入力装置から入力された検索文字列を含む文
書を検索し、出力装置により検索した文書を出力する文
書管理装置であって、文書登録時に文書より各文字コー
ド成分（単一文字成分）及び２文字以上の隣接文字から
抽出したビット列成分（隣接文字成分）を抽出し、各文
書がそれぞれの成分を含むか否かを示す単一文字成分表
及び一つ以上の隣接文字成分表を生成し、該文字成分表
の可変長の各文字成分のエントルを複数の固定長ブロッ
クに分割して二次記憶に登録し、検索時には検索文字列
から登録時と同様に単一文字成分及び２文字以上の隣接
文字成分を抽出し、該隣接文字成分に対応する二次記憶
上の固定長ブロックを統合し、各文字エントリを生成し
て文書を検索する文書管理装置において、仮に文字エン
トリで文字成分が出現するビットを１とし、出現しない
ビットを０とした場合に、検索時に複数の文字エントリ
のビットマップのＡＮＤ処理を行う時に対象となる文字
エントリを一つ適当に選択し、ビット列をスキャンして
値が１である時だけ他のエントリの対応するビットを調
べ、全てのエントリの対応するビットの値が１である文
書を検索結果とすることにより、文字エントリのビット
マップへのアクセスを最小限に全文検索を行うこと、或
いは、（１４）前記（１３）において、文字エントリご
とに該文字エントリに出現する１のビットの個数（ビッ
ト出現数）をあらかじめ二次記憶に記録しておき、検索
時に複数の文字エントリのビットマップのＡＮＤ処理を
行う時に対象となる文字エントリのうち、該ビット出現
数の最も少ない文字エントリを選択し、ビット列をスキ
ャンして値が１である時だけビット出現数の少ない順に
他の文字エントリの対応するビットを調べ、全ての文字
エントリの対応するビットの値が１である文書を検索結
果とすることにより、文字エントリのビットマップへの
アクセスを最小限に抑え全文検索を行うこと、或いは、
（１５）前記（１３）において、文字エントリの一部へ
のアクセスの場合に、文字エントリの全ブロックを読み
出す必要がないように、可変長の文字エントリのビット
マップデータを複数の固定長のブロックに分割して二次
記憶に格納し、各固定長のブロックを管理するブロック
テーブルを二次記憶上に有し、該ブロックテーブルから
任意の固定長ブロックをアクセスできるようにすること
によって、必要のない二次記憶上のブロックへのアクセ
スを減らして全文検索を行うこと、或いは、（１６）登
録文書を保存するとともに、該登録文書に含まれる各文
字あるいは連続する２文字から算出される値（文字成
分）を文字成分表に登録し記録する文書登録手段と、前
記文字成分表を用いて検索条件に該当する文書を高速に
探し出す文書検索手段とを有し、前記文字成分表エント
リ指定により文字成分表の構成を変更可能とし、前記文
字成分表の構成を文書の各文字および連続する２文字か
ら算出される値を記録するものとした場合、前記文字検
索手段が検索文字列から連続する２文字から算出される
値のみを抽出すること、或いは、（１７）前記（１６）
において、前記文書検索手段が、検索文字列からの連続
する２文字から算出される値と、該検索文字列の末尾の
１文字から算出される値を抽出すること、或いは、（１
８）前記（１６）において、前記文書検索手段が、検索
文字列からの連続する２文字から算出される値と、該検
索文字列の先頭の１文字から算出される値を抽出するこ
と、或いは、（１９）前記（１８）において、前記文字
成分表の構成を連続する３文字以上の文字列から算出さ
れる値（文字列エントリ）をも用いる場合、前記文書検
索手段が、検索文字列から前記文字エントリが抽出され
る時には、該文字列エントリに対応する文字列に含まれ
る１文字あるいは前記文字列にその前後の文字を含めた
文字列に含まれる２文字から算出される値を抽出しない
こと、或いは、（２０）前記（１６）において、前記文
書検索手段が単一の文字列あるいは複数の文字列を「論
理積」,「論理和」あるいは「論理差」論理演算子で組
み合わせた検索条件を処理可能なこと、或いは、（２
１）前記（２０）において、前記文書検索手段で「論理
差」で結合される２つの文字列の処理において、後側の
文字列を処理しないこと、或いは、（２２）前記（１）
において、前記文書登録手段が、多数の文書を一括して
登録する場合に、一文書を登録するごとに生成された文
字成分表データを直接二次記憶上の文字成分表に書き込
むのではなく一旦メモリ上に登録し、その後、一括して
メモリ上の文字成分表データを二次記憶の文字成分表に
書き出すことによって、高速に文書の一括登録を行うこ
と、或いは、（２３）前記（１）において、前記文書登
録手段により登録されたファイルシステム上の登録文書
のディレクトリパス名を二次記憶上で管理し、文書内容
を参照する場合には、登録したディレクトリパス名を基
に直接ファイルシステム上のオリジナルデータを参照す
ることによって、文書管理システムが内部にオリジナル
データを持つ必要がないだけでなく、ユーザや他のアプ
リケーションによる登録文書の参照を容易にすること、
或いは、（２４）前記（１）において、前記文書登録手
段により登録されたファイルシステム上の登録文書のオ
リジナルデータのディレクトリパス名を管理し、文書内
容を参照する場合には、登録したディレクトリパス名を
基に直接ファイルシステム上のオリジナルデータを参照
するようにし、文書の登録時にディレクトリを指定し、
そのディレクトリ内およびその下位ディレクトリの文書
をすべて登録することにより、複数の文書の登録時の文
書指定を容易にすること、或いは、（２５）前記（１）
において、前記文書登録手段により登録されたファイル
システム上の登録文書のオリジナルデータのディレクト
リパス名を管理し、文書内容を参照する時には、登録し
たディレクトリパス名を基に直接ファイルシステム上の
オリジナルデータを参照するようにし、あらかじめ登録
対象とするディレクトリを指定しておき、そのディレク
トリ上での文書の登録，更新，削除を常に監視し、文書
の登録，更新，削除があった場合には、自動的に当該の
文書について文字成分表に登録，更新，削除を行うこと
によって、ユーザの文書管理の手間を削減することを特
徴としたものである。

【０００７】

【作用】本発明の文書管理装置は、（１）登録文書を保
存するとともに、該登録文書に含まれる各文字あるいは
連続する２文字から算出される値を文字成分表に登録し
記録する文書登録手段と、前記文字成分表を用いて検索
条件に該当する文書を高速に探し出す文書検索手段とを
有しており、前記文字成分表エントリ指定により文字成
分表の構成を変更可能とし、前記登録文書を複数のフォ
ルダに分割して管理可能で、かつフォルダごとに文字成
分表エントリ指定できるようにし、文字成分表の構成を
目的に合わせて変更できるようにしたため、効率的な文
書管理システムを構築できる。

【０００８】（２）前記文書検索手段で単一の文字列か
ら抽出される文字成分に同一のものが２個以上ある場
合、前記文字成分表の文字成分に対するアクセスを一回
しか行わないようにし、また、文字成分の算出におい
て、連続する３文字以上の文字列から算出される値をも
用いるようにし、さらに、文書登録時の文字成分の算出
において、連続する３文字以上の文字列から算出される
値を用いる場合には、該文字列から１文字あるいは連続
する２文字から算出される値を文字成分表に登録しない
ようにしたので、検索文字列が長い場合でも、高速に文
書検索できる。

【０００９】（３）前記文書検索手段において、単一の
文字列あるいは複数の文字列をＡＮＤあるいはＯＲ論理
演算子で組み合わせた検索条件を処理可能とし、また、
前記文書検索手段でＡＮＤ論理演算子で結合される２つ
の文字列から抽出される文字成分に同一のものが２個以
上ある場合、文字成分表の文字成分に対するアクセスを
一回しか行わないようにし、さらに、前記文書検索手段
でＯＲ論理演算子で結合される２つの文字列から抽出さ
れる文字成分に同一のものが２個以上ある場合、文字成
分表の文字成分に対するアクセスを一回しか行わないよ
うにしたので、検索条件を複数の文字列を論理演算子
（ＡＮＤ，ＯＲ）で組み合わせで表現できるので、複雑
な検索要求を表現することが可能となる。また、論理演
算子に合わせた最適化を行うので、高速に文書検索でき
る。

【００１０】（４）前記文字成分表を、該文字成分表を
保存する大小２種類のブロックから構成されるデータフ
ァイルと、文字成分ごとのブロック位置を記録するイン
デックスファイルによって記憶し、複数の小さいブロッ
クを大きいブロックにまとめるブロック融合手段を有
し、また、前記ブロック融合手段において、データファ
イルの前方に大きいブロックをまとめ、後方に小さいブ
ロックをまとめるようにし、さらに、前記ブロック融合
手段において、データファイルの小さいブロックが存在
する領域のみをブロック融合の対象とするようにし、文
字成分表のビットマップデータを格納するブロックの大
きさに大小２種類用意したため、登録／検索速度をとも
に高速化できる。

【００１１】（５）前記ブロック融合手段において、検
索時に高速に文字成分表エントリを二次記憶から読み出
すために、複数の固定長ブロックに分割された各文字成
分表エントリを大きな固定長ブロックにまとめあげる時
に大きな固定長ブロックをアロケートの単位とし、まと
め上げられた大きな固定長ブロック及びまとめあげられ
なかった残りの小さな固定長ブロックを詰め込んだ大き
な固定長ブロックを順時書き出すことによって、文字成
分表のデータを一回のスキャンで処理し、高速にかつ処
理時に必要な二次記憶領域を最小限に抑えるようにし、
文字エントリの小さなブロックを大きなブロックにまと
め上げることにより、検索速度が向上する。

【００１２】（６）特定のビットマップのビットを横方
向に順時調べ、ビットが１の場合には、他のビットマッ
プエントリの対応するビットを調べる。つまり、縦方向
にビットを調べ、すべてのビットが１の場合は、ビット
に対応する文書が検索結果の文書となるようにする。ま
た、各文字エントリ中に出現するビット１の出現数を予
めカウントしておき、前述のビットを調べる処理の時に
ビット出現数が小さい順に並び代え、同様の処理を行う
ことによって、さらに参照するデータ量を減らすことが
可能となる。さらに、文字エントリの一部しか必要でな
い場合には、全ブロックをアクセスすることなしにブロ
ックテーブルから直接該当するブロックを得られ、高速
に検索することができる。このように従来技術では文字
エントリのアクセスが多く、検索速度の低下を招いてい
たが、検索時の処理のアルゴリズム及びデータ構成を変
えることによって検索速度が向上する。

【００１３】（７）前記文字成分表の構成を文書の各文
字および連続する２文字から算出される値を記録するも
のとした場合、前記文字検索手段が検索文字列から連続
する２文字から算出される値のみを抽出し、また、前記
文書検索手段が検索文字列から連続する２文字から算出
される値と、該検索文字列の末尾の１文字から算出され
る値を抽出し、また、検索文字列から連続する２文字か
ら算出される値と、該検索文字列の先頭の１文字から算
出される値を抽出し、さらに、前記文字成分表の構成を
連続する３文字以上の文字列から算出される値をも用い
る場合、前記文書検索手段が検索文字列から前記文字エ
ントリが抽出される時には、該文字列エントリに対応す
る文字列に含まれる１文字あるいは前記文字列にその前
後の文字を含めた文字列に含まれる２文字から算出され
る値を抽出しないようにしたので、検索処理において検
索文字列から抽出するエントリ数を削減し、検索処理を
高速化できる。

【００１４】（８）前記文書検索手段が単一の文字列あ
るいは複数の文字列を「論理積」,「論理和」あるいは
「論理差」論理演算子で組み合わせた検索条件を処理可
能とし、また、前記文書検索手段で「論理差」で結合さ
れる２つの文字列の処理において、後側の文字列を処理
しないことにしたので、検索条件を複数の文字列を論理
演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で組み合わせで表現で
きるので、複雑な検索要求を表現することが可能とな
る。また、論理演算子に合わせた最適化を行うので、高
速に文書検索できる。

【００１５】（９）多数の文書を一括して登録する場合
に、一文書を登録するごとに生成された文字成分表デー
タを直接二次記憶上の文字成分表に書き込むのではな
く、多数の文書を一括して登録するには、従来の方法で
は文字成分表データが二次記憶上にある場合には、一文
書を登録するごとに二次記憶にアクセスすることにな
り、速度が遅い。そこで、一括登録する文書について
は、一旦メモリ上に文字成分表を一時的に生成登録し、
その後、処理の最後にメモリ上の文字成分表データを二
次記憶上の文書成分表データにアペンドする。こうする
ことによって、二次記憶へのアクセスが減り、高速に複
数文書の一括登録が可能となる。

【００１６】（１０）当該文書管理装置のシステム内に
は、文書データを持たず、その代わりに文書の情報の一
つとして、オリジナル文書のファイルシステム上での位
置を示すディレクトリパス名を管理する。参照には、デ
ィレクトリパス名を基にファイルシステム上のオリジナ
ル文書を直接参照することになるので、当該装置のシス
テムが内部にオリジナルデータを持つ必要がなく、二次
記憶を無駄に利用しないだけでなく、システムを介する
ことなくユーザや他のアプリケーションによる登録文書
の参照が可能となる。

【００１７】（１１）文書の登録時にディレクトリを指
定し、そのディレクトリ内およびその下位ディレクトリ
の文書をすべて登録することにより、文書管理装置にお
いてファイルシステム上の登録文書のオリジナルデータ
の該ディレクトリパス名を管理する。文書内容を参照す
る場合には、登録したディレクトリパス名を基に直接フ
ァイルシステム上のオリジナルデータを参照するように
なし得る。この様なことで、オリジナル文書をユーザが
普段利用するファイルシステム上に置く場合には、一つ
のディレクトリ階層に存在する文書をそのまま文書管理
装置で管理するシステムとすることが可能となる。ま
た、ディレクトリを指定することによって、そのディレ
クトリ中に含まれる文書または下位のディレクトリ中に
含まれる全文書を自動的に登録することができるように
することで、ディレクトリ上の全文書を一つ一つユーザ
が指定する必要があった従来のユーザの負担を軽減する
ことができる。

【００１８】（１２）当該文書管理装置では、ファイル
システム上の登録文書のオリジナルデータのディレクト
リパス名を管理する。文書内容を参照する時には、登録
したディレクトリパス名を基に直接ファイルシステム上
のオリジナルデータを参照することになり、また、事前
に当該文書管理装置に登録したい文書を置くディレクト
リをユーザが指定しておくと、当該装置のシステムは、
そのディレクトリ上での文書の登録，更新，削除を常に
監視し、文書の登録，更新，削除が行われた場合には、
同じ操作を自動的に文字成分表に反映させ、登録，更
新，削除を行う。このようにすることで、ユーザの文書
操作の負担を軽減することができる。

【００１９】

【実施例】実施例について、図面を参照して以下に説明
する。図１は、本発明による文書管理装置の一実施例
（請求項１）を説明するための構成図で、図中、１は登
録文書、２は文書登録手段、３は検索条件、４は文書検
索手段、５は該当文書、６は文字成分表エントリ指定、
７は文字成分表、８は文書本文データ、９は文書データ
ベースである。

【００２０】文書登録手段２は、登録文書１を文書デー
タベース９に登録操作を行う。該文書データベース９に
は、文書本文データ８と文字成分表７と文字成分表エン
トリ指定６とが含まれる。文字成分表７とは、登録文書
１に含まれる各文字あるいは文字列から抽出された情報
の存在の有無を文書ごとに記録した表である。文書登録
手段２は、登録文書１を保存するとともに、該登録文書
１に含まれる各文字あるいは連続する２文字から算出さ
れる値を文字成分表７に登録し記録する。文書検索手段
４は、前記文字成分表７を用いて検索条件３に該当する
文書５を高速に探し出す。文字成分表エントリ指定６に
より文字成分表７の構成を変更可能とする。

【００２１】図２は、文字成分表の一例を示す図であ
る。ここで示した文字成分表では、各文字の出現のみを
記録した構成である。これは、各文字のコードに関数を
作用させ、算出される値をエントリとするものである
（各文字の出現をそのまま記録する図２の方式は、関数
としてｆ(ｘ)＝ｘとしたものである）。このような１文
字から算出されるエントリを単一文字エントリと呼ぶ。

【００２２】図３は、文字成分表の他の例を示す図であ
る。ここで示した文字成分表では、各文字と連続する２
文字からそれぞれの文字コードの下位４ビットをビット
連結して得られる値をエントリとしている。例えば、
「ぐ」,「だ」,「ば」のJISコードは、各々 0x2430，0x
2440，0x2450 であり、下位４ビットを連結して得られ
る８ビットを文字成分表のエントリとした場合、「ぐ
ぐ」,「ぐだ」,「ぐば」…は全て同じ 0x00 のエントリ
にまとめられる。すなわち、連続する２文字のコードに
関数を作用させ、算出される値をエントリとすることが
できる（前側の文字ｘ，後側の文字ｙに対して、関数ｇ
(ｘ,ｙ)の値をエントリとする）。このような連続する
２文字から算出されるエントリ（文字成分）を隣接文字
エントリと呼ぶ。図３の文字成分表は、単一文字エント
リと隣接文字エントリを組み合わせたものである。

【００２３】このように、文字成分表には様々な構成が
可能であり、本発明では、図１の文字成分表エントリ指
定６によって文字成分表７の構成を指定できるものとす
る。以下の説明では、簡単のため、図２のような各文字
の出現のみを記録した文字成分表を使用するものとす
る。

【００２４】文書登録手順は、次の通りである。．登録文書１を文書本文データ８に登録する。．登録文書１の内容を文字成分表７に登録する。文書本文から文字成分表エントリ指定６で規定されるエ
ントリを抽出する。登録文書番号をｉ，抽出されたエン
トリ番号をｊとした場合、すべてのｊについて文字成分
表の点（ｉ,ｊ）の値を“１”にする。

【００２５】また、文書検索手順は、次の通りである。．文字成分表７を用いて検索文字列を含む可能性のあ
る文書番号を求める。 (a)検索文字列から文字成分表エントリ指定６で規定さ
れるエントリを抽出する。 (b)抽出されたエントリのビットマップ（図２の横一
列）を文字成分表から抜きだし、ビットＡＮＤをとる。．前記で求まった文書番号の文書本文を文書本文デ
ータ８から読みだし、検索文字列が含まれているか調
べ、含まれている文書集合を検索結果とする。

【００２６】文字成分表の検索精度（文字成分表を用い
て得られる文書に検索文字列が含まれている割合）は文
字成分表の構成に依存する。本発明では、文字成分表エ
ントリ指定により、文字成分表の構成を任意に変更でき
る。そのため、登録される文書に合わせて効率的な文書
管理システムを構築できる。

【００２７】次に、請求項２に記載の発明について説明
する。図４は、本発明による文書管理装置の他の実施例
（請求項２）を説明するための構成図で、図中、９-1〜
９-nは文書データベースで、その他、図１と同じ作用を
する部分は同一の符号を付してある。なお、図１の構成
と異なる点は、文書データベース９-1〜９-nが多数存在
している点である。文書には様々な用途のものがあるた
め、異なる文書集合は異なる文書データベースに保存す
ることが望まれる。その際、異なる文書集合は、文書の
長さや文字の出現頻度なども違う。そこで、本発明の文
書管理装置では、文書データベース９ごとに文字成分表
エントリ指定６を異なったものを用いることができるた
め、効率的な文書管理を行える。

【００２８】次に、請求項３に記載の発明について説明
する。これまでの方式だと、検索文字列が長くなるに従
い、文字成分表でアクセスすべきエントリが増加するた
め、検索速度が低下する。実際には、検索語から算出さ
れる文字成分表エントリにも同一のものが含まれること
がある。その場合、そのエントリに複数回アクセスする
必要はないため、検索語に複数個出現したエントリへの
アクセスを一回に押えることで、検索に必要な文字成分
表へのアクセス回数を減らし、検索を高速化できる。

【００２９】例えば、検索語「マンマシンシステム」は
９文字から構成されているため、文字成分表には「マ」
「ン」「マ」「シ」「ン」「シ」「ス」「テ」「ム」の９回の
アクセスが必要になる。しかし、実際には、「マ」「ン」
「シ」は２回ずつ出現しているため、これらエントリへ
のアクセスは１回にまとめることができる。すなわち、
文字成分表への実際のアクセスは、「マ」「ン」「シ」
「ス」「テ」「ム」の６回ですむ。

【００３０】次に、請求項４に記載の発明について説明
する。これまでの方式だと、文字成分表のエントリは最
大２文字からのみ構成される。これに対し、３文字以上
の長い文字列（から算出される値）をエントリに用いる
こととすれば、文字成分表へのアクセス回数を減らし、
検索を大幅に高速化できる。図５は、長い文字列をエン
トリとして持つ文字成分表を示す図である。「システ
ム」「パターン」などが文字列エントリである。文字列
エントリは、文書における出現頻度の高い文字列を選出
すれば良い。

【００３１】登録時には、「…あのマンマシンシステム
は…」からは、文字として「あ」「の」「マ」「ン」「シ」
「ス」「テ」「ム」「は」、文字列として「システム」が
抽出され、文字成分表に記録される。検索時には、検索
語「マンマシンシステム」からは、文字として「マ」
「ン」「マ」「シ」「ン」、文字列として「システム」が
抽出し、さらに「システム」に含まれる「シ」および単
一文字の重複を削除する。結局、「マ」「ン」「システ
ム」の３つのエントリにアクセスするだけでよく、検索
時間は大幅に短縮できる。

【００３２】次に、請求項５に記載の発明について説明
する。前記請求項４に記載した方式では、文書登録時に
文字列エントリに含まれる文字エントリも抽出し、文字
成分表に記録する。しかし、その部分は、通常検索文字
列でも文字列として含まれる場合が多いので、文字成分
表に記録する必要は必ずしもない。このような文字エン
トリを登録しないことにより、文字成分表を小型化する
ことができる。

【００３３】例えば、前項の例文「…あのマンマシンシ
ステムは…」の登録時には、文字として登録するのは
「あ」「の」「マ」「ン」「は」だけでよい（文字列として
「システムが抽出され、文字成分表に記録される）。た
だし、検索文字列に文字列エントリの部分文字列が含ま
れている場合、この方式では、検索洩れが起こり得る。
例えば、検索文字列が「システ」の場合（「システム」
の部分文字列）、この方式では検索できないことにな
る。

【００３４】次に、請求項６に記載の発明について説明
する。本実施例では、検索条件として複数の文字列を論
理演算子（ＡＮＤ，ＯＲ）で組み合わせたものを受け付
ける（単一の文字列もこの検索条件に含める）。ここ
で、“ＡＮＤ”は前後の文字列をともに含む文書を検索
すること、“ＯＲ”は前後の文字列を少なくとも一つ含
む文書を検索することを意味する。さらに、必要に応じ
て、演算子の作用順序を明示するために、“(”,“)”
を用いることができるものとする。論理演算子を検索条
件に用いることができるようにすることで、複雑な検索
要求を表現することが可能となる。例えば、「マンマシ
ンシステム」,「文書検索ＡＮＤ文書登録」,「文書検索
ＯＲ情報検索」,「(新聞ＯＲ雑誌)ＡＮＤカラー」など
が上記の検索条件になる。

【００３５】次に、請求項７に記載の発明について説明
する。前記請求項３に記載の発明では、単一の検索文字
列内のアクセスの単一化を提案したが、ここでは、論理
演算子ＡＮＤで結合される２つないしはそれ以上の検索
文字列にまたがったアクセスの単一化を導入する。例え
ば、検索条件「文書検索ＡＮＤ文書登録」から、従来方
式では、「文」「書」「検」「索」「文」「書」「登」「録」
の８つのエントリにアクセスする。一方、本項目の単一
化（最適化）により「文」「書」の重複が削除され、文
字成分表へのアクセスは６回に減らすことができる。

【００３６】次に、請求項８に記載の発明について説明
する。前記請求項３に記載の発明では、単一の検索文字
列内のアクセスの単一化を提案したが、ここでは、論理
演算子ＯＲで結合される２つないしはそれ以上の検索文
字列にまたがったアクセスの単一化を導入する。例え
ば、検索条件「文書検索ＯＲ情報検索」から、従来方式
では、「文」「書」「検」「索」「情」「報」「検」「索」の
８つのエントリにアクセスする。一方、本項目の単一化
（最適化）により「検」「索」の重複が削除され、文字
成分表へのアクセスは６回に減らすことができる。

【００３７】次に、請求項９に記載の発明について説明
する。文字成分表は、ファイルとして保存される。文字
成分表ファイルの構成は、文字成分表のエントリに対応
するビットマップデータに簡単にアクセスできることが
望まれるが、それを実現するために、例えば、インデッ
クスファイルと固定長ブロックから構成されるビットマ
ップデータファイルの２つのファイルで構成することが
できる。この場合、インデックスファイルは、次の２つ
のフィールドを含むブロックから構成することができ
る。・先頭ブロックオフセットフィールド・末尾ブロックオフセットフィールド

【００３８】ファイルに含まれるブロック数は、文字成
分表エントリ指定によって決まる。ビットマップデータ
ファイルは、次の２つのフィールドを含むブロックから
構成される。・次ブロックオフセットフィールド・データフィールド

【００３９】ブロックサイズは、性能要求に合わせて数
十から数キロバイトの範囲に設定すれば良い。図６
（ａ）は、文字成分表のためのファイル構成の一例を示
す図である。なお、インデックスファイルを半導体メモ
リ上にロードしておくことは、高速化に有効である。

【００４０】ビットマップデータファイルのブロックサ
イズは、登録・検索性能等に与える影響が大きい。ブロ
ックサイズが大きい場合、検索は高速だが登録が遅く、
小さい場合、登録は高速だが検索は遅くなる。また、デ
ータファイルのうち、ビットマップデータの記録に使用
されていない領域の割合は、そこで、ブロックを大きい
ものと小さいものの２種類を用意する。以下では、小さ
いブロックを「バケット」、大きいブロックを「コンテ
ナ」と呼び、コンテナとバケットの大きさの比を「Ｍ」
と書くこととする。コンテナの大きさは、バケットの数
倍から十数倍程度とする（Ｍ＝数倍〜十数）。

【００４１】図６（ｂ）は、２種類の大きさのブロック
を導入した場合の文字成分表のファイル構成の一例を示
す図である。ここでは、ブロックオフセットの最上位ビ
ットが“１”,“０”によって、そのオフセット位置の
ブロックがコンテナかバケットかを示すようにしてい
る。

【００４２】文書検索システム利用開始時点では、ブロ
ックサイズを小さいものとして、登録速度を優先する
（登録文書数が少ない間は、検索速度が多少遅くても検
索時間が小さいので、ほとんど問題とならない）。多数
の文書が登録され、ビットマップデータファイルに含ま
れるブロック数が増大した段階で、複数のバケットをコ
ンテナにまとめあげるブロック融合処理を行う。通常の
オペレーティングシステムでは、データを小さいブロッ
クに分割しておくよりも大きいブロックにまとめておく
方が高速だからである。その結果、ブロック融合処理に
より検索速度が向上され、登録文書数が多い場合でも検
索時間を小さくできる。

【００４３】ブロック融合処理手順．書き出し用の一時ファイルを作成する。．文字成分表を構成する全てのエントリのビットマッ
プデータに対して、次の処理を行う。 (a)コンテナはそのまま一時ファイルに書き出す。 (b)コンテナにまとめ上げられる（Ｍ個の）バケット
は、１個のコンテナとし、一時ファイルに書き出す。 (c)残りのコンテナにまとめ上げられない（Ｍ個未満
の）バケットは、一時ファイルに書き出す。．これまでのビットマップデータファイルを削除す
る。．一時ファイルを新たなビットマップデータファイル
とする。

【００４４】図７（ａ）,（ｂ）は、ブロック融合処理
の概要を示す図である。網掛けによって各バケット／コ
ンテナがどのエントリ（ここでは文字ごとにエントリを
立てている）に対応しているかを示す。ここでは、コン
テナはバケットの８倍の大きさとしている。例えば、
「あ」は、融合処理前にバケット１７個なので、融合処
理後はコンテナ２個とバケット１個になる。「い」は、
同様にしてバケット１１個がコンテナ１個とバケット３
個になる。「う」は、バケットが７個しかないので、コ
ンテナには１個も生成されず、バケット７個のままであ
る（ただし、この場合でもバケットがお互いに隣接する
位置に配置されるため、アクセスが高速化され、検索速
度が向上する）。

【００４５】次に、請求項１０に記載の発明について説
明する。前述の方式では、データファイル中にバケット
とコンテナが混在する。２次記憶装置上のデータへのア
クセスは、オペレーティングシステムの最適化などによ
りページ単位に行われるため、バケットとコンテナが混
在していると、コンテナのような大きいブロックを導入
しても、コンテナの配置が２次記憶装置のページ境界と
一致せず、期待通りの性能向上が行われないことがあ
る。そこで、本発明の方法では、データファイルの前方
にコンテナをまとめ、後方にブロックをまとめること
で、コンテナを必ずページ境界に配置し、性能向上を図
る。

【００４６】ブロック融合処理手順．書き出し用の一時ファイルを２つ作成する。１つを
「コンテナ用一時ファイル」、もう１つを「バケット用
一時ファイル」と呼ぶ。．文字成分表を構成する全てのエントリのビットマッ
プデータに対して、次の処理を行う。 (a)コンテナはそのままコンテナ用一時ファイルに書き
出す。 (b)コンテナにまとめ上げられる（Ｍ個の）バケットは
１個のコンテナとし、コンテナ用一時ファイルに書き出
す。 (c)残りのコンテナにまとめ上げられない（Ｍ個未満
の）バケットは、バケット用一時ファイルに書き出す。．これまでのビットマップデータファイルを削除す
る。．コンテナ用一時ファイルにバケット用一時ファイル
を連結し、新たなビットマップデータファイルとする。

【００４７】図７（ａ）,（ｃ）は、上記アルゴリズム
によるブロック融合処理の概要を示す図である。このア
ルゴリズムでは、ブロック融合処理後（図７（ｃ）の状
態）は、データファイルの先頭部分にコンテナが集ま
り、Ａ点以降はバケットが集合した状態となる。

【００４８】次に、請求項１１に記載の発明について説
明する。ブロック融合処理後にも文書は追加登録され
る。追加登録後のブロックタイプはバケットなので、追
加登録文書数が増大すると、再び検索速度が低下してし
まう。その場合、再びブロック融合処理手順によりブ
ロック融合処理を行えばよい。しかし、ブロック融合処
理手順では、２つの一時ファイルの大きさの合計は、
データファイルとほぼ等しくなってしまう。多量の文書
が登録された場合、データファイルの大きさが膨大とな
るため、これは極めて望ましくない。次に示すブロック
融合処理手順はこの点を改良し、一時ファイルの大き
さの合計をデータファイルのバケット部分の大きさ程度
で済むようにした。

【００４９】ブロック融合処理手順．書き出し用の一時ファイルを２つ作成する。１つを
「コンテナ用一時ファイル」、もう１つを「バケット用
一時ファイル」と呼ぶ。．文字成分表を構成する全てのエントリのビットマッ
プデータに対して、次の処理を行う。 (a)コンテナは無視する。 (b)コンテナにまとめ上げられる（Ｍ個の）バケット
は、１個のコンテナとし、コンテナ用一時ファイルに書
き出す。 (c)残りのコンテナにまとめ上げられない（Ｍ個未満
の）バケットは、バケット用一時ファイルに書き出す。．ビットマップデータファイルのバケット部分を削除
する。．ビットマップデータファイルにコンテナ用一時ファ
イル、さらにバケット用一時ファイルを連結する。

【００５０】前記請求項１０及び請求項１１に記載の方
式の相違を図８（ａ）〜（ｃ）に示す。図８（ａ）に示
すように、バケット融合処理後に再び文書が登録された
場合、データファイルの末尾（図８（ａ）のＢ点）から
バケットが順次挿入された状態になる。ブロック融合処
理手順では、図８（ｂ）のように、データファイルの
ブロックが整理され、検索速度が向上する。しかし、２
つの一時ファイルの合計の大きさは、データファイルの
大きさと等しい。これに対し、本項で提案するブロック
融合処理手順では、データファイルのＡ点以降の部分
のみを処理の対象とする。ブロック融合処理結果を示し
たものが図８（ｃ）である。新たに作成されたコンテナ
は、融合前にバケットが存在していたＡ点以降に配置さ
れる。同一エントリに対するコンテナが必ずしも連続す
る位置に配置されるわけではないが（例えば、「い」の
コンテナ）、そのことにより速度低下は極めて小さい。

【００５１】図９は、本発明による文書管理装置の更に
他の実施例（請求項１２）を説明するための構成図で、
図中、１１は入力部、１２は処理部、１３は文字列入力
処理部、１４は文書検索処理部、１５は文書出力処理
部、１６は文書登録処理部、１７はデータ部、１８は文
字成分表、１９は出力部、２０は文書データである。

【００５２】入力部１１に入力された検索文字列は、処
理部１２の文字列入力処理１３で処理する。文書検索処
理部１４においてデータ部１７の文字成分表１８を利用
して文字列を含むと思われる文書を検索する。そして、
検索した文書に対応する文書データ２０を文書出力装置
１５により出力部１９に出力する。文書登録処理部１６
では、登録する文書を文書データ２０に登録し、該文書
データ２０より文字成分を抽出して文字成分表１８に登
録する。以下の説明では、対象文書は１バイト文字コー
ド（例えば、ＡＳＣＩＩ）及び２バイト文字コード（Ｅ
ＵＣ：Ｅxtended ＵＮＩＸＣＯＤＥ）からなるテキス
トデータとする。しかし、対象とする文字コードはＥＵ
Ｃ以外にも容易に適用可能である。

【００５３】文書をデータ部に登録する時には、単一文
字成分及び隣接文字成分を抽出し、文字成分表を作成す
る。単一文字成分は各内部文字コードの２バイトコード
とし、隣接文字成分は隣接する内部文字コードから変換
したコードである。本実施例では内部文字コードのビッ
ト成分を適当に抽出したビット列を隣接文字成分とす
る。上記方法で得られた文字成分及び隣接文字成分に対
して、図１０に示すように、それぞれ単一文字成分表及
び図１１に示す隣接文字成分表を生成する。図１１では
隣接する文字の下位１バイトを合わせて２バイトとして
いる。各文字成分表は、各単一文字成分または隣接文字
成分が各文書に存在するか否かを０と１で示す。図１１
の隣接文字成分表を例とすると、a0a0（１６進）のビッ
ト列は文書１、２、３、ｎには存在せず、文書４、５に
は存在することを意味する。文書登録時に上記方法によ
り文書から文字成分を抽出し、各文字成分テーブルに加
える。

【００５４】仮に、隣接文字成分表として各文字成分の
下位１バイトのみを利用した場合には、検索文字列とは
異なる隣接文字でも下位バイトが一致する隣接文字を含
む文書を検索する場合がある。ひらがな及びカタカナは
頻繁に出現するので、検索の精度が低くなる。また漢字
は文書中の出現頻度が低いので、本来検索精度が高い文
字種であるにも関わらず、検索精度が低い他の文字種の
影響を受けて検索精度が低くなってしまう。そこで、文
字種ごとに異なる隣接文字成分表を作成し、検索時に検
索文字列の文字種ごとに異なる隣接文字成分表を利用す
ることによって、ひらがななどの頻繁に文書に出現する
文字種の影響を受けず、検索精度を上げることができ
る。以下、単一文字成分表、隣接文字成分表について説
明する。

【００５５】・単一文字成分表：文字がどの文書に出現
するか否かを示す表・隣接文字成分表 −同種隣接文字成分表：隣接する同種の文字のペアがど
の文書に出現するか否かを示す表＊記号＊英数時＊ひらがな＊カタカナ＊ギリシャ文字、グラフィック文字など＊１バイト文字コード＊第一水準漢字＊第二水準漢字 −異種隣接文字成分表：隣接する異種の文字のペアがど
の文書に出現するか否かを示す表

【００５６】検索時には登録時と同様に検索文字列から
単一文字成分と隣接文字成分を抽出し、それぞれ文字成
分表から各成分を含む文書を検索する。図１２は、従来
の検索方法を説明するための図である。図１２におい
て、ビットの１は文字成分が出現することを示し、０は
文字成分が出現しないことを意味する。従来の検索方法
では検索文字列から文字種を判別して単一文字成分、隣
接文字成分を登録時と同様に抽出し、各文字成分に対応
する単一文字成分表及び隣接文字成分表から文字エント
リのビットマップを抽出してＡＮＤ演算を行う。したが
って、対象となるすべての文字エントリのデータを参照
することになる。

【００５７】次に、請求項１３に記載の発明について説
明する。本実施例では、図１３に示すように、特定のビ
ットマップのビットを横方向に順時調べ、ビットが１の
場合には、他のビットマップエントリの対応するビット
を調べる。つまり、図１３で縦方向にビットを調べ、す
べてのビットが１の場合は、ビットに対応する文書が検
索結果の文書となる。ビットが０の時には、図１３の一
番上の文字エントリに戻り、順時同様に繰り返す。こう
することによって、矢印で示されるビットのみを参照す
ることになり、従来の検索方法に比較して参照するデー
タ量が格段に減少する。

【００５８】次に、請求項１４に記載の発明について説
明する。さらに、図１４に示すように、各文字エントリ
中に出現するビット１の出現数を予めカウントしてお
き、前述のビットを調べる処理の時に、図１４に示すよ
うに、ビット出現数が小さい順に並び代え、同様の処理
を行うことによって、さらに参照するデータ量を減らす
ことが可能となる。

【００５９】従来の検索方法では、各文字エントリのビ
ットマップデータである可変長ビットマップデータは、
複数の固定長ブロックに分割され、二次記憶に格納され
ている。したがって、前述の検索処理時に再度複数の固
定長ブロックを可変長のビットマップに結合復元する。
また、各文字エントリの一部のデータしかアクセスしな
い場合でも、文字エントリの全固定長データブロックを
読み込み結合し、可変長ビットマップデータに復元する
処理が必要となる。

【００６０】次に、請求項１５に記載の発明について説
明する。本実施例では、前述の文字エントリは二次記憶
上で、図１５に示すように、インデックスとブロックテ
ーブルとブロックとから構成される。インデックスは各
内部文字コードに対してブロックテーブルポインタとビ
ット出現数（エントリ内に出現するビット１の数）のペ
アからなる。ブロックテーブルは先頭に次のブロックテ
ーブルへのポインタを有し、ブロックポインタとブロッ
ク最終登録文書ＩＤ（ブロック内の最後に登録されてい
る文書のＩＤ）からなる。したがって、内部文字コード
「あ」に対応する全ブロックは、図１５に示すように、
ブロックテーブルから示されるブロックとなる。

【００６１】文書ＩＤが４０００の文書内に文部文字コ
ードが「あ」の文字が出現する否かを調べる場合を例
に、以下に説明する。・インデックスの「あ」に対応するブロックテーブルポ
インタからブロックテーブルを得る。・ブロック最終登録文書ＩＤから文書ＩＤ４０００を含
むブロック（ブロックポインタ５１２０）を得る。・ブロック（５１２０）のデータが圧縮されている場合
には伸長し、文書ＩＤ４０００該当するビットを得る。このように、文字エントリの一部しか必要でない場合に
は、全ブロックをアクセスすることなしにブロックテー
ブルから直接該当するブロックを得られ、高速に検索す
ることができる。

【００６２】検索の時間で最も多く占めるのがディスク
からデータのＲＥＡＤ時間である。ＲＥＡＤするページ
（物理的なディスク読み書きの単位）が多ければ多いほ
ど検索処理は遅くなる。文書登録を行なうと、図１６
（ａ）のように、文字エントリのブロックは複数のペー
ジに分散する。したがって、検索処理では分散している
ブロックを含むページをすべてＲＥＡＤすることにより
処理が遅くなる。本実施例では、図１６（ｂ）のよう
に、分散したブロックをページ単位にまとめ上げること
で検索処理時にＲＥＡＤするページを減らし、処理を速
くすることができる。図１６に示す例では、まとめ上げ
前には６ページ以上をＲＥＡＤしなければならなかった
が、まとめ上げ後には３ページとなり、ＲＥＡＤの時間
が半分以下になる。このようにブロックをページ単位に
まとめ上げる処理をまとめ上げ処理と呼ぶ。

【００６３】まとめ上げ処理では、図１６（ｂ）のよう
に、ブロックをページにまとめ上げるが、ページにまと
め上げられなかった、ブロックについてはまとめ上げら
れなかったブロックを格納するためのページ（残ブロッ
クページと呼ぶ）に集められる。したがって、図１７に
示すように、残ブロックページには、様々な文字エント
リの残ブロックが格納される。また、まとめ上げられた
ページはファイル中で混在することになる。

【００６４】まとめ上げの処理手順を以下に示す。な
お、説明中のバッファはメモリ上の領域を意味する。前処理（ａ）文字成分表をオープンする。（ｂ）まとめ上げ用文字成分表を作成しオープンする。（ｃ）残ブロックページをアロケートする。

【００６５】文字エントリ単位のまとめ上げ処理（ａ）ページへのまとめ上げ処理ｉ．１ランレングスを読みページバッファに詰める。 ii．ページバッファにデータが満たされたらページバッ
ファを書き出し、ページバッファをクリアする。 iii．ランレングスをすべて読み終るまで前記ｉ．に戻
る。（ｂ）ページにまとめ上げられなかったブロック(残ブ
ロック)の書き出し処理ｉ．まとめ上げられなかったランレングスから再度１ラ
ンレングスを読み、残ブロックバッファに詰める。 ii．残ブロックバッファにデータが満たされたら残ブロ
ックページに書き出す。 iii．残ブロックページの領域をすべて使い果たしたら
新たに残ブロックページをアロケートする。 iv．ランレングスをすべて読み終るまで前記ｉ．に戻
る。

【００６６】後処理（ａ）書き出されていない残ブロックページを書き出
す。（ｂ）文字成分表及びまとめ上げ文字成分表をクローズ
する。こうすることによって、文字成分表を１回スキャンする
だけまとめ上げ処理が可能となり、処理が高速であるだ
けでなく、処理時に必要な二次記憶の領域を最小限に抑
えられる。

【００６７】次に、請求項１６に記載の発明について説
明する。本実施例の検索処理では、検索文字列から抽出
されるエントリ数が少なければ、文字成分表へのアクセ
スが少なくなり、検索が高速になる。文字成分表エント
リ指定において、単一文字エントリと隣接文字エントリ
を定義した場合、検索文字列がｎ文字の時、ｎ個の単一
文字エントリとｎ−１個の隣接文字エントリが抽出され
るので、トータルでは２ｎ−１個のエントリが抽出さ
れ、検索が遅い。

【００６８】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。・単一文字エントリ：以下の文字に関数ｆ（ｘ）を作用
させる。パ,タ,ー,ン,マ,ッ,チ・隣接文字エントリ：以下の２文字に関数ｇ（ｘ,ｙ）
を作用させる。パタ,ター,ーン,ンマ,マッ,ッチ

【００６９】しかし、ｆ（ｘ）＝ｘ，ｇ（ｘ,ｙ）＝ｘ
＋αｙ（ここで、αは文字コードの取り得る最大値）の
ような場合を考える。この時、検索文字列からｇ（Ｘ,
Ｙ）が抽出される時には、必ずｆ（Ｘ），ｆ（Ｙ）も抽
出される（例えば、ｇ（パ,タ）が抽出される時は、必
ずｆ（パ），ｆ（タ）も抽出される）。したがって、検
索文字列を含む文書を特定する上で、単一文字エントリ
は意味をなさない。そこで、検索文字列からは単一文字
エントリを抽出せず、隣接文字エントリのみを抽出す
る。その結果、ｎ文字の検索文字列からｎ−１個の隣接
文字エントリのみが抽出されるので、検索が高速化でき
る。

【００７０】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。・単一文字エントリ：抽出しない。・隣接文字エントリ：以下の２文字に関数ｇ（ｘ,ｙ）
を作用させる。パタ,ター,ーン,ンマ,マッ,ッチなお、この方式が有効なのは、ｆ（ｘ）＝ｘ，ｇ（ｘ,
ｙ）＝ｘ＋αｙに限らない。

【００７１】次に、請求項１７に記載の発明について説
明する。本実施例も、請求項１６に記載の発明と同様の
効果を狙ったものであり、文字成分表エントリ定義がｆ
（ｘ）＝ｘ，ｇ（ｘ,ｙ）＝ｘ＋α（ｙ mod β)(ここ
で、αは文字コードの取り得る最大値、βは適当な定
数）のような場合を扱う。この時、検索文字列からｇ
（Ｘ,Ｙ）が抽出される時には、必ずｆ（Ｘ）は抽出さ
れる（例えば、ｇ（パ,タ）が抽出される時は、必ずｆ
（パ）も抽出される）。したがって、検索文字列を含む
文書を特定する上で、末尾の１文字を除いては単一文字
エントリは意味をなさない。そこで、検索文字列からは
末尾の１文字から算出される単一文字エントリと、隣接
文字エントリを抽出する。その結果、ｎ文字の検索文字
列から１個の単一文字エントリとｎ−１個の隣接文字エ
ントリのトータルｎ個のエントリが抽出されるので、検
索が高速化できる。

【００７２】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。・単一文字エントリ：以下の文字に関数ｆ（ｘ）を作用
させる。チ・隣接文字エントリ：以下の２文字に関数ｇ（ｘ,ｙ）
を作用させる。パタ,ター,ーン,ンマ,マッ,ッチなお、この方式が有効なのは、ｆ（ｘ）＝ｘ，ｇ（ｘ,
ｙ）＝ｘ＋α（ｙ modβ)に限らない。

【００７３】次に、請求項１８に記載の発明について説
明する。本実施例も請求項１７に記載の発明と同様の効
果を狙ったものであり、文字成分表エントリ定義がｆ
（ｘ）＝ｘ，ｇ（ｘ,ｙ）＝ｙ＋α（ｘ mod β）のよう
な場合を扱う。この時、検索文字列からｇ（Ｘ,Ｙ）が
抽出される時には、必ずｆ（Ｙ）は抽出される（例え
ば、ｇ（パ,タ）が抽出される時は、必ずｆ（タ）も抽
出される）。したがって、検索文字列を含む文書を特定
する上で、先頭の１文字を除いては単一文字エントリは
意味をなさない。そこで、検索文字列からは先頭の１文
字から算出される単一文字エントリと、隣接文字エント
リを抽出する。その結果、ｎ文字の検索文字列から１個
の単一文字エントリとｎ−１個の隣接文字エントリのト
ータルｎ個のエントリが抽出されるので、検索が高速化
できる。

【００７４】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。・単一文字エントリ：以下の文字に関数ｆ（ｘ）を作用
させる。パ・隣接文字エントリ：以下の２文字に関数ｇ（ｘ,ｙ）
を作用させる。パタ,ター,ーン,ンマ,マッ,ッチなお、この方式が有効なのは、ｆ（ｘ）＝ｘ，ｇ（ｘ,
ｙ）＝ｙ＋α（ｘ modβ)に限らない。

【００７５】次に、請求項１９に記載の発明について説
明する。前述した請求項４に記載の発明では、文字成分
表のエントリに３文字以上の長い文字列（から算出され
る値）をエントリに用いることで、文字成分表へのアク
セス回数を減らし、検索を大幅に高速化できることを示
した。図５に長い文字列をエントリとして持つ文字成分
表を示す。「システム」「パターン」などが文字列エン
トリである。

【００７６】文字成分表エントリ指定において、単一文
字エントリと隣接文字エントリを定義し、さらに、文字
列エントリを導入した場合の検索処理を考える。請求項
４に記載の発明では、検索文字列中に含まれる文字列エ
ントリに対応する文字列から抽出される単一／隣接文字
エントリは、検索処理に用いないとしていた。

【００７７】例えば、検索文字列が「パターンマッチ」
で「パターン」が文字列エントリとして定義されている
時、次のエントリが抽出される。・単一文字エントリ：以下の文字に関数ｆ（ｘ）を作用
させる。マ,ッ,チ・隣接文字エントリ：以下の２文字に関数ｇ（ｘ,ｙ）
を作用させる。ンマ,マッ,ッチ・文字列エントリ：パターン

【００７８】もちろん、請求項４記載の発明に本発明の
請求項１６〜１８に記載の発明を組み合わせることも可
能である。一方、本発明では、隣接文字エントリについ
ては該当する文字列エントリに前後の文字を加えた文字
列から抽出されるエントリを抽出しないことで、検索文
字列から抽出エントリ数を削減し、検索を高速化する
（単一文字エントリについては、これまで通り、該当す
る文字列エントリから抽出されるエントリを抽出しない
こととする）。

【００７９】例えば、「パターンマッチ」から抽出され
るエントリは、以下のようになり、エントリ数を一つ減
らすことができる。・単一文字エントリ：以下の文字に関数ｆ（ｘ）を作用
させる。マ,ッ,チ・隣接文字エントリ：以下の２文字に関数ｇ（ｘ,ｙ）
を作用させる。マッ,ッチ・文字列エントリ：パターン

【００８０】次に、請求項２０に記載の発明について説
明する。前述した請求項６に記載の発明では、検索条件
として複数の文字列を論理演算子（ＡＮＤ，ＯＲ）で組
み合わせたもの（単一の文字列もこの検索条件に含め
る）を受け付けるとしていた。ここで、“ＡＮＤ”は前
後の文字列をともに含む文書を検索すること、“ＯＲ”
は前後の文字列を少なくとも一つ含む文書を検索するこ
とを意味する。さらに、必要に応じて、演算子の作用順
序を明示するために、“(”,“)”を用いることができ
るものとする。論理演算子を検索条件に用いることがで
きるようにすることで、複雑な検索要求を表現すること
が可能となった。

【００８１】しかし、ＡＮＤ，ＯＲだけでは「「文書検
索」を含むが「画像検索」を含んでいないこと」のよう
な否定を含む検索要求を表現することはできない。そこ
で、本実施例では、検索条件として複数の文字列を論理
演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で組み合わせたものを
受け付ける。ここで、“ＮＯＴ”は前の文字列を含む
が、後の文字列は含まない文書を検索することを意味す
る。

【００８２】次に、請求項２１に記載の発明について説
明する。ＡＮＤ，ＯＲの処理では、演算子の前後の検索
文字列に対するビット列を計算し（検索手順のステップ
１）、それらのビットＡＮＤあるいはビットＯＲを取れ
ば良かった。しかし、ＮＯＴでは、同様の処理（前後の
検索文字列に対するビット列を計算し、後側のビット列
のビット反転して前側のビット列とビットＡＮＤを取
る）では、検索洩れの可能性がある。これは、文字成分
表を用いて得られる各検索文字列に対するビット列は、
正確にその文字列を含む文書番号の表現ではなく、実際
には、その文字列を含んでいない誤検索も含んでいるた
めである。その結果、ビット反転したビット列には、そ
の文字列を含んでいない文書（番号）の一部は含まれな
いことになり、検索洩れが発生する。

【００８３】そこで、本実施例では、ＮＯＴについては
前側の検索文字列に対するビット列をＮＯＴの処理結果
のビット列とする。その結果、ＮＯＴの処理結果には、
後側の検索文字列を含む文書が含まれ、誤検索が発生す
る（誤検索は検索処理のステップ２で排除できるので、
実用上は問題ない）。しかし、後側の検索文字列を含ま
ない文書が含まれないことはなくなり、検索洩れを完全
に防ぐことができる（検索洩れは検索処理のステップ２
で救うことができないので、実用上の問題となる）。ま
た、この方式では、後側の検索文字列を処理する必要が
ないので、文字成分表検索の高速化にも効果がある。

【００８４】次に、請求項２２に記載の発明について説
明する。文書から文字成分を抽出し、文字成分表を生成
するまでの過程は、図９〜図１１に従って記述された請
求項１２の発明の実施例と同様に行われる。これにより
得られる文字成分表の構成は、図１８に示されるように
インデックスとビットマップデータから成る。インデッ
クス部は、文字成分とビットマップデータへのポインタ
の対応表である。ビットマップデータは文字成分表の文
書中に文字成分が出現するか否かを示す０，１のデータ
である。大量の文書を登録する場合に、ビットマップデ
ータは巨大になることから、メモリ上には置かず二次記
憶に置く。

【００８５】二次記憶への登録の手法を特徴とするこの
発明の実施例によると、一文書を登録するごとに文字成
分表が生成され、その都度、直接二次記憶上の文字成分
表に書き込むのではなく、一旦メモリ上に登録し、その
後一括してメモリ上のデータを二次記憶の文字成分表に
書き出す。図１８に一括登録時のデータ構成を示す。こ
の例では、簡便のために二次記憶上のデータ構成とメモ
リ上の構成を同じにしている。一括文書登録時にはメモ
リ上のテーブルに一時的に登録したデータ（図中の網か
け）を処理の最後に二次記憶のビットマップテーブルに
コピーし、登録処理を完了する。

【００８６】次に、請求項２３に記載の発明について説
明する。当該文書管理装置のシステム内には、文書デー
タを持たず、その代わりに文書の情報の一つとしてオリ
ジナル文書のファイルシステム上での位置を示すディレ
クトリパス名を二次記憶上で管理し、参照にはディレク
トリパス名を基に外部のファイルシステム上のオリジナ
ル文書を直接参照するようになされている。したがっ
て、当該装置のシステム内部にオリジナルの文書データ
を持つ必要がなく、内部の二次記憶を無駄に利用しない
だけではなく、該システムを介する煩わしさがなく、ユ
ーザや他のアプリケーションによる登録文書の参照が可
能となる。

【００８７】次に、請求項２４に記載の発明について説
明する。文書の登録時にファイルシステム上の登録文書
のオリジナルデータのディレクトリを指定し、そのディ
レクトリ内或いはその下位ディレクトリの文書をすべて
登録しておき、当該文書管理装置において、該ディレク
トリパス名を管理し、文書内容を参照する場合には、登
録したディレクトリパス名を基に直接外部のファイルシ
ステム上のオリジナルデータを参照するようになされて
いる。したがって、オリジナル文書をユーザが普段利用
するファイルシステム上に置く場合には、一つのディレ
クトリ階層に存在する文書をそのまま当該文書管理装置
で管理するシステムとすることが可能となる。また、デ
ィレクトリを指定することによって、そのディレクトリ
中に含まれる文書および下位のディレクトリ中に含まれ
る全文書を自動的に登録することができるようにするこ
とで、ディレクトリ上の全文書を一つ一つユーザが指定
する必要があったところの従来のユーザの負担を軽減す
ることになる。

【００８８】次に、請求項２５に記載の発明について説
明する。上述したと同様に、ディレクトリパス名を基に
直接外部のファイルシステム上のオリジナルデータを参
照するようにした文書管理装置において、事前に当該装
置に登録したい文書を置くディレクトリをューザが指定
しておくと、当該装置は、そのディレクトリを常に監視
し、文書の登録，更新，削除が行われた場合には、同じ
操作を自動的に文字成分表に反映させ、登録，更新，削
除を行う。このようにすることで、ユーザの文書操作の
負担を軽減することができる。ディレクトリを監視する
方法としては、一定時間ごとに指定されたディレクトリ
の変化を調べる方法やＯＳなどの基本システムのファイ
ル操作のシステムコールの処理を変更し、ファイル操作
があった場合に文書管理システムに通知する方法などを
採用し得る。

【００８９】

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。（１）請求項１,２に対応する効果：登録文書を保存す
るとともに、該登録文書に含まれる各文字あるいは連続
する２文字から算出される値を文字成分表に登録し記録
する文書登録手段と、前記文字成分表を用いて検索条件
に該当する文書を高速に探し出す文書検索手段とを有
し、前記文字成分表エントリ指定により文字成分表の構
成を変更可能とし、前記登録文書を複数のフォルダに分
割して管理可能で、かつフォルダごとに文字成分表エン
トリ指定できるようにし、文字成分表の構成を目的に合
わせて変更できるようにしたため、効率的な文書管理シ
ステムを構築できる。（２）請求項３,４,５に対応する効果：前記文書検索手
段で単一の文字列から抽出される文字成分に同一のもの
が２個以上ある場合、前記文字成分表の文字成分に対す
るアクセスを一回しか行わないようにし、また、文字成
分の算出において、連続する３文字以上の文字列から算
出される値をも用いるようにし、さらに、文書登録時の
文字成分の算出において、連続する３文字以上の文字列
から算出される値を用いる場合には、該文字列から１文
字あるいは連続する２文字から算出される値を文字成分
表に登録しないようにしたので、検索文字列が長い場合
でも、高速に文書検索できる。（３）請求項６,７,８に対応する効果：前記文書検索手
段において、単一の文字列あるいは複数の文字列をＡＮ
ＤあるいはＯＲ論理演算子で組み合わせた検索条件を処
理可能とし、また、前記文書検索手段でＡＮＤ論理演算
子で結合される２つの文字列から抽出される文字成分に
同一のものが２個以上ある場合、文字成分表の文字成分
に対するアクセスを一回しか行わないようにし、さら
に、前記文書検索手段でＯＲ論理演算子で結合される２
つの文字列から抽出される文字成分に同一のものが２個
以上ある場合、文字成分表の文字成分に対するアクセス
を一回しか行わないようにしたので、検索条件を複数の
文字列を論理演算子（ＡＮＤ，ＯＲ）で組み合わせで表
現できるので、複雑な検索要求を表現することが可能と
なる。また、論理演算子に合わせた最適化を行うので、
高速に文書検索できる。（４）請求項９,１０,１１に対応する効果：前記文字成
分表を、該文字成分表を保存する大小２種類のブロック
から構成されるデータファイルと、文字成分ごとのブロ
ック位置を記録するインデックスファイルによって記憶
し、複数の小さいブロックを大きいブロックにまとめる
ブロック融合手段を有し、また、前記ブロック融合手段
において、データファイルの前方に大きいブロックをま
とめ、後方に小さいブロックをまとめるようにし、さら
に、前記ブロック融合手段において、データファイルの
小さいブロックが存在する領域のみをブロック融合の対
象とするようにし、文字成分表のビットマップデータを
格納するブロックの大きさに大小２種類用意したため、
登録／検索速度をともに高速化できる。（５）請求項１２に対応する効果：前記ブロック融合手
段において、検索時に高速に文字成分表エントリを二次
記憶から読み出すために、複数の固定長ブロックに分割
された各文字成分表エントリを大きな固定長ブロックに
まとめあげる時に大きな固定長ブロックをアロケートの
単位とし、まとめ上げられた大きな固定長ブロック及び
まとめあげられなかった残りの小さな固定長ブロックを
詰め込んだ大きな固定長ブロックを順時書き出すことに
よって、文字成分表のデータを一回のスキャンで処理
し、高速にかつ処理時に必要な二次記憶領域を最小限に
抑えるようにし、文字エントリの小さなブロックを大き
なブロックにまとめ上げることにより、検索速度が向上
する。（６）請求項１３〜１５に対応する効果：特定のビット
マップのビットを横方向に順時調べ、ビットが１の場合
には、他のビットマップエントリの対応するビットを調
べる。つまり、縦方向にビットを調べ、すべてのビット
が１の場合は、ビットに対応する文書が検索結果の文書
となるようにする。また、各文字エントリ中に出現する
ビット１の出現数を予めカウントしておき、前述のビッ
トを調べる処理の時にビット出現数が小さい順に並び代
え、同様の処理を行うことによって、さらに参照するデ
ータ量を減らすことが可能となる。さらに、文字エント
リの一部しか必要でない場合には、全ブロックをアクセ
スすることなしにブロックテーブルから直接該当するブ
ロックを得られ、高速に検索することができる。このよ
うに従来技術では文字エントリのアクセスが多く、検索
速度の低下を招いていたが、検索時の処理のアルゴリズ
ム及びデータ構成を変えることによって検索速度が向上
する。（７）請求項１６〜１９に対応する効果：前記文字成分
表の構成を文書の各文字および連続する２文字から算出
される値を記録するものとした場合、前記文字検索手段
が検索文字列から連続する２文字から算出される値のみ
を抽出し、また、前記文書検索手段が検索文字列から連
続する２文字から算出される値と、該検索文字列の末尾
の１文字から算出される値を抽出し、また、検索文字列
から連続する２文字から算出される値と、該検索文字列
の先頭の１文字から算出される値を抽出し、さらに、前
記文字成分表の構成を連続する３文字以上の文字列から
算出される値をも用いる場合、前記文書検索手段が検索
文字列から前記文字エントリが抽出される時には、該文
字列エントリに対応する文字列に含まれる１文字あるい
は前記文字列にその前後の文字を含めた文字列に含まれ
る２文字から算出される値を抽出しないようにしたの
で、検索処理において検索文字列から抽出するエントリ
数を削減し、検索処理を高速化できる。（８）請求項２０，２１に対応する効果：前記文書検索
手段が単一の文字列あるいは複数の文字列を「論理
積」,「論理和」あるいは「論理差」論理演算子で組み
合わせた検索条件を処理可能とし、また、前記文書検索
手段で「論理差」で結合される２つの文字列の処理にお
いて、後側の文字列を処理しないことにしたので、検索
条件を複数の文字列を論理演算子（ＡＮＤ，ＯＲ，ＮＯ
Ｔ）で組み合わせで表現できるので、複雑な検索要求を
表現することが可能となる。また、論理演算子に合わせ
た最適化を行うので、高速に文書検索できる。（９）請求項２２に対応する効果：従来の方法では、文
字成分表データが二次記憶上にある場合には、一文書を
登録するごとに二次記憶にアクセスすることになり、速
度が遅くなってしまうが、本発明によると、一括登録す
る文書については、一旦メモリ上に文字成分表を一時的
に生成登録し、その後、処理の最後にメモリ上の文字成
分表データを二次記憶上の文書成分表データにアペンド
する。こうすることによって、二次記憶へのアクセスが
減り、高速に複数文書の一括登録が可能となる。（１０）請求項２３に対応する効果：外部にあるオリジ
ナル文書のファイルシステム上でのディレクトリパス名
を当該文書管理装置で管理し、参照には、ディレクトリ
パス名を基に外部の該ファイルを直接参照することにな
るので、当該装置のシステムが内部にオリジナルデータ
を持つ必要がなく、二次記憶を無駄に利用しないだけで
なく、システムを介することなくユーザや他のアプリケ
ーションによる登録文書の参照が可能となる。（１１）請求項２４に対応する効果：上述と同様に、デ
ィレクトリパス名を管理する場合に、ディレクトリ内お
よびその下位ディレクトリの文書をすべて登録するよう
になっているので、オリジナル文書をユーザが普段利用
するファイルシステム上に置く場合には、一つのディレ
クトリ階層に存在する文書をそのまま文書管理装置で管
理するシステムとすることが可能となる。また、ディレ
クトリを指定することによって、そのディレクトリ中に
含まれる文書または下位のディレクトリ中に含まれる全
文書を自動的に登録することができるようにすること
で、ディレクトリ上の全文書を一つ一つユーザが指定す
る必要があった従来のユーザの負担を軽減することがで
きる。（１２）請求項２５に対応する効果：登録したい文書を
置くディレクトリをユーザがあらかじめ指定しておく
と、当該文書管理装置は、そのディレクトリ上での文書
の登録，更新，削除を常に監視し、文書の登録，更新，
削除が行われた場合には、同じ操作を自動的に文字成分
表に反映させ、登録，更新，削除を行う。このようにす
ることで、ユーザの文書操作の負担を軽減することがで
きる。

【図面の簡単な説明】

【図１】本発明による文書管理装置の一実施例を説明
するための構成図である。

【図２】本発明における文字成分表の一例を示す図で
ある。

【図３】本発明における文字成分表の他の例を示す図
である。

【図４】本発明による文書管理装置の他の実施例を説
明するための構成図である。

【図５】本発明における長い文字列をエントリとして
持つ文字成分表の例を示す図である。

【図６】本発明における文字成分表のためのファイル
構成の一例を示す図である。

【図７】本発明における文字成分表ファイルのブロッ
ク融合処理の概要（その１）を示す図である。

【図８】本発明における文字成分表ファイルのブロッ
ク融合処理の概要（その２）を示す図である。

【図９】本発明による文書管理装置の更に他の実施例
を説明するための構成図である。

【図１０】本発明における単一文字成分表を示す図で
ある。

【図１１】本発明における隣接文字成分表を示す図で
ある。

【図１２】従来の検索方式を説明するための図であ
る。

【図１３】本発明における検索方式（その１）を説明
するための図である。

【図１４】本発明における検索方式（その２）を説明
するための図である。

【図１５】本発明におけるデータ構成を示す図であ
る。

【図１６】本発明におけるまとめ上げ処理（その１）
を説明するための図である。

【図１７】本発明におけるまとめ上げ処理（その２）
を説明するための図である。

【図１８】本発明における一括登録処理の例を説明す
るための図である。

【符号の説明】

１…登録文書、２…文書登録手段、３…検索条件、４…
文書検索手段、５…該当文書、６…文字成分表エントリ
指定、７…文字成分表、８…文書本文データ、９…文書
データベース、９-1〜９-n…文書データベース、１１…
入力部、１２…処理部、１３…文字列入力処理部、１４
…文書検索処理部、１５…文書出力処理部、１６…文書
登録処理部、１７…データ部、１８…文字成分表、１９
…出力部、２０…文書データ。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成７年６月３０日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項１３

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】請求項１６

【補正方法】変更

【補正内容】

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０００２

【補正方法】変更

【補正内容】

【０００２】

【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平５−３２４７２２号公
報がある。この公報のものは、文字列検索において、利
用する文字成分表を小さく抑え、かつ、検索程度を上
げ、高速な文書登録を可能とするために、入力部に入力
された検索文字列は、処理部の文字列入力処理で処理
し、文書検索処理部において、データ部の文字成分表を
利用して文字列を含むと思われる文書を検索する。検索
した文書に対応する文書データを文書出力処理により出
力部に出力し、文書登録処理では、登録する文書を文書
データに登録し、文書データより文字成分を抽出して文
字成分表に登録する。検索文字列を文書から検索する場
合、文字成分表として、文字から算出される値が文書中
に存在するか否かを示す１文字成分表及び隣接する文字
から算出される値が文書中に存在するか否かを示す隣接
文字成分表を利用して文書を検索する。すなわち、文書
ごとに出現した文字を記録した文字成分表を用いて文書
を高速に検索するシステムである。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】０００３

【補正方法】変更

【補正内容】

【０００３】また、前述した特開平５−３２４７２２号
公報や、先に提案した特願平５−２９８４３３号に記載
のものは、文字成分が文書中に存在するか否かを示す単
一文字成分表、及び隣接する文字から抽出したある文字
成分が文書中に存在するか否かを示す隣接文字成分表を
利用して文書を検索するものである。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正内容】

【０００６】

【課題を解決するための手段】本発明は、上記目的を達
成するために、（１）登録文書を保存するとともに、該
登録文書に含まれる各文字あるいは連続する２文字から
算出される値（文字成分）を文字成分表に登録し記録す
る文書登録手段と、前記文字成分表を用いて検索条件に
該当する文書を高速に探し出す文書検索手段とを有する
文書管理装置において、文字成分表エントリ指定により
前記文字成分表の構成を変更可能とすること、或いは、
（２）前記（１）において、前記登録文書を複数のフォ
ルダに分割して管理可能で、かつフォルダごとに文字成
分表エントリ指定のできること、或いは、（３）前記
（１）において、文書検索手段で単一の文字列から抽出
される文字成分に同一のものが二個以上ある場合、前記
文字成分表の文字成分に対するアクセスを一回しか行わ
ないこと、或いは、（４）前記（１）において、文字成
分の算出値として、連続する３文字以上の文字列から算
出される値をも用いること、或いは、（５）前記（４）
において、文書登録時の文字成分の算出において、連続
する３文字以上の文字列から算出される値を用いる場合
には、該文字列から１文字あるいは連続する２文字から
算出される値を文字成分表に登録しないこと、或いは、
（６）前記（１）において、前記文書検索手段におい
て、単一の文字列あるいは複数の文字列をＡＮＤ論理演
算子あるいはＯＲ論理演算子で組み合わせた検索条件を
処理可能とすること、或いは、（７）前記（６）におい
て、前記文書検索手段でＡＮＤ論理演算子で結合される
２つの文字列から抽出される文字成分に同一のものが２
個以上ある場合、文字成分表の文字成分に対するアクセ
スを一回しか行わないこと、或いは、（８）前記（６）
において、前記文書検索手段でＯＲ論理演算子で結合さ
れる２つの文字列から抽出される文字成分に同一のもの
が２個以上ある場合、文字成分表の文字成分に対するア
クセスを一回しか行わないこと、或いは、（９）前記
（１）において、前記文字成分表を、該文字成分表を保
存する大小２種類のブロックから構成されるデータファ
イルと、文字成分ごとのブロック位置を記録するインデ
ックスファイルによって記憶し、複数の小さいブロック
を大きいブロックにまとめるブロック融合手段を有する
こと、或いは、（１０）前記（９）において、前記ブロ
ック融合手段において、データファイルの前方に大きい
ブロックをまとめ、後方に小さいブロックをまとめるこ
と、或いは、（１１）前記（１０）において、前記ブロ
ック融合手段において、データファイルの小さいブロッ
クが存在する領域のみをブロック融合の対象とするこ
と、或いは、（１２）前記（９）において、前記ブロッ
ク融合手段において、検索時に高速に文字成分表エント
リを二次記憶から読み出すために、複数の固定長ブロッ
クに分割された各文字成分表エントリを大きな固定長ブ
ロックにまとめあげる時に大きな固定長ブロックをアロ
ケートの単位とし、まとめ上げられた大きな固定長ブロ
ック及びまとめあげられなかった残りの小さな固定長ブ
ロックを詰め込んだ大きな固定長ブロックを順時書き出
すことによつて、文字成分表のデータを一回のスキャン
で処理し、高速にかつ処理時に必要な二次記憶領域を最
小限に抑えること、或いは、（１３）大量の文書データ
を保持し、入力装置から入力された検索文字列を含む文
書を検索し、出力装置により検索した文書を出力する文
書管理装置であって、文書登録時に文書より各文字コー
ド成分（単一文字成分）及び２文字以上の隣接文字から
ビット列成分（隣接文字成分）を算出し、各文書がそれ
ぞれの成分を含むか否かを示す単一文字成分表及び一つ
以上の隣接文字成分表を生成し、該文字成分表の可変長
の各文字成分のエントリを複数の固定長ブロックに分割
して二次記憶に登録し、検索時には検索文字列から登録
時と同様に単一文字成分及び２文字以上の隣接文字成分
を抽出し、該隣接文字成分に対応する二次記憶上の固定
長ブロックを統合し、各文字エントリを生成して文書を
検索する文書管理装置において、仮に文字エントリで文
字成分が出現するビットを１とし、出現しないビットを
０とした場合に、検索時に複数の文字エントリのビット
マップのＡＮＤ処理を行う時に対象となる文字エントリ
を一つ適当に選択し、ビット列をスキャンして値が１で
ある時だけ他のエントリの対応するビットを調べ、全て
のエントリの対応するビットの値が１である文書を検索
結果とすることにより、文字エントリのビットマップへ
のアクセスを最小限に抑え全文検索を行うこと、或い
は、（１４）前記（１３）において、文字エントリごと
に該文字エントリに出現する１のビットの個数（ビット
出現数）をあらかじめ二次記憶に記録しておき、検索時
に複数の文字エントリのビットマップのＡＮＤ処理を行
う時に対象となる文字エントリのうち、該ビット出現数
の最も少ない文字エントリを選択し、ビット列をスキャ
ンして値が１である時だけビット出現数の少ない順に他
の文字エントリの対応するビットを調べ、全ての文字エ
ントリの対応するビットの値が１である文書を検索結果
とすることにより、文字エントリのビットマップへのア
クセスを最小限に抑え全文検索を行うこと、或いは、
（１５）前記（１３）において、文字エントリの一部へ
のアクセスの場合に、文字エントリの全ブロックを読み
出す必要がないように、可変長の文字エントリのビット
マップデータを複数の固定長のブロックに分割して二次
記憶に格納し、各固定長のブロックを管理するブロック
テーブルを二次記憶上に有し、該ブロックテーブルから
任意の固定長ブロックをアクセスできるようにすること
によって、必要のない二次記憶上のブロックへのアクセ
スを減らして全文検索を行うこと、或いは、（１６）登
録文書を保存するとともに、該登録文書に含まれる各文
字あるいは連続する２文字から算出される値（文字成
分）を文字成分表に登録し記録する文書登録手段と、前
記文字成分表を用いて検索条件に該当する文書を高速に
探し出す文書検索手段とを有し、前記文字成分表エント
リ指定により文字成分表の構成を変更可能とし、前記文
字成分表の構成を文書の各文字および連続する２文字か
ら算出される値を記録するものとした場合、前記文書検
索手段が検索文字列から連続する２文字から算出される
値のみを抽出すること、或いは、（１７）前記（１６）
において、前記文書検索手段が、検索文字列からの連続
する２文字から算出される値と、該検索文字列の末尾の
１文字から算出される値を抽出すること、或いは、（１
８）前記（１６）において、前記文書検索手段が、検索
文字列からの連続する２文字から算出される値と、該検
索文字列の先頭の１文字から算出される値を抽出するこ
と、或いは、（１９）前記（１８）において、前記文字
成分表の構成を連続する３文字以上の文字列から算出さ
れる値（文字列エントリ）をも用いる場合、前記文書検
索手段が、検索文字列から前記文字エントリが抽出され
る時には、該文字列エントリに対応する文字列に含まれ
る１文字あるいは前記文字列にその前後の文字を含めた
文字列に含まれる２文字から算出される値を抽出しない
こと、或いは、（２０）前記（１６）において、前記文
書検索手段が単一の文字列あるいは複数の文字列を「論
理積」，「論理和」あるいは「論理差」論理演算子で組
み合わせた検索条件を処理可能なこと、或いは、（２
１）前記（２０）において、前記文書検索手段で「論理
差」で結合される２つの文字列の処理において、後側の
文字列を処理しないこと、或いは、（２２）前記（１）
において、前記文書登録手段が、多数の文書を一括して
登録する場合に、一文書を登録するごとに生成された文
字成分表データを直接二次記憶上の文字成分表に書き込
むのではなく一旦メモリ上に登録し、その後、一括して
メモリ上の文字成分表データを二次記憶の文字成分表に
書き出すことによって、高速に文書の一括登録を行うこ
と、或いは、（２３）前記（１）において、前記文書登
録手段により登録されたファイルシステム上の登録文書
のディレクトリパス名を二次記憶上で管理し、文書内容
を参照する場合には、登録したディレクトリパス名を基
に直接ファイルシステム上のオリジナルデータを参照す
ることによって、文書管理システムが内部にオリジナル
データを持つ必要がないだけでなく、ユーザや他のアプ
リケーションによる登録文書の参照を容易にすること、
或いは、（２４）前記（１）において、前記文書登録手
段により登録されたファイルシステム上の登録文書のオ
リジナルデータのディレクトリパス名を管理し、文書内
容を参照する場合には、登録したディレクトリパス名を
基に直接ファイルシステム上のオリジナルデータを参照
するようにし、文書の登録時にディレクトリを指定し、
そのディレクトリ内およびその下位ディレクトリの文書
をすべて登録することにより、複数の文書の登録時の文
書指定を容易にすること、或いは、（２５）前記（１）
において、前記文書登録手段により登録されたファイル
システム上の登録文書のオリジナルデータのディレクト
リパス名を管理し、文書内容を参照する時には、登録し
たディレクトリパス名を基に直接ファイルシステム上の
オリジナルデータを参照するようにし、あらかじめ登録
対象とするディレクトリを指定しておき、そのディレク
トリ上での文書の登録，更新，削除を常に監視し、文書
の登録，更新，削除があった場合には、自動的に当該の
文書について文字成分表に登録，更新，削除を行うこと
によって、ユーザの文書管理の手間を削減することを特
徴としたものである。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正内容】

【０００９】（３）前記文書検索手段において、単一の
文字列あるいは複数の文字列をＡＮＤあるいはＯＲ論理
演算子で組み合わせた検索条件を処理可能とし、また、
前記文書検索手段でＡＮＤ論理演算子で結合される２つ
の文字列から抽出される文字成分に同一のものが２個以
上ある場合、文字成分表の文字成分に対するアクセスを
一回しか行わないようにし、さらに、前記文書検索手段
でＯＲ論理演算子で結合される２つの文字列から抽出さ
れる文字成分に同一のものが２個以上ある場合、文字成
分表の文字成分に対するアクセスを一回しか行わないよ
うにした。検索条件を複数の文字列を論理演算子（ＡＮ
Ｄ，ＯＲ）で組み合わせで表現できるので、複雑な検索
要求を表現することが可能となる。また、論理演算子に
合わせた最適化を行うので、高速に文書検索できる。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００１２

【補正方法】変更

【補正内容】

【００１２】（６）特定のビットマップのビットを横方
向に順時調べ、ビットが１の場合には、他のビットマッ
プエントリの対応するビットを調べる。つまり、縦方向
にビットを調べ、すべてのビットが１の場合は、ビット
に対応する文書が検索結果の文書となるようにする。ま
た、各文字エントリ中に出現するビット１の出現数を予
めカウントしておき、前述のビットを調べる処理の時に
ビット出現数が小さい順に並び代え、同様の処理を行う
ことによって、さらに参照するデータ量を減らすことが
可能となる。さらに、文字エントリの一部しか参照しな
い場合には、全ブロックをアクセスすることなしにブロ
ックテーブルから直接該当するブロックを得られ、高速
に検索することができる。このように従来技術では文字
エントリのアクセスが多く、検索速度の低下を招いてい
たが、検索時の処理のアルゴリズム及びデータ構成を変
えることによって検索速度が向上する。

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００１３

【補正方法】変更

【補正内容】

【００１３】（７）前記文字成分表の構成を文書の各文
字および連続する２文字から算出される値を記録するも
のとした場合、前記文書検索手段が検索文字列から連続
する２文字から算出される値のみを抽出し、また、前記
文書検索手段が検索文字列から連続する２文字から算出
される値と、該検索文字列の末尾の１文字から算出され
る値を抽出し、また、検索文字列から連続する２文字か
ら算出される値と、該検索文字列の先頭の１文字から算
出される値を抽出し、さらに、前記文字成分表の構成を
連続する３文字以上の文字列から算出される値をも用い
る場合、前記文書検索手段が検索文字列から前記文字エ
ントリが抽出される時には、該文字列エントリに対応す
る文字列に含まれる１文字あるいは前記文字列にその前
後の文字を含めた文字列に含まれる２文字から算出され
る値を抽出しないようにしたので、検索処理において検
索文字列から抽出するエントリ数が削減され、検索処理
を高速化できる。

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００２５

【補正方法】変更

【補正内容】

【００２５】また、文書検索手順は、次の通りである。．文字成分表７を用いて検索文字列を含む可能性のあ
る文書番号を求める。（ａ）検索文字列から文字成分表エントリ指定６で規定
されるエントリを抽出する。（ｂ）抽出された全てのエントリのビットマップ（図２
の横一列）を文字成分表から抜きだし、ビットＡＮＤを
とる。．前記で求まった文書番号の文書本文を文書本文デ
ータ８から読みだし、検索文字列が含まれているか調
べ、含まれている文書集合を検索結果とする。

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００２９

【補正方法】変更

【補正内容】

【００２９】例えば、図２の文字成分表を用いた場合、
検索語「マンマシンシステム」は９文字から構成されて
いるため、文字成分表には「マ」「ン」「マ」「シ」
「ン」「シ」「ス」「テ」「ム」の９回のアクセスが必
要になる。しかし、実際には、「マ」「ン」「シ」は２
回ずつ出現しているため、これらエントリへのアクセス
は１回にまとめることができる。すなわち、文字成分表
への実際のアクセスは、「マ」「ン」「シ」「ス」
「テ」「ム」の６回ですむ。

【手続補正１１】

【補正対象書類名】明細書

【補正対象項目名】００３１

【補正方法】変更

【補正内容】

【００３１】登録時には、「…あのマンマシンシステム
は…」からは、文字として「あ」「の」「マ」「ン」
「シ」「ス」「テ」「ム」「は」、文字列として「シス
テム」が抽出され、文字成分表に記録される。検索時に
は、検索語「マンマシンシステム」からは、文字として
「マ」「ン」「マ」「シ」「ン」、文字列として「シス
テム」が抽出されるが、「システム」に含まれる「シ」
および単一文字の重複を削除する。結局、「マ」「ン」
「システム」の３つのエントリにアクセスするだけでよ
く、検索時間は大幅に短縮できる。

【手続補正１２】

【補正対象書類名】明細書

【補正対象項目名】００３８

【補正方法】変更

【補正内容】

【００３８】インデックスファイルに含まれるブロック
数は、文字成分表エントリ指定によって決まる。ビット
マップデータファイルは、次の２つのフィールドを含む
ブロックから構成される。・次ブロックオフセットフィールド・データフィールド

【手続補正１３】

【補正対象書類名】明細書

【補正対象項目名】００３９

【補正方法】変更

【補正内容】

【００３９】ブロックサイズは、性能要求に合わせて数
十バイトから数キロバイトの範囲に設定すれば良い。図
６（ａ）は、文字成分表のためのファイル構成の一例を
示す図である。なお、インデックスファイルを半導体メ
モリ上にロードしておくことは、高速化に有効である。

【手続補正１４】

【補正対象書類名】明細書

【補正対象項目名】００４２

【補正方法】変更

【補正内容】

【００４２】文書検索システム利用開始時点では、ブロ
ックサイズを小さいものとして、登録速度を優先する
（登録文書数が少ない間は、検索速度が多少遅くても検
索時間が小さいので、ほとんど問題とならない）。多数
の文書が登録され、ビットマップデータファイルに含ま
れるブロック数が増大した段階で、複数のバケットをコ
ンテナにまとめあげるブロック融合処理を行う。通常の
オペレーティングシステムでは、データを小さいブロッ
クに分割しておくよりも大きいブロックにまとめておく
方がアクセスが高速だからである。その結果、ブロック
融合処理により検索速度が向上され、登録文書数が多い
場合でも検索時間を小さくできる。

【手続補正１５】

【補正対象書類名】明細書

【補正対象項目名】００６１

【補正方法】変更

【補正内容】

【００６１】文書ＩＤが４０００の文書内に内部文字コ
ードが「あ」の文字が出現する否かを調べる場合を例
に、以下に説明する。・インデックスの「あ」に対応するブロックテーブルポ
インタからブロックテーブルを得る。・ブロック最終登録文書ＩＤから文書ＩＤ４０００を含
むブロック（ブロックポインタ５１２０）を得る。・ブロック（５１２０）のデータが圧縮されている場合
には伸長し、文書ＩＤ４０００に該当するビットを得
る。このように、文字エントリの一部しか参照しない場合に
は、全ブロックをアクセスすることなしにブロックテー
ブルから直接該当するブロックを得られ、高速に検索す
ることができる。

【手続補正１６】

【補正対象書類名】明細書

【補正対象項目名】００８９

【補正方法】変更

【補正内容】

【００８９】

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。（１）請求項１，２に対応する効果：登録文書を保存す
るとともに、該登録文書に含まれる各文字あるいは連続
する２文字から算出される値を文字成分表に登録し記録
する文書登録手段と、前記文字成分表を用いて検索条件
に該当する文書を高速に探し出す文書検索手段とを有
し、前記文字成分表エントリ指定により文字成分表の構
成を変更可能とし、前記登録文書を複数のフォルダに分
割して管理可能で、かつフォルダごとに文字成分表エン
トリ指定できるようにし、文字成分表の構成を目的に合
わせて変更できるようにしたため、効率的な文書管理シ
ステムを構築できる。（２）請求項３，４，５に対応する効果：前記文書検索
手段で単一の文字列から抽出される文字成分に同一のも
のが２個以上ある場合、前記文字成分表の文字成分に対
するアクセスを一回しか行わないようにし、また、文字
成分の算出において、連続する３文字以上の文字列から
算出される値をも用いるようにし、さらに、文書登録時
の文字成分の算出において、連続する３文字以上の文字
列から算出される値を用いる場合には、該文字列から１
文字あるいは連続する２文字から算出される値を文字成
分表に登録しないようにしたので、検索文字列が長い場
合でも、高速に文書検索できる。（３）請求項６，７，８に対応する効果：前記文書検索
手段において、単一の文字列あるいは複数の文字列をＡ
ＮＤあるいはＯＲ論理演算子で組み合わせた検索条件を
処理可能とし、また、前記文書検索手段でＡＮＤ論理演
算子で結合される２つの文字列から抽出される文字成分
に同一のものが２個以上ある場合、文字成分表の文字成
分に対するアクセスを一回しか行わないようにし、さら
に、前記文書検索手段でＯＲ論理演算子で結合される２
つの文字列から抽出される文字成分に同一のものが２個
以上ある場合、文字成分表の文字成分に対するアクセス
を一回しか行わないようにした。検索条件を複数の文字
列を論理演算子（ＡＮＤ，ＯＲ）で組み合わせで表現で
きるので、複雑な検索要求を表現することが可能とな
る。また、論理演算子に合わせた最適化を行うので、高
速に文書検索できる。（４）請求項９，１０，１１に対応する効果：前記文字
成分表を、該文字成分表を保存する大小２種類のブロッ
クから構成されるデータファイルと、文字成分ごとのブ
ロック位置を記録するインデックスファイルによって記
憶し、複数の小さいブロックを大きいブロックにまとめ
るブロック融合手段を有し、また、前記ブロック融合手
段において、データファイルの前方に大きいブロックを
まとめ、後方に小さいブロックをまとめるようにし、さ
らに、前記ブロック融合手段において、データファイル
の小さいブロックが存在する領域のみをブロック融合の
対象とするようにし、文字成分表のビットマップデータ
を格納するブロックの大きさに大小２種類用意したた
め、登録／検索速度をともに高速化できる。（５）請求項１２に対応する効果：前記ブロック融合手
段において、検索時に高速に文字成分表エントリを二次
記憶から読み出すために、複数の固定長ブロックに分割
された各文字成分表エントリを大きな固定長ブロックに
まとめあげる時に大きな固定長ブロックをアロケートの
単位とし、まとめ上げられた大きな固定長ブロック及び
まとめあげられなかった残りの小さな固定長ブロックを
詰め込んだ大きな固定長ブロックを順時書き出すことに
よって、文字成分表のデータを一回のスキャンで処理
し、高速にかつ処理時に必要な二次記憶領域を最小限に
抑えるようにし、文字エントリの小さなブロックを大き
なブロックにまとめ上げることにより、検索速度が向上
する。（６）請求項１３〜１５に対応する効果：特定のビット
マップのビットを横方向に順時調べ、ビットが１の場合
には、他のビットマップエントリの対応するビットを調
べる。つまり、縦方向にビットを調べ、すべてのビット
が１の場合は、ビットに対応する文書が検索結果の文書
となるようにする。また、各文字エントリ中に出現する
ビット１の出現数を予めカウントしておき、前述のビッ
トを調べる処理の時にビット出現数が小さい順に並び代
え、同様の処理を行うことによって、さらに参照するデ
ータ量を減らすことが可能となる。さらに、文字エント
リの一部しか参照しない場合には、全ブロックをアクセ
スすることなしにブロックテーブルから直接該当するブ
ロックを得られ、高速に検索することができる。このよ
うに従来技術では文字エントリのアクセスが多く、検索
速度の低下を招いていたが、検索時の処理のアルゴリズ
ム及びデータ構成を変えることによって検索速度が向上
する。（７）請求項１６〜１９に対応する効果：前記文字成分
表の構成を文書の各文字および連続する２文字から算出
される値を記録するものとした場合、前記文字検索手段
が検索文字列から連続する２文字から算出される値のみ
を抽出し、また、前記文書検索手段が検索文字列から連
続する２文字から算出される値と、該検索文字列の末尾
の１文字から算出される値を抽出し、また、検索文字列
から連続する２文字から算出される値と、該検索文字列
の先頭の１文字から算出される値を抽出し、さらに、前
記文字成分表の構成を連続する３文字以上の文字列から
算出される値をも用いる場合、前記文書検索手段が検索
文字列から前記文字エントリが抽出される時には、該文
字列エントリに対応する文字列に含まれる１文字あるい
は前記文字列にその前後の文字を含めた文字列に含まれ
る２文字から算出される値を抽出しないようにしたの
で、検索処理において検索文字列から抽出するエントリ
数を削減し、検索処理を高速化できる。（８）請求項２０，２１に対応する効果：前記文書検索
手段が単一の文字列あるいは複数の文字列を「論理
積」，「論理和」あるいは「論理差」論理演算子で組み
合わせた検索条件を処理可能とし、また、前記文書検索
手段で「論理差」で結合される２つの文字列の処理にお
いて、後側の文字列を処理しないことにしたので、検索
条件を複数の文字列を論理演算子（ＡＮＤ，ＯＲ，ＮＯ
Ｔ）で組み合わせで表現できるので、複雑な検索要求を
表現することが可能となる。また、論理演算子に合わせ
た最適化を行うので、高速に文書検索できる。（９）請求項２２に対応する効果：従来の方法では、文
字成分表データが二次記憶上にある場合には、一文書を
登録するごとに二次記憶にアクセスすることになり、速
度が遅くなってしまうが、本発明によると、一括登録す
る文書については、一旦メモリ上に文字成分表を一時的
に生成登録し、その後、処理の最後にメモリ上の文字成
分表データを二次記憶上の文書成分表データにアペンド
する。こうすることによって、二次記憶へのアクセスが
減り、高速に複数文書の一括登録が可能となる。（１０）請求項２３に対応する効果：外部にあるオリジ
ナル文書のファイルシステム上でのディレクトリパス名
を当該文書管理装置で管理し、参照には、ディレクトリ
パス名を基に外部の該ファイルを直接参照することにな
るので、当該装置のシステムが内部にオリジナルデータ
を持つ必要がなく、二次記憶を無駄に利用しないだけで
なく、システムを介することなくユーザや他のアプリケ
ーションによる登録文書の参照が可能となる。（１１）請求項２４に対応する効果：上述と同様に、デ
ィレクトリパス名を管理する場合に、ディレクトリ内お
よびその下位ディレクトリの文書をすべて登録するよう
になっているので、オリジナル文書をユーザが普段利用
するファイルシステム上に置く場合には、一つのディレ
クトリ階層に存在する文書をそのまま文書管理装置で管
理するシステムとすることが可能となる。また、ディレ
クトリを指定することによって、そのディレクトリ中に
含まれる文書または下位のディレクトリ中に含まれる全
文書を自動的に登録することができるようにすること
で、ディレクトリ上の全文書を一つ一つユーザが指定す
る必要があった従来のユーザの負担を軽減することがで
きる。（１２）請求項２５に対応する効果：登録したい文書を
置くディレクトリをユーザがあらかじめ指定しておく
と、当該文書管理装置は、そのディレクトリ上での文書
の登録，更新，削除を常に監視し、文書の登録，更新，
削除が行われた場合には、同じ操作を自動的に文字成分
表に反映させ、登録，更新，削除を行う。このようにす
ることで、ユーザの文書操作の負担を軽減することがで
きる。

Claims

【特許請求の範囲】

【請求項１】登録文書を保存するとともに、該登録文
書に含まれる各文字あるいは連続する２文字から算出さ
れる値を文字成分表に登録し記録する文書登録手段と、
前記文字成分表を用いて検索条件に該当する文書を高速
に探し出す文書検索手段とを有し、文字成分表エントリ
指定により前記文字成分表の構成を変更可能とすること
を特徴とする文書管理装置。
【請求項２】前記登録文書を複数のフォルダに分割し
て管理可能で、かつフォルダごとに文字成分表エントリ
指定のできることを特徴とする請求項１記載の文書管理
装置。
【請求項３】前記文書検索手段で単一の文字列から抽
出される文字成分に同一のものが２個以上ある場合、前
記文字成分表の文字成分に対するアクセスを一回しか行
わないことを特徴とする請求項１記載の文書管理装置。
【請求項４】文字成分の算出値として、連続する３文
字以上の文字列から算出される値をも用いることを特徴
とする請求項１記載の文書管理装置。
【請求項５】文書登録時の文字成分の算出において、
連続する３文字以上の文字列から算出される値を用いる
場合には、該文字列から１文字あるいは連続する２文字
から算出される値を文字成分表に登録しないことを特徴
とする請求項４記載の文書管理装置。
【請求項６】前記文書検索手段において、単一の文字
列あるいは複数の文字列をＡＮＤ論理演算子あるいはＯ
Ｒ論理演算子で組み合わせた検索条件を処理可能とする
ことを特徴とする請求項１記載の文書管理装置。
【請求項７】前記文書検索手段でＡＮＤ論理演算子で
結合される２つの文字列から抽出される文字成分に同一
のものが２個以上ある場合、文字成分表の文字成分に対
するアクセスを一回しか行わないことを特徴とする請求
項６記載の文書管理装置。
【請求項８】前記文書検索手段でＯＲ論理演算子で結
合される２つの文字列から抽出される文字成分に同一の
ものが２個以上ある場合、文字成分表の文字成分に対す
るアクセスを一回しか行わないことを特徴とする請求項
６記載の文書管理装置。
【請求項９】前記文字成分表を、該文字成分表を保存
する大小２種類のブロックから構成されるデータファイ
ルと、文字成分ごとのブロック位置を記録するインデッ
クスファイルによって記憶し、複数の小さいブロックを
大きいブロックにまとめるブロック融合手段を有するこ
とを特徴とする請求項１記載の文書管理装置。
【請求項１０】前記ブロック融合手段において、デー
タファイルの前方に大きいブロックをまとめ、後方に小
さいブロックをまとめることを特徴とする請求項９記載
の文書管理装置。
【請求項１１】前記ブロック融合手段において、デー
タファイルの小さいブロックが存在する領域のみをブロ
ック融合の対象とすることを特徴とする請求項１０記載
の文書管理装置。
【請求項１２】前記ブロック融合手段において、検索
時に高速に文字成分表エントリを二次記憶から読み出す
ために、複数の固定長ブロックに分割された各文字成分
表エントリを大きな固定長ブロックにまとめあげる時に
大きな固定長ブロックをアロケートの単位とし、まとめ
上げられた大きな固定長ブロック及びまとめあげられな
かった残りの小さな固定長ブロックを詰め込んだ大きな
固定長ブロックを順時書き出すことによって、文字成分
表のデータを一回のスキャンで処理し、高速にかつ処理
時に必要な二次記憶領域を最小限に抑えることを特徴と
する請求項９記載の文書管理装置。
【請求項１３】大量の文書データを保持し、入力装置
から入力された検索文字列を含む文書を検索し、出力装
置により検索した文書を出力する文書管理装置であっ
て、文書登録時に文書より各文字コード成分及び２文字
以上の隣接文字から抽出したビット列成分を抽出し、各
文書がそれぞれの成分を含むか否かを示す単一文字成分
表及び一つ以上の隣接文字成分表を生成し、該文字成分
表の可変長の各文字成分のエントルを複数の固定長ブロ
ックに分割して二次記憶に登録し、検索時には検索文字
列から登録時と同様に単一文字成分及び２文字以上の隣
接文字成分を抽出し、該隣接文字成分に対応する二次記
憶上の固定長ブロックを統合し、各文字エントリを生成
して文書を検索する文書管理装置において、仮に文字エ
ントリで文字成分が出現するビットを１とし、出現しな
いビットを０とした場合に、検索時に複数の文字エント
リのビットマップのＡＮＤ処理を行う時に対象となる文
字エントリを一つ適当に選択し、ビット列をスキャンし
て値が１である時だけ他のエントリの対応するビットを
調べ、全てのエントリの対応するビットの値が１である
文書を検索結果とすることにより、文字エントリのビッ
トマップへのアクセスを最小限に全文検索を行うことを
特徴とする文書管理装置。
【請求項１４】文字エントリごとに該文字エントリに
出現する１のビットの個数をあらかじめ二次記憶に記録
しておき、検索時に複数の文字エントリのビットマップ
のＡＮＤ処理を行う時に対象となる文字エントリのう
ち、該ビット出現数の最も少ない文字エントリを選択
し、ビット列をスキャンして値が１である時だけビット
出現数の少ない順に他の文字エントリの対応するビット
を調べ、全ての文字エントリの対応するビットの値が１
である文書を検索結果とすることにより、文字エントリ
のビットマップへのアクセスを最小限に抑え全文検索を
行うことを特徴とする請求項１３記載の文書管理装置。
【請求項１５】文字エントリの一部へのアクセスの場
合に、文字エントリの全ブロックを読み出す必要がない
ように、可変長の文字エントリのビットマップデータを
複数の固定長のブロックに分割して二次記憶に格納し、
各固定長のブロックを管理するブロックテーブルを二次
記憶上に有し、該ブロックテーブルから任意の固定長ブ
ロックをアクセスできるようにすることによって、必要
のない二次記憶上のブロックへのアクセスを減らして全
文検索を行うことを特徴とする請求項１３記載の文書管
理装置。
【請求項１６】登録文書を保存するとともに、該登録
文書に含まれる各文字あるいは連続する２文字から算出
される値を文字成分表に登録し記録する文書登録手段
と、前記文字成分表を用いて検索条件に該当する文書を
高速に探し出す文書検索手段とを有し、前記文字成分表
エントリ指定により文字成分表の構成を変更可能とし、
前記文字成分表の構成を文書の各文字および連続する２
文字から算出される値を記録するものとした場合、前記
文字検索手段が検索文字列から連続する２文字から算出
される値のみを抽出することを特徴とする文書管理装
置。
【請求項１７】前記文書検索手段が、検索文字列から
の連続する２文字から算出される値と、該検索文字列の
末尾の１文字から算出される値を抽出することを特徴と
する請求項１６記載の文書管理装置。
【請求項１８】前記文書検索手段が、検索文字列から
の連続する２文字から算出される値と、該検索文字列の
先頭の１文字から算出される値を抽出することを特徴と
する請求項１６記載の文書管理装置。
【請求項１９】前記文字成分表の構成を連続する３文
字以上の文字列から算出される値をも用いる場合、前記
文書検索手段が、検索文字列から前記文字エントリが抽
出される時には、該文字列エントリに対応する文字列に
含まれる１文字あるいは前記文字列にその前後の文字を
含めた文字列に含まれる２文字から算出される値を抽出
しないことを特徴とする請求項１８記載の文書管理装
置。
【請求項２０】前記文書検索手段が、単一の文字列あ
るいは複数の文字列を「論理積」,「論理和」あるいは
「論理差」論理演算子で組み合わせた検索条件を処理可
能なことを特徴とする請求項１６記載の文書管理装置。
【請求項２１】前記文書検索手段で「論理差」で結合
される２つの文字列の処理において、後側の文字列を処
理しないことを特徴とする請求項２０記載の文書管理装
置。
【請求項２２】前記文書登録手段が、多数の文書を一
括して登録する場合に、一文書を登録するごとに生成さ
れた文字成分表データを直接二次記憶上の文字成分表に
書き込むのではなく一旦メモリ上に登録し、その後、一
括してメモリ上の文字成分表データを二次記憶の文字成
分表に書き出すことによって、高速に文書の一括登録を
行うことを特徴とする請求項１記載の文書管理装置。
【請求項２３】前記文書登録手段により登録されたフ
ァイルシステム上の登録文書のディレクトリパス名を二
次記憶上で管理し、文書内容を参照する場合には、登録
したディレクトリパス名を基に直接ファイルシステム上
のオリジナルデータを参照することによって、文書管理
システムが内部にオリジナルデータを持つ必要がないだ
けでなく、ユーザや他のアプリケーションによる登録文
書の参照を容易にすることを特徴とする請求項１記載の
文書管理装置。
【請求項２４】前記文書登録手段により登録されたフ
ァイルシステム上の登録文書のオリジナルデータのディ
レクトリパス名を管理し、文書内容を参照する場合に
は、登録したディレクトリパス名を基に直接ファイルシ
ステム上のオリジナルデータを参照するようにし、文書
の登録時にディレクトリを指定し、そのディレクトリ内
およびその下位ディレクトリの文書をすべて登録するこ
とにより、複数の文書の登録時の文書指定を容易にする
ことを特徴とする請求項１記載の文書管理装置。
【請求項２５】前記文書登録手段により登録されたフ
ァイルシステム上の登録文書のオリジナルデータのディ
レクトリパス名を管理し、文書内容を参照する時には、
登録したディレクトリパス名を基に直接ファイルシステ
ム上のオリジナルデータを参照するようにし、あらかじ
め登録対象とするディレクトリを指定しておき、そのデ
ィレクトリ上での文書の登録，更新，削除を常に監視
し、文書の登録，更新，削除があった場合には、自動的
に当該の文書について文字成分表に登録，更新，削除を
行うことによって、ユーザの文書管理の手間を削減する
ことを特徴とする請求項１記載の文書管理装置。