JPH1040256A - 文書管理方式 - Google Patents
文書管理方式Info
- Publication number
- JPH1040256A JPH1040256A JP8190544A JP19054496A JPH1040256A JP H1040256 A JPH1040256 A JP H1040256A JP 8190544 A JP8190544 A JP 8190544A JP 19054496 A JP19054496 A JP 19054496A JP H1040256 A JPH1040256 A JP H1040256A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character
- search
- document management
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
IDに容易に対応が可能とする。 【解決手段】 文書登録時3に文書より各文字コード成
分及び2文字以上の隣接文字からビット列成分を算出
し、各文書がそれぞれの成分を含むか否かを示す単一文
字成分及び一つ以上の隣接文字成分からなる文字成分表
61を生成し、検索時4には指定された検索された検索
語を同様に成分に分解し、該文字成分表61により文書
を検索する。本文書管理方式より文書データの管理部分
(文書管理部)5を分離し、本文書管理方式に該文書管
理部5の文書取得関数を動的に渡し、その関数を通して
本文書管理方式が文書データ7を取得する。これによ
り、アプリケーションにより様々なデータ形式をもつ文
書データを分離して管理することを可能とし、多様なア
プリケーションに対応可能となる。
Description
に係わり、特に、文字成分表を利用して全文書に対して
文字列を検索する装置に関するものである。
一体化しており、そのため、システムで規定する文書I
Dのみしか利用できない。したがって、既存の文書管理
部を持つアプリケーションと組み合わせる場合に文書デ
ータを二重に管理したり、文書IDを統一したりしなけ
ればならない。また、実際の文書検索を行う場面では、
必ずしも文書全体を検索対象とせず、文書内の特定の領
域のみに対の検索要求があるが、このような要求に対応
できない。
方法では様々なデータ形態を持つ文書データ及び文書I
Dに容易に対応ができない。また従来の方法では文書中
の一部の領域及び複数の領域を対象に検索することがで
きない。
の文書データを保持し、入力装置から入力された検索文
字列を含む文書を検索し、出力装置により検索した文書
を出力する文書管理方式であって、文書登録時に文書よ
り各文字コード成分及び2文字以上の隣接文字からビッ
ト列成分を算出し、各文書がそれぞれの成分を含むか否
かを示す単一文字成分表及び一つ以上の隣接文字成分表
を生成し、検索時には指定された検索された検索語を同
様に成分に分解し、該文字成分表により文書を検索する
文書管理方式において、本文書管理方式より文書データ
の管理部分(文書管理部)を分離し、本文書管理方式に
該文書管理部の文書取得関数を動的に渡し、その関数を
通して本文書管理方式が文書データを取得することによ
り、アプリケーションにより様々なデータ形式をもつ文
書データを分離して管理することを可能とし、多様なア
プリケーションに対応可能としたことを特徴としたもの
である。
て、本文書管理方式をアプリケーションが利用する場合
に、文書登録時にアプリケーションが任意のバイナリ列
をテキストIDとすることを可能とし、アプリケーショ
ン指定の任意のバイナリ列と本文書管理方式が内部で管
理する文書IDとの対応表を有することで、アプリケー
ション依存する多様な文書IDに対応可能としたことを
特徴としたものである。
持し、入力装置から入力された検索文字列を含む文書を
検索し、出力装置により検索した文書を出力する文書管
理方式であって、文書登録時に文書より各文字コード成
分及び2文字以上の隣接文字からビット列成分を算出
し、各文書がそれぞれの成分を含むか否かを示す単一文
字成分表及び一つ以上の隣接文字成分表を生成し、検索
時には指定された検索語を同様に成分に分解し、該文字
成分表により文書を検索する文書管理方式において、文
書の一部の領域またはすべての領域をそれぞれ複数検索
の対象として定義し、領域ごとに該文字成分表を生成
し、検索時には領域単位に検索できることを特徴とした
ものである。
て、検索時に領域単位に検索できるだけでなく、領域単
位に得られた検索結果集合のANDやORの演算をユー
ザが指定でき、その指定に従い検索結果を出力すること
を特徴としたものである。
式の一実施例を説明するための構成図で、図中、1は入
力部、2は出力部、3は登録処理部、4は検索処理部、
5は外部文書管理部、6はインデックスデータ部、7は
文書データ部である。
索文字列は、検索処理部4において外部文書管理部5を
介して文書データ部7から文書データを取得し、文字成
分を抽出し、インデックスデータ部6に文字成分を登録
するとともに、文書IDテーブル62に文書IDを登録
する。
クスデータ部6の文字成分表61により文書を検索し、
文書IDテーブル62から文書IDを得て、文書データ
部7から文書管理部5を介して文書IDに対応する文書
データを取得し、出力部2に出力する。
ード(例えば、ASCII)及び2バイト文字コード
(EUC:Extended UNIX CODE)からなるテ
キストデータとする。しかし、対象とする文字コードは
EUC以外にも容易に適用可能である。
には、単一文字成分及び隣接文字分を抽出し、文字成分
表を作成する。単一文字成分は各内部文字コードの2バ
イトコードとし、隣接文字成分は隣接する2文字以上の
内部文字コードから変換したコードである。この実施例
では内部文字コードのビット成分を適当に抽出したビッ
ト列を隣接文字成分とする。上記方法で得られた文字成
分及び隣接文字成分に対して、それぞれ単一文字成分表
(図2)及び隣接文字成分表(図3)を生成する。図3
では隣接する文字の下位1バイトを合わせて2バイトと
している。各文字成分表は、各単一文字成分または隣接
文字成分が各文書に存在するか否かを0と1で示す。図
3の隣接文字成分表を例とすると、a0a0(16進
数)のビット列は文書1,2,3,nには存在せず、文
書4,5には存在することを意味する。文書登録時に上
記方法により文書から文字成分を抽出し各文字成分テー
ブルに加える。
を上記登録時と同様に単一成分及び隣接文字成分を抽出
し上記単一文字成分表(図2)及び隣接文字成分表(図
3)において抽出した成分に対応する0,1(存在を意
味する)からなるビット列を得てandをとることによ
って各成分が存在する文書を得る。この文書集合が指定
された検索語を含む文書として出力される。なお、文字
成分表のみによる検索では誤検索を含む場合もあるの
で、必要に応じて文書データをサーチして誤検索を除去
する後処理を行う。
デックス自体には登録時に文書データを保持する機能を
持っていないので、実際に何らかのアプリケーションを
構築する場合には文書を管理する部分(文書管理部)が
必要となる。一つの方法として、検索のために必要なイ
ンデックス(文字成分表及び文書IDテーブルなど)の
管理部分と文書管理部を一つのモジュールとして密に作
り上げることが考えられる。この場合、文書管理部で要
求する仕様とは異なる文書を管理できないという欠点が
生ずる。また、既に文書管理機能を持ったアプリケーシ
ョンの場合には重複して文書データを持つことにもなり
かねない。そこで、文書管理部を独立し、かつ、外部の
文書管理部と容易に結合できるような方式を提案する。
スデータ部6で管理されているIDに対応する文書デー
タが必要になる場合がある。例えば、本文書管理方式に
おいて文字成分表のみの検索では検索結果に誤検索が含
まれる場合がある。そこで、最終的に文書データをサー
チして誤検索を除く必要がある。この時に、文書データ
が必要になる。外部の文書管理部は本文書管理方式が指
定する呼び出しフォーマットに従って指定されたテキス
トIDに対応する文書データを返す関数を予め用意す
る。アプリケーションが本文書管理方式を起動する時
(後述のフォルダのオープン時)にこの関数ポインタを
渡することによって動的に本文書管理方式は外部の文書
管理部5と結合しデータのやりとりを行うことが可能と
なる。
ことで文書管理部を独立し、かつ、実行時に動的に結合
することが可能である。ただし、外部の文書管理部が本
インデックス管理部と同じフォーマットの文書IDを有
することは限らない。例えば、インデックス管理はlo
ng形式(4バイトのバイナリ)で管理しているにも関
わらず、外部の文書管理部が文字列を文書IDとしてい
る可能性もある。この場合には、文書管理部に合わせて
インデックス管理部の文書IDの管理部分を変更する必
要が生じる。そこで、ユーザの文書IDに依存せず、か
つ、ユーザが指定した文書IDにより文書IDを管理で
きる方式を提案する。
で外部の文書管理部5で使用している文書ID(今後ユ
ーザ文書IDと呼ぶ)のバイト長を指定する。与えられ
たバイト長の内容については例えば文字列の場合や、構
造体の場合も考えられるが、本文書管理方式では、その
中身には関知せず、単にバイナリ列として管理する。イ
ンデックス管理部はバイナリ列として図4aのような配
列を生成し、インデックスの内部で管理している文書I
D(内部文書ID)とを対応付ける。
ザ文書IDから内部文書IDを取り出す場合と、内部文
書IDからユーザ文書IDを取り出す場合がある。内部
文書IDからは前述の文書IDテーブルによって容易に
外部文書IDを取り出すことができる。例えば、図4の
例では内部文書IDが3の時には配列の3番目の内容の
「X2」がユーザ文書IDとなる。しかし、外部文書I
Dから内部文書IDを取得する場合、テーブル上で外部
文書IDが意味のある順で並べられていないので、この
テーブルからは高速に内部IDを取得することができな
い。そこで、例えば図4bのようなユーザ文書IDでソ
ートされた逆テーブルを用意することでユーザ文書ID
からも内部文書IDを容易に取得することが可能であ
る。
れた文書の全体が検索の対象となり、文書内の一部の検
索は不可能であった。そこで、文書内の複数の領域又は
全体を検索対象とし、各領域(今後エリアと呼ぶ)ごと
にインデックスを生成することで各エリア単位に検索す
ることを可能とする。ユーザは本文書管理方式により文
書管理する場合に最初に文書を仮想的に格納する(実際
に文書を管理する部分は外部の文書管理部である)場所
(今後フォルダと呼ぶ)を生成する(図5)。次にテキ
ストの検索対象とする領域エリアを生成する。生成時に
はそれぞれのエリア毎にそれぞれ文字成分表が生成され
る。図5の場合には3つのエリアを生成したことにな
る。
関数を指定する。 2.ユーザは登録する文書IDを指定する。 3.本管理方式では文書データを管理していないので既
にフォルダをオープンする時に与えられている文書デー
タ取得関数によって与えられた文書IDの文書データを
取得する。 4.生成されているすべてのエリア単位の文字成分表に
取得した文書データを登録する。 5.フォルダをクローズする。 文書検索時にはユーザが指定したエリアについてそのエ
リアに対応する文字成分表より検索結果を得る。
エリア単位に検索を行うことができ、さらに、ユーザは
エリア毎の検索結果集合の論理演算を行うことができ
る。例えば「Area1」,「Area2」,「Are
a3」の3つのエリアがある場合に、ユーザは以下のよ
うにエリアの検索結果集合の論理演算を指定することが
できる。 Area1&(Area2|Area3) 上記式では&はand演算を示し、Area2とAre
a3の検索結果集合の論理和を取り、さらにArea1
と論理積をとることを意味する。例えばArea1の検
索結果の文書ID集合が{1,5,7,10}、Are
a2の検索結果が{2,3,4}、Area3の検索結
果が{3,4,5,7}の場合、演算結果は{5,7}
となる。
保持し、入力装置から入力された検索文字列を含む文書
を検索し、出力装置により検索した文書を出力する文書
管理方式であって、文書登録時に文書より各文字コード
成分及び2文字以上の隣接文字からビット列成分を算出
し、各文書がそれぞれの成分を含むか否かを示す単一文
字成分表及び一つ以上の隣接文字成分表を生成し、検索
時には指定された検索された検索語を同様に成分に分解
し、該文字成分表により文書を検索する文書管理方式に
おいて、本文書管理方式より文書データの管理部分(文
書管理部)を分離し、本文書管理方式に該文書管理部の
文書取得関数を動的に渡し、その関数を通して本文書管
理方式が文書データを取得するようにしたので、アプリ
ケーションにより様々なデータ形式をもつ文書データを
分離して管理することが可能となり、多様なアプリケー
ションに対応することが可能となる。
理方式において、本文書管理方式をアプリケーションが
利用する場合に、文書登録時にアプリケーションが任意
のバイナリ列をテキストIDとすることを可能とし、ア
プリケーション指定の任意のバイナリ列と本文書管理方
式が内部で管理する文書IDとの対応表を有するように
したので、アプリケーション依存する多様な文書IDに
対応可能とする。
持し、入力装置から入力された検索文字列を含む文書を
検索し、出力装置により検索した文書を出力する文書管
理方式であって、文書登録時に文書より各文字コード成
分及び2文字以上の隣接文字からビット列成分を算出
し、各文書がそれぞれの成分を含むか否かを示す単一文
字成分表及び一つ以上の隣接文字成分表を生成し、検索
時には指定された検索語を同様に成分に分解し、該文字
成分表により文書を検索する文書管理方式において、文
書の一部の領域またはすべての領域をそれぞれ複数検索
の対象として定義し、領域ごとに該文字成分表を生成
し、検索時には領域単位に検索できるようにしたので、
文書中の一部の領域及び複数の領域を対象に検索するこ
とが可能となる。
理方式において、検索時に領域単位に検索できるだけで
なく、領域単位に得られた検索結果集合のANDやOR
の演算をユーザが指定でき、その指定に従い検索結果を
出力するようにしたので、文書中の一部の領域及び複数
の領域を対象に検索することが可能となる。
するための構成図である。
図である。
理部、5…外部文書管理部、6…インデックスデータ
部、7…文書データ部。
Claims (4)
- 【請求項1】 大量の文書データを保持し、入力装置か
ら入力された検索文字列を含む文書を検索し、出力装置
により検索した文書を出力する文書管理方式であって、
文書登録時に文書より各文字コード成分及び2文字以上
の隣接文字からビット列成分を算出し、各文書がそれぞ
れの成分を含むか否かを示す単一文字成分表及び一つ以
上の隣接文字成分表を生成し、検索時には指定された検
索された検索語を同様に成分に分解し、該文字成分表に
より文書を検索する文書管理方式において、本文書管理
方式より文書データの管理部分(文書管理部)を分離
し、本文書管理方式に該文書管理部の文書取得関数を動
的に渡し、その関数を通して本文書管理方式が文書デー
タを取得することにより、アプリケーションにより様々
なデータ形式をもつ文書データを分離して管理すること
を可能とし、多様なアプリケーションに対応可能とした
ことを特徴とする文書管理方式。 - 【請求項2】 請求項1記載の文書管理方式において、
本文書管理方式をアプリケーションが利用する場合に、
文書登録時にアプリケーションが任意のバイナリ列をテ
キストIDとすることを可能とし、アプリケーション指
定の任意のバイナリ列と本文書管理方式が内部で管理す
る文書IDとの対応表を有することで、アプリケーショ
ン依存する多様な文書IDに対応可能としたことを特徴
とする文書管理方式。 - 【請求項3】 大量の文書データを保持し、入力装置か
ら入力された検索文字列を含む文書を検索し、出力装置
により検索した文書を出力する文書管理方式であって、
文書登録時に文書より各文字コード成分及び2文字以上
の隣接文字からビット列成分を算出し、各文書がそれぞ
れの成分を含むか否かを示す単一文字成分表及び一つ以
上の隣接文字成分表を生成し、検索時には指定された検
索語を同様に成分に分解し、該文字成分表により文書を
検索する文書管理方式において、文書の一部の領域また
はすべての領域をそれぞれ複数検索の対象として定義
し、領域ごとに該文字成分表を生成し、検索時には領域
単位に検索できることを特徴とする文書管理方式。 - 【請求項4】 請求項3記載の文書管理方式において、
検索時に領域単位に検索できるだけでなく、領域単位に
得られた検索結果集合のANDやORの演算をユーザが
指定でき、その指定に従い検索結果を出力することを特
徴とする文書管理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19054496A JP3644765B2 (ja) | 1996-07-19 | 1996-07-19 | 文書管理方式および文書管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19054496A JP3644765B2 (ja) | 1996-07-19 | 1996-07-19 | 文書管理方式および文書管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1040256A true JPH1040256A (ja) | 1998-02-13 |
JP3644765B2 JP3644765B2 (ja) | 2005-05-11 |
Family
ID=16259855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19054496A Expired - Fee Related JP3644765B2 (ja) | 1996-07-19 | 1996-07-19 | 文書管理方式および文書管理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3644765B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324722A (ja) * | 1992-03-24 | 1993-12-07 | Ricoh Co Ltd | 文書検索方式 |
JPH06290217A (ja) * | 1993-03-31 | 1994-10-18 | Ricoh Co Ltd | 文書検索方式 |
JPH07160724A (ja) * | 1993-11-29 | 1995-06-23 | Ricoh Co Ltd | 文書検索装置 |
JPH08161357A (ja) * | 1994-06-02 | 1996-06-21 | Ricoh Co Ltd | 文書管理装置 |
-
1996
- 1996-07-19 JP JP19054496A patent/JP3644765B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324722A (ja) * | 1992-03-24 | 1993-12-07 | Ricoh Co Ltd | 文書検索方式 |
JPH06290217A (ja) * | 1993-03-31 | 1994-10-18 | Ricoh Co Ltd | 文書検索方式 |
JPH07160724A (ja) * | 1993-11-29 | 1995-06-23 | Ricoh Co Ltd | 文書検索装置 |
JPH08161357A (ja) * | 1994-06-02 | 1996-06-21 | Ricoh Co Ltd | 文書管理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3644765B2 (ja) | 2005-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3696745B2 (ja) | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US6510425B1 (en) | Document search method for registering documents, generating a structure index with elements having position of occurrence in documents represented by meta-nodes | |
US20020038319A1 (en) | Apparatus converting a structured document having a hierarchy | |
JPH08241332A (ja) | 全文登録語検索装置および方法 | |
JP2006024179A (ja) | 構造化文書処理装置、構造化文書処理方法、及びプログラム | |
JPH11120203A (ja) | データベースを合併する方法およびデータベースからドキュメントを検索する装置 | |
JP2986865B2 (ja) | データ検索方法および装置 | |
US6282509B1 (en) | Thesaurus retrieval and synthesis system | |
JP3784060B2 (ja) | データベース検索システム、その検索方法及びプログラム | |
JP3644765B2 (ja) | 文書管理方式および文書管理方法 | |
JP2000003366A (ja) | 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
JP2000163445A (ja) | データベース管理システム | |
CN116783587A (zh) | 基于列表的数据搜索用数据存储 | |
JP2880199B2 (ja) | 記号列検索方法および検索装置 | |
JP2535629B2 (ja) | 検索システムの入力文字列正規化方式 | |
JPH0773187A (ja) | 検索システム | |
JP2880192B2 (ja) | 文字列検索方法及び装置 | |
JPS6325774A (ja) | 情報登録検索装置 | |
JPH0644309A (ja) | データベース管理方式 | |
JPH1153400A (ja) | 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
JP3384017B2 (ja) | データ抽出システム | |
JPH09146968A (ja) | 文書検索方法 | |
JPH10301940A (ja) | 情報処理装置及びその方法 | |
JPH03137772A (ja) | データベース利用システム | |
JPS60129873A (ja) | 文書保管検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040713 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050201 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080210 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090210 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100210 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110210 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120210 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130210 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130210 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |