JPH08329103A - 文書管理装置 - Google Patents

文書管理装置

Info

Publication number
JPH08329103A
JPH08329103A JP7133795A JP13379595A JPH08329103A JP H08329103 A JPH08329103 A JP H08329103A JP 7133795 A JP7133795 A JP 7133795A JP 13379595 A JP13379595 A JP 13379595A JP H08329103 A JPH08329103 A JP H08329103A
Authority
JP
Japan
Prior art keywords
character
document
entry
component
correspondence table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7133795A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7133795A priority Critical patent/JPH08329103A/ja
Publication of JPH08329103A publication Critical patent/JPH08329103A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文字成分表のエントリの決定手順を簡単化
し、誤検索を増やさないようにエントリ数を減らす。 【構成】 文書登録手段2は、文書データベース9に登
録文書1の登録操作を行う。該文書データベース9に
は、文書本文データ8と文字成分表7と文字成分表エン
トリ指定6とが含まれる。文字成分表7は、登録文書1
に含まれる各文字あるいは文字列から抽出された情報の
存在の有無を文書ごとに記録した表である。文書登録手
段2は、登録文書1を保存するとともに、該登録文書1
に含まれる各文字あるいは連続する2文字から算出され
る値を前記文字成分表7に登録し記録する。文書検索手
段4は、前記文字成分表7を用いて検索条件3に該当す
る文書5を高速に探し出す。文字成分表エントリ指定6
により文字成分表7の構成が決まるが、コード変換の対
応表を用意して決定手順を簡単にし、また、文字の頻度
情報を用いる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書管理装置に関し、
より詳細には、文字成分表を利用し、全文書に対して文
字列を検索する文書管理装置に関するもので、例えば、
文書管理システムや画像管理システム,データベース管
理システム等に適用し得るものである。
【0002】
【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平5−324722号公
報がある。この公報のものは、文書登録処理において、
登録する文書を文書データに登録するとともに、文書デ
ータよりエントリする文字成分を抽出して文字成分表と
して登録する。この文字成分表は、エントリ文字成分が
文書中に存在するか否かを示す1文字成分表、及び、隣
接する文字から抽出したあるビット列が文書中に存在す
るか否かを示す隣接文字成分表から成る。入力部に入力
された検索文字列は、エントリを抽出するために処理さ
れ、文書検索処理部において、データ部の前記文字成分
表を列用して検索文字列中のエントリを含む文書を検索
する。
【0003】この従来例における文字成分表を用いた検
索では、その出現位置を記録しないため、誤検索(実際
には検索文字列を含まない文書が検索されること)が発
生することがある。誤検索を減らすには、文字成分表の
エントリ数を増やさなければならないが、文字成分表の
エントリ数を増やすと、文字成分表が大きくなってしま
う。したがって、誤検索を増やさないように、エントリ
数を減らすことが重要である。このようなことから、特
開平5−174064号公報では、文書に含まれる隣接
する二文字組の出現を記録した連接文字成分表を用いる
文書検索において、使用頻度の低い文字列同士を同じビ
ットにマッピングすることを特徴とする文書検索方法お
よび装置を提案している。使用頻度を用いることで、様
々な検索語に対して誤検索率のバラツキを減らすことが
できる。マッピング方式としては、文字(コードの)組
からエントリへの対応表を用いる直接方式と、文字から
中間コードの対応表を用いて文字組を中間コードの組に
対応させ、さらに中間コードの組からエントリへの対応
表を用いる二段階方式が提案されている。ここでは、日
本語は文字数が約 7000 と大きいため、直接方式は対応
表の大きさが膨大なものとなり、二段階方式が優れてい
るとしている。しかし、二段階方式でも、検索精度を確
保するためには、中間コードの異なり数をそれ程少なく
できない。そのため、異なり数を仮に 1000 としても、
二段階目の対応表のエントリ数は、1000*1000=100000
0 と大きなものとなってしまう。また、文字コードから
中間コードへの対応表の作成において、まず、中間コー
ドに割り当てられる文字の頻度の合計が越えてはならな
い上限値を計算し、その値に基づいて割り当ての決定を
行う方式が提案されているが、対応表作成手順が複雑
で、処理が大変である。
【0004】
【発明が解決しようとする課題】本発明は、このような
従来における問題点を解決しようとするもので、その目
的は、文字成分エントリの決定の手順を単純化するこ
と、また、そのための新たな具体化手法を提案するこ
と、さらに、誤検索を増やさないようにエントリ数を減
らす手法を提案することにある。
【0005】
【課題を解決するための手段】本発明は、上記課題を解
決するために、登録文書を保存するとともに、該文書に
含まれる文字あるいは二文字以上の文字列から決定され
るエントリ文字成分の出現を文書ごとに抽出した結果を
文字成分表というテーブルに登録し記録する文書登録手
段と、前記文字成分表を用いて検索条件に該当する文書
を高速に捜し出す文書検索手段を有する文書管理装置に
おいて、(1)前記エントリ文字成分の決定に際して成
分文字の頻度情報を用いること、或いは、(2)前記エ
ントリ文字成分の決定において、文字コードを成分文字
の頻度情報に基づいて中間コードに変換する対応表を用
意し、まず成分文字列に含まれる各文字を対応表に基づ
いて中間コードに変換し、その中間コードから成分文字
列に対応するエントリを算出し決定すること、或いは、
(3)前記(2)において、前記対応表の作成を、中間
コードに割り当てられる成分文字の頻度に対する上限値
を計算しておく必要をなくし、効率的に作成できるよう
にしたこと、或いは、(4)前記(2)において、前記
対応表の作成を、文字頻度そのものでなく、文字頻度に
適当な値を加算したものから対応表を決定すること、或
いは、(5)前記(2)において、前記文書検索手段
に、文字種に応じた個別の対応表を用意すること、或い
は、(6)前記(2)において、前記文書検索手段に、
文字種に応じて文字コードから中間コードへの変換を行
うか否かを設定でき、変換を行う文字種についてのみ対
応表を用意することを特徴とする手段をその構成要件と
する。
【0006】
【作用】本発明の文書管理装置は、(1)文書登録手段
により登録文書を保存するとともに、該文書に含まれる
文字あるいは二文字以上の文字列から決定されるエント
リ文字成分の出現を文書ごとに抽出した結果を文字成分
表というテーブルに登録し記録し、文書検索手段により
前記文字成分表を用いて検索条件に該当する文書高速に
捜し出すのであるが、前記エントリ文字成分の決定に際
して、成分文字の頻度情報を用いて行っているので、様
々な検索語に対して誤検索率のバラツキを減らすことが
できる。
【0007】(2)また、上記(1)において、頻度情
報は、成分文字を中間コードへ変換する対応表の作成に
用いられ、変換された中間コードからエントリを算出し
決定するので、エントリ決定に必要な対応表のエントリ
数が文字数分でよいので、対応表を小型化できる。
【0008】(3)また、上記(2)において、対応表
の作成にあたり、中間コードに割り当てられる成分文字
の頻度に対する上限値を計算しておく必要をなくすよう
にしたので、対応表の作成が簡単になって効率化でき
る。
【0009】(4)また、上記(2)において、対応表
の作成にあたり、文字頻度に適当な値を加算したものに
より該表を決定するとしたので、頻度調査した文書以外
の文書に対しても効率的な検索が実現でき、文書管理の
対象を広くすることができる。
【0010】(5)また、上記(2)において、エント
リ決定にあたり、文字種に応じた個別の対応表を用意す
るので、文字成分表の無駄を省くことができる。
【0011】(6)また、上記(2)におけるエントリ
文字成分の決定にあたり、文字種に応じて文字コードか
ら中間コードへの変換を行うか否かを設定でき、変換を
行う文字種についてのみ対応表を用意するので、対応表
を小型化できる。
【0012】
【実施例】図1は、本発明の文書管理装置の一実施例を
説明するための構成の概要を示す図で、図中、1は登録
文書、2は文書登録手段、3は検索条件、4は文書検索
手段、5は該当文書である。また、9は文書データベー
スで、6の文字成分表エントリ指定、7の文字成分表、
8の文書本文データを含み、これらのデータの保管管理
をする。文書登録手段2は、登録文書1を保存するとと
もに、該登録文書1に含まれる文字を文字成分表エント
リ指定6に従って文字成分表7に登録し記録する。ここ
に、文字成分表エントリ指定6は、登録文書1或いは検
索文字列(検索語)が検索条件3として与えられた際に
抽出すべきエントリを指定するものである。文書検索手
段4は、前記文字成分表7を用いて検索条件3に該当す
る文書5を捜し出し、指定されたその文書集合を検索結
果とする。
【0013】この実施例をより具体的に説明すると、文
字成分表7は、登録文書1に含まれる各文字あるいは文
字列から文字成分表エントリ指定6により決定される値
の存在の有無を文書ごとに記録した表である。図2に文
字成分表の一例を示す。ここで示した文字成分表では、
各文字の出現および二文字から成る文字列(以下「二文
字組」と呼ぶ)の出現を記録している。各文字の出現
は、各文字のコードxに関数f(x)を作用させ、算出
される値(ここでは、文字はJISコードとし、f(x)
=94*(x/256)+x%256−33とした。な
お、ここでの演算は、整数の範囲で行い、“/”は商、
“%”は余りである)を文字成分表エントリとする。こ
のような1文字から算出されるエントリを単一文字エン
トリと呼ぶ。二文字組の出現は、前側後側の文字のコー
ドx,yに関数g(x,y)を作用させて算出される値
(ここでは、g(x,y)=16*(x%16)+y%
16+7896とした。すなわち、文字コードの下位4
ビットをビット連結して得られる値を、単一文字エント
リの値域と重ならないようにシフトしたものである)、
このような連続する二文字組から算出されるエントリを
隣接文字エントリと呼ぶ。もちろん、ここで示したf
(x),g(x,y)は、文字成分表の一例にすぎな
い。文字成分表エントリ指定とは、文字あるいは文字列
からエントリへの変換方法(上の例では、f(x),g
(x,y))を指定するものである。
【0014】文書登録手段2による登録は、次の通りの
手順で行われる。 (1)登録文書1を文書本文データ8に登録する。 (2)登録文書1の内容を文字成分表に登録する。 これは、文書本文から文字成分表エントリ指定6で規定
されるエントリを抽出し、登録文書番号iとした場合、
文書本文から抽出されるすべてのエントリ番号jについ
て、文字成分表の点(i,j)の値を“1”にすること
により行う。また、文書検索手段4による検索は、次の
通りの手順で行われる。 (1)文字成分表を用いて検索文字列を含む可能性のあ
る文書番号を求めるが、下記(a),(b)の手順によ
る。 (a)検索文字列から文字成分表エントリ指定6で規定
されるエントリを抽出する。 (b)抽出エントリのビット列(図2の横一列)を文字
成分表から読みだし、ビットANDをとる。 (2)前段で求まった文書番号の文書本文を文書本文デ
ータ8から読みだし、検索文字列が含まれているか調
べ、含まれている文書集合を検索結果とする。ただし、
この段の処理を省略し、前段の結果をそのまま検索結果
としてもよい。
【0015】ここで、「文書検索」という検索語から抽
出されるエントリを例示する。 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 文,書,検,索 ・隣接文字エントリ:以下の文字組に関数g(x,y)
を作用させる。 文書,書検,検索 このようにn字の検索語から2n-1個のエントリが抽出
される。
【0016】次に、上述した文字あるいは文字列から文
字成分表のエントリを決定する際に、文字の頻度情報を
用いる手法について説明する。頻度情報をもとに、文字
コードから中間コードへの対応表を作成し(対応表の作
成法は後述する)、その中間コードから文字あるいは文
字列のエントリを算出する。文字コードxに対し、対応
表を引くことで得られる中間コードをMAP(x)、中
間コードの異なり数をαで表す。このとき、隣接文字エ
ントリは、例えば関数g(x,y)=α*MAP(x)
+MAP(y)+7896によって計算できる。
【0017】上述した対応表の作成方法について説明す
る。まず、文字の頻度情報を調査しておく。頻度調査の
対象は、登録文書の他、新聞記事データベース,特許デ
ータベースなどが考えられる。次に、中間コードの個数
を決定する(この個数は、文字数より小さければいくら
でも良い)。最後に、文字の割り当て先を次のように決
定する。 (1)文字を頻度の降順にソートする。 (2)頻度の高い文字から順に一つの文字を取り出す。
中間コードの中で割り当てられた文字の頻度の合計が最
少のものにその文字を割り当てる。 (3)すべての文字の割り当て先が決定したら終了。 この方式では、特開平5−174064号公報のよう
に、あらかじめ、中間コードに割り当てられる文字の頻
度の合計が越えてはならない上限値を計算しておく必要
がない。対応表は、文書データベースの初期化の際に確
定している必要があるため、検索時の登録済み文書と頻
度調査対象文書は一致しないことも多い。そのため、上
記の方法では、登録済み文書と調査対象文書が大きく異
なる場合、性能が悪化することもある。例えば、頻度調
査対象で出現しない(頻度が0である)文字は全て、頻
度が1以上である文字の割り当てが終了した時点で割り
当てられた文字頻度の合計が最小である中間コードに割
り当てられる。しかし、登録済み文書で調査対象で出現
していなかった文字が出現した場合、誤検索が増加して
しまう。そこで、頻度情報として、文字の頻度そのもの
ではなく、文字に応じた値あるいは文字とは無関係の一
定値(例えば1でよい)を頻度に足した値を、新たに頻
度として割り当て先を決定する。このようにすれば、頻
度調査対象で出現しない文字が特定の中間コードに集中
して割り当てられることはなくなる。
【0018】日本語においては、文字の出現頻度のバラ
ツキは極めて大きいので、上のように作成した対応表を
用いると、頻度に基づくハッシュを行うと、単一の文字
で一つのハッシュエントリを占有するものが発生する。
そのような占有文字が文字組に含まれている場合、隣接
文字エントリの存在が、そこに含まれる占有文字の存在
を保証するので、その文字については単一文字エントリ
を検索時に使用する必要がない。したがって、従来より
少ないエントリにアクセスすればよくなり、検索が高速
化される。n字の検索語において、全てが占有文字から
構成されていればn−1エントリのアクセスで検索がで
きる。一方、全てが非占有文字から構成されているのが
最悪の場合で、このとき、従来方式と同じ2n-1エント
リのアクセスが必要になる。以上に示したように、頻度
に基づくハッシュを用いることで、最大約2倍の高速化
が達成できることになる。
【0019】例えば、「文書検索」という検索語に対し
て、「文」,「書」,「検」の3文字が占有文字であった
とすれば、 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 索 ・隣接文字エントリ:以下の文字組に関数g(x,y)
を作用させる。 文書,書検,検索 この場合、アクセスすべきエントリ数が従来の7から4
に減少し、検索も高速化される。
【0020】日本語には複数の文字種があり、文字種に
応じて機能・文字数・使用頻度などが異なる。したがっ
て、文字種に応じて文字成分表の構成を細かく調整する
ことは検索効率化の効果が大きい。エントリの決定に頻
度情報を用いる場合にも、文字種に応じて文字コードか
ら中間コードへの対応表を別々に用意することで検索を
効率化できる。すなわち、単語は同一文字種の文字から
構成されることが多く(例えば、記号と漢字が組合わさ
って単語になることは稀である)、異なる文字種の文字
組に対する隣接文字エントリを用意しても使用される可
能性が低く無駄である。しかし、従来の方式では、文字
種を意識せず、対応表を作成していたので、記号と漢字
の文字組も文字成分表に記録される。一方、文字種に応
じて対応表を用意し、文字組の前後の文字の文字種に応
じてエントリに記録するか否かの調整をできるようにし
ておけば、このような無駄なエントリを削除することが
可能である。さらに、片仮名などの文字数が少なく、か
つ使用頻度が大きい文字種については、全ての文字の組
み合わせを独立のエントリとして文字成分表に記録する
ことが望ましい。一方、JIS第二水準漢字のように、使
用頻度が極めて小さい文字種については、そもそも文字
の組合せを文字成分表に記録する必要性が低い。このよ
うに、文字種によっては対応表が必要でない場合がある
ので、対応表をJIS第一水準漢字など限られた文字種に
のみ用意すると、対応表の大きさを小さくすることがで
きる。
【0021】
【発明の効果】以上の説明から明らかなように、本発明
により、以下の効果がもたらされる。 (1)請求項1の文書管理装置では、文字の頻度情報を
用いて文字成分表のエントリを決定するので、様々な検
索語に対して誤検索率のバラツキを減らすことができ
る。 (2)請求項2の文書管理装置では、エントリ決定に必
要な対応表のエントリ数が文字数分でよいので、対応表
を小型化できる。 (3)請求項3の文書管理装置では、対応表の作成方法
が簡単なので、対応表の作成が効率化できる。 (4)請求項4の文書管理装置では、頻度調査した文書
以外の文書に対しても、効率的な検索が実現できるの
で、文書管理の対象を広くすることができる。 (5)請求項5の文書管理装置では、文字種に応じた対
応表を用意するので、文字成分表の無駄を省くことがで
きる。 (6)請求項6の文書管理装置では、特定の文字種にの
み対応表を用意すればよいので、対応表を小型化でき
る。
【図面の簡単な説明】
【図1】 本発明による文書管理装置の一実施例を説明
するための構成及び処理フロー図である。
【図2】 本発明における文字成分表の一例を示す図で
ある。
【符号の説明】
1…登録文書、2…文書登録手段、3…検索条件、4…
文書検索手段、5…該当文書、6…文字成分表エントリ
指定、7…文字成分表、8…文書本文データ、9…文書
データベース。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成7年7月25日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項1
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】請求項2
【補正方法】変更
【補正内容】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】請求項6
【補正方法】変更
【補正内容】
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正内容】
【0002】
【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平5−324722号公
報がある。この公報のものは、文書登録処理において、
登録する文書を文書データに登録するとともに、文書デ
ータよりエントリを抽出して文字成分表として登録す
る。この文字成分表は、文字成分表エントリが文書中に
存在するか否かを示す1文字成分表、及び、隣接する文
字から抽出したあるビット列が文書中に存在するか否か
を示す隣接文字成分表から成る。入力部に入力された検
索文字列は、エントリを抽出するために処理され、文書
検索処理部において、データ部の前記文字成分表を列用
して検索文字列中のエントリを含む文書を検索する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0005
【補正方法】変更
【補正内容】
【0005】
【課題を解決するための手段】本発明は、上記課題を解
決するために、登録文書を保存するとともに、該文書に
含まれる文字あるいは二文字以上の文字列から決定され
文字成分表エントリの出現を文書ごとに抽出した結果
を文字成分表というテーブルに登録し記録する文書登録
手段と、前記文字成分表を用いて検索条件に該当する文
書を高速に捜し出す文書検索手段を有する文書管理装置
において、(1)前記文字成分表エントリの決定に際し
て成分文字の頻度情報を用いること、或いは、(2)前
文字成分表エントリの決定において、文字コードを成
分文字の頻度情報に基づいて中間コードに変換する対応
表を用意し、まず成分文字列に含まれる各文字を対応表
に基づいて中間コードに変換し、その中間コードから成
分文字列に対応するエントリを算出し決定すること、或
いは、(3)前記(2)において、前記対応表の作成
を、中間コードに割り当てられる成分文字の頻度に対す
る上限値を計算しておく必要をなくし、効率的に作成で
きるようにしたこと、或いは、(4)前記(2)におい
て、前記対応表の作成を、文字頻度そのものでなく、文
字頻度に適当な値を加算したものから対応表を決定する
こと、或いは、(5)前記(2)において、前記文書検
索手段に、文字種に応じた個別の対応表を用意するこ
と、或いは、(6)前記(2)において、前記文書検索
手段に、文字種に応じて文字コードから中間コードへの
変換を行うか否かを設定でき、変換を行う文字種につい
てのみ対応表を用意することを特徴とする手段をその構
成要件とする。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正内容】
【0006】
【作用】本発明の文書管理装置は、(1)文書登録手段
により登録文書を保存するとともに、該文書に含まれる
文字あるいは二文字以上の文字列から決定される文字成
分表エントリの出現を文書ごとに抽出した結果を文字成
分表というテーブルに登録し記録し、文書検索手段によ
り前記文字成分表を用いて検索条件に該当する文書高速
に捜し出すのであるが、前記エントリ文字成分の決定に
際して、成分文字の頻度情報を用いて行っているので、
様々な検索語に対して誤検索率のバラツキを減らすこと
ができる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正内容】
【0013】この実施例をより具体的に説明すると、文
字成分表7は、登録文書1に含まれる各文字あるいは文
字列から文字成分表エントリ指定6により決定される値
の存在の有無を文書ごとに記録した表である。図2に文
字成分表の一例を示す。ここで示した文字成分表では、
各文字の出現および二文字から成る文字列(以下「二文
字組」と呼ぶ)の出現を記録している。各文字の出現
は、各文字のコードxに関数f(x)を作用させ、算出
される値(ここでは、文字はJISコードとし、f
(x)=94*(x/256)+x%256−33とし
た。なお、ここでの演算は、整数の範囲で行い、“/”
は商、“%”は余りである)を文字成分表エントリとす
る。このような1文字から算出されるエントリを単一文
字エントリと呼ぶ。二文字組の出現は、前側後側の文字
のコードx,yに関数g(x,y)を作用させて算出さ
れる値(ここでは、g(x,y)=16*(x%16)
+y%16+7896とした。すなわち、文字コードの
下位4ビットをビット連結して得られる値を、単一文字
エントリの値域と重ならないようにシフトしたものであ
る)、このような連続する二文字組から算出されるエン
トリを隣接文字エントリと呼ぶ。もちろん、ここで示し
たf(x),g(x,y)は、文字成分表の構成の一例
にすぎない。文字成分表エントリ指定とは、文字あるい
は文字列からエントリへの変換方法(上の例では、f
(x),g(x,y))を指定するものである。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 登録文書を保存するとともに、該文書に
    含まれる文字あるいは二文字以上の文字列から決定され
    るエントリ文字成分の出現を文書ごとに抽出した結果を
    文字成分表というテーブルに登録し記録する文書登録手
    段と、前記文字成分表を用いて検索条件に該当する文書
    を高速に捜し出す文書検索手段を有する文書管理装置に
    おいて、前記エントリ文字成分の決定に際して成分文字
    の頻度情報を用いることを特徴とする文書管理装置。
  2. 【請求項2】 前記エントリ文字成分の決定において、
    文字コードを成分文字の頻度情報に基づいて中間コード
    に変換する対応表を用意し、まず成分文字列に含まれる
    各文字を対応表に基づいて中間コードに変換し、その中
    間コードから成分文字列に対応するエントリを算出し決
    定することを特徴とする請求項1記載の文書管理装置。
  3. 【請求項3】 前記対応表の作成において、中間コード
    に割り当てられる成分文字の頻度に対する上限値を計算
    しておく必要をなくし、効率的に作成できるようにした
    ことを特徴とする請求項2記載の文書管理装置。
  4. 【請求項4】 前記対応表の作成において、文字頻度そ
    のものでなく、文字頻度に適当な値を加算したものから
    対応表を決定することを特徴とする請求項2記載の文書
    管理装置。
  5. 【請求項5】 前記対応表として文字種に応じた個別の
    対応表を用意することを特徴とする請求項2記載の文書
    管理装置。
  6. 【請求項6】 前記エントリ文字成分の決定において、
    文字種に応じて文字コードから中間コードへの変換を行
    うか否かを設定でき、変換を行う文字種についてのみ対
    応表を用意することを特徴とする請求項2記載の文書管
    理装置。
JP7133795A 1995-05-31 1995-05-31 文書管理装置 Pending JPH08329103A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7133795A JPH08329103A (ja) 1995-05-31 1995-05-31 文書管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7133795A JPH08329103A (ja) 1995-05-31 1995-05-31 文書管理装置

Publications (1)

Publication Number Publication Date
JPH08329103A true JPH08329103A (ja) 1996-12-13

Family

ID=15113205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7133795A Pending JPH08329103A (ja) 1995-05-31 1995-05-31 文書管理装置

Country Status (1)

Country Link
JP (1) JPH08329103A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH05324722A (ja) * 1992-03-24 1993-12-07 Ricoh Co Ltd 文書検索方式
JPH06208582A (ja) * 1992-09-18 1994-07-26 Hitachi Ltd 適応サロゲート式情報検索方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH05324722A (ja) * 1992-03-24 1993-12-07 Ricoh Co Ltd 文書検索方式
JPH06208582A (ja) * 1992-09-18 1994-07-26 Hitachi Ltd 適応サロゲート式情報検索方法および装置

Similar Documents

Publication Publication Date Title
US6952691B2 (en) Method and system for searching a multi-lingual database
US5523946A (en) Compact encoding of multi-lingual translation dictionaries
US8321445B2 (en) Generating content snippets using a tokenspace repository
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP3263963B2 (ja) 文書検索方法及び装置
CN1008016B (zh) 输入处理***
JP2000231563A (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US20050119875A1 (en) Identifying related names
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US5950184A (en) Indexing a database by finite-state transducer
JPH05324722A (ja) 文書検索方式
KR100326936B1 (ko) 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법
JPH056398A (ja) 文書登録装置及び文書検索装置
JPH08329103A (ja) 文書管理装置
JP3325677B2 (ja) 文書検索装置
JPH0244459A (ja) 日本文訂正候補文字抽出方法
JPH1185765A (ja) タグ付文書検索システム
JPH03194653A (ja) 情報検索システムにおける略語検索法
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH0954781A (ja) 文書検索システム
JP3743252B2 (ja) アルファベット表記法人名検索システムと方法およびその処理プログラムを記録した記録媒体
CN117290523A (zh) 基于动态索引表的全文检索方法及装置
JP3537888B2 (ja) かな漢字変換装置
JPH08329075A (ja) 郵便番号辞書システム
JPH0721212A (ja) 文書処理装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040615