JPH056398A - 文書登録装置及び文書検索装置 - Google Patents

文書登録装置及び文書検索装置

Info

Publication number
JPH056398A
JPH056398A JP3158139A JP15813991A JPH056398A JP H056398 A JPH056398 A JP H056398A JP 3158139 A JP3158139 A JP 3158139A JP 15813991 A JP15813991 A JP 15813991A JP H056398 A JPH056398 A JP H056398A
Authority
JP
Japan
Prior art keywords
document
keyword
code
search
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3158139A
Other languages
English (en)
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3158139A priority Critical patent/JPH056398A/ja
Publication of JPH056398A publication Critical patent/JPH056398A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 辞書などの余計なデータを一切使用すること
なしにキーワードを自動抽出することが可能な文書登録
装置及び文書検索装置を提供する。 【構成】 文書又は付与されたキーワードを字種の変化
点で区切りそれぞれの区間の文字列内の連続するすべて
の2文字の組をスーパーインポーズドコードに変換する
文書符号化手段1を設け、スーパーインポーズドコード
と文書との対応関係を登録する文書登録手段2を設け、
スーパーインポーズドコードと文書との対応関係を保持
する文書インデックス保持手段3を設けた。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書に自動的にキーワ
ードを付けて保存しておき、そのキーワードの入力によ
って対応する文書を検索するような文書登録装置及び文
書検索装置に関する。
【0002】
【従来の技術】従来、電子的な文書をファイリングする
場合、キーワードを付けて登録しておき、後でそのキー
ワードを指定して対応する文書を取り出すのが一般的に
行われている。この場合、どのようにキーワードを「付
与」し、また、キーワードを使ってどうように「検索」
するのかという問題がある。
【0003】まず、キーワードの付与は、人間が行うの
が一般的であるが、文書の内容から自動的にキーワード
を付与するようなシステムもある。すなわち、単語辞書
を使って文書中からすべての名詞を抽出し、その中から
不要語と呼ばれるキーワードにならないと予め定めてお
いた語を除くという方法である。また、キーワードによ
る検索は、転置ファイルと呼ばれるキーワードに対して
文書を対応付けたファイルを用いて行うのが一般的であ
る。
【0004】また、他の方法として、例えば、特開平2
−297193号公報に「辞書引き装置」として開示さ
れているように、スーパーインポーズドコードを使用す
る方法もある。すなわち、これは、キーワードを特定の
長さのビット列にハッシュして、1つの文書に対応する
キーワードすべてのビット列の論理和をとったビット列
を文書と対応付けて記憶させておく方法である。また、
検索時は、検索キーワードを特定の長さのビット列にハ
ッシュして、そのビット列を検索キーとし、文書に対応
しているビット列との論理積が検索キーに等しいような
文書を検索する。検索キーワードが複数指定されている
場合でも、それぞれのビット列の論理和を検索キーとす
れば、簡単に検索することができる。
【0005】
【発明が解決しようとする課題】上述したような従来の
キーワードの付与と検索とにおいては、以下に述べるよ
うな問題が生じる。まず、その第一の問題として、キー
ワード自動付与時に大規模な辞書データが必要となると
いうことである。すなわち、従来の方法においては、キ
ーワードの自動抽出のためには単語辞書や文法辞書など
の大規模なデータが必要であった。このことは、システ
ムを動作させるのに必要なメモリ或いはディスクの量が
増大すると共に、処理速度が遅いという問題がある。ま
た、辞書データの作成と維持に膨大な手間を要し、シス
テム作成のためのコストがかさむという問題がある。
【0006】また、その第二の問題として、付与したキ
ーワードと完全に同じキーワードを入力しないと検索で
きないということである。すなわち、従来の方法におい
ては、付与したキーワードをそのままインデックスとし
て使用しているために少しでも異なったキーワードでは
検索できないという問題がある。一例として、「情報装
置」というキーワードを付与して登録した文書は、“情
報検索”や“検索装置”というようなキーワードでは検
索できないということである。
【0007】
【課題を解決するための手段】請求項1記載の発明で
は、文書又は付与されたキーワードを字種の変化点で区
切りそれぞれの区間の文字列内の連続するすべての2文
字の組をスーパーインポーズドコードに変換する文書符
号化手段を設け、前記スーパーインポーズドコードと前
記文書との対応関係を登録する文書登録手段を設け、前
記スーパーインポーズドコードと前記文書との対応関係
を保持する文書インデックス保持手段を設けた。
【0008】請求項2記載の発明では、請求項1記載の
発明において、文書符号化手段は、平仮名の区間はコー
ド化しないようにした。
【0009】請求項3記載の発明では、キーワードを字
種の変化点で区切り、それぞれの区間の文字列内の連続
するすべての2文字の組をスーパーインポーズドコード
に変換するキーワード符号化手段を設け、前記スーパー
インポーズドコードに対応する文書を取り出す文書検索
手段を設け、前記スーパーインポーズドコードと前記文
書との対応関係を保持する文書インデックス保持手段を
設けた。
【0010】請求項4記載の発明では、請求項3記載の
発明において、キーワード符号化手段は、平仮名の区間
はコード化しないようにした。
【0011】
【作用】請求項1記載の発明においては、キーワードを
動的に付与するため、文書登録の手間を減らすことがで
き、また、単語辞書などの大規模データを使用しないた
め、動作の必要なメモリやディスクが少なくて済む。
【0012】請求項2記載の発明においては、文章の大
きな部分を占める平仮名文字列を処理対象としないの
で、処理速度がさらに速くなり、また、使用頻度の高い
文字をハッシュの対象としなくて済むので、ハッシュ関
数の設計が容易となる。
【0013】請求項3記載の発明においては、キーワー
ドを分解して検索することになり、付与したキーワード
と同じ形でなくとも検索が可能となる。
【0014】請求項4記載の発明においては、文章の大
きな部分を占める平仮名文字列を処理対象としないた
め、処理速度がさらに早くなり、また、使用頻度の高い
文字をハッシュの対象としなくて済むため、ハッシュ関
数の設計が容易となる。
【0015】
【実施例】本発明の一実施例を図面に基づいて説明す
る。図1は本装置の全体構成を示すものであり、文書符
号化手段1と、文書登録手段2と、文書インデックス保
持手段3と、キーワード符号化手段4と、文書検索手段
5とよりなっている。図2は文書登録時の処理の流れを
示し、また、図3は文書検索時の処理の流れを示すもの
であり、これらのフローを参照しながら、以下、各部の
構成について順次説明していく。
【0016】まず、文書符号化手段1について説明す
る。これは、登録する文書、又は、文書に対して付与さ
れたキーワードをスーパーインポーズドコードに変換す
るものである。この場合、文書を対象とすると、キーワ
ードを自動的に付与することになり、人間が付与する必
要はない。また、どちらを対象としても動作は同じなの
で、ここでは文書を符号化する方法について説明する。
すなわち、以下に述べるように各stepを順次とる。
【0017】〔step1〕として、文書を字種の変化
点で分割する。字種の変化点とは、平仮名→漢字や、ア
ルファベット→カタカナとなるような点である。例え
ば、“きのう情報検索装置を開発した”という文書は、
“/きのう/情報検索装置/を/開発/した/”という
ように分割できる。以後の動作は分割した区間を単位と
して行う。ただし、平仮名からなる区間に対しては何も
処理を行わない。
【0018】〔step2〕として、区間内の文字列か
らすべての2文字の組を抽出する。例えば、“情報検索
装置”という区間からは‘情報’‘報検’‘検索’‘索
装’‘装置’という5種類の2文字組が抽出できる。
【0019】〔step3〕として、2文字組の文字コ
ードをキーとして、予め定めておいたハッシュ関数によ
って、予め定めておいた長さのビット列に変換する。こ
の時、変換後のビット列の1の数が同じになるようにハ
ッシュ関数を定めておく。例えば、長さ32のビット列
のうちの4ビットに変換するようにハッシュ関数が定め
られたとすると、
【0020】
【表1】
【0021】というようになる(実際にどういうビット
列が得られるかはハッシュ関数の設計によって変わ
る)。
【0022】〔step4〕として、step3で求め
たビット列すべての論理和をとる。上述した例の場合、
5つのビット列の論理和をとり、次のビット列が得られ
る。
【0023】
【表2】
【0024】〔step5〕として、それぞれの区間に
対応するビット列すべての論理和をとる。これが、その
文書に対応するスーパーインポーズドコードとなる。
【0025】次に、文書登録手段2について説明する。
これは、文書符号化手段1で得られたビット列と文書と
を対応付けて文書インデックス保持手段3に格納すると
いうものである。
【0026】次に、文書インデックス保持手段3につい
て説明する。これは、ビット列と文書とを対応付けて記
憶しているものである。例えば、次のようになる。
【0027】
【表3】
【0028】次に、キーワード符号化手段4について説
明する。これは、検索キーとして指定されたキーワード
をスーパーインポーズドコードに変換するものである。
この場合、その動作は文書符号化手段1と全く同じであ
る。もし、AND検索のために複数のキーワードが指定
された場合は、それぞれのキーワードに対するスーパー
インポーズドコードの論理和をとったものが検索キーに
対応するコードとなる。その一例として、“情報検索”
という検索キーワードは次のように符号化される。
【0029】
【表4】
【0030】最後に、文書検索手段5について説明す
る。これは、キーワード符号化手段4で得られた検索キ
ーにマッチする文書を文書インデックス保持手段3から
検索するというものである。すなわち、以下に述べるよ
うなstepをとる。
【0031】〔step1〕として、それぞれの文書に
対応するスーパーインポーズドコードと検索キーとの論
理積をとる。
【0032】〔step2〕として、step1で得ら
れた論理積が検索キーに等しければその文書は検索キー
にマッチし、等しくなければマッチしないと判定する。
【0033】例えば、検索キーが、
【0034】
【表5】
【0035】である場合、その“情報検索”と文書1と
の論理積1は、
【0036】
【表6】
【0037】となり、検索キーに等しい。従って、文書
1は検索キーにマッチすると判定される。
【0038】また、“情報検索”と文書2との論理積2
は、
【0039】
【表7】
【0040】となり、検索キーとは異なる。従って、文
書2は検索キーとはマッチしないと判定される。
【0041】
【発明の効果】請求項1記載の発明は、文書又は付与さ
れたキーワードを字種の変化点で区切りそれぞれの区間
の文字列内の連続するすべての2文字の組をスーパーイ
ンポーズドコードに変換する文書符号化手段を設け、前
記スーパーインポーズドコードと前記文書との対応関係
を登録する文書登録手段を設け、前記スーパーインポー
ズドコードと前記文書との対応関係を保持する文書イン
デックス保持手段を設けたので、キーワードを動的に付
与するため、文書登録の手間を減らすことができ、ま
た、単語辞書などの大規模データを使用しないため、動
作の必要なメモリやディスクが少なくて済み、さらに、
単純な動作であるため処理を高速で行うことができるも
のである。
【0042】請求項2記載の発明は、請求項1記載の発
明において、文書符号化手段は、平仮名の区間はコード
化しないようにしたので、文章の大きな部分を占める平
仮名文字列を処理対象としないため処理速度がさらに速
くなり、また、使用頻度の高い文字をハッシュの対象と
しなくて済むためハッシュ関数の設計が容易となるもの
である。
【0043】請求項3記載の発明は、キーワードを字種
の変化点で区切り、それぞれの区間の文字列内の連続す
るすべての2文字の組をスーパーインポーズドコードに
変換するキーワード符号化手段を設け、前記スーパーイ
ンポーズドコードに対応する文書を取り出す文書検索手
段を設け、前記スーパーインポーズドコードと前記文書
との対応関係を保持する文書インデックス保持手段を設
けたので、キーワードを分解して検索することになり、
付与したキーワードと同じ形でなくとも検索ができるも
のである。
【0044】請求項4記載の発明は、請求項3記載の発
明において、キーワード符号化手段は、平仮名の区間は
コード化しないようにしたので、文章の大きな部分を占
める平仮名文字列を処理対象としないため処理速度がさ
らに早くなり、また、使用頻度の高い文字をハッシュの
対象としなくて済むためハッシュ関数の設計が容易とな
り、さらに、助詞や動詞語尾は平仮名であるため“情報
を検索する装置”のように句の形で入力されたキーワー
ドに対しても、平仮名の除去により特別な操作なしに検
索することができるものである。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】文書登録時の処理の流れを示すフローチャート
である。
【図3】文書検索時の処理の流れを示すフローチャート
である。
【符号の説明】
1 文書符号化手段 2 文書登録手段 3 文書インデックス保持手段 4 キーワード符号化手段 5 文書検索手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書又は付与されたキーワードを字種の
    変化点で区切りそれぞれの区間の文字列内の連続するす
    べての2文字の組をスーパーインポーズドコードに変換
    する文書符号化手段と、前記スーパーインポーズドコー
    ドと前記文書との対応関係を登録する文書登録手段と、
    前記スーパーインポーズドコードと前記文書との対応関
    係を保持する文書インデックス保持手段とよりなること
    を特徴とする文書登録装置。
  2. 【請求項2】 文書符号化手段は、平仮名の区間はコー
    ド化しないことを特徴とする請求項1記載の文書登録装
    置。
  3. 【請求項3】 キーワードを字種の変化点で区切りそれ
    ぞれの区間の文字列内の連続するすべての2文字の組を
    スーパーインポーズドコードに変換するキーワード符号
    化手段と、前記スーパーインポーズドコードに対応する
    文書を取り出す文書検索手段と、前記スーパーインポー
    ズドコードと前記文書との対応関係を保持する文書イン
    デックス保持手段とよりなることを特徴とする文書検索
    装置。
  4. 【請求項4】 キーワード符号化手段は、平仮名の区間
    はコード化しないことを特徴とする請求項3記載の文書
    検索装置。
JP3158139A 1991-06-28 1991-06-28 文書登録装置及び文書検索装置 Pending JPH056398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3158139A JPH056398A (ja) 1991-06-28 1991-06-28 文書登録装置及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3158139A JPH056398A (ja) 1991-06-28 1991-06-28 文書登録装置及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH056398A true JPH056398A (ja) 1993-01-14

Family

ID=15665123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3158139A Pending JPH056398A (ja) 1991-06-28 1991-06-28 文書登録装置及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH056398A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221443A (ja) * 1995-02-17 1996-08-30 Fujitsu Ltd 漢字を含むテキストの検索方法及び装置
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JPH11143902A (ja) * 1997-11-11 1999-05-28 Hitachi Ltd n−gramを用いた類似文書検索方法
JP2010256951A (ja) * 2009-04-21 2010-11-11 Data Henkan Kenkyusho:Kk 類似データ検索装置及びそのプログラム
WO2012176374A1 (ja) * 2011-06-21 2012-12-27 日本電気株式会社 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221443A (ja) * 1995-02-17 1996-08-30 Fujitsu Ltd 漢字を含むテキストの検索方法及び装置
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JPH11143902A (ja) * 1997-11-11 1999-05-28 Hitachi Ltd n−gramを用いた類似文書検索方法
JP2010256951A (ja) * 2009-04-21 2010-11-11 Data Henkan Kenkyusho:Kk 類似データ検索装置及びそのプログラム
WO2012176374A1 (ja) * 2011-06-21 2012-12-27 日本電気株式会社 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム
JPWO2012176374A1 (ja) * 2011-06-21 2015-02-23 日本電気株式会社 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム
US9465838B2 (en) 2011-06-21 2016-10-11 Nec Corporation Numeric range search device, numeric range search method, and numeric range search program

Similar Documents

Publication Publication Date Title
US4959785A (en) Character processing system with spelling check function that utilizes condensed word storage and indexed retrieval
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
CN1008016B (zh) 输入处理***
JPH0689304A (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
EP0775963B1 (en) Indexing a database by finite-state transducer
US5560037A (en) Compact hyphenation point data
JPH056398A (ja) 文書登録装置及び文書検索装置
JPS63244259A (ja) キ−ワ−ド抽出装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP3253657B2 (ja) 文書検索方法
JPH03116375A (ja) 情報検索装置
JPS61248160A (ja) 文書情報登録方式
JPH0140372B2 (ja)
JPH07182354A (ja) 電子文書の作成方法
JPH0140370B2 (ja)
JPH10177582A (ja) 最長一致検索方法及び装置
JPH07282040A (ja) 日本語情報圧縮方式
KR100289332B1 (ko) 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법
KR19990084950A (ko) 역화일을 이용한 데이터 부분검색 장치 및 그 방법
JP2001202388A (ja) フルテキストサーチ方法および装置
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH11120186A (ja) データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体
JPH0721212A (ja) 文書処理装置
JPH06251070A (ja) 単語検索のための電子辞書圧縮方法及び装置
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム