JPH0863487A - 文書検索方法及び文書検索装置 - Google Patents

文書検索方法及び文書検索装置

Info

Publication number
JPH0863487A
JPH0863487A JP6200443A JP20044394A JPH0863487A JP H0863487 A JPH0863487 A JP H0863487A JP 6200443 A JP6200443 A JP 6200443A JP 20044394 A JP20044394 A JP 20044394A JP H0863487 A JPH0863487 A JP H0863487A
Authority
JP
Japan
Prior art keywords
character
document
keyword
search
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6200443A
Other languages
English (en)
Inventor
Yasuo Tanosaki
康雄 田野崎
Isamu Iwai
勇 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6200443A priority Critical patent/JPH0863487A/ja
Publication of JPH0863487A publication Critical patent/JPH0863487A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 原文書が誤認識されてテキストデータ化され
た文書についても、通常のキーワードにより正確に該当
文書を検索することができる。 【構成】 入力装置2からキーワードが入力されると、
制御装置1は前記元のキーワードを構成する文字列の中
で、1文字が複数の文字に分解されて誤認識される文字
列があれば、これを誤認識される形態に分解して第2の
キーワードを作り、又、元のキーワードを構成する文字
列の中で、複数の文字が1文字に置換されて誤認識され
る文字列があれば、これを誤認識される形態に置換して
第3のキーワードを作った後、これら元、第1、第2の
キーワードによって外部記憶装置3内の文書データを検
索する。このため、原文書が光学的文字認識装置で文字
認識されて前記外部記憶装置3に入力される際に上記し
た誤認識が生じても、前記元のキーワードを入力するだ
けで、外部記憶装置3内の該当文書を正しく検索するこ
とができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は印刷文書等の他メディア
から文字認識装置により入力した文書(テキストデー
タ)を被検索データベースとし、このデータベース中か
らキーワードを含む文書を高速且つ正確に検索する文書
検索方法及び文書検索装置に関する。
【0002】
【従来の技術】大量に流通している印刷文書を検索する
手段として、前記印刷文書の頁画像を光学的文字読取装
置で処理してテキストデータを抽出し、得られたテキス
トデータをデータベースに格納して被検索用文書データ
とし、この中からフルテキストサーチ等の検索方法によ
り、目的の文書を検索する文書検索装置が商品化されて
いる。
【0003】ここで、前記印刷文書の頁画像をフルテキ
ストデータとしてデータベース(外部記憶装置)に入力
する文書入力装置としては、以下の2つの形態のものが
ある。(1)光学的文字読取装置を利用するもので、文
書の頁画像をスキャナで読み取り、得られた画像データ
に対して、例えば最小類似度法による文字認識を行なっ
てテキストデータを得るものである。最初に認識できた
数文字をタイトルテキストデータとし、残りを本体のテ
キストデータとする。(2)オンライン手書き文字認識
装置を利用するもので、スタイラスペンと透明タブレッ
トが一体となった入力装置を用いて、手書き文字の座標
点列を得る。この点列データを参照して1文字毎に、オ
ンライン文字認識を行なってテキストデータを得るもの
である。最初に認識できた数文字をタイトルテキストデ
ータとし、残りを本体テキストデータとする。
【0004】しかし、光学的文字読取装置及びオンライ
ン手書き文字認識装置における読み取り精度は現在十分
ではなく、文字を読み誤る(文字認識の際の誤認識)こ
とがしばしばある。そのため、原文書中に、検索時にキ
ーワードとして指定されるべき文字列が含まれていて
も、読み取りの際に、その箇所に誤認識が生じた場合に
は、この文書中に前記キーワードが含まれなくなってし
まい、この文書が正しく検索されないという不具合が発
生していた。
【0005】そこで、原文書中のひとつの文字が他の1
文字に誤認識される場合には、テキストデータとして認
識する際の第2、第3候補の文字コードをも採用すると
いった手段により、前記誤認識を防いで上記の不具合を
ある程度解決することができる。しかし、原文書中の1
文字が複数の文字に分解されて誤認識されたり、複数の
文字がひとつの文字として誤認識される場合には、上記
手段では解決できず、検索時における大きな障害となっ
ていた。
【0006】ここで、原文書中の1文字が複数の文字に
分解されて認識される例としては、「計」の文字が「言
十」と誤認識される場合があり、原文書中の複数の文字
が1文字として認識される例としては、「EIGHT」
という文字列中で「EI」という文字列が「日GHT」
と誤認識される場合がある。このような場合、例えば時
計というキーワードに対して、時言十と誤認識されてテ
キストデータ化された文書は検索されなくなってしまう
ことになり。上記した不具合が発生することになる。
【0007】
【発明が解決しようとする課題】上記した文字認識装置
により入力して記憶装置に格納した複数の文書から、別
途入力されるキーワードを含む文書を検索する文書検索
装置では、前記文字認識装置により原文書を文字認識し
てテキストデータ化する際に、原文書中の1文字が複数
の文字に分解されて認識されたり、複数の文字が1文字
として認識される誤認識が生じると、この誤認識された
元の文字を含むキーワードでは、該当の文書が検索でき
なくなり、文書検索率が悪化するという欠点があった。
【0008】そこで本発明は上記の欠点を除去し、原文
書中の1文字が複数の文字に分解されて誤認識された
り、複数の文字が1文字として誤認識されてテキストデ
ータ化されてた文書についても、前記誤認識された元の
文字を含むキーワードにより正確に該当文書を検索する
ことができる文書検索方法及び文書検索装置を提供する
ことを目的としている。
【0009】
【課題を解決するための手段】請求項1の発明は、原文
書を文字認識して得た文書を被検索文書とし、別途検索
者により入力されるキーワードを含む文書を前記被検索
文書から検索する文書検索装置における文書検索方法に
あって、前記原文書を文字認識する際の誤認識形態情報
を予め保持しておき、その後、前記検索により入力され
るキーワードを構成する文字列で前記誤認識形態情報に
該当するものがあれば、この文字列を前記誤認識形態情
報が示す誤認識結果文字列に変換することにより、この
誤認識結果文字列を含んだ新たなキーワードを作成した
後、前記検索者により当初入力された元のキーワード及
び前記新たに作成されたキーワードそれぞれを用いて前
記被検索文書を検索し、得られた検索結果を出力する方
法を有する。
【0010】請求項2の発明は、前記誤認識形態情報は
原文中では1文字であるが文字認識の結果複数文字に誤
認識される場合の前記1文字と誤認識結果である前記複
数文字から成り、且つ前記検索者により入力されるキー
ワードを構成する文字列で前記誤認識形態情報に該当す
る1文字があれば、この文字列を誤認識結果である前記
複数文字列に展開して変換することにより、この複数文
字列を含む新たなキーワードを作成する方法を有する。
【0011】請求項3の発明は、前記誤認識形態情報は
原文中では複数文字であるが文字認識の結果1文字に誤
認識される場合の前記複数文字と誤認識結果である前記
1文字から成り、且つ前記検索者により入力されるキー
ワードを構成する文字列で前記誤認識形態情報に該当す
る複数文字列があれば、この文字列を誤認識結果である
前記1文字に置換して変換することにより、この1文字
を含む新たなキーワードを作成する方法を有する。
【0012】請求項4の発明は、前記検索結果を出力す
る際に、検索者が入力したキーワードそのものから検索
された検索結果情報と、前記新に作成されたキーワード
から得られた検索結果情報を異なった形式で出力する方
法を有する。
【0013】請求項5の発明は、文字認識装置により原
文書を文字認識して得た文書を被検索文書として記憶す
る記憶装置を備え、別途検索者により入力されるキーワ
ードを含む文書を前記記憶装置内の前記被検索文書から
検索する文書検索装置において、前記原文書を文字認識
する際の誤認識形態情報を前記記憶装置に登録する登録
手段と、前記検索者により入力されるキーワードを構成
する文字列で前記登録手段内の前記誤認識形態情報に該
当する文字列を検出する検出手段と、この検出手段によ
り検出された該当の文字列を前記記憶手段内の前記誤認
識形態情報が示す誤認識結果文字列に変換することによ
り、この誤認識結果文字列を含んだ新たなキーワードを
作成する作成手段と、この作成手段により作成された前
記キーワードと前記検索者により当初入力された元のキ
ーワードそれぞれを用いて前記記憶装置から前記被検索
文書を検索する検索手段と、この検索手段による検索結
果を出力する出力手段を具備した構成を有する。
【0014】請求項6の発明は、前記登録手段により登
録される前記誤認識形態情報は、原文中では1文字であ
るが文字認識の結果複数文字に誤認識される場合の前記
1文字と、誤認識結果である前記複数文字とから成り、
且つ前記作成手段は前記1文字を複数文字に展開して展
開手段を備え、この展開手段により展開された複数文字
を用いて前記新たなキーワードを作成する構成を有す
る。
【0015】請求項7の発明は、前記登録手段により登
録される前記誤認識形態情報は、原文中では複数文字で
あるが文字認識の結果1文字に誤認識される場合の前記
複数文字と、誤認識結果である前記1文字から成り、且
つ前記作成手段は前記複数文字列を1文字に置換する置
換手段を備え、この置換手段により置換された1文字を
用いて前記新たなキーワードを作成する構成を有する。
【0016】請求項8の発明は、前記出力手段は前記検
索結果を出力する際に、前記検索者が入力したキーワー
ドそのものから検索された検索結果情報と、前記新に作
成されたキーワードから得られた検索結果情報を異なっ
た形式で出力するアルコリズムを有する構成を有する。
【0017】
【作用】請求項1の発明の文書検索方法にあって、前記
原文書を文字認識する際の誤認識形態情報を予め登録し
ておき、その後、前記検索により入力されるキーワード
を構成する文字列で前記誤認識形態情報に該当するもの
があれば、この文字列を前記誤認識形態情報が示す誤認
識結果文字列に変換することにより、この誤認識結果文
字列を含んだ新たなキーワードを作成した後、前記検索
者により当初入力された元のキーワード及び前記新たに
作成されたキーワードそれぞれを用いて前記被検索文書
を検索し、得られた検索結果を出力するので、前記被検
索文書中に入力時に生じた誤認識文字列があっても、通
常のキーワードを入力するだけで、該当の文書を確実に
検索することができる。
【0018】請求項2の発明の文書検索方法にあって、
前記誤認識形態情報は原文中では1文字であるが文字認
識の結果複数文字に誤認識される場合の前記1文字と誤
認識結果である前記複数文字から成り、且つ前記検索者
により入力されるキーワードを構成する文字列で前記誤
認識形態情報に該当する1文字があれば、この文字列を
誤認識結果である前記複数文字列に展開して変換するこ
とにより、この複数文字列を含む新たなキーワードを作
成するので、この新たなキーワードにより、被検索文書
中に原文では1文字であるが文字認識の結果、複数文字
に誤認識された文字列があっても、該当の文書を確実に
検索することができる。
【0019】請求項3の発明の文書検索方法にあって、
前記誤認識形態情報は原文中では複数文字であるが文字
認識の結果1文字に誤認識される場合の前記複数文字と
誤認識結果である前記1文字から成り、且つ前記検索者
により入力されるキーワードを構成する文字列で前記誤
認識形態情報に該当する複数文字列があれば、この文字
列を誤認識結果である前記1文字に置換して変換するこ
とにより、この1文字を含む新たなキーワードを作成す
るので、この新たなキーワードにより、被検索文書中に
原文中では複数文字であるが文字認識の結果1文字に誤
認識された文字列があっても、該当の文書を確実に検索
することができる。
【0020】請求項4の発明の文書検索方法にあって、
前記検索結果を出力する際に、検索者が入力したキーワ
ードそのものから検索された検索結果情報と、前記新に
作成されたキーワードから得られた検索結果情報を異な
った形式で出力するので、検索結果の出力形式を見るこ
とにより、検索された文書中にキーワードに関わる誤認
識文字があることを容易に知ることができる。
【0021】請求項5の発明の文書検索装置において、
登録手段は前記原文書を文字認識する際の誤認識形態情
報を前記記憶装置に登録する。検出手段は前記検索者に
より入力されるキーワードを構成する文字列で前記登録
手段内の前記誤認識形態情報に該当する文字列を検出す
る。作成手段は前記検出手段により検出された該当の文
字列を前記記憶手段内の前記誤認識形態情報が示す誤認
識結果文字列に変換することにより、この誤認識結果文
字列を含んだ新たなキーワードを作成する。検索手段は
前記作成手段により作成された前記キーワードと前記検
索者により当初入力された元のキーワードそれぞれを用
いて前記記憶装置から前記被検索文書を検索する。出力
手段は前記検索手段による検索結果を出力する。これに
より、前記被検索文書中に入力時に生じた誤認識文字列
があっても、通常のキーワードを入力するだけで、該当
の文書を確実に検索することができる。
【0022】請求項6の発明の文書検索装置において、
前記登録手段により登録される前記誤認識形態情報は、
原文中では1文字であるが文字認識の結果複数文字に誤
認識される場合の前記1文字と、誤認識結果である前記
複数文字とから成るので、前記作成手段の展開手段は前
記誤認識結果文字列を複数文字に展開することにより、
前記作成手段は前記複数文字を用いて新たなキーワード
を作成する。この新たなキーワードにより被検索文書中
に原文中では1文字であるが文字認識の結果複数文字に
誤認識された文字列があっても、通常のキーワードを入
力するだけで、該当の文書を確実に検索することができ
る。
【0023】請求項7の発明は、前記記憶手段により登
録される前記誤認識形態情報は、原文中では複数文字で
あるが文字認識の結果1文字に誤認識される場合の前記
複数文字と、誤認識結果である前記1文字から成るの
で、前記作成手段の置換手段は前記複数文字列を1文字
に置換することにより、前記作成手段はこの1文字を用
いて新たなキーワードを作成する。この新たなキーワー
ドにより被検索文書中に原文中では複数文字であるが文
字認識の結果1文字に誤認識された文字列があっても、
該当の文書を確実に検索することができる。
【0024】請求項8の発明は、前記出力手段は前記検
索結果を出力する際に、前記検索者が入力したキーワー
ドそのものから検索された検索結果情報と、前記新に作
成されたキーワードから得られた検索結果情報を異なっ
た形式で出力するアルコリズムを有する。これにより、
検索結果の出力形式を見ることにより、検索された文書
中にキーワードに関わる誤認識文字があることを容易に
知ることができる。
【0025】
【実施例】以下、本発明の一実施例を図面を参照して説
明する。図1は本発明の文書検索方法を用いた本発明の
文書検索装置の一実施例を示したブロック図である。1
はテキストデータの検索や装置全体の制御を行う制御装
置、2は例えばキーボード及びマウス等から成り、検索
のためのキーワードを入力したり、検索操作を行うため
の各種コマンド等を入力する入力装置、3は検索用文書
データベースや正誤対応表データ等を記憶する例えばハ
ードディスク等からなる外部記憶装置、4は入力された
キーワードの表示や検索操作のためのメニュー画面及び
検索結果を表示するカラーCRT等から成る表示装置、
5は印刷文書などの原文書からイメージデータ読み取る
と共に前記イメージデータの中のテキストデータを文字
認識してコード化したテキストデータを得る光学的文字
読取装置(OCR)である。尚、光学的文字読取装置の
代わりに、オンライン手書き文字認識装置であってもよ
い。
【0026】以下、制御装置1の構成について更に詳し
く説明する。制御装置1は例えばCPU及びメモリ等か
ら成るもので、2〜5の各ハードウェア装置とバスによ
り接続されており、各装置の制御、装置間のデータの転
送等の制御や処理を行なうものである。尚、各ハードウ
ェア装置は、制御装置1とバスを介して接続されてお
り、制御装置1により制御が可能であり、又、相互にデ
ータを送ることが可能である。
【0027】制御装置1の上記したメモリは例えばダイ
ナミックRAMから成り、図4に示すように、制御装置
1が各種制御や処理を実行するためのプログラムを格納
するプログラム部イと、処理の際に必要なデータをバッ
ファリングするバッファ部ロとから成っている。更に、
プログラム部イには、メイン処理部11a、初期化部1
1b、キーワード入力部11c、キーワード展開部11
d、キーワード置換部11e、キーワードサーチ部11
f、候補文書一覧表示部11g、文書選択部11h、文
書表示部11iの各プログラムがあり、これらプログラ
ムは上記したCPUを制御して各種処理を行うことにな
る。
【0028】バッファ部ロには、キーワード格納バッフ
ァ11m、展開キーワード格納バッファ11n、置換キ
ーワード格納バッファ11o、候補文書数格納バッファ
11p、候補文書番号格納バッファ11q、表示優先順
位格納バッファ11rなどがある。尚、キーワード格納
バッファ11m、展開キーワード格納バッファ11n、
置換キーワード格納バッファ11oは配列変数であり、
一定数の文字データを格納することができる。候補文書
番号格納バッファ11q、表示優先順位格納バッファ1
1rも配列変数であり、検索の結果得た各文書毎のデー
タを格納できるようになっている。
【0029】上記プログラム部イのメイン処理部11a
は、装置全体の処理の制御を司るものであり、プログラ
ムの分岐、初期化部11b以降の各モジュールの呼び出
し等を行なう。初期化部11bは、各ハードウェア装置
の初期設定及び制御装置1のバッファ部ロの内容の初期
化を行なう。キーワード入力部11cは入力装置2のキ
ーボードを介して、検索者に検索の際にキーとなるキー
ワード文字列を入力させ、これをキーワード格納バッフ
ァ11mに格納する。キーワード展開部11dは、外部
記憶装置3に格納されている展開用対応表データを参照
して、キーワード格納バッファ11m中の文字データの
展開を行ない、結果を展開キーワード格納バッファ11
nに格納する。キーワード置換部11eは、展開キーワ
ード格納バッファ11n中の部分文字列の置換を行な
い、結果を置換キーワード格納バッファ11oに格納す
る。
【0030】キーワードサーチ部11fは、外部記憶装
置3に格納されている各文書データを順に参照し、キー
ワード格納バッファ11m、展開キーワード格納バッフ
ァ11n或いは置換キーワード格納バッファ11oに格
納されている文字列を含む文書を捜し出し、得られた文
書の文書番号を候補文書番号格納バッファ11q中に格
納すると共に、表示優先順位格納バッファ11rにタイ
トル表示上の優先順位情報を格納する。
【0031】候補文書一覧表示部11gは、候補文書番
号格納バッファ11qに格納されている各候補文書番号
に対応する文書のタイトルテキストデータを表示装置4
の画面上に列挙表示する。文書選択部11hは、既に候
補文書一覧表示部11gによって前記画面上に列挙表示
されている文書のタイトルテキストデータのいずれかを
検索者に選択させる。文書表示部11iは、文書選択部
11hによって選択された文書のタイトルテキストデー
タに対応する本体テキストデータを外部記憶装置3より
呼び出し、テキスト(文書)を表示装置2の画面上に表
示する。
【0032】次に本実施例の動作について説明する。検
索用文書データベースは外部記憶装置3中に格納されて
いるものである。この検索用文書データベースの構造は
図2に示すように、文書毎にその本体テキストデータと
その内容を表すタイトルテキストデータが対応付けて格
納されているもので、ここでは本体テキストデータとタ
イトルテキストデータの組を文書データと呼ぶことにす
る。尚、外部記憶装置3に格納されている順に、文書番
号を0、1、2・N−2、N−1(Nは格納されている
文書データの総数)と定める。
【0033】但し、これらのテキストデータは、印刷物
を予め光学的文字読取装置5の処理によって得られたも
のである。又、手書きパターンをオンライン手書き文字
認識装置の処理によって得られたテキストデータを上記
のようなデータベース化して外部記憶装置3に格納して
もよい。
【0034】以上のような処理により各文書データ(テ
キストデータに同じ)が得られるが、テキストデータを
得る際に、光学的文字読取装置或いはオンライン手書き
文字認識装置のいずれを用いても、認識上の誤りが生じ
る可能性がある。光学的文字読取装置5を利用した場合
に、原文書の頁画像とそれを処理して得た本体テキスト
データ中のコード列の例を図8に示す。この例では、図
8(A)に示した原文書中では、「計」であった1文字
が図8(B)に示すように「言十」と2文字に分解して
誤認識され、又、原文書中では、「EI」という2文字
が「日」と1文字に誤認識されている。
【0035】また、外部記憶装置3に格納されている正
誤対応表データには、図9に示した展開用対応表データ
と、図10に示した置換用対応表データとがある。展開
用対応表データには、原文書で1文字であるが、読み取
りの際に2文字以上に分解されて誤認識される頻度が高
い文字について、原文字とその予想される誤認識結果
(複数文字列)が対応付けて格納されている。図9の例
では、第1カラム目に原文字が、第2カラム目にその予
想される誤認識結果が格納されている。
【0036】図10に示した置換用対応表データには、
原文書で複数の文字から成る文字列が、読み取りの際に
1文字として認識される頻度が高い文字について、原文
字と、その予想される認識結果が対応付けて格納されて
いる。図10の例では第1カラム目に原文字列が、第2
カラム目にその予想される認識結果(文字)が格納され
ている。尚、上記した正誤対応表データは外部記憶装置
3ではなく、適当な不揮発性メモリに格納しておいても
よい。
【0037】上記のような前提のもとに図1に示した装
置の文書検索動作の流れについて図5を参照して説明す
る。処理全体の制御はメイン処理部11aが司ってお
り、メイン処理部11aはまず初期化部11bを起動す
る。起動された初期化部11bは、ステップ501にて
図4に示した各バッファ部のクリアや、入力装置1と表
示装置2の初期設定等を行なう。更に、コマンド入力の
ために必要な各種のアイコン、メニューの表示も行な
う。
【0038】続いて、メイン処理部11aはキーワード
入力部11cを起動する。起動されたキーワード入力部
11cは、ステップ502にて検索者に入力装置1のキ
ーボードから検索の際のキーであるコード列からなるキ
ーワードを入力させる。メイン処理部11aは入力され
たキーワード(コード列)に対して、かな漢字変換等の
処理を施し、得られた文字列をキーワード格納バッファ
11mに格納する。その後、処理はステップ503に移
行する。
【0039】ステップ503では、メイン処理部11a
によってキーワード展開部11dが起動される。キーワ
ード展開部11dは、外部記憶装置3に格納されている
図9に示したような展開用対応表データを参照して、図
11に示したようなキーワード格納バッファ11m中の
各文字について、第1カラムに登録されているどうかを
調べ、登録されているならば、その文字を第2カラム目
に記述されている文字列で展開して、得られた文字列を
展開キーワードバッファ11nに格納する。図12は展
開キーワード格納バッファ11nに格納された展開例を
示している。この例では、図11に示したキーワード格
納バッファ11m中の「計」という文字が「言十」とい
う文字列に展開されている。尚、この例の情報は図9に
示した展開用対応表データの3行目に記述されている。
【0040】次にメイン処理部11aはキーワード置換
部11eを起動する。キーワード置換部11eはステッ
プ504にて、外部記憶装置3に格納されている図10
に示したような置換用対応表データを参照して、図12
に示したような展開キーワード格納バッファ11n中の
各文字列について、前記置換用対応表データの第1カラ
ム目に登録されているかどうかを調べ、登録されている
ならば、その部分文字列を第2カラム目に記述されてい
る文字で置換して、図13に示すように置換キーワード
格納バッファ11oに格納する。図13の例では、展開
キーワード格納バッファ11n中の「EI」という部分
文字列が「日」という文字に置換されている。尚、この
例の情報は図10に示した置換用対応表データの2行目
に記述されている。
【0041】ステップ504の処理の後、メイン処理部
11aによってキーワードサーチ部11fが駆動され
る。キーワードサーチ部11fはステップ505にて、
キーワード格納バッファ11mに格納されている文字列
を含む文書の検索を、外部記憶装置3に格納されている
図3に示す構造の検索用コードデータ(本体テキストデ
ータ)を参照して行う。ここで、図3(A)は検索用コ
ードデータを構成する各文字を示しており、図3(B)
は前記各文字に対する光学的文字読取装置5による文字
認識の際の候補文字コードを示している。
【0042】図6は上記したキーワードサーチ部11f
による文書検索処理の流れを示したフローチャートであ
る。この処理の概略動作は、外部記憶装置3に格納され
ている各文書データの本体テキストデータ(図3に示す
ように検索用コードデータにテーブル化されている)を
順に参照し、キーワード格納バッファ11m、展開キー
ワード格納バッファ11n或いは置換キーワード格納バ
ッファ11oに格納されている文字列を含む文書を探し
だし、得られた文書の文書番号を候補文書番号格納バッ
ファ11q中に格納すると共に、タイトル表示の際の予
め決められた優先順位を表示優先順位格納バッファ11
rに格納する。ここで、制御装置4のメモリのバッファ
部内に定義された文書番号を格納する変数iDocを用
いる。
【0043】まず、キーワードサーチ部11fはステッ
プ601にて、変数iDocに0を代入する。次にステ
ップ602にて、外部記憶装置3に格納されているiD
oc番目の文書データの本体テキストデータ(図3に示
した検索用コードデータに同じ)中に、キーワード格納
バッファ11mに格納されている文字列が含まれている
かどうかを調べる。その結果、含まれていたならばステ
ップ603にて、表示優先順位格納バッファ11rの前
記変数iDocで示されるエリアに0を代入した後、ス
テップ608に進む。
【0044】ステップ602の処理にて条件が満たされ
なかった場合、キーワードサーチ部11fはステップ6
04に進み、ここでiDoc番目の文書データの本体テ
キストデータ中に、展開キーワード格納バッファ11n
に格納されている文字列が含まれているかどうかを調べ
る。その結果、含まれていたならば、ステップ605に
て表示優先順位格納バッファ11rの前記変数iDoc
で示されるエリアに1を代入した後、ステップ608に
進む。
【0045】ステップ604の処理にて条件が満たされ
なかった場合、キーワードサーチ部11fはステップ6
06に進み、ここで、iDoc番目の文書データの本体
テキストデータ中に、置換キーワード格納バッファ11
oに格納されている文字列が含まれているかどうか調べ
る。その結果、含まれていたならば、ステップ607に
て表示優先順位格納バッファ11rの前記変数iDoc
で示されるエリアに2を代入した後、ステップ608に
進む。
【0046】キーワードサーチ部11fはステップ60
8にて、検索文書の文書番号(iDoc)を候補文書番
号格納バッファ11qに格納した後、ステップ609に
て候補文書番号格納バッファ11qの値を+1インクリ
メントして、ステップ610に進む。
【0047】ステップ610にて、キーワードサーチ部
11fはiDocの値を+1インクリメントした後、ス
テップ611にて、iDocの値が外部記憶装置3内に
格納されている文書データの総数以上か否かを判断し、
条件が満たされたならばキーワードサーチ部11fでの
処理を終了して復帰する。条件が満たされなかった場合
は、ステップ602の処理に戻り、上記した一連の処理
を繰り返す。以上がキーワードサーチ部11fでの処理
の流れである。
【0048】図5に戻り、前述したステップ505の処
理が終了すると、メイン処理部11aは候補文書一覧表
示部11gを起動する。候補文書一覧表示部11gはス
テップ506にて、候補文書番号格納バッファ11qに
格納されている各候補文書番号に対応する文書のタイト
ルテキストデータを外部記憶装置3から読み出して表示
装置4の画面上に列挙表示する。この表示に際して、候
補文書一覧表示部11gは表示優先順位格納バッファ1
1r内の前記各候補文書番号に対応するエリアに格納さ
れている数字(図6で用いた0、1、2のいずれか)を
参照し、前記数字の値に対応した表示形態で、前記各候
補文書のタイトルテキストデータを画面上に表示する。
【0049】ここで、本例では数値が0の時は通常表
示、1の時にタイトルを括弧で囲み、2の時に2重括弧
で囲むという形態を用いている。図7はこの時の表示装
置4の画面の状況を示した例である。その後、メイン処
理部11aにより文書選択部11hが起動される。検索
者が入力装置1のカーソルキー等を操作して、前記画面
上に表示されている文書のタイトルの1つを選択する
と、文書選択部11hはステップ507にて前記選択さ
れた文書のタイトルを有する文書番号を特定して、画面
上に呼び出す文書を選択する。
【0050】検索者によってタイトルが選択された後
に、メイン処理部11aにより文書表示部11iが起動
される。文書表示部11iはステップ508にて、文書
選択部11hによって選択された文書番号に対応する本
体テキストデータを外部記憶装置3より呼び出し、これ
をテキストイメージデータとして表示装置4の画面上に
表示する。ステップ508の処理を終えた後、メイン処
理部11aはステップ509に進んで、検索動作終了か
否かを判定し、終了でないならばステップ502の処理
に戻り、上記したステップ502〜508の一連の処理
が繰り返される。ステップ509にて検索動作終了を判
定された場合は全体の処理が終了される。
【0051】本実施例によれば、原文書を光学的文字読
取装置5により文字認識して外部記憶装置3に入力する
際に、原文書中の1文字が複数の文字に分解されて誤認
識されたり、複数の文字が1文字として誤認識された場
合でも、キーワードに上記のようにな形態で誤認識され
る文字列があると、この文字列を誤認識される文字列に
変換することにより、この誤認識文字列を含んだ新たな
キーワードを作成した後、前記元のキーワード及びこれ
ら新たなキーワードによって、外部記憶装置3内の文書
の検索を行うため、上記のように誤認識された文字列を
含む文書も、前記元のキーワードを入力するだけで正確
に検索することができ、装置の文書検索率を向上させる
ことができる。
【0052】
【発明の効果】以上記述した如く請求項1又は5の発明
によれば、原文書が文字認識される際に生じた誤認識文
字を含む被検索文書の中からでも、キーワードを入力す
るだけで確実に該当文書を検索することができる。請求
項2又は6の発明によれば、原文書中の1文字が文字認
識される際に複数文字に誤認識された文字列を含む被検
索文書の中からでも、キーワードを入力するだけで確実
に該当文書を検索することができる。請求項3又は7の
発明によれば、原文書中の複数文字が文字認識される際
に1文字に誤認識された文字を含む被検索文書の中から
でも、キーワードを入力するだけで確実に該当文書を検
索することができる。請求項4又は8の発明によれば、
上記効果に加えて、検索結果の出力形式を見ることによ
り、検索された文書中にキーワードに関わる誤認識文字
があることを容易に知ることができる。
【図面の簡単な説明】
【図1】本発明の文書検索装置の一実施例を示したブロ
ック図。
【図2】図1に示した外部記憶装置内に格納されている
検索用文書データベースの構造例を示した図。
【図3】図2に示した本体テキストデータの構成例を示
した図。
【図4】図1に示した制御装置のメモリの構成例を示し
た図。
【図5】図1に示した装置による文書検索処理の流れを
示したフローチャート。
【図6】図5に示したキーワードサーチ処理の詳細例を
示したフローチャート。
【図7】図1に示した表示装置に表示された候補文書の
一覧表示画面例を示した図。
【図8】原文書の頁画像と、この頁画像を図1に示した
光学的文字読取装置にて読み取って得た本体テキストデ
ータの一例を示した図。
【図9】図1の装置で用いられる展開用対応表データの
構造例を示した図。
【図10】図1の装置で用いられる置換用対応表データ
の構造例を示した図。
【図11】図4に示したキーワード格納バッファに格納
されているキーワード例を示した図。
【図12】図4に示した展開キーワード格納バッファへ
入力されたキーワード文字列の展開例を示した図。
【図13】図4に示した置換キーワード格納バッファへ
入力されたキーワード文字列の置換例を示した図。
【符号の説明】
1…制御装置 2…入力装置 3…外部記憶装置 4…表示装置 5…光学的文字読取装置 11a…メイン
処理部 11b…初期化部 11c…キーワ
ード入力部 11d…キーワード展開部 11e…キーワ
ード置換部 11f…キーワードサーチ部 11g…候補文
書一覧表示部 11h…文書選択部 11i…文書表
示部 11m…キーワード格納バッファ 11n…展開キ
ーワード格納バッファ 11o…置換キーワード格納バッファ 11p…候補文
書数格納バッファ 11q…候補文書番号格納バッファ 11r…表示優
先順位格納バッファ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9194−5L G06F 15/403 310 Z

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 原文書を文字認識して得た文書を被検索
    文書とし、別途検索者により入力されるキーワードを含
    む文書を前記被検索文書から検索する文書検索装置にお
    ける文書検索方法にあって、前記原文書を文字認識する
    際の誤認識形態情報を予め登録しておき、その後、前記
    検索者により入力されるキーワードを構成する文字列で
    前記誤認識形態情報に該当する文字列があれば、この文
    字列を前記誤認識形態情報が示す誤認識結果文字列に変
    換することにより、この誤認識結果文字列を含んだ新た
    なキーワードを作成した後、前記検索者により当初入力
    された元のキーワード及び前記新たに作成されたキーワ
    ードそれぞれを用いて前記被検索文書を検索し、得られ
    た検索結果を出力することを特徴とする文書検索方法。
  2. 【請求項2】 前記誤認識形態情報は原文中では1文字
    であるが文字認識の結果複数文字に誤認識される場合の
    前記1文字と誤認識結果である前記複数文字から成り、
    且つ前記検索者により入力されるキーワードを構成する
    文字列で前記誤認識形態情報に該当する1文字があれ
    ば、この文字列を誤認識結果である前記複数文字列に展
    開して変換することにより、この複数文字列を含む新た
    なキーワードを作成することを特徴とする請求項1記載
    の文書検索方法。
  3. 【請求項3】 前記誤認識形態情報は原文中では複数文
    字であるが文字認識の結果1文字に誤認識される場合の
    前記複数文字と誤認識結果である前記1文字から成り、
    且つ前記検索者により入力されるキーワードを構成する
    文字列で前記誤認識形態情報に該当する複数文字列があ
    れば、これら文字列を誤認識結果である前記1文字に置
    換して変換することにより、この1文字を含む新たなキ
    ーワードを作成することを特徴とする請求項1記載の文
    書検索方法。
  4. 【請求項4】 前記検索結果を出力する際に、検索者が
    入力したキーワードそのものから検索された検索結果情
    報と、前記新に作成されたキーワードから得られた検索
    結果情報を異なった形式で出力することを特徴とする請
    求項1乃至3いずれにか記載の文書検索方法。
  5. 【請求項5】 文字認識装置により原文書を文字認識し
    て得た文書を被検索文書として記憶する記憶装置を備
    え、別途検索者により入力されるキーワードを含む文書
    を前記記憶装置内の前記被検索文書から検索する文書検
    索装置において、前記原文書を文字認識する際の誤認識
    形態情報を前記記憶装置に登録する登録手段と、前記検
    索者により入力されるキーワードを構成する文字列で前
    記登録手段内の前記誤認識形態情報に該当する文字列を
    検出する検出手段と、この検出手段により検出された該
    当の文字列を前記記憶手段内の前記誤認識形態情報が示
    す誤認識結果文字列に変換することにより、この誤認識
    結果文字列を含んだ新たなキーワードを作成する作成手
    段と、この作成手段により作成された前記キーワードと
    前記検索者により当初入力された元のキーワードそれぞ
    れを用いて前記記憶装置から前記被検索文書を検索する
    検索手段と、この検索手段による検索結果を出力する出
    力手段と具備したことを特徴とする文書検索装置。
  6. 【請求項6】 前記登録手段により登録される前記誤認
    識形態情報は、原文中では1文字であるが文字認識の結
    果複数文字に誤認識される場合の前記1文字と、誤認識
    結果である前記複数文字とから成り、且つ前記作成手段
    は前記1文字を複数文字に展開して展開手段を備え、こ
    の展開手段により展開された複数文字を用いて前記新た
    なキーワードを作成することを特徴とする請求項5記載
    の文書検索装置。
  7. 【請求項7】 前記登録手段により登録される前記誤認
    識形態情報は、原文中では複数文字であるが文字認識の
    結果1文字に誤認識される場合の前記複数文字と、誤認
    識結果である前記1文字から成り、且つ前記作成手段は
    前記複数文字列を1文字に置換する置換手段を備え、こ
    の置換手段により置換された1文字を用いて前記新たな
    キーワードを作成することを特徴とする請求項5記載の
    文書検索装置。
  8. 【請求項8】 前記出力手段は前記検索結果を出力する
    際に、前記検索者が入力したキーワードそのものから検
    索された検索結果情報と、前記新に作成されたキーワー
    ドから得られた検索結果情報を異なった形式で出力する
    アルコリズムを有することを特徴とする請求項5乃至7
    記載の文書検索装置。
JP6200443A 1994-08-25 1994-08-25 文書検索方法及び文書検索装置 Withdrawn JPH0863487A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6200443A JPH0863487A (ja) 1994-08-25 1994-08-25 文書検索方法及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6200443A JPH0863487A (ja) 1994-08-25 1994-08-25 文書検索方法及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH0863487A true JPH0863487A (ja) 1996-03-08

Family

ID=16424387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6200443A Withdrawn JPH0863487A (ja) 1994-08-25 1994-08-25 文書検索方法及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH0863487A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916619A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理方法及び装置
CN113474767A (zh) * 2019-02-14 2021-10-01 昭和电工株式会社 文件检索装置、文件检索***、文件检索程序及文件检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916619A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理方法及び装置
CN113474767A (zh) * 2019-02-14 2021-10-01 昭和电工株式会社 文件检索装置、文件检索***、文件检索程序及文件检索方法
CN113474767B (zh) * 2019-02-14 2023-09-01 株式会社力森诺科 文件检索装置、文件检索***、文件检索程序及文件检索方法

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JP3167500B2 (ja) 手書き情報入力処理方式
JP2957375B2 (ja) 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法
EP0680035B1 (en) Erroneous input processing method and apparatus in an information processing system using composite input
JP3141015B2 (ja) 手書き漢字認識方法および装置
JP3535624B2 (ja) 検索装置及び方法
US5623261A (en) Method and system for translating keyed input within a data processing system
JPH08314910A (ja) 異種コード文字列転記装置および電子辞書
JPH07110845A (ja) 手書き入力情報処理管理システム
JP3230641B2 (ja) 文字列検索装置
JPH0863487A (ja) 文書検索方法及び文書検索装置
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JP3021224B2 (ja) 辞書検索装置
JP2831837B2 (ja) 文書検索装置
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JP2006343932A (ja) 情報検索システム及び検索方法
JPS6029823A (ja) 適応型記号列変換方式
JP3272536B2 (ja) 仮名漢字変換方法
JP2000148912A (ja) 人名認識装置、人名認識方法、及び記憶媒体
JP2003178263A (ja) 文字認識装置及び記録媒体
JPH0869477A (ja) 頁画像検索方法及び頁画像検索装置
JPH08314919A (ja) 学習機能付き文書処理装置
JPH1185884A (ja) 文書処理システム及びプログラムを記録した記録媒体
JPS61198383A (ja) 文字修正装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20011106