JPH1069494A - 画像検索方法とその装置 - Google Patents

画像検索方法とその装置

Info

Publication number
JPH1069494A
JPH1069494A JP8228504A JP22850496A JPH1069494A JP H1069494 A JPH1069494 A JP H1069494A JP 8228504 A JP8228504 A JP 8228504A JP 22850496 A JP22850496 A JP 22850496A JP H1069494 A JPH1069494 A JP H1069494A
Authority
JP
Japan
Prior art keywords
character string
image
search
character
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8228504A
Other languages
English (en)
Inventor
Hirotaka Shiiyama
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8228504A priority Critical patent/JPH1069494A/ja
Publication of JPH1069494A publication Critical patent/JPH1069494A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 高精度の文字列検索を安価にかつ高速に行う
ことができる画像検索方法とその装置を提供する。 【解決手段】 検索文字列を対応する文字列イメージに
展開し、展開された文字列イメージに所定のフィルタリ
ングを行う(S2)。そして、フィルタリングされた文
字列イメージのセグメンテーションを行い、セグメンテ
ーションされた各部分の文字認識を行い、前記検索文字
列を含む複数の認識文字候補を獲得する(S3)。そし
て、獲得された複数の認識文字候補を組み合わせて、可
能な別の認識文字列候補を生成する(S4)。それらの
認識文字列候補のOR条件で、文字列認識を行う(S
5)。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は、画像検索方法とそ
の装置、特に、所定の文字列を対象画像から検索する画
像検索方法とその装置に関する。
【従来の技術】従来、OCRを行なう場合には、誤認識
対策のため、認識率がある程度低い認識候補までを明示
して、人がそれを手入力で選択、あるいは、訂正してい
た。
【発明が解決しようとする課題】しかしながら、この手
作業が必要であるが故に、文字の全自動認識処理化を難
しいものとしていた。これを解決すべく、この作業を機
械的に行なう研究も行われており、単語辞書や知識ベー
スを用いた誤認識訂正の例があるが、これを実現するに
は高い計算能力を有するコンピュータを用いなければ、
実用化に耐えない等の多くの障壁がある。また、認識候
補を1つに絞るために、一旦、誤訂正をしてしまうと元
に戻す手続きが面倒になる問題をはらんでいる。本発明
は、上記従来例に鑑みてなされたもので、高精度の文字
列検索を安価に行うことができる画像検索方法とその装
置を提供することを目的とする。
【課題を解決するための手段】上記目的を達成するた
め、本発明の画像検索方法とその装置は以下の構成を備
える。即ち、検索文字列を対応する文字列イメージに展
開する展開工程と、前記展開工程で展開された文字列イ
メージに所定のフィルタリングを行うフィルタリング工
程と、前記フィルタリング工程でフィルタリングされた
文字列イメージを独立部分にセグメンテーションし、セ
グメンテーションされた各部分の文字認識を行い、認識
文字列候補を獲得する認識工程と、前記認識工程で獲得
された認識文字列候補の違いに基づいて、組み合わせ可
能な別の認識文字列候補を生成する生成工程と、前記生
成工程で生成された前記組み合わせ可能な別の認識文字
列候補と前記認識工程で獲得された認識文字列候補の論
理和条件で所定の文字列の検索を行う文字列検索工程と
を備える。また、別の発明は、検索文字列を対応する文
字列イメージに展開する展開手段と、前記展開手段で展
開された文字列イメージに所定のフィルタリングを行う
フィルタリング手段と、前記フィルタリング手段でフィ
ルタリングされた文字列イメージを独立部分にセグメン
テーションし、セグメンテーションされた各部分の文字
認識を行い、認識文字列候補を獲得する認識手段と、前
記認識手段で獲得された認識文字列候補の違いに基づい
て、組み合わせ可能な別の認識文字列候補を生成する生
成手段と、前記生成手段で生成された前記組み合わせ可
能な別の認識文字列候補と前記認識手段で獲得された認
識文字列候補の論理和条件で所定の文字列の検索を行う
文字列検索手段とを備える。また、別の発明は、コンピ
ュータプログラム製品であって、コンピュータ読み取り
可能なプログラムコード手段を有するコンピュータ使用
可能な媒体を備え、前記コンピュータプログラム製品
は、検索文字列を対応する文字列イメージに展開する、
コンピュータ読み取り可能な第1プログラムコード手段
と、前記第1プログラムコード手段で展開された文字列
イメージに所定のフィルタリングを行う、コンピュータ
読み取り可能な第2プログラムコード手段と、前記第2
プログラムコード手段でフィルタリングされた文字列イ
メージを独立部分にセグメンテーションし、セグメンテ
ーションされた各部分の文字認識を行い、認識文字列候
補を獲得する、コンピュータ読み取り可能な第3プログ
ラムコード手段と、前記第3プログラムコード手段で獲
得された認識文字列候補の違いに基づいて、組み合わせ
可能な別の認識文字列候補を生成する、コンピュータ読
み取り可能な第4プログラムコード手段と、第4プログ
ラムコード手段で生成された前記組み合わせ可能な別の
認識文字列候補と第3プログラムコード手段で獲得され
た認識文字列候補の論理和条件で所定の文字列の検索を
行う第5プログラムコード手段とを備える。
【発明の実施の形態】以下、本発明の実施の形態の文字
認識/文字列検索処理構成の詳細な説明を図1を参照し
て行う。図1を参照して、本発明の実施の形態の文字認
識/文字列検索処理構成は、情報処理装置8、外部記憶
装置4、キーボード/マウス5、表示装置6、イメージ
スキャナ1を備える。情報処理装置8は、CPU7がそ
の全体の制御を行う。CPU7は、外部記憶装置4に格
納された各種処理ソフトウエアを予めRAMにロードし
ておき、それを順次読み出し、解釈し、実行する。この
各種処理ソフトウエアには、OCR処理ソフトウェア
2、文書検索ソフトウェア3を含む。イメージスキャナ
1は、文書9をスキャンしてイメージ情報を獲得し、情
報処理装置8に転送する。表示装置1は、情報処理装置
8で処理された各種の結果や、キーボード/マウス5か
ら入力されたコマンド/データを表示する。キーボード
/マウス5は、各種コマンドや、検索語・検索条件など
のデータを入力する。外部記憶装置4は、RAMにロー
ドされてCPU7によって実行されるOCR処理ソフト
ウエアと文書検索ソフトウエアの各プログラム(1
0)、その文字認識/文書検索処理のための認識辞書1
5を格納している。また、外部記憶装置4は、イメージ
スキャナ1から取り込まれた入力イメージデータ(1
1)、OCRソフトウエア2による認識結果のテキスト
情報(13)、また、文書検索ソフトウエア3の実行に
よる検索用ファイル(14)を格納する。この検索用フ
ァイル(14)は、テキスト情報に基づいて作成され
る。また、外部記憶装置4には、キーボード5から入力
する検索指示文字列の各文字に対応する基準イメージパ
タンである辞書イメージデータ(12)を格納してい
る。図2Aは、本実施の形態の情報処理装置8での文書
検索のためのインデックス情報作成のための処理手順を
示すフローチャートである。また、図2Bは、作成され
たインデックス情報を用いて文字検索を行う文字検索処
理手順を示すフローチャートである。まず、図2Aを参
照して、文書検索のためのインデックス情報作成のため
の処理手順を説明する。ステップS11では、検索対象
画像をイメージスキャナ1から入力し、外部記憶装置4
に格納された後、情報処理装置8のRAMにロードす
る。ステップS12では、RAMにロードされた検索対
象画像について、文字認識を行う。そして、最も確から
しい認識文字列を得る。ステップS13では、ステップ
S11で入力した入力画像とこれに含まれるステップS
12で認識された文字列と、その入力画像とその認識さ
れた文字列の関係を記述した目次データを検索用ファイ
ル(図1、14)に格納する。この目次データは例え
ば、「画像」という文字列がどの登録文書画像群にはい
っていたかを検索するためのデータであり、これを用い
ることである文字列を含む文書画像を高速に知ることが
できる。以上で、登録時の処理の説明を終了する。次
に、図2Bを参照して、作成されたインデックス情報を
用いて文字検索を行う文字検索処理を説明する。ステッ
プ1からステップS4までの処理は、入力した検索文字
列に基づいて、ステップ5での文字列検索処理のための
検索論理和条件を求めるための処理手順を示す。そし
て、ステップS5とステップS6では、求められた検索
論理和条件に基づいて、入力検索文字列に最も近い文字
列を確定し、図2Aのフローチャートで生成したインデ
ックス情報を検索して、対応する文書画像を表示する。
尚、OCR処理ソフトウエア2は、ステップ1からステ
ップS4と、ステップ11からステップ12の処理手順
を記述している。また、文書検索ソフトウエア1は、ス
テップ5からステップS6の処理手順を記述している。
以下、図2の処理手順を各ステップ毎に説明する。ステ
ップS1では、キーボード5から、検索指示文字列を入
力する。ステップS2では、入力した検索指示文字列の
各文字に対応する基準のイメージパタンデータを辞書イ
メージデータ12から抽出して、入力した検索指示文字
列に対応する文字列イメージパターンを生成する。尚、
ここでは、各文字イメージ間隔や画像のぼかし処理のぼ
かし量などの画像処理パラメータは、所定の値を用いた
り、キーボード5から入力することで決定する。ステッ
プS3では、ステップS2で生成された文字列イメージ
を各文字に分割処理を行う。そして、分割された文字単
位に、所定の特徴の特徴量を抽出し、その特徴量に基づ
いて、認識辞書を検索し、認識候補を抽出する。尚、こ
のステップでは、入力した検索指示文字列を少なくとも
認識候補の1つとして含ませる。尚、ここで、特徴の種
類は、例えば、方向特徴や濃淡特徴などが考えられる
が、本発明は、この特徴に制限されるものではない。ス
テップS4は、ステップS3で生成された認識候補に基
づいて、考えられる各文字を組み合わせて、認識候補と
しての複数の文字列を生成する。そして、ステップS5
での検索処理のための、文字列のOR条件を生成する。
以上の処理が、OCRソフトウエア2での処理である。
次に、文書検索ソフトウエア3での処理であるステップ
S5、S6を説明する。ステップS5では、ステップS
4で生成された文字列のOR条件で、それら文字列に近
い文字列をステップS13までの処理で生成された、文
書画像とそれに含まれる文字列を含むインデックス情報
のうちの文字列からサーチする。そして、その検索結果
(文書画像、文字列など)を表示装置6に表示する。例
えば、入力した検索対象画像とその検索結果に対応する
文字列の位置にアンダーラインを引くなどで、検索され
た位置を表示する。次に、図3を参照して、ステップS
1からステップS4での検索OR条件生成処理でのポイ
ントを具体的に説明する。まず、キーボード5から、検
索指示文字列として、例えば、 "マルチ" を入力する(参照番号1000)。次に、この検索指示
文字列の各文字に対応するイメージパタンを辞書イメー
ジデータから取り込み、その文字列のイメージパタンを
生成する。ここで生成する文字列イメージパタンを生成
するための複数のパラメータが用意されており、それら
を、辞書イメージデータから取り込んだイメージパタン
に作用させて、文字列イメージパタンを生成する。その
パラメータには、各文字イメージ間隔や画像のぼかし処
理のぼかし量などの画像処理パラメータを含む。これら
のパラメータには、外部記憶装置4に予め格納された所
定の値を用いたり、キーボード5から入力することで決
定する。次に、ステップS3で、RAMに格納された文
書イメージの一連の文字認識処理(1002)を開始す
る。そして、“ル”の位置に関して、文字領域の切り出
し、続いて、切り出された領域での文字認識をおこなっ
たところ、 “ノ”、“レ” の2文字として、認識されたとする。“ル”の様な文字
に関しては、文字の切り出しエラーが起き易く、例え
ば、“ル”を“ノ”“レ”に誤認識し易い。この認識処
理で、第1の認識候補: マノレチ また、第2の認識候補: アノLチ の認識候補(1003)が得られたとする。次に、ステ
ップS4では、得られた第1と第2の認識文字を比較し
て、異なっている文字部分を検出し、その文字部分を入
れ替えることにより、別の認識候補文字列を生成する。
上述の例では、第1と第3文字の2文字が異なっている
ため、可能な文字列の組み合わせは4通りとなり、上述
の2つの候補プラス2つの文字列の組み合わせが可能で
ある。即ち、 a.マノレチ b.アノLチ c.アノレチ d.アノLチ である。これら4通りの文字列(1004)は、期待の
文字列が「マルチ」であったので、いずれも誤認識文字
列候補となる。しかし、文字認識の過程では、これらの
認識候補が選択されることはさけられなく、正しい認識
は難しくなる。そこで、本発明の実施の形態では、逆の
発想で、文字認識の過程で選択される可能性のある誤認
識候補文字列も、期待認識候補である「マルチ」に対す
る認識候補として認め、これら誤認識候補文字列と期待
認識候補の論理和条件を取る(1005)ことによっ
て、総合的な認識を行う方法を提供する。従って、通常
の全文検索では、「マルチ」のような他の文字分離の可
能性がある検索指定文字列に対しては、文書画像の検索
で誤検索を起こしやすかったが、上述の誤認識候補文字
列を含む総合的な認識を行うことにより、「マルチ」の
文字列を認識結果として選択できる。ステップS4まで
の処理で、入力文字列に対応する検索OR条件が生成さ
れた。この検索OR条件を満足する文字列をステップS
13までの処理で生成された、文書画像とそれに含まれ
る文字列を含むインデックス情報のうちの文字列からサ
ーチし、その検索結果(文書画像、文字列など)を表示
装置6に表示することができる。次に、図4を参照し
て、ステップS2の詳細な処理手順を説明する。ステッ
プS20では、入力した検索指示文字列に対応する文字
列イメージパターンを生成するための1つのパラメータ
として、曖昧度を設定する。この曖昧度は、外部記憶装
置に予め格納されている曖昧度のディフォルト値でもよ
いし、また、キーボード5から入力してもよい。ここ
で、この曖昧度は、検索対象の文書画像の解像度が悪か
ったり、ノイズをおおく含んでいる場合に予想される文
字認識処理の精度の低下を助けるために導入する。即
ち、検索対象の文書画像の質が悪い時は、曖昧度が高い
とし、質がよい場合は、曖昧度が低いとする。ユーザ
は、検索対象の文書画像の質をおおよそ判断して、対応
する曖昧度を設定する。設定された曖昧度に応じて、入
力した検索指示文字列の各文字に対応する文字イメージ
パターン(フォント)のサイズや文字ピッチサイズを設
定する。この設定は、曖昧度が大きくなれば、文字フォ
ントを小さくし、また、文字ピッチを狭める。また、曖
昧度が小さくなれば、文字フォントを大きくし、文字ピ
ッチを広くする。次に、ステップS21では、入力した
検索指示文字列の各文字に対応する基準のイメージパタ
ンデータを辞書イメージデータ12から抽出して、ステ
ップS20で設定された文字フォントサイズと文字ピッ
チに対応する文字列パターンを生成する。この場合、基
準のイメージパタンデータ(フォント)は、認識が不得
意な文字フォントを用いる。ステップS22では、ステ
ップS21で生成した文字列イメージパターンに対し
て、曖昧度に対応するノイズを重畳する。即ち、曖昧度
が大きければ、強いノイズとし、逆に、曖昧度が小さけ
れば、弱いノイズとする。このノイズの強度は、例え
ば、強いノイズとしては、多くのノイズドットを用い
て、文字列イメージパターンに対してランダムに重畳す
る。逆に、弱いノイズとしては、少ないノイズドットを
用いて、文字列イメージパターンに対してランダムに重
畳することで、文字列イメージパターンに対するノイズ
のレベルを調整可能である。ステップS23では、ステ
ップS22で処理された文字列イメージパターンに対し
て、ぼかし処理を施す。このぼかし量も、ステップS2
2と同様、曖昧度が大きいときは、ぼかし量を大きく、
逆に、曖昧度が小さい時は、ぼかし量を小さくすればよ
い。以上の手順で、ステップS2での、入力した検索指
示文字列の各文字に対応する文字列イメージパターンを
生成する処理が実現可能となる。以上説明したように、
本発明の実施の形態では、検索文字列、例えば、「マル
チメ」をOCRが誤認識を起こし易い状態になるように
ビットマップ展開し、これをOCRすることにより、
「マノレチ」という文字列が誤認識傾向文字列群の中の
一つに得られ、検索指定文字列とこれらの誤認識傾向文
字列群をORの関係で、入力文書画像を検索することに
より、検索性能を上げることができる。尚、本発明の実
施の形態では、先に示した文書画像検索以外にも、デー
タベースを用いた検索にも応用できる。更に、OMRや
バーコードによる光学読み取り装置の一部情報の認識尤
度が低い場合への応用も同様の手法で行なえる。本発明
に係る実施の形態では、OCR固有の癖を、検索指定文
字列をビットマップ展開しこれをOCRすることによっ
て得たが、誤認識を行ない易い文字、文字列の正解−誤
認識テーブルを用いて、OCR固有の癖を誤認識傾向文
字列に反映させてもよいことは言うまでもない。なお、
本発明は、複数の機器(例えばホストコンピュータ,イ
ンタフェイス機器,リーダ,プリンタなど)から構成さ
れるシステムに適用しても、一つの機器からなる装置
(例えば、複写機,ファクシミリ装置など)に適用して
もよい。また、本発明の目的は、前述した実施形態の機
能を実現するソフトウェアのプログラムコードを記録し
た記憶媒体を、システムあるいは装置に供給し、そのシ
ステムあるいは装置のコンピュータ(または、CPUや
MPU)が記憶媒体に格納されたプログラムコードを読
出し実行することによっても、達成されることは言うま
でもない。この場合、記憶媒体から読出されたプログラ
ムコード自体が前述した実施形態の機能を実現すること
になり、そのプログラムコードを記憶した記憶媒体は本
発明を構成することになる。プログラムコードを供給す
るための記憶媒体としては、例えば、フロッピディス
ク,ハードディスク,光ディスク,光磁気ディスク,C
D−ROM,CD−R,磁気テープ,不揮発性のメモリ
カード,ROMなどを用いることができる。また、コン
ピュータが読出したプログラムコードを実行することに
より、前述した実施形態の機能が実現されるだけでな
く、そのプログラムコードの指示に基づき、コンピュー
タ上で稼働しているOS(オペレーティングシステム)
などが実際の処理の一部または全部を行い、その処理に
よって前述した実施形態の機能が実現される場合も含ま
れることは言うまでもない。さらに、記憶媒体から読出
されたプログラムコードが、コンピュータに挿入された
機能拡張ボードやコンピュータに接続された機能拡張ユ
ニットに備わるメモリに書込まれた後、そのプログラム
コードの指示に基づき、その機能拡張ボードや機能拡張
ユニットに備わるCPUなどが実際の処理の一部または
全部を行い、その処理によって前述した実施形態の機能
が実現される場合も含まれることは言うまでもない。本
発明を上記記憶媒体に適用する場合、その記憶媒体に
は、先に説明したフローチャートに対応するプログラム
コードを格納することになるが、簡単に説明すると、図
5のメモリマップ例に示す各モジュールを記憶媒体に格
納することになる。すなわち、少なくとも、検索文字列
を入力する「検索文字列入力モジュール」、入力した検
索文字列に基づいて、検索OR条件を生成する「検索O
R条件生成モジュール」、検索対象文書画像を入力する
「検索対象画像入力モジュール」、検索文字列に基づい
て生成された文字列イメージパタンと入力した検索対象
文書画像の文字認識を行う「文字認識モジュール」、生
成された検索OR条件を満足する文字列を検索対象文書
画像の文字列から獲得する「文字列検索モジュール」、
検索結果を表示する「表示モジュール」の各モジュール
のプログラムコードを記憶媒体に格納すればよい。以上
説明したように、本発明の実施の形態によれば、OCR
の誤認識が系統的な場合に、検索指定文字列の文字並び
に即した誤認識の傾向を表す文字列群を得て、これを、
本来の検索指定文字列とORの関係にして検索すること
により、OCRの認識率が低い場合にでも、検索漏れの
少ない文書画像検索が行なえる。また、前もって誤認識
を行ない易い文字、文字列の正解−誤認識テーブルを作
成する必要が無く、また、検索指定文字列の文字の並び
に即した誤認識傾向が得られるため、個々の文字に対し
て、正解−誤認識テーブルを適応する場合よりも精度の
高い誤認識傾向が得られる。本実施の形態は、検索指定
語に関する技術拡張であるため、従来から存在するOC
Rを用いた文書画像検索システムに対して、検索条件入
力段の前に本発明に係る実施の形態を適応するだけで、
OCRの誤認識に強い検索が可能となる。これらのメリ
ットにより、人手によるOCR誤認識訂正作業をなく
し、文書画像入力からOCRを経てイメージデータ・テ
キストデータ蓄積まで無人で行なえるシステムを構築で
き、且つ、コンピュータに対し負荷を掛けず、処理速度
の低下の心配が無く、比較的安価なシステムを実現でき
る。 [第2の実施の形態]上述の検索OR条件に基づいて全体
として確からしい文字列を検索する一例を示したが、こ
れに限定されることはなく、検索OR条件のいづれか1
つを満足する文字列を検索して、その文字列が含まれる
文書画像を検索結果としてもよい。
【発明の効果】以上説明したように本発明によれば、高
精度の文字列検索を高速、かつ、安価に行うことができ
る。
【図面の簡単な説明】
【図1】本発明の実施の形態のハードウエア構成図であ
る。
【図2A】本発明の実施の形態の文書画像とそれに含ま
れる文字列情報を獲得する処理手順を示すフローチャー
トである。
【図2B】本発明の実施の形態の文字列検索処理手順を
示すフローチャートである。
【図3】本発明の実施の形態の検索OR条件生成工程を
説明するための図である。
【図4】ステップS2の詳細な処理手順を示したフロー
チャートである。
【図5】コンピュータ読み取り可能な所定の記録媒体に
格納された各プログラムモジュールのレイアウトを示す
図である。
【符号の説明】
1 イメージスキャナ 2 RAM(OCR処理ソフトウェア) 3 RAM(文書検索ソフトウェア) 4 外部記憶装置 5 キーボード 6 表示装置 7 CPU
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成8年9月9日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】発明の詳細な説明
【補正方法】変更
【補正内容】
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像検索方法とそ
の装置、特に、所定の文字列を対象画像から検索する画
像検索方法とその装置に関する。
【0002】
【従来の技術】従来、OCRを行なう場合には、誤認識
対策のため、認識率がある程度低い認識候補までを明示
して、人がそれを手入力で選択、あるいは、訂正してい
た。
【0003】
【発明が解決しようとする課題】しかしながら、この手
作業が必要であるが故に、文字の全自動認識処理化を難
しいものとしていた。これを解決すべく、この作業を機
械的に行なう研究も行われており、単語辞書や知識ベー
スを用いた誤認識訂正の例があるが、これを実現するに
は高い計算能力を有するコンピュータを用いなければ、
実用化に耐えない等の多くの障壁がある。
【0004】また、認識候補を1つに絞るために、一
旦、誤訂正をしてしまうと元に戻す手続きが面倒になる
問題をはらんでいる。本発明は、上記従来例に鑑みてな
されたもので、高精度の文字列検索を安価に行うことが
できる画像検索方法とその装置を提供することを目的と
する。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明の画像検索方法とその装置は以下の構成を備
える。即ち、検索文字列を対応する文字列イメージに展
開する展開工程と、前記展開工程で展開された文字列イ
メージに所定のフィルタリングを行うフィルタリング工
程と、前記フィルタリング工程でフィルタリングされた
文字列イメージを独立部分にセグメンテーションし、セ
グメンテーションされた各部分の文字認識を行い、認識
文字列候補を獲得する認識工程と、前記認識工程で獲得
された認識文字列候補の違いに基づいて、組み合わせ可
能な別の認識文字列候補を生成する生成工程と、前記生
成工程で生成された前記組み合わせ可能な別の認識文字
列候補と前記認識工程で獲得された認識文字列候補の論
理和条件で所定の文字列の検索を行う文字列検索工程と
を備える。
【0006】また、別の発明は、検索文字列を対応する
文字列イメージに展開する展開手段と、前記展開手段で
展開された文字列イメージに所定のフィルタリングを行
うフィルタリング手段と、前記フィルタリング手段でフ
ィルタリングされた文字列イメージを独立部分にセグメ
ンテーションし、セグメンテーションされた各部分の文
字認識を行い、認識文字列候補を獲得する認識手段と、
前記認識手段で獲得された認識文字列候補の違いに基づ
いて、組み合わせ可能な別の認識文字列候補を生成する
生成手段と、前記生成手段で生成された前記組み合わせ
可能な別の認識文字列候補と前記認識手段で獲得された
認識文字列候補の論理和条件で所定の文字列の検索を行
う文字列検索手段とを備える。
【0007】また、別の発明は、コンピュータプログラ
ム製品であって、コンピュータ読み取り可能なプログラ
ムコード手段を有するコンピュータ使用可能な媒体を備
え、前記コンピュータプログラム製品は、検索文字列を
対応する文字列イメージに展開する、コンピュータ読み
取り可能な第1プログラムコード手段と、前記第1プロ
グラムコード手段で展開された文字列イメージに所定の
フィルタリングを行う、コンピュータ読み取り可能な第
2プログラムコード手段と、前記第2プログラムコード
手段でフィルタリングされた文字列イメージを独立部分
にセグメンテーションし、セグメンテーションされた各
部分の文字認識を行い、認識文字列候補を獲得する、コ
ンピュータ読み取り可能な第3プログラムコード手段
と、前記第3プログラムコード手段で獲得された認識文
字列候補の違いに基づいて、組み合わせ可能な別の認識
文字列候補を生成する、コンピュータ読み取り可能な第
4プログラムコード手段と、第4プログラムコード手段
で生成された前記組み合わせ可能な別の認識文字列候補
と第3プログラムコード手段で獲得された認識文字列候
補の論理和条件で所定の文字列の検索を行う第5プログ
ラムコード手段とを備える。
【0008】
【発明の実施の形態】以下、本発明の実施の形態の文字
認識/文字列検索処理構成の詳細な説明を図1を参照し
て行う。図1を参照して、本発明の実施の形態の文字認
識/文字列検索処理構成は、情報処理装置8、外部記憶
装置4、キーボード/マウス5、表示装置6、イメージ
スキャナ1を備える。
【0009】情報処理装置8は、CPU7がその全体の
制御を行う。CPU7は、外部記憶装置4に格納された
各種処理ソフトウエアを予めRAMにロードしておき、
それを順次読み出し、解釈し、実行する。この各種処理
ソフトウエアには、OCR処理ソフトウェア2、文書検
索ソフトウェア3を含む。イメージスキャナ1は、文書
9をスキャンしてイメージ情報を獲得し、情報処理装置
8に転送する。
【0010】表示装置1は、情報処理装置8で処理され
た各種の結果や、キーボード/マウス5から入力された
コマンド/データを表示する。キーボード/マウス5
は、各種コマンドや、検索語・検索条件などのデータを
入力する。外部記憶装置4は、RAMにロードされてC
PU7によって実行されるOCR処理ソフトウエアと文
書検索ソフトウエアの各プログラム(10)、その文字
認識/文書検索処理のための認識辞書15を格納してい
る。
【0011】また、外部記憶装置4は、イメージスキャ
ナ1から取り込まれた入力イメージデータ(11)、O
CRソフトウエア2による認識結果のテキスト情報(1
3)、また、文書検索ソフトウエア3の実行による検索
用ファイル(14)を格納する。この検索用ファイル
(14)は、テキスト情報に基づいて作成される。ま
た、外部記憶装置4には、キーボード5から入力する検
索指示文字列の各文字に対応する基準イメージパタンで
ある辞書イメージデータ(12)を格納している。
【0012】図2Aは、本実施の形態の情報処理装置8
での文書検索のためのインデックス情報作成のための処
理手順を示すフローチャートである。また、図2Bは、
作成されたインデックス情報を用いて文字検索を行う文
字検索処理手順を示すフローチャートである。まず、図
2Aを参照して、文書検索のためのインデックス情報作
成のための処理手順を説明する。
【0013】ステップS11では、検索対象画像をイメ
ージスキャナ1から入力し、外部記憶装置4に格納され
た後、情報処理装置8のRAMにロードする。ステップ
S12では、RAMにロードされた検索対象画像につい
て、文字認識を行う。そして、最も確からしい認識文字
列を得る。ステップS13では、ステップS11で入力
した入力画像とこれに含まれるステップS12で認識さ
れた文字列と、その入力画像とその認識された文字列の
関係を記述した目次データを検索用ファイル(図1、1
4)に格納する。この目次データは例えば、「画像」と
いう文字列がどの登録文書画像群にはいっていたかを検
索するためのデータであり、これを用いることである文
字列を含む文書画像を高速に知ることができる。
【0014】以上で、登録時の処理の説明を終了する。
次に、図2Bを参照して、作成されたインデックス情報
を用いて文字検索を行う文字検索処理を説明する。ステ
ップ1からステップS4までの処理は、入力した検索文
字列に基づいて、ステップ5での文字列検索処理のため
の検索論理和条件を求めるための処理手順を示す。そし
て、ステップS5とステップS6では、求められた検索
論理和条件に基づいて、入力検索文字列に最も近い文字
列を確定し、図2Aのフローチャートで生成したインデ
ックス情報を検索して、対応する文書画像を表示する。
【0015】尚、OCR処理ソフトウエア2は、ステッ
プ1からステップS4と、ステップ11からステップ1
2の処理手順を記述している。また、文書検索ソフトウ
エア1は、ステップ5からステップS6の処理手順を記
述している。以下、図2の処理手順を各ステップ毎に説
明する。ステップS1では、キーボード5から、検索指
示文字列を入力する。
【0016】ステップS2では、入力した検索指示文字
列の各文字に対応する基準のイメージパタンデータを辞
書イメージデータ12から抽出して、入力した検索指示
文字列に対応する文字列イメージパターンを生成する。
尚、ここでは、各文字イメージ間隔や画像のぼかし処理
のぼかし量などの画像処理パラメータは、所定の値を用
いたり、キーボード5から入力することで決定する。
【0017】ステップS3では、ステップS2で生成さ
れた文字列イメージを各文字に分割処理を行う。そし
て、分割された文字単位に、所定の特徴の特徴量を抽出
し、その特徴量に基づいて、認識辞書を検索し、認識候
補を抽出する。尚、このステップでは、入力した検索指
示文字列を少なくとも認識候補の1つとして含ませる。
尚、ここで、特徴の種類は、例えば、方向特徴や濃淡特
徴などが考えられるが、本発明は、この特徴に制限され
るものではない。
【0018】ステップS4は、ステップS3で生成され
た認識候補に基づいて、考えられる各文字を組み合わせ
て、認識候補としての複数の文字列を生成する。そし
て、ステップS5での検索処理のための、文字列のOR
条件を生成する。以上の処理が、OCRソフトウエア2
での処理である。次に、文書検索ソフトウエア3での処
理であるステップS5、S6を説明する。
【0019】ステップS5では、ステップS4で生成さ
れた文字列のOR条件で、それら文字列に近い文字列を
ステップS13までの処理で生成された、文書画像とそ
れに含まれる文字列を含むインデックス情報のうちの文
字列からサーチする。そして、その検索結果(文書画
像、文字列など)を表示装置6に表示する。例えば、入
力した検索対象画像とその検索結果に対応する文字列の
位置にアンダーラインを引くなどで、検索された位置を
表示する。
【0020】次に、図3を参照して、ステップS1から
ステップS4での検索OR条件生成処理でのポイントを
具体的に説明する。まず、キーボード5から、検索指示
文字列として、例えば、 "マルチ" を入力する(参照番号1000)。
【0021】次に、この検索指示文字列の各文字に対応
するイメージパタンを辞書イメージデータから取り込
み、その文字列のイメージパタンを生成する。ここで生
成する文字列イメージパタンを生成するための複数のパ
ラメータが用意されており、それらを、辞書イメージデ
ータから取り込んだイメージパタンに作用させて、文字
列イメージパタンを生成する。そのパラメータには、各
文字イメージ間隔や画像のぼかし処理のぼかし量などの
画像処理パラメータを含む。これらのパラメータには、
外部記憶装置4に予め格納された所定の値を用いたり、
キーボード5から入力することで決定する。
【0022】次に、ステップS3で、RAMに格納され
た文書イメージの一連の文字認識処理(1002)を開
始する。そして、“ル”の位置に関して、文字領域の切
り出し、続いて、切り出された領域での文字認識をおこ
なったところ、 “ノ”、“レ” の2文字として、認識されたとする。“ル”の様な文字
に関しては、文字の切り出しエラーが起き易く、例え
ば、“ル”を“ノ”“レ”に誤認識し易い。
【0023】この認識処理で、第1の認識候補: マノレチ また、第2の認識候補: アノLチ の認識候補(1003)が得られたとする。
【0024】次に、ステップS4では、得られた第1と
第2の認識文字を比較して、異なっている文字部分を検
出し、その文字部分を入れ替えることにより、別の認識
候補文字列を生成する。上述の例では、第1と第3文字
の2文字が異なっているため、可能な文字列の組み合わ
せは4通りとなり、上述の2つの候補プラス2つの文字
列の組み合わせが可能である。即ち、 a.マノレチ b.アノLチ c.アノレチ d.アノLチ である。
【0025】これら4通りの文字列(1004)は、期
待の文字列が「マルチ」であったので、いずれも誤認識
文字列候補となる。しかし、文字認識の過程では、これ
らの認識候補が選択されることはさけられなく、正しい
認識は難しくなる。そこで、本発明の実施の形態では、
逆の発想で、文字認識の過程で選択される可能性のある
誤認識候補文字列も、期待認識候補である「マルチ」に
対する認識候補として認め、これら誤認識候補文字列と
期待認識候補の論理和条件を取る(1005)ことによ
って、総合的な認識を行う方法を提供する。
【0026】従って、通常の全文検索では、「マルチ」
のような他の文字分離の可能性がある検索指定文字列に
対しては、文書画像の検索で誤検索を起こしやすかった
が、上述の誤認識候補文字列を含む総合的な認識を行う
ことにより、「マルチ」の文字列を認識結果として選択
できる。ステップS4までの処理で、入力文字列に対応
する検索OR条件が生成された。
【0027】この検索OR条件を満足する文字列をステ
ップS13までの処理で生成された、文書画像とそれに
含まれる文字列を含むインデックス情報のうちの文字列
からサーチし、その検索結果(文書画像、文字列など)
を表示装置6に表示することができる。次に、図4を参
照して、ステップS2の詳細な処理手順を説明する。
【0028】ステップS20では、入力した検索指示文
字列に対応する文字列イメージパターンを生成するため
の1つのパラメータとして、曖昧度を設定する。この曖
昧度は、外部記憶装置に予め格納されている曖昧度のデ
ィフォルト値でもよいし、また、キーボード5から入力
してもよい。ここで、この曖昧度は、検索対象の文書画
像の解像度が悪かったり、ノイズをおおく含んでいる場
合に予想される文字認識処理の精度の低下を助けるため
に導入する。即ち、検索対象の文書画像の質が悪い時
は、曖昧度が高いとし、質がよい場合は、曖昧度が低い
とする。
【0029】ユーザは、検索対象の文書画像の質をおお
よそ判断して、対応する曖昧度を設定する。設定された
曖昧度に応じて、入力した検索指示文字列の各文字に対
応する文字イメージパターン(フォント)のサイズや文
字ピッチサイズを設定する。この設定は、曖昧度が大き
くなれば、文字フォントを小さくし、また、文字ピッチ
を狭める。また、曖昧度が小さくなれば、文字フォント
を大きくし、文字ピッチを広くする。
【0030】次に、ステップS21では、入力した検索
指示文字列の各文字に対応する基準のイメージパタンデ
ータを辞書イメージデータ12から抽出して、ステップ
S20で設定された文字フォントサイズと文字ピッチに
対応する文字列パターンを生成する。この場合、基準の
イメージパタンデータ(フォント)は、認識が不得意な
文字フォントを用いる。
【0031】ステップS22では、ステップS21で生
成した文字列イメージパターンに対して、曖昧度に対応
するノイズを重畳する。即ち、曖昧度が大きければ、強
いノイズとし、逆に、曖昧度が小さければ、弱いノイズ
とする。このノイズの強度は、例えば、強いノイズとし
ては、多くのノイズドットを用いて、文字列イメージパ
ターンに対してランダムに重畳する。逆に、弱いノイズ
としては、少ないノイズドットを用いて、文字列イメー
ジパターンに対してランダムに重畳することで、文字列
イメージパターンに対するノイズのレベルを調整可能で
ある。
【0032】ステップS23では、ステップS22で処
理された文字列イメージパターンに対して、ぼかし処理
を施す。このぼかし量も、ステップS22と同様、曖昧
度が大きいときは、ぼかし量を大きく、逆に、曖昧度が
小さい時は、ぼかし量を小さくすればよい。以上の手順
で、ステップS2での、入力した検索指示文字列の各文
字に対応する文字列イメージパターンを生成する処理が
実現可能となる。
【0033】以上説明したように、本発明の実施の形態
では、検索文字列、例えば、「マルチメ」をOCRが誤
認識を起こし易い状態になるようにビットマップ展開
し、これをOCRすることにより、「マノレチ」という
文字列が誤認識傾向文字列群の中の一つに得られ、検索
指定文字列とこれらの誤認識傾向文字列群をORの関係
で、入力文書画像を検索することにより、検索性能を上
げることができる。
【0034】尚、本発明の実施の形態では、先に示した
文書画像検索以外にも、データベースを用いた検索にも
応用できる。更に、OMRやバーコードによる光学読み
取り装置の一部情報の認識尤度が低い場合への応用も同
様の手法で行なえる。本発明に係る実施の形態では、O
CR固有の癖を、検索指定文字列をビットマップ展開し
これをOCRすることによって得たが、誤認識を行ない
易い文字、文字列の正解−誤認識テーブルを用いて、O
CR固有の癖を誤認識傾向文字列に反映させてもよいこ
とは言うまでもない。
【0035】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。また、本発明の目的は、前述
した実施形態の機能を実現するソフトウェアのプログラ
ムコードを記録した記憶媒体を、システムあるいは装置
に供給し、そのシステムあるいは装置のコンピュータ
(または、CPUやMPU)が記憶媒体に格納されたプ
ログラムコードを読出し実行することによっても、達成
されることは言うまでもない。
【0036】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。プログラムコードを供給
するための記憶媒体としては、例えば、フロッピディス
ク,ハードディスク,光ディスク,光磁気ディスク,C
D−ROM,CD−R,磁気テープ,不揮発性のメモリ
カード,ROMなどを用いることができる。
【0037】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0038】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0039】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図5のメモリマップ例に示す各モジュールを
記憶媒体に格納することになる。すなわち、少なくと
も、検索文字列を入力する「検索文字列入力モジュー
ル」、入力した検索文字列に基づいて、検索OR条件を
生成する「検索OR条件生成モジュール」、検索対象文
書画像を入力する「検索対象画像入力モジュール」、検
索文字列に基づいて生成された文字列イメージパタンと
入力した検索対象文書画像の文字認識を行う「文字認識
モジュール」、生成された検索OR条件を満足する文字
列を検索対象文書画像の文字列から獲得する「文字列検
索モジュール」、検索結果を表示する「表示モジュー
ル」の各モジュールのプログラムコードを記憶媒体に格
納すればよい。
【0040】以上説明したように、本発明の実施の形態
によれば、OCRの誤認識が系統的な場合に、検索指定
文字列の文字並びに即した誤認識の傾向を表す文字列群
を得て、これを、本来の検索指定文字列とORの関係に
して検索することにより、OCRの認識率が低い場合に
でも、検索漏れの少ない文書画像検索が行なえる。ま
た、前もって誤認識を行ない易い文字、文字列の正解−
誤認識テーブルを作成する必要が無く、また、検索指定
文字列の文字の並びに即した誤認識傾向が得られるた
め、個々の文字に対して、正解−誤認識テーブルを適応
する場合よりも精度の高い誤認識傾向が得られる。
【0041】本実施の形態は、検索指定語に関する技術
拡張であるため、従来から存在するOCRを用いた文書
画像検索システムに対して、検索条件入力段の前に本発
明に係る実施の形態を適応するだけで、OCRの誤認識
に強い検索が可能となる。これらのメリットにより、人
手によるOCR誤認識訂正作業をなくし、文書画像入力
からOCRを経てイメージデータ・テキストデータ蓄積
まで無人で行なえるシステムを構築でき、且つ、コンピ
ュータに対し負荷を掛けず、処理速度の低下の心配が無
く、比較的安価なシステムを実現できる。 [第2の実施の形態]上述の検索OR条件に基づいて全体
として確からしい文字列を検索する一例を示したが、こ
れに限定されることはなく、検索OR条件のいづれか1
つを満足する文字列を検索して、その文字列が含まれる
文書画像を検索結果としてもよい。
【0042】
【発明の効果】以上説明したように本発明によれば、高
精度の文字列検索を高速、かつ、安価に行うことができ
る。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 検索文字列を対応する文字列イメージに
    展開する展開工程と、 前記展開工程で展開された文字列イメージに所定のフィ
    ルタリングを行うフィルタリング工程と、 前記フィルタリング工程でフィルタリングされた文字列
    イメージを独立部分にセグメンテーションし、セグメン
    テーションされた各部分の文字認識を行い、認識文字列
    候補を獲得する認識工程と、 前記認識工程で獲得された認識文字列候補の違いに基づ
    いて、組み合わせ可能な別の認識文字列候補を生成する
    生成工程と、 前記生成工程で生成された前記組み合わせ可能な別の認
    識文字列候補と前記認識工程で獲得された認識文字列候
    補の論理和条件で所定の文字列の検索を行う文字列検索
    工程とを備えることを特徴とする画像検索方法。
  2. 【請求項2】 前記検索文字列に対応する文字列イメー
    ジは、認識率が比較的悪い文字列イメージであることを
    特徴とする請求項1に記載の画像検索方法。
  3. 【請求項3】 前記所定の文字列は、検索対象画像に含
    まれるものであり、前記所定のフィルタリングの種類
    は、前記検索対象画像の曖昧度に基づいて決定されるこ
    とを特徴とする請求項1に記載の画像検索方法。
  4. 【請求項4】 前記検索対象画像の曖昧度は、前記検索
    対象画像の画質が悪ければ曖昧度が高く、画質が良けれ
    ば曖昧度が低いことを特徴とする請求項3に記載の画像
    検索方法。
  5. 【請求項5】 前記展開工程は、前記曖昧度に基づく前
    記検索文字列に対応する文字列イメージの文字ピッチと
    文字サイズの文字列イメージに展開することを特徴とす
    る請求項4に記載の画像検索方法。
  6. 【請求項6】 前記展開工程は、前記曖昧度が大きけれ
    ば、前記検索文字列に対応する文字列イメージの文字ピ
    ッチが狭く、文字サイズが小さい文字列イメージに展開
    することを特徴とする請求項5に記載の画像検索方法。
  7. 【請求項7】 前記所定のフィルタリングの種類は、前
    記検索対象画像の曖昧度が大きければ、強いノイズを重
    畳するフィルタが用いられることを特徴とする請求項1
    に記載の画像検索方法。
  8. 【請求項8】 前記所定のフィルタリングの種類は、前
    記検索対象画像の曖昧度が大きければ、ぼけを強くする
    フィルタが用いられることを特徴とする請求項1に記載
    の画像検索方法。
  9. 【請求項9】 検索文字列を対応する文字列イメージに
    展開する展開手段と、 前記展開手段で展開された文字列イメージに所定のフィ
    ルタリングを行うフィルタリング手段と、 前記フィルタリング手段でフィルタリングされた文字列
    イメージを独立部分にセグメンテーションし、セグメン
    テーションされた各部分の文字認識を行い、認識文字列
    候補を獲得する認識手段と、 前記認識手段で獲得された認識文字列候補の違いに基づ
    いて、組み合わせ可能な別の認識文字列候補を生成する
    生成手段と、 前記生成手段で生成された前記組み合わせ可能な別の認
    識文字列候補と前記認識手段で獲得された認識文字列候
    補の論理和条件で所定の文字列の検索を行う文字列検索
    手段とを備えることを特徴とする画像検索装置。
  10. 【請求項10】 前記検索文字列に対応する文字列イメ
    ージは、認識率が比較的悪い文字列イメージであること
    を特徴とする請求項9に記載の画像検索装置。
  11. 【請求項11】 前記所定の文字列は、検索対象画像に
    含まれるものであり、前記所定のフィルタリングの種類
    は、前記検索対象画像の曖昧度に基づいて決定されるこ
    とを特徴とする請求項9に記載の画像検索装置。
  12. 【請求項12】 前記検索対象画像の曖昧度は、前記検
    索対象画像の画質が悪ければ曖昧度が高く、画質が良け
    れば曖昧度が低いことを特徴とする請求項11に記載の
    画像検索装置。
  13. 【請求項13】 前記展開手段は、前記曖昧度に基づく
    前記検索文字列に対応する文字列イメージの文字ピッチ
    と文字サイズの文字列イメージに展開することを特徴と
    する請求項12に記載の画像検索装置。
  14. 【請求項14】 前記展開手段は、前記曖昧度が大きけ
    れば、前記検索文字列に対応する文字列イメージの文字
    ピッチが狭く、文字サイズが小さい文字列イメージに展
    開することを特徴とする請求項13に記載の画像検索装
    置。
  15. 【請求項15】 前記所定のフィルタリングの種類は、
    前記検索対象画像の曖昧度が大きければ、強いノイズを
    重畳するフィルタが用いられることを特徴とする請求項
    9に記載の画像検索装置。
  16. 【請求項16】 前記所定のフィルタリングの種類は、
    前記検索対象画像の曖昧度が大きければ、ぼけを強くす
    るフィルタが用いられることを特徴とする請求項9に記
    載の画像検索装置。
  17. 【請求項17】 コンピュータプログラム製品であっ
    て、コンピュータ読み取り可能なプログラムコード手段
    を有するコンピュータ使用可能な媒体を備え、前記コン
    ピュータプログラム製品は、 検索文字列を対応する文字列イメージに展開する、コン
    ピュータ読み取り可能な第1プログラムコード手段と、 前記第1プログラムコード手段で展開された文字列イメ
    ージに所定のフィルタリングを行う、コンピュータ読み
    取り可能な第2プログラムコード手段と、 前記第2プログラムコード手段でフィルタリングされた
    文字列イメージを独立部分にセグメンテーションし、セ
    グメンテーションされた各部分の文字認識を行い、認識
    文字列候補を獲得する、コンピュータ読み取り可能な第
    3プログラムコード手段と、 前記第3プログラムコード手段で獲得された認識文字列
    候補の違いに基づいて、組み合わせ可能な別の認識文字
    列候補を生成する、コンピュータ読み取り可能な第4プ
    ログラムコード手段と、 第4プログラムコード手段で生成された前記組み合わせ
    可能な別の認識文字列候補と第3プログラムコード手段
    で獲得された認識文字列候補の論理和条件で所定の文字
    列の検索を行う第5プログラムコード手段とを備えるこ
    とを特徴とするコンピュータプログラム製品。
  18. 【請求項18】 前記認識工程は、獲得した認識文字列
    候補の中に、少なくとも前記検索文字列を含むことを特
    徴とする請求項1に記載の画像検索方法。
  19. 【請求項19】 前記認識手段は、獲得した認識文字列
    候補の中に、少なくとも前記検索文字列を含むことを特
    徴とする請求項9に記載の画像検索装置。
JP8228504A 1996-08-29 1996-08-29 画像検索方法とその装置 Withdrawn JPH1069494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8228504A JPH1069494A (ja) 1996-08-29 1996-08-29 画像検索方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8228504A JPH1069494A (ja) 1996-08-29 1996-08-29 画像検索方法とその装置

Publications (1)

Publication Number Publication Date
JPH1069494A true JPH1069494A (ja) 1998-03-10

Family

ID=16877486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8228504A Withdrawn JPH1069494A (ja) 1996-08-29 1996-08-29 画像検索方法とその装置

Country Status (1)

Country Link
JP (1) JPH1069494A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293917A (ja) * 2005-04-14 2006-10-26 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
CN100351847C (zh) * 2002-11-21 2007-11-28 株式会社日立制作所 Ocr装置、文件检索***
JP2020047031A (ja) * 2018-09-20 2020-03-26 富士ゼロックス株式会社 文書検索装置、文書検索システム及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100351847C (zh) * 2002-11-21 2007-11-28 株式会社日立制作所 Ocr装置、文件检索***
JP2006293917A (ja) * 2005-04-14 2006-10-26 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
JP2020047031A (ja) * 2018-09-20 2020-03-26 富士ゼロックス株式会社 文書検索装置、文書検索システム及びプログラム

Similar Documents

Publication Publication Date Title
US6466694B2 (en) Document image processing device and method thereof
KR100292098B1 (ko) 문자 인식 장치 및 방법
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
JPH10116316A (ja) 文字認識方法及び装置
US20060045340A1 (en) Character recognition apparatus and character recognition method
US5265171A (en) Optical character reading apparatus for performing spelling check
US5905811A (en) System for indexing document images
US20120014612A1 (en) Document processing apparatus and computer readable medium
JP4982587B2 (ja) データエントリシステムおよびデータエントリ方法
JPH1069494A (ja) 画像検索方法とその装置
JP3727995B2 (ja) 文書処理方法及び装置
JP7172343B2 (ja) 文書検索用プログラム
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP3930466B2 (ja) 文字認識装置、文字認識プログラム
JP3071745B2 (ja) 文字認識結果の後処理方法
JPH113401A (ja) 情報処理装置及びその方法
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JPH05128307A (ja) 文字認識装置
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JPH0492973A (ja) イメージ情報登録検索装置
JPH04302070A (ja) 文字認識装置及び方法
JP2829186B2 (ja) 光学的文字読取装置
JP2024003769A (ja) 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
JP2005208687A (ja) 多言語文書処理装置及びプログラム
JPH06333083A (ja) 光学式文字読取装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031104