JPH0520492A - 文書認識修正装置 - Google Patents

文書認識修正装置

Info

Publication number
JPH0520492A
JPH0520492A JP3200037A JP20003791A JPH0520492A JP H0520492 A JPH0520492 A JP H0520492A JP 3200037 A JP3200037 A JP 3200037A JP 20003791 A JP20003791 A JP 20003791A JP H0520492 A JPH0520492 A JP H0520492A
Authority
JP
Japan
Prior art keywords
character
corrected
correction
operator
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3200037A
Other languages
English (en)
Inventor
Noboru Shimizu
昇 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP3200037A priority Critical patent/JPH0520492A/ja
Publication of JPH0520492A publication Critical patent/JPH0520492A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】認識結果の修正時において、操作者の修正の負
担を軽減するために、操作者が行った修正と同じ修正を
同一文字に対して自動的に行い、なおかつ、正しく認識
された文字に対して誤った自動修正は行わず、的確に誤
認識文字のみを自動修正することによって、効率的な修
正が可能となる文書認識修正装置および方法を提供する
こと。 【構成】文字認識手段100により文字画像が認識され
ると、まず第1の修正手段200により誤っている文字
を操作者が修正する。次に、文字認識手段100により
認識された文字の中から、第1の修正手段200により
修正された文字を含んでいる所定の文字数の文字列が探
索手段300により探索され、第2の修正手段400が
その探索された文字列中の第1の修正手段200により
修正された誤認識文字と同一の文字を第1の修正手段2
00により修正された修正済の文字に修正する。

Description

【発明の詳細な説明】
【産業上の利用分野】本発明は、紙の文書を認識する文
書認識装置において、自動修正を行う文書認識修正装置
に関する。
【0002】
【従来の技術】紙の文書に印刷されている文字や図形を
認識し、ワープロ等の文書編集装置に入力するための文
書認識装置に関する研究が行われている。しかし、文字
認識は100%の認識率を得ることはたいへん難しく、
現在の状況では、操作者が認識結果を確認して、誤認識
文字に対しては修正する必要がある(画像処理ハンドブ
ック 昭晃堂 20.3文字認識装置(OCR)p.4
82〜490)。
【0003】
【発明が解決しようとする課題】この作業は認識したす
べての結果に対して行わなければならないため、操作者
に対して、大きな負担が生じる。また、文字認識におい
て、対象の文書画像は同一の画像入力装置から同一の条
件で入力されているため、同一文字に対しては、同じ誤
認識が起こりやすい。このことを利用して、操作者が修
正した文字と同じ文字に対しては、操作者が行った修正
と同じ修正を自動的に行えば、操作者に対する負担が軽
減されることは容易に考えられる。しかし、認識結果の
1字のみの比較によって、この自動修正を行うと、正し
く認識された文字の修正も行われてしまい、悪影響を及
ぼすという問題がある。
【0004】本発明は以上のような点に鑑みてなされた
もので、その目的とするところは、認識結果の修正時に
おいて、操作者の修正の負担を軽減するために、操作者
が行った修正と同じ修正を同一文字に対して自動的に行
い、なおかつ、正しく認識された文字に対して誤った自
動修正は行わず、的確に誤認識文字のみを自動修正する
ことによって、効率的な修正が可能となる文書認識修正
装置および方法を提供することにある。
【0005】
【課題を解決するための手段】本発明の文書認識修正装
置は、上記課題を解決するため図1に示すように、文字
画像を認識する文字認識手段100と、この文字認識手
段100で認識された認識結果を操作者の指示により修
正する第1の修正手段200と、前記文字認識手段10
0により認識された文字の中から、第1の修正手段20
0により修正された文字を含んでいる所定の文字数の文
字列を探索する探索手段300と、この探索手段300
によって探索された文字列における前記第1の修正手段
200により修正された誤認識文字と同一の文字を前記
第1の修正手段200によって修正された修正済の文字
に修正する第2の修正手段400とを備えている。
【0006】また、本発明の文書認識修正装置は上記文
書認識修正装置を用いた場合であって、前記第1の修正
手段200により修正された文字の位置よりも前に位置
する文字に対しては前記第2の修正手段400によって
文字を修正する際、操作者に確認を得て文字の修正を行
っている。
【0007】
【作用】文字認識手段100により文字画像が認識され
ると、必ずしも全ての文字が正しく認識されているとは
限らないので、まず第1の修正手段200により誤って
いる文字を操作者が修正する。次に、文字認識手段10
0により認識された文字の中から、第1の修正手段20
0により修正された文字を含んでいる所定の文字数の文
字列が探索手段300により探索され、第2の修正手段
400がその探索された文字列中の第1の修正手段20
0により修正された誤認識文字と同一の文字を第1の修
正手段200により修正された修正済の文字に修正す
る。こうすることにより、同一誤認識文字の探索が前後
の文字を含めた文字列を用いて行われているので、ただ
1字の文字が同一でも正しく認識されて修正不要な文字
に対しての修正は行われず、誤認識文字のみを的確に修
正することができる。
【0008】また、第1の修正手段200により修正さ
れた文字の位置よりも前に位置する文字に対しては第2
の修正手段400によって文字を修正する際、操作者に
確認を得て文字の修正を行うことにより、既修正部分に
対して誤りとなる修正を防ぐことができる。
【0009】
【実施例】図2は文書認識装置全体の概要を示すもの
で、画像入力部1、イメージメモリ2、文字画像抽出部
3、文字認識部(OCR)4、認識結果格納メモリ5、
修正部6、格納部7、文書ファイル格納装置8、制御/
操作部9からなっている。画像入力部1から紙の文書を
デジタル入力し、その原画像をイメージメモリ2に格納
しておく。入力された文書画像を文字画像抽出部3と制
御/操作部9とを介して、CRT等の表示装置91に表
示する。操作者が、この原画像を見ながらマウス等の指
示装置93によって、文字画像領域のみを抽出する。図
3(a)が実際の文書31に対して、文字画像領域のみ
を指定した状態を示している。点線の矩形で囲まれた領
域が操作者による指定である。このように指定された文
字画像領域情報を、図3(b)に示すような表32に格
納する。表の第1,2列は、文字画像矩形領域の左上座
標で、第3,4列は、文字画像矩形領域の幅と高さであ
る。この文字画像領域を抽出する方法として、前記した
操作者による抽出方法以外に、特開平2−159690
号公報において示されているような黒画素塊の特徴を抽
出して自動的に文字と図形を分離する方法を用いること
もできる。文字認識部(OCR)4において、イメージ
メモリ2と、文字画像抽出部3において抽出された文字
画像領域を示す表32とを使用して、指定された文字画
像領域を認識する。これによって、認識結果を各々の文
字画像領域ごとに図4に示すような表形式で認識結果格
納表51として認識結果格納メモリ5に出力する。
【0010】次に図6のフローチャートに基づいて修正
部6の作用について説明する。まず最初に認識結果格納
メモリ5内の認識結果に対して、修正処理が終了するま
で(図6ステップ611でYとなるまで)、操作者が修
正を行う(ステップ612)。これは、現在の文字認識
技術では、文字認識部4の認識率は完全な100%には
ならず、どうしても操作者による確認/修正が必要なた
めである。修正を行う際には、認識結果格納メモリ5内
にある認識結果を修正部6と制御/操作部9とを介し
て、CRT等の表示装置91に表示し、操作者が、この
認識結果を見ながらマウス等の指示装置93やキーボー
ド92を用いて修正を行う。結果表示は認識結果をもと
の文字画像があった位置に表示し、できるだけ原画像と
同じような状態で示すことによって、誤認識文字を見つ
けやすいようにする。操作者修正部61では、操作者が
このような表示を見て、誤認識文字を発見した場合、指
示装置93を用いて、図5に示すようにカーソル94を
誤認識文字の上に移動し選択する。そして、キーボード
92を使用し、操作者がかな漢字変換等を用いて、正し
い文字の入力を行う。この入力文字が誤認識文字と置き
換わり、修正が行われる。この際、“修正された文字の
位置”と“修正された文字”そして“置き換えた文字”
とを記録しておく(ステップ612)。
【0011】次に自動修正部62では、操作者による修
正が行われた後、未修正部分の認識文字列(認識結果格
納メモリ5内の“修正された文字の位置”から最後の文
字までの文字列)に対して、“修正された文字”とその
文字の後の1文字を含めた2文字の探索を行い、同一の
文字列を探す(ステップ621)。同一の文字列を発見
した(ステップ621でY)ならば、“修正された文
字”と同一の文字に対して操作者による修正(“修正さ
れた文字”を“置き換えた文字”に置き換える)と同じ
処理を行う(ステップ622)。同一の文字列でなく
(ステップ621でN)、未修正文字列全てを探索して
いない(ステップ623でN)ならば、次の未修正文字
列に対して前記と同様な探索処理(ステップ621)と
修正処理(ステップ622)とを繰り返す。未修正文字
列全てを探索した(ステップ623でY)ならば、ステ
ップ624の処理へと移る。この際、未修正文字列に対
しては、操作者が行った修正と同じ修正が行われたこと
になる。
【0012】その後、同様な処理を既修正部分の認識文
字列(認識結果格納メモリ5内の最初の文字から“修正
された文字の位置”までの文字列)に対して行う。つま
り、既修正部分の認識文字列に対して、“修正された文
字”とその文字の後の1文字を含めた2文字の探索を行
い、同一の文字列を探す(ステップ624)。同一の文
字列を発見した(ステップ624でY)ならば、操作者
に修正してもよいかどうかの確認を求める表示を行い
(ステップ625)、OKならば(ステップ626で
Y)、“修正された文字”と同一の文字に対して操作者
による修正(“修正された文字”を“置き換えた文字”
に置き換える)と同じ処理を行う(ステップ627)。
OKでないならば(ステップ626でN)、修正は行わ
ず、ステップ624の処理へ戻る。同一の文字列でなく
(ステップ624でN)、既修正文字列全てを探索して
いない(ステップ628でN)ならば、次の既修正文字
列に対して前記と同様な探索処理(ステップ624)と
修正処理(ステップ625,626,627)を繰り返
す。既修正文字列全てを探索した(ステップ628で
Y)ならば、操作者修正部61のステップ611の処理
へ戻る。
【0013】既修正文字列の修正処理では、操作者が既
に修正済みの部分であるので、自動修正を行う前に確認
を求める(ステップ625,626)ことを行ってい
る。
【0014】自動修正部の処理の一例として、図5で示
した操作者による修正が、自動修正部62によって、ど
のように修正されるかを図7に示す。図7(a)で、2
行目の誤認識文字“間”を修正した場合(1行目の誤認
識文字“間”は、操作者は気付かなかったとする)、図
7(b)に示すようになる。次に自動修正部62の処理
を行う。自動修正部62では、未修正部分(つまり、操
作者が修正した文字“間”の後から最後の文字まで)に
対して、修正対象文字の後1文字を含めた文字列“間
題”を探索し、同一の文字列があった場合、操作者と同
じ修正を行う。この場合、3行目に同一の文字列“間
題”があるので、これに対して修正(“間”→“問”)
を行う。4行目にも“間”という文字があるが、文字列
“間題”とは違うため、修正は行われない。次に既修正
部分(つまり、最初の文字から操作者が修正した文字
“間”の前の文字まで)に対して、未修正文字列に対す
る処理と同様に、修正対象文字の後1文字を含めた文字
列“間題”を探索する。この場合、1行目に同一の文字
列“間題”があるので、操作者に修正をするかどうかの
確認を行い、OKの場合に修正(“間”→“問”)を行
う。このように誤認識している文字(1,3行目の
“間”)のみを修正し、同じ文字ではあるが、修正して
はならない文字(4行目の“間”)に対しては修正は行
っていない。この修正処理は、同一文書または同一ペー
ジ内では、同一の単語が使用される場合が多いことを利
用している。
【0015】前記の修正処理が行われ、初期の目標とし
ている文書の作成ができる。格納部7では、修正処理が
終了した文書を既存のワープロ等の文書編集装置が扱え
る文書フォーマットに変換し、文書ファイルとして文書
ファイル格納装置8に格納する。
【0016】前記実施例で説明した自動修正部61内の
処理以外に、次のような処理に変更することも可能であ
る。 (1)前記実施例の自動修正部61では、修正対象文字
の後の1文字を含めた2文字で同一の文字列を探索する
が、これを修正対象文字の前の1文字または前後の1文
字づつまたは複数の前後文字を含めた2字以上の文字列
によって探索すること。 (2)前記実施例の自動修正部61では、探索を一回の
み行うが、複数の文字列で複数回の探索を行うようにす
ること。たとえば、修正対象文字の後の1文字を含めた
2文字で同一の文字列を探索した後、二回目は修正対象
文字の前の1文字を含めた2文字で探索するように変更
することなどがある。 (3)前記実施例の自動修正部61では、探索文字列
は、修正対象文字のただ単に前後の文字を含めた文字列
であるが、これを文字種(かな、漢字、英数字など)に
よって含める文字を適応的に変化させること。たとえ
ば、修正対象文字が漢字であり、前の文字はかな、後の
文字は漢字である場合は、後の文字を含めた探索文字列
とする。これによって、実施例より効果的な探索(探索
する際のヒット率が高くなる)が可能となるという効果
がある。 (4)前記の実施例自動修正部61では、既修正文字列
に対する修正の際、操作者に確認を求めているが、これ
を行わないで、自動的に修正してしまうこと。または、
未修正文字列に対しての修正の際、操作者に確認を求め
るようにすること。 (5)前記実施例においては、操作者が修正する文字と
して1文字の場合のみを対象としているが、連続した複
数文字を修正した場合も同様な構成で処理することがで
きる。
【0017】
【発明の効果】以上述べたように、この発明によれば、
操作者が行った修正に従って認識文字群の中の同一の誤
認識文字を修正するので修正時における操作者に対する
負担を軽減する。また、同一誤認識文字の探索が前後の
文字を含めた文字列を用いて行われているので、ただ1
字の文字が同一でも正しく認識されて修正不要な文字に
対しての修正は行われないで、誤認識文字のみを的確に
修正することができる。未修正部分と既修正部分とを分
けることによって、2つの部分に対して違う処理を施す
ことが可能となった。つまり、未修正部分の文字列が修
正文字列と同一の際は自動的に修正が行われるが、既修
正部分は既に操作者が検査している部分であるので、確
認してから修正が行われる。このように処理を分けるこ
とによって既修正部分に対して誤りとなる修正を防ぐこ
とができる。
【図面の簡単な説明】
【図1】本発明の概略を示す構成図である。
【図2】文書認識装置全体の概要を示すブロック図であ
る。
【図3】文字画像領域抽出の例を示している。
【図4】文字認識部(OCR)からの認識結果の表を示
している。
【図5】操作者修正部での修正例である。
【図6】修正部分のアルゴリズムを示すフローチャート
である。
【図7】修正部での修正例である。
【符号の説明】
1・・画像入力部、2・・イメージメモリ、3・・文字
画像抽出部、4・・文字認識部(OCR)、5・・認識
結果格納メモリ、6・・修正部、7・・格納部、8・・
文書ファイル格納装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文字画像を認識する文字認識手段と、 この文字認識手段で認識された認識結果を操作者の指示
    により修正する第1の修正手段と、 前記文字認識手段により認識された文字の中から、第1
    の修正手段により修正された文字を含んでいる所定の文
    字数の文字列を探索する探索手段と、 この探索手段によって探索された文字列における前記第
    1の修正手段により修正された誤認識文字と同一の文字
    を前記第1の修正手段によって修正された修正済の文字
    に修正する第2の修正手段とを備えたことを特徴とする
    文書認識修正装置。
  2. 【請求項2】 請求項1に記載の文書認識修正装置にお
    いて、 前記第1の修正手段により修正された文字の位置よりも
    前に位置する文字に対しては前記第2の修正手段によっ
    て文字を修正する際、操作者に確認を得て文字の修正を
    行う確認手段を有することを特徴とする文書認識修正装
    置。 【0001】
JP3200037A 1991-07-15 1991-07-15 文書認識修正装置 Pending JPH0520492A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3200037A JPH0520492A (ja) 1991-07-15 1991-07-15 文書認識修正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3200037A JPH0520492A (ja) 1991-07-15 1991-07-15 文書認識修正装置

Publications (1)

Publication Number Publication Date
JPH0520492A true JPH0520492A (ja) 1993-01-29

Family

ID=16417779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3200037A Pending JPH0520492A (ja) 1991-07-15 1991-07-15 文書認識修正装置

Country Status (1)

Country Link
JP (1) JPH0520492A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265391A (ja) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265391A (ja) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置

Similar Documents

Publication Publication Date Title
JPH05346970A (ja) 文書認識装置
JP3230641B2 (ja) 文字列検索装置
JPH0520492A (ja) 文書認識修正装置
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JPH0589190A (ja) 図面情報のチエツク方式
KR950001061B1 (ko) 문서인식 수정장치
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JP3077580B2 (ja) 文字読取装置
JP2890788B2 (ja) 文書認識装置
JP2687902B2 (ja) 文書画像認識装置
JP2000123116A (ja) 文字認識結果修正方法
JP2746345B2 (ja) 文字認識の後処理方法
JPH11232381A (ja) 文字読取装置
JPH06290297A (ja) 文字認識装置
JPS63143684A (ja) 文字認識装置における認識結果修正方法
JPH01287755A (ja) 修正機能付情報入力装置
JP2669897B2 (ja) 誤読文字の修正方法
JP2643092B2 (ja) 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム
JPS62134765A (ja) 漢和辞書の電子検索方法
JPH07192079A (ja) 文字認識装置
JPH0432970A (ja) 画像認識・修正方法及びその装置
JP2000029982A (ja) 文字認識装置及び文字認識結果の出力方法
JPH0668261A (ja) パターン認識装置
JPH10134139A (ja) 画像認識修正方法およびその装置
JPH04252390A (ja) 文字認識結果の後処理方法