JP2000029982A - 文字認識装置及び文字認識結果の出力方法 - Google Patents

文字認識装置及び文字認識結果の出力方法

Info

Publication number
JP2000029982A
JP2000029982A JP10197036A JP19703698A JP2000029982A JP 2000029982 A JP2000029982 A JP 2000029982A JP 10197036 A JP10197036 A JP 10197036A JP 19703698 A JP19703698 A JP 19703698A JP 2000029982 A JP2000029982 A JP 2000029982A
Authority
JP
Japan
Prior art keywords
character
recognition result
recognition
image
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10197036A
Other languages
English (en)
Inventor
Hiroyasu Goshima
裕庸 五島
Shoichi Nakagami
昇一 中上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10197036A priority Critical patent/JP2000029982A/ja
Publication of JP2000029982A publication Critical patent/JP2000029982A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字認識装置の認識結果の修正を効率化する
ために認識結果の出力方法を改良する。 【解決手段】 文字認識装置のプログラムは、文字画像
を入力し、文字認識を行い、各文字について認識結果の
確信度を計算する。確信度が所定の閾値に達しない認識
結果にフラグを立てる。フラグの立った各文字の認識結
果を1文字ずつその文字画像と並列して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された文字画
像について文字認識を行い、認識結果の怪しい文字を出
力する文字認識装置及び認識結果の出力方法に関するも
のである。
【0002】
【従来の技術】文字認識の認識率は、必ずしも100%
ではない。近年様々な技術開発が行われ認識率が向上さ
れているが、様々な書体や文字種が増えていることか
ら、結果として認識率を100%にするのは不可能であ
る。よって誤認識した認識結果に対してどのようなアプ
ローチで修正するかが重要となる。修正作業は人が行う
ので人の負担をできる限り軽減する必要がある。修正を
容易にするための認識結果の出力方法として、得られた
認識結果とその元になる入力画像の両方を画面上に表示
する技術(例えば特公平7−72903号公報)や、文
字認識の結果の確信度を算出してその結果に応じて表示
を変えたり、その前後に特別な文字を挿入してその結果
の怪しさを目立たせたりする技術(例えば特開平5−1
28301号公報)がある。
【0003】ここで確信度とは、ある結果がどの程度確
からしいかを表わす数値であり、0から100までの整
数値で表現され、数値が高いほど確からしいことを意味
する。各文字に対する認識結果の確信度は、例えば特開
平4−211883号公報に記載された方法により算出
することができる。
【0004】
【発明が解決しようとする課題】上記従来の文字認識装
置によれば、認識結果の出力方法において、正しく認識
された文字と認識結果の怪しい文字とが混在して表示さ
れるので、修正者はその中から認識できなかった文字を
探さねばならず、目の移動が多く効率的な修正が行い難
い。特に複数枚のシートに記載された文字をまとめて入
力し、連続的に認識処理し、認識結果をまとめて修正す
る場合には、修正者は大量の文字認識結果の中から認識
不能文字を探さねばならず、しかも認識結果の怪しい文
字がランダムに現われるので、非常に効率が悪い。
【0005】本発明の目的は、認識結果の出力方法を改
良することによって、効率的な修正作業を可能とする文
字認識装置及び文字認識結果の出力方法を提供すること
にある。
【0006】
【課題を解決するための手段】本発明は、文字画像を入
力し、文字画像の文字認識を行い、各文字について認識
結果の確信度を計算する文字認識装置において、計算さ
れた確信度が所定値に達しない文字を抽出する手段と、
抽出された各文字の認識結果をその文字画像と並列して
出力する手段とを有する文字認識装置を特徴とする。ま
た計算された確信度が所定値に達しない文字であってか
つあらかじめ指定された項目に属する文字を抽出する手
段と、抽出された各文字の認識結果をその文字画像を含
む指定された項目内のすべての文字画像と並列して出力
する手段とを有する文字認識装置を特徴とする。また計
算された確信度が所定値に達しない文字であってかつ他
の文字と互いに誤認識されやすい文字としてあらかじめ
指定された文字のグループに属する文字を抽出する手段
と、抽出された各文字の認識結果をその文字画像と並列
して出力する手段とを有する文字認識装置を特徴とす
る。またこのような手段をステップとして有する文字認
識結果の出力方法を特徴とする。さらにこのようなステ
ップを計算機の処理ステップとして有するプログラムの
記憶媒体を特徴とする。
【0007】
【発明の実施の形態】以下本発明の一実施形態について
図面を用いて説明する。
【0008】図1は、本実施形態の文字認識装置の構成
図である。図1に示すように、この文字認識装置は、入
力画像を光学的に読み取るスキャナ2と、認識された文
字を修正するためのキーボード等の入力装置1と、各部
を制御する中央演算処理装置3と、中央演算処理装置3
が実行する文字認識処理等の各種プログラムを格納する
ROM4と、入力画像及び後述のテーブルを記憶するR
AM5と、文字の標準的な特徴を登録する辞書が格納さ
れるROM、RAMなどの記憶装置6と、文字認識処理
中の各種データを一時的に記憶するワークエリアRAM
7と、確信度の低い認識文字を表示するディスプレイ8
及び印字装置9とを備え、これら各構成要素がバスによ
って接続されている。なお専用の文字認識装置の代わり
にパソコン等の汎用計算機を利用し、その主記憶装置に
格納される文字認識処理等を行うプログラムを実行する
ことによっても本発明を実施できる。このプログラムを
記憶媒体に格納し、図示しない駆動装置を介して計算機
の主記憶装置に読み込み、計算機によって実行できる。
【0009】図2は、RAM5上のテーブルのデータ形
式を示す図である。テーブルの各行は認識された各文字
に対応し、シート番号31は何枚目のシートかを表す番
号、項番32は同一シート内で一意な文字の番号、画像
領域33はRAM5上で入力された文字画像を格納する
領域の先頭アドレス、認識結果34は文字認識の結果、
始点35はシート上で文字が存在する領域の左上の座標
値、終点36は同領域の右下の座標値、項目37はその
文字が属するデータ項目の番号、確信度38はその文字
の認識結果の確からしさを示す数値、フラグ39は確信
度が閾値に満たないときに設定されるフラグである。
【0010】図3は、文字認識処理プログラムの処理の
流れを示すフローチャートである。プログラムは、スキ
ャナ2を介してシート上の入力データを読み取り、ステ
ップ21において2値画像化する。次にステップ22に
おいて2値画像から文字画像を切り出し、RAM5上の
画像領域に格納し、その文字画像が存在するシートのシ
ート番号31、同一シート内の文字の項番32、画像領
域33、始点35、終点36、項目37をRAM5に格
納する。次にステップ23において記憶装置6上の辞書
を参照して文字認識を行い、その結果を認識結果34に
格納する。次にステップ24において文字画像の特徴量
を抽出し、抽出した特徴量を辞書に登録されている標準
的な特徴量と比較して確信度を算出し、算出された確信
度を確信度38に格納する。次にあらかじめ設定された
閾値とステップ24で計算された確信度とが比較され、
「確信度<閾値」となった場合(ステップ25:Y)
は、ステップ26に進み、フラグ39に「1」を設定す
る(フラグをたてる)。逆に「確信度≧閾値」となった
場合(ステップ25:N)は、フラグをたてない。ステ
ップ21〜26がすべてのシート上の文字画像について
終了(ステップ27:Y)すると、ステップ28の処理
を行う。ステップ28では、ステップ26の処理でフラ
グのたった入力画像と認識結果34をRAM5から1文
字ずつ、あるいは1項目ずつ取り出し、文字のソート順
序に従ってソートしてディスプレイ8に出力するか、ま
たは印字装置9に出力する。
【0011】図4は、ステップ28の処理を展開して示
すフローチャートであり、入力画像と認識結果の第1の
出力方法を示す。ステップ41では認識結果34を1文
字ずつRAM5から読み込む。読み込んだ認識結果34
にフラグ39がたっているか、ステップ42で判断す
る。フラグがたっていない場合(ステップ42:N)
は、ステップ41に戻り次の文字について認識結果34
のフラグ39を読み込む。フラグがたっている場合(ス
テップ42:Y)はその認識結果と入力画像をワークエ
リアRAM7に保存する(ステップ43)。ステップ4
1〜43の処理が全ての文字に対して終了(ステップ4
4:Y)すれば、ステップ45に進む。ステップ45で
は、認識結果34の文字を文字のソート順序に従ってソ
ートする。次にステップ46で入力画像と認識結果を1
文字ずつディスプレイ8上に表示するか、あるいは印字
装置9に出力する。
【0012】図5は、第1の出力方法について、入力画
像と認識結果の表示例を示す図である。入力画像51を
1文字ずつ表示させ、その文字に対する認識結果52を
表示する。これら入力画像と認識結果は並列して表示さ
れる(53)。表示する順序は、認識結果52に表示さ
れている文字が多い順である。図5では認識結果の
「1」がx個(54)、「5」がy個(55)、「7」
がz個(56)あった場合を示している(但し、x>y
>z)。さらに確信度が昇順になるように54、55、
56の中でそれぞれ並べ替えることも可能である。また
入力画像51をマウス等でクリックすることによつて、
プログラムはRAM5を参照し、指定された文字が属す
る項目内の一連の文字画像をディスプレイ8に表示す
る。それによりその文字とその文字の前後の位置に存在
する一連の文字の画像を知ることができる。入力装置1
を介して表示されているいずれかの認識結果52が修正
されると、装置はRAM5上の該当する認識結果34を
修正する。
【0013】図6は、ステップ28の処理を展開して示
すフローチャートであり、入力画像と認識結果の第2の
出力方法を示す。ステップ61では、確認し、修正した
い項目の番号を入力装置1を介して入力する。項目とは
図8に示すように、一連の文字列から構成されるデータ
項目を指す。これらの項目はあらかじめ一意の番号が設
定されている。そして入力される複数枚のシートは同一
の項目をもつ同一データ形式とする。ステップ62では
認識結果34をRAM5から1文字ずつ読み込む。読み
込んだ認識結果34にフラグ39がたっているか、ステ
ップ63で判断する。フラグがたっていない場合(ステ
ップ63:N)は、ステップ62に戻り次の文字につい
て認識結果34のフラグ39を読み込む。フラグがたっ
ている場合(ステップ63:Y)は、ステップ64でそ
の文字がステップ61で指定した項目内の文字かを判断
する。指定した項目外の文字なら(ステップ64:
N)、ステップ62に戻り次の文字について認識結果3
4のフラグ39を読み込む。指定した項目内の文字なら
(ステップ64:Y)、その認識結果と入力画像を項目
ごとワークエリアRAM7に保存する(ステップ6
5)。ステップ62〜65の処理が全ての文字に対して
終了(ステップ66:Y)すれば、ステップ67に進
む。ステップ67では、認識結果34の文字を文字のソ
ート順序に従ってソートする。次にステップ68で入力
画像と認識結果を項目ごとにディスプレイ8上に表示す
るか、あるいは印字装置9に出力する。
【0014】図7は、第2の出力方法について、入力画
像と認識結果の表示例を示す図である。指定された項目
について取り出した入力画像71を表示させ、その項目
に対する認識結果72を表示する。ここで項目内の認識
結果は全て表示するのではなく、フラグのたった認識結
果のみを表示する。これら入力画像と認識結果は並列し
て表示される(73)。表示する順序は、認識結果72
に表示されている文字が多い順に表示される。また現在
表示されている項目の番号74が表示される。別の項目
番号の認識結果を表示させたいときは、入力装置1より
その項目番号を指定する。入力装置1を介して表示され
ている認識結果72中いずれかの文字が修正されると、
装置はRAM5上の該当する認識結果34を修正する。
このように認識結果72に表示される文字が属する項目
中の一連の文字列の画像が入力画像71に表示されるの
で、この文字列が何らかの意味をもつ場合にこの方法は
有効である。
【0015】図9は、ステップ28の処理を展開して示
すフローチャートであり、入力画像と認識結果の第3の
出力方法を示す。ステップ91では、確認し、修正した
いパターンの項番を入力装置1を介して入力する。パタ
ーンとは、図11に示すように他の文字と互いに誤認識
されやすい文字のグループをいう。各パターンに対応し
て一意の項番及び閾値があらかじめワークエリアRAM
7に保存される。ステップ92では認識結果34をRA
M5から1文字ずつ読み込む。読み込んだ認識結果34
にフラグ39がたっているか、ステップ93で判断す
る。フラグがたっていない場合(ステップ93:N)
は、ステップ92に戻り次の文字について認識結果34
のフラグ39を読み込む。フラグがたっている場合(ス
テップ93:Y)は、ステップ94でその文字がステッ
プ91で指定したパターンに属する文字か判断する。指
定したパターン以外の文字なら(ステップ94:N)、
ステップ92に戻り次の文字について認識結果34のフ
ラグ39を読み込む。指定したパターンの文字なら(ス
テップ94:Y)、その認識結果と入力画像を1文字ご
とワークエリアRAM7に保存する(ステップ95)。
ステップ92〜95の処理がすべての文字に対して終了
(ステップ96:Y)すれば、ステップ97に進む。ス
テップ97では、認識結果34の文字を文字のソート順
序に従ってソートする。次にステップ98で入力画像と
認識結果を1文字ごとにディスプレイ上8に表示する
か、あるいは印字装置9に出力する。
【0016】図10は、第3の出力方法について、入力
画像と認識結果の表示例を示す図である。入力画像およ
び対応する認識結果は、図5の場合と同様に1文字ずつ
表示される。ステップ91で指定したパターン項番10
1が表示される。別のパターンの結果を表示させたいと
きは、入力装置1より別のパターン項番を指定する。図
10は、図11の項番1のパターンを指定したときの出
力例で、認識結果「1」がx個(102)、「7」がy
個(103)あった場合を示している(但し、x>
y)。入力装置1を介して表示されている認識結果中の
いずれかの文字が修正されると、装置はRAM5上の該
当する認識結果34を修正する。このように第1の出力
方法がすべての文字を抽出の対象とするのに対して、こ
の方法は対象を特定の誤認識されやすい文字に絞るた
め、修正者は対象の文字に集中して修正できる。
【0017】図12は、ステップ28の処理を展開して
示すフローチャートであり、入力画像と認識結果の第4
の出力方法を示す。入力装置1を介して確認し、修正し
たいパターンの項番を入力し(ステップ121)、対象
とする項目の番号を入力する(ステップ122)。ステ
ップ123では認識結果34をRAM5から1文字ずつ
読み込む。読み込んだ認識結果34にフラグ39がたっ
ているか、ステップ124で判断する。フラグがたって
いない場合(ステップ124:N)は、ステップ123
に戻り次の文字について認識結果34のフラグ39を読
み込む。フラグがたっている場合(ステップ124:
Y)は、ステップ125でその文字がステップ121で
指定したパターンに属する文字か判断する。指定したパ
ターン以外の文字なら(ステップ125:N)、ステッ
プ123に戻り次の文字について認識結果34を読み込
む。指定したパターンの文字なら(ステップ125:
Y)、ステップ126でステップ122で指定した項目
の文字か判断する。指定した項目以外の文字なら(ステ
ップ126:N)、ステップ123に戻り次の認識結果
文字を読み込む。指定した項目の文字なら(ステップ1
26:Y)、その認識結果と入力画像を項目ごとワーク
エリアRAM7に保存する(ステップ127)。ステッ
プ123〜127の処理が全ての文字に対して終了(ス
テップ128:Y)すれば、ステップ129に進む。ス
テップ129では、認識結果の文字を文字のソート順序
に従ってソートする。次にステップ130で入力画像と
認識結果を項目ごとにディスプレイ8に表示するか、あ
るいは印字装置9に出力する。
【0018】図13は、第4の出力方法について、入力
画像と認識結果の表示例を示す図である。入力画像およ
び対応する認識結果は、図7の場合と同様に指定された
項目について表示される。ただし表示される認識結果は
指定されたパターンに属する文字に限られる。指定され
た項目番号が131に、指定したパターンの項番が13
2に表示される。この場合も認識結果中の文字を修正す
ることによってRAM5上の該当する認識結果34を修
正することができる。第4の出力方法によつて第2及び
第3の出力方法の効果を併せて得ることができる。
【0019】
【発明の効果】以上述べたように本発明によれば、確信
度の低い文字の認識結果のみが1文字ごとにあるいは特
定の項目について出力されるので、大量の文字認識結果
の中から認識不能文字を探す必要がなく効率的な修正作
業を達成できる。また互いに誤認識しやすい文字のグル
ープを指定することにより、修正の対象とする文字を絞
ることができ、効率的な修正作業を行える。
【図面の簡単な説明】
【図1】実施形態の文字認識装置の構成図である。
【図2】実施形態のテーブルのデータ形式を示す図であ
る。
【図3】実施形態の文字認識の処理プログラムの処理の
流れを示すフローチャートである。
【図4】入力画像と認識結果の第1の出力処理の流れを
示すフローチャートである。
【図5】第1の出力処理の表示例を示す図である。
【図6】入力画像と認識結果の第2の出力処理の流れを
示すフローチャートである。
【図7】第2の出力処理の表示例を示す図である。
【図8】項目の例を示す図である。
【図9】入力画像と認識結果の第3の出力処理の流れを
示すフローチャートである。
【図10】第3の出力処理の表示例を示す図である。
【図11】誤認識しやすいパターンとその閾値の一例を
示す図である。
【図12】入力画像と認識結果の第4の出力処理の流れ
を示すフローチャートである。
【図13】第4の出力処理の表示例を示す図である。
【符号の説明】
34:認識結果、37:項目、38:確信度、39:フ
ラグ、51:入力画像、52:認識結果

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】文字画像を入力し、該文字画像の文字認識
    を行い、各文字について認識結果の確信度を計算する文
    字認識装置において、計算された確信度が所定値に達し
    ない文字を抽出する手段と、抽出された各文字の認識結
    果をその文字画像と並列して出力する手段とを有するこ
    とを特徴とする文字認識装置。
  2. 【請求項2】文字画像を入力し、該文字画像の文字認識
    を行い、各文字について認識結果の確信度を計算する文
    字認識装置において、計算された確信度が所定値に達し
    ない文字であってかつあらかじめ指定された項目に属す
    る文字を抽出する手段と、抽出された各文字の認識結果
    をその文字画像を含む指定された項目内のすべての文字
    画像と並列して出力する手段とを有することを特徴とす
    る文字認識装置。
  3. 【請求項3】文字画像を入力し、該文字画像の文字認識
    を行い、各文字について認識結果の確信度を計算する文
    字認識装置において、計算された確信度が所定値に達し
    ない文字であってかつ他の文字と互いに誤認識されやす
    い文字としてあらかじめ指定された文字のグループに属
    する文字を抽出する手段と、抽出された各文字の認識結
    果をその文字画像と並列して出力する手段とを有するこ
    とを特徴とする文字認識装置。
  4. 【請求項4】文字画像を入力し、該文字画像の文字認識
    を行い、各文字について認識結果の確信度を計算する文
    字認識方法において、計算された確信度が所定値に達し
    ない文字を抽出し、抽出された各文字の認識結果をその
    文字画像と並列して出力することを特徴とする文字認識
    結果の出力方法。
  5. 【請求項5】コンピュータ読み取り可能な記憶媒体上に
    実体化されたプログラムであり、該プログラムは、文字
    画像を入力し、該文字画像の文字認識を行い、各文字に
    ついて認識結果の確信度を計算するプログラムであって
    下記ステップを含む: (a)計算された確信度が所定値に達しない文字を抽出
    し、(b)抽出された各文字の認識結果をその文字画像
    と並列して出力する。
JP10197036A 1998-07-13 1998-07-13 文字認識装置及び文字認識結果の出力方法 Pending JP2000029982A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10197036A JP2000029982A (ja) 1998-07-13 1998-07-13 文字認識装置及び文字認識結果の出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10197036A JP2000029982A (ja) 1998-07-13 1998-07-13 文字認識装置及び文字認識結果の出力方法

Publications (1)

Publication Number Publication Date
JP2000029982A true JP2000029982A (ja) 2000-01-28

Family

ID=16367673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10197036A Pending JP2000029982A (ja) 1998-07-13 1998-07-13 文字認識装置及び文字認識結果の出力方法

Country Status (1)

Country Link
JP (1) JP2000029982A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942075A (zh) * 2018-09-25 2020-03-31 富士施乐株式会社 信息处理装置、存储介质及信息处理方法
CN114827373A (zh) * 2017-11-30 2022-07-29 佳能株式会社 发送设备及其控制方法以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827373A (zh) * 2017-11-30 2022-07-29 佳能株式会社 发送设备及其控制方法以及存储介质
CN110942075A (zh) * 2018-09-25 2020-03-31 富士施乐株式会社 信息处理装置、存储介质及信息处理方法
JP2020052570A (ja) * 2018-09-25 2020-04-02 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7263720B2 (ja) 2018-09-25 2023-04-25 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Similar Documents

Publication Publication Date Title
EP1312038B1 (en) Orthogonal technology for multi-line character recognition
JP2713622B2 (ja) 表形式文書読取装置
US20020041713A1 (en) Document search and retrieval apparatus, recording medium and program
JP6000992B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP6432179B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
JPH1166238A (ja) 手書き文字認識方法
JP2000029982A (ja) 文字認識装置及び文字認識結果の出力方法
JP2002063548A (ja) 手書き文字認識方法
JP3792759B2 (ja) 文字認識方法とその装置
JPH07271921A (ja) 文字認識装置および文字認識方法
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JP3157530B2 (ja) 文字切り出し方法
JPH0850631A (ja) 文字認識装置
JP2972443B2 (ja) 文字認識装置
JPH053631B2 (ja)
JPH1021325A (ja) 文字認識方法
JPH11232381A (ja) 文字読取装置
JP2851865B2 (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH1069518A (ja) 文字認識方法およびその装置
JP2002063547A (ja) 手書き文字認識方法
JPH10154205A (ja) 文字認識方法およびその文字認識方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体
JPS63143684A (ja) 文字認識装置における認識結果修正方法
JPH09114929A (ja) 文字認識方法および装置
JPH0520492A (ja) 文書認識修正装置