JP2001147988A - 文字認識方法及び文字認識装置 - Google Patents

文字認識方法及び文字認識装置

Info

Publication number
JP2001147988A
JP2001147988A JP33116399A JP33116399A JP2001147988A JP 2001147988 A JP2001147988 A JP 2001147988A JP 33116399 A JP33116399 A JP 33116399A JP 33116399 A JP33116399 A JP 33116399A JP 2001147988 A JP2001147988 A JP 2001147988A
Authority
JP
Japan
Prior art keywords
image
character
recognition
corrected
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33116399A
Other languages
English (en)
Inventor
Jutaro Ishioka
寿太郎 石岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Digital Laboratory Co Ltd
Original Assignee
Japan Digital Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Digital Laboratory Co Ltd filed Critical Japan Digital Laboratory Co Ltd
Priority to JP33116399A priority Critical patent/JP2001147988A/ja
Publication of JP2001147988A publication Critical patent/JP2001147988A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 非ドロップアウトカラーの1色刷りで罫線或
いは枠線が印刷された帳票等をイメージリーダで読み取
る際の認識率向上を実現した文字認識方法及び文字認識
装置の提供。 【解決手段】 罫線等を除去した読み込みイメージから
文字を切り出し(S1、S2)、罫線接触情報を記憶し
(S3)、認識処理により認識候補情報を得て(S4、
S5)、その切り出しイメージに対し認識処理で得られ
た候補文字のコードCo1及び距離Di1と登録されて
いる形状情報Finから予測される形状に近づけるよう
に補正する動作を予測される形状の数だけ繰り返し、補
正イメージCi2群を得て(S6)、それら補正イメー
ジの信頼度を判定して信頼性の高い補正イメージを得て
(S7)、更に、認識結果を出力するか否かを判定する
(S8)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文字認識技術に関
し、特に、非ドロップアウトカラーの1色刷りで罫線や
枠線が印刷された帳票に記入された文字をイメージリー
ダで読み取って得た読み取りイメージから罫線又は枠線
を除去した文字の認識技術に関する。
【0002】
【従来の技術】OCRやスキャナ等のイメージリーダで
は帳票や原稿上の文字を読み取って電気信号に変換し文
字イメージを出力するが、帳票には、通常、罫線や枠線
が印刷されており文字は罫線に沿って印刷或いは記入さ
れるので、読み取りの邪魔にならないように罫線や枠線
はドロップアウトカラーで印刷されている。従って、イ
メージリーダで文字が印刷或いは記入された帳票を読み
取っても罫線又は枠線は読み取られないのでそれらの罫
線や枠線イメージなしの文字、すなわち、文字のみを読
み取ることができる。
【0003】しかし、従来、このような帳票をイメージ
リーダで読み取って文字認識処理を行うには文字記入位
置を判定するために罫線又は枠線の位置を示す非ドロッ
プアウトカラーのガイドマークを印刷しておく必要があ
った。
【0004】しかし、上述のように非ドロップアウトカ
ラーのガイドマークを印刷する方法では帳票をドロップ
アウトカラーの罫線又は枠線と非ドロップアウトカラー
のガイドラインの2色刷りとする必要があるので、帳票
の印刷コストがかかりランニングコストが高くなるとい
った問題点があった。
【0005】
【発明が解決しようとする課題】上述した2色刷りの帳
票を用いることによるランニングコストの上昇を避ける
には非ドロップアウトカラーの1色刷りで印刷された帳
票を用いればよいが、この場合には、非ドロップアウト
カラーで印刷された罫線又は枠線と記入された文字が接
触又は重複すると、イメージリーダで読み取った際、罫
線又は枠線と文字との区別がつかず、誤認識や読み取り
不能を生ずる場合があるといった問題点があった。
【0006】そこで、罫線又は枠線と文字が接触した場
合の誤認識や読み取り不能を防止するためには、イメー
ジリーダで読み取った後、罫線又は枠線を強制的に除去
すればよいが、単に、罫線や枠線を除去するだけでは
(罫線又は枠線と接触していた文字の一部が除去されて
しまうので)除去後の文字イメージの認識率が低下する
ので、従来は、残った文字イメージ部分の前後のストロ
ークの方向とその距離等から除去された部分を推定して
イメージ補正を行っていた。
【0007】しかし、上述のイメージ補正方法でストロ
ークの方向が真の文字イメージとは異なる方向に向いて
いる場合には正しいイメージ補正ができないといった問
題点があった。例えば、文字「7」の下の部分が図3の
例のように罫線に接触していると、罫線と共にその情報
が失われ図10(a)の例のようにストロークの方向が
左斜め下方向となり、しかもその距離が長いので、従来
の方法でイメージ補正すると図10(c)のように左斜
め方向にストローク部分が延長したイメージ(文字認識
すれば「7」)となり、正しい文字イメージ(図10
(b))とは異なったイメージ補正がなされることとな
る。
【0008】本発明は上記問題点を解決するためになさ
れたものであり、非ドロップアウトカラーの1色刷りで
罫線或いは枠線(以下、罫線等)が印刷された帳票等を
イメージリーダで読み取る際の認識率向上を実現した文
字認識方法及び文字認識装置の提供を目的とする。
【0009】
【課題を解決するための手段】上記課題を解決するため
に、第1の発明の文字認識方法は、読み取った原稿の読
み取りイメージから罫線等のイメージを取り除いて1文
字ずつ文字イメージを切り出して文字認識を行う文字認
識方法であって、前記文字イメージの切り出しの際に切
り出された文字イメージと罫線等との接触情報を取得
し、この切り出された文字の認識処理を行い、認識処理
で得られた認識結果と接触情報を基に、切り出された文
字イメージを予め登録された予測形状情報から予測され
る形状に近づけるように補正した補正イメージ群を得
て、この補正イメージ群の中から認識候補イメージを選
択し、この認識候補イメージに対応する認識文字を出力
するか否かの評価を行う、ことを特徴とする。
【0010】また、第2の発明の文字認識装置は、読み
取った原稿の読み取りイメージから罫線等のイメージを
取り除いて1文字ずつ文字イメージを切り出して文字認
識を行う文字認識方法であって、文字イメージの切り出
しの際に切り出された文字イメージと罫線等との接触情
報を取得し、この切り出された文字の認識処理を行い、
認識処理で得られた認識結果と接触情報を基に、切り出
された文字イメージを予め登録された予測形状情報から
予測される形状に近づけるように補正した補正イメージ
群を得て、この補正イメージ群中の補正イメージが所定
の条件を満たしているか否かを調べ、所定の条件を満た
した補正イメージの中から認識候補イメージを抽出し、
この認識候補イメージに対応する認識文字を出力するか
否かの評価を行う、ことを特徴とする。
【0011】また、第3の発明は上記第2の発明の文字
認識方法において、補正イメージ群中の全ての補正イメ
ージが所定の条件を満たさない場合に、更に、文字イメ
ージの認識結果と前記接触情報を基に、切り出された文
字イメージについて、所定の補正優先順位により、予め
登録された予測形状情報から予測される形状に近づける
ように補正した補正イメージ群を得て、更に、この補正
イメージ群中の補正イメージが所定の条件を満たしてい
るか否かを調べ所定の条件を満たした補正イメージの中
から認識候補イメージを抽出する動作を繰り返す、こと
を特徴とする。
【0012】また、第4の発明の文字認識装置は、読み
取った原稿の読み取りイメージから罫線等のイメージを
取り除く罫線除去手段と、この罫線除去手段によって罫
線等が取り除かれた文字イメージから1文字ずつ文字イ
メージを切り出す切り出し手段と、罫線除去手段によっ
て罫線等が取り除かれた文字イメージから罫線等が接触
していた部分の接触情報を取得する罫線接触情報取得手
段と、切り出し手段によって切り出された文字イメージ
の認識処理を行なう認識手段と、認識手段による認識処
理によって得られた認識結果と接触情報を基に、切り出
された文字イメージを予め登録された予測形状情報から
予測される形状に近づけるように補正した補正イメージ
群を得るイメージ補正手段と、イメージ補正手段によっ
て得られた補正イメージ群の中から認識候補イメージを
選択する補正イメージ選択手段と、補正イメージ選択手
段によって得られた認識候補イメージに対応する認識文
字を出力するか否かの評価を行う認識文字出力評価手段
と、を備えたことを特徴とする。
【0013】また、第5の発明の文字認識装置は、読み
取った原稿の読み取りイメージから罫線等のイメージを
取り除く罫線除去手段と、この罫線除去手段によって罫
線等が取り除かれた文字イメージから1文字ずつ文字イ
メージを切り出す切り出し手段と、罫線除去手段によっ
て罫線等が取り除かれた文字イメージから罫線等が接触
していた部分の接触情報を取得する罫線接触情報取得手
段と、切り出し手段によって切り出された文字イメージ
の認識処理を行なう認識手段と、認識手段による認識処
理によって得られた認識結果と接触情報を基に、切り出
された文字イメージを予め登録された予測形状情報から
予測される形状に近づけるように補正した補正イメージ
群を得るイメージ補正手段と、文字イメージ補正手段に
よる補正後の文字イメージが所定の条件を満たしている
か否かを判定し、所定の条件を満たした補正イメージの
中から認識候補イメージを抽出する補正イメージ判定手
段と、補正イメージ判定手段によって得られた認識候補
イメージに対応する認識文字を出力するか否かの評価を
行う認識文字出力評価手段と、を備えたことを特徴とす
る。
【0014】また、第6の発明は上記第5の発明の文字
認識装置において、イメージ補正手段は、補正イメージ
判定手段による判定の結果、全ての補正イメージが所定
の条件を満たさない場合に、文字イメージの認識結果と
前記接触情報を基に、更に、前記切り出された文字イメ
ージを、所定の補正優先順位により、予め登録された予
測形状情報から予測される形状に近づけるように補正す
る手段を含む、ことを特徴とする。
【0015】
【発明の実施の形態】図1は本発明の文字認識装置の一
実施例の構成を示すブロック図であり、文字認識装置1
00は、罫線除去部10、文字切り出し部20、罫線接
触情報格納部30及び文字認識ブロック40から構成さ
れている。なお、図示していないが文字認識装置100
は、CPUおよびその周辺回路からなり上述の各構成部
分の動作の制御及び文字認識装置全体の動作を制御する
制御部を備えている。
【0016】罫線除去部10は、スキャナ等から読み込
んだ読み込みイメージIm1(図3)から罫線等(罫線
或いは枠線)を検出して罫線等のイメージを除去した文
字イメージIm2(図4)を取得し、罫線等に接触して
いたイメージの罫線接触情報(例えば、文字の接触方
向、接触個所数、接触部分の位置(座標)、罫線等の太
さ)If1を取得する。
【0017】文字切り出し部20は、罫線除去部10に
よって罫線等が除去されたイメージIm2から1文字ず
つ文字イメージを切り出して、切り出し文字イメージC
i1を取得し、その切り出し文字イメージのもつ罫線接
触情報を文字単位の罫線接触情報If2に変換する。
【0018】罫線接触情報格納部30はRAM等の一時
格納メモリからなり、文字切り出し部20で得た罫線接
触情報If2を格納する。
【0019】また、文字認識ブロック40は、特徴抽出
部41、辞書部42、識別部43、予測形状情報部4
4、イメージ補正処理部45、補正イメージ選択部46
及び棄却判定部47を備え、特徴抽出やイメージ補正処
理等を行った後、文字認識を行う。
【0020】すなわち、文字認識ブロック40におい
て、特徴抽出部41は、文字切り出し部20で切り出さ
れた文字イメージCi1から特徴量Fd1を算出する。
【0021】また、辞書部42は、例えば、数字、アル
ファベット等の標準的な特徴量Fdd、文字コードCo
等から構成されるテンプレート構成をなし、各文字種に
対して予め複数個のテンプレートをROM等の保存メモ
リに格納してなる。
【0022】また、識別部43は、特徴抽出部41で算
出された特徴量Fd1と辞書部42の各テンプレートが
持つ特徴量Fddとの距離計算を行い、距離の小さい順
(特徴の近い順)から上位規定値までの文字コードCo
1、その距離Di1等の認識候補情報を取得する。
【0023】また、予測形状情報部44は、罫線等との
接触状態によりあり得る全ての形状の情報FinをRO
M等の保存メモリに格納してなる。
【0024】また、イメージ補正処理部45は、文字切
り出し部20で切り出された文字イメージCi1につい
て、それに対応する識別部43で得られた候補文字のコ
ードCo1、及び距離Di1と、罫線接触情報格納部3
0に格納されている罫線接触情報fi2とを基に、予測
形状情報部44に格納されている形状情報Finから予
測される形状に近づけるように補正する動作を予測され
る全ての形状の数だけ繰り返し、補正イメージCi2群
を得る。
【0025】また、補正イメージ選択部46は、イメー
ジ補正処理部45で補正された全ての補正イメージCi
2群の中から信頼性のある補正文字イメージCi3を選
択する。
【0026】また、棄却判定部47は、補正イメージ選
択部46で選択された補正文字イメージCi3の文字と
しての信頼度を判定し、信頼度が所低値より高い場合は
その文字コードを出力し、そうでなければリジェクトコ
ード(棄却コード)を出力する。
【0027】図2は、図1の文字認識装置100による
文字認識動作例を示すフローチャートであり、各ステッ
プの動作シーケンスの制御は制御部によって行われる。
また、図3は読み込み文字イメージの例を示す図であ
る。また、図4は罫線等の除去後の文字イメージの例を
示す図であり、図5は図4での罫線等の除去後の文字
「9」を例とした補正イメージ及び認識結果を示す図で
ある。
【0028】ステップS1:(罫線等の除去) 図2で、罫線除去部10はDRAM等の一時記憶メモリ
に取り込まれた非ドロップアウトカラーの帳票又は原稿
(図3の例では文字、「2」、「9」が記入されてい
る)の読み込みイメージIm1の罫線等(図3の例では
符号31、32で示される罫線及び符号33で示される
枠線)を除去した文字イメージIm2(図4)を得て、
DRAM等の一時記憶メモリに記憶する。
【0029】ステップS2:(文字の切り出し) 次に、文字切り出し部20は上記ステップS1で罫線等
が除去されたイメージIm2から1文字ずつ文字イメー
ジを切り出して、切り出し文字イメージCi1(図4の
例では符号41、42で表される各切り出し文字イメー
ジ)を取得する。
【0030】ステップS3:(罫線接触情報の取得及び
格納) また、文字切り出し部20は上記ステップS2で切り出
した切り出し文字イメージのもつ罫線接触情報を文字単
位の罫線接触情報If2(例えば、文字の接触方向、接
触個所数、接触部分の位置(座標)、接触部分の罫線等
の太さ)に変換し(図4の例では切り出し文字イメージ
41、42の2つの罫線接触情報を得て)罫線接触情報
格納部30に格納する(罫線等と接触していない文字が
あった場合は「罫線接触なし」を意味する罫線接触情報
(例えば、接触個所数=0)が格納される)。例えば、
図4に示す2文字の切り出しイメージのうち符号42で
表される文字イメージを例とすると、図3で文字「9」
は右側の罫線32に3ヵ所の部分51,52,53で接
触しているので、ステップS1で罫線除去を行うと符号
42に示すような切り出しイメージとなる(つまり、上
記ステップS2で図5に示すような1ヵ所が開いたまま
の1文字イメージが切り出される)。また、この例で、
文字切り出し部20は文字イメージの罫線接触情報とし
て文字イメージ42と接触した罫線32の位置(つまり
罫線32と文字「9」の接触部分の両端の位置51、5
2と、罫線32の下側で文字「9」が接触した位置53
を罫線接触情報格納部30に格納する。なお、実施例で
は位置51、52、53を座標値(X、Y)で表してい
るがこれに限定されない。
【0031】ステップS4:(切り出した文字イメージ
の特徴抽出) 特徴抽出部41は、上記ステップS2で切り出された1
つの文字イメージCi1(例えば、図5の切り出し文字
イメージ)から特長抽出を行い特徴量Fd1を算出す
る。
【0032】ステップS5:(切り出した文字イメージ
の認識候補情報の取得) 次に、識別部43は上記ステップS4で算出された文字
イメージCi1の特徴量Fd1と辞書部42の各テンプ
レートに格納されている標準的な特徴量Fddとの距離
計算を行い、距離の小さい順(特徴の近い順)から上位
3位までの認識候補文字コードCo1及び距離計算結果
Di1を認識候補情報として取得する(例えば、図5の
切り出し文字イメージについて、上記ステップS5の識
別処理を行った結果、認識第3位までの認識候補文字コ
ードCo1は第1認識候補文字コードと第2認識候補文
字コードが「3」を示す文字コードであり、第3認識候
補文字コードは「9」といったように認識文字コードが
取得され、それぞれについて対応する距離計算結果が取
得される)。なお、実施例では取得する認識文字コード
Co1の数を3つ(第1〜第3位)としたが認識文字コ
ードCo1の数はこれに限定されない。
【0033】ステップS6:(補正イメージ群の取得) イメージ補正処理部45では、予測形状情報部44に格
納されている形状情報Finとここまでの動作で取得し
た条件(切り出し文字イメージ(例えば、文字イメージ
42)の罫線接触情報If2、認識候補文字候補Co1
及び距離計算結果Di1))を基に予測形状情報部44
からここまでの動作で取得した条件を満たす形状情報を
取得する。次に、対象となる切り出し文字イメージにつ
いて、対応する識別部43で得られた候補文字のコード
Co1、及び距離Di1と、罫線接触情報格納部30に
格納されている罫線接触情報fi2とを基に、予測形状
情報部44に格納されている形状情報Finから予測さ
れる形状に近づけるように補正する動作を予測される全
ての形状の数だけ繰り返し、補正イメージCi2群を得
る(例えば、図5の切り出し文字イメージの場合は、予
測形状情報部44から文字「3」の可能性がある場合の
補正イメージ(図6(a))と、文字「8」の可能性が
ある場合の補正イメージ(図6(b))と文字「9」の
可能性がある場合の補正イメージ(図6(c))とを得
ることができる)。
【0034】ステップS7:(補正イメージ選択処理) 補正イメージ選択部46では、上記ステップS6でイメ
ージ補正処理部45によって得られた補正イメージCi
2群(図5の文字イメージの場合の例では上述した3種
類類の補正イメージCi2)のうち、所定の選択方法に
より最も信頼度の高い形状の補正イメージを補正イメー
ジCi3として選択する。この場合の選択方法として、
実施例では、それぞれの補正イメージCi2の識別処理
を行って補正イメージの選択を行う。つまり、それぞれ
の補正イメージCi2の特徴量を算出し、辞書部42の
各テンプレートに格納されている標準的な特徴量Fdd
との距離計算を行い、その結果を基にそれぞれの補正イ
メージCi2のうち距離が最も小さく他のカテゴリーと
の距離が最も離れている補正イメージCi3を選択する
(図5の例では上述の3種類の補正イメージのうち、距
離の最も小さく他のカテゴリーとの距離が最も離れてい
る(すなわち、一番信頼度の高い)「9」の形状に近づ
けて補正したい図6(c)の補正イメージが選択され
る)。なお、選択方法はこの方法に限定されない。
【0035】ステップS8:(文字としての信頼性の判
定) 次に、棄却判定部47で、上記ステップS7で補正イメ
ージ選択部46によって選択された補正イメージCi3
に対し、辞書部42の各テンプレートに格納されている
標準的な特徴量Fddとの距離計算を行い、その距離r
と所定の閾値δを比較し、r−δ<0(つまり、距離<
閾値)の場合に絶対的な信頼性ありと評価してS9に移
行し、そうでない場合にはS10に移行する。
【0036】ステップS9:(文字認識コードの出力) 制御部は特徴量Fddとの距離が閾値より小さい場合に
は選択された補正イメージについて上記ステップS7で
辞書部42から得られる文字コードを認識文字コードと
して出力し、1文字分の認識処理を終了する。
【0037】ステップS10:(リジェクトコードの出
力) 制御部は特徴量Fddとの距離が閾値より小さい場合に
はリジェクトコードを出力し、1文字分の認識処理を終
了する。
【0038】上記構成により、罫線等の除去処理(S
1)により図5のように真のイメージ情報を失っても図
6(c)のような補正イメージを取得して信頼度の高い
認識結果を出力することができる。
【0039】図7は本発明の文字認識装置の他の実施例
の構成を示すブロック図であり、取得された補正イメー
ジの信頼度を所定の優先順位(補正を行う際の順序に基
づく優先度)に従って調べその補正イメージの信頼度が
低い場合には次の順位の補正イメージの信頼度を調べる
動作を繰り返して文字イメージとしての信頼度の高い補
正イメージを取得可能に構成した例である。
【0040】図7で、文字認識装置100’は、罫線除
去部10、文字切り出し部20、罫線接触情報格納部3
0及び文字認識ブロック40’から構成されている。な
お、図1の文字認識装置100と同様に図示していない
が文字認識装置100’はCPUおよびその周辺回路か
らなり、これら各構成部分の動作制御及び文字認識装置
全体の動作を制御する制御部を備えている。
【0041】ここで、罫線除去部10、文字切り出し部
20及び罫線接触情報格納部30の構成、機能及び動作
は図1の文字認識装置100の場合と同様である。
【0042】また、文字認識ブロック40’は、特徴抽
出部41、辞書部42、識別部43、予測形状情報部4
4、イメージ補正処理部45’、補正イメージ判定部4
6’及び棄却判定部47を備え、特徴抽出やイメージ補
正処理等を行った後、文字認識を行う。
【0043】ここで、文字認識ブロック40’で特徴抽
出部41、辞書部42、識別部43、予測形状情報部4
4及び棄却判定部47の構成、機能及び動作は図1の文
字認識装置100の文字認識部40の場合と同様であ
る。また、イメージ補正処理部45’は、識別部43で
得られた候補文字の文字コードCo1及び距離Di1
と、罫線接触情報格納部30に格納されている罫線接触
情報fiを基に、切り出された文字イメージCi1を所
定の優先順位に従い予測される形状に近づけるように補
正する動作を予測される全ての形状について繰り返し、
補正イメージCi2群を得る。なお、文字切り出し部2
0で切り出された文字イメージCi1について優先順位
に従って何回かイメージ補正を行ってもこれ以上補正す
るイメージがない場合はリジェクトコード(棄却コー
ド)を出力する。また、ここでいう優先順位は切り出し
文字イメージが補正を行う際の補正順位であり、例え
ば、上、中、下の罫線と接触しているイメージを補正す
る場合どの順序から先に補正するかを定める(例えば、
上→中→下、或いは下→中→上)ものであり、予測情報
の1部をなしている。
【0044】また、補正イメージ判定部46’はイメー
ジ補正処理部45’で補正された補正イメージCi2の
イメージとしての信頼度を判定し、信頼度があると判定
した場合にはその補正イメージを文字イメージCi3と
して棄却判定部47に出力し、そうでない場合には再度
イメージ補正処理部45’でイメージ補正を行うために
イメージ補正処理部45’に補正イメージCi2を切り
出し文字として与える。図8は、図7の文字認識装置1
00’による文字認識動作例を示すフローチャートであ
り、優先順位に従って切り出し文字イメージの補正を行
う補正イメージ作成ステップ(S6’)と補正イメージ
の信頼度を判定するステップ(S7’)を設け、作成さ
れた補正イメージの信頼度が低い場合に再度補正の作成
を繰り返して新たな文字イメージを取得可能とした例で
ある。また、各ステップの動作シーケンスの制御は制御
部によって行われる。また、図8でステップS1〜S5
(罫線等の除去〜切り出した文字の識別処理)とS8〜
S10(棄却判定〜コード出力)までの動作は図2の文
字認識動作と同様である。以下、S6’及びS7’の動
作について説明する。
【0045】ステップS6’:(補正イメージ群の取
得) 図8で、イメージ補正処理部45’は、文字切り出し部
20で切り出された文字イメージCi1に対応してここ
までの動作で取得した条件(切り出し文字イメージ(例
えば、文字イメージ42)の罫線接触情報If2、認識
候補文字候補Co1及び距離計算結果Di1))を基に
予測形状情報部44からここまでの動作で取得した条件
を満たす形状情報を所定の優先順位に従って取得し、切
り出された文字イメージCi1を所定の優先順位に従い
予測される形状に近づけるように補正する動作を予測さ
れる全ての形状について繰り返し、補正イメージCi2
群を得てS7’に移行する。なお、補正イメージCi2
が得られない場合はS10(リジェクトコードの出力処
理)に移行する。
【0046】ステップS7’:(補正イメージの信頼度
判定) 補正イメージ判定部46’はイメージ補正処理部45’
で補正された補正イメージCi2群の中のそれぞれの補
正イメージについてイメージとしての信頼度を判定し、
信頼度があると判定した補正イメージの中で最も信頼性
の高い補正イメージを認識候補文字イメージCi3とし
て棄却判定部47に出力してS8に移行し、そうでない
場合には再度イメージ補正処理部45’でイメージ補正
を行うためにイメージ補正処理部45’に補正イメージ
Ci2を切り出し文字として与え、S6’に戻る。ま
た、補正イメージCi2群の信頼性判定方法として、実
施例では、それぞれの補正イメージCi2の特徴量を算
出し、辞書部42の各テンプレートに格納されている標
準的な特徴量Fddとの距離計算を行い、その結果を基
にそれぞれの補正イメージCi2のうち距離r’が閾値
δ’(δ’>δ)より小さく(つまり、r’−δ’<
0)他のカテゴリーとの距離が離れている補正イメージ
Ci3を抽出すると共に、それらの補正イメージのうち
その上位候補文字の文字コードCo1が一致数が最も多
い補正イメージを抽出して認識候補文字イメージとす
る。なお、信頼性判定方法はこの方法に限定されない以
下、図7の文字認識装置100’による文字認識の具体
的動作例について上記図8のフローチャート(S1〜S
5、S8〜S10については図2のフローチャート)を
基に説明する。
【0047】読み込みイメージIm1を図3に示したイ
メージとし、罫線除去部10により罫線等を除去したイ
メージIm2を図4に示したイメージとする(S1)。
ここで、文字切り出し部20により2文字分の文字イメ
ージCi1が切り出される(S2)。以下、切り出され
た2文字分の文字イメージのうち、下側1ヵ所が枠線3
2と接触し、底部の情報を失ってしまったイメージ41
(文字「2」(図9(a))を例とする。
【0048】また、文字切り出し部20により切り出し
た図9(a)に示す切り出しイメージ41について枠線
32の下側と接触している部分(81)の位置、接触個
所数(1ヵ所)及び罫線の太さを罫線接触情報If2と
して罫線接触情報格納部30に格納される(S3)。
【0049】次に、特徴抽出部41で切り出しイメージ
41に対して特徴抽出を行って特徴量Fd1を算出し
(S4)、識別部43でこの特徴量Fd1と辞書部14
2の各テンプレートに格納されている標準的な特徴量F
ddとの距離計算を行い、距離の小さい順(特徴の近い
順)から上位3位までの認識候補文字コードCo1及び
距離計算結果Di1を認識候補情報として取得する(S
5)。なお、説明上、ここで得られた第3位までの認識
候補文字コードCo1は第1位認識文字コードと第2位
認識文字コードが「7」を示す文字コードであり、第3
位認識文字コードが「9」を示す文字コードとする。
【0050】次に、イメージ補正処理部45’では、予
測形状情報部44から上記ステップS5で得た認識候補
情報(認識候補文字コードCo1及び距離計算結果Di
1)と、罫線接触情報格納部30に格納されているこの
切り出し文字イメージ(図9(a))の罫線接触情報I
f2を満たす予測形状情報を取得し、切り出された文字
イメージを所定の優先順位に従い予測される形状に近づ
けるように補正する動作を予測される全ての形状につい
て繰り返し、補正イメージ群を得る(切り出しイメージ
41の場合は最初のサイクル(S6’、S7’のサイク
ル)で予測形状情報から「7」の可能性があるとされて
図9(b)の補正イメージCi2を得る)(S6’)。
【0051】次に、補正イメージ判定部46’は上記ス
テップS6’で得た補正イメージ「7」の信頼性を判定
する。ここで、図9(b)の「7」の文字イメージと辞
書部42で持っている標準的な特徴Fddとの距離が大
きい(r’−δ’>0)とすると、補正イメージ判定部
46’はイメージとしての信頼性が低いと判定して再度
イメージ判定を行うためにS6’に移行する(S
7’)。
【0052】イメージ補正処理部45’は、上記ステッ
プS2で得た切り出しイメージ41に対して、切り出さ
れた文字イメージ41を次の優先順位に従い予測される
形状に近づけるように補正する動作を予測される全ての
形状について繰り返し、新たな補正イメージ(図9
(c)に示す「2」の補正イメージ)を取得する(S
6’)。
【0053】再び、S7’で補正イメージ判定部46’
で上記ステップS6’で得た補正イメージ「2」の信頼
性を判定する。ここで、図9(c)の「2」の文字イメ
ージと辞書部42で持っている標準的な特徴Fddとの
距離が小さいとすると、「2」の文字イメージは(前述
したように)第1候補および第2候補として文字コード
Co1が一致し、上位候補では最も一致数が多いので、
補正イメージ判定部46’はイメージとしての信頼性が
高いと判定して棄却判定のためS8に移行する。
【0054】ステップS8(図2)で、棄却判定部47
は上記ステップS7’で得られた補正イメージCi3に
対し、辞書部42の各テンプレートに格納されている標
準的な特徴量Fddとの距離計算を行い、その距離rと
所定の閾値δを比較する(この例では、認識候補(補正
イメージCi3)「2」の距離r−δ<0(つまり、距
離<閾値)とするとS9に移行して文字「2」の文字コ
ードが出力され、そうでない場合にはS10に移行して
リジェクトコードが出力される。
【0055】上記構成により、罫線除去処理によって図
9(a)に示したように文字が真のイメージの情報を失
っても第10(c)のように失った文字イメージを再現
した補正イメージを取得することができるので、信頼性
の高い認識結果を得ることができる。
【0056】以上、本発明のいくつかの実施例について
説明したが本発明はこれらの実施例に限定されるもので
はなく、種々の変形実施が可能であることはいうまでも
ない。
【0057】
【発明の効果】上記説明したように、第1〜第6の発明
の文字認識方法及び第4の発明の文字認識装置によれ
ば、罫線除去の際、罫線と接触していた部分の情報を保
持しておき、その情報を用いて文字イメージを補正する
ので、ストローク方向のいかんによらず文字イメージの
補正ができ、また、罫線に接触していた文字が幾つかの
部分(ブロック)に分離されても補正を行うことができ
るので非ドロップアウトカラーの罫線等を1色刷りした
帳票等を用いても認識率の高い文字認識を実現できる。
【図面の簡単な説明】
【図1】本発明の文字認識装置の一実施例の構成を示す
ブロック図である。
【図2】図1の文字認識装置による文字認識動作例を示
すフローチャートである。
【図3】読み込み文字イメージの例を示す図である。
【図4】罫線等の除去後の文字イメージの例を示す図で
ある。
【図5】1文字切り出し後の文字イメージの一例を示す
図である。
【図6】切り出された文字を例としたイメージ補正及び
認識結果を示す図である。
【図7】本発明の文字認識装置の一実施例の構成を示す
ブロック図である。
【図8】図7の文字認識装置による文字認識動作例を示
すフローチャートである。
【図9】切り出された文字を例としたイメージ補正及び
認識結果を示す図である。
【図10】本発明の文字認識方法による認識結果と、従
来の文字認識方法による認識結果の比較説明図である。
【符号の説明】
10 罫線除去部(罫線除去手段) 20 文字切り出し部(切り出し手段、罫線接触情報取
得手段) 41 特長抽出部(文字認識手段) 42 辞書部(文字認識手段) 43 識別部(文字認識手段) 45,45’ イメージ補正処理部(イメージ補正手
段) 46 補正イメージ選択部(補正イメージ選択手段) 46’ 補正イメージ判定部(補正イメージ判定手段) 47 棄却判定部(認識文字出力評価手段) 100,100’ 文字認識装置

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 読み取った原稿の読み取りイメージから
    罫線等のイメージを取り除いて1文字ずつ文字イメージ
    を切り出して文字認識を行う文字認識方法であって、 前記文字イメージの切り出しの際に切り出された文字イ
    メージと罫線等との接触情報を取得し、この切り出され
    た文字の認識処理を行い、 前記認識処理で得られた認識結果と前記接触情報を基
    に、前記切り出された文字イメージを予め登録された予
    測形状情報から予測される形状に近づけるように補正し
    た補正イメージ群を得て、この補正イメージ群の中から
    認識候補イメージを選択し、 この認識候補イメージに対応する認識文字を出力するか
    否かの評価を行う、ことを特徴とする文字認識方法。
  2. 【請求項2】 読み取った原稿の読み取りイメージから
    罫線等のイメージを取り除いて1文字ずつ文字イメージ
    を切り出して文字認識を行う文字認識方法であって、 前記文字イメージの切り出しの際に切り出された文字イ
    メージと罫線等との接触情報を取得し、この切り出され
    た文字の認識処理を行い、 前記認識処理で得られた認識結果と前記接触情報を基
    に、前記切り出された文字イメージを予め登録された予
    測形状情報から予測される形状に近づけるように補正し
    た補正イメージ群を得て、この補正イメージ群中の補正
    イメージが所定の条件を満たしているか否かを調べ、前
    記所定の条件を満たした補正イメージの中から認識候補
    イメージを抽出し、 この認識候補イメージに対応する認識文字を出力するか
    否かの評価を行う、ことを特徴とする文字認識方法。
  3. 【請求項3】 前記補正イメージ群中の全ての補正イメ
    ージが前記所定の条件を満たさない場合に、更に、前記
    文字イメージの認識結果と前記接触情報を基に、前記切
    り出された文字イメージについて、所定の補正優先順位
    により、予め登録された予測形状情報から予測される形
    状に近づけるように補正した補正イメージ群を得て、更
    に、この補正イメージ群中の補正イメージが所定の条件
    を満たしているか否かを調べ前記所定の条件を満たした
    補正イメージの中から認識候補イメージを抽出する動作
    を繰り返す、ことを特徴とする請求項2記載の文字認識
    方法。
  4. 【請求項4】 読み取った原稿の読み取りイメージから
    罫線等のイメージを取り除く罫線除去手段と、 この罫線除去手段によって罫線等が取り除かれた文字イ
    メージから1文字ずつ文字イメージを切り出す切り出し
    手段と、 前記罫線除去手段によって罫線等が取り除かれた文字イ
    メージから罫線等が接触していた部分の接触情報を取得
    する罫線接触情報取得手段と、 前記切り出し手段によって切り出された文字イメージの
    認識処理を行なう認識手段と、 前記認識手段による認識処理によって得られた認識結果
    と前記接触情報を基に、前記切り出された文字イメージ
    を予め登録された予測形状情報から予測される形状に近
    づけるように補正した補正イメージ群を得るイメージ補
    正手段と、 前記イメージ補正手段によって得られた補正イメージ群
    の中から認識候補イメージを選択する補正イメージ選択
    手段と、 前記補正イメージ選択手段によって得られた認識候補イ
    メージに対応する認識文字を出力するか否かの評価を行
    う認識文字出力評価手段と、を備えたことを特徴とする
    文字認識装置。
  5. 【請求項5】 読み取った原稿の読み取りイメージから
    罫線等のイメージを取り除く罫線除去手段と、 この罫線除去手段によって罫線等が取り除かれた文字イ
    メージから1文字ずつ文字イメージを切り出す切り出し
    手段と、 前記罫線除去手段によって罫線等が取り除かれた文字イ
    メージから罫線等が接触していた部分の接触情報を取得
    する罫線接触情報取得手段と、 前記切り出し手段によって切り出された文字イメージの
    認識処理を行なう認識手段と、 前記認識手段による認識処理によって得られた認識結果
    と前記接触情報を基に、前記切り出された文字イメージ
    を予め登録された予測形状情報から予測される形状に近
    づけるように補正した補正イメージ群を得るイメージ補
    正手段と、 前記文字イメージ補正手段による補正後の文字イメージ
    が所定の条件を満たしているか否かを判定し、所定の条
    件を満たした補正イメージの中から認識候補イメージを
    抽出する補正イメージ判定手段と、 前記補正イメージ判定手段によって得られた認識候補イ
    メージに対応する認識文字を出力するか否かの評価を行
    う認識文字出力評価手段と、を備えたことを特徴とする
    文字認識装置。
  6. 【請求項6】 前記イメージ補正手段は、前記補正イメ
    ージ判定手段による判定の結果、全ての補正イメージが
    所定の条件を満たさない場合に、前記文字イメージの認
    識結果と前記接触情報を基に、更に、前記切り出された
    文字イメージを、所定の補正優先順位により、予め登録
    された予測形状情報から予測される形状に近づけるよう
    に補正する手段を含む、ことを特徴とする請求項5記載
    の文字認識装置。
JP33116399A 1999-11-22 1999-11-22 文字認識方法及び文字認識装置 Pending JP2001147988A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33116399A JP2001147988A (ja) 1999-11-22 1999-11-22 文字認識方法及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33116399A JP2001147988A (ja) 1999-11-22 1999-11-22 文字認識方法及び文字認識装置

Publications (1)

Publication Number Publication Date
JP2001147988A true JP2001147988A (ja) 2001-05-29

Family

ID=18240593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33116399A Pending JP2001147988A (ja) 1999-11-22 1999-11-22 文字認識方法及び文字認識装置

Country Status (1)

Country Link
JP (1) JP2001147988A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074269A (ja) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk 文字認識方法
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074269A (ja) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk 文字認識方法
JP4580520B2 (ja) * 2000-08-28 2010-11-17 株式会社日本デジタル研究所 文字認識方法および文字認識装置
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image

Similar Documents

Publication Publication Date Title
JP3842006B2 (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
JP3092576B2 (ja) 文字認識装置
JP3099797B2 (ja) 文字認識装置
JP2001147988A (ja) 文字認識方法及び文字認識装置
JP5439069B2 (ja) 文字認識装置及び文字認識方法
JPH02293989A (ja) 文字認識装置
JP7338159B2 (ja) 情報処理装置及びプログラム
JP3794285B2 (ja) 光学式文字読取装置
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
JP2001143021A (ja) 文字認識方法及び文字認識装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP3998439B2 (ja) 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム
JP4580520B2 (ja) 文字認識方法および文字認識装置
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法
JP3138665B2 (ja) 手書き文字認識方式および記録媒体
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2000207490A (ja) 文字切出装置、および文字切出方法
JP3919390B2 (ja) 文字認識装置
JP3662967B2 (ja) 文字ループ候補抽出装置及び文字補完装置
JPH0632074B2 (ja) 正規化方法
JPH0816720A (ja) 文字認識装置
JPH07220028A (ja) 文字認識装置
JPH03122786A (ja) 光学的文字読取装置
JPH05166010A (ja) 文字切出方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100316