JP2000331118A - 画像処理装置及び記録媒体 - Google Patents

画像処理装置及び記録媒体

Info

Publication number
JP2000331118A
JP2000331118A JP11135127A JP13512799A JP2000331118A JP 2000331118 A JP2000331118 A JP 2000331118A JP 11135127 A JP11135127 A JP 11135127A JP 13512799 A JP13512799 A JP 13512799A JP 2000331118 A JP2000331118 A JP 2000331118A
Authority
JP
Japan
Prior art keywords
character
absence
area
function
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11135127A
Other languages
English (en)
Inventor
Fumihiro Hasegawa
史裕 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11135127A priority Critical patent/JP2000331118A/ja
Publication of JP2000331118A publication Critical patent/JP2000331118A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

(57)【要約】 【課題】 線幅に頼らず領域毎に最適な二値化閾値を与
えること及び、文字が無い領域では認識部にノイズを渡
さないようにする。 【解決手段】 濃淡画像から光学的文字認識に適した二
値画像を生成する画像処理装置であって、濃淡画像を入
力する濃淡画像入力手段1と、文字認識の対象となる前
記画像上の領域を特定する文字記入位置特定手段2と、
各領域毎に二値化閾値を算出する二値化閾値算出手段3
と、領域内の文字の有無を判定する領域内文字有無判定
手段4と、前記文字の有無情報を参照して二値画像を生
成する二値画像生成手段5とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、紙面に記入された
文字を光学的に認識する画像処理装置及びこれに用いら
れる記録媒体に関し、濃淡画像から文字が鮮明に再現さ
れた二値画像を生成し、文字認識の精度向上を図る技術
に関する。
【0002】
【従来の技術】光学的文字認識装置は、現在多くの技術
が提案されているが、そのほとんどが二値画像を対象と
したものであるので、二値画像の状態が認識精度を大き
く左右する。そのため、文字認識に好適な二値画像を生
成するために多くの技術が提案されている。
【0003】特開平10−143608号公報は、濃淡
画像を適当な閾値で二値化し、できた二値画像上の平均
線幅を計算してその値が規定範囲外にある場合は、文字
認識に不適であると判断して二値化をやり直すことによ
り、文字認識に好適な二値画像を生成するものである。
【0004】
【発明が解決しようとする課題】現在流通している帳票
には、図10(a)のように、背景が複数の色で印刷さ
れているものが存在する。記入される文字は大抵明度の
低い色(黒、紺など)であるため、白でない背景は、明
度の高い色で印刷されており、そこに文字が記入された
場合でも、人間が見て見づらいということはない。以
下、このような領域を中間色領域と呼ぶことにする。
【0005】ところが、この明度の高い色はほとんどの
場合、比較的明度の低い色のドットを非常に細かく印刷
することで表現している。この中間色領域部分を二値化
した場合、同図(b)のように、二値化閾値によっては
数ドット程度の細かいノイズ(黒画素)が非常に多く現
れることがある。なお、同図(c)は後述する本発明に
よる二値化結果を示している。
【0006】上述の従来技術では、これら細かいノイズ
を線幅判定に加えてしまうため、正しい閾値決定が難し
い。また、領域内に文字が全く無い場合にも、ノイズを
手掛かりに二値化閾値の決定を行うことで、誤ってノイ
ズを文字画像として認識部に渡すことになり、どちらも
誤認識の原因となる。
【0007】本発明は、線幅に頼らず領域毎に最適な二
値化閾値を与えること及び、文字が無い領域では認識部
にノイズを渡さないようにすることができる画像処理装
置及び記録媒体を提供することを目的とするものであ
る。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、濃淡画像から光学的文字認
識に適した二値画像を生成する画像処理装置であって、
濃淡画像を入力する濃淡画像入力手段と、文字認識の対
象となる前記画像上の領域を特定する文字記入位置特定
手段と、各領域毎に二値化閾値を算出する二値化閾値算
出手段と、領域内の文字の有無を判定する領域内文字有
無判定手段と、前記文字の有無情報を参照して二値画像
を生成する二値画像生成手段とを備えることを特徴とす
るものである。
【0009】また上記目的を達成するために、請求項2
記載の発明は、請求項1記載において、領域内文字有無
判定手段は、求められた二値化閾値で各文字領域内を二
値化した場合の画素の連結成分を抽出する連結成分抽出
手段と、連結成分の数を数える連結成分計数手段と、連
結成分の数から文字の有無を評価する評価値を算出する
文字有無評価値算出手段とを備えることを特徴とするも
のである。
【0010】また上記目的を達成するために、請求項3
記載の発明は、請求項1記載において、領域内文字有無
判定手段は、求められた二値化閾値で各文字領域内を二
値化した場合の各文字領域内のエッジを数えるエッジ数
計数手段と、エッジの数から文字の有無を評価する評価
値を算出する文字有無評価値算出手段とを備えることを
特徴とするものである。
【0011】また上記目的を達成するために、請求項4
記載の発明は、濃淡画像から光学的文字認識に適した二
値画像を生成する機能をコンピュータに実現させるプロ
グラムを格納した記録媒体であって、該プログラムは、
濃淡画像を入力する機能、文字認識の対象となる前記画
像上の領域を特定する機能、各領域毎に二値化閾値を算
出する機能、領域内の文字の有無を判定する機能、前記
文字の有無情報を参照して二値画像を生成する機能をコ
ンピュータに実現させるものであることを特徴とするも
のである。
【0012】また上記目的を達成するために、請求項5
記載の発明は、請求項4記載において、文字の有無を判
定する機能として、二値化閾値で各文字領域内を二値化
した場合の画素の連結成分を抽出する機能と、連結成分
の数を数える機能と、連結成分の数から文字の有無を評
価する評価値を算出する機能とを備えることを特徴とす
るものである。
【0013】また上記目的を達成するために、請求項6
記載の発明は、請求項4記載において、文字の有無を判
定する機能として、二値化閾値で各文字領域内を二値化
した場合の各文字領域内のエッジを数える機能と、エッ
ジの数から文字の有無を評価する評価値を算出する機能
とを備えることを特徴とするものである。
【0014】
【発明の実施の形態】以下、本発明の実施の形態を添付
図面に従って説明する。図1は第1の実施の形態を示す
画像処理装置の構成図である。文字認識を行いたい帳票
原稿を濃淡画像として読み込むスキャナ等の濃淡画像入
力手段1、帳票上の文字の記入欄の位置を特定する文字
記入位置特定手段2、ある文字記入欄の二値化閾値を決
める二値化閾値算出手段3、文字領域内に文字が記入さ
れているか否かを判断する領域内文字有無判定手段4、
濃淡画像を基に、決定された閾値などから二値画像を生
成する二値画像生成手段5を備えている。
【0015】図2は画像処理手順の第1の例を示すフロ
ーチャートである。濃淡画像入力手段1を用いて画像を
入力する(ステップ101)。次に文字の記入位置を文
字記入位置特定手段2により特定する(ステップ10
2)。これには様々な方法が考えられるが、特開平10
−91783号公報にあるように、未記入の同一フォー
マットの帳票画像との位置合わせを行い、この画像上の
位置座標値で定義された文字記入欄から処理対象の画像
上の文字記入欄の位置を推定する方法などを用いる。
【0016】文字記入欄の位置推定の後、二値化閾値算
出手段3により二値化閾値の算出を行う(ステップ10
3)。ここでは判別分析法で閾値を決定する。判別分析
法とは、画像の濃度値ヒストグラムにおいて、濃度値の
集合を閾値tで2つのクラスに分割したときに、クラス
内の分散が最小、クラス間の分散が最小となるようなt
を閾値として決める方法である。
【0017】具体的には、閾値t未満の濃度値のクラス
を1、t以上のクラスを2と置き、それぞれのクラス内
の分散をv1 ,v2 、濃度平均値をe1 ,e2 、画素数
をn 1 ,n2 と置いたとき、クラス内分散vc とクラス
間分散vb を、 vc (t)=n1 1 +n2 2b (t)=n1 2 (e1 −e2 2 で定義する。このとき、 vb (t)/vc (t) が最大となるtを閾値とする。
【0018】判別分析法で閾値を決定すると、白い領域
に文字が記入された場合に加え、中間色領域に文字が記
入された場合にも、背景を白、文字を黒として綺麗に二
値化が行える。ところが、領域内に文字が存在しない場
合、クラスの分割を強引に行うことになるので、できた
二値画像は白黒入り混じった画像になってしまうことは
前述した通りである。この画像を認識部に渡すと文字の
存在しない領域に対して、文字があるとの認識結果を生
み兼ねない。そこで、領域内文字有無判定手段4で文字
の有無を判定する(ステップ104)。文字の有無判定
には幾つかの方法が考えられるが、本実施例では画素の
連結成分の個数を用いる。
【0019】図3は領域内文字有無判定手段の第1の例
を示す構成図である。図2のステップ103で求められ
た二値化閾値で文字領域内を二値化した場合の、連結成
分を求める連結成分抽出手段201、連結成分の個数を
数える連結成分計数手段202、連結成分の個数から文
字の有無を判定する評価値を計算する文字有無評価値算
出手段203を備えている。
【0020】図4は図3に示す領域内文字有無判定手段
による処理手順を示すフローチャートである。図2に示
すステップ104内の詳細な流れを説明する。まず、連
結成分抽出手段201で黒画素及び白画素の連結成分を
抽出する(ステップ301)。次に連結成分計数手段2
02で各連結成分の個数を数える(ステップ302)。
【0021】図5に示した例では、黒画素の連結成分が
5個、白画素の連結成分が3個である。次に文字有無評
価値算出手段203で評価値を求める(ステップ30
3)。本実施例では、領域内の全画素数をN、白画素、
黒画素の連結成分数をそれぞれw,bと置いた場合の、 R1 =(w+b)/N を評価値とする。
【0022】評価値が予め定められた値より大きい場合
には、文字がない領域に無理に二値化閾値を決めたた
め、白黒入り混じった画像になったと判断されるので、
文字なしと判定する(ステップ305)。逆に小さい場
合には、文字を正しく二値化したと判断されるので、文
字ありと判定する(ステップ306)。
【0023】次に、再び図2のフローに戻る。ステップ
104で文字がないと判断された場合には、誤って認識
を行わないように二値画像生成手段5で領域内をすべて
白画素にする処理を行う(ステップ105)。一方、文
字があると判断された領域では、先に求めた閾値で二値
化を行う(ステップ106)。このようにして、認識対
象となっている領域すべてに二値化処理を行うまで処理
を繰り返し(ステップ107)、終了したら二値画像を
出力して(ステップ108)認識部に渡し、処理を終了
する。
【0024】図6は領域内文字有無判定手段の第2の例
を示す構成図である。図6に示す領域内文字有無判定手
段4は、連結成分のエッジ数に着目して文字有無判定を
行うものであり、二値化した領域内のエッジ数を数える
エッジ数計数手段401、エッジ数から領域内の文字の
有無を吟味する評価値を算出する文字有無評価値算出手
段402を備えている。
【0025】図7は図6に示す領域内文字有無判定手段
による処理手順を示すフローチャートである。上記と同
様、図2に示すステップ104内の詳細な流れを示すも
のである。まず、エッジ数計数手段401でエッジを数
える(ステップ501)。エッジは図8に示すように、
領域内を横方向に走査し、白黒が変動する回数を合計し
た後、縦方向に走査して同様の操作を行い、それらを合
計して求める(図8の例では領域のエッジ数=16+2
0=36)。
【0026】次に、文字有無評価値算出手段402で、
エッジ数を基に評価値を計算する(ステップ502)。
本実施例での評価値は、エッジ数をe、領域内の総画素
数をNとおいて、 R2 =e2 /N で計算する。
【0027】この評価値R2 は、文字がない領域に判別
分析法で閾値を決定した場合に現れる、白黒入り混じっ
た二値画像に対しては値が大きくなる傾向がある。よっ
て、評価値R2 の大小で文字の有無を判断できる。評価
値R2 と予め定めて置いた値を比較し(ステップ50
3)、既定値以上ならば文字なしと判定し(ステップ5
04)、図2のステップ105に進む。既定値以下なら
文字ありと判定し(ステップ505)、図2のステップ
106へ進む。
【0028】図9は第2の実施の形態を示す画像処理装
置の構成図である。本実施形態は、請求項4ないし請求
項6記載のソフトウェアによって上記機能を実現する場
合の構成図であり、CPU601、メモリ602、ハー
ドディスク603、入力装置604、CD−ROMドラ
イブ605、ディスプレイ606、マウスなどからなる
汎用の処理装置を用意する。
【0029】CD−ROMなどの記録媒体607には、
本発明の二値画像生成の処理機能や処理手順を実現させ
るためのプログラムが記録されている。また処理対象の
原稿画像は、例えばハードディスク603などに格納さ
れている。CPU601は、記録媒体607から上記し
た処理機能、手順を実現するプログラムを読み出し実行
し、二値画像生成の結果をディスプレイ606などに出
力する。
【0030】
【発明の効果】本発明の画像処理装置は、濃淡画像を入
力する濃淡画像入力手段と、文字認識の対象となる前記
画像上の領域を特定する文字記入位置特定手段と、各領
域毎に二値化閾値を算出する二値化閾値算出手段と、領
域内の文字の有無を判定する領域内文字有無判定手段
と、前記文字の有無情報を参照して二値画像を生成する
二値画像生成手段とを備える。
【0031】またコンピュータ読み取り可能な記録媒体
は、コンピュータに濃淡画像を入力する機能、文字認識
の対象となる前記画像上の領域を特定する機能、各領域
毎に二値化閾値を算出する機能、領域内の文字の有無を
判定する機能、前記文字の有無情報を参照して二値画像
を生成する機能を実現させるためのプログラムを格納し
ている。
【0032】従って、領域毎に背景色が異なる帳票に対
しても、文字認識に好適な二値画像の生成が可能であ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示す画像処理装置
の構成図である。
【図2】画像処理手順の第1の例を示すフローチャート
である。
【図3】領域内文字有無判定手段の第1の例を示す構成
図である。
【図4】図3に示す領域内文字有無判定手段による処理
手順を示すフローチャートである。
【図5】連結成分を数える例を示す図である。
【図6】領域内文字有無判定手段の第2の例を示す構成
図である。
【図7】図6に示す領域内文字有無判定手段による処理
手順を示すフローチャートである。
【図8】エッジの数え方を示す図である。
【図9】本発明の第2の実施の形態を示す画像処理装置
の構成図である。
【図10】二値化の例を示す図である。
【符号の説明】 1 濃淡画像入力手段 2 文字記入位置特定手段 3 二値化閾値算出手段 4 領域内文字有無判定手段 5 二値画像生成手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 濃淡画像から光学的文字認識に適した二
    値画像を生成する画像処理装置であって、 濃淡画像を入力する濃淡画像入力手段と、文字認識の対
    象となる前記画像上の領域を特定する文字記入位置特定
    手段と、各領域毎に二値化閾値を算出する二値化閾値算
    出手段と、領域内の文字の有無を判定する領域内文字有
    無判定手段と、前記文字の有無情報を参照して二値画像
    を生成する二値画像生成手段とを備えることを特徴とす
    る画像処理装置。
  2. 【請求項2】 請求項1記載において、 領域内文字有無判定手段は、求められた二値化閾値で各
    文字領域内を二値化した場合の画素の連結成分を抽出す
    る連結成分抽出手段と、連結成分の数を数える連結成分
    計数手段と、連結成分の数から文字の有無を評価する評
    価値を算出する文字有無評価値算出手段とを備えること
    を特徴とする画像処理装置。
  3. 【請求項3】 請求項1記載において、 領域内文字有無判定手段は、求められた二値化閾値で各
    文字領域内を二値化した場合の各文字領域内のエッジを
    数えるエッジ数計数手段と、エッジの数から文字の有無
    を評価する評価値を算出する文字有無評価値算出手段と
    を備えることを特徴とする画像処理装置。
  4. 【請求項4】 濃淡画像から光学的文字認識に適した二
    値画像を生成する機能をコンピュータに実現させるプロ
    グラムを格納した記録媒体であって、 該プログラムは、濃淡画像を入力する機能、文字認識の
    対象となる前記画像上の領域を特定する機能、各領域毎
    に二値化閾値を算出する機能、領域内の文字の有無を判
    定する機能、前記文字の有無情報を参照して二値画像を
    生成する機能をコンピュータに実現させるものであるこ
    とを特徴とするコンピュータ読み取り可能な記録媒体。
  5. 【請求項5】 請求項4記載において、 文字の有無を判定する機能として、二値化閾値で各文字
    領域内を二値化した場合の画素の連結成分を抽出する機
    能と、連結成分の数を数える機能と、連結成分の数から
    文字の有無を評価する評価値を算出する機能とを備える
    ことを特徴とするコンピュータ読み取り可能な記録媒
    体。
  6. 【請求項6】 請求項4記載において、 文字の有無を判定する機能として、二値化閾値で各文字
    領域内を二値化した場合の各文字領域内のエッジを数え
    る機能と、エッジの数から文字の有無を評価する評価値
    を算出する機能とを備えることを特徴とするコンピュー
    タ読み取り可能な記録媒体。
JP11135127A 1999-05-17 1999-05-17 画像処理装置及び記録媒体 Pending JP2000331118A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11135127A JP2000331118A (ja) 1999-05-17 1999-05-17 画像処理装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11135127A JP2000331118A (ja) 1999-05-17 1999-05-17 画像処理装置及び記録媒体

Publications (1)

Publication Number Publication Date
JP2000331118A true JP2000331118A (ja) 2000-11-30

Family

ID=15144454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11135127A Pending JP2000331118A (ja) 1999-05-17 1999-05-17 画像処理装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP2000331118A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299673A (ja) * 2007-05-31 2008-12-11 Sharp Corp 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
US20120076371A1 (en) * 2010-09-23 2012-03-29 Siemens Aktiengesellschaft Phantom Identification
US9076225B2 (en) 2012-09-26 2015-07-07 Nidec Sankyo Corporation Image processing device, an image processing method and a program to be used to implement the image processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299673A (ja) * 2007-05-31 2008-12-11 Sharp Corp 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
US20120076371A1 (en) * 2010-09-23 2012-03-29 Siemens Aktiengesellschaft Phantom Identification
US9076225B2 (en) 2012-09-26 2015-07-07 Nidec Sankyo Corporation Image processing device, an image processing method and a program to be used to implement the image processing

Similar Documents

Publication Publication Date Title
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US7292375B2 (en) Method and apparatus for color image processing, and a computer product
US7054485B2 (en) Image processing method, apparatus and system
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
US6798906B1 (en) Image processing apparatus and method including line segment data extraction
US8385643B2 (en) Determination of inputted image to be document or non-document
JP2000184202A (ja) 走査により生成した画像上における垂直方向に並んだパタ―ンを除去するための画像処理システム
JP2004272798A (ja) 画像読み取り装置
US9076225B2 (en) Image processing device, an image processing method and a program to be used to implement the image processing
JP2002199206A (ja) メッセージ埋込並びに抽出方法、装置および媒体
JP4049560B2 (ja) 網点除去方法及びシステム
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
JP3772262B2 (ja) 画像の型を識別する方法
JP2001222683A (ja) 画像処理方法、画像処理装置、文字認識方法、文字認識装置及び記憶媒体
JP2000331118A (ja) 画像処理装置及び記録媒体
JP3989647B2 (ja) 画像処理方法,装置および記録媒体
JP3830350B2 (ja) カラー画像処理方法、カラー画像処理装置、プログラム、及び記録媒体
JP4116377B2 (ja) 画像処理方法および画像処理装置
JP4409713B2 (ja) 文書画像認識装置及び記録媒体
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP2002279345A (ja) 画像処理装置、画像処理方法及び該方法を実行するためのプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2000040153A (ja) 画像処理方法、画像処理プログラムを記録した媒体及び画像処理装置
JP2001143076A (ja) 画像処理装置
JP2023132586A (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040902

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422