JP6335097B2 - 画像の二値化方法、プログラム及び二値化装置 - Google Patents

画像の二値化方法、プログラム及び二値化装置 Download PDF

Info

Publication number
JP6335097B2
JP6335097B2 JP2014217393A JP2014217393A JP6335097B2 JP 6335097 B2 JP6335097 B2 JP 6335097B2 JP 2014217393 A JP2014217393 A JP 2014217393A JP 2014217393 A JP2014217393 A JP 2014217393A JP 6335097 B2 JP6335097 B2 JP 6335097B2
Authority
JP
Japan
Prior art keywords
pixel
peak
value
binarization
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014217393A
Other languages
English (en)
Other versions
JP2016086273A (ja
Inventor
政憲 横田
政憲 横田
滋子 文野
滋子 文野
雅史 前田
雅史 前田
鵜飼 和歳
和歳 鵜飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2014217393A priority Critical patent/JP6335097B2/ja
Publication of JP2016086273A publication Critical patent/JP2016086273A/ja
Application granted granted Critical
Publication of JP6335097B2 publication Critical patent/JP6335097B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Facsimile Image Signal Circuits (AREA)

Description

本発明は、スキャナ等で読取った多値画像を二値化する二値化方法及びそれを実現するためのプログラム、並びに、二値化装置に関する。
二値化処理では、スキャナ等を介して取り込んだ多値の入力画像(濃淡画像)を或る閾値と比較することで入力画像の各画素を二値化し、これによって二値化画像を得る。例えば、閾値未満の画素値を有する画素を黒であると判断し(黒の画素値にて二値化し)、閾値以上の画素値を有する画素を白であると判断する(白の画素値にて二値化する)。予め定められた固定値を閾値として用いる場合もあるし、入力画像に基づき判別分析法等を用いて閾値を設定する場合もある。
二値化を最適化するための閾値の設定方法が様々に提案されているが、スキャナの分解能不足等に起因して、細い黒線部分が閾値以上となって白であると判断されたり、黒領域に隣接する白色部分が閾値未満となって黒であると判断されたりすることがある。前者は“かすれ”と呼ばれ、後者は“つぶれ”と呼ばれる。
つぶれ又はかすれの対象となり得る画素は、通常、近傍画素に比べて濃度が淡い尾根又は濃度が濃い谷になることに注目し、特許文献1では、近傍画素に比べて尾根又は谷になっている画素を検出し、検出画素に対しては閾値を用いずに二値化を行う一方、非検出画素に対しては閾値を用いて二値化を行っている。特許文献1では、注目画素が尾根又は谷の画素に相当するかを検出する際、注目画素の隣接画素のみ(特許文献1の図7)、又は、注目画素から1画素分隔てた位置に配置される画素のみ(特許文献1の図8又は図9)を参照している。
特開平5−284356号公報
特許文献1の方法により、二値化の過程でかすれ及びつぶれを或る程度は解消できる。即ち、二値化の過程で、或る程度は、かすれた部分を黒と判定し且つつぶれた部分を白と判定することができる。しかしながら、その方法には改善の余地がある(詳細は後述)。
そこで本発明は、かすれやつぶれの解消に寄与する画像の二値化方法、プログラム及び二値化装置を提供することを目的とする。
本発明に係る二値化方法は、多値の入力画像を二値化する二値化方法であって、前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出工程と、前記所定方向に沿って連続して並ぶ5つの画素を含み且つ前記ピーク画素を中心画素として含む評価画素群中の各画素の画素値に基づいて、前記ピーク画素を二値化する二値化工程と、を含むことを特徴とする。
具体的には例えば、前記二値化方法において、前記評価画素群は、前記所定方向において前記ピーク画素の両隣に位置する第1画素及び第2画素と、前記所定方向において前記ピーク画素から見て前記第1画素の外側に位置する第3画素及び前記第2画素の外側に位置する第4画素を含み、前記第1画素は前記ピーク画素及び前記第3画素間に位置するとともに、前記第2画素は前記ピーク画素及び前記第4画素間に位置し、前記二値化工程では、前記ピーク画素と前記第1〜第4画素との間における画素値の第1〜第4差分に基づき、前記ピーク画素を二値化すると良い。
より具体的には例えば、前記二値化方法は、前記ピーク画素における第1エッジ強度及び第2エッジ強度の和を前記ピーク画素のピーク強度として導出するピーク強度導出工程を更に含み、前記ピーク強度導出工程では、前記第1差分と前記第3差分が同符号であって又は前記第1差分がゼロであって且つ前記第3差分の絶対値が前記第1差分の絶対値より大きいとき、前記第3差分を前記第1エッジ強度として導出する一方で、そうでないとき、前記第1差分を前記第1エッジ強度として導出し、前記第2差分と前記第4差分が同符号であって又は前記第2差分がゼロであって且つ前記第4差分の絶対値が前記第2差分の絶対値より大きいとき、前記第4差分を前記第2エッジ強度として導出する一方で、そうでないとき、前記第2差分を前記第2エッジ強度として導出し、前記二値化工程では、前記ピーク強度の絶対値が所定値以上のとき、前記ピーク強度の符号に基づいて前記ピーク画素を二値化すると良い。
そして例えば、前記二値化工程では、前記ピーク強度の絶対値が前記所定値未満のピーク画素、及び、前記ピーク画素以外の画素については、閾値を用いて二値化すると良い。
また例えば、前記閾値は、予め設定された固定値であって良い、又は、前記入力画像に基づいて設定されても良い。
そして、前記二値化方法をコンピュータに実現させるためのプログラムを形成すると良い。
また本発明に係る二値化装置は、多値の入力画像を二値化する二値化装置であって、前記入力画像を取得する入力画像取得部と、前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出部と、前記所定方向に沿って連続して並ぶ5つの画素を含み且つ前記ピーク画素を中心画素として含む評価画素群中の各画素の画素値に基づいて、前記ピーク画素を二値化する二値化部と、を備えることを特徴とする。
本発明によれば、ピーク画素を含む連続する5以上の画素に基づいてピーク画素を二値化するため、ピーク画素の近傍の濃淡変化を詳細に考慮することができ、かすれやつぶれの生じにくい(換言すれば、かすれやつぶれが解消された)良好な二値化を実現できる。
本発明の第1実施形態に係る第1実施形態に係る文字認識装置の概略全体ブロック図である。 本発明の第1実施形態に係り、二次元画像に関する軸、方向、及び、画素の位置を定義するための図である。 本発明の第1実施形態に係り、入力画像における画素値と濃度の関係(a)及び二値化画像における画素値と色の関係(b)を示す図である。 本発明の第1実施形態に係り、入力画像の濃淡分布の例を示す図である。 本発明の第1実施形態に係る二値化処理のフローチャートである。 本発明の第1実施形態に係る二値化処理のフローチャートである。 本発明の第1実施形態に係り、水平エッジ強度の導出方法を説明するための図である。 本発明の第1実施形態に係り、水平ピーク強度との関連において、つぶれ候補画素又はかすれ候補画素への分類条件を説明するための図である。 本発明の第1実施形態に係り、垂直ピーク強度との関連において、つぶれ候補画素又はかすれ候補画素への分類条件を説明するための図である。 本発明の第1実施形態に係り、二値化の具体例を示す図である。 本発明の第1実施形態の矛盾解決処理が適用される具体例を示す図である。 本発明の第2実施形態に係る文字認識装置の一部ブロック図である。 本発明の第2実施形態に係る文字認識手順の説明図である。 図1の二値化画像生成部の機能ブロック図である。
以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。
<<第1実施形態>>
本発明の第1実施形態を説明する。図1は、第1実施形態に係る文字認識装置1の概略全体ブロック図である。文字認識装置1は、入力画像取得部10と、二値化画像生成部20と、文字認識処理部30と、出力部40と、を備える。
入力画像取得部10は、カメラ、スキャナ又は通信回線(インターネット網など)を介して入力画像を取得する。入力画像は任意の文字を含む二次元画像である。文字を含む画像とは、詳細には、文字についての画像情報を含んだ画像を意味する。文字を含む二次元画像は、例えば、手書き又は印字による文字が記載された帳票の画像であって良い。入力画像取得部10は、取得した入力画像を記憶する入力画像記憶部としても機能する。
二値化画像生成部20は、入力画像を二値化することで二値化画像を生成する。文字認識処理部30は、二値化画像に対し公知の文字認識処理を適用することで入力画像に含まれている文字を認識する。出力部40は、文字認識処理部30による文字の認識結果を出力する。文字認識処理部30による文字の認識結果は、データとして文字認識装置1に接続又は内包されたメモリ(不図示)に出力されても良いし、映像として文字認識装置1に接続又は内包された表示装置(不図示)に出力されても良いし、通信回線を介して文字認識装置1の外部装置(不図示)に出力されても良い。入力画像取得部10と二値化画像生成部20と文字認識処理部30と出力部40とは、二値化画像生成処理及び文字認識処理並びに制御を行う演算部(不図示)と、二値化画像生成処理及び文字認識処理並びに制御を行うプログラムが記憶されたメモリ(不図示)と、画像データ及び演算データを格納する記憶部(不図示)とで構成される。
図2に示す如く、入力画像又は二値化画像などの任意の二次元画像は、互いに直交するX軸及びY軸方向の夫々に沿って複数の画素が配列されることで形成される。X軸は二次元画像の水平方向に平行であって且つY軸は二次元画像の垂直方向に平行であるものとする。二次元画像について方向を考える場合、水平方向は左右方向に平行であって且つ垂直方向は上下方向に平行であるとする。二次元画像中の或る1つの画素を記号P[x,y]にて表す。二次元画像において、画素P[x,y]から右、左、下、上にi画素分だけ離れた位置に配置される画素を、夫々、記号P[x+i,y]、P[x−i,y]、P[x,y+i]、P[x,y−i]にて表す(iは整数)。
入力画像は、3段階以上で画素値が量子化された多値の画像である。即ち、入力画像を形成する各画素の画素値は、3段階以上のデジタル値の何れかをとる。ここでは、入力画像が8ビットで表現されたグレースケール画像であるとする。従って、入力画像の各画素の画素値は、0以上且つ255以下の何れかの整数値をとる。図3(a)に示す如く、入力画像中の或る画素において、画素値が0であるとき当該画素の濃度が最も濃く(従って輝度が最も低く)、画素値が0から255に向けて増大するにつれて当該画素の濃度が淡くなっていくものとする(従って輝度が増大していくものとする)。二値化画像では、各画素が黒画素(黒色を有する画素)又は白画素(白色を有する画素)に分類される。図3(b)に示す如く、二値化画像中の或る画素において、画素値が0であれば当該画素は白画素であり、画素値が1であれば当該画素は黒画素である。尚、入力画像及び二値化画像において、画素値と濃度の関係は、ここで想定されるものに限定されない。
入力画像の二値化を行う際、かすれやつぶれが問題になることがある。本来黒画素と判断されるべきであるが、周辺の濃度が相対的に薄いこと及びスキャナの分解能不足等に起因して白画素と判断されうる画素が、かすれの部分に相当する。一方、本来白画素と判断されるべきであるが、周辺の濃度が相対的に濃いこと及びスキャナの分解能不足等に起因して黒画素と判断されうる画素が、つぶれの部分に相当する。
図4に、文字「職」を含んだ入力画像の濃淡分布の例を示す。図4では、X軸に平行なA線に沿って入力画像の画素値を走査したときの濃淡分布(画素値の分布)の様子と、Y軸に平行なB線に沿って入力画像の画素値を走査したときの濃淡分布(画素値の分布)の様子が示されている。図4において、白丸の部分が白と判断されるべきつぶれの部分に相当し、黒丸の部分が黒と判断されるべきかすれの部分に相当する。
本実施形態では、二値化画像の生成過程において、入力画像の各画素がかすれ又はつぶれの画素になりえるか否かを推定し、その推定結果を利用して、本来あるべき二値化画像を生成する。例えば、かすれの画素と推定される画素(後述のかすれ候補画素に相当)は「1」の画素、即ち黒画素に二値化すると共に、つぶれの画素と推定される画素(後述のつぶれ候補画素に相当)は「0」の画素、即ち白画素に二値化する。
[フローチャート]
図5及び図6に、入力画像から二値化画像を生成するための二値化処理のフローチャートを示す。二値化画像生成部20によって二値化処理が実行される。二値化処理では、まず、図5のステップS11〜ステップS17の処理が順次実行される。
ステップS11において、二値化画像生成部20は、入力画像を水平方向に沿って走査したときに画素値が極値をとっている画素(換言すれば、入力画像の水平方向において画素値が極値をとっている画素)を水平ピーク画素として入力画像から抽出する。つまり例えば、入力画像中の或る注目画素P[x,y]の画素値vに関し、“v[x−1,y]<v[x,y]”且つ“v[x,y]>v[x+1,y]”が成立する場合、又は、“v[x−1,y]>v[x,y]”且つ“v[x,y]<v[x+1,y]”が成立する場合、注目画素P[x,y]は水平ピーク画素として抽出される。ここで、v[x,y]は、入力画像中の画素P[x,y]の画素値を表す。従って例えば、v[x−1,y]、v[x+1,y]は、夫々、入力画像において画素P[x,y]の左に隣接する画素P[x−1,y]の画素値、画素P[x,y]の右に隣接する画素P[x+1,y]の画素値を表す。
注目画素P[x,y]と注目画素P[x,y]の隣接画素P[x−1,y]及び/又はP[x+1,y]とで画素値が互いに同じであっても、注目画素P[x,y]は水平ピーク画素となりうる。例えば、 “v[x−1,y]=v[x,y]”であっても、“v[x−2,y]<v[x,y]”且つ“v[x,y]>v[x+1,y]”が成立する場合又は“v[x−2,y]>v[x,y]”且つ“v[x,y]<v[x+1,y]”が成立する場合には、注目画素P[x,y]が水平ピーク画素として抽出されても良い。
ステップS12において、二値化画像生成部20は、水平ピーク画素ごとに水平ピーク強度を導出する。但し、この水平ピーク強度を導出する際には、水平ピーク画素の左右2画素ずつの画素値を参照し、左側及び右側のエッジ強度の和を水平ピーク強度とする。
図7(a)及び(b)を参照し、水平ピーク画素が画素P[x,y]であると仮定して、ステップS12における水平ピーク強度の導出方法を具体的に説明する。
二値化画像生成部20は、まず、水平ピーク画素P[x,y]を基準として、画素P[x,y]及びP[x−1,y]間の画素値の差分DIFL1、画素P[x,y]及びP[x−2,y]間の画素値の差分DIFL2、画素P[x,y]及びP[x+1,y]間の画素値の差分DIFR1、並びに、画素P[x,y]及びP[x+2,y]間の画素値の差分DIFR2を求める。差分DIFL1及びDIFL2は、水平ピーク画素P[x,y]の左側におけるエッジ強度を示す一方で、差分DIFR1及びDIFR2は、水平ピーク画素P[x,y]の右側におけるエッジ強度を示し、それらは下記式(A1)〜(A4)にて表される。
DIFL2=v[x,y]−v[x−2,y] ・・・(A1)
DIFL1=v[x,y]−v[x−1,y] ・・・(A2)
DIFR1=v[x,y]−v[x+1,y] ・・・(A3)
DIFR2=v[x,y]−v[x+2,y] ・・・(A4)
続いて、二値化画像生成部20は、差分DIFL1と差分DIFL2が同符号(同極性)であって又は差分DIFL1がゼロであって、且つ、差分DIFL2の絶対値が差分DIFL1の絶対値より大きいとき、差分DIFL2を左側エッジ強度として求め、そうでないとき、差分DIFL1を左側エッジ強度として求める。また、二値化画像生成部20は、差分DIFR1と差分DIFR2が同符号(同極性)であって又は差分DIFR1がゼロであって、且つ、差分DIFR2の絶対値が差分DIFR1の絶対値より大きいとき、差分DIFR2を右側エッジ強度として求め、そうでないとき、差分DIFR1を右側エッジ強度として求める。そして、二値化画像生成部20は、水平ピーク画素P[x,y]に対して求めた左側エッジ強度と右側エッジ強度の和を、水平ピーク画素P[x,y]の水平エッジ強度として導出する。
従って例えば、図7(a)に示す如く、“v[x−2,y]>v[x−1,y]>v[x,y]”且つ“v[x,y]<v[x+1,y]<v[x+2,y]”が成立する場合においては、水平ピーク画素P[x,y]の水平エッジ強度は“DIFL2+DIFR2”となる。或いは例えば、図7(b)に示す如く、“v[x−2,y]>v[x−1,y]>v[x,y]”且つ“v[x,y]<v[x+1,y]”且つ“v[x+1,y]>v[x+2,y]”が成立する場合においては、水平ピーク画素P[x,y]の水平エッジ強度は“DIFL2+DIFR1”となる。
ステップS12に続くステップS13において、二値化画像生成部20は、水平ピーク画素ごとに候補判定処理を実行する。ステップS13の候補判定処理においては、水平ピーク画素の水平ピーク強度の符号(極性)及び水平ピーク強度の絶対値に基づき、水平ピーク画素を、かすれ候補画素、つぶれ候補画素及び非候補画素の何れかに分類する。
水平ピーク画素が画素P[x,y]であると仮定して、ステップS13における候補判定処理を具体的に説明する。図8を参照する。二値化画像生成部20は、水平ピーク画素P[x,y]の水平ピーク強度が負であって且つ負の所定値THHL以下であるケースCASEH1においては、水平ピーク画素P[x,y]をかすれ候補画素に分類し、水平ピーク画素P[x,y]の水平ピーク強度が正であって且つ正の所定値THHU以上であるCASEH2においては、水平ピーク画素P[x,y]をつぶれ候補画素に分類し、ケースCASEH1及びCASEH2の何れにも当てはまらないケースCASEH3においては、水平ピーク画素P[x,y]を非候補画素に分類する。所定値THHLの絶対値と所定値THHUの絶対値は互いに同じであるが、互いに異ならせても良い。
かすれ候補画素に分類された画素は、かすれの可能性の高い画素であると推定され、後に原則として「1」の画素値にて二値化される(図6のステップS25等参照)。つぶれ候補画素に分類された画素は、つぶれの可能性の高い画素であると推定され、後に原則として「0」の画素値にて二値化される(図6のステップS26等参照)。このため、注目画素が水平方向において極値をとっているという理由だけで、当該注目画素をつぶれ候補画素又はつぶれ候補画素に分類すると、ノイズ等の影響を受けやすくなる。このため、ステップS13では、水平ピーク強度の絶対値が所定値以上である場合に限って、注目画素をかすれ候補画素又はつぶれ候補画素に分類するようにしている。後述のステップS16についても同様である。
ステップS14において、二値化画像生成部20は、入力画像を垂直方向に沿って走査したときに画素値が極値をとっている画素(換言すれば、入力画像の垂直方向において画素値が極値をとっている画素)を垂直ピーク画素として入力画像から抽出する。つまり例えば、入力画像中の或る注目画素P[x,y]の画素値vに関し、“v[x,y−1]<v[x,y]”且つ“v[x,y]>v[x,y+1]”が成立する場合、又は、“v[x,y−1]>v[x,y]”且つ“v[x,y]<v[x,y+1]”が成立する場合、注目画素P[x,y]は垂直ピーク画素として抽出される。
注目画素P[x,y]と注目画素P[x,y]の隣接画素P[x,y−1]及び/又はP[x,y+1]とで画素値が互いに同じであっても、注目画素P[x,y]は垂直ピーク画素となりうる。例えば、 “v[x,y−1]=v[x,y]”であっても、“v[x,y−2]<v[x,y]”且つ“v[x,y]>v[x,y+1]”が成立する場合又は“v[x,y−2]>v[x,y]”且つ“v[x,y]<v[x,y+1]”が成立する場合には、注目画素P[x,y]が垂直ピーク画素として抽出されても良い。
ステップS15において、二値化画像生成部20は、垂直ピーク画素ごとに垂直ピーク強度を導出する。但し、この垂直ピーク強度を導出する際には、垂直ピーク画素の上下2画素ずつの画素値を参照し、上側及び下側のエッジ強度の和を垂直ピーク強度とする。
垂直ピーク画素が画素P[x,y]であると仮定して、ステップS15における垂直ピーク強度の導出方法を具体的に説明する。
二値化画像生成部20は、まず、垂直ピーク画素P[x,y]を基準として、画素P[x,y]及びP[x,y−1]間の画素値の差分DIFU1、画素P[x,y]及びP[x,y−2]間の画素値の差分DIFU2、画素P[x,y]及びP[x,y+1]間の画素値の差分DIFD1、並びに、画素P[x,y]及びP[x,y+2]間の画素値の差分DIFD2を求める。差分DIFU1及びDIFU2は、垂直ピーク画素P[x,y]の上側におけるエッジ強度を示す一方で、差分DIFD1及びDIFD2は、垂直ピーク画素P[x,y]の下側におけるエッジ強度を示し、それらは下記式(B1)〜(B4)にて表される。
DIFU2=v[x,y]−v[x,y−2] ・・・(B1)
DIFU1=v[x,y]−v[x,y−1] ・・・(B2)
DIFD1=v[x,y]−v[x,y+1] ・・・(B3)
DIFD2=v[x,y]−v[x,y+2] ・・・(B4)
続いて、二値化画像生成部20は、差分DIFU1と差分DIFU2が同符号(同極性)であって又は差分DIFU1がゼロであって、且つ、差分DIFU2の絶対値が差分DIFU1の絶対値より大きいとき、差分DIFU2を上側エッジ強度として求め、そうでないとき、差分DIFU1を上側エッジ強度として求める。また、二値化画像生成部20は、差分DIFD1と差分DIFD2が同符号(同極性)であって又は差分DIFD1がゼロであって、且つ、差分DIFD2の絶対値が差分DIFD1の絶対値より大きいとき、差分DIFD2を下側エッジ強度として求め、そうでないとき、差分DIFD1を下側エッジ強度として求める。そして、二値化画像生成部20は、垂直ピーク画素P[x,y]に対して求めた上側エッジ強度と下側エッジ強度の和を、垂直ピーク画素P[x,y]の垂直エッジ強度として導出する。
ステップS15に続くステップS16において、二値化画像生成部20は、垂直ピーク画素ごとに候補判定処理を実行する。ステップS16の候補判定処理においては、垂直ピーク画素の垂直ピーク強度の符号(極性)及び垂直ピーク強度の絶対値に基づき、垂直ピーク画素を、かすれ候補画素、つぶれ候補画素及び非候補画素の何れかに分類する。
垂直ピーク画素が画素P[x,y]であると仮定して、ステップS16における候補判定処理を具体的に説明する。図9を参照する。二値化画像生成部20は、垂直ピーク画素P[x,y]の垂直ピーク強度が負であって且つ負の所定値THVL以下であるケースCASEV1においては、垂直ピーク画素P[x,y]をかすれ候補画素に分類し、垂直ピーク画素P[x,y]の垂直ピーク強度が正であって且つ正の所定値THVU以上であるCASEV2においては、垂直ピーク画素P[x,y]をつぶれ候補画素に分類し、ケースCASEV1及びCASEV2の何れにも当てはまらないケースCASEV3においては、垂直ピーク画素P[x,y]を非候補画素に分類する。所定値THVLの絶対値と所定値THVUの絶対値は互いに同じであるが、互いに異ならせても良い。所定値THHL(図8参照)と所定値THVL(図9参照)は互いに同じであるが、互いに異ならせても良い。所定値THHU(図8参照)と所定値THVU(図9参照)は互いに同じであるが、互いに異ならせても良い。
水平ピーク強度の算出に使用する左側エッジ強度を第1エッジ強度、右側エッジ強度を第2エッジ強度とも呼ぶ。また、垂直ピーク強度の算出に使用する上側エッジ強度を第1エッジ強度、下側エッジ強度を第2エッジ強度とも呼ぶ。
尚、図5のフローチャートでは、ステップS11〜S13の処理の後にステップS14〜S16の処理が実行されているが、ステップS11〜S13の処理よりも先にステップS14〜S16の処理を実行するようにしても良いし、ステップS11〜S13の処理とステップS14〜S16の処理を同時に実行するようにしても良い。また、式(A1)〜(A4)及び式(B1)〜(B4)にて差分を算出する際、基準となるピーク画素P[x,y]の画素値v[x,y]から近傍画素の画素値(v[x−1,y]等)を引いているが、近傍画素の画素値からピーク画素P[x,y]の画素値v[x,y]を引くようにしても良い。但し、その場合、ステップS13及びS16において、かすれ候補画素とつぶれ候補画素への分類の仕方を逆にする必要がある。
ステップS17において、二値化画像生成部20は、入力画像の画素の内、水平ピーク画素でも垂直ピーク画素でもない画素を非候補画素に分類する。
ステップS17の後、ステップS21に進む(図6参照)。ステップS21以降の処理においては、原則として、かすれ候補画素に分類された画素を「1」の画素、即ち黒画素に二値化すると共に(ステップS25、S28)、つぶれ候補画素に分類された画素を「0」の画素、即ち白画素に二値化する(ステップS26、S30)。但し、ステップS13及びS16の分類結果が互いに矛盾しあうこともありえるため、その矛盾に対する手当ても用意しておく(ステップS31)。以下、二値化画像生成部20にて実行されるステップS21〜S34の処理を詳説する。
ステップS21において、二値化画像生成部20は、かすれ候補画素又はつぶれ候補画素に分類された全ての画素を第1〜第N候補画素に設定する。Nは、かすれ候補画素又はつぶれ候補画素に分類された画素の総数を表す。
単一の画素P[x,y]が、水平ピーク画素として抽出されてステップS13にてかすれ候補画素又はつぶれ候補画素に分類されると共に、垂直ピーク画素として抽出されてステップS16にてかすれ候補画素又はつぶれ候補画素に分類されることもある。このような分類が行われた単一の画素P[x,y]は、第1〜第N候補画素の内の2つの候補画素(例えば第1及び第2候補画素)を占めるのではなく、第1〜第N候補画素の内の1つの候補画素(例えば第1候補画素)に設定される。従って、このような分類が行われた場合、ステップS13にてかすれ候補画素又はつぶれ候補画素に分類された水平ピーク画素の総数と、ステップS16にてかすれ候補画素又はつぶれ候補画素に分類された垂直ピーク画素の総数との和は、Nよりも大きくなる。
ステップS21に続くステップS22にて変数jに1が代入された後、ステップS23に進む。ステップS23において、二値化画像生成部20は、第j候補画素が水平ピーク画素であって且つ垂直ピーク画素であるか否かを判定する。第j候補画素が水平ピーク画素であって且つ垂直ピーク画素である場合にはステップS27に進み、そうでない場合、即ち、第j候補画素が水平ピーク画素及び垂直ピーク画素のどちらか一方である場合には、ステップS24に進む。
ステップS24において、二値化画像生成部20は、第j候補画素がかすれ候補画素に分類されているか否かを判定し、第j候補画素がかすれ候補画素に分類されている場合にはステップS25に進む一方、そうでない場合、即ち第j候補画素がつぶれ候補画素に分類されている場合にはステップS26に進む。ステップS25において、二値化画像生成部20は、第j候補画素に「1」の画素値を設定する。ステップS26において、二値化画像生成部20は、第j候補画素に「0」の画素値を設定する。ステップS25又はS26の後、ステップS32に進む。
第j候補画素に「1」又は「0」の画素値を設定することで第j候補画素が二値化される(後述のステップS28、S30及びS31においても同様)。第j候補画素に「1」、「0」の画素値を設定するとは、第j候補画素に対応する、二値化画像内の画素の画素値に、夫々、「1」、「0」を代入することを意味する。換言すれば、第j候補画素に「1」、「0」の画素値を設定するとは、第j候補画素に対応する、二値化画像内の画素を、夫々、黒画素、白画素に設定することを意味する。
ステップS27において、二値化画像生成部20は、第j候補画素がステップS13及びS16にて共にかすれ候補画素に分類されたか否かを判定する。第j候補画素がステップS13及びS16にて共にかすれ候補画素に分類されている場合、二値化画像生成部20は、ステップS28にて第j候補画素に「1」の画素値を設定してからステップS32に進むが、そうでない場合、ステップS27からステップS29に進む。
ステップS29において、二値化画像生成部20は、第j候補画素がステップS13及びS16にて共につぶれ候補画素に分類されたか否かを判定する。第j候補画素がステップS13及びS16にて共につぶれ候補画素に分類されている場合、二値化画像生成部20は、ステップS30にて第j候補画素に「0」の画素値を設定してからステップS32に進む一方、そうでない場合、ステップS31に進む。
共通画素に対するステップS13及びS16の分類結果が互いに矛盾しあう場合、共通画素としての第j候補画素について、ステップS31に至る。つまり、単一の共通画素である第j候補画素が、水平ピーク画素として抽出されてステップS13にてかすれ候補画素に分類されると共に、垂直ピーク画素として抽出されてステップS16にてつぶれ候補画素に分類された場合、又は、単一の共通画素である第j候補画素が、水平ピーク画素として抽出されてステップS13にてつぶれ候補画素に分類されると共に、垂直ピーク画素として抽出されてステップS16にてかすれ候補画素に分類された場合、ステップS31に至る。
ステップS31において、二値化画像生成部20は、矛盾解決処理により第j候補画素に「1」又は「0」の画素値を設定し、その後、ステップS32に進む。
説明の具体化のため、第j候補画素が画素P[x,y]であると仮定して、矛盾解決処理を説明する。矛盾解決処理では、上述の差分DIFL1及びDIFL2に基づく左側エッジ強度の絶対値(以下、記号|EGL|にて表す)と、上述の差分DIFR1及びDIFR2に基づく右側エッジ強度の絶対値(以下、記号|EGR|にて表す)と、上述の差分DIFU1及びDIFU2に基づく上側エッジ強度の絶対値(以下、記号|EGU|にて表す)と、上述の差分DIFD1及びDIFD2に基づく下側エッジ強度の絶対値(以下、記号|EGD|にて表す)を参照する。絶対値|EGL|、|EGR|、|EGU|及び|EGD|は、第j候補画素としての画素P[x,y]に対して求められたものであり、差分DIFL1等の算出式は上記式(A1)〜(A4)及び式(B1)〜(B4)に従う。左側、右側、上側及び下側エッジ強度の算出方法についても上述した通りである。
二値化画像生成部20は、矛盾解決処理において、下記式(C1)が成立するならば、ステップS13の分類結果よりもステップS16の分類結果を優先して第j候補画素を二値化し、そうでないならば、ステップS16の分類結果よりもステップS13の分類結果を優先して第j候補画素を二値化する。式(C1)において、左辺は、|EGU|及び|EGD|の内の小さい方の絶対値を表し、右辺は、|EGL|及び|EGR|の内の小さい方の絶対値を表す。エッジ強度の絶対値が最も小さな方向、即ち最も画素値の近い方向の結果を採用しないことで、つぶれ、かすれの判断を行っている。
Min(|EGU|,|EGD|)>Min(|EGL|,|EGR|)
・・・(C1)
従って例えば、第j候補画素としての画素P[x,y]がステップS13にてかすれ候補画素に分類される一方でステップS16にてつぶれ候補画素に分類されたとき、式(C1)が成立するならば画素P[x,y]は最終的につぶれ候補画素に分類される一方、式(C1)が不成立ならば画素P[x,y]は最終的にかすれ候補画素に分類される。或いは例えば、第j候補画素としての画素P[x,y]がステップS13にてつぶれ候補画素に分類される一方でステップS16にてかすれ候補画素に分類されたとき、式(C1)が成立するならば画素P[x,y]は最終的にかすれ候補画素に分類される一方、式(C1)が不成立ならば画素P[x,y]は最終的につぶれ候補画素に分類される。
矛盾解決処理において、画素P[x,y]が最終的にかつぶれ候補画素に分類されたとき、第j候補画素に「0」の画素値が設定され、画素P[x,y]が最終的にかすれ候補画素に分類されたとき、第j候補画素に「1」の画素値が設定される。
ステップS32において、変数jが値Nと一致しているか否かが判断され、“j=N”が成立するならばステップS34に進むが、“j=N”が成立しないならばステップS33にて変数jに1を加算してからステップS23に戻ってステップS23以降の処理を繰り返す。
ステップS34において、二値化画像生成部20は、ステップS13、S16及びS17にて非候補画素に分類された各画素を所定の閾値thを用いて二値化する。つまり、非候補画素ごとに、非候補画素の画素値が閾値th以上ならば非候補画素に「0」の画素値を設定する一方で非候補画素の画素値が閾値th未満ならば非候補画素に「1」の画素値を設定する。ステップS34における二値化の方法として、公知の任意の二値化方法を用いることができる。従って例えば、ステップS34で用いる閾値thは、予め設定された固定値であっても良いし、各非候補画素の画素値に基づき判別分析法を用いて設定されるものであっても良いし、各非候補画素の画素値に基づき特許第3831797号公報に記載の方法を用いて設定されるものであっても良い。二値化画像生成部20は、各非候補画素の画素値に基づき閾値thを設定する閾値設定部(不図示)を内包しうる。
ステップS34の処理の終了を以って入力画像の全画素が二値化されるため、二値化処理を終える。
二値化を介した文字の認識において、小さな文字を認識しようとすると、つぶれやかすれにより正しく認識できない場合があるが、本実施形態では、かすれやつぶれが生じにくい二値化を実現できるため、小さな文字をも正確に認識できるようになる。また、つぶれを解消して二値化を行うことができるため、互いに接触する程度に近接した文字同士の分離にも有益な効果を発揮する。
[具体的な二値化の例]
次に具体的な画像の例を示して、二値化の例を示す。図10(a)を参照し、単純なモデルとして、互いに平行且つ密接した3本の細い第1〜第3の黒線311〜313が描かれた紙面310を用意し、紙面310上の描画内容をスキャナで取り込むことで入力画像320が得られた状況を考える。黒線321〜323は、夫々、入力画像320上の第1〜第3の黒線に相当する。第1〜第3の黒線の夫々は上下方向に伸びる黒色の線分であって、第1〜第3の黒線は左右方向に並んでいる。また、図10(b)に示す如く、スキャナによる取り込み時において、黒線311〜313の夫々は1画素分の幅を有し、且つ、黒線311及び312の中心間隔並びに黒線312及び313の中心間隔は共に1.5画素分の幅を有しているものとする。図10(b)において、記号PSCANが付された四角形はスキャナの取り込み時における画素を表している(但し、一部の画素にしか記号PSCANを付していない)。更に、スキャナの取り込み時において、或る特定の画素315の中心が黒線311の中心線上に位置していることを想定する、結果、特定の画素315に対して1、2、3、4、5、6、7画素分だけ右に位置している画素は、夫々、白、グレー、グレー、白、黒、白、白の濃淡情報を取り込み、且つ、特定の画素315に対して左側に位置している画素は全て白の濃淡情報を取り込むことになる。グレーの濃淡情報を取り込むことになる画素は、画素の半分だけ黒線312上に位置する画素である。
そうすると、入力画像320上における黒線321〜323の部分の拡大図は、図10(c)のようになる(図10(b)及び(c)では、ハッチングの斜線密度によって色の濃さを表現している)。画素P[x−2,y]は上記の特定の画素315に相当する。故に、画素P[x−2,y]の中心が黒線321の中心に位置しており、入力画像320において、画素P[x−4,y]〜P[x+5,y]の濃淡情報は、夫々、白、白、黒、白、グレー、グレー、白、黒、白、白となる。このような入力画像320について、仮に一般的な閾値を用いた二値化を行った場合、画素P[x,y]及びP[x+1,y]の画素値が閾値以上であったなら、画素P[x,y]及びP[x+1,y]は白画素であると判定される。即ち、画素P[x,y]及びP[x+1,y]の位置において、二値化により黒線322がかすれて消滅することになる。画素P[x,y+1]及びP[x+1,y+1]などについても同様である。
一方、本実施形態の方法によれば、入力画像320において画素P[x,y]及び/又はP[x+1,y]が極小値をとるため、その部分のエッジ強度にもよるが、図5のステップS11〜S13の処理を経て画素P[x,y]及び/又はP[x+1,y]がかすれ候補画素に分類されることとなり、結果、画素P[x,y]及び/又はP[x+1,y]に「1」の画素値が設定される。つまり、二値化画像上においてかすれが解消されることになる。
かすれの解消(抑制)を狙った方法として、以下のような参考方法α1及びα2もある。参考方法α1は、上記特許文献1において図7を用いる方法に対応し、参考方法α2は、上記特許文献1において図8又は図9を用いる方法に対応する。参考方法α1及びα2では、近傍画素に比べて尾根又は谷になっている画素を検出し、検出画素に対しては閾値を用いずに二値化を行う一方、非検出画素に対しては閾値を用いて二値化を行う。
但し、左右方向に着目した場合、参考方法α1では、注目画素の左右隣接画素のみが近傍画素として参照される。このため、画素P[x,y]が注目画素である場合、注目画素[x,y]と近傍画素P[x,y+1]は共にグレーのため、それらの画素値の差分が閾値(特許文献1のTh3に相当)以上にはならず、注目画素P[x,y]が尾根又は谷として検出されない。よって、従来の閾値を用いた二値化処理にさらされ、結果、閾値に依存するが、画素P[x,y]の部分がかすれる(即ち、画素P[x,y]が白画素に二値化される)。また、参考方向α1では、縦方向、横方向、2種類の斜め方向の内、2つ以上の方向において尾根又は谷とならなければ、尾根又は谷の画素として検出されないため(特許文献1の図7及び段落[0016]〜[0019]参照)、この点からも、注目画素P[x,y]は従来の閾値を用いた二値化処理にさらされる可能性が高い。画素P[x+1,y]についても同様である。
また、左右方向に着目した場合、参考方法α2では、注目画素から左に1画素分隔てて位置する画素及び注目画素から右に1画素分隔てて位置する画素のみが近傍画素として参照される。このため、画素P[x,y]が注目画素である場合、注目画素P[x,y]についての近傍画素P[x−2,y]及び[x+2,y]が黒画素、白画素であるが故に、注目画素P[x,y]及び近傍画素P[x−2,y]間の画素値の差と注目画素P[x,y]及び近傍画素P[x+2,y]間の画素値の差が同符号とならず、注目画素P[x,y]が尾根又は谷として検出されない。よって、従来の閾値を用いた二値化処理にさらされ、結果、閾値に依存するが、画素P[x,y]の部分がかすれる(即ち、画素P[x,y]が白画素に二値化される)。また、参考方向α2では、縦方向、横方向、複数種類の斜め方向の内、少なくとも2つ以上の方向において尾根又は谷とならなければ、尾根又は谷の画素として検出されないため(特許文献1の図8、図9及び段落[0021]〜[0026]参照)、この点からも、注目画素P[x,y]は従来の閾値を用いた二値化処理にさらされる可能性が高い。画素P[x+1,y]についても同様である。
かすれに注目して、本実施形態の方法と参考方法α1及びα2とを対比説明したが、つぶれに関しても同様のことがいえる。
次に、図11を参照して矛盾解決処理が適用される具体例を説明する。単純なモデルとして、互いに平行且つ密接した2本の太い第4及び第5の黒線411及び412が描かれた紙面410を用意し、紙面410上の描画内容をスキャナで取り込むことで入力画像420が得られた状況を考える。黒線421及び422は、夫々、入力画像420上の第4及び第5の黒線に相当する。第4及び第5の黒線の夫々は左右方向に伸びる黒色の線分であって、第4及び第5の黒線は上下方向に並んでいる。紙面410において黒線411及び412間の隙間はスキャナ取り込みの1画素分程度であり、図11に示す如く、入力画像420における黒線421及び422間の隙間に位置する各画素の濃淡情報はグレーとなっている。また、図11に示す如く、入力画像420において、黒線421及び422間の中心付近に画素P[x,y]が存在しているものとする。
上述のような想定の下、黒線421及び422間の隙間に位置する各画素は、図5のステップS16においてつぶれ候補画素に分類され易くなる。例えば、画素P[x−3,y]〜P[x+3,y]が全てステップS16にてつぶれ候補画素に分類されたとする。但し、ここでは、紙面410上における黒線411又は412の太さのぶれや傾き、スキャナと紙面410との位置関係及びノイズなどに起因して、画素P[x−3,y]〜P[x+3,y]の内、画素P[x,y]のみがステップS13にてかすれ候補画素にも分類されたとする。この場合、画素P[x,y]については矛盾解決処理が適用される。
この際、画素P[x,y]における水平方向のエッジ強度が垂直方向のエッジ強度よりも相対的に小さくなりやすいため、上記式(C1)が成立しやすくなり、最終的に画素P[x,y]はつぶれ候補画素に分類されるようになる。結果、画素P[x−3,y]〜P[x+3,y]は全て「0」の画素値にて二値化されることになる。水平方向のエッジ強度が垂直方向のエッジ強度よりも相対的に小さい場合、水平方向の濃淡変化は相対的に少ないのであるから(同程度の濃淡情報を有した画素が水平方向に並んでいるのであるから)、水平方向のエッジ強度に基づく分類結果(ステップS13の分類結果)を無視して、垂直方向のエッジ強度に基づく分類結果(ステップS16の分類結果)を優先的に採用した方が適正であると考えられる。
以下、上述の二値化方法を基本とした幾つかの変形方法を説明する。
[第1変形方法]
図5のステップS13又はS16において、或る注目画素P[x,y]がかすれ候補画素に分類されたとき、注目画素P[x,y]の1以上の近傍画素をもかすれ候補画素に分類するようにしても良く、或る注目画素P[x,y]がつぶれ候補画素に分類されたとき、注目画素P[x,y]の1以上の近傍画素をもつぶれ候補画素に分類するようにしても良い。この場合、注目画素P[x,y]と共にかすれ候補画素又はつぶれ候補画素に分類された近傍画素は、非候補画素の群から削除され(即ち図6のステップS34の処理が適用されず)、注目画素P[x,y]と同一の画素値に二値化される。ここで、注目画素P[x,y]の1以上の近傍画素は、例えば、注目画素P[x,y]の4近傍画素の全部又は一部、或いは、注目画素P[x,y]の8近傍画素の全部又は一部である。
[第2変形方法]
図6のステップS25又はS28において、かすれ候補画素である第i候補画素に対して無条件に「1」の画素値を設定するのではなく、第i候補画素の画素値が所定の閾値thA以上ならば第i候補画素に「0」の画素値を設定する一方で第i候補画素の画素値が閾値thA未満ならば第i候補画素に「1」の画素値を設定するようにしても良い。
同様に、図6のステップS26又はS30において、つぶれ候補画素である第i候補画素に対して無条件に「0」の画素値を設定するのではなく、第i候補画素の画素値が所定の閾値thB以上ならば第i候補画素に「0」の画素値を設定する一方で第i候補画素の画素値が閾値thB未満ならば第i候補画素に「1」の画素値を設定するようにしても良い。
ここで、閾値thA及びthBは、“thA>thB”を満たすように予め定められていると良い。これにより、かすれ候補画素は、画素値が比較的大きくても(比較的淡い画素であっても;図3(a)参照)「1」の画素値が設定され易くなるため、二値化画像上のかすれの発生が抑制される。同様に、つぶれ候補画素は、画素値が比較的小さくても(比較的濃い画素であっても;図3(a)参照)「0」の画素値が設定され易くなるため、二値化画像上のつぶれの発生が抑制される。
更に、閾値thA及びthBは、図6のステップS34で用いる閾値thとの関係において“thA>th>thB”を満たしていても良い。
<<第2実施形態>>
本発明の第2実施形態を説明する。第2実施形態及び後述の第3実施形態は第1実施形態を基礎とする実施形態であり、第2及び第3実施形態において特に述べない事項に関しては、矛盾の無い限り、第1実施形態の記載が第2及び第3実施形態にも適用される。
二値化画像生成部20は、図12に示す如く、互いに異なる第1〜第Mの二値化処理(換言すれば、M種類の二値化方法)を用いて単一の入力画像IMを二値化することで、M枚の二値化画像を生成するようにしても良い。ここで、Mは2以上の任意の整数である。第iの二値化処理を用いて生成された二値化画像を記号IB[i]にて表す。二値化画像生成部20に第1〜第Mの二値化処理を実行するM個の二値化処理部(不図示)が内包されている、と考えても良い。
ここで、第1の二値化処理は第1実施形態で述べた二値化処理である。従って、二値化画像IB[1]は、図5及び図6の二値化処理を用いて得られる二値化画像である。第2の二値化処理は、例えば、公知の判別分析法を用いた二値化処理であって良い。この場合、入力画像IMの各画素の画素値に基づき判別分析法を用いて閾値を設定し、設定した閾値を用いて入力画像IMの各画素を二値化することで二値化画像IB[2]が得られる。
文字認識処理部30は、二値化画像生成部20にて生成された二値化画像ごとに、二値化画像の各画素の画素値に基づき二値化画像から画像特徴量を抽出し、二値化画像IB[1]〜IB[M]の画像特徴量を合成することで合成画像特徴量を生成する。そして、文字認識処理部30は、合成画像特徴量に基づき入力画像IMに含まれている文字を認識する。ここにおいける合成は平均(単純平均又は加重平均)であって良い。
図13を参照し、M=2であると仮定して、文字認識処理部30の動作を詳説する。図13の例では、入力画像IMに「職」という漢字の画像情報が含まれており、入力画像IMから二値化画像IB[1]及びIB[2]が得られる。文字認識処理部30は、二値化画像IB[1]の各画素の画素値に基づく二値化画像IB[1]の輪郭情報を用いて画像特徴量IF[1]を生成する一方で、二値化画像IB[2]の各画素の画素値に基づく二値化画像IB[2]の輪郭情報を用いて画像特徴量IF[2]を生成する。画像特徴量IF[i]は、二値化画像IB[i]の特徴を表す複数次元の量から成り、ここでは例として、二値化画像IB[i]の特徴を表す200次元の量から成るものとする。そうすると、画像特徴量IF[i]は、200次元の特徴ベクトルにて表現される。
文字認識処理部30は、画像特徴量IF[1]及びIF[2]の平均をとることで合成画像特徴量IFCMBを生成する。ここにおける平均は単純平均であっても良いし、加重平均であっても良い。
文字認識処理部30には、テンプレートTPを含む複数のテンプレートを記憶するテンプレート記憶部31が備えられている。各テンプレートは文字の画像特徴量を示している。図13に示すテンプレートTPは、「職」という漢字の画像特徴量を示している。テンプレート記憶部31は、文字認識装置1の外部装置(不図示)に設けられるものであっても良く、インターネット網等の通信回線を介して記憶部31の記憶内容が文字認識処理部30に供給されても良い。
文字認識処理部30は、合成画像特徴量IFCMBと、記憶部31内の各テンプレートによる画像特徴量との類似度を計算し、計算結果に基づき入力画像IMに含まれている文字が何であるかを認識する。合成画像特徴量IFCMBと或るテンプレートによる画像特徴量との類似度は、合成画像特徴量IFCMBを表す第1特徴ベクトルと、当該テンプレートの画像特徴量を表す第2特徴ベクトルとを共通の特徴空間に配置したときの、第1及び第2特徴ベクトル間のユークリッド距離にて表される。合成画像特徴量IFCMBとテンプレートTPとの間のユークリッド距離が所定の基準値以下であるとき、文字認識処理部30は、入力画像IMに含まれている文字がテンプレートTPに対応する文字「職」であると認識する。
第1実施形態の二値化処理を用いれば、かすれた文字やつぶれた文字でも良好な文字認識結果を得ることが可能であるが、あらゆるケースにおいて最良の結果を出すとは限らない。例えば、原理上、ノイズに反応しやすいので、本来白の部分をかすれ候補画素に分類することもありえるし、ベタ塗り領域中の比較的濃度の薄い部分をつぶれ候補画素に分類することもありえる。これを考慮し、第2実施形態では、複数の二値化処理を介して得た複数の画像特徴量の合成結果を用いて文字認識を行う。これにより、複数の二値化処理の利点を得た状態で(或る二値化処理が不得手とする部分を他の二値化処理にて補填したような状態で)文字認識を行うことができ、単体の二値化処理を用いる場合よりも良好な文字認識結果を得ることが可能となる。
第1実施形態の二値化処理を第1の二値化処理として利用する場合の例を挙げたが、第1〜第Mの二値化処理は任意であって良い。例えば、つぶれよりもかすれに対して良好な結果を出す二値化処理を第1の二値化処理として用い、且つ、かすれよりもつぶれに対して良好な結果を出す二値化処理を第2の二値化処理として用いるようにすれば、かすれた文字及びつぶれた文字の双方に対して良好な文字認識結果を得ることが可能となる。
<<第3実施形態>>
本発明の第3実施形態を説明する。第3実施形態では、第1又は第2実施形態に適用可能な応用技術及び変形技術などを説明する。
二値化画像生成部20の構成を、図14の機能ブロック図で表すことができる。図14の二値化画像生成部20は、ステップS11及びS14の処理を実行するピーク画素抽出部21と、ステップS12及びS15の処理を実行するピーク強度導出部22と、二値化部23と、を備える。二値化部23は、ステップS13、S16及びS17の処理を実行する画素分類部23aと、ステップS22〜S33の処理を実行する候補用二値化部23bと、ステップS34の処理を実行する非候補用二値化部23cと、を備える。
文字認識装置1は、専用のハードウェアにより実現されても良いし、専用のハードウェアを含むコンピュータ上で専用のプログラム(ソフトウェア)を実行することにより実現されても良いし、汎用のコンピュータ上で専用のプログラム(ソフトウェア)を実行することにより実現されても良い。上記専用のプログラムは、第1又は第2実施形態で述べた二値化方法(入力画像から二値化画像を生成する方法)をコンピュータに実現させる。
第1及び第2実施形態では、文字を含む入力画像を二値化する方法を説明したが、第1及び第2実施形態で述べた二値化方法を含む本発明の二値化方法は、これに限定されるものではない。例えば、バーコード又はQRコード(登録商標)をカメラ又はスキャナで取り込むことで得た入力画像や、印鑑の印影を含む紙面をカメラ又はスキャナで取り込むことで得た入力画像に対して、本発明の二値化方法を適用して良い。
第1実施形態では、水平方向と垂直方向の夫々において、極値をとる画素の抽出等を行っているが、水平方向と垂直方向の一方に対してのみ極値をとる画素の抽出等を行うことも可能である(この場合、矛盾削減処理は不要となる)。例えば、水平方向に対してのみ、つぶれやかすれの発生が問題視される場合には、図5からステップS14〜S16の処理を削除すると共に、図6からステップS23及びS27〜S31の処理を削除すると良い。この場合、図6のステップS22の後、ステップS24を介してステップS25又はS26の処理を実行した後に、ステップS32に移行すれば良い。垂直方向に対してのみ、つぶれやかすれの発生が問題視される場合も同様にすればよい。入力画像が一次元画像である場合も同様である。
<<本発明の考察>>
第1〜第3実施形態にて具現化された本発明の技術について考察する。
本発明の一側面に係る二値化方法Wは、多値の入力画像を二値化する二値化方法であって、前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出工程(ステップS11、S14)と、前記所定方向に沿って連続して並ぶ5つの画素を含み且つ前記ピーク画素を中心画素として含む評価画素群中の各画素の画素値に基づいて、前記ピーク画素を二値化する二値化工程と、を含むことを特徴とする。
上記評価画素群中の各画素の画素値に基づいてピーク画素を二値化するため(例えば、画素P[x−2,y]〜画素P[x+2,y]から成る評価画素群中の各画素の画素値に基づいて水平ピーク画素P[x,y]を二値化するため)、ピーク画素の近傍の濃淡変化を詳細に考慮することができ、かすれやつぶれの生じにくい(換言すれば、かすれやつぶれが解消された)良好な二値化を実現できる。
尚、第1実施形態では、評価画素群がピーク画素(水平又は垂直ピーク画素)を中心画素として含んだ5つの画素にて形成されているが、評価画素群がピーク画素(水平又は垂直ピーク画素)を中心画素として含んだ7つ以上の画素にて形成されていても良い。
二値化方法Wにおける所定方向は、例えば第1実施形態における水平方向又は垂直方向であって良く、水平方向と垂直方向を含むと考えても良い。第1実施形態では例えば、画素P[x,y]がピーク画素の一種である水平ピーク画素として抽出されたとき(ステップS11)、画素P[x−2,y]〜P[x+2,y]を含む評価画素群中の各画素の画素値v[x−2,y]〜v[x+2,y]に基づき、ステップS12及びS13並びに図6のステップS21以降の処理を介して水平ピーク画素P[x,y]が二値化される。第1実施形態に係る二値化工程は、ステップS25、S26、S28及びS30の処理の全部又は一部を含むと考えて良い。
具体的には例えば、前記二値化方法Wにおいて、前記評価画素群は、前記所定方向において前記ピーク画素の両隣に位置する第1画素及び第2画素と、前記所定方向において前記ピーク画素から見て前記第1画素の外側に位置する第3画素及び前記第2画素の外側に位置する第4画素を含み(例えば、前記所定方向において前記ピーク画素から見て前記第1画素より遠くに位置する第3画素及び前記第2画素より遠くに位置する第4画素を含み;より具体的には例えば、前記所定方向において前記ピーク画素から1画素分隔てて位置する第3画素及び第4画素を含み)、前記第1画素は前記ピーク画素及び前記第3画素間に位置するとともに、前記第2画素は前記ピーク画素及び前記第4画素間に位置し、前記二値化工程では、前記ピーク画素と前記第1〜第4画素との間における画素値の第1〜第4差分(例えば、DIFL1、DIFR1、DIFL2、DIFR2;図7(a)又は(b)参照)に基づき、前記ピーク画素を二値化すると良い。
第1差分及び第2差分だけ、或いは、第3差分及び第4差分だけを考慮するのではなく、ピーク画素の両側の2画素分の差分から成る計4つの差分に基づいてピーク画素を二値化するため、ピーク画素の近傍の濃淡変化を詳細に考慮することができ、かすれやつぶれの生じにくい(換言すれば、かすれやつぶれが解消された)良好な二値化を実現できる。
第1実施形態では例えば、画素P[x,y]がピーク画素の一種である水平ピーク画素として抽出されたとき(ステップS11)、画素値v[x−2,y]〜v[x+2,y]に応じた第1〜第4差分(例えば、DIFL1、DIFR1、DIFL2、DIFR2;図7(a)又は(b)参照)に基づき、ステップS12及びS13並びに図6のステップS21以降の処理を介して水平ピーク画素P[x,y]が二値化される(例えばステップS25、S26)。
より詳細には例えば、前記二値化方法Wは、前記ピーク画素における第1エッジ強度及び第2エッジ強度の和を前記ピーク画素のピーク強度として導出するピーク強度導出工程(ステップS12、S15)を更に含み、前記ピーク強度導出工程では、前記第1差分(例えばDIFL1)と前記第3差分(例えばDIFL2)が同符号であって又は前記第1差分がゼロであって且つ前記第3差分の絶対値が前記第1差分の絶対値より大きいとき、前記第3差分を前記第1エッジ強度(例えば左側エッジ強度)として導出する一方で、そうでないとき、前記第1差分を前記第1エッジ強度として導出し、前記第2差分(例えばDIFR1)と前記第4差分(例えばDIFR2)が同符号であって又は前記第2差分がゼロであって且つ前記第4差分の絶対値が前記第2差分の絶対値より大きいとき、前記第4差分を前記第2エッジ強度(例えば右側エッジ強度)として導出する一方で、そうでないとき、前記第2差分を前記第2エッジ強度として導出すると良い。この際、前記二値化工程では、前記ピーク強度の絶対値が所定値以上のとき、前記ピーク強度の符号に基づいて前記ピーク画素を二値化すると良い。
これにより、図10(a)〜(c)を用いて説明したような入力画像に対しても、かすれやつぶれの生じにくい良好な二値化を実現できる。
第1実施形態では例えば、画素P[x,y]がピーク画素の一種である水平ピーク画素として抽出され(ステップS11)、且つ、水平ピーク画素P[x,y]の水平ピーク強度が所定値以上のとき、水平ピーク強度の符号に応じた水平ピーク画素P[x,y]のかすれ候補画素又はつぶれ候補画素への分類を介して、水平ピーク画素P[x,y]が二値化される(例えばステップS25、S26)。
そして例えば、前記二値化方法Wに係る前記二値化工程では、前記ピーク強度の絶対値が前記所定値未満のピーク画素、及び、前記ピーク画素以外の画素については、閾値を用いて二値化すると良い(ステップS34)。
前記二値化方法Wにおいて、前記閾値は、予め設定された固定値であって良い、又は、前記入力画像に基づいて設定されるものであって良い。
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
1 文字認識装置
10 入力画像取得部
20 二値化画像生成部
21 ピーク画素抽出部
22 ピーク強度導出部
23 二値化部
30 文字認識処理部
40 出力部

Claims (8)

  1. 多値の入力画像を二値化する二値化方法であって、
    前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出工程と、
    前記所定方向に沿って連続して並ぶ前記ピーク画素を含んだ5以上の画素のうち、前記ピーク画素を除く各画素と、前記ピーク画素との間における画素値の差分に基づいて、前記ピーク画素を二値化する二値化工程と、を含む
    ことを特徴とする二値化方法。
  2. 多値の入力画像を二値化する二値化方法であって、
    前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出工程と、
    前記所定方向に沿って連続して並ぶ5つの画素を含み且つ前記ピーク画素を中心画素として含む評価画素群中の各画素の画素値に基づいて、前記ピーク画素を二値化する二値化工程と、を含み、
    前記評価画素群は、前記所定方向において前記ピーク画素の両隣に位置する第1画素及び第2画素と、前記所定方向において前記ピーク画素から見て前記第1画素の外側に位置する第3画素及び前記第2画素の外側に位置する第4画素を含み、前記第1画素は前記ピーク画素及び前記第3画素間に位置するとともに、前記第2画素は前記ピーク画素及び前記第4画素間に位置し、
    前記二値化工程では、前記ピーク画素と前記第1〜第4画素との間における画素値の第1〜第4差分に基づき、前記ピーク画素を二値化する
    ことを特徴とす二値化方法。
  3. 前記ピーク画素における第1エッジ強度及び第2エッジ強度の和を前記ピーク画素のピーク強度として導出するピーク強度導出工程を更に含み、
    前記ピーク強度導出工程では、前記第1差分と前記第3差分が同符号であって又は前記第1差分がゼロであって且つ前記第3差分の絶対値が前記第1差分の絶対値より大きいとき、前記第3差分を前記第1エッジ強度として導出する一方で、そうでないとき、前記第1差分を前記第1エッジ強度として導出し、
    前記第2差分と前記第4差分が同符号であって又は前記第2差分がゼロであって且つ前記第4差分の絶対値が前記第2差分の絶対値より大きいとき、前記第4差分を前記第2エッジ強度として導出する一方で、そうでないとき、前記第2差分を前記第2エッジ強度として導出し、
    前記二値化工程では、前記ピーク強度の絶対値が所定値以上のとき、前記ピーク強度の符号に基づいて前記ピーク画素を二値化する
    ことを特徴とする請求項2に記載の二値化方法。
  4. 前記二値化工程では、前記ピーク強度の絶対値が前記所定値未満のピーク画素、及び、前記ピーク画素以外の画素については、閾値を用いて二値化する
    ことを特徴とする請求項3に記載の二値化方法。
  5. 前記閾値は、予め設定された固定値である、又は、前記入力画像に基づいて設定される
    ことを特徴とする請求項4に記載の二値化方法。
  6. 請求項1〜5の何れかに記載の二値化方法をコンピュータに実現させるためのプログラム。
  7. 多値の入力画像を二値化する二値化装置であって、
    前記入力画像を取得する入力画像取得部と、
    前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出部と、
    前記所定方向に沿って連続して並ぶ前記ピーク画素を含んだ5以上の画素のうち、前記ピーク画素を除く各画素と、前記ピーク画素との間における画素値の差分に基づいて、前記ピーク画素を二値化する二値化部と、を備える
    ことを特徴とする二値化装置。
  8. 多値の入力画像を二値化する二値化装置であって、
    前記入力画像を取得する入力画像取得部と、
    前記入力画像を所定方向に沿って走査したときに極値をとる画素をピーク画素として抽出するピーク画素抽出部と、
    前記所定方向に沿って連続して並ぶ5つの画素を含み且つ前記ピーク画素を中心画素として含む評価画素群中の各画素の画素値に基づいて、前記ピーク画素を二値化する二値化部と、を備え、
    前記評価画素群は、前記所定方向において前記ピーク画素の両隣に位置する第1画素及び第2画素と、前記所定方向において前記ピーク画素から見て前記第1画素の外側に位置する第3画素及び前記第2画素の外側に位置する第4画素を含み、前記第1画素は前記ピーク画素及び前記第3画素間に位置するとともに、前記第2画素は前記ピーク画素及び前記第4画素間に位置し、
    前記二値化部は、前記ピーク画素と前記第1〜第4画素との間における画素値の第1〜第4差分に基づき、前記ピーク画素を二値化する
    ことを特徴とする二値化装置。
JP2014217393A 2014-10-24 2014-10-24 画像の二値化方法、プログラム及び二値化装置 Active JP6335097B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014217393A JP6335097B2 (ja) 2014-10-24 2014-10-24 画像の二値化方法、プログラム及び二値化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014217393A JP6335097B2 (ja) 2014-10-24 2014-10-24 画像の二値化方法、プログラム及び二値化装置

Publications (2)

Publication Number Publication Date
JP2016086273A JP2016086273A (ja) 2016-05-19
JP6335097B2 true JP6335097B2 (ja) 2018-05-30

Family

ID=55971917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014217393A Active JP6335097B2 (ja) 2014-10-24 2014-10-24 画像の二値化方法、プログラム及び二値化装置

Country Status (1)

Country Link
JP (1) JP6335097B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05284356A (ja) * 1992-02-13 1993-10-29 Seiko Epson Corp 画像情報2値化方法および画像情報2値化
JPH0832802A (ja) * 1994-07-12 1996-02-02 Fuji Xerox Co Ltd 画像処理装置
JPH11177815A (ja) * 1997-12-09 1999-07-02 Dainippon Screen Mfg Co Ltd 画像データ処理装置

Also Published As

Publication number Publication date
JP2016086273A (ja) 2016-05-19

Similar Documents

Publication Publication Date Title
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
KR101403876B1 (ko) 차량 번호판 인식 방법과 그 장치
US8750619B2 (en) Character recognition
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
JP5588987B2 (ja) 画像及び映像ocrのためのテキストの位置決め
US8306327B2 (en) Adaptive partial character recognition
US9965695B1 (en) Document image binarization method based on content type separation
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
CN107609549A (zh) 一种自然场景下证件图像的文本检测方法
CN108805116B (zh) 图像文本检测方法及其***
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
JP2011045078A (ja) カメラベースの文書画像処理のための適応的ボケ除去
Lee et al. License plate detection using local structure patterns
Roy et al. Wavelet-gradient-fusion for video text binarization
CN102737240B (zh) 分析数字文档图像的方法
Gilly et al. A survey on license plate recognition systems
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
De Mello et al. Digital document analysis and processing
Shehu et al. Character recognition using correlation & hamming distance
CN105721738B (zh) 一种彩色扫描文档图像预处理方法
JP6335097B2 (ja) 画像の二値化方法、プログラム及び二値化装置
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
JP4890351B2 (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
JP2019021085A (ja) 画像処理プログラム、画像処理方法及び画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180427

R150 Certificate of patent or registration of utility model

Ref document number: 6335097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150