JP2023132586A - 画像処理装置、画像処理方法、及びプログラム - Google Patents
画像処理装置、画像処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2023132586A JP2023132586A JP2022037997A JP2022037997A JP2023132586A JP 2023132586 A JP2023132586 A JP 2023132586A JP 2022037997 A JP2022037997 A JP 2022037997A JP 2022037997 A JP2022037997 A JP 2022037997A JP 2023132586 A JP2023132586 A JP 2023132586A
- Authority
- JP
- Japan
- Prior art keywords
- pixel
- image
- value
- image processing
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 91
- 238000003672 processing method Methods 0.000 title claims 2
- 230000002093 peripheral effect Effects 0.000 claims abstract description 58
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
【課題】 背景に濃度ムラを含む色背景文字画像に対して、濃度ムラを改善し、適切な2値画像を得ることが可能となり、OCRの認識精度向上を実現できる。【解決手段】 画像処理装置100は、まず、文字を示す画像が形成された記録媒体を読み取ることにより得られた画像における複数の画素のうちから、第1画素基準値に基づいて対象画素を特定する。次に、対象画素の周辺に存在する複数の周辺画素のうちの予め定められた条件を満たす周辺画素の個数に基づいて、対象画素における画素値を文字の可読性が向上するように変更する。最後に、画素値が変更された後の画像を用いて、当該画像に対応する2値画像を生成する。【選択図】 図1
Description
本開示は、カラー又はグレースケールの画像データから、文字認識用の2値画像データを生成する技術に関する。
用紙等の記録媒体に印刷されたレシート又は帳票等の印刷物を光学的に読み取ることにより得られた画像(以下「スキャン画像」という。)から文字認識(以下「OCR(Optical Character Recognition)」という。)を行い、文字情報を抽出する技術がある。また、OCRにより得られた文字情報を自動で入力することにより、会計業務等の業務の効率化を図ることが行われている。スキャン画像から抽出する文字情報としては、日付、合計金額、又は企業名等を示す情報があり、文字情報については、これらの文字情報の項目名、単位、又は形式等を基に項目値が推定されて取得される。一般的に、OCRは、まず、スキャン画像を2値化して、文字を形成する黒色又は白色の画素と、文字の背景(以下「文字背景」という。)にあたる画素であって文字を形成する画素の色とは異なる白色又は黒色の画素とにより構成される2値画像を生成する。次に、2値画像を用いて、文字を形成する色を含む領域(以下「文字領域」という。)に対応する画像の特徴を分析することにより文字を推定する。
ここで、文字背景に着色がなされて印刷された印刷物、又は汚れ等が付着した印刷物等を光学的に読み取った場合、スキャン画像に、文字背景の色が白色又は黒色ではなく中間色である文字領域(以下「色背景文字領域」という。)が含まれることがある。印刷物を光学的に読み取る際に、その光学系において埃等が存在する場合も、スキャン画像には、同様に、色背景文字領域が含まれることがある。スキャン画像に色背景文字領域が含まれている場合、文字背景の色が一様ではなく、文字背景に濃度ムラが含まれていることがある。更に、このような文字背景に濃度ムラを含んだスキャン画像を2値化して2値画像を生成する場合、生成した2値画像において、文字背景における一部の画素の色が文字を形成する画素の色と同じものになることがある。文字背景における一部の画素の色が文字を形成する画素の色と同じものになった場合、文字認識を行う上ではノイズとなるため、文字を正しく推定できないことがある。
特許文献1には、スキャン画像のうちの文字領域について、動的に決定される閾値を用いてN(Nは2以上の整数)値化したN値画像を生成することにより、文字背景に濃度ムラが含まれる場合でも文字認識を行う上でのノイズを抑制する方法が開示されている。
スキャン画像における色背景文字領域において、文字背景にあたる画素の値が文字を形成する画素の値に相当する値となる場合があり、特許文献1に開示された方法では、文字認識を行う上での2値画像におけるノイズを抑制できないことがある。
画像処理装置は、文字を示す画像が形成された記録媒体を読み取ることにより得られた画像を取得する取得手段と、前記画像における複数の画素のうちから、前記複数の画素のそれぞれにおける画素値と予め定められた第1画素基準値とに基づいて対象画素を特定する特定手段と、前記対象画素の周辺に存在する複数の周辺画素のうちの予め定められた条件を満たす周辺画素の個数に基づいて、前記対象画素における画素値を変更する変更手段と、前記変更手段により前記対象画素における画素値が変更された後の前記画像を用いて、前記画像に対応する2値画像を生成する生成手段と、を有する。
本開示によれば、文字認識を行う上でのノイズが抑制された2値画像を得ることができる。
以下、本開示の実施形態について、図面を参照して説明する。以下の実施形態は本開示を限定するものではなく、また、以下の実施形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
[第1実施形態]
図1乃至5を参照して、第1実施形態に係る画像処理装置100について説明する。図1は、第1実施形態に係る画像処理装置100の機能構成の一例を示すブロック図である。画像処理装置100は、画像処理システム1に適用される。画像処理システム1は、複写機110及び画像処理装置100を有する。複写機110は、スキャナ111及びプリンタ112を有する。スキャナ111は、用紙等の記録媒体に印刷されたレシート又は帳票等の文字を示す画像(以下「文字画像」という。)が形成された印刷物を光学的に読み取る(以下「スキャンする」という。)。スキャナ111は、印刷物をスキャンすることにより得た画像(以下「スキャン画像」という。)のデータ(以下「スキャン画像データ」という。)を生成する。プリンタ112は、用紙等の記録媒体に画像を印刷して記録媒体に画像を形成する。複写機110は、図1には不図示の通信部により、ネットワークを介して画像処理装置100等の外部装置と通信を行い、外部装置との間でデータの送受信を行う。
図1乃至5を参照して、第1実施形態に係る画像処理装置100について説明する。図1は、第1実施形態に係る画像処理装置100の機能構成の一例を示すブロック図である。画像処理装置100は、画像処理システム1に適用される。画像処理システム1は、複写機110及び画像処理装置100を有する。複写機110は、スキャナ111及びプリンタ112を有する。スキャナ111は、用紙等の記録媒体に印刷されたレシート又は帳票等の文字を示す画像(以下「文字画像」という。)が形成された印刷物を光学的に読み取る(以下「スキャンする」という。)。スキャナ111は、印刷物をスキャンすることにより得た画像(以下「スキャン画像」という。)のデータ(以下「スキャン画像データ」という。)を生成する。プリンタ112は、用紙等の記録媒体に画像を印刷して記録媒体に画像を形成する。複写機110は、図1には不図示の通信部により、ネットワークを介して画像処理装置100等の外部装置と通信を行い、外部装置との間でデータの送受信を行う。
画像処理装置100は、画像取得部101、画素特定部102、変更部103、生成部104、文字取得部105、色背景特定部106、及び文字領域特定部107を有する。なお、第1実施形態では、画像処理装置100は、色背景特定部106及び文字領域特定部107を有するものとして説明するが、色背景特定部106及び文字領域特定部107のうちの少なくとも一方は、画像処理装置100において必須のものではない。画像処理装置100が備える各部の処理は、画像処理装置100に内蔵されたASIC(Application Specific Integrated Circuit)等のハードウェアによってなされる。当該処理は、FPGA(Field Programmable Gate Array)等のハードウェアによってなされるものであってもよい。また、当該処理は、RAM(Random Access Memory)等のメモリと、CPU(Central Processor Unit)等のプロセッサとを用いたソフトウエアによってなされるものであってもよい。図1に示す各部の処理の詳細については後述する。
図2を参照して、第1実施形態に係る画像処理装置100が備える各部がソフトウエアとして動作する場合の画像処理装置100のハードウェア構成について説明する。図2は、第1実施形態に係る画像処理装置100のハードウェア構成の一例を示すブロック図である。画像処理装置100は、コンピュータにより構成されており、当該コンピュータは、図2に一例として示すようにCPU201、ROM202、RAM203、補助記憶装置204、表示部205、操作部206、通信部207、及びバス208を有している。
CPU201は、ROM202又はRAM203等に格納されているプログラム又はデータを用いて当該コンピュータを制御することにより、当該コンピュータを図1に示す画像処理装置100が備える各部として機能させるプロセッサである。なお、画像処理装置100は、CPU201とは異なる1又は複数の専用のハードウェアを有し、CPU201による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC、FPGA、及びDSP(デジタルシグナルプロセッサ)等がある。ROM202は、変更を必要としないプログラム等を格納するメモリである。RAM203は、補助記憶装置204から供給されるプログラム若しくはデータ、又は通信部207を介して外部から供給されるデータ等を一時記憶するメモリである。補助記憶装置204は、例えばハードディスクドライブにより構成され、画像データ又は音声データ等の種々のデータを記憶する。
表示部205は、例えば液晶ディスプレイ又はLED等により構成され、ユーザが画像処理装置100を操作、又は画像処理装置100における処理の状態を閲覧するためのGUI(Graphical User Interface)等を表示する。操作部206は、例えばキーボード、マウス、ジョイスティック、又はタッチパネル等により構成され、ユーザによる操作を受けて各種の指示をCPU201に入力する。CPU201は、表示部205を制御する表示制御部、及び操作部206を制御する操作制御部としても動作する。
通信部207は、画像処理装置100の外部の装置との間のデータ等の送受信等の通信に用いられる。例えば、画像処理装置100が外部の装置と有線接続される場合には、通信用のケーブルが通信部207に接続される。画像処理装置100が外部の装置と無線通信する機能を有する場合には、通信部207はアンテナを備える。バス208は、画像処理装置100の備える各部をつないで情報を伝達する。第1実施形態では、表示部205及び操作部206は、画像処理装置100の内部に存在するものとして説明するが、表示部205及び操作部206の少なくとも一方は、画像処理装置100の外部に別の装置として存在していてもよい。
図1に示す画像処理装置100が有する各部の処理について説明する。画像取得部101は、文字を示す画像が形成された印刷物をスキャンすることにより得られたスキャン画像のデータを取得する。具体的には、例えば、画像取得部101は、複写機110にて生成されたスキャン画像データを、通信部207を介して複写機110から取得する。スキャン画像データの取得元は、複写機110に限定されるものではない。例えば、画像取得部101は、スキャン画像データを予め記憶した、補助記憶装置214、又は図1には不図示の外部装置である記憶装置等からスキャン画像データを読み出すことにより取得してもよい。画像取得部101により取得されたスキャン画像データは、RAM203等に記憶される。画像取得部101は、取得したスキャン画像データがRGB又はYUV等の色空間で表現されたカラー画像のデータであるとき、スキャン画像をグレースケール画像に変換し、スキャン画像データに対応するグレースケール画像デーを生成してもよい。この場合、例えば、画像取得部101は、生成したグレースケール画像データをスキャン画像データとしてRAM203等に記憶させる。なお、カラー画像をグレースケール画像に変換する手法は周知であるため説明を省略する。
生成部104は、入力された画像を2値化した画像(以下「2値画像」という。)のデータを生成する。生成部104により生成された2値画像のデータは、RAM203等に記憶される。なお、カラー画像又はグレースケール画像等の画像を2値化する手法は周知であるため説明を省略する。生成部104の詳細については後述する。
画素特定部102は、画像取得部101により取得されたスキャン画像データを用いて、スキャン画像における複数の画素のうちから、以降の処理において処理対象とする画素(以下「対象画素」という。)を特定する。具体的には、画素特定部102は、各画素の値(画素値)と予め定められた基準値(以下「第1画素基準値」という。)とに基づいて、対象画素を特定する。より具体的には、例えば、画素特定部102は、各画素値と第1画素基準値との間の差分の大きさと、予め定められた閾値(以下「第1閾値」という。)とに基づいて対象画素を特定する。例えば、画素特定部102は、画素値と第1画素基準値との間の差分の大きさが第1閾値以上である画素を対象画像として特定する。
例えば、スキャン画像において文字を形成する画素(以下「文字画素」という。)における画素値が文字の背景を形成する画素(以下「背景画素」という。)における画素値より大きい、白抜き文字等の場合、画素特定部102は、以下の方法により対象画像を特定する。この場合、画素特定部102は、画素値から第1画素基準値を減じた値が正であり、且つ、その大きさが第1閾値以上である画素を対象画像として特定する。逆に、例えば、スキャン画像において文字画素における画素値が文字の背景画素における画素値より小さい場合、画素特定部102は、以下の方法により対象画像を特定する。この場合、画素特定部102は、画素値から第1画素基準値を減じた値が負であり、且つ、その絶対値の大きさが第1閾値以上である画素を対象画像として特定する。
画素特定部102が対象画素を特定する方法は、上述のものに限定されるものではない。例えば、画素特定部102は、各画素値が予め定められた第1画素基準値より大きい又は小さい画素を対象画素として特定してもよい。例えば、スキャン画像において文字画素における画素値が文字の背景画素における画素値より大きい、白抜き文字等の場合、画素特定部102は、画素値が第1画素基準値より大きい画素を対象画素として特定する。逆に、スキャン画像において文字画素における画素値が文字の背景画素における画素値より小さい場合、画素特定部102は、画素値が第1画素基準値より小さい画素を対象画素として特定する。
ここで、第1画素基準値は、例えば、生成部104が2値画像を生成する際に用いる2値化閾値に相当する値である。第1画素基準値は、2値化閾値に限定されるものではなく、2値化閾値に対して所定の値を加算、減算、乗算、除算、又はこれら組合せた演算等を行って算出された値であってもよい。
画素値がRGB色空間により表現されている場合、例えば、画素特定部102は、輝度値に最も影響を与えるG値を用いて、画素値と第1画素基準値との間の差分の大きさと第1閾値との比較、又は、画素値と第1画素基準値との比較を行う。当該比較の方法は、上述のものに限定されるものではなく、画素特定部102は、R値若しくはB値、又は、RGBの各値から算出される輝度値(Y値)等を用いて比較してもよい。また、画素値がYUV色空間により表現されている場合、画素特定部102は、Y値を用いて、画素値と第1画素基準値との間の差分の大きさと第1閾値との比較、又は、画素値と第1画素基準値との比較を行う。また、スキャン画像がグレースケール画像である場合、画素特定部102は、画素値をそのままを用いて、画素値と第1画素基準値との間の差分の大きさと第1閾値との比較、又は、画素値と第1画素基準値との比較を行う。
変更部103は、対象画素の周辺に存在する複数の周辺画素のうちの予め定められた条件を満たす周辺画素の個数に基づいて、文字の可読性が向上するように対象画素における画素値を変更する。なお、対象画素の周辺に存在する複数の周辺画素とは、対象画素に隣接する画素、対象画素からの距離が予め定められた距離の範囲内の画素、又は、対象画素を中心若しくは略中心とする予め定められた大きさの領域内の画素等である。具体的には、例えば、対象画素を中心とする3×3の範囲内に含まれる画素群を周辺画素とする。対象画素を中心とする5×5又は7×7等のより広い領域の範囲内に含まれる画素群を周辺画素としても良い。
例えば、変更部103は、複数の周辺画素のそれぞれにおける画素値と予め定められた第2画素基準値とに基づいて、複数の周辺画素のうちから、条件を満たす周辺画素の個数を取得する。具体的には、例えば、変更部103は、複数の周辺画素のそれぞれにおける画素値と第2画素基準値との間の差分の大きさと、予め定められた閾値(以下「第2閾値」という。)とに基づいて、複数の周辺画素のうちから条件を満たす周辺画素の個数を取得する。より具体的には、例えば、変更部103は、複数の周辺画素のそれぞれにおける画素値と第2画素基準値との差分の大きさが第2閾値以上である周辺画素を、条件を満たす周辺画素としてその個数を取得する。
例えば、スキャン画像において文字画素における画素値が文字の背景画素における画素値より大きい、白抜き文字等の場合、変更部103は、以下の方法により条件を満たす周辺画素の個数を取得する。この場合、変更部103は、画素値から第2画素基準値を減じた値が正であり、且つ、その大きさが第2閾値以上である画素の個数を取得する。逆に、例えば、スキャン画像において文字画素における画素値が文字の背景画素における画素値より小さい場合、変更部103は、以下の方法により条件を満たす周辺画素の個数を取得する。この場合、変更部103は、画素値から第2画素基準値を減じた値が負であり、且つ、その絶対値の大きさが第2閾値以上である画素の個数を取得する。
変更部103が複数の周辺画素のうちの予め定められた条件を満たす周辺画素の個数を取得する方法は、上述のものに限定されるものではない。例えば、変更部103は、各画素値が予め定められた第2画素基準値より大きい又は小さい画素の個数を取得してもよい。例えば、スキャン画像において文字画素における画素値が文字の背景画素における画素値より大きい、例えば、白抜き文字等の場合、変更部103は、画素値が第2画素基準値より大きい画素の個数を取得する。逆に、スキャン画像において文字画素における画素値が文字の背景画素における画素値より小さい場合、変更部103は、画素値が第1画素基準値より小さい画素の個数を取得する。
ここで、第2画素基準値は、例えば、生成部104が2値画像を生成する際に用いる2値化閾値に相当する値である。第2画素基準値は、2値化閾値に限定されるものではなく、2値化閾値に対して所定の値を加算、減算、乗算、除算、又はこれら組合せた演算等を行って算出された値であってもよい。
また、例えば、変更部103は、複数の周辺画素のそれぞれにおける画素値と対象画素における画素値とに基づいて、複数の周辺画素のうちから、条件を満たす周辺画素の個数を取得してもよい。具体的には、例えば、周辺画素における画素値が対象画素における画素値に対して上下20%以内等の予め定められた範囲内である周辺画素を、条件を満たす周辺画素として、その個数を取得する。
例えば、変更部103は、条件を満たす周辺画素の個数が予め定められた個数の閾値より少ない場合、対象画素における画素値を文字の可読性が向上するように変更する。ここで、個数の閾値は、周辺画素の総数の半数又は略半数であることが望ましい。個数の閾値を周辺画素の総数の半数より大きい値とし、且つ、当該半数から離れた値にすると、対象画素に文字画素が含まれてしまう可能性が高くなるためである。例えば、変更部103は、対象画素の周辺に存在する複数の周辺画素における画素値の平均値又は中央値等の統計値を算出する。変更部103は、算出した統計値を対象画素における画素値に変更することにより、対象画素における画素値を文字の可読性が向上するように変更する。当該統計値は、対象画素における画素値を含めて算出された値であっても、対象画素の周辺に存在する複数の周辺画素のうちから条件を満たす周辺画素を除いたものを用いて算出された値であってもよい。
なお、周辺画素とする範囲が広範囲であるほど、画素値が変更される対象画素が増えるため、対象画素における画素値を変更すると文字画素により形成される文字の線の太さが細くなってしまうといった影響が生じる。そのため、文字の線の太さが比較的太い文字である場合には周辺画素とする範囲を広くし、文字の線の太さが比較的細い文字である場合には周辺画素とする範囲を狭くする等、文字の線の太さに基づいて周辺画素とする範囲の大きさを決定してもよい。具体的には、周辺画素とする範囲の幅は文字の線の太さの2倍より小さいことが望ましい。
色背景特定部106は、スキャン画像における、背景色が白色以外の画像領域(以下「色背景領域」という。)を特定し、特定した色背景領域を示す色背景領域情報を生成する。色背景特定部106により生成された色背景領域情報は、RAM203等に記憶される。具体的には、例えば、色背景特定部106は、MSER(Maximally Stable Extremal Regions)等の公知の領域検出アルゴリズムを用いて、スキャン画像における色背景領域を特定する。なお、MSERは、一例であって、色背景領域を特定できれば、色背景領域を特定する手法は任意のものでよい。ここで、色背景特定部106がMSERを用いて色背景領域を特定する場合、色背景特定部106は、スキャン画像データを2値画像データに変換してMSERに入力する。なお、当該場合、生成部104にてスキャン画像データに対応する2値画像データを生成し、色背景特定部106は、生成部104により生成された当該2値画像データをMSERに入力してもよい。画像処理装置100が色背景特定部106を有する場合、画素特定部102は、スキャン画像における色背景領域に存在する複数の画素のうちから対象画素を特定してもよい。
文字領域特定部107は、スキャン画像における、文字が写る画像領域(以下「文字領域」という。)を特定し、特定した文字領域を示す文字領域情報を生成する。文字領域特定部107により生成された文字領域情報は、RAM203等に記憶される。具体的には、例えば、文字領域特定部107は、公知のブロックセレクションにより、スキャン画像における文字領域を特定する。画像処理装置100が文字領域特定部107を有する場合、画素特定部102は、スキャン画像における文字領域に存在する複数の画素のうちから対象画素を特定してもよい。また、画像処理装置100が色背景特定部106及び文字領域特定部107を有する場合、画素特定部102は、スキャン画像における色背景領域及び文字領域に共通する画像領域に存在する複数の画素のうちから対象画素を特定してもよい。以下、スキャン画像における色背景領域及び文字領域に共通する画像領域を色背景文字領域と称して説明する。
生成部104は、変更部103により対象画素における画素値が変更された後のスキャン画像(以下「変更スキャン画像」という。)を2値化して、変更スキャン画像に対応する2値画像データを生成する。このように構成することにより、画像処理装置100は、文字認識を行う上でのノイズが抑制された2値画像を生成することができる。
文字取得部105は、生成部104により生成された変更スキャン画像に対応する2値画像データを用いて、スキャン画像に含まれる文字の情報(以下「文字情報」という。)を取得する。具体的には、文字取得部105は、当該2値画像データをOCR(Optical Character Recognition)等の公知の文字認識アルゴリズムに入力して、2値画像に含まれる文字情報を認識又は検出(以下、単に「認識」という。)させることより文字情報を取得する。文字情報の認識方法については、画像から文字情報を認識できるものであれば、OCRを用いる方法に限定されるものではない。また、OCRの方式についても任意のものでよい。以上のように構成することにより、画像処理装置100は、元のスキャン画像に対応する2値画像を用いるのと比較して、より精度の高い文字情報を取得することができる。なお、画像処理装置100が文字領域特定部107を有する場合、文字取得部105は、変更スキャン画像における文字領域に含まれる文字情報を取得してもよい。
図3を参照して、画像処理装置100の動作について説明する。図3は、第1実施形態に係る画像処理装置100の処理フローの一例を示すフローチャートである。なお、以下の説明において「S」はステップを表す。まず、S301にて、画像取得部101は、スキャン画像データを取得し、取得したスキャン画像データをグレースケール化して、スキャン画像データに対応するグレースケール画像データを生成する。
次に、S302にて、画像処理装置100は、スキャン画像における色背景文字領域を特定する。具体的には、色背景特定部106にてスキャン画像における色背景領域が特定され、文字領域特定部107にて文字領域が特定される。特定された色背景領域及び文字領域に共通する画像領域が色背景文字領域として特定される。なお、画像処理装置100が色背景特定部106及び文字領域特定部107を有していない場合等において、S302の処理は適宜省略可能である。また、画像処理装置100が色背景特定部106を有し、文字領域特定部107を有していない場合等において、画像処理装置100は、S302にて、色背景文字領域に替えて、色背景領域を特定してもよい。また、画像処理装置100が色背景特定部106を有しておらず、文字領域特定部107を有する場合等において、画像処理装置100は、S302にて、色背景文字領域に替えて、文字領域を特定してもよい。
次に、S303にて、画素特定部102は、S302にて特定されたスキャン画像における色背景文字領域を用いて、色背景文字領域における対象画素を特定する。画素特定部102は、S303にて、スキャン画像の全体、スキャン画像における色背景領域、又は、スキャン画像における文字領域において、対象画素を特定してもよい。以下、画素特定部102は、スキャン画像における色背景文字領域において、対象画素を特定するものとして説明する。
次に、S304にて、変更部103は、S303にて特定された複数の対象画素のうちから、未だ選択されていない対象画素を選択する。次に、S305にて、変更部103は、S304にて選択された対象画素の周辺に存在する複数の周辺画素のうちから条件を満たす周辺画素の個数を取得する。次に、S306にて、変更部103は、S305にて取得された周辺画素の個数が予め定められた条件を満たすか否かを判定する。具体的には、例えば、変更部103は、周辺画素の個数が予め定められた閾値未満であるか否かを判定する。
S306にて周辺画素の個数が閾値未満であると判定された場合、S307にて、変更部103は、周辺画素における画素値に基づいて統計値を算出し、当該統計値を用いて対象画素における画素値を変更する。S307の後、又はS306にて周辺画素の個数が閾値未満でないと判定された場合、S308にて、変更部103は、S303にて特定された全ての対象画素が選択されたか否かを判定する。S308にて全ての対象画素が選択されていないと判定された場合、画像処理装置100は、S304に戻って、S308にて全ての対象画素が選択されたと判定されるまでの間、S304からS308までの処理を繰り返し実行する。
S308にて全ての対象画素が選択されたと判定された場合、S309にて、生成部104は、変更スキャン画像を2値化して、変更スキャン画像に対応する2値画像データを生成する。S309の後、S310にて、文字取得部105は、S309にて生成された2値画像データを用いて、スキャン画像に含まれる文字情報を取得する。S310の後、画像処理装置100は、図3に示すフローチャートの処理を終了する。
なお、図3に示すフローチャートはあくまで一例であって、画像処理装置100の処理フローはこれに限定されるものではなく、例えば、以下のように、当該フローチャートを変更してもよい。例えば、画像処理装置100は、S301又はS302の後に、S301にて取得したスキャン画像データを2値化して、スキャン画像に対応する2値画像データを生成する。更に、画像処理装置100は、S307にて、対象画素における画素値を変更し、スキャン画像に対応する2値画像データにおける当該対象画素における画素値を、変更後の当該対象画素における画素値を2値化した値に更新する。なお、この場合、S309の処理は省略される。
また、例えば、画素特定部102は、S302の後に、S303からS308までの処理を実行するか否かを判定してもよい。具体的には、例えば、スキャン画像における色背景文字領域を2値化して2値画像にしたとき、白画素に対する黒画素の比率が予め定められた範囲の範囲内であるか否かの判定結果に基づいて、S303からS308までの処理を実行するか否かを判定する。
図4及び図5を参照して、白画素に対する黒画素の比率が予め定められた範囲の範囲内であるか否かの判定結果に基づいて、S303からS308までの処理を実行するか否かを判定することの有効性について説明する。
図4は、スキャン画像における背景色の濃度ムラの一例を説明するための説明図である。具体的には、図4(a)は、スキャン画像における色背景文字領域の一部をグレースケール画像で示したものである。画像400は、スキャン画像における色背景文字領域の一部を示すグレースケール画像である。画像400には、複数の文字画素により構成された文字画素領域401と、複数の背景画素により構成された背景画素領域402とが含まれている。文字画素領域401における各文字画素と背景画素領域402における各背景画素とは、互いに異なる濃度で形成されている。ここで、図4(a)における画像400は、背景画素領域402における各背景画素が文字画素領域401における各文字画素よりも低濃度であることを表現するために、各画素が孤立ドットから成る画像となっている。背景画素領域402における各背景画素は、その全てが互いに同じ濃度であることが望ましい。
図4(b)、図4(c)、及び図4(d)は、背景画素領域402の一部を拡大した拡大背景画素領域403,404,405の一例を示す図である。例えば、画像描画用のソフトウェアアプリケーションで作成した色背景文字領域における各背景画素410は、図4(b)に示す拡大背景画素領域403のように、その全てが互いに同じ濃度となる。一方、プリンタ112等の印刷機で印刷した印刷物をスキャナ111等によりスキャンして得られたスキャン画像は、印刷による濃度のばらつき等により、背景画素に濃度ムラが生じることがある。具体的には、例えば、このようなスキャン画像では、図4(c)に示す拡大背景画素領域404のように、背景画素410とは異なる濃度の画素(以下「ノイズ画素411」という。)を含んだ画像となることがある。
拡大背景画素領域404のようにノイズ画素411が存在するスキャン画像は、2値化すると、2値画像において、ノイズ画素411に対応する画素が文字画素に対応する画素と同じ画素値になる場合がある。この場合、文字情報を取得する際に、本来、背景画素である画素が文字画素として扱われ、文字情報の認識精度が低下してしまうことがある。特に、例えば、複写機で印刷した印刷物を特定の条件でスキャンすると、各背景画素の濃度ムラのコントラストがより高くなることがある。特定の条件については後述する。例えば、このようなスキャン画像では、図4(d)に示す拡大背景画素領域405のように、背景画素410及びノイズ画素411とは異なる高濃度のノイズ画素412を複数含んだ画像となることがある。更に、図4(d)に示すように、複数のノイズ画素412が連結して線状に連なった画像となることがある。このような場合、文字情報の認識精度は更に低下してしまう。
上述の特定の条件について説明する。拡大背景画素領域405のような濃度ムラを含むスキャン画像は、インクジェット方式又は電子写真方式等により印刷し、且つ、中間色の表現に誤差拡散法を用いる場合、又は、文字の輪郭を強調するような設定を用いてスキャンする場合等で発生しやすい。これは、このような印刷では、線又は孤立点の密度を調整することにより中間色を表現するため、記録媒体に形成された中間色画像では、全画像領域の色が均一な色ではなくなり、高濃度の線又は孤立点が一定間隔で並んだ画像となることに起因する。また、中間色画像が形成された記録媒体をスキャンすると、スキャン画像において、高濃度の線状の画素塊、又は複数の画素から成る孤立点の画素塊等が密集した状態のスキャン画像データが得られる。ただし、一般的なスキャナでは、ぼかし処理等を中間色の画像領域に対して行い、スキャン画像における中間色画像の濃度が均一となるような補正処理が行われることがある。しかしながら、文字の輪郭を強調する設定を用いてスキャンすることにより得られたスキャン画像、又は、上述の補正処理を実行しない設定を用いてスキャンすることにより得られたスキャン画像では、線又は孤立点の画素塊等が高濃度のままとなる。そのため、このような設定を用いてスキャンすることにより得られたスキャン画像では、拡大背景画素領域405のような画像領域を含むものとなる。
図5は、スキャン画像における濃度分布の一例を説明するための説明図である。具体的には、図5(a)は、図4(c)に示す拡大背景画素領域404のような濃度ムラを含むスキャン画像における濃度分布510の一例を示している。また、図5(b)は、図4(d)に示す拡大背景画素領域405のような濃度ムラを含むスキャン画像における高濃度の濃度ムラの濃度分布520を示している。図5(a)及び図5(b)において、横軸は、スキャン画像における任意に設定された1次元方向の位置を示し、縦軸は、スキャン画像の画素における色の濃度の大きさを示している。
拡大背景画素領域404のような濃度ムラを背景領域に含むスキャン画像には、背景領域の位置の範囲502において、濃度511と、濃度511より高濃度ではあるが濃度が濃度511に比較的近い濃度512とを示す画素がある。また、濃度511及び濃度512は、スキャン画像における文字画素の位置の範囲501の濃度513との濃度差が大きい。そのため、拡大背景画素領域404のような背景を含むスキャン画像は、色背景文字領域を2値化すると白画素の総数が黒画素の総数に比べて圧倒的に少なくなる。結果として、拡大背景画素領域404のような濃度ムラについては、文字認識の精度が著しく低下する可能性が低い。
これに対して、拡大背景画素領域405のような濃度ムラを背景領域に含むスキャン画像には、背景領域の位置の範囲502において、濃度521と、濃度521より高濃度の濃度522とを示す画素がある。ここで、濃度522は、濃度521との濃度差が大きく、スキャン画像における文字画素の位置の範囲501の濃度523と比較的近い又は同等の濃度となっている。拡大背景画素領域405のような背景を含むスキャン画像は、色背景文字領域を2値化すると、黒画素の総数が非常に多くなり、白画素の総数と同程度、又はそれ以上の数になる。結果として、拡大背景画素領域405のような濃度ムラについては、文字認識の精度が著しく低下してしまうことがある。
そこで、例えば、白画素の総数に対する黒画素の総数の比率が0.5以上であり、且つ1.5未満である等の予め定められた条件を満たす場合に、スキャン画像における背景領域に濃度ムラが含まれると判定する。このように構成することにより、スキャン画像における背景領域に濃度ムラが含まれない場合には、S303からS308までの処理を省略することが可能となる。なお、スキャン画像における背景領域に濃度ムラが含まれるか否かを判定する方法は、上述の方法に限定されるものではなく、当該判定の結果が得られるものであれば、他の方法を用いても良い。例えば、スキャン画像から画像内におけるエッジを抽出し、抽出したエッジに対応する画素の密度と予め定められた閾値とを比較することにより、スキャン画像における背景領域に濃度ムラが含まれるか否かを判定してもよい。
以上のように構成された画像処理装置100によれば、文字認識を行う上でのノイズが抑制された2値画像を得ることができる。結果として、文字認識の精度を向上させることができる。
[その他の実施形態]
本開示は、上述の実施形態の1つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1つ以上の機能を実現するASIC等の回路によっても実現可能である。
本開示は、上述の実施形態の1つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1つ以上の機能を実現するASIC等の回路によっても実現可能である。
また、本開示は、その開示の範囲内において、実施形態の任意の構成要素の変形、又は、実施形態において任意の構成要素の省略が可能である。
100 画像処理装置
101 画像取得部
102 画素特定部
103 変更部
104 生成部
101 画像取得部
102 画素特定部
103 変更部
104 生成部
Claims (19)
- 文字を示す画像が形成された記録媒体を読み取ることにより得られた画像を取得する画像取得手段と、
前記画像における複数の画素のうちから、前記複数の画素のそれぞれにおける画素値と予め定められた第1画素基準値とに基づいて対象画素を特定する画素特定手段と、
前記対象画素の周辺に存在する複数の周辺画素のうちの予め定められた条件を満たす周辺画素の個数に基づいて、前記対象画素における画素値を変更する変更手段と、
前記変更手段により前記対象画素における画素値が変更された後の前記画像を用いて、前記画像に対応する2値画像を生成する生成手段と、
を有すること
を特徴とする画像処理装置。 - 前記画素特定手段は、前記複数の画素のそれぞれにおける画素値と前記第1画素基準値との間の差分の大きさと、予め定められた第1閾値とに基づいて前記対象画素を特定すること
を特徴とする請求項1に記載の画像処理装置。 - 前記第1画素基準値は、前記生成手段が前記2値画像を生成する際に用いる2値化閾値又は前記2値化閾値に基づいて算出される値であること
を特徴とする請求項1又は2に記載の画像処理装置。 - 前記変更手段は、前記複数の周辺画素のそれぞれにおける画素値と予め定められた第2画素基準値とに基づいて、前記複数の周辺画素のうちから、前記条件を満たす周辺画素の個数を取得すること
を特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。 - 前記変更手段は、前記複数の周辺画素のそれぞれにおける画素値と前記第2画素基準値との間の差分の大きさと、予め定められた第2閾値とに基づいて、前記複数の周辺画素のうちから前記条件を満たす周辺画素の個数を取得すること
を特徴とする請求項4に記載の画像処理装置。 - 前記変更手段は、前記複数の周辺画素のそれぞれにおける画素値と前記第2画素基準値との差分の大きさが前記第2閾値以上である周辺画素を、前記条件を満たす周辺画素として前記条件を満たす周辺画素の個数を取得すること
を特徴とする請求項5に記載の画像処理装置。 - 前記第2画素基準値は、前記生成手段が前記2値画像を生成する際に用いる2値化閾値又は前記2値化閾値に基づいて算出される値であること
を特徴とする請求項4乃至6のいずれか1項に記載の画像処理装置。 - 前記第1画素基準値と前記第2画素基準値とは、互いに異なる値であること
を特徴とする請求項4乃至7のいずれか1項に記載の画像処理装置。 - 前記第1画素基準値と前記第2画素基準値とは、互いに等しい値であること
を特徴とする請求項4乃至7のいずれか1項に記載の画像処理装置。 - 前記第2画素基準値は、前記対象画素における画素値に基づく値であり、
前記変更手段は、前記複数の周辺画素のそれぞれにおける画素値と前記第2画素基準値との間の差分の大きさが前記第2閾値以下である周辺画素を、前記条件を満たす周辺画素として前記条件を満たす周辺画素の個数を取得すること
を特徴とする請求項5に記載の画像処理装置。 - 前記変更手段は、前記条件を満たす周辺画素の個数が予め定められた個数より少ない場合に、前記対象画素における画素値を変更すること
を特徴とする請求項1乃至10のいずれか1項に記載の画像処理装置。 - 前記変更手段は、前記条件を満たす周辺画素の個数が予め定められた個数より少ない場合に、前記複数の周辺画素における画素値の統計値を取得し、取得した前記統計値を用いて前記対象画素における画素値を変更することを
特徴とする請求項10に記載の画像処理装置。 - 前記変更手段は、前記統計値を取得する際に、前記複数の周辺画素のうちの前記条件を満たす周辺画素を除いた周辺画素における画素値の統計値を取得すること
を特徴とする請求項12に記載の画像処理装置。 - 前記統計値は、平均値又は中央値であること
を特徴とする請求項12又は13に記載の画像処理装置。 - 前記画像取得手段は、カラー画像をグレースケール画像に変換し、前記グレースケール画像のデータを前記画像のデータとして取得すること
を特徴とする請求項1乃至14のいずれか1項に記載の画像処理装置。 - 前記画像における文字領域であって、文字の背景色が中間色である色背景文字領域を特定する領域特定手段、
を更に有し、
前記画素特定手段は、前記色背景文字領域のうちから前記対象画素を特定すること
を特徴とする請求項1乃至15のいずれか1項に記載の画像処理装置。 - 前記生成手段により生成される前記2値画像を用いて、前記画像に含まれる前記文字の情報を取得する文字取得手段、
を更に有すること
を特徴とする請求項1乃至16のいずれか1項に記載の画像処理装置。 - 文字を示す画像が形成された記録媒体を読み取ることにより得られた画像を取得する画像取得工程と、
前記画像における複数の画素のうちから、前記複数の画素のそれぞれにおける画素値と予め定められた第1画素基準値とに基づいて対象画素を特定する画素特定工程と、
前記対象画素の周辺に存在する複数の周辺画素のうちの予め定められた条件を満たす周辺画素の個数に基づいて、前記対象画素における画素値を変更する変更工程と、
前記変更工程により前記対象画素における画素値が変更された後の前記画像を用いて、前記画像に対応する2値画像を生成する生成工程と、
を有すること
を特徴とする画像処理方法。 - コンピュータを、請求項1乃至17のいずれか1項に記載の画像処理装置として動作させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037997A JP2023132586A (ja) | 2022-03-11 | 2022-03-11 | 画像処理装置、画像処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022037997A JP2023132586A (ja) | 2022-03-11 | 2022-03-11 | 画像処理装置、画像処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023132586A true JP2023132586A (ja) | 2023-09-22 |
Family
ID=88065311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022037997A Pending JP2023132586A (ja) | 2022-03-11 | 2022-03-11 | 画像処理装置、画像処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023132586A (ja) |
-
2022
- 2022-03-11 JP JP2022037997A patent/JP2023132586A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8494304B2 (en) | Punched hole detection and removal | |
JP4912270B2 (ja) | 画像処理装置及びその制御方法 | |
JP4471062B2 (ja) | 適合画像強調フィルター及び強調画像データの生成方法 | |
JP2009535899A (ja) | 走査されたカラー画像からの複調画像の生成 | |
JP5337563B2 (ja) | 帳票認識方法および装置 | |
KR20080006112A (ko) | 경계 영역의 선명도를 개선하는 하프토닝 방법 및 장치 | |
JP2005045793A (ja) | Xラベルを用いて画像の平滑性及び鮮鋭度を保持する適応型ハーフトーンスキーム | |
US5758034A (en) | Video path architecture including logic filters for resolution conversion of digital images | |
JP2004336282A (ja) | 画像処理装置、画像処理プログラム及び該プログラムを記録した記録媒体 | |
US9338310B2 (en) | Image processing apparatus and computer-readable medium for determining pixel value of a target area and converting the pixel value to a specified value of a target image data | |
JP5335581B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP3772262B2 (ja) | 画像の型を識別する方法 | |
JP2005184685A (ja) | 画像処理装置、プログラムおよび記録媒体 | |
US20020136456A1 (en) | Image process apparatus, image process method and storage medium | |
JP2023132586A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US8260057B2 (en) | Image processing apparatus that obtains a ruled line from a multi-value image | |
JP4861506B2 (ja) | 画像処理装置およびその制御方法 | |
JP2018147199A (ja) | 画像処理装置、および、コンピュータプログラム | |
RU2520407C1 (ru) | Способ и система улучшения текста при цифровом копировании печатных документов | |
JP6171727B2 (ja) | 画像処理装置、シート、コンピュータプログラム | |
JP5144356B2 (ja) | 画像処理装置および画像処理方法 | |
US6567565B1 (en) | Antialiased image rendering algorithm | |
JP6841254B2 (ja) | 画像処理装置、および、コンピュータプログラム | |
KR100260923B1 (ko) | 화상의 국부 이치화 장치 및 방법 | |
JP4324532B2 (ja) | 画像処理装置および記憶媒体 |