JP2021044803A - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2021044803A
JP2021044803A JP2020148078A JP2020148078A JP2021044803A JP 2021044803 A JP2021044803 A JP 2021044803A JP 2020148078 A JP2020148078 A JP 2020148078A JP 2020148078 A JP2020148078 A JP 2020148078A JP 2021044803 A JP2021044803 A JP 2021044803A
Authority
JP
Japan
Prior art keywords
image
vertical line
binary image
morphology
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020148078A
Other languages
English (en)
Other versions
JP2021044803A5 (ja
Inventor
理 山中
Satoru Yamanaka
理 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2021044803A publication Critical patent/JP2021044803A/ja
Publication of JP2021044803A5 publication Critical patent/JP2021044803A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】縦線抜け領域を含む文字(印字不良により印字されなかった縦線状に欠けた部分を含む文字)の補正を行うとともに、縦線抜け領域以外の領域は黒潰れしないようにする。【解決手段】本発明では、第1の二値画像に対して第1のモルフォロジーを実行することにより第2の二値画像を生成し、前記第2の二値画像に基づいて縦線抜け領域を特定し、前記第2の二値画像に対して前記第1のモルフォロジーとは異なる条件で第2のモルフォロジーを実行することにより第3の二値画像を生成し、前記第3の二値画像における前記縦線抜け領域に対応する領域の画素情報を取得し、前記取得した画素情報を用いて、前記第1の二値画像における前記縦線抜け領域に対応する領域を補正することにより、第4の二値画像を生成する。【選択図】図2

Description

本発明は、画像を補正する画像処理装置、画像処理方法、及びプログラムに関する。
帳票やレシートなどの文書をスキャンして得られたスキャン画像から、日付、会社名、金額、電話番号などの情報(以下、「文書情報」という)を抽出する画像処理技術が一般的に知られている。文書情報の抽出方法の一例としては、以下のような方法がある。この方法によれば、まず、文書をスキャンしてスキャン画像を取得し、OCR(Optical Character Recognition。光学文字認識)によりスキャン画像内の文字を認識する。更に、認識した文字の文字列、位置関係、文字種、形式などの情報から、日付、会社名、金額などの項目の種別や、それらの項目に対応した文字の位置を推定することで、文書情報を抽出する。
上記の画像処理技術により、帳票、レシートなどの文書内の日付、会社名、金額などの項目に対応する文書情報を自動で取得することができるため、経理などの事務作業の生産性を向上させることができる。
帳票やレシートなど文書のスキャン画像からより高精度に文書情報を抽出するためには、OCRによる文字認識精度を高めることが重要である。一般的に、文字認識精度を高めるために、スキャン画像に対して画像処理(二値化、ノイズ除去など)を行い、文字を認識しやすい画像に加工する方法が用いられている。
しかし、従来の画像処理技術を用いても文字認識精度を向上させることが困難な場合がある。例えば、レシートプリンタを用いて文字を印字したレシートにおいて、紙の搬送方向に対して垂直に白い筋が入り、文字や画像が欠ける現象(縦線抜け)が発生することがある。縦線抜けは、レシートプリンタの印字部への異物の付着(融着)による印字不良が主な原因である。一般的なレシートプリンタでは、印字部に発生させた熱を感熱紙(レシート用紙)に伝えることで文字が描画されるが、異物の混入により感熱紙への熱伝導が阻害されることがある。このため、異物直下の感熱紙に文字を描画することができなくなり、縦線抜けによる印字不良が発生する。縦線抜けにより欠けた文字を認識することは非常に困難であるため、これを文字認識するためには、欠けた文字を補正する必要がある。
特許文献1には、縦線抜け領域に隣接する画素情報に基づいて補正を加える手法が記載されている。例えば、縦線抜け領域の両隣が黒画素であれば、領域内を黒画素に変更し、両隣が白画素であれば変更しないことで、一部の欠けた文字を補正することができる。
しかし、特許文献1の手法によれば、縦線抜け領域の幅を一定値とみなして補正を行うが、実際の縦線抜け領域の幅は位置によって数画素程度変動することが多い。そのため、欠けた文字の補正が十分でない場合があるという問題がある。これは、印字部への異物の混入によって印字部の圧力や接触面積が不安定になり、感熱紙への熱伝導が変動するためであり、およそ数十〜数百ミクロン程度(300dpiのスキャン画像で2〜3画素分)変動する。
また、特許文献2には、二値化したスキャン画像に対してモルフォロジーの膨張処理及び収縮処理を組み合わせて複数回実行することにより欠けた文字を補正する手法が記載されている。
しかし、特許文献2の手法では、漢字などの黒画素密度の高い文字が黒潰れしたり、縦線抜け領域の幅よりも間隔の狭い画素塊が結合したりするため、他の文字や文字列の認識精度を低下させる場合があるという問題がある。
特開2010−114567号公報 特開平1−266682号公報
本発明は、上記のような問題を解決することを目的とする発明である。
本発明の画像処理装置は、第1の二値画像を取得する第1の画像取得手段と、前記第1の二値画像に対して第1のモルフォロジーを実行することにより、第2の二値画像を生成する第2の画像生成手段と、前記第2の二値画像に基づいて縦線抜け領域を特定する特定手段と、前記第2の二値画像に対して前記第1のモルフォロジーとは異なる条件で第2のモルフォロジーを実行することにより、第3の二値画像を生成する第3の画像生成手段と、前記第3の二値画像における前記縦線抜け領域に対応する領域の画素情報を取得する取得手段と、前記取得した画素情報を用いて、前記第1の二値画像における前記縦線抜け領域に対応する領域を補正することにより、第4の二値画像を生成する第4の画像生成手段と、を有することを特徴とする。
本発明によれば、縦線抜け領域を含む文字(印字不良により印字されなかった縦線状に欠けた部分を含む文字)の補正を実現できるとともに、縦線抜け領域以外の領域は黒潰れしないようにすることができる。
本発明の実施形態に係る情報処理システムを示す図である。 第1の実施形態に係る縦線抜け画像の補正処理を示すフローチャートである。 第1の実施形態において生成される傾き補正した二値画像の例である。 第1の実施形態に係る縦線抜け領域特定処理を示すフローチャートである。 第1の実施形態において生成される縦線抜け領域特定用画像の例である。 第1の実施形態に係る修正用二次画像生成処理を示すフローチャートである。 第1の実施形態において生成される修正用二値画像の例である。 第1の実施形態に係る縦線抜け領域合成処理を示すフローチャートである。 第1の実施形態において生成される合成二値画像の例である。 第2の実施形態に係る縦線抜け画像の補正処理を示すフローチャートである。 第3の実施形態に係る縦線抜け画像の補正処理を示すフローチャートである。 第3の実施形態に係る縦線抜け領域合成処理を示すフローチャートである。 第3の実施形態において生成される傾き補正した二値画像の例である。
以下に、図面を参照して、本発明を実施するための実施形態を説明する。ただし、以下に説明する実施形態はあくまで本発明の例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施形態で説明されている特徴の組み合わせのすべてが本発明の解決手段として必須のものとは限らない。
<第1の実施形態>
図1は、本発明の実施形態に係る情報処理システムを示す図である。
情報処理システムは、複写機100と、情報処理装置110とを有している。
複写機100は、スキャナ101と、プリンタ102と、複写機側の通信部103とを有している。スキャナ101は、文書のスキャンを行い、スキャン画像を生成する。プリンタ102は、画像を形成する。複写機側の通信部103は、ネットワークを介して外部装置と通信を行う。
情報処理装置110は、CPU111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、情報処理装置側の通信部117とを有している。CPU111は、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、CPU111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。
なお、後述する情報処理装置110の機能や処理は、CPU111がROM112又はHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
情報処理装置側に通信部117は、ネットワークを介して外部装置との通信処理を行う。表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。
なお、表示部115と入力部116は、タッチパネルのように一体に設けられていてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
本実施形態においては、複写機100のスキャナ101がレシート等の文書をスキャンし、スキャンされた原画像(スキャン画像)を生成する。そして、スキャン画像は、複写機側の通信部103により情報処理装置110に送信される。情報処理装置110においては、情報処理装置側の通信部117がスキャン画像を受信し、これをHDD114等の記憶部に記憶する。なお、本実施形態において、縦線抜け領域とは、プリンタの印字不良により、印字が為されなかった縦線状の領域のことを指す。
図2は、第1の実施形態に係る縦線抜け画像の補正処理を示すフローチャートである。
S201において、CPU111は、複写機100のスキャナ101によりスキャンされ、CPU111によりHDD114に格納されたスキャン画像を二値化し、二値画像Aを生成する(二値化処理)。ここで、二値化処理とは、画像を白と黒の2階調に変換する処理のことである。すなわち、閾値より濃い色の画素は黒画素となり、閾値より薄い色の画素は白画素となる。本実施形態では、二値画像を生成する手法として、スキャン画像全体のヒストグラムから閾値を決定する手法を用いる。ただし、その後の文字認識が可能な精度で白と黒の二値に変換されるのであれば、二値化処理の具体的な手法は問わない。
次に、S202において、CPU111は、二値画像Aの傾きを補正して、傾き補正した二値画像Bを生成する(傾き補正処理)。縦線抜け領域を正確に検出するためには、傾斜のない画像が必要である。しかし、実際はスキャン時に画像が数度傾いてしまうことが多いため、画像の傾き補正処理を行う必要がある。本実施形態では、二値画像Aから文字の位置を特定し、各文字の位置関係に基づいて傾きを検出して補正し、傾き補正した二値画像Bを生成する。ただし、正しい傾き補正が可能であれば、傾き補正処理の手法は問わない。そして、CPU111は、傾き補正した二値画像BをRAM113に格納する。
図3(a)に、本実施形態において生成される二値画像Bの例を示す。また、図3(b)及び(c)に、それぞれ、二値画像B内の文字である「マイショップ」及び「合計」を拡大した画像を示す。
図3(b)に示されるように、文字「プ」において文字欠けが発生していることが分かる。また、図3(c)に示されるように、文字「合」と「計」においても文字欠けが発生していることが分かる。さらに、図3(a)に示されるように、スキャン画像301には、縦方向の同じ列に同様の文字欠け(縦線抜け)が発生していることが分かる。このように、縦線抜けが発生する位置(縦線抜け領域)は不定であるが、同じ列に発生するという特徴がある。
次に、S203において、CPU111は、二値画像Bから縦線抜け領域を特定する(縦線抜け領域特定処理)。図4は、S203において実行される縦線抜け領域特定処理の詳細を示すフローチャートである。
S401において、CPU111は、二値画像Bに対して第1のモルフォロジー処理をし、縦線抜け領域特定用画像Cを生成する。そして、CPU111は、縦線抜け領域特定用画像CをRAM113に格納する。なお、縦線抜け領域特定用画像Cが格納されるRAM113の領域は、二値画像Bが格納されているRAM113の領域とは異なる。
ここで、本実施形態では、第1のモルフォロジー処理として、上述のような縦線抜け領域幅の変動を考慮して、縦線抜け領域幅を広めに取得するために、モルフォロジー処理による白画素の膨張処理(白画素領域を広げる膨張処理)を行う。例えば、二値画像B内の白画素を検知して、その周りの8画素を白画素にする、という処理を行うことで、白画素領域を膨張させることができる。なお、白画素を何画素分膨張させるか(または何回膨張させるか)は任意であるが、文字のストロークが完全に消えてしまわないような膨張回数とするのが望ましい。ノイズ等の影響で縦線抜け領域の位置が原稿の上部と下部でずれていたとしても、第1のモルフォロジー処理により、縦線抜け領域が広がるので、縦線抜け領域を特定しやすくなる。なお、第1のモルフォロジー処理として、孤立点ノイズ除去も同時に行えるように、白画素の膨張処理を数回行った後に白画素の収縮処理を更に行うなどの他の画像処理を組み合わせて用いてもよい。例えば、白画素の膨張処理を2回行うと、小さい黒画素塊のノイズは削除されるが、文字のストロークの線幅も細くなってしまうので、その後、白画素の収縮処理(すなわち黒画素の膨張処理)を行うことで文字の線幅を太らせることができる。
図5(a)は、第1のモルフォロジー処理により生成される縦線抜け領域特定用画像Cの例である。縦線抜け領域501〜509の位置は、白画素となっている。
S402において、CPU111は、縦線抜け領域特定用画像Cに対して縦方向の射影(すなわち、黒画素数のカウント)を行い、射影ヒストグラムDを生成する。
図5(b)は、射影ヒストグラムDの例である。
S403において、CPU111は、射影ヒストグラムDにおける黒画素数が閾値以下の領域となる位置に基づいて、縦線抜け位置511〜519を特定する。そして、射影ヒストグラムの縦線抜け位置511〜519に対応する、縦線抜け領域特定用画像Cの縦線抜け領域501〜509の位置情報(X)を取得する。
本実施形態では、射影ヒストグラムDの縦線抜け位置を特定するための黒画素数の閾値を0とする。ただし、縦線抜け領域を特定することができるのであれば、他の閾値を用いてもよい。
次に、S404において、CPU111は縦線抜け領域501〜509の位置情報XをRAM113に保存する。なお、本実施形態では、領域501及び509も縦線抜け領域として扱っているが、画像の左右両端に存在する領域であるので、余白領域であると判断して縦線抜け領域から除外しておいてもよい。
次に、図2のフローチャートに戻り、S204において、CPU111は、二値画像Bを用いて修正用二値画像Eを生成する(修正用二値画像生成処理)。図6は、S204において実行される修正用二値画像生成処理の詳細を示すフローチャートである。
S601において、CPU111は、二値画像Bに対してS401で行った第1のモルフォロジー処理とは異なる条件で第2のモルフォロジー処理を行い、修正用二値画像Eを生成する。
ここで、本実施形態では、第2のモルフォロジー処理として、縦線抜け領域501〜509に対応する二値画像Bの領域に含まれる文字欠け部分を埋めるために、モルフォロジー処理による白画素の収縮処理(黒画素領域を広げる処理)を行う。ただし、縦線抜け領域における文字欠け部分を埋めることができるのであれば、第2のモルフォロジー処理として、モルフォロジーの膨張処理と収縮処理を組み合わせてもよく、また、その他の画像処理を併用してもよい。
図7(a)は、二値画像Bに第2のモルフォロジー処理を行うことにより生成された修正用二値画像Eの例である。修正用二値画像Eでは、縦線抜け領域501〜509に対応する位置の領域701〜709において、欠けていた文字部分が埋められているが、同時に、第2のモルフォロジー処理を二値画像B全体に対して実行するので、縦線抜け領域以外の箇所で白画素の収縮処理による画像不良も発生しうる。
図7(b)及び(c)は、それぞれ、修正用二値画像Eの一部を拡大した画像である。例えば、図7(b)に示される文字「プ」のように、図3(b)で見られたような縦線抜け領域における文字欠け部分が埋められて、繋がるように補正されている箇所もある。図7(c)でも縦線抜け領域における文字欠け部分が補正されているが、それと同時に、本来結合すべきでない箇所の黒画素同士が繋がってしまうことがある。例えば、図7(c)の文字「計」のように、「言」と「十」の間が結合してしまっている。すなわち、白画素の収縮処理(黒画素の膨張処理)によって、本来繋がるべきでない箇所の黒画素同士が繋がってしまっており、画素不良が発生している。このような画像不良が発生すると、文字認識精度が低下するため、画像不良を発生させることなく、縦線抜け領域の文字を補正する必要がある。
次に、S602において、CPU111はRAM113に、S601で生成された修正用二値画像Eを格納する。なお、修正用二値画像Eが格納されるRAM113の領域は、二値画像Bなどが格納されているRAM113の領域とは異なる。
次に、再び図2のフローチャートに戻り、S205において、CPU111は、修正用二値画像Eにおける、縦線抜け領域501〜509に対応する位置の領域701〜709の画素情報Yを、二値画像Bに合成する。これにより、二値画像Bにおける文字欠けを補正する(縦線抜け領域合成処理)。
図8は、S205において実行される縦線抜け領域合成処理の詳細な処理を示すフローチャートである。
S801において、CPU111は、RAM113に格納した縦線抜け領域501〜509の位置情報Xと、二値画像Bと、修正用二値画像Eのデータを取得し、レジスタに格納する。
次に、S802において、CPU111は、上記データを用いて、修正用二値画像Eから、縦線抜け領域501〜509の位置情報Xに対応する位置の領域701〜709の画素情報Yを抽出する。
次に、S803において、CPU111は、修正用二値画像Eから抽出した領域701〜709の画素情報Yで、縦線抜け領域501〜509の位置情報Xに対応する二値画像B内の位置の画素情報を上書きして、合成二値画像Fを生成する。なお、合成二値画像Fを生成するにあたっては、画素値の上書き処理に限るものではなく、ビット演算や合成などの処理を用いてもよい。
図9(a)は、縦線埋め領域701〜709の画素情報Yで上書きした合成二値画像Fの例である。また、図9(b)及び(c)は、それぞれ、合成二値画像Fの一部を拡大した画像である。
図9(b)及び(c)では、図3(b)及び(c)で見られたような二値画像Bに存在した縦線抜けが補正されていることが分かる。また、図9(c)では、図7(c)で見られたような文字の結合や黒潰れが発生していないことも分かる。
以上のとおり、本実施形態によれば、縦線抜けにより欠けた文字の補正を実現できるとともに、縦線抜け領域以外の領域は黒潰れしないようにすることができる。
<第2の実施形態>
上述したように、縦線抜け領域の幅は、一定でなく、位置によって異なるが、スキャン画像によってはかなり広い領域が抜けることがある。そのため、スキャン画像に縦線抜け領域の幅が極端に広い領域が存在する場合、第1の実施形態による方法では、その領域の文字欠けが十分に補正されないおそれがある。
そこで、本実施形態では、縦線抜け領域の最大幅を算出し、最大幅においても十分な補正ができるように第2のモルフォロジー処理の条件を決定することにより、すべての縦線抜け領域において十分な補正を実現するようにする。
なお、以下においては、第1の実施形態との差分について主に説明する。特に説明しない部分については、第1の実施形態と同じ構成や処理である。
図10は、第2の実施形態に係る縦線抜け画像の補正処理のフローチャートである。
S1001からS1003までの処理は、図2のフローチャートに示した第1の実施形態におけるS201からS203までの処理と同様である。
本実施形態では、S1004において、CPU111は、S1003で特定した各縦線抜け領域の幅を算出する。
次に、S1005において、CPU111は、S1004で算出した各縦線抜け領域の幅の中から、その最大値を特定し、レジスタに格納する。なお、図5Aの例では、領域501,509は、画像の左右両端に存在する領域であるので、余白と判断して対象外とする。すなわち、領域502〜508の中から最大幅を特定する。
次に、S1006において、CPU111は、修正用画像生成処理を行う。ここで、本実施形態の修正用画像生成処理では、第1の実施形態と同様に、縦線抜け領域を埋めるために、第2のモルフォロジー処理として、モルフォロジーの収縮処理(黒画素領域を広げる処理)を行う。ただし、本実施形態において行うモルフォロジーの収縮処理は、S1005において特定された縦線抜け領域の最大幅においても十分な補正ができるような条件で行う。
また、縦線抜け領域ごとに縦線抜け領域の幅に基づいて適切なモルフォロジーの条件を決定し、各々の修正画像を生成することにより、より正確な縦線抜け領域の補正を行うこともできる。
以上のとおり、本実施形態によれば、スキャン画像に縦線抜け幅が極端に広い領域が存在した場合であっても、正確な縦線抜け領域の補正を実現することができる。
<第3の実施形態>
上述の実施形態においては、文字が比較的多く存在するスキャン画像を前提にして説明したが、スキャン画像の種類によっては、スキャン画像内の文字数が極めて少ない場合もある。文字数の少ないスキャン画像では、特に縦線方向に文字数が少ない場合、文字間の白画素領域が縦線抜け領域として認識されることがある。
このように文字数の少ないスキャン画像に対しても、通常は、文字間を縦線抜け領域として認識して、補正処理を行っても問題はない。しかし、文字間の間隔が極めて狭い場合は、縦線抜け領域の両側にある各文字を結合してしまう場合がある。
図13(a)に、本実施形態で用いられる傾き補正後の二値画像Bの例を示す。
図13(b)及び(c)は、図13(a)内の一部を拡大表示したものである。図13(b)の「3」と「5」の間と、図13(c)の「0」と「0」の間の領域1301は、縦方向の全体にわたって文字が存在しないため、縦線抜け領域として誤認識される。そして、誤認識された縦線抜け領域1301の間隔が狭いため、第1や第2の実施形態による補正処理を行うと、「3」と「5」の2文字及び「0」と「0」の2文字を、それぞれ、結合してしまうおそれがある。
そこで、本実施形態においては、縦線抜け領域と判断した領域に隣接する両側の画素塊を個別に評価し、各画素塊が文字として認識できるかどうかを判断する。そして、両側の画素塊がそれぞれ文字として認識できた場合は、当該両側の画素塊は別々の文字であると判断できる。すなわち、その縦線抜け領域は通常の文字間の領域であり、補正処理を行う必要はないと判断する。それにより、補正処理により、誤って縦線抜け領域の両側の文字が結合されることを防止する。なお、ここで、文字とは、帳票などの文書に描画された、日付、会社名、金額、電話番号などの項目を表す要素であり、数字や記号なども含むものである。
なお、以下においては、第1の実施形態との差分について主に説明する。特に説明しない部分については、第1の実施形態と同様の構成や処理である。
図11は、本実施形態に係る縦線抜け画像補正処理のフローチャートである。
S1101からS1103までの処理は、図2に示した第1の実施形態におけるS201からS203までの処理と同様である。
S1103で縦線抜け領域特定処理を行うと、S1104において、CPU111は、二値画像B′からスキャン画像内の文字数に関連する情報である文字情報を算出する。ここで、文字情報とは、スキャン画像内の文字数が極めて少ないか否かを判断するための判断基準となる情報のことであり、例えば、二値画像内の総黒画素数、総文字数、総行数、文字間隔などである。本実施形態では、算出された総黒画素数が予め定めた閾値より少ないか否かにより、文字数が極めて少ないか否かを判断するものとする。ただし、スキャン画像内の文字数が極めて少ないか否かを判断することができれば、上記に例示した文字情報などの総黒画素数以外を判断基準として用いてもよく、また、これらの判断基準を組み合わせて用いてもよい。
次に、S1105において、CPU111は、スキャン画像内の文字数に関連する情報が所定の条件を満たしているか否か(本実施形態では、総黒画素数が予め定めた閾値以上であるか否か)を判断する。
総黒画素数が閾値以上である場合、つまり、二値画像B′内に十分な文字が存在する場合(S1105でYes)、S1106へ進み、第1の実施形態と同様の処理を実行する。総黒画素数が閾値より少なければ(S1105でNo)、S1108へ進む。
S1108において、CPU111は、二値画像B′から文字領域を抽出し、RAM113へ格納する。
次に、S1109において、CPU111は、抽出した各文字領域に対して文字認識処理を実行し、信頼度を算出する。ここで、本実施形態における信頼度とは、文字認識処理の対象である文字の特徴量と、OCR結果の文字の特徴量との一致度を数値化(0〜255)したものである。この数値が低いほど、文字認識処理の結果がより信頼できることを示す。なお、信頼度は、各文字についての文字認識処理の結果の確からしさを客観的に比較することができるものであれば、その表現方法は問わない。
S1110において、CPU111は、二値画像B′を用いて縦線抜け領域を修正した修正用二値画像E′を生成する(修正用画像生成処理)。なお、この処理は、図2に示した第1の実施形態におけるS204の処理と同様である。
S1111において、CPU111は、修正用二値画像Eにおける、縦線抜け領域に対応する位置の領域の画素情報Yを抽出し、当該抽出した画素情報を二値画像Bに合成する(縦線抜け領域合成処理)。ただし、縦線抜け領域に隣接する両側の画素塊が個別の文字であると判定された場合は、その縦線抜け領域については合成処理の対象外とする。
図12は、S1111において実行される縦線抜け領域合成処理の詳細を示すフローチャートである。
S1201において、CPU111は、RAM113に格納した縦線抜け領域の位置情報Xと、二値画像Bと、修正用二値画像Eのデータを取得し、レジスタに格納する。なお、この処理は、図8に示した第1の実施形態におけるS801の処理と同様である。
次に、S1202からS1209までのループにおいて、CPU111は、各縦線抜け領域について、所定の条件に合致する場合に上書きをする。各縦線抜け領域について、所定の条件に合致するか否かは、S1203からS1206までの各項目に基づいて判断する。
そして、上書きすると判断した場合、CPU111は、S1207及びS1208において、修正用二値画像Eにおける縦線埋め領域に対応する位置の画素情報Yを抽出して、二値画像Bの対応する位置に上書き合成する。なお、S1207及びS1208の処理は、図8に示した第1の実施形態におけるS802及びS803の処理と同様である。
まず、S1203において、CPU111は、縦線抜け領域に隣接する両側の画素塊が、それぞれ単独の文字である可能性が高いか否かを判断する。ここで、文字とは、一般的な文字の他、数字や記号なども含むものである。
文字であると判断された場合は(S1203のYes)、S1204へ進む。文字でないと判断された場合は(S1203のNo)、S1207へ進む。
例えば、図13(a)の二値画像Bの場合、図13(b)の縦線抜け領域1301に隣接する両側の黒画素塊1311及び1312に対して文字認識処理を行う。そして、文字認識結果として、それぞれ、文字「3」及び「5」が候補として得られたものとする。また、図13(c)の縦線抜け領域1301に隣接する両側の黒画素塊1321及び1322に対して文字認識処理を行った結果、それぞれ、文字「0」及び「0」が候補として得られたものとする。文字認識結果として候補文字が得られた場合は、文字であると判断する。
次に、CPU111は、S1204からS1206までの各条件に基づいて、S1203で判断された文字が、独立した文字である可能性が高いかどうか判断する。
まず、S1204において、CPU111は、縦線抜け領域に隣接する両側の画素塊の文字認識結果の信頼度が予め定めた閾値より低いか否かを評価する。信頼度が閾値より低い場合は(S1204のYes)、S1205へ進む。信頼度が閾値以上の場合は(S1204のNo)、各画素塊は単独の文字である可能性が高いので、S1202へ戻り、当該縦線抜け領域では上書きを行わない。そして、次の縦線抜け領域について処理をする。
S1205において、CPU111は、縦線抜け領域に隣接する各黒画素塊について、サイズが一般的な文書の文字サイズの範囲外であるか否かを評価する。一般的な文字サイズの範囲外であれば(S1205のYes)、S1206へ進む。文字サイズが一般的なサイズの範囲内であれば(S1205のNo)、S1202へ戻り、当該縦線抜け領域では上書きを行わない。そして、次の縦線抜け領域について処理をする。なお、本実施形態では、一般的な文字サイズを20〜100ピクセルとして評価する。ただし、ユーザが文字サイズの範囲を指定してもよい。
S1206において、CPU111は、縦線抜け領域に隣接する文字について、縦横比が一般的な文字の範囲外か否かを評価する。
一般的な文字の縦横比の範囲外であれば(S1206のYes)、S1207へ進む。一般的な文字の縦横比の範囲内であれば(S1206のNo)、S1202へ戻り、当該縦線抜け領域では上書きを行わない。そして、次の縦線抜け領域について処理をする。なお、本実施形態では、文字の縦横比を文字高さ/文字幅と定義し、一般的な文字の縦横比の範囲を0.7〜1.5として評価する。ただし、ユーザが文字の縦横比の範囲を指定してもよい。
以上のとおり、本実施形態によれば、スキャン画像内の文字が少なく、かつ、文字間が極めて狭い場合であっても、正確な縦線抜け領域の補正を実現することができる。
<その他の実施例>
本発明は、前述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は前述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、前述した実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
100 複写機
101 スキャナ
110 情報処理装置

Claims (15)

  1. 第1の二値画像を取得する第1の画像取得手段と、
    前記第1の二値画像に対して第1のモルフォロジーを実行することにより、第2の二値画像を生成する第2の画像生成手段と、
    前記第2の二値画像に基づいて縦線抜け領域を特定する特定手段と、
    前記第2の二値画像に対して前記第1のモルフォロジーとは異なる条件で第2のモルフォロジーを実行することにより、第3の二値画像を生成する第3の画像生成手段と、
    前記第3の二値画像における前記縦線抜け領域に対応する領域の画素情報を取得する取得手段と、
    前記取得した画素情報を用いて、前記第1の二値画像における前記縦線抜け領域に対応する領域を補正することにより、第4の二値画像を生成する第4の画像生成手段と、を有する
    ことを特徴とする画像処理装置。
  2. 前記第4の二値画像は、前記第1の二値画像における前記縦線抜け領域に対応する領域に、前記第3の二値画像から取得した画素情報を合成することによって生成される
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記第1の二値画像は、傾き補正された二値画像である
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記第1のモルフォロジーとして、モルフォロジーの膨張処理を含む
    ことを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
  5. 前記第2のモルフォロジーは、白画素の収縮処理を含む
    ことを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
  6. 前記縦線抜け領域は、前記第2の二値画像の垂直方向のヒストグラムにおいて黒画素数が閾値以下である位置に基づいて特定される
    ことを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
  7. 前記第2のモルフォロジーの処理内容は、前記縦線抜け領域の幅に基づいて決定される
    ことを特徴とする請求項1乃至6のいずれか1項に記載の画像処理装置。
  8. 複数の縦線抜け領域が特定された場合、前記第2のモルフォロジーの処理内容は、前記複数の縦線抜け領域の幅の最大値に基づいて決定される
    ことを特徴とする請求項7に記載の画像処理装置。
  9. 複数の縦線抜け領域が特定された場合、前記第2のモルフォロジーの処理内容は、前記複数の縦線抜け領域それぞれの幅に基づいて決定される
    ことを特徴とする請求項7に記載の画像処理装置。
  10. 前記第4の画像生成手段は、隣接する両側の黒画素塊がそれぞれ個別の文字である縦線抜け領域に対しては前記補正を行わない
    ことを特徴とする請求項1乃至9のいずれか1項に記載の画像処理装置。
  11. 前記第4の画像生成手段は、前記隣接する両側の黒画素塊それぞれの文字認識結果の信頼度が高い場合に、前記隣接する両側の黒画素塊がそれぞれ個別の文字であると判断する
    ことを特徴とする請求項10に記載の画像処理装置。
  12. 前記第4の画像生成手段は、前記隣接する両側の黒画素塊それぞれの文字認識結果の信頼度と、前記隣接する両側の黒画素塊それぞれのサイズと、前記隣接する両側の黒画素塊それぞれの縦横比と、の少なくともいずれかに基づいて、前記補正を行う縦線抜け領域であるか否かを判定する
    ことを特徴とする請求項10に記載の画像処理装置。
  13. 前記第1の二値画像は、文書をスキャンして得られたスキャン画像を二値化することにより得た画像である
    ことを特徴とする請求項1乃至12のいずれか1項に記載の画像処理装置。
  14. 第1の二値画像を取得する第1の画像取得工程と、
    前記第1の二値画像に対して第1のモルフォロジーを実行することにより、第2の二値画像を生成する第2の画像生成工程と、
    前記第2の二値画像に基づいて縦線抜け領域を特定する特定工程と、
    前記第2の二値画像に対して前記第1のモルフォロジーとは異なる条件で第2のモルフォロジーを実行することにより、第3の二値画像を生成する第3の画像生成工程と、
    前記第3の二値画像における前記縦線抜け領域に対応する領域の画素情報を取得する取得工程と、
    前記取得した画素情報を用いて、前記第1の二値画像における前記縦線抜け領域に対応する領域を補正することにより、第4の二値画像を生成する第4の画像生成工程と、を有する
    ことを特徴とする画像処理方法。
  15. コンピュータを、請求項1乃至13のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
JP2020148078A 2019-09-06 2020-09-03 画像処理装置、画像処理方法、及びプログラム Pending JP2021044803A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019162566 2019-09-06
JP2019162566 2019-09-06

Publications (2)

Publication Number Publication Date
JP2021044803A true JP2021044803A (ja) 2021-03-18
JP2021044803A5 JP2021044803A5 (ja) 2023-09-08

Family

ID=74851220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020148078A Pending JP2021044803A (ja) 2019-09-06 2020-09-03 画像処理装置、画像処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US11430235B2 (ja)
JP (1) JP2021044803A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387165A (zh) * 2022-01-10 2022-04-22 杭州睿胜软件有限公司 图像处理方法、图像处理装置、电子设备、存储介质
CN114771120B (zh) * 2022-06-18 2022-09-02 南通人民彩印有限公司 微接触印刷过程压力控制方法、装置及人工智能***

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01266682A (ja) 1988-04-19 1989-10-24 Ricoh Co Ltd 原稿読取装置
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法
JP3881439B2 (ja) * 1998-01-23 2007-02-14 シャープ株式会社 画像処理装置
JP4005780B2 (ja) * 2001-07-12 2007-11-14 興和株式会社 電子透かしの埋め込みおよび検出
US7118041B2 (en) * 2004-04-27 2006-10-10 Hewlett-Packard Development Company, L.P. Two-dimensional color barcode with preserved plane and lossy plane layers
US8023155B2 (en) * 2005-03-31 2011-09-20 Hubin Jiang Imaging system with quality audit capability
US8311329B2 (en) * 2006-09-07 2012-11-13 Lumex As Relative threshold and use of edges in optical character recognition process
US8068684B2 (en) * 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
JP2010114567A (ja) 2008-11-05 2010-05-20 Oki Electric Ind Co Ltd 汚れ検出機能を有する画像読取装置
EP2538841A2 (en) * 2010-02-26 2013-01-02 Myskin, Inc. Analytic methods of tissue evaluation
US9367899B1 (en) * 2015-05-29 2016-06-14 Konica Minolta Laboratory U.S.A., Inc. Document image binarization method
US10521697B2 (en) * 2017-09-29 2019-12-31 Konica Minolta Laboratory U.S.A., Inc. Local connectivity feature transform of binary images containing text characters for optical character/word recognition

Also Published As

Publication number Publication date
US11430235B2 (en) 2022-08-30
US20210073565A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
JP3996579B2 (ja) 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム
KR101783337B1 (ko) 이미지 문서에서 텍스트를 추출하는 방법 및 장치
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
JP4310288B2 (ja) 画像処理装置及びその方法、プログラム並びに記憶媒体
US11574489B2 (en) Image processing system, image processing method, and storage medium
US9398191B2 (en) Electronic document generation system, electronic document generation apparatus, and recording medium
JP4655335B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP7433887B2 (ja) 画像を処理するための装置、プログラム、画像処理方法
JP2021044803A (ja) 画像処理装置、画像処理方法、及びプログラム
US20230062113A1 (en) Information processing apparatus, information processing method and non-transitory storage medium
US7292710B2 (en) System for recording image data from a set of sheets having similar graphic elements
JP4613397B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP5049922B2 (ja) 画像処理装置及び画像処理方法
JP2009004990A (ja) 画像形成装置および画像形成方法
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
JP2017174031A (ja) 画像処理装置及び画像処理プログラム
US8125691B2 (en) Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information
JP2013090262A (ja) 文書文字差異検出装置
JP5517028B2 (ja) 画像処理装置
JP6055952B1 (ja) 画像検査装置、画像検査方法、およびプログラム
US20220343666A1 (en) Image processing apparatus, image processing method, and storage medium
JP5146199B2 (ja) 差分抽出装置及び差分抽出プログラム
CN113255707A (zh) 信息处理装置、记录介质及信息处理方法
JP6435636B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230831

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240625