JP2015065654A - 自動修復を用いたカラー文書画像セグメンテーション及び二値化 - Google Patents

自動修復を用いたカラー文書画像セグメンテーション及び二値化 Download PDF

Info

Publication number
JP2015065654A
JP2015065654A JP2014188924A JP2014188924A JP2015065654A JP 2015065654 A JP2015065654 A JP 2015065654A JP 2014188924 A JP2014188924 A JP 2014188924A JP 2014188924 A JP2014188924 A JP 2014188924A JP 2015065654 A JP2015065654 A JP 2015065654A
Authority
JP
Japan
Prior art keywords
image
document image
local
foreground
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014188924A
Other languages
English (en)
Other versions
JP6100744B2 (ja
Inventor
イービン ティアン,
Yibin Tian
イービン ティアン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of JP2015065654A publication Critical patent/JP2015065654A/ja
Application granted granted Critical
Publication of JP6100744B2 publication Critical patent/JP6100744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Abstract

【課題】文書画像におけるフォアグラウンド及びバックグラウンドの内容を分離する方法を提供する。
【解決手段】最大局所特徴(例えば局所分散や局所コントラスト等)の画素単位マップを計算し、二値化して潜在的なフォアグランド用のマスクを生成する。色情報を効果的に利用するために、局所特徴マップを画像のすべてのカラーチャンネルを用いて計算する。その後、オリジナル文書画像の非マスク領域からマスク領域を修復することにより、バックグラウンド画像を取得する。オリジナル文書画像とバックグラウンド画像との差異に適応型しきい値処理を適用することにより、二値フォアグラウンド画像を得る。更に、二値フォアグラウンド画像の後処理により望ましくない成分を取り除く。最後に、二値フォアグラウンド画像をマスクとして用いたオリジナル文書画像の修復により、より精密なバックグラウンド画像を得る。
【選択図】図1

Description

本発明は、文書画像処理に関し、特に、フォアグラウンドのテキストと、バックグラウンドのグラフィックス又は画像との分離(セグメンテーション)に関する。
文書画像には、フォアグラウンド(主としてテキスト)及びバックグラウンド(主としてグラフィックス又は画像)の内容を両方含むものがある。例として、バックグラウンドとしての「テーマ」グラフィックスとフォアグラウンドとしてのテキストとを有するパワーポイント(PowerPoint)文書、塗りつぶしたテーブルセルを有するテーブル若しくはスプレッドシート、或いはバックグラウンド画像を有する格子縞等がある。バックグラウンドは、ハードコピー文書を撮影して文書画像を生成する際の不均一な照明条件等、画像を取得する際の望ましくないアーティファクトから生じる場合がある。一般に、バックグラウンドのグラフィックス又は画像は、フォアグラウンドのテキストと比較して緩く変化する。カラー文書画像は、種々の複雑なフォアグラウンド及びバックグラウンドの条件を有しうる。文書の二値化、光学的文字認識(OCR)、印刷等の様々な目的のため、バックグラウンドの画像又はグラフィックスからフォアグラウンドのテキストを自動的に分離することが望ましい場合が多い。
既存のカラー文書画像の二値化方法は、二値化文書からバックグラウンドの画像又はグラフィックスを除くことを目的として、通常、カラー画像をグレースケールに変換し、その後、所定のグローバル又はローカル(適応型)しきい値処理を適用して2進出力を得る。
本発明は、フォアグラウンド及びバックグラウンドの内容を分離する方法及び関連する装置を対象とする。
本発明の追加的な特徴及び利点は以下の記載において述べられ、その一部は当該記載から明らかであるか、本発明の実施により知るところとなる。本発明の目的及び他の利点は、明細書の記載、特許請求の範囲、及び添付図面で詳しく示された構造により実現され、取得される。
これらの及び/又は他の目的を達成するために、具現化され広く記載されているように、本発明は、バックグラウンド内容及びフォアグラウンド内容を含む文書画像を処理する方法であって、(a)局所特徴の高い値を有する前記文書画像の領域を示す二値マップであるフォアグラウンドマスクを生成する工程と、(b)前記フォアグラウンドマスクにより示される領域の前記文書画像を修復してバックグラウンド画像を生成する工程と、(c)前記文書画像と前記バックグラウンド画像との差分画像を計算する工程と、(d)前記差分画像を二値化して二値フォアグラウンド画像を生成する工程と、を有することを特徴とする方法を提供する。
工程(a)は、(a1)前記文書画像の各画素について、局所ウィンドウ内の最大局所特徴値を計算し、最大局所特徴マップを生成する工程と、(a2)前記最大局所特徴マップを二値化して前記フォアグラウンドマスクを生成する工程と、を有してもよい。局所特徴値は、局所分散、局所コントラスト、局所勾配又は局所位相一致であってもよい。
他の側面では、本発明は、データ処理装置を制御するコンピューター読取可能なプログラムコードが内蔵されたコンピューター使用可能な非一時的媒体(例えば、メモリ又は記憶デバイス)を有するコンピュータープログラム製品であって、前記コンピューター読取可能なプログラムコードは、前記データ処理装置に上記方法を実行させるように構成されているコンピュータープログラム製品を提供する。
上述した概要及び以下の詳細な説明は共に、例示的かつ説明的なものであって、特許請求の範囲に記載された本発明について更なる説明を提供することを意図するものである。
本発明の実施形態によるバックグラウンド及びフォアグラウンドの内容の分離方法を概略的に示す図である。 本発明の実施形態の方法を用いたフォアグラウンド及びバックグラウンドの分離の例を示す図であって、フォアグラウンドのテキスト及びバックグラウンドのグラフィックスを含む入力カラー文書画像を示す図である。 本発明の実施形態の方法を用いたフォアグラウンド及びバックグラウンドの分離の例を示す図であって、二値マスクの図である。 本発明の実施形態の方法を用いたフォアグラウンド及びバックグラウンドの分離の例を示す図であって、オリジナルカラー画像及び図3のマスクを用いた修復により生成されたバックグラウンド画像の図である。 本発明の実施形態の方法を用いたフォアグラウンド及びバックグラウンドの分離の例を示す図であって、オリジナルカラー画像及びバックグラウンドのグレースケール差の図である。 二値フォアグラウンド画像の図である。 本発明の実施形態を実現するデータ処理装置を概略的に示す図である。
本発明の実施形態は、文書画像におけるフォアグラウンドの内容とバックグラウンドの内容とを分離する方法を提供する。該方法は、まず、最大局所特徴(例えば、局所分散、局所コントラスト、局所テクスチャ等)の画素単位マップを計算し、該マップは二値化されて潜在的なフォアグラウンド用のマスクを生成する。色情報を有効に利用するために、画像のすべてのカラーチャンネルを用いて、局所分散、コントラスト又はテクスチャマップが計算される。そして、オリジナル文書画像の非マスク領域からマスク領域を修復することにより、バックグラウンド画像を取得する。その後、オリジナル文書画像及びバックグラウンド画像の差異に、適応型しきい値処理を適用して、二値フォアグラウンド画像を取得する。更に、二値フォアグラウンド画像の後処理により望ましくない要素を除くことができる。最後に、二値フォアグラウンド画像をマスクとして使用するオリジナル文書画像の修復により、より精密なバックグラウンド画像を取得することができる。
本発明の実施形態によるバックグラウンド分離処理について、図1を参照して詳細に説明する。該処理の入力はカラー文書画像Cであり、これは、例えば、ハードコピー文書を走査又は撮影することによって得ることができる。該処理はグレースケール画像にも同様に適用することができる。
任意の工程S101において、入力画像Cは所望のスケールで縮小され、サイズ変更画像Cが生成される。縮小(すなわち、より小さなサイズへのサイズ変更)の主な目的は、より小さな画像を生成して計算速度を上げることである。更に、縮小の前又は後に、任意のノイズ除去工程(図1に図示せず)を行ってもよい。ノイズ除去は、好ましくは、バイラテラルフィルタリング(US特許7146059)や異方拡散(Perona P及びMalik J著、「Scale−space and edge detection using anisotropic diffusion」、IEEE Transaction on Pattern Analysis and Machine Intelligence,第12巻,629〜639ページ,1990年)等のエッジ保存フィルタリングを用いて行われる。
そして、〔x,y〕の位置にある各画像画素について、局所ウィンドウ内の局所特徴Vi〔x,y〕が、データチャンネルiごとに計算される(工程S102)。データチャンネルは、画像のカラーチャンネル及び/又は情報の他のチャンネルを参照してもよい。すなわち、チャンネルの数は、各画像画素に割り当てられる値の数である。共通カラー画像フォーマットでは、カラー画像は3つのチャンネル(例えばRGB色空間において)、又は3つより多いチャンネル(例えばCMYK色空間において)を有しうる。入力画像はRGBD(Dは奥ゆき)等のハイブリッド画像フォーマットであってもよく、この場合、各チャンネルにおける画素値の適切な正規化が行われる(例えば、すべてのチャンネルは0及び1の間に正規化される)。また、入力画像がグレースケール画像である場合は、1つのチャンネルだけになる。
局所ウィンドウは、画素位置〔x,y〕を中心とするウィンドウであって、N×N画素、例えば、7行7列、9行9列、11行11列の画素等のサイズを有する。局所特徴は、好ましくは、局所分散、局所コントラスト又は局所テクスチャである。勾配や位相一致等の他の適切な局所特徴を用いることもできるが、それらはより多くの計算を要する傾向にある。分散は、分散の標準の統計的定義を用いて計算することができる。コントラストは、様々な方法で計算しうる。最も簡単な形式は、マイケルソンコントラストである。

(ただし、IはN×N画像画素の局所ウィンドウである。)
より高度なコントラストは、パーセンタイルを用いたヒストグラムに基づいて計算することができる。

(ただし、pu及びplは上位及び下位のパーセンタイルである。)
例えば、pu=0.95、pl=0.05である。これにより、計算された局所コントラストはノイズ障害により強くなる。テクスチャは、様々な方法で計算しうる。広く用いられるのは、ガボールフィルタに基づく方法である(Grigorescu S、Petkov N及びKruizinga P著、「Comparison of texture features based on Gabor filters」、IEEE Transactions on Image Processing、第11巻、1160〜1167ページ、2002年参照)。
〔x,y〕における各画素に対して、すべてのチャンネルi中の最大局所特徴値が取得される(工程S103)。これにより、カラー画像Cと同じサイズのマップVmax〔x,y〕(最大局所特徴マップ)が得られる。そして、最大局所特徴マップVmax〔x,y〕は二値化され、後の修復工程でフォアグラウンドマスクとして用いられる二値マップMが得られる(工程S104)。二値化工程S104は、グローバル二値化方法やローカル二値化方法等、いかなる適切な二値化方法を用いてもよい。
より一般的には、工程S102〜S104は、局所特徴の高い値を含む文書画像の領域を示す二値マップである、フォアグラウンドマスクを生成する工程を構成する。一例では、該領域の画素で局所特徴の高い値を含むものは、フォアグラウンドマスクMにおいて0でない値(例えば1)を有し、他の画素は0値を有する。局所特徴の高い値を有する領域は、修復される領域である。
好ましくは、フォアグラウンドマスクMの小さな穴を埋める工程が実行される(工程S105、任意)。例えば、直径が約3画素未満の穴は、埋められるべきである。これは、例えばモルフォロジー演算(例えば、ダイレーション及びエロージョン)を用いて行うことができる。工程S105は、テーブル線又は他の線の除去を含んでもよい。これは、連結成分解析、ハフ変換、これら2つの組み合わせ、又は他の適切な方法によって行うことができる。この状態でテーブル線が除かれると、それらはフォアグラウンドマスクの一部ではなくなり、フォアグラウンドの代わりにバックグラウンドの一部として分離される。
特定の状況において、例えばフォアグラウンドのテキスト文字が大きな太字である場合や、例えば文字ストロークの厚さが局所ウィンドウのサイズと同様である場合は、フォアグラウンドマスクMは文字ストロークの内部で空所になってもよい。すなわち、大きな太字は、フォアグラウンドマスクMにおいて、文字の輪郭として表されてもよい。例えば、大きな太字の「O」は、マスクMにおいて2つの円となりうる。積極的なダイレーション及びエロージョンは他の小さな文字の望ましくない歪みを引き起こしうるので、2つの円の間の空所をダイレーション及びエロージョンによって埋めるのは難しい場合がある。この問題を扱うため、マスクMの連結成分が取得され、各連結成分の凸包が見つけられる。すべての連結成分の凸包がマスクMを形成する。したがって、例えば、大きな太字の文字「O」については、凸包は、内部に空洞を有することなく文字の境界となる中空でない形状(例えば多角形)である。トレードオフとして、文字「O」のように文字の内部に穴がある場合、内部領域(文字に覆われていない領域)はマスクの一部となり、修復の対象となる。バックグラウンドは緩く変化していると考えられるので、これは許容されるべきである。
その後、フォアグラウンドマスクMにより規定される領域において、カラー画像C(工程S101が実行される場合は、入力画像又は縮小画像のいずれか)は修復され、バックグラウンド画像BGが取得される(工程S106)。修復(inpainting)は写真撮影その他の分野において周知であり、損傷やその他の欠陥を含む領域において画像を修復又は修繕し、オブジェクトを置換するのに用いられる。修復では、周辺画素からの情報を用いて、(マスクにより定義される)指定領域の画素を再構成する。いかなる適切な修復方法も工程S106に用いることができるが、好ましい実施形態では、主要な構成(線等)及び画像コントラストの継続が維持されるべきである(Bertalmio M著、「Strong−continuation,contrast−invariant inpaiting with a third−order optimal PDE」、IEEE Transaction on Image Processing、第15巻、1934〜1938ページ、2006年参照)。工程S106で生成されたバックグラウンド画像は、フォアグラウンド画像が存在しないならば概ねこうであろうというバックグラウンド画像である。
一の実施では、工程S106は、まず、フォアグラウンドマスクMにおける0でない画素に対応するすべての画素に、固有のカラー値を割り当て、カラー画像Cを変更することにより実行される。すなわち、〔x,y〕にあるマスクMのすべての0でない画素について、カラー画像Cの画素〔x,y〕は固有色に設定される。固有色は、カラー画像Cにおけるいずれの色とも異なる色である。該固有色は、画像Cの画素カラー値(すべてのカラーチャンネルについて;例えばR,G,B)を分析することにより見つけられる。或いは、カラー画像のいずれの画素にも純黒色が存在しないことも多いため(非常に暗い画素ですら純黒値を有しないことが多い)、本工程において、純黒色を固有色として用いることもできる。その後、周辺の画素を用いて該固有色を有する画素を修復することにより、変更されたカラー画像に修復が施される。この実施の利点は、修復の計算はカラー画像及びマスクの双方を要するのではなく、一つの画像(変更されたカラー画像)のみを要することである。
工程S101において入力カラー画像Cが縮小された場合、拡大工程S107が実行され、工程S101で用いられたのと同じ倍率によってバックグラウンド画像BGが拡大(すなわちより大きなサイズにサイズ変更)される。これにより、拡大バックグラウンド画像BGは入力画像Cと同じサイズになる。
次に、画素単位減算を用いて、入力画像C及び拡大バックグラウンド画像BGから差分画像Dが計算される(工程S108)。そして、差分画像Dは二値化され、フォアグラウンドの内容の見本であって、フォアグラウンド画像と呼ばれる二値画像BWが取得される。二値化工程は、グローバル二値化法又はローカル二値化法等、いかなる適切な二値化方法を用いてもよい。
また、モルフォロジー演算及び/又は連結成分解析或いは他の適切な方法を用いて、クリーニング工程(工程S110)を任意に実行し、二値フォアグラウンド画像BWから望ましくない成分を取り除いてもよい。例えば、望ましくない成分には、モルフォロジー演算を用いて取り除きうるノイズや、連結成分解析や他の方法によって識別され、取り除きうるテーブル線等の不要な線が含まれる。その結果、「クリーンな」フォアグラウンド画像BWが生成される。
バックグラウンド画像自体が出力画像として望まれている場合は、工程S109又はS110による二値フォアグラウンド画像をマスクとして用いて、オリジナルカラー画像Cに第二の修復工程を実行してもよい(工程S111、任意)。工程S106と同じ修復手順を用いることが出来る。このように得られるバックグラウンド画像は、より実際のバックグラウンド画像に近い。
図2〜6は、上述の方法を用いたフォアグラウンド及びバックグラウンドの分離の例を示している。図2は、フォアグラウンドのテキスト及びバックグラウンドのグラフィックスを含む入力カラー文書画像を示す。この例では、一部のフォアグラウンドのテキストは局所バックグラウンドよりも明るい色を有し、一部はより暗い色を有し、また、一部は局所バックグラウンドと同程度の色強度を有するが異なる色合いを有することに留意されたい。図3は、工程S104により計算されたフォアグラウンドマスクを示す。図4は、図2のオリジナルカラー画像及び図3のマスクを用いた修復(工程S106)により生成されたバックグラウンド画像を示す。図5は、図2の入力カラー画像と図4の修復バックグラウンド画像との差分画像を示す(この例ではグレースケールに変換されている)。図6は、工程S109で得られた二値フォアグラウンド画像を示す。図6では白いバックグラウンド上に黒いテキストがあるが、黒い画像に白いテキストがあってもよい点に留意されたい。
フォアグラウンドマスク(図3)はフォアグラウンドのテキストに対応する構成要素を有することがわかるが、線はテキストのものより太い。また、バックグラウンド画像に、オリジナル画像の赤い円盤21Aから生じたいくつかの円21Bや円弧等の、よりはっきりした(より高周波数の)特徴により形成される構成要素を含む。修復の後、いくつかの赤い円盤21Cのエッジはいくぶん不鮮明になるが(図4参照、例えば、上から5番目の赤い円盤)、これは差分画像(図5参照)においてわずかなノイズとなるのみであり、二値化工程S109(図6)によって取り除かれる。
まとめると、上述のバックグラウンド及びフォアグラウンド分離方法は、少なくとも2つの主要な特徴を有する。第1に、修復を用いて文書画像のバックグラウンドが見つけられ、修復される領域(フォアグラウンドマスク)が文書画像から自動的に抽出される。これは、画像の修復及び修繕やオブジェクトの置換等に用いられ、修復される領域が手動でマークされる既存の修復方法とは相違する。第2に、フォアグラウンドマスクを抽出するため、カラーチャンネルの一つにおいて最も優位な局地測定(局地分散、局地コントラスト、又は他のより高度な処置)を得てマスクを生成するように、カラー情報が利用される。
上述の方法は多くの利点を有する。第1に、カラー情報は、グレースケール値の差異が小さい可能性のあるフォアグラウンド及びバックグラウンドを分離するために、より有効に利用される。第2に、インターリービングカラーや段階的に変化する色等、複雑なバックグラウンドの色の組み合わせを効率的に取り扱うことができる。第3に、同じアルゴリズムを使用した異なるフォアグラウンド‐バックグラウンドポラリティー(「ホワイトオンブラック」及び「ブラックオンホワイト」)を効率的に取り扱うことができる。第4に、修復領域の識別は全自動である。第5に、レイアウト分析や文書認証等の他のアプリケーションに用いうる完全なバックグラウンド情報を得ることができる。
ここに記載するバックグラウンド及びフォアグラウンド分離方法は、図7に示すように、コンピューター120等のデータ処理システムにおいて実施されうる。コンピューター120は、プロセッサー121、記憶装置(例えばハードディスクドライブ)122及び内部メモリ(例えばRAM)123を有する。記憶装置122は、RAM123に読み出されてプロセッサー121に実行されることで前記方法を実施するソフトウェアプログラムを記憶する。
本発明のバックグラウンド及びフォアグラウンド分離方法及び関連する装置に、本発明の趣旨又は範囲を逸脱することなく、種々の修正や変更を加えうることは、当業者において明らかである。したがって、本発明は、添付の特許請求の範囲やその等価物の範囲内の変更点や修正点にまで及ぶことが意図されている。

Claims (18)

  1. バックグラウンド内容及びフォアグラウンド内容を含む文書画像を処理する方法であって、
    (a)局所特徴の高い値を有する前記文書画像の領域を示す二値マップであるフォアグラウンドマスクを生成する工程と、
    (b)前記フォアグラウンドマスクにより示される領域の前記文書画像を修復してバックグラウンド画像を生成する工程と、
    (c)前記文書画像と前記バックグラウンド画像との差分画像を計算する工程と、
    (d)前記差分画像を二値化して二値フォアグラウンド画像を生成する工程と、
    を有することを特徴とする方法。
  2. 前記工程(a)は、
    (a1)前記文書画像の各画素について、局所ウィンドウ内の最大局所特徴値を計算し、最大局所特徴マップを生成する工程と、
    (a2)前記最大局所特徴マップを二値化して前記フォアグラウンドマスクを生成する工程と、
    を有することを特徴とする請求項1に記載の方法。
  3. 前記文書画像はカラー画像であり、
    前記文書画像の各画素は、一以上のデータチャンネルに対応する一以上の画素値を有し、
    前記工程(a1)は、前記文書画像の各画素について、前記一以上のデータチャンネルの各々に対する前記局所ウィンドウ内の局所特徴値を計算する工程を有し、
    前記最大局所特徴値は、前記一以上のデータチャンネルのすべての前記局所特徴値のうち最大のものであることを特徴とする請求項2に記載の方法。
  4. 前記局所特徴値は、局所分散、局所コントラスト、局所テクスチャ、局所勾配又は局所位相一致であることを特徴とする請求項3に記載の方法。
  5. 前記工程(a)は、前記工程(a2)の後に、前記フォアグラウンドマスクの穴を埋める工程を更に有することを特徴とする請求項2に記載の方法。
  6. 前記工程(a)は、前記工程(a2)の後に、前記フォアグラウンドマスクから、ノイズ及び線を含む望ましくない成分を取り除く工程を更に有することを特徴とする請求項2に記載の方法。
  7. 前記工程(a)の前に、前記文書画像を倍率で縮小する工程であって、縮小された前記文書画像を用いて前記工程(a)及び前記工程(b)を行う工程と、
    前記工程(b)の後であって前記工程(c)の前に、前記バックグラウンド画像を前記倍率で拡大する工程であって、縮小前の前記文書画像及び拡大された前記バックグラウンド画像を用いて前記工程(c)を行う工程と、
    を更に有することを特徴とする請求項1に記載の方法。
  8. 前記工程(d)の後に、
    (e)前記二値フォアグラウンド画像からノイズ及び線を含む望ましくない成分を取り除く工程を更に有することを特徴とする請求項1に記載の方法。
  9. 前記工程(d)の後に、前記工程(d)で生成された前記二値フォアグラウンド画像を第2のマスクとして使用し、前記第2のマスクにより示される領域の前記文書画像を修復する工程を更に有することを特徴とする請求項1に記載の方法。
  10. データ処理装置を制御するコンピューター読取可能なプログラムコードが内蔵されたコンピューター使用可能な非一時的媒体を有するコンピュータープログラム製品であって、前記コンピューター読取可能なプログラムコードは、前記データ処理装置に、バックグラウンド内容及びフォアグラウンド内容を含む文書画像の処理を実行させるように構成され、前記処理は、
    (a)局所特徴の高い値を有する前記文書画像の領域を示す二値マップであるフォアグラウンドマスクを生成する工程と、
    (b)前記フォアグラウンドマスクにより示される領域の前記文書画像を修復してバックグラウンド画像を生成する工程と、
    (c)前記文書画像と前記バックグラウンド画像との差分画像を計算する工程と、
    (d)前記差分画像を二値化して二値フォアグラウンド画像を生成する工程と、
    を有することを特徴とするコンピュータープログラム製品。
  11. 前記工程(a)は、
    (a1)前記文書画像の各画素について、局所ウィンドウ内の最大局所特徴値を計算し、最大局所特徴マップを生成する工程と、
    (a2)前記最大局所特徴マップを二値化して前記フォアグラウンドマスクを生成する工程と、
    を有することを特徴とする請求項10に記載のコンピュータープログラム製品。
  12. 前記文書画像はカラー画像であり、
    前記文書画像の各画素は、一以上のデータチャンネルに対応する一以上の画素値を有し、
    前記工程(a1)は、前記文書画像の各画素について、前記一以上のデータチャンネルの各々に対する前記局所ウィンドウ内の局所特徴値を計算する工程を有し、
    前記最大局所特徴値は、前記一以上のデータチャンネルのすべての前記局所特徴値のうち最大のものであることを特徴とする請求項11に記載のコンピュータープログラム製品。
  13. 前記局所特徴値は、局所分散、局所コントラスト、局所テクスチャ、局所勾配又は局所位相一致であることを特徴とする請求項12に記載のコンピュータープログラム製品。
  14. 前記工程(a)は、前記工程(a2)の後に、前記フォアグラウンドマスクの穴を埋める工程を更に有することを特徴とする請求項11に記載のコンピュータープログラム製品。
  15. 前記工程(a)は、前記工程(a2)の後に、前記フォアグラウンドマスクから、ノイズ及び線を含む望ましくない成分を取り除く工程を更に有することを特徴とする請求項11に記載のコンピュータープログラム製品。
  16. 前記処理は、
    前記工程(a)の前に、前記文書画像を倍率で縮小する工程であって、縮小された前記文書画像を用いて前記工程(a)及び前記工程(b)を行う工程と、
    前記工程(b)の後であって前記工程(c)の前に、前記バックグラウンド画像を前記倍率で拡大する工程であって、縮小前の前記文書画像及び拡大された前記バックグラウンド画像を用いて前記工程(c)を行う工程と、
    を更に有することを特徴とする請求項10に記載のコンピュータープログラム製品。
  17. 前記処理は、前記工程(d)の後に、
    (e)前記二値フォアグラウンド画像からノイズ及び線を含む望ましくない成分を取り除く工程を更に有することを特徴とする請求項10に記載のコンピュータープログラム製品。
  18. 前記処理は、前記工程(d)の後に、前記工程(d)で生成された前記二値フォアグラウンド画像を第2のマスクとして使用し、前記第2のマスクにより示される領域の前記文書画像を修復する工程を更に有することを特徴とする請求項10に記載のコンピュータープログラム製品。
JP2014188924A 2013-09-24 2014-09-17 自動修復を用いたカラー文書画像セグメンテーション及び二値化 Active JP6100744B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/035,855 2013-09-24
US14/035,855 US9042649B2 (en) 2013-09-24 2013-09-24 Color document image segmentation and binarization using automatic inpainting

Publications (2)

Publication Number Publication Date
JP2015065654A true JP2015065654A (ja) 2015-04-09
JP6100744B2 JP6100744B2 (ja) 2017-03-22

Family

ID=52690995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014188924A Active JP6100744B2 (ja) 2013-09-24 2014-09-17 自動修復を用いたカラー文書画像セグメンテーション及び二値化

Country Status (3)

Country Link
US (1) US9042649B2 (ja)
JP (1) JP6100744B2 (ja)
CN (1) CN104463161B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842281B2 (en) * 2014-06-05 2017-12-12 Xerox Corporation System for automated text and halftone segmentation
RU2015102523A (ru) * 2015-01-27 2016-08-20 Общество с ограниченной ответственностью "Аби Девелопмент" "умный" ластик
CN105528784B (zh) * 2015-12-02 2019-01-25 沈阳东软医疗***有限公司 一种前景背景分割的方法和装置
CN106530279B (zh) * 2016-10-15 2019-04-16 扬州奥泰光电生物技术有限公司 一种图像处理方法及***
US10922801B2 (en) 2017-07-19 2021-02-16 Lockheed Martin Corporation Channel-based binarization of color
CN108510475B (zh) * 2018-03-09 2022-03-29 南京合迈美家智能科技有限公司 一种肌肉连续超声图像中肌肉肌腱结的测量方法及***
CN112840373A (zh) * 2018-08-21 2021-05-25 华为技术有限公司 用于移除文本的基于二值化和归一化的修补
US11915350B2 (en) * 2018-08-29 2024-02-27 Intel Corporation Training one-shot instance segmenters using synthesized images
US10832085B2 (en) 2018-09-06 2020-11-10 International Business Machines Corporation Image binarization using mean restrain
US11023747B2 (en) 2019-03-05 2021-06-01 Here Global B.V. Method, apparatus, and system for detecting degraded ground paint in an image
CN109816615B (zh) * 2019-03-06 2022-12-16 腾讯科技(深圳)有限公司 图像修复方法、装置、设备以及存储介质
US11336906B2 (en) * 2019-04-17 2022-05-17 Boe Technology Group Co., Ltd. Image processing method and device for image, data transmission method and device, and storage medium compression by combining rectangular regions of binarized images
CN110703961A (zh) * 2019-08-26 2020-01-17 北京达佳互联信息技术有限公司 蒙层显示方法、装置、电子设备和存储介质
CN110717523A (zh) * 2019-09-20 2020-01-21 湖北工业大学 一种基于D-LinkNet的低质量文档图像二值化方法
US10764471B1 (en) * 2019-09-27 2020-09-01 Konica Minolta Business Solutions U.S.A., Inc. Customized grayscale conversion in color form processing for text recognition in OCR
CN113256490A (zh) * 2020-02-13 2021-08-13 北京小米松果电子有限公司 文档图像的处理方法、装置及介质
US20230005107A1 (en) * 2021-06-30 2023-01-05 Palo Alto Research Center Incorporated Multi-task text inpainting of digital images
CN113538498B (zh) * 2021-08-02 2022-06-28 重庆傲雄在线信息技术有限公司 一种基于局部二值化的***图像分割方法、电子设备和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63153682A (ja) * 1986-08-01 1988-06-27 Hitachi Ltd 濃淡画像の処理方法
JP2006094008A (ja) * 2004-09-22 2006-04-06 Ricoh Co Ltd 画像処理装置
JP2011135400A (ja) * 2009-12-25 2011-07-07 Casio Computer Co Ltd 画像処理装置、画像処理方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388815A3 (en) * 2002-04-25 2005-11-16 Microsoft Corporation Segmented layered image system
US7146059B1 (en) 2003-03-05 2006-12-05 Massachusetts Institute Of Technology Method of performing fast bilateral filtering and using the same for the display of high-dynamic-range images
JP5008572B2 (ja) * 2004-12-21 2012-08-22 キヤノン株式会社 画像処理方法、画像処理装置およびコンピュータ可読媒体
US9214030B2 (en) * 2007-05-07 2015-12-15 Thomson Licensing Method and apparatus for processing video sequences
CN101236606B (zh) * 2008-03-07 2010-12-08 北京中星微电子有限公司 视频监控中的阴影消除方法及***
EP2316109B1 (en) * 2008-07-28 2017-12-13 Koninklijke Philips N.V. Use of inpainting techniques for image correction
CN101616310B (zh) * 2009-07-17 2011-05-11 清华大学 可变视角及分辨率的双目视觉***目标图像稳定化方法
KR101669820B1 (ko) * 2010-07-02 2016-10-27 삼성전자주식회사 볼륨 예측 기반 폐색 영역 양방향 복원 장치 및 방법
KR20120049636A (ko) * 2010-11-09 2012-05-17 삼성전자주식회사 영상 처리 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63153682A (ja) * 1986-08-01 1988-06-27 Hitachi Ltd 濃淡画像の処理方法
JP2006094008A (ja) * 2004-09-22 2006-04-06 Ricoh Co Ltd 画像処理装置
JP2011135400A (ja) * 2009-12-25 2011-07-07 Casio Computer Co Ltd 画像処理装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
CN104463161B (zh) 2018-10-12
US20150086112A1 (en) 2015-03-26
CN104463161A (zh) 2015-03-25
JP6100744B2 (ja) 2017-03-22
US9042649B2 (en) 2015-05-26

Similar Documents

Publication Publication Date Title
JP6100744B2 (ja) 自動修復を用いたカラー文書画像セグメンテーション及び二値化
US8965123B2 (en) System and method for processing image for identifying alphanumeric characters present in a series
US9251614B1 (en) Background removal for document images
US9275030B1 (en) Horizontal and vertical line detection and removal for document images
KR20130016213A (ko) 광학 문자 인식되는 텍스트 영상의 텍스트 개선
US9438769B1 (en) Preserving smooth-boundaried objects of an image
Khodadadi et al. Text localization, extraction and inpainting in color images
Drira Towards restoring historic documents degraded over time
CN108830857B (zh) 一种自适应的汉字碑帖图像二值化分割方法
US20140183854A1 (en) Method of authenticating a printed document
Rowley-Brooke et al. A non-parametric framework for document bleed-through removal
CN107174232A (zh) 一种心电图波形提取方法
JP4966384B2 (ja) シェーディング補正を行なう装置及び方法
CN111192241A (zh) 一种人脸图像的质量评估方法、装置及计算机存储介质
Nair et al. A two phase denoising approach to remove uneven illumination from ancient note book images
CN111445402B (zh) 一种图像去噪方法及装置
Boiangiu et al. Methods of bitonal image conversion for modern and classic documents
CN109934215B (zh) 一种身份证识别方法
Bal et al. Interactive degraded document enhancement and ground truth generation
JP2021182328A (ja) 文字認識装置及び文字認識方法
CN113496470A (zh) 一种图像处理方法、装置、电子设备及存储介质
Cherala et al. Palm leaf manuscript/color document image enhancement by using improved adaptive binarization method
JP7402931B2 (ja) 方法、コンピュータ可読プログラムおよびシステム
US11778122B2 (en) Apparatus, method, and storage medium for removing shading dots
Konya et al. Adaptive methods for robust document image understanding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170223

R150 Certificate of patent or registration of utility model

Ref document number: 6100744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150