JP3960756B2 - 文書画像レイアウト識別方法および装置 - Google Patents
文書画像レイアウト識別方法および装置 Download PDFInfo
- Publication number
- JP3960756B2 JP3960756B2 JP2001115134A JP2001115134A JP3960756B2 JP 3960756 B2 JP3960756 B2 JP 3960756B2 JP 2001115134 A JP2001115134 A JP 2001115134A JP 2001115134 A JP2001115134 A JP 2001115134A JP 3960756 B2 JP3960756 B2 JP 3960756B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- size
- document image
- candidate
- density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は、文書画像を認識するための方法および装置に関し、さらに詳細には、文書画像のレイアウト識別処理におけるテキスト抽出処理を正確かつ高速に行うことができる文書レイアウト識別方法および装置に関するものである。
【0002】
【従来の技術】
従来、レイアウト識別処理は次のように行われていた。
まず、2値の文書画像をラベリングし、連結成分の外接矩形を抽出した後、外接矩形の相対的な大きさに基づいて、テキスト、図、セパレータ等の属性を推定する。その後、テキスト候補の外接矩形を対象として、それらの相対的な大きさ、位置関係、または、周期性等を考慮することにより、テキストが構成する行及び段の抽出処理を行う。
【0003】
【発明が解決しようとする課題】
しかしながら、テキストの外接矩形を推定するときに、図10に示すように、文書に写真や新聞の見出しによく使われるような背景模様が含まれる場合、従来の方法では、写真や背景模様を構成する要素の一部が、誤ってテキストと判定されてしまうといった問題があった。
さらに、写真や背景模様は、図11(a)(b)の拡大図に示すように網点から構成されており、テキストと誤判定される要素の個数が、実際のテキストの個数と比べ、はるかに多い。そのため、テキストと誤判定された要素の影響によって、行または段抽出処理が正しく行われなかったり、行または段抽出処理の処理時間が膨大になってしまっていた。
【0004】
本発明は上記問題点を解決するためになされたものであって、その目的とするところは、文書画像に写真の一部や背景模様等、小さな構成要素が多数配置されていても、テキストの行及び段抽出処理に無駄な時間をかけることなく、正確なレイアウト識別が可能な文書レイアウト識別方法および装置を提供することである。
【0005】
【課題を解決するための手段】
図1は本発明の概要を説明する図である。
同図に示すように2値化された文書画像データはラベリング手段1でラベリング処理を施され、連結成分の外接矩形が求められる。テキストサイズ推定手段2は、各外接矩形の大きさの最頻値からテキストサイズを推定する。テキスト候補推定手段3は上記推定されたテキストサイズと各外接矩形の大きさからテキスト候補を推定する。
密集度に基づくテキスト候補判定手段4は、テキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定する。
すなわち、相対的な大きさに基づいてテキストと推定されたテキスト候補が、本当にテキストかどうかを、テキスト候補の周辺における矩形の密集度から再度判定し、誤判定されたテキスト候補が行及び段抽出処理に回されることを防ぐ。
具体的には、テキスト候補を中心としたある一定の大きさの領域を想定し、その内部に含まれるテキスト候補の個数を密集度として計算し、密集度があるしきい値以下であればテキストと判定し、しきい値以上ならば非テキストと判定する。また、テキスト候補の矩形集合から、新たな矩形集合を生成し、その2つの集合間で矩形の重複チェックを例えば平面走査法によって行うことにより、処理の高速化を図ることができる。
【0006】
【発明の実施の形態】
図2は本発明の処理を行うためのシステムの構成例を示す図である。本発明は、同図に示すように、CPU11、RAM12、ROM13、外部記憶装置14、プリンタ、ディスプレイ、キーボード等から構成される入出力装置15、記録媒体読み取り装置16、画像読み取りを行うカラー入力装置、CCDカメラ、スキャナ等の画像入力装置17、図示しない通信インタフェース等から構成されるシステムで実現することができる。
そして、上記スキャナ17等の画像入力装置から読み込んだ例えば前記図10に示す文書画像からテキスト部分を識別する。
【0007】
次に本発明の実施例を図3に示すフローチャートにより説明する。
図3に示すフローチャートにおいて処理対象となるデータは、上記スキャナ等の画像入力装置から入力された2値化された前記図10に示したような写真、背景模様に含む文書画像である。また、処理結果として得られる出力は、テキスト候補の外接矩形の集合である。
(1)ラベリング
入力された2値文書画像に対し、ラベリング処理を施す。すなわち、画像全体をラベリングして、図4に示すように黒画素連結領域を抽出する。
その結果、連結成分の個数と、各連結成分の外接矩形の座標が得られる。
【0008】
(2)テキストサイズ推定
上記各外接矩形に関し、次のようにヒストグラムを生成し、ヒストグラムからテキストサイズを推定する。
まず、図5(a)に示すように外接矩形の左上点を(X1 ,Y1 )、右下点を(X2 ,Y2 )とし、dx=X2 −X1 +1,dy=Y2 −Y1 +1とおく。なお、+1するのは、両端点の画素をdx,dyに含ませるためである。
次に、t=max(dx,dy)とし、ヒストグラムH1 (t)に、dx×dyすなわち外接矩形の面積を加算し、ヒストグラムH2 (t)に1を加算する。その結果、例えば図5(b)に示すようなヒストグラムH1 (t)、H2 (t)が作成される。
そして最終的に、H(t)=H1 (t)×H2 (t)により、図5(b)に示すようにヒストグラムH(t)を得る。このヒストグラムHの最大を与えるtが、テキストサイズTであると推定する。
上記のように外接矩形の面積のヒストグラムH1 (t)と外接矩形の個数のヒストグラムH2 (t)を作成し、それらを掛け合わせたヒストグラムH(t)によりテキストサイズTを推定することにより、文書画像中に、数は少なく面積の大きな矩形、数が多く面積が小さい矩形が存在しても、それらに大きく影響されることなくなくテキストサイズTを推定することができる。
【0009】
(3)矩形の大きさに基づくテキスト候補推定
前記文書画像中の各矩形に対し、t=max(dx,dy)を求め、ある数kを用いた条件式:t≦T×kを満たすものをテキスト候補と推定する。例えば、kは5などである。
【0010】
(4)密集度に基づくテキスト候補の推定
まず、密集度の定義を示す。ある領域内の矩形集合において、点Aにおける矩形の密集度とは、図6に示すように、点Aを中心とし1辺がある定められた長さの正方形の中に含まれる矩形の個数のことである。
密集度に基づくテキスト候補の推定処理においては、以下に説明するように、上記テキスト候補の矩形集合とテキストサイズTから近傍集合を生成して密集度を求め、密集度がしきい値以上のものをテキスト候補として出力する。
【0011】
▲1▼ 近傍集合生成
矩形に対し、矩形の中心点を中心とし1辺が〔テキストサイズT〕×Lの正方形を、近傍と呼ぶことにする。ここで、Lはあらかじめ定められた数で、例えば0.6などである。各矩形に対し、このような近傍を求める。
▲2▼ 重複チェックによる密集度の計算
各近傍に対し、近傍領域に含まれる矩形を後述する平面走査法により効率的に調べ上げ、各矩形に対しその近傍に含まれる矩形の個数を求める。そして、近傍に含まれる矩形の個数をその矩形の密集度ωとする。
そして、各矩形について、上記密集度ωと予め定められたしきい値thを比較し、ω≦thであれば、その矩形はテキスト候補として判定する。また、それ以外は非テキストと判定する。ここで、上記しきい値thは例えば10などである。
【0012】
以下、上記平面走査法による近傍領域に含まれる矩形の個数の求め方について説明する。平面走査法は、図7に示すように文書画像を走査線により走査して、各テキスト候補の矩形Rt〔i〕(i=1…N)の近傍Rn〔i〕(i=1…N)に含まれる矩形の個数を求める方法である。
まず、以下で使用する記述について説明する。
・矩形情報
i番目の矩形情報R〔i〕は以下のような形式を持つ。
x1:左上x座標
y1:左上y座標
x2:右下x座標
y2:右下y座標
【0013】
・カレント情報
カレント情報とは上記した走査線の役割を果たすものであり、i番目のカレントC〔i〕は以下の形式で表現される。
x :x座標
label :ラベル番号
flag1 :INまたはOUTの属性
flag2 :TEXT(テキスト候補)またはNEIGHBOR(近傍)の属性
【0014】
・スキャン集合
スキャンテキスト集合とは、上記走査線上に乗っているテキスト集合である。また、スキャン近傍集合とは上記走査線上に乗っている近傍の集合である。
・密集度の情報
i番目のテキスト候補の密集度ω〔i〕は、i番目のテキスト候補の近傍に重複するテキスト候補の個数で表され、以下の形式で表現される。
num :重複しているテキスト矩形の個数
label :重複しているテキスト矩形のラベル番号
【0015】
次に平面走査法による密集度の計算について説明する。
(1) テキスト候補をRt〔i〕(i=1,…,N)によって表し、Rt〔i〕(i=1,…,N)にテキスト候補の外接矩形座標とラベル番号を代入する。
(2) 近傍をRn〔i〕(i=1,…,N)によって表し、Rn〔i〕(i=1,…,N)に、テキスト候補Rt〔i〕の近傍の座標と、Rt〔i〕のラベル番号を代入する。
【0016】
(3) カレントをC〔i〕(i=1,…,4N)によって表す。まず、C〔2i−1〕(i=i,…,N)についてxにはテキスト候補Rt〔i〕のx1を、label にはRt〔i〕のlabel を、flag1 にはINを、flag2 にはTEXTを代入する。また、C〔2i〕(i=i,…,N)について、xにはテキスト候補Rt〔i〕のx2を、label にはRt〔i〕のlabel を、flag1 にはOUTを、flag2 にはTEXTを代入する。
次に、C〔2i−1+2N〕((i=1,…,4N)について、xには近傍Rn〔i〕のlabel を、flag1 にはINを、flag2 にはNEIGHBORを代入する。また、C〔2i+2N〕(i=i,…,N)について、xには近傍Rn〔i〕のx2を、label にはRn〔i〕のlabel を、flag1 にはOUTを、flag2 にはNEIGHBORを代入する。
すなわち、テキストRt〔i〕のIN(x=x1)について、カレントC〔2i−1〕が、テキストRt〔i〕のOUT(x=x2)について、カレントC〔2i〕が、その近傍Rn〔i〕のIN(x=x1)について、カレントC〔2i−1+N〕が、Rn〔i〕のOUT(x=x2)について、カレントC〔2i+N〕が定められる。
(4) C〔i〕(i=i,…,4N)をxに関しソートする。
【0017】
(5) C〔i〕(i=i,…,4N)について以下の処理を行う。
(i) flag1 =IN、flag2 =TEXTの場合
図8(a)に示すようにC〔i〕のlabel 番号をLとするとき、テキスト候補Rt〔L〕をスキャンテキスト集合に登録する。
【0018】
(ii) flag1=OUT、flag2 =TEXTの場合
C〔i〕のlabel 番号をLとするとき、テキスト候補Rt〔L〕が、スキャン近傍集合(走査線上に乗っている近傍)に属する近傍で、その近傍のx1が上記テキスト候補Rt〔L〕のx1より小さいもの、と重なっているかをチェックする。重なっていれば、重なっている近傍のラベル番号をL1,…Lkとするとき、ω〔L1〕,ω〔L2〕,…,ω〔Lk〕について、個数を一つ増加させ、ω〔L1〕,ω〔L2〕,…,ω〔Lk〕のラベル番号に上記Lを記録する。上記処理によりω〔L1〕,ω〔L2〕,…,ω〔Lk〕にRt〔L〕が登録されたので、Rt〔L〕をスキャンテキスト集合から抹消する。
例えば、図8(b)に示すように近傍Rn〔L1〕、Rn〔L2〕がRt〔L〕と重なっており、そのx1がRt〔L〕のx1より小さい場合には、ω(L1),ω〔L2〕の個数を1増加させ、Rt〔L〕をスキャン近傍集合から抹消する。
なお、Rt〔L〕がスキャン近傍集合に属する近傍で、そのx1がRt〔L〕のx1より大きいもの(図8ではRn〔L3〕)と重なっているかは、次の(iii) でチェックされるので、ここではチェックする必要はない。
【0019】
(iii) flag1 =IN、flag2 =NEIGHBORの場合
C〔i〕のlabel 番号をLとするとき、Rn〔L〕をスキャン近傍集合に登録する。そして、Rn〔L〕がスキャンテキスト集合(走査線上に乗っているテキスト候補の集合)に属するテキスト矩形と重なっているかをチェックする。そして重なっていれば、その個数とラベル番号をω〔L〕に記録する。
例えば図9(a)に示すように、Rn〔L〕がRt〔Lm〕、Rt〔Ln〕と重なっている場合、ω(L)に個数2を加え、ラベル番号Lm,Lnを登録する。
【0020】
(iv)flag1 =OUT、flag2 =NEIGHBORの場合
C〔i〕のlabel 番号をLとするとき、Rn〔L〕がスキャンテキスト集合(走査線上に乗っているテキスト候補の集合)に属するテキスト矩形と重なっているかをチェックし、ω〔L〕に含まれていない分だけ、その個数とラベル番号をω〔L〕に追加する。そしてRn〔L〕をスキャン近傍集合から抹消する。
例えば、図9(b)に示すようにRn〔L〕がRt〔Lk〕と重なっている場合には、ω〔L〕に個数1を追加し、ラベル番号Lkを追加する。なお、Rt〔Li〕は、Rn〔L〕がスキャン近傍集合に登録されるとき、すなわち(iii) でチェックしており、すでに登録済である。
【0021】
【発明の効果】
以上説明したように、本発明においては、テキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定しているので、文書画像において写真の一部や背景模様等、小さな構成要素が多数配置されていても、それらをテキストと誤判定することがない。このため、テキストの行及び段抽出処理に無駄な時間をかけることなく、正確なレイアウト識別が可能となる。
【図面の簡単な説明】
【図1】本発明の概要を説明する図である。
【図2】本発明を実現するためのシステムの構成例を示す図である。
【図3】本発明の実施例の処理を示すフローチャートである。
【図4】黒画素連結領域と外接矩形を説明する図である。
【図5】テキストサイズの推定方法を説明する図である。
【図6】本発明における密集度の定義を示す図である。
【図7】平面走査法を説明する図(1)である。
【図8】平面走査法を説明する図(2)である。
【図9】平面走査法を説明する図(3)である。
【図10】本発明が対象とする文書画像の一例を示す図である。
【図11】文書画像中に含まれる写真、背景模様の1例を示す図である。
【符号の説明】
1 ラベリング手段
2 テキストサイズ推定手段
3 テキスト候補推定手段
4 密集度によるテキスト候補判定手段
Claims (3)
- コンピュータが、
2値化された文書画像の黒画素の連結成分に関する外接矩形を記憶手段から読み出し、 読み出した外接矩形の大きさからテキストサイズを推定して前記記憶手段に記憶し、
読み出したテキストサイズに基づきテキスト候補を推定して前記記憶手段に記憶し、
読み出したテキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定し、判定されたテキスト候補を前記記憶手段に記憶する、
ことを特徴とする文書画像レイアウト識別方法。 - 2値化された文書画像の黒画素の連結成分に関する外接矩形の集合からテキストを抽出する文書画像レイアウト識別装置であって、
上記外接矩形の大きさからテキストサイズを推定する手段と、
上記推定されたテキストサイズに基づきテキスト候補を推定する手段と、
テキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定する手段とを備えた
ことを特徴する文書画像レイアウト識別装置。 - コンピュータを、
2値化された文書画像の黒画素の連結成分に関する外接矩形を記憶手段から読み出す手段、
読み出した外接矩形の大きさからテキストサイズを推定して前記記憶手段に記憶する手段、
読み出したテキストサイズ基づきテキスト候補を推定して前記記憶手段に記憶する手段、
読み出したテキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定し、判定されたテキスト候補を前記記憶手段に記憶する手段、
として機能させるための文書画像レイアウト識別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001115134A JP3960756B2 (ja) | 2000-04-26 | 2001-04-13 | 文書画像レイアウト識別方法および装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000-125473 | 2000-04-26 | ||
JP2000125473 | 2000-04-26 | ||
JP2001115134A JP3960756B2 (ja) | 2000-04-26 | 2001-04-13 | 文書画像レイアウト識別方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002015323A JP2002015323A (ja) | 2002-01-18 |
JP3960756B2 true JP3960756B2 (ja) | 2007-08-15 |
Family
ID=26590819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001115134A Expired - Fee Related JP3960756B2 (ja) | 2000-04-26 | 2001-04-13 | 文書画像レイアウト識別方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3960756B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1306447C (zh) * | 2004-02-27 | 2007-03-21 | 致伸科技股份有限公司 | 影像图文分离方法 |
WO2008120376A1 (ja) * | 2007-03-29 | 2008-10-09 | Pioneer Corporation | 画像処理装置及び方法、並びに、光学式の文字識別装置及び方法 |
JP4960897B2 (ja) | 2008-01-30 | 2012-06-27 | 株式会社リコー | 画像処理装置、画像処理方法、プログラム、記憶媒体 |
-
2001
- 2001-04-13 JP JP2001115134A patent/JP3960756B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002015323A (ja) | 2002-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6226402B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
JP4208918B2 (ja) | 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 | |
JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
US8947736B2 (en) | Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern | |
US7298900B2 (en) | Image processing method, image processing apparatus and image processing program | |
US6411733B1 (en) | Method and apparatus for separating document image object types | |
JP2001297303A (ja) | 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体 | |
JP4250483B2 (ja) | 画像処理装置、画像処理方法ならびにプログラム、記憶媒体 | |
US11568623B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP4632443B2 (ja) | 画像処理装置及び画像処理方法並びにプログラム | |
JP4077919B2 (ja) | 画像処理方法及び装置及びその記憶媒体 | |
JP4613397B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP4565396B2 (ja) | 画像処理装置および画像処理プログラム | |
JP4049560B2 (ja) | 網点除去方法及びシステム | |
JP3960756B2 (ja) | 文書画像レイアウト識別方法および装置 | |
JP2006253842A (ja) | 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 | |
JP4281236B2 (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JP4204185B2 (ja) | 文字認識装置、文字認識方法、および記録媒体 | |
Elmore et al. | A morphological image preprocessing suite for ocr on natural scene images | |
JP4738645B2 (ja) | 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体 | |
JP4651407B2 (ja) | 画像処理装置およびコンピュータプログラムおよび記憶媒体 | |
JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 | |
JP2000067158A (ja) | 文書画像処理方法および文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 | |
JP2022167414A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP3162414B2 (ja) | 罫線認識方法及び表処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070515 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100525 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140525 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |