JP2550867B2 - 図形混在文書画像の構造解析方法 - Google Patents

図形混在文書画像の構造解析方法

Info

Publication number
JP2550867B2
JP2550867B2 JP5158063A JP15806393A JP2550867B2 JP 2550867 B2 JP2550867 B2 JP 2550867B2 JP 5158063 A JP5158063 A JP 5158063A JP 15806393 A JP15806393 A JP 15806393A JP 2550867 B2 JP2550867 B2 JP 2550867B2
Authority
JP
Japan
Prior art keywords
area
character
data
circumscribed rectangle
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5158063A
Other languages
English (en)
Other versions
JPH06348891A (ja
Inventor
美佳 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5158063A priority Critical patent/JP2550867B2/ja
Publication of JPH06348891A publication Critical patent/JPH06348891A/ja
Application granted granted Critical
Publication of JP2550867B2 publication Critical patent/JP2550867B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は図形混在文書画像の構造
解析方法に関するものである。
【0002】
【従来の技術】文字列と図形(この明細書では文字列に
属さないすべての種類の画像を総称して図形ということ
にする)とが混在する文書から、文字列だけを抽出した
い場合がある。抽出した文字列の各文字は、パターン認
識装置によって文字のイメージパターン(ドットパター
ン)から、当該文字の文字コードに変換することができ
る。文書から抽出した文字列を記憶し又は伝送する場
合、文字列のイメージパターンを記憶し又は伝送するよ
り、文字列を構成する各文字の文字コードを記憶し伝送
した方が、記憶装置、伝送装置を遥かに効率よく使用す
ることができる。
【0003】文字列と図形とが混在する構造の文書画像
から文字領域を自動的に抽出するための文書画像の構造
解析として知られている従来の方法には、トップダウン
(top down)手法、ボトムアップ(botto
m up)手法、及びこの2つの手法を混用するハイブ
リッド(hybrid)手法がある。
【0004】トップダウン手法の例としては、特開昭6
4−15889号公報(以下文献1という)に開示され
た方法がある。この方法では2値(白黒)信号で表され
ている文書画像を水平(X方向とする)と垂直(Y方向
とする)の方向に交互に射影分布を求める。すなわち、
一定のYの値(Y=yi )のすべての画素のうち、黒画
素が何個あるかを集計してこれをyi 位置の水平方向の
射影とし、全てのYの値に対する水平方向の射影分布を
求め、一定のXの値(X=xj )の全ての画素のうち、
黒画素が何個あるかを集計してこれをxj 位置の垂直方
向の射影とし、全てのXの値に対する垂直方向の射影分
布を求める。
【0005】実際の場合は画像のイメージメモリについ
て、Yアドレス一定の全てのデータのうち論理「1」の
データが何個あるかを集計し、Xアドレス一定の全ての
データのうち論理「1」のデータが何個あるかを集計す
る。
【0006】文字領域の著しい特徴としては行間スペー
スが存在し行間スペースでは全ての画素が白であるため
射影の値は0になる。この特徴を利用し、最初に画像の
全領域に対する水平方向と垂直方向との射影分布を生成
し、これらの射影分布から推察して画像のどの部分に対
する射影分布を生成すれば、その部分の構造解析に有効
であるかを判定し、局部的な射影分布の生成を繰り返し
て領域情報を得、この領域情報をもとにして領域分割を
行っている。図2(a)−1はトップダウン手法を用い
て、表題と本文との2領域に分割した例を示し、図2
(a)−2は図2(a)−1の本文領域を更に2ブロッ
クの段組みに分割した例を示す。このようなトップダウ
ンの手法は単純な構造を持つ画像に対しては高速に領域
分割を行うことができるという利点がある。
【0007】ボトムアップの手法としては、たとえば1
986−10 ICPR pp446〜448に「Do
cument Recognition System
for Office Automation by
H. Kida etal」(以下文献2という)と題
して発表された手法がある。この手法では、画素の連結
成分を抽出して連結している画素の外接矩形を求めるこ
とから出発する。アドレスが(Xm ,Yn )の画素デー
タが論理「1」である場合、アドレスが(Xm −1,Y
n −1),(Xm ,Yn −1),(Xm +1,Yn −
1),(Xm −1,Yn ),(Xm +1,Yn ),(X
m −1,Yn +1),(Xm ,Yn +1),(Xm +
1,Yn +1)の画素データ(すなわち、対象とする論
理「1」の画素データのアドレスに対し、Xアドレスも
Yアドレスもその差が1以内にある8個の画素データ
のうち、論理「1」のものはアドレスが(Xm ,Yn )
の論理「1」の画素データに連結しているとする。
【0008】このようにして連結成分を抽出して行き、
一つの連結成分の中でXアドレスの最少値と最大値をそ
れぞれXm −a,Xm +bとし、Yアドレスの最少値と
最大値をそれぞれYn −c,Yn +dとすれば、連結し
ているこの画素の外接矩形の4頂点は、それぞれ(Xm
−a,Yn −c),(Xm +b,Yn −c),(Xm
a,Yn +d),(Xm +b,Yn +d)となる。文字
領域については、このようにして生成した外接矩形は、
ほぼ1文字の外枠(仮想上の)に相当することから、領
域解析に使用することができる。
【0009】図2(b)−1は上述の手法で生成した外
接矩形群を示す。図2(b)−2は図2(b)−1の隣
接する文字領域を統合して文字領域とした例を示し、図
2(b)−3は図2(b)−2の文字領域を統合して文
章ブロックとした例を示す。このボトムアップの手法を
用いると、高速ではないが構造が複雑であっても解析で
きるという利点がある。
【0010】ハイブリッド手法の例は電気通信学会論文
誌 ’84/11 Vol.J67−D No.11,
pp1277〜1284に「ミックスモード通信のた
めの文字領域の抽出アルゴリズム」(以下文献3とい
う)として発表された方法がある。この方法では、領域
情報をもとにして大まかな領域分割を行い、つぎに画素
の連結情報などを利用してさらに細かい領域分割を行
う。図2(c)−1はトップダウン手法で大まかな領域
分割を行い、図2(c)−2は図2(c)−1の情報を
利用して、各領域内でボトムアップ手法を用いてさらに
細かい分割を行った例を示す。
【0011】
【発明が解決しようとする課題】以上に説明したよう
に、文献1の方法では、処理に要する時間は短いが複雑
な構造を持つ画像に対しては解析に必要な情報が得られ
ないという問題があり、文献2の方法では複雑な構造を
持つ画像を解析することができるが処理に要する時間が
長いという問題があり、文献3の方法では文献1の方法
で領域が決定された領域に対して文献2の方法を適用し
て解析時間を短縮しただけであって、文献1の方法で領
域解析ができない部分に対する対策は考慮されていない
という問題があった。
【0012】例えば、図3の領域310と領域330は
文献1の方法で文字領域として抽出できるが、領域32
0に対しては、水平と垂直の何れかの方向の射影分布を
解析しても文字領域を抽出する手がかりとなる領域情報
は得られない。従って、従来の方法で図3の図形混在文
書画像の構造解析を行うためには、ボトムアップの手法
を用いなければならず、処理時間が長くなるという問題
があった。
【0013】本発明は、従来の方法における上述の問題
点を解決し、領域解析に要する処理時間を短縮しなが
ら、複雑な領域に対しても領域解析を行うことができる
図形混在文書画像の構造解析方法を提供することを目的
としている。
【0014】
【課題を解決するための手段】本発明では、トップダウ
ンの手法で解析できる領域はトップダウンの手法で解析
し、トップダウンの手法では解析困難な領域は不明領域
とし、この不明領域に対してだけ、ボトムアップの手法
を適用して解析する。トップダウンの手法による解析で
得られた領域情報をボトムアップの手法による解析の際
に領域判定の資料として使用する。このような方法で解
析処理に必要な時間を短縮しながら、複雑な領域を解析
することができるようにした。
【0015】
【実施例】以下、本発明の実施例を図面について説明す
る。図1は本発明の一実施例を示すブロック図で、図に
おいて、110は入力された文書画像で、RAMにイメ
ージメモリとして蓄積されており、画像を構成する各画
素が白黒の2値信号である場合は1アドレス1ビットの
データ構成である。120は射影分布による領域分割手
段であり、文書画像110をX軸方法(水平方向)に走
査し、論理「1」のデータの総数を集計して水平方向の
射影分布を求め、Y軸方向(垂直方向)に走査し、論理
「1」のデータの総数を集計して垂直方向の射影分布を
求める。140は射影分布による領域分割120で求め
られた文字領域であり、この明細書では第1次抽出の文
字領域という。150は文書画像110のうちの文字領
域140以外の領域で不明領域という。130は射影分
布による領域分割120で文字領域140を得るに際し
得られた文字領域の領域情報で、たとえば文字のおおき
さs、文字間の間隔pなどのデータが記憶される。
【0016】不明領域150はボトムアップの手法で解
析される。すなわち連結成分・外接矩形抽出151によ
り、互いに連結している論理「1」のデータ群(この明
細書では要素という)について、その要素の外接矩形を
生成し、矩形領域の属性の判定152によってこの外接
矩形の矩形領域の属性を領域情報130のデータをもと
にして判定して、不明領域150を文字領域170(こ
の明細書では第2次抽出の文字領域という)と図形領域
180とに分割する。文字領域140と文字領域170
とで全体の文字領域190を構成する。
【0017】図3に示す画像の領域分析について、本発
明の動作を説明する。図3に示す文書画像110につい
て射影分布による領域分割120により、水平方向の射
影分布を求めると、文字領域は横書き文字であるので、
行間スペースの水平方向の射影が0となることから、領
域310と330は文字領域140であることが解る。
領域320は水平方向の射影分布にこのような顕著な特
性が表れないので不明領域150とする。領域310と
330の部分について当該領域の範囲内で垂直方向の射
影分布を求めることにより、領域330は文章ブロック
が2個あることが解る。また、このような領域分割の処
理120において文字画像の高さや幅、文字の間隔の領
域情報130が得られる。
【0018】不明領域150(図3の領域320)内の
論理「1」の各画素データについて、連結成分・外接矩
形抽出151の処理を行う。連結とはアドレス(Xm ,
Yn)の論理「1」の画素データに対し、アドレス(Xm
−1,Yn −1),(Xm,Yn −1),(Xm +1,
Yn ),(Xm −1,Yn ),(Xm +1,Yn ),
(Xm −1,Yn +1),(Xm ,Yn +1),(Xm
+1,Yn +1)にある8個の隣接画素データのうち
理「1」のものは互いに連結しているとし、領域320
内のすべての画素データを互いに連結している要素に分
け、互いに連結している要素の各要素について外接矩形
を生成する。たとえば、アドレス(Xm ,Yn )の論理
「1」の画素データに連結している成分のなかで、X方
向位置の最少値をXm −a、最大値をXm +b、Y方向
位置の最少値をYn −c、最大値をYn +dとすれば、
外接矩形は(Xm −a,Yn−b)(Xm +b,Yn +
d)(対角線上の頂点位置)で定められる。
【0019】矩形領域の属性の判定152では、連結成
分・外接矩形抽出151により生成された各矩形領域に
ついてその属性の判定を行う。図形領域の連結成分に対
する外接矩形は、外接という性質から互いにオーバーラ
ップすることもあるが、文字領域については、文字領域
を表す互いに隣接した矩形がオーバーラップすることは
ない。従って次のようにして文字領域の領域情報130
に一致する形状の矩形は、文字領域の矩形であると判定
することができる。領域情報130から得られた文字の
大きさ(横書の場合は高さ、縦書の場合は幅)をs、矩
形領域の大きさ(横書の場合は高さ、縦書の場合は幅)
をs’とするとき、|s−s’|<θs ×s(ただしθ
s は予め定めるしきい値)であれば、その矩形領域は文
字領域であると判定する。
【0020】図4(1)は領域320について上述の手
法で求めた文字領域170を示す。同図中の閉曲線中に
漢字「図」を含む部分にも一般には外接矩形が生成さ
れ、この外接矩形は文字領域の矩形上にオーバーラップ
することもあるが、領域情報130との対比によって文
字領域の矩形ではないと判定される。
【0021】次に領域情報130から得られる文字間の
間隔(行間スペースを含む文字間ピッチ)をp、図4
(1)で得られた文字間の間隔をp’、文字領域外接矩
形の射影(横書の場合は水平方向、縦書の場合は垂直方
向)の重なる区間の幅をwとすると、|p−p’|<θ
p ×p(ただしθp はあらかじめ定めるしきい値)であ
り、且つ、w>θw ×s(ただしθはあらかじめ定める
しきい値)であれば、すなわち、該矩形領域の間隔が十
分に狭く、且つ(横書きの場合)上下にずれていなけれ
これらの矩形領域を同一行として統合する。この統合
を図4(2)に示す。このようにして求めた文字領域1
70を文字領域140と併せて文字領域190とし、残
りを図形領域180とする。
【0022】
【発明の効果】以上説明したように、本発明は、図形領
域と文字領域とが混在しているため射影分布の解析では
属性が不明となる領域に対して連結成分とその外接矩形
を抽出し、各矩形領域の領域情報を利用して文字かどう
かを判定し文字行を抽出し文字領域と図形領域とを分割
することができ、混在しない領域については従来の方法
と同様に高速に射影分布を解析することで領域分割を行
うため、処理全体としては高速に文書の構造解析処理を
行えるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】従来の方法を説明するための図である。
【図3】従来の方法の問題点を説明するための図であ
る。
【図4】本発明の方法を説明するための図である。
【符号の説明】
110 文書画像 120 射影分布による領域分割 130 領域情報 150 不明領域 151 連結成分・外接矩形抽出 152 矩形領域の属性の判定 160 分割再処理

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字と図形(文字以外の画像を総称して
    図形という)が混在する文書画像から、文字領域を抽出
    する図形混在文書画像の構造解析方法において、前記文
    書画像を2値信号画像として、画像内の各画素のデータ
    が当該画素の画像内の座標位置に対応するX−Yアドレ
    ス位置に格納されるようにイメージメモリに入力する画
    像入力段階、 前記イメージメモリのYアドレス一定のデータ中の論理
    「1」のデータの総数を集計し、このような集計をすべ
    てのYアドレスについて実行することにより、画像のX
    方向の射影分布を求め、Xアドレス一定のデータ中の論
    理「1」のデータの総数を集計し、このような集計を全
    てのXアドレスについて実行することにより、画像のY
    方向の射影分布を求める段階、 前記X方向の射影分布から文字領域だけを含む行(横書
    きの場合)の範囲を決定し、前記Y方向の射影分布から
    文字領域だけを含む列(横書きの場合)の範囲を決定
    し、このようにして決定した文字領域を第1次抽出の文
    字領域として登録し、それ以外の領域を不明領域として
    登録する段階、 前記文字領域だけを含む行(または列)を決定する際
    、前記X方向の射影分布及び前記Y方向の射影分布か
    ら求まる文字の大きさ及び文字間の間隔の情報を含む、
    該文字領域に関する領域情報を記憶する段階、 前記不明領域内で、対象とする論理「1」のデータのア
    ドレスとの差がXアドレスについてもYアドレスについ
    ても1以下である8個のデータの中で論理「1」である
    データを前記対象とする論理「1」のデータに対する連
    結成分とし、互いに連結成分となる複数のデータの群れ
    を要素として抽出し、それぞれの要素の外接矩形を求め
    る段階、 前記外接矩形に対し前記領域情報を参照して当該外接矩
    形が文字に対する外接矩形であるか否かを決定し、文字
    に対する外接矩形であると判定された外接矩形の領域を
    第2次抽出文字領域とし、残りの領域を図形領域とする
    段階、 を備えたことを特徴とする図形混在文書画像の構造解析
    方法。
  2. 【請求項2】 構造解析方法は、さらに前記第1次抽出
    文字領域として登録された領域に対し、局部的なX方
    向の射影分布、Y方向の射影分布を求めて文字領域中の
    文章ブロックを決定する(文字領域が文章ブロックに別
    れている場合)段階を備えたことを特徴とする請求項第
    1項記載の図形混在文書画像の構造解析方法。
  3. 【請求項3】 前記文字領域の領域情報としては、文字
    の大きさs、行(列)間のスペースを含めた文字間ピッ
    チpが記憶され、前記外接矩形の大きさとsとの差がs
    に対し所定の割合以内であるとき当該外接矩形を文字に
    対する外接矩形と判定し、外接矩形間ピッチとpとの差
    がpに対し所定の割合以内であり、かつ外接矩形群のX
    (Y)方向の射影の重なり幅がsに対し所定の割合以上
    であるときこれらの外接矩形群は同一行(列)であると
    判定することを特徴とする請求項第1項記載の図形混在
    文書画像の構造解析方法。
JP5158063A 1993-06-04 1993-06-04 図形混在文書画像の構造解析方法 Expired - Lifetime JP2550867B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5158063A JP2550867B2 (ja) 1993-06-04 1993-06-04 図形混在文書画像の構造解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5158063A JP2550867B2 (ja) 1993-06-04 1993-06-04 図形混在文書画像の構造解析方法

Publications (2)

Publication Number Publication Date
JPH06348891A JPH06348891A (ja) 1994-12-22
JP2550867B2 true JP2550867B2 (ja) 1996-11-06

Family

ID=15663494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5158063A Expired - Lifetime JP2550867B2 (ja) 1993-06-04 1993-06-04 図形混在文書画像の構造解析方法

Country Status (1)

Country Link
JP (1) JP2550867B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4329764B2 (ja) 2006-01-17 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および罫線抽出プログラム
JP4768451B2 (ja) * 2006-01-18 2011-09-07 株式会社リコー 画像処理装置、画像形成装置、プログラムおよび画像処理方法
JP4424309B2 (ja) 2006-01-23 2010-03-03 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、文字判定プログラム、および文字判定方法

Also Published As

Publication number Publication date
JPH06348891A (ja) 1994-12-22

Similar Documents

Publication Publication Date Title
JP3049672B2 (ja) 画像処理方法及び装置
US6438273B1 (en) Method and apparatus for using rotatable templates within look-up tables to enhance image reproduction
US6496191B2 (en) Method and apparatus for character font generation within limitation of character output media and computer readable storage medium storing character font generation program
US5202936A (en) Method for generating a gray-scale pattern
US6701015B2 (en) Character string extraction apparatus and method based on basic component in document image
US4776024A (en) System for segmenting character components
KR0167616B1 (ko) 화상 처리 장치 및 방법
JP2550867B2 (ja) 図形混在文書画像の構造解析方法
JP4211941B2 (ja) パターン抽出装置
JP4390523B2 (ja) 最小領域による合成画像の分割
US5475807A (en) Character processing apparatus
JP2001331763A (ja) 表認識方法
CN109409370B (zh) 一种远程桌面字符识别方法和装置
JPH03127187A (ja) コンピユータ・グラフイツクス装置および方法
JPH06187489A (ja) 文字認識装置
EP0466330B1 (en) Method for editing character bit maps at small sizes using connected runs
JP2993007B2 (ja) 画像領域識別装置
Balasubramanian et al. Information extraction from tabular drawings
JP2001506383A (ja) ピクセルマトリクス上で文字認識を実行する方法
JP2768249B2 (ja) 文書画像レイアウト解析装置
JPH0668271A (ja) 画像処理装置
JPH0830725A (ja) 画像処理装置及び方法
JP2003317107A (ja) 罫線抽出方法及び装置
JP3294249B2 (ja) 画像処理装置
JPH07254065A (ja) 画像検出装置および方法