JP3024234B2 - 文書画像の罫線抽出装置 - Google Patents

文書画像の罫線抽出装置

Info

Publication number
JP3024234B2
JP3024234B2 JP3051847A JP5184791A JP3024234B2 JP 3024234 B2 JP3024234 B2 JP 3024234B2 JP 3051847 A JP3051847 A JP 3051847A JP 5184791 A JP5184791 A JP 5184791A JP 3024234 B2 JP3024234 B2 JP 3024234B2
Authority
JP
Japan
Prior art keywords
ruled line
line
mask
search
ruled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3051847A
Other languages
English (en)
Other versions
JPH04287156A (ja
Inventor
敏幸 吉武
宏一 江川
美晴 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3051847A priority Critical patent/JP3024234B2/ja
Publication of JPH04287156A publication Critical patent/JPH04287156A/ja
Application granted granted Critical
Publication of JP3024234B2 publication Critical patent/JP3024234B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像の罫線を検出
する罫線抽出装置に関する。
【0002】近年、各種データのコンピュータでの処理
や蓄積が進んでいる。特にワードプロセッサ、パーソナ
ルコンピュータの普及により文書をコンピュータ上で作
成、保管することが多くなっている。これは、コンピュ
ータ上では文書の編集が容易であり、また、他の文書の
参照や、他の文書の一部切り貼りを簡単に行うことが可
能なためである。しかし、現在でも、刊行物のほとんど
は紙に記載されたものであり、しかも、これまでには膨
大な量の紙の書類が作成、保存されている。これらの紙
の書類をコンピュータに保管された文書と同様に有効に
活用するためには何らかの手段によって書類をコンピュ
ータに入力する必要がある。これらの書類を改めて人手
で入力するには膨大な労力を必要とするので、入力を自
動的に行う文書入力装置が望まれている。
【0003】このような文書入力装置では、書類をイメ
ージスキャナ等でコンピュータに入力し、入力された画
素単位の画像情報(文書画像)の処理を行う。そして、
この文書画像から画像上の文字などを認識したり、その
レイアウト構成を解析したりすることによって、コンピ
ュータ上の他の文書と同様に扱うことが可能となる。こ
こで、文書画像のレイアウト解析を行うためには、文章
の構成を分割する罫線の抽出が重要なものとなってく
る。
【0004】
【従来の技術】従来、文書画像における罫線の抽出は画
像中の一定領域を切り出して、その領域内の黒画素を水
平もしくは垂直方向へ投影することによって行ってい
た。投影とは、ある方向の黒画素の数を調べて、その数
によってグラフを作成することである。図10に文字列と
実罫線の水平方向への黒画素の投影の例を示す。図中、
文字列のあいだの細線が罫線を表す。図10(a)が原文
書画像であり、(b)がその投影像を表す。投影像では
縦軸に垂直方向の座標を、横軸に画像を水平に走査した
ときに、その走査線に沿って現れた黒画像の数を示す。
【0005】横書きの文章の場合、文字列では、文字分
の幅を持つ投影像ができ、罫線部分では、罫線の幅の投
影像ができる。また、文字列と文字列の間である行間
や、文字列と罫線の間は、黒画素が存在しない領域とな
る。一般に、罫線の幅は文字列の幅に比較して狭いの
で、投影した黒画素の幅を調べることによって罫線を求
めることができる。具体的には、投影像を縦軸に沿って
調べ、一定以上の黒画素数を持っているところを求め、
その幅が一定以上であれば文字列、一定以下であれば罫
線とする。
【0006】
【発明が解決しようとする課題】従来の投影による罫線
抽出方式では、一定領域を特定の方向に投影するため、
その領域内では文章と罫線が明確に分離している必要が
ある。図11は1頁の文書を摸式的に表したもので、斜線
部は写真、絵や表を示し、空白部に文章が表示されてい
る。図11に示すように領域内に、文章と罫線が混在する
ような複雑なレイアウト構成の文書画像を処理すること
は困難であった。また、図12にあるように、文書画像に
傾きがある場合、垂直、水平への投影結果がうまく出な
い場合があった。
【0007】本発明は、上述の問題点に鑑みてなされた
もので、直線の追跡によって罫線を抽出することによ
り、複雑なレイアウトに対しても罫線の抽出を可能にす
るとともに、ある程度の傾きがあっても罫線の抽出を行
うことのできる罫線抽出装置を提供することを目的とす
る。
【0008】
【課題を解決するための手段】本発明の文書画像の罫線
抽出装置は、文書画像を読取る画像入力手段と、画像入
力手段により入力した文書画像を所定の方向に走査し最
初に検出した黒画素の位置を基に始点を検出する始点探
索手段と、始点を検出した位置から走査方向に黒画素の
探索範囲と探索順序を指示する所定の大きさのマスクを
設定するマスク設定手段と、設定したマスクの示す探索
範囲を設定したマスクの示す探索順序に従って黒画素を
順次探索する罫線探索手段と、探索により検出した黒画
素列を所定の閾値と比較して罫線か否かを判定する罫線
判定手段とを備えた構成である。
【0009】また、罫線判定手段によって罫線と判定さ
れた線の傾きを検出する罫線傾き判定手段と、現マスク
を、検出した罫線の傾きに応じた新マスクに変更するマ
スク更新手段とを設けた構成である。
【0010】また、罫線長の範囲内で黒画素から白画素
または白画素から黒画素への変化回数と罫線長の範囲内
で対を形成する黒画素列と白画素列の繰返し回数とに基
づき、点線か実線かの判定を行う点線判定手段を設けた
構成である。
【0011】
【0012】
【作用】上記構成により、罫線を構成する画素をマスク
を用いてマスクに定められた範囲を定められた順序で探
索し追跡してゆくので、探索範囲をもれなく探索し罫線
を抽出することができる。
【0013】また、罫線判定部3の判定結果に応じて、
罫線探索対象の文書に適したマスクを選択することによ
り、罫線抽出精度が向上する。
【0014】また、判定した罫線の長さと、白画素から
黒画素へ、または黒画素から白画素への変化回数、およ
び白画素の連続する数と黒画素の連続する数の周期を計
数して実線と点線の識別が行える。
【0015】また、この白画素、黒画素それぞれの連続
数の周期から点線、一点鎖線、二点鎖線などの識別も行
える。
【0016】以下、本発明の実施例を図面を参照して説
明する。図2は本発明の実施例の構成を示すブロック図
である。図中、1,2,3は図1で説明した装置と同一
のものである。11は画像入力部であり、イメージスキャ
ナ等で文書を読み取り、白黒2値の2値文書画像として
出力する。12は始点探索部で入力した2値文書画像を走
査して水平方向または垂直方向の罫線の始点を探索す
る。13はデータ格納部で始点探索部12および罫線追跡部
2のデータを格納する。
【0017】罫線判定部3は罫線の傾きを判定する傾き
判定部31と、所定の長さに達しないものは罫線でないと
判定する罫線長判定部32と、罫線と判定されたものが点
線か否か、点線とした場合その点線の種類の判定を行う
点線判定部33を有している。14は結果格納部で罫線判定
部3で罫線として抽出された罫線を格納する。15はマス
ク更新部で罫線判定部3の判定部結果に基づき対象文書
に対して最適マスクに交換する。
【0018】図3〜図5はマスクの例を示した図であ
る。各格子は探索範囲の画素を示し、格子の番号は探索
順番を示す。図3は罫線が水平にある場合に用い、図4
は罫線が右下がりの場合に適する。図5は文書が縦書き
の場合のマスクで(a)は罫線が垂直の場合、(b)は
罫線が左側に倒れている場合に適する。
【0019】図3を用いて探索を行う場合を説明する。
探索方向は水平方向とする。図中、各格子が画素を表
し、網部分が黒画素を表し、Xより左の黒画素を追跡済
とする。また、画素Xがこれまでに追跡した最後の画素
とする。画素Xから次の黒画素を探索する際に、図3で
数字の振られた範囲内を振られた数字の順に探索し、最
初に見つけた画素を追跡する。図3の例では、横方向の
探索を優先するために1〜8まで横方向に探索し、以降
はその上下1画素を探索するような順序付けを行う。そ
うすると、6番目の位置に黒画素を見つけ、それを追跡
する。もし、6,7,8が白画素であれば、17の位置の
黒画素を追跡する。このようにすると、罫線がかすれな
どの原因により切れを生じていても追跡が可能となる。
ここで、探索のマスクの形や探索順序は変更することが
可能であり画像に合わせた探索、追跡を行うことができ
る。
【0020】次に動作について説明する。始点探索部12
は入力した画像データに対し、まず水平方向の罫線抽出
を行う。図6に示すように画像を左上から水平右方向に
順に走査し、始めに見つかった黒画素を始点とする。し
かし、右上がりの傾きを持つ画像の場合(このようなこ
とは、文書を斜めにセットしてスキャナで文書を読み込
んだ場合などに生じる)、このままでは罫線の途中を見
つけて始点とする可能性がある。例えば、図7に示すよ
うに矢印の方向から探索した場合、点で斜線で示す黒
画素をみつけた場合、そのまま点の方向に追跡してし
まうと罫線の途中から追跡を始めることになるので、点
を発見した時に、追跡する矢印の方向とは逆の方向を
探索し、点を発見したときは、点は罫線の途中と判
断し、点を始点としない。
【0021】また、右下がりの画像を探索し図8に示す
ようにで黒点を発見した場合で、図4に示すマスクを
用いて追跡する場合、点を点対称して図4のマスクを
設定し、このマスク内を探索する。点6のようなような
画素が見つかると、点6に図4のマスクのX点を設定し
て図4のマスクを用いることにより点と点6は同一罫
線上にあると判断し点は罫線の途中であると判断す
る。この場合6に示すような黒点を発見しなかったとき
はこの点を始点としてデータ格納部13に格納する。
【0022】つまり始点探索部12で発見した点に対し
て、探索方向と反対方向にマスクを設定し、このマスク
範囲を見て黒画素がなければ点が始点となり、黒画素
があれば、点は罫線の途中となる。
【0023】罫線探索部1では、定められたマスクと探
索順序に従って、罫線を構成する次の黒画素を探索す
る。次の黒画素が見つかれば、罫線追跡部2に処理を移
す。罫線追跡部2では探索された黒画素の座標と、切れ
があれば間の白画素数をデータ格納部13に格納する。罫
線追跡部2で次の黒画素が見つからなければ、最後の黒
画素を終点として、罫線判定部3に処理を移す。罫線判
定部3では得られた罫線の判定を行う。傾き判定部31で
は、始点と終点の座標から罫線の傾きを求め、傾きがし
きい値より大きいものは罫線ではないとする。罫線長判
定部32では、始点、終点間の長さに対して黒画素数がし
きい値より少ないものを罫線ではないとする。また、始
点、終点間の黒画素の上下( 罫線と垂直方向) への散ら
ばりがしきい値より大きいものも罫線ではないとする。
点線判定部33では、罫線とされたものに対し、罫線の長
さに対する白画素/黒画素の変化の回数がしきい値より
多く、連続する黒画素と連続する白画素の対から罫線切
れの周期が一定の範囲内にあるものを点線とする。ま
た、点線としたものに対しては、連続する白画素と連続
黒画素の対に対して、その割合を求め、点線の種類を判
定する。
【0024】こうして抽出された罫線は、結果格納部14
に格納される。そして、始点探索部12に処理を移し、次
の罫線を探索する。また、このとき数本の罫線の探索を
行った後、各罫線の傾きが一定以上あれば、探索を効率
化するために、マスク更新部15において傾きに応じたマ
スクに更新する。更新はあらかじめ定められたパターン
に従い、例えば右下がりであれば、図4に示すようなマ
スクに更新する。水平方向の探索が終了したら、同様に
して次の垂直方向の探索を行う。
【0025】上記実施例では、画像入力部11において、
画像の2値化を行い、2値像に対して処理を行ったが、
画像入力部11で濃淡のある濃淡画像として入力し、濃淡
画像に対して処理を行ってもよい。その場合、罫線探索
部1における探索で、マスクの順序に従ってある画素を
探索する際に、黒画素を捜して罫線とする代わりに、図
9に示す様に探索画素とその上下1画素の近傍領域を見
て、探索画素がその上下の画素よりも濃度レベルが大き
く、尾根点になっており、上下の画素との濃度レベルの
差が一定以上あればそれを罫線を構成する画素とするこ
とによって罫線の探索を行う。この時、濃度レベルの差
が一定以上である画素が隣接領域にないときは、罫線切
れとなり、マスクの探索範囲にないときは、終点とな
る。
【0026】
【発明の効果】以上の説明から明らかなように、本発明
は、マスクで定められた範囲を定めた順に探索して罫線
を見つけてゆくので複雑なレイアウトを持つ文書や、入
力の際傾いた文書に対しても罫線を抽出することができ
る。また、かすれによる罫線の切れをまたいで1本の罫
線として抽出することもできる。また抽出した罫線の線
種の判別も可能である。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】本発明の実施例の構成を示すブロック図であ
る。
【図3】水平方向トレース用マスクの1例を示す図であ
る。
【図4】水平右下がりトレース用マスクの1例を示す図
である。
【図5】垂直方向トレース用マスクの例を示し、(a)
は垂直用(b)は左側へ傾いた罫線のトレース用マスク
を示す。
【図6】画像の走査例を示す図である。
【図7】右上がり罫線の始点探索を説明する図である。
【図8】右下がり罫線の始点探索を説明する図である。
【図9】濃度の尾根点を検出する説明図である。
【図10】水平に引かれた罫線を探索する説明図である。
【図11】複雑なレイアウトの例を示した図である。
【図12】傾いた文書の例を示した図である。
【符号の説明】
1 罫線探索部 2 罫線追跡部 3 罫線判定部 11 画像入力部 12 始点探索部 13 データ格納部 14 結果格納部 15 マスク更新部 31 傾き判定部 32 罫線長判定部 33 点線判定部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−292683(JP,A) 特開 平4−52774(JP,A) 特開 昭62−200472(JP,A) 特公 昭63−13227(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G06T 5/00 G06K 9/20 340

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】文書画像を読取る画像入力手段と、 画像入力手段により入力した文書画像を所定の方向に走
    査し最初に検出した黒画素の位置を基に始点を検出する
    始点探索手段と、 始点を検出した位置から走査方向に黒画素の探索範囲と
    探索順序を指示する所定の大きさのマスクを設定するマ
    スク設定手段と、 設定したマスクの示す探索範囲を設定したマスクの示す
    探索順序に従って黒画素を順次探索する罫線探索手段
    と、 探索により検出した黒画素列を所定の閾値と比較して罫
    線か否かを判定する罫線判定手段 とを備えたことを特徴
    とする文書画像の罫線抽出装置。
  2. 【請求項2】罫線判定手段によって罫線と判定された線
    の傾きを検出する罫線傾き判定手段と、 現マスクを、検出した罫線の傾きに応じた新マスクに変
    更するマスク更新手段とを設けた ことを特徴とする請求
    項 1記載の文書画像の罫線抽出装置。
  3. 【請求項3】罫線長の範囲内で黒画素から白画素または
    白画素から黒画素への変化回数と罫線長の範囲内で対を
    形成する黒画素列と白画素列の繰返し回数とに基づき、
    点線か実線かの判定を行う点線判定手段を設けたことを
    特徴とする請求項1記載の文書画像の罫線抽出装置。
JP3051847A 1991-03-18 1991-03-18 文書画像の罫線抽出装置 Expired - Fee Related JP3024234B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3051847A JP3024234B2 (ja) 1991-03-18 1991-03-18 文書画像の罫線抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3051847A JP3024234B2 (ja) 1991-03-18 1991-03-18 文書画像の罫線抽出装置

Publications (2)

Publication Number Publication Date
JPH04287156A JPH04287156A (ja) 1992-10-12
JP3024234B2 true JP3024234B2 (ja) 2000-03-21

Family

ID=12898246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3051847A Expired - Fee Related JP3024234B2 (ja) 1991-03-18 1991-03-18 文書画像の罫線抽出装置

Country Status (1)

Country Link
JP (1) JP3024234B2 (ja)

Also Published As

Publication number Publication date
JPH04287156A (ja) 1992-10-12

Similar Documents

Publication Publication Date Title
JP2536966B2 (ja) テキスト編集システム
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
Antonacopoulos Page segmentation using the description of the background
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JPH0713995A (ja) 自動テキスト特徴決定装置
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
EP0389988B1 (en) Detecting line segments and predetermined patterns in an optically scanned document
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
US6711292B2 (en) Block selection of table features
JP2001109895A (ja) 複数のディジタル画像の処理方法
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP2001101426A (ja) ディジタル画像処理方法
JP3411472B2 (ja) パターン抽出装置
US6947596B2 (en) Character recognition method, program and recording medium
JPH08287184A (ja) 画像切り出し装置及び文字認識装置
JP3615333B2 (ja) 罫線消去装置
JP2010020394A (ja) 画像処理装置および方法
JP3024234B2 (ja) 文書画像の罫線抽出装置
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JP3187895B2 (ja) 文字領域抽出方法
JP2796561B2 (ja) 表形式文書認識方式
JP2007295210A (ja) 画像処理装置、画像処理方法、画像処理プログラム、およびこれを記録した記録媒体
JPH1153539A (ja) 円形パターン判定方法および記録媒体
JP3077929B2 (ja) 文字切出し方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090121

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees