JPH11232382A - 罫線抽出方法及び罫線除去方法 - Google Patents

罫線抽出方法及び罫線除去方法

Info

Publication number
JPH11232382A
JPH11232382A JP10028074A JP2807498A JPH11232382A JP H11232382 A JPH11232382 A JP H11232382A JP 10028074 A JP10028074 A JP 10028074A JP 2807498 A JP2807498 A JP 2807498A JP H11232382 A JPH11232382 A JP H11232382A
Authority
JP
Japan
Prior art keywords
run
length data
ruled line
ruled
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10028074A
Other languages
English (en)
Inventor
Hiroshi Shinjo
広 新庄
Katsumi Marukawa
勝美 丸川
Yoshihiro Shima
好博 嶋
Tatsuhiko Kagehiro
達彦 影広
Shigeru Watanabe
成 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10028074A priority Critical patent/JPH11232382A/ja
Publication of JPH11232382A publication Critical patent/JPH11232382A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 傾きやかすれのある罫線を高速、高精度に抽
出及び除去する。さらに、文字と交差した罫線を除去し
た後、除去された交差部分を高速に修復する。 【解決手段】 入力画像から罫線を抽出し除去する方法
において、罫線を抽出手段100において、2値画像上
のランレングスデータをフィルタリングし、フィルタリ
ング後のランレングスデータの連結成分データを生成
し、連結成分の外形特徴から罫線と罫線以外の連結成分
を区別し、罫線の連結成分の外接矩形領域から罫線の端
点を検出し、罫線同士の連続関係から罫線のかすれを判
定し、かすれであると判定すれば該罫線同士を接続する
ことにより罫線を抽出する。さらに、入力画像から罫線
のランレングスデータを除去(700)する。さらに、
字形修復手段1300において、罫線に接触したランレ
ングスデータを抽出し、接触したランレングスデータ同
士を対応付けし、対応付けされたランレングスデータの
間を補間するランレングスデータを追加することにより
字形を修復する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像中の罫線を抽
出する方法と、画像中から抽出した罫線を除去する方
法、及び文字と交差した罫線を除去した際に消失する文
字ストロークを修復する方法に関する。
【0002】
【従来の技術】従来の罫線抽出方法の第1の例として
は、入力画像をX軸(水平方向)とY軸(垂直方向)に
投影し、その投影像(黒ドット数)が所定の閾値以上で
あれば罫線であると判定して抽出する方法があった。
【0003】従来の罫線抽出方法の第2の例として、か
すれた罫線を抽出することを目的とした特開平8−26
551の方法がある。この方法では、画像の走査方向に
連続する黒点の個数が所定の閾値以上の場合、該連続す
る黒点を直線とみなす。該直線に隣接する白点をかすれ
と判定して、該白点を黒点に変換してかすれを救済す
る。該かすれ救済処理後の直線が副走査方向に重なりが
あれば、該かすれ救済後の直線をグループ化して罫線と
判定することにより、傾いた罫線を抽出する。
【0004】従来の罫線除去方法としては、輪郭追跡を
利用して文字と罫線の交差点を検出することにより、文
字と罫線を分離して罫線のみを除去する方法がある。以
下に2つの例を示す。
【0005】従来の罫線除去方法の第1の例として、特
開平9−185676の方法がある。この方法では、ま
ず、罫線近傍の領域を輪郭追跡をして、輪郭線の凹部を
罫線と文字との交差部分(切断点)であると判定する。
次に罫線の両側の切断点対で罫線を切断し、文字と交差
している部分を残して罫線を除去する。
【0006】従来の罫線除去方法の第2の例である特開
平9−309498の方法も、輪郭追跡を利用して罫線
と文字との交差点を求めている。
【0007】
【発明が解決しようとする課題】かかる罫線抽出方法の
第1の従来例では、画像に傾きがある場合には罫線部分
の黒画素の投影像が一点に集中しないため、正確に罫線
を抽出することができない。したがって、罫線抽出の前
に、画像の傾きを検出する必要がある。さらに、短い罫
線は、投影像が閾値を越えないため抽出できないという
問題点がある。
【0008】罫線抽出方法の第2の従来例では、連続す
る黒点の個数が所定の閾値以上の場合、該黒点に隣接す
る白点を黒点に変換しするため、かすれでない白点も黒
点に変換する場合がある。さらに、直線が副走査方向に
重なりがあればグループ化して罫線と判定する場合、傾
きやかすれが大きいため重なりがない場合には、本来1
本の罫線を2本として抽出するという問題がある。
【0009】罫線除去方法の従来例では、罫線近傍につ
いて輪郭追跡をするため、計算コストが高い。このた
め、限られた領域だけでなく大きな画像全体に対して処
理する場合には処理時間が大きくなるという問題があ
る。また、輪郭追跡を用いているため、罫線や文字にノ
ッチ上のノイズがある場合には、正しく交差点を求める
ことができないという問題がある。
【0010】
【課題を解決するための手段】上記の課題を解決するた
め、請求項1に記載の発明(第1の発明)は、入力画像
から罫線を抽出する方法において、入力された2値画像
のランレングスデータを生成する手段と、走査方向の罫
線を求めるために該ランレングスデータをフィルタリン
グする手段と、フィルタリング後のランレングスデータ
の連結成分データを生成する手段と、連結成分の外形特
徴から罫線と罫線以外の連結成分を区別する手段と、罫
線の連結成分の外接矩形領域から罫線の端点を検出する
手段と、罫線同士の連続関係から罫線のかすれを判定す
る手段と、かすれであると判定すれば該罫線同士を接続
するする手段とを具備することを特徴とする罫線抽出方
法である。
【0011】この第1の発明では、ランレングスデータ
を用いるため、高速な処理が可能である。さらに、ラン
レングスデータのフィルタリングにより、画像上の文字
などのランレングスデータを除去して罫線のランレング
スデータのみを抽出することができる。さらに、フィル
タリング後のランレングスデータの連結成分を求めるこ
とにより、傾いた罫線を抽出することができる。さら
に、罫線同士のかすれ判定と接続をすることにより、傾
いた罫線がかすれた場合やかすれ幅が大きい場合もかす
れを補正することができる。
【0012】請求項2に記載の発明(第2の発明)は、
第1の発明のランレングスデータのフィルタリングにお
いて、長いランレングスデータを抽出する手段と、同一
ライン上の該長いランレングスデータの間隔が所定の閾
値以下であれば、かすれであると判定して該2つのラン
レングスデータ同士を接続する手段とを具備することを
特徴とする罫線抽出方法である。
【0013】この第2の発明では、ランレングスデータ
のフィルタリングにより、画像上の文字などのランレン
グスデータを除去して罫線のランレングスデータのみを
抽出することができる。長いランレングスデータ同士を
接続することにより、文字などのランレングスデータを
誤接続することなく罫線のランレングスデータのみを接
続してかすれを救済することができる。
【0014】請求項3に記載の発明(第3の発明)は、
入力画像から罫線を除去する方法において、第1の発明
の罫線抽出方法により検出した罫線の外接矩形領域内の
ランレングスデータを除去する手段を具備することを特
徴とする罫線除去方法。
【0015】この第3の発明では、罫線の外接矩形領域
内のランレングスデータを除去することにより、高速に
罫線を除去することができる。
【0016】請求項4に記載の発明(第4の発明)は、
入力画像から罫線を除去する方法において、第1の発明
の罫線抽出方法により検出したフィルタリング後のラン
レングスデータのうち、実際に抽出された罫線のランレ
ングスデータのみを抽出する手段と、該罫線のランレン
グスデータと入力画像のランレングスデータを比較する
ことにより除去対象のランレングスデータを選択する手
段とを具備することを特徴とする罫線除去方法である。
【0017】この第4の発明では、第1の発明の罫線抽
出方法により検出したフィルタリング後のランレングス
データを利用することにより、高速に罫線を除去するこ
とができる。さらに、罫線抽出に利用した長いランレン
グスデータを除去することにより、傾いたり湾曲した罫
線も高精度に除去することができる。
【0018】請求項5に記載の発明(第5の発明)は、
入力画像から罫線を除去する方法において、第3もしく
は第4の発明で除去した罫線に接触したランレングスデ
ータを抽出する手段と、該接触したランレングスデータ
を罫線と交差した文字や記号もしくは図形のランレング
スデータであると判定する手段と、該判定されたランレ
ングスデータ同士を対応付けする手段と、対応付けされ
たランレングスデータの間を補間するランレングスデー
タを追加する手段とを具備することを特徴とする罫線除
去方法である。
【0019】この第5の発明では、輪郭追跡を用いない
ため、高速に補間対象のランレングスデータを検出する
ことができ、ノイズにも頑健である。
【0020】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図を参照しながら説明する。なお、以下の説明は横
方向のランレングスデータを用いた横罫線に関する処理
の例である。縦罫線に関する処理は、縦方向のランレン
グスデータに対して同じ処理をすれば実現できる。
【0021】図1は本発明による罫線抽出方法の一実施
例を示すブロック図である。図2は、このブロック図に
基づく処理の概念図である。罫線抽出手段100は、以
下に説明する100aから100fまでの6つのステッ
プで構成されている。
【0022】ランレングスデータ生成手段100aは、
入力である2値画像からランレングスデータを生成す
る。
【0023】ランレングスデータのフィルタリング手段
100bは、100aで生成されたランレングスデータ
から文字等の罫線以外の画像のランレングスデータを除
去し、罫線部分のランレングスデータを選択する。ラン
レングスデータのフィルタリング処理の詳細について
は、図3を用いて後述する。図2(b)は、図2(a)
の入力画像からランレングスデータのフィルタリングを
した結果である。ランレングスデータのフィルタリング
は、ランレングスデータの長さや隣接するランレングス
データとの位置関係に基づいているので、必ずしも罫線
のランレングスデータのみを抽出するわけではない。図
2(b)では、文字部分のランレングスデータは除去さ
れているが、黒い四角形の部分のランレングスデータは
除去されていない。
【0024】連結成分生成手段100cは、100bで
抽出された罫線のランレングスデータの連結成分の外接
矩形を求める。図2(c)は、図2(b)で抽出された
ランレングスデータから生成された連結成分の外接矩形
示す図である。
【0025】罫線判定手段100dは、100cで生成
された連結成分が罫線の連結成分であるか罫線以外の連
結成分であるかを、外接矩形の外形特徴を用いて判定す
る。判定方法の詳細については、図4を用いて後述す
る。図2(d)は、図2(c)の連結成分から罫線の連
結成分のみを選択した結果である。黒い四角形の連結成
分は除去されている。
【0026】端点検出手段100eは、100dで選択
された連結成分から罫線の端点を検出する。端点検出処
理の詳細については、図5を用いて後述する。図2
(e)は、図2(d)の連結成分から罫線の端点を検出
した結果である。図中の矢印で示した部分が罫線の端点
である。
【0027】罫線かすれ補正手段100fは、100e
で検出された罫線の端点情報を用いて罫線のかすれを検
出し、検出したかすれを接続する。かすれの検出と接続
処理の詳細については、図6を用いて後述する。図2
(f)は図2(e)で検出した端点の情報に基づいてか
すれを補正した図である。ここでは、下の2本の罫線が
かすれていると判定され、一本の罫線に補正される。
【0028】次に、図1の発明を図3から図6を用いて
詳細に説明する。なお、これ以下の説明で用いる座標系
は、原点を画像の左上、X方向を左から右、Y方向を上
から下とする。
【0029】図3は、図1のランレングスデータフィル
タリング手段100bの処理の一例を示す図である。こ
の例では、所定の閾値(thA)より長いランレングス
データを選択し、thAより長いランレングスデータ同
士の間隔が所定の閾値(thB)より短い場合には、か
すれであると判定して2つのランレングスデータを接続
する。この長いランレングスデータの選択とかすれ補正
を繰り返すことにより、罫線部分のランレングスデータ
を選択する。
【0030】図3(a)はフィルタリング前の1スキャ
ンライン分のランレングスデータの例である。まずラン
レングスデータ300の長さをthAと比較する。30
0はthAより短いので罫線のランレングスデータとし
ては選択しない。次に図3(b)では、ランレングスデ
ータ301はthAより長いので選択する。図3(c)
では、ランレングスデータ302がthAより長いので
選択し、ランレングスデータ301とランレングスデー
タ302の間隔がthBより短いのでこの2つのランレ
ングスデータを接続すると判定する。図3(d)では、
ランレングスデータ301とランレングスデータ302
を接続したランレングスデータ301aを生成する。ラ
ンレングスデータ303はthAより短いので選択しな
い。図3(e)では、ランレングスデータ304がth
Aより長いので選択し、ランレングスデータ301aと
ランレングスデータ304の間隔がthBより短いので
この2つのランレングスデータを接続すると判定する。
図3(f)では、301aとランレングスデータ304
を接続したランレングスデータ301bを生成する。上
記の処理によって選択されたランレングスデータは、入
力画像と比較するために、メモリに蓄えられる。このラ
ンレングスデータのフィルタリングでは、所定の閾値よ
り長いランレングスデータを選択することにより、横方
向の罫線のランレングスデータを選択することができ
る。さらに、長いランレングスデータ同士でかすれ補正
をするため、罫線の延長上にある文字など罫線以外の黒
画素のランレングスデータを誤って接続することがな
い。図2の処理例では、図2(a)の罫線上にある罫線
のかすれのうち、図2(b)で上の罫線のかすれは接続
されている。しかし、罫線の長さや間隔のみで判定して
いるため、上部の黒い四角形のランレングスデータも選
択されている。
【0031】図1の100bランレングスデータフィル
タリング手段の処理の他の例は、かすれ補正をせずに長
いランレングスデータの抽出のみで実現することができ
る。これは、ランレングスデータのフィルタリングの第
1の例で、thBを0と設定する場合と機能的に同じで
ある。
【0032】図4は、図1の罫線判定手段100dの判
定の一例を説明する図である。この処理では、連結成分
生成手段100cで生成された連結成分が罫線の連結成
分か、罫線以外の連結成分かを判定する。この判定に
は、連結成分の外形特徴を用いる。図4の例では、罫線
400のランレングスデータから生成された連結成分の
外接矩形401の高さHと幅Wを用いて判定する。判定
の一例としては、以下の式(1)から(3)のいずれか
を用いることができる。
【0033】 (H>thC)AND(W<thD) (1) (H>thC)AND(W/H>thE) (2) (H>thC)AND((W<thD)OR(W/H>thE)) (3) ここで、ANDは論理積、ORは論理和である。この処
理により、図2(d)では、黒い四角形のランレングス
データから生成された連結成分が罫線でないと判定する
ことができる。
【0034】図5は、図1の端点検出手段100eの一
例を説明する図である。図5は図4の罫線の左側の端点
付近の拡大図である。この図で、Xlは連結成分の左端
X座標、Yltは連結成分の左端の黒画素のうち最小の
Y座標、Ylbは連結成分の左端の黒画素のうち最大の
Y座標である。罫線の左端点の座標値は、Ylを式
(4)で表現した場合、(Xl、Yl)とすることがで
きる。
【0035】 Yl =(Ylt+Ylb)/2 (4) YltとYlbの座標値より、罫線の太さTを式(5)
により求めることもできる。
【0036】 T=Ylb−Ylt+1 (5) 右端点の座標(Xr、Yr)も同様にして求めることが
できる。式(5)により求めた罫線の太さが右端と左端
とで異なる場合、両者の平均値、大きい方の値、小さい
方の値、両者を用いた他の計算式で求めた値のいずれを
罫線の太さとしてもよい。
【0037】次に、図1の端点検出手段100eの他の
処理例を示す。左端点の場合、連結成分内でランレング
スデータの始点(左端点)の座標が連結成分の左端と同
じであるランレングスデータを選択し、選択されたラン
レングスデータのY座標の平均値を罫線の左端のY座標
とする。右端も同様にして求める。
【0038】図6は、図1の罫線かすれ補正手段100
fの処理を説明する図である。罫線600と罫線601
は図1の100eまでの処理で抽出された罫線である。
ランレングスデータのフィルタリング手段100bで
は、同一ライン上の微小なかすれを補正するため、y2
とy3の値が異なっているか、(x3−x2)の値がt
hB以上であれる場合、かすれを補正することができな
い。罫線かすれ補正手段100fでは、100bで補正
されなかったかすれを、抽出された罫線同士を比較する
ことにより判定し、補正する。罫線600と罫線601
の両端点を結ぶ直線の式をそれぞれ式(6)と式(7)
に示す。
【0039】 y=a1*x+b1 (6) y=a2*x+b2 (7) ただし、a1、b1、a2、b2は式(8)から式(1
1)にて求められる。
【0040】 a1=(y1−y2)/(x1−x2) (8) b1=y1−a1*x1 (9) a2=(y3−y4)/(x3−x4) (10) b2=y3−a2*x3 (11) かすれ判定の一例としては、以下の式(12)から(1
4)の全てを満たせば、かすれであると判定することが
できる。この例は、罫線の傾きを考慮した上で罫線の連
続性があり、端点間隔が所定の閾値より短い場合、かす
れであると判定している。
【0041】 ((x3−x2)<thF) (12) |y2−(a2*x2+b2)|<thG (13) |y3−(a1*x3+b1)|<thG (14) 式(12)では、既に抽出された罫線を対象としてかす
れ判定をするため、かすれ判定の閾値(thF)はth
Bより大きく設定することができる。式(13)と式
(14)では、罫線の傾きを考慮してかすれ判定をする
ことができる。
【0042】かすれ判定を2段階にすることにより、高
速かつ高精度な罫線抽出が実現できる。すなわち、前段
のかすれ補正によりフィルタリングされるランレングス
データの数を減らして高速化し、後段のかすれ補正によ
り誤接続の少ないかすれ補正が可能となる。
【0043】罫線600と罫線601を接続した結果、
(x1、y1)と(x4、y4)を両端点とする罫線6
02が生成される。
【0044】なお、図6で説明した罫線かすれ補正方法
を縦罫線に対して行う場合、式(6)、(7)に相当す
る式では垂直な直線を表現できないため、式(15)の
形式を用いればよい。
【0045】 x=a*y+b (15) ただし、aとbは罫線上の2点から求められる定数であ
る。
【0046】次に、本発明による罫線除去方法について
説明する。図7は本発明による罫線除去方法の一実施例
を示すブロック図である。図1と同一符号は同一部分を
示す。図7では、罫線抽出手段100において画像中か
ら罫線を抽出し、罫線除去手段700で画像から罫線の
ランレングスデータを除去する。罫線除去手段700で
は、罫線ランレングスデータ選択手段700aにおいて
除去対象となる罫線のランレングスデータを選択し、罫
線ランレングスデータ除去手段700bにおいて選択し
た罫線のランレングスデータを除去することにより罫線
を除去する。以下、罫線除去手段700の5つの実施例
について図8から図12を用いて説明する。
【0047】図8は罫線除去の第1の例を説明する図で
ある。図8(a)は、罫線800に対する罫線ランレン
グスデータ選択の範囲を示している。罫線800の両端
点を結ぶ線分801に対し、上下にthH移動させた線
分を802aと802bとする。thHの値は、あらか
じめ決められた所定の値でも、罫線抽出時に求めた罫線
の幅でも、これらの値を用いた計算値でもよい。この8
02aと802bに囲まれた領域のランレングスデータ
を罫線のランレングスデータとして除去したのが図8
(b)である。ただし、この方法では、罫線の両端点を
結ぶ線分を基準としているため、図8のように湾曲した
長い罫線を正しく除去することはできない。
【0048】図9は罫線除去の第2の例を説明する図で
ある。図9(a)は罫線のランレングスデータを示して
いる。図9(b)の四角形は図1の罫線判定100dで
罫線の連結成分と判定された連結成分の外接矩形であ
る。この外接矩形内のランレングスデータを除去対象の
罫線のランレングスデータとして選択する。図9(c)
は、図9(a)のランレングスデータから図9(b)の
ランレングスデータを除去したランレングスデータの図
である。点線で示したランレングスデータは除去された
ランレングスデータである。ただし、この方法の場合、
連結成分を生成する基となるランレングスデータはフィ
ルタリング後のランレングスデータであるため、罫線上
の小さいノイズ900から903のランレングスデータ
はフィルタリング時に除去されてしまう。したがって、
900と903のランレングスデータは除去されずに残
ってしまう。
【0049】図10は罫線除去の第3の例を説明する図
である。この方法では、図9(b)で設定した矩形領域
を上下左右にそれぞれthJ、thKずつ広げた矩形領
域内のランレングスデータを除去対象の罫線のランレン
グスデータとして選択する。図10(b)はthJ=1
ドット、thK=0ドットの例である。図10(c)
は、図10(a)のランレングスデータから図10
(b)のランレングスデータを除去したランレングスデ
ータの図である。この方法では、図9(c)で除去され
ずに残っていたランレングスデータも除去されている。
【0050】図11は罫線除去の第4の例を説明する図
である。図11(a)は罫線のランレングスデータを示
している。図11(b)は除去するランレングスデータ
を選択する場合に比較対象とするランレングスデータの
例である。このランレングスデータは、図1のランレン
グスデータのフィルタリング手段100bで選択された
横長のランレングスデータのうち、罫線判定100dで
罫線であると判定された連結成分の生成に関係するラン
レングスデータである。除去対象の罫線のランレングス
データとして選択されるランレングスデータは、図11
(a)と図11(b)との間で重複するランレングスデ
ータである。図11(c)は図11(a)のランレング
スデータから図11(b)のランレングスデータと重複
するランレングスデータを除去したランレングスデータ
の図である。点線で示したランレングスデータは除去さ
れたランレングスデータである。ただし、この方法の場
合、連結成分を生成する基となるランレングスデータは
フィルタリング後のランレングスデータであるため、罫
線上の小さいノイズ900から903のランレングスデ
ータは除去されずに残ってしまう。
【0051】図12は罫線除去の第5の例を説明する図
である。図12(a)は罫線のランレングスデータを示
している。図12(b)は除去するランレングスデータ
を選択する場合に比較対象とするランレングスデータの
例であり、図11(b)で選択したランレングスデータ
を上下左右にそれぞれthL、thMずつ広げたランレ
ングスデータである。図12(b)はthL=1ドッ
ト、thM=0ドットの例である。斜線部はこの処理に
より拡張されたランレングスデータである。除去対象と
して選択されるランレングスデータは、図12(a)と
図12(b)との間で重複するランレングスデータであ
る。図12(c)は図12(a)のランレングスデータ
から図12(b)のランレングスデータと重複するラン
レングスデータを除去したランレングスデータの図であ
る。罫線除去の第2と第3の方法では、傾いた罫線を除
去する場合に、罫線の外接矩形領域内のランレングスデ
ータを全て除去するため、罫線以外の部分を除去するこ
とがある。しかし、第4と第5の方法では、傾いた罫線
を除去する場合でも罫線のランレングスデータのみを除
去することができる。
【0052】なお、罫線除去の第2から第5の例を実施
する場合、罫線の端点の情報は必要ないので、図7から
端点検出手段100eと罫線かすれ補正手段100fを
省略してもよい。
【0053】次に、本発明による罫線除去後の字形修復
方法について説明する。図13は本発明による字形修復
方法の一実施例を示すブロック図である。図1や図7と
同一符号は同一部分を示す。図13では、罫線抽出手段
100において画像中から罫線を抽出し、罫線除去手段
700で画像から罫線のランレングスデータを除去した
後、罫線と交差しているために除去された文字の一部を
字形修復手段1300で修復する。字形修復手段130
0では、罫線接触ランレングスデータ選択手段1300
aで罫線と接触した文字のランレングスデータを選択
し、罫線接触ランレングスデータ対応付け手段1300
bで1300aで選択したランレングスデータのうち接
続対象のランレングスデータを対応付けし、補間ランレ
ングスデータ追加手段1300cで対応付けしたランレ
ングスデータの間を補間するランレングスデータを追加
する。以下、字形修復手段1300の実施例について図
14から図16を用いて説明する。
【0054】図14は、文字と罫線と交差した画像から
罫線除去の第2もしくは第3の方法により罫線を除去し
た例である。以下、この説明における罫線除去の例は第
2もしくは第3の方法を用いる。しかし、第4もしくは
第5の方法でも罫線に接触するランレングスデータの定
義が異なるだけであり、本質的な違いはない。
【0055】図15(a)は図14(b)の文字と罫線
が交差した部分の拡大図である。図13の罫線接触ラン
レングスデータ選択手段1300aにより、罫線として
除去された矩形領域の上下のランレングスデータ150
0と1501を接触するランレングスデータとして選択
する。ここで、第4もしくは第5の方法で罫線接触ラン
レングスデータの選択をする場合、図11(b)や図1
2(b)のランレングスデータの上下のランレングスデ
ータを接触するランレングスデータとして選択する。こ
こで、選択したランレングスデータは、文字ではなく除
去されなかった罫線の一部である可能性がある。文字か
罫線の一部かを判定するには、選択したランレングスデ
ータのさらにnドット上下まで連結するランレングスデ
ータがあるか否かを判定し、ランレングスデータがあれ
ば選択するという論理を入れてもよい。図15(a)の
例では、nを1ドットとした場合、ランレングスデータ
1500に対してはランレングスデータ1502、ラン
レングスデータ1501に対してはランレングスデータ
1503が存在するので、ランレングスデータ1500
と1501を文字の一部であるランレングスデータとし
て選択する。この方法では、除去した罫線のランレング
スデータを基にして罫線と接触した文字のランレングス
データを求めるため、輪郭追跡などの計算コストの大き
な処理を必要とせず高速な処理が可能である。さらに、
輪郭追跡をしないため、罫線の輪郭上の凸凹など輪郭特
徴に影響を与えるようなノイズに強いという特徴があ
る。
【0056】図15(b)は、ランレングスデータ15
00と1501を対応付けし、その間のランレングスデ
ータを修復した図である。修復したランレングスデータ
を斜線で示している。上側のランレングスデータの始点
終点のx座標値をP1、Q1とし、下側のランレングス
データの始点終点のx座標値をP2、Q2とすると、対
応付けの論理の一例は式(16)のようになる。
【0057】 (Q1≧P2)AND(P1≦Q2)AND (Q2≧P1)AND(P2≦Q1) (16) この論理式は、比較対象のランレングスデータがX方向
に重複していれば接続対象であるとして対応付けするも
のである。さらに、文字ストロークの方向を判定に用い
るには、罫線に接触したランレングスデータの始点終点
とnドット上下のランレングスデータの始点終点とを比
較対象に加えればよい。文字部分を修復するには、対応
付けされたランレングスデータを滑らかに結ぶように始
点終点を求めたランレングスデータを追加する。
【0058】図16(a)は、文字と罫線が交差した部
分の別の拡大図である。接触ランレングスデータ160
0と1601の選択方法は、図15で説明した方法と同
じである。図16(b)はランレングスデータ1600
と1601を対応付けし、その間のランレングスデータ
を修復した図である。上側のランレングスデータの始点
終点のx座標値をP1、Q1とし、下側のランレングス
データの始点終点のx座標値をP2、Q2とすると、対
応付けの論理の一例は式(17)もしくは式(18)を
満たせばよいこととする。
【0059】 (P1≧P2)AND (P1≦(P2+thN))AND(Q1≦(Q2+thN)) (17) (P1≦P2)AND (P2≦(P1+thN))AND(Q2≦(Q1+thN)) (18) 式(17)は、文字のストロークが右上から左下に向か
って罫線と交差している場合の論理式であり、式(1
8)は左上から右下に向かって罫線と交差している場合
の論理式である。これらの論理式は、対応付けされたラ
ンレングスデータがX方向に重複してなくても、所定の
閾値(thP)以内の距離であれば接続対象とするもの
である。thPの値は、あらかじめ決められた値でも、
対応付けされたランレングスデータ間のY方向の距離な
ど値でも、これらの値を用いた計算値でもよい。さら
に、文字ストロークの方向を判定に用いるには、接触ラ
ンレングスデータの始点終点とnドット上下のランレン
グスデータの始点終点とを比較対象に加えればよい。
【0060】
【発明の効果】請求項1もしくは請求項2に記載の発明
によれば、2値画像から傾きやかすれのある罫線を高精
度に抽出できる。
【0061】さらに、請求項3もしくは請求項4に記載
の発明によれば、画像中から罫線を高速に除去すること
ができる。
【0062】さらに、請求項4に記載の発明によれば、
傾いたり湾曲した罫線も高精度に除去することができ
る。
【0063】さらに、請求項5に記載の発明によれば、
文字と交差している罫線を除去した後、除去された交差
部分を高速に修復することができるため、本発明の後段
で実行される可能性のある文書の書式解析や文字認識処
理に対して、高品質な入力画像を提供することができ
る。
【図面の簡単な説明】
【図1】本発明による罫線抽出方法のブロック図であ
る。
【図2】図1による処理の概念図である。
【図3】図1のランレングスデータのフィルタリング手
段100bの処理を説明する図である。
【図4】図1のランレングスデータの罫線判定手段10
0dの処理を説明する図である。
【図5】図1の端点検出手段100eの処理を説明する
図である。
【図6】図1の罫線かすれ補正手段100fの処理を説
明する図である。
【図7】本発明による罫線除去方法のブロック図であ
る。
【図8】図7の罫線除去手段700の処理を説明する第
1の例の図である。
【図9】図7の罫線除去手段700の処理を説明する第
2の例の図である。
【図10】図7の罫線除去手段700の処理を説明する
第3の例の図である。
【図11】図7の罫線除去手段700の処理を説明する
第4の例の図である。
【図12】図7の罫線除去手段700の処理を説明する
第5の例の図である。
【図13】本発明による字形修復方法のブロック図であ
る。
【図14】図7の罫線除去手段により除去された文字と
交差した罫線の例の図である。
【図15】図13の字形修復手段1300の処理を説明
する第1の例の図である。
【図16】図13の字形修復手段1300の処理を説明
する第2の例の図である。
フロントページの続き (72)発明者 影広 達彦 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 渡辺 成 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所情報機器事業部内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】入力画像から罫線を抽出する方法におい
    て、入力された2値画像のランレングスデータを生成
    し、走査方向の罫線を求めるために該ランレングスデー
    タをフィルタリングし、フィルタリング後のランレング
    スデータの連結成分データを生成し、連結成分の外形特
    徴から罫線と罫線以外の連結成分を区別し、罫線の連結
    成分の外接矩形領域から罫線の端点を検出し、罫線同士
    の連続関係から罫線のかすれを判定し、かすれであると
    判定すれば該罫線同士を接続することを特徴とする罫線
    抽出方法。
  2. 【請求項2】請求項1のランレングスデータのフィルタ
    リングにおいて、長いランレングスデータを抽出し、同
    一ライン上の該長いランレングスデータの間隔が所定の
    閾値以下であれば、かすれであると判定して該2つのラ
    ンレングスデータ同士を接続することを特徴とする罫線
    抽出方法。
  3. 【請求項3】入力画像から罫線を除去する方法におい
    て、請求項1の罫線抽出方法により検出した罫線の外接
    矩形領域内のランレングスデータを除去することを特徴
    とする罫線除去方法。
  4. 【請求項4】入力画像から罫線を除去する方法におい
    て、請求項1の罫線抽出方法により検出したフィルタリ
    ング後のランレングスデータのうち、実際に抽出された
    罫線のランレングスデータのみを抽出し、該罫線のラン
    レングスデータと入力画像のランレングスデータを比較
    することにより除去対象のランレングスデータを選択す
    ることを特徴とする罫線除去方法。
  5. 【請求項5】入力画像から罫線を除去する方法におい
    て、請求項3もしくは4で除去した罫線に接触したラン
    レングスデータを抽出し、該接触したランレングスデー
    タを罫線と交差した文字や記号もしくは図形のランレン
    グスデータであると判定し、該判定されたランレングス
    データ同士を対応付けし、対応付けされたランレングス
    データの間を補間するランレングスデータを追加するこ
    とを特徴とする罫線除去方法。
JP10028074A 1998-02-10 1998-02-10 罫線抽出方法及び罫線除去方法 Pending JPH11232382A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10028074A JPH11232382A (ja) 1998-02-10 1998-02-10 罫線抽出方法及び罫線除去方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10028074A JPH11232382A (ja) 1998-02-10 1998-02-10 罫線抽出方法及び罫線除去方法

Publications (1)

Publication Number Publication Date
JPH11232382A true JPH11232382A (ja) 1999-08-27

Family

ID=12238635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10028074A Pending JPH11232382A (ja) 1998-02-10 1998-02-10 罫線抽出方法及び罫線除去方法

Country Status (1)

Country Link
JP (1) JPH11232382A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6954550B2 (en) 2000-11-29 2005-10-11 Omron Corporation Image processing method and apparatus
US8503774B2 (en) 2009-09-15 2013-08-06 Fuji Xerox Co., Ltd. Apparatus, method and computer readable medium for performing solid-line conversion from lines having breaks
KR20150017755A (ko) * 2012-07-24 2015-02-17 알리바바 그룹 홀딩 리미티드 형태 인식 방법 및 디바이스
JP2016071855A (ja) * 2014-09-30 2016-05-09 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像における縦線および横線の検出および削除
US11811984B2 (en) 2019-09-25 2023-11-07 Canon Kabushiki Kaisha Image processing system, image processing apparatus and method of controlling the same, and storage medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6954550B2 (en) 2000-11-29 2005-10-11 Omron Corporation Image processing method and apparatus
US8503774B2 (en) 2009-09-15 2013-08-06 Fuji Xerox Co., Ltd. Apparatus, method and computer readable medium for performing solid-line conversion from lines having breaks
KR20150017755A (ko) * 2012-07-24 2015-02-17 알리바바 그룹 홀딩 리미티드 형태 인식 방법 및 디바이스
JP2015528960A (ja) * 2012-07-24 2015-10-01 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited フォーム認識方法及びフォーム認識装置
JP2016071855A (ja) * 2014-09-30 2016-05-09 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像における縦線および横線の検出および削除
US11811984B2 (en) 2019-09-25 2023-11-07 Canon Kabushiki Kaisha Image processing system, image processing apparatus and method of controlling the same, and storage medium

Similar Documents

Publication Publication Date Title
JP2951814B2 (ja) 画像抽出方式
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP3830998B2 (ja) 罫線除去方法及びこれを用いた文字認識装置
JP6177541B2 (ja) 文字認識装置、文字認識方法及びプログラム
JP2000235619A (ja) 表画像処理装置及びそのプログラム記憶媒体
CN114863492A (zh) 一种低质量指纹图像的修复方法及修复装置
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP4392907B2 (ja) 文字切出し方法
JP3936436B2 (ja) 表認識方法
JPH11232382A (ja) 罫線抽出方法及び罫線除去方法
JP5010627B2 (ja) 文字認識装置及び文字認識方法
JP4543675B2 (ja) 文字・図形の認識方法
KR100295360B1 (ko) 쉐이딩알고리즘을이용한영상처리방법
JP2868134B2 (ja) 画像処理方法及び装置
JP7341758B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP4172236B2 (ja) 顔画像処理装置及びプログラム
JP3348224B2 (ja) 表枠線の交点補正装置および表認識装置および光学文字読取装置
JP4116179B2 (ja) 画像処理方法、画像処理装置および記録媒体
CN113947777A (zh) 图像识别转换装置、方法及计算机可读取的记录媒介物
JP2002366900A (ja) 光学式文字読取装置
KR101901413B1 (ko) 필기 문서의 문자 인식 장치 및 방법
JP2008258980A (ja) 画像情報処理装置および画像傾斜角度算出方法
CN114441554A (zh) 检测方法
JPH0573718A (ja) 領域属性識別方式
JP2000316091A (ja) ノイズ除去装置、方法及び記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040930

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041117

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041217

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050121

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050223

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060511

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060511