JPH10187878A - 表処理方法 - Google Patents

表処理方法

Info

Publication number
JPH10187878A
JPH10187878A JP8348044A JP34804496A JPH10187878A JP H10187878 A JPH10187878 A JP H10187878A JP 8348044 A JP8348044 A JP 8348044A JP 34804496 A JP34804496 A JP 34804496A JP H10187878 A JPH10187878 A JP H10187878A
Authority
JP
Japan
Prior art keywords
frame
rectangle
image
black
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8348044A
Other languages
English (en)
Inventor
Hiroko Sugiura
裕子 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8348044A priority Critical patent/JPH10187878A/ja
Publication of JPH10187878A publication Critical patent/JPH10187878A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 少ない処理量で表の枠を確実に認識する。 【解決手段】 表画像を2値画像入力部100により入
力し、その白黒反転画像を白黒反転処理部110で作成
する。矩形抽出部120で白黒反転画像上の連続して接
した黒画素群(白黒反転前の白画素群)の外接矩形を抽
出し、矩形選択処理部130で文字等の矩形を除き、枠
の矩形を選択する。このようにして、表画像上の罫線で
囲まれた枠の内側枠が、罫線抽出を経由することなく直
接的に抽出される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書や帳票等の画
像中の表の処理に係り、特に表の枠の認識に関する。
【0002】
【従来の技術】文書や帳票等の画像を読み取って処理す
る場合、画像を文字領域、表領域、図その他の領域に分
割し、それぞれの領域に適した処理を行うことが多い。
【0003】表領域の処理においては、カラムである枠
の認識が重要ポイントである。従来、表処理における枠
認識は、一般に、まず、長い黒ランや周辺分布に着目し
て罫線を抽出し、抽出された罫線の位置情報に基づいて
罫線で囲まれた枠の領域を抽出するという2段階の処理
によっていた(特開平2−61775号、特開平7−2
82191号等)。実罫線のほかに行間空白部部分も行
間罫線として抽出し、枠の認識に利用する同様の方法も
知られている(特開平3−78892号)。
【0004】
【発明が解決しようとする課題】前述の従来方法は、罫
線抽出と枠抽出という2段階の処理を行うため、一般に
処理時間が長くなるという問題がある。また、枠の形状
によっては枠を囲む罫線の抽出は容易でなく、さまざま
な形状の枠に対応しようとすると、罫線抽出のための処
理の内容が複雑化し処理時間の増加を招きやすく、しか
も、罫線の抽出に失敗すると、たとえ枠が存在していて
も次段階の枠抽出処理に入ることすら不可能になってし
まうという問題があった。
【0005】よって、本発明の目的は、表処理におい
て、枠認識のための処理内容の簡易化及び処理時間の短
縮を図ること、さまざまな形状・大きさの枠の認識を可
能にすること、罫線に囲まれない枠の認識を可能にする
こと、精度のよい表再現を可能にすること、表中の文字
の高精度な認識を可能にすることにある。
【0006】
【課題を解決するための手段】請求項1の発明の特徴
は、入力画像の白黒反転画像を作成し、その白黒反転画
像上の連続して接している黒画素群に外接する矩形の抽
出によって、罫線に囲まれた枠の内側枠を認識すること
である。
【0007】請求項2の発明の特徴は、請求項1の発明
の方法において、入力画像を圧縮してからその白黒反転
画像を作成することである。
【0008】請求項3の発明の特徴は、入力画像の圧縮
画像を作成し、その圧縮画像上の連続して接している黒
画素群に外接する矩形を抽出することによって、罫線で
囲まれない文字群のみからなるカラムを枠として認識す
ることである。
【0009】請求項4の発明の特徴は、請求項1又は2
の発明の方法において、認識された枠の内側枠の内部に
ついて入力画像上の連続して接している黒画素群に外接
する矩形の抽出を行い、その結果に基づいて、枠を4頂
点が直角の四角形枠とそれ以外の特殊枠とに分類するこ
とである。
【0010】請求項5の発明の特徴は、入力画像上の罫
線で囲まれた枠の内側枠を認識し、その内側枠の内部に
ついて入力画像上の連続して接している黒画素群に外接
する矩形の抽出を行い、その結果に基づいて、枠を4頂
点が直角の四角形枠とそれ以外の特殊枠とに分類するこ
とを特徴とする。
【0011】請求項6の発明の特徴は、請求項4又は5
の方法において特殊枠に分類された枠に関し、その内側
枠の内部より抽出された矩形の範囲について入力画像の
白黒反転画像を作成し、その白黒反転画像上の連続して
接している黒画素群に外接する矩形を抽出し、その矩形
内の黒画素の割合を調べることによって、枠の形状を細
分類することである。
【0012】請求項7の発明の特徴は、請求項1又は2
記載の方法において、白黒反転画像より抽出された矩形
の内部の黒画素数がその総画素数のほぼ半分であるとき
に、その矩形を斜線により2分割された枠として認識す
ることである。
【0013】請求項8の発明の特徴は、請求項1,2,
4,5,6又は7の発明の方法において、認識された枠
を構成する罫線を再現するための情報を抽出することで
ある。
【0014】請求項9の発明の特徴は、請求項1,2,
3,4,5,6又は8の発明の方法において、認識され
た枠毎に入力画像の文字の切り出し及び認識を行うこと
である。
【0015】請求項10の発明の特徴は、請求項7の発
明の方法において、認識された枠毎に表画像上の文字の
切り出し及び認識を行い、斜線により2分割された枠に
ついては、その分割領域毎に文字の切り出し及び認識を
行うことである。
【0016】
【発明の実施の形態】本明細書で使われる若干の用語に
ついて説明する。まず「黒画素」、「白画素」とは、通
常の2値の白黒画像の場合には文字通り「黒」の画素と
「白」の画素のことであるが、より一般的には「地」と
同じ色を持つ画素つまり「非画像部」の画素が白画素、
「地」と異なった色を持つ画素つまり「画像部」の画素
が黒画素である。「枠」については、図1において13
が枠を構成する罫線であるとすると、この罫線13の外
縁で囲まれた範囲が外側枠11、罫線13の内縁で囲ま
れた範囲が内側枠12である。表によっては、罫線で囲
まれない文字群だけでカラムを構成しているものがある
が、この場合には、その各文字群を枠として扱う。ま
た、「矩形抽出」とは、画像上の連続して接している黒
画素群を一塊として、それらが包含されるように外接四
角形で囲んだ範囲を矩形とし、その矩形の位置座標を抽
出することである。以下、図面を適宜参照して本発明の
実施例を説明する。なお、各図において同等部には同一
の符号が付されている。
【0017】<実施例1>図2は、本発明の実施例1の
機能的構成を処理の流れに沿って表したブロック図であ
る。なお、本実施例及び後記各実施例は、専用のハード
ウエアによって実現することも可能であるし、また一般
的なコンピュータを利用してソフトウエアにより実現す
ることも可能である。
【0018】図2において、処理すべき文書等の画像
は、スキャナ等の2値画像入力部100により2値イメ
ージデータとして入力され、2値イメージメモリ105
に格納される。この入力画像は、白黒反転処理部110
によって黒画素(本明細書では”1”のビット)が白画
素(”0”のビット)へ、白画素が黒画素へそれぞれ反
転させられ、この白黒反転後の画像は白黒反転画像メモ
リ115に格納される。
【0019】この白黒反転画像に対して矩形抽出部12
0により矩形抽出が行われ、抽出された矩形の位置座標
(例えば相対向する2頂点の座標)が矩形メモリ125
に格納される。ここで抽出された矩形は反転前の画像の
「非画像部」の枠に相当するから、図1で言えば内側枠
12が抽出されたわけである。
【0020】しかし、抽出された矩形の中には、表のカ
ラムに当たらないもの、例えば「口」のような文字や文
字の一部が含まれている可能性がある。そのようなカラ
ムでない矩形の除去を矩形選択処理部130で行う。例
えば、除去すべき矩形のサイズに関する条件を予め指定
しておき、その条件に該当する矩形を除去し、残った矩
形だけを最終的に抽出する。
【0021】以上に説明したように、本実施例によれ
ば、反転画像に対する矩形抽出処理によって、罫線抽出
を経ることなく直接的に枠を抽出することができる。し
かも、周囲を連続する画像部で囲まれた枠であれば、そ
の大きさや形状に関係なく確実な抽出が可能である。
【0022】なお、抽出された枠の情報は、文字の切り
出し・認識、さらには表再現に利用されるが、これにつ
いては後記実施例7に関連して詳細に述べる。
【0023】<実施例2>図3は、本発明の実施例2の
機能的構成を処理の流れに沿って表したブロック図であ
る。本実施例は、前記実施例1の構成に画像圧縮部14
0、圧縮画像メモリ145、位置座標変換部150及び
矩形メモリ155を追加した構成である。
【0024】画像圧縮部140は、入力された画像に対
し所定ビット数の連続した画素を処理単位としたOR圧
縮を行う。つまり、処理単位中に”1”のビット(黒画
素)が含まれていれば、その処理単位を1つの”1”ビ
ット(黒画素)に変換し、処理単位中に”1”のビット
が含まれていなければ、その処理単位を1つの”0”ビ
ット(白画素)に変換する。この画像圧縮の目的は、入
力画像中の非画像部を圧縮することにより、罫線とみな
すべき不連続な画像部、例えば、かすれで切れ切れにな
った罫線の画像部を結合しようとするものであり、処理
単位のサイズつまり圧縮率は、この目的に合致するよう
に選ばれる。圧縮された画像は圧縮画像メモリ145に
格納される。
【0025】この圧縮画像に対し白黒反転処理部110
によって白黒反転処理が施され、その白黒反転画像に対
して矩形抽出部120により矩形抽出処理がなされる。
画像の非圧縮部の圧縮により、かすれた罫線や不連続な
罫線の画像部は連続した画像部となっているため、その
ような罫線で囲まれた枠の矩形も抽出される。ここで抽
出された矩形の位置座標は圧縮画像上の位置座標である
ため、位置座標変換部150によって矩形の位置座標が
圧縮前の画像上の位置座標に変換され、矩形メモリ15
5に格納される。この矩形の位置座標を用いて、矩形選
択部130が前記実施例1と同様に枠としては不適当な
矩形を除去し、枠の矩形つまり内側枠だけを選択し、そ
の位置情報を抽出結果として出力する。
【0026】このように、本実施例によれば、前記実施
例1では抽出できないような、かすれた罫線や不連続な
罫線で囲まれた枠をも抽出できるようになる。なお、抽
出された枠の情報は、文字の切り出し・認識、さらには
表再現に利用されるが、これについては後記実施例7に
関連して詳細に述べる。
【0027】<実施例3>図4は、本発明の実施例3の
機能的構成を処理の流れに沿って表したブロック図であ
る。前述のように、罫線等の連続する画像部で囲まれな
い文字群のみでカラムを構成しているような表もある。
本実施例は、そのような表のカラムを枠として抽出する
ことを目的としている。
【0028】図4において、2値イメージメモリ105
に格納された入力画像に対し、画像圧縮部160により
画像圧縮が施され、圧縮された画像が圧縮画像メモリ1
45に格納される。この画像圧縮の方法はOR圧縮でよ
いが、その圧縮率は「表のカラムとしての文字群と文字
群とは接触させず、しかし各文字群内の文字同士は結合
させる」ように選ばれる。その結果、カラムとしての各
文字群は一塊の画像部となる。
【0029】この圧縮画像に対し、矩形抽出部120に
よって矩形抽出が実行されることにより、各文字群が矩
形として抽出され、その位置座標が矩形メモリ125に
格納される。このようにして、罫線で囲まれない、文字
群だけからなるカラムが枠として抽出される。抽出され
た矩形枠の位置座標は、圧縮画像上の座標であるから、
位置座標変換部150によって圧縮前の画像上の位置座
標に変換された後に、抽出結果として出力される。この
ようにして枠として抽出したカラムは、表処理上で罫線
で囲まれた枠と同様に扱って、カラム内の文字の切り出
しや認識を行うことができる。
【0030】<実施例4>図5は、本発明の実施例4の
機能的構成を処理の流れに沿って表したブロック図であ
る。ただし、図の煩雑化を避けるため、構成要素間接続
の一部は省略されている。図6は、本実施例の説明のた
めの図である。
【0031】図5において、2値画像入力部100によ
って画像を入力する段階から矩形選択処理部130によ
って枠としての矩形を選択し、その位置情報を内側枠メ
モリ135に格納するまでの構成及び処理内容は前記実
施例2と同じである。しかし、ここまでに得られる情報
は内側枠の位置座標のみであり、枠の周囲の罫線の長さ
や太さは未知である。
【0032】本実施例では、そのような罫線の情報を抽
出するため、まず外側枠予測位置生成部162におい
て、内側枠の位置座標を基準にして外側枠の位置を予測
する。すなわち、図6において、内側枠62より、罫線
の太さにある余裕分を加えた距離だけ外側に外側枠予測
位置64をとる。この外側枠予測位置64と内側枠62
の間に罫線63が含まれるようにするわけである。そし
て、外側枠予測位置64の矩形範囲に関し、矩形抽出部
163により2値イメージメモり105内の画像に対し
矩形抽出処理を行い、図6に示す外側枠61に相当する
矩形を抽出し、その位置座標を外側枠メモリ165に格
納する。
【0033】枠罫線太さ・長さ認識部170は、内側枠
メモリ135及び外側枠メモリ165を参照し、外側枠
の水平方向の長さと内側枠の水平方向の長さの差をと
り、その2分の1の値を、枠を構成している罫線の太さ
(幅)として認識する。垂直方向の長さの差をとり、そ
の2分の1を罫線の太さとして計算してもよいことは当
然である。また、内側枠又は外側枠の水平方向及び垂直
方向の長さを、罫線の水平方向及び垂直方向の長さとし
て認識する。このようにして、内側枠の位置情報と、そ
の罫線の太さ及び長さの情報が得られた。
【0034】なお、外接枠予測位置生成部162より前
の処理系は前記実施例2と同じであるが、これを前記実
施例1と同じ処理系で置き換えることも可能である(た
だし、前記実施例2で述べたように、枠を囲む罫線のか
すれ等に弱くなる)。
【0035】<実施例5>図7は、本発明の実施例5の
機能的構成を処理の流れに沿って表したブロック図であ
る。ただし、図の煩雑化を避けるため、構成要素間接続
の一部は省略されている。
【0036】図7において、2値画像入力部100によ
る画像入力から矩形選択処理部130による矩形選択ま
での構成及び処理内容は前記実施例2と同じである。
【0037】本実施例では、抽出された枠が、4つの頂
点がすべてが直角の枠であるか、それ以外の枠であるか
の判別を行う。この判別のために、枠内矩形抽出処理部
175において、内側枠メモリ135内の内側枠の位置
座標を参照し、2値イメージメモリ105内の画像の枠
内について矩形抽出を行い、その位置座標を四角枠判別
部180に与える。
【0038】4つの頂点がすべて直角の四角形枠の場
合、基本的には各頂点の部分に矩形は抽出されない。し
かし、頂点が直角でない枠の場合には、その頂点の部分
に矩形が抽出される。例えば、図10(a)に示す頂点
が丸く面取りされた枠911の場合、図10(b)に示
すように、その内側枠912の各頂点部の内側に枠を構
成する罫線の一部が入り込む。そのため、内側枠912
の内部について矩形抽出を行うと、図10(c)に示す
ように各頂点部分に矩形913が抽出される。
【0039】なお、4つの頂点がすべて直角の四角形枠
であっても、画像にスキューがある場合には枠の頂点部
分に矩形が抽出される。これを図8により説明する。図
8において、75は4頂点が直角の四角形枠を構成する
罫線である。画像に右下がりのスキューがあるため(図
8ではスキューが誇張されている)、この枠については
矩形abcdが内側枠として抽出され、その内部に罫線
75の一部が位置する。したがって、この内側枠の内部
について矩形抽出を行うと、枠の4つの頂点部に矩形a
efg、矩形bihe、矩形ckji、矩形dgmkが
抽出されるが、これらの矩形は隣り合うもの同士が接し
ている。これに対し、図10により説明したような面取
りされた枠の場合に各頂点に抽出される矩形はそれぞれ
が分離し、形状も統一がとれている。
【0040】また、枠の頂点部付近にノイズによる画像
部が存在した場合にも、頂点部に矩形が抽出される。し
かし、この場合に抽出される矩形は、面取りされた枠の
頂点部に抽出される矩形のように形状の統一した矩形と
はならない。
【0041】四角形枠判別部180は、枠内矩形抽出処
理部175による枠内矩形抽出結果に基づき枠の種類を
判別する。すなわち、枠の4頂点に矩形が抽出されない
場合には、その枠を4頂点が直角の四角形枠と判定す
る。枠の4頂点に矩形が抽出されたが、その矩形の隣り
合う同士が接しているときには、その枠を4頂点が直角
の四角形枠と判定する(スキューが原因となって矩形が
抽出された場合)。枠の4頂点部分に矩形が抽出された
が、それらの矩形の形状が統一されていないときには、
その矩形を4頂点が直角の四角形枠と判定する(ノイズ
が原因となって矩形が抽出された場合)。以上のケース
以外は、その枠を4頂点が直角の四角形枠以外の特殊枠
と判定する。このようにして判別された枠の種類を示す
情報と内側枠の位置座標が抽出結果として出力される。
【0042】スキュー又はノイズが原因となって枠内矩
形が抽出された判断された場合に、スキュー補正又はノ
イズ除去の処理を、枠内矩形抽出処理の前に行ってか
ら、枠内矩形抽出処理と四角枠判別処理を再度行うよう
にしてもよい。抽出された枠の情報は、文字の切り出し
・認識、さらには表再現に利用されるが、これについて
は後記実施例7に関連して詳細に述べる。
【0043】なお、内側枠の抽出に関しては、さまざま
な形状・大きさの枠の内側枠を少ない処理量で直接的に
抽出できるという利益を損なってもよいのであれば、従
来の罫線の矩形を抽出し、枠を囲む罫線の交点を求めて
内側枠の位置座標を得るといった他の方法を採用するこ
とも許される。
【0044】<実施例6>図9は、本発明の実施例6の
機能的構成を処理の流れに従って表したブロック図であ
る。ただし、図の煩雑化を避けるため、構成要素間接続
の一部が省略されている。
【0045】図9において、2値画像入力部100によ
って画像を入力し、この入力画像より内側枠抽出処理部
190によって内側枠を抽出する。この内側枠抽出処理
部190は、前記実施例2における画像圧縮部140、
白黒反転処理部110、矩形抽出部120、位置座標変
換部150及び矩形選択処理部130からなる部分に相
当する。抽出された内側枠について、枠内矩形抽出処理
部175により矩形内矩形の抽出を行い、その抽出結果
に基づいて、四角形枠判別部180によって前記実施例
5と同様の方法により4頂点が直角の四角形枠である
か、それ以外の特殊枠であるかの判別を行い、各枠内の
矩形の位置座標とともに判別した枠種類の情報を矩形メ
モリ185に格納する。この特殊枠について、より詳し
い形状特徴を抽出するために以下に述べる処理が行われ
る。
【0046】白黒反転処理部200において、矩形メモ
リ185の情報を参照し、特殊枠と判断された注目する
枠の頂点部で抽出された矩形の範囲の画像を2値イメー
ジメモリ105より取り込み、その白黒反転画像を作成
して矩形メモリ205に格納する。矩形抽出部210に
おいて、この白黒反転画像に対して矩形抽出を行い、抽
出した各矩形の位置座標を矩形メモリ215に格納す
る。そして、矩形内黒画素数抽出部220で、矩形メモ
リ205内の白黒反転画と像矩形メモリ215内の矩形
位置座標を参照し、注目した特殊枠の頂点部より抽出さ
れた矩形の白黒反転画像の黒画素をカウントし、求めた
黒画素数を画素数メモリ225に格納する。この黒画素
数等の情報に基づき、形状抽出部230において特殊枠
の形状情報の抽出を行う。これについて図10、図11
及び図12を参照して説明する。
【0047】図10(a)に示すような4頂点部が丸く
面取りされた枠911の場合、図10(b)に示すよう
な内側枠912が抽出される。この内側枠912の内部
に対する矩形抽出によって、図10(c)に示すように
枠の4頂点部に矩形913が抽出される。この矩形91
3内の画像は、矩形枠911を構成する罫線の太さが大
きい場合には図10(d)に示すような画像となるが、
罫線の太さが小さい場合には図10(e)に示すような
画像となる(ただし、ここに示した画像は枠の左下頂点
部の矩形の画像である)。図10(d)に示した矩形画
像の白黒反転画像について矩形抽出を行うと図10
(f)に示すような矩形914が抽出され、また、図1
0(e)に示すような矩形画像の白黒反転画像について
矩形抽出を行うと、図10(g)に示すような大きさの
異なる二つの矩形915,916が抽出される。矩形9
14と矩形916の画像(白黒反転画像)の黒画素数
は、その矩形の総画素数(面積)の半分よりかなり大き
な値となる。
【0048】図11(a)に示すような4頂点が斜めに
面取りされた多角形枠921の場合、図11(b)に示
すような内側枠922が抽出される。この内側枠922
の内部に対する矩形抽出によって、図11(c)に示す
ように枠の4頂点部に矩形923が抽出される。この矩
形923の画像は、矩形枠921を構成する罫線の太さ
が大きい場合には図11(d)に示すような画像となる
が、罫線の太さが小さい場合には図11(e)に示すよ
うな画像となる(ただし、ここに示した画像は、枠の左
下頂点部の矩形の画像である)。図11(d)に示した
矩形画像の白黒反転画像について矩形抽出を行うと図1
1(f)に示すような一つの矩形924が抽出され、ま
た、図11(e)に示すような矩形画像の白黒反転画像
について矩形抽出を行うと、図11(g)に示すような
大きさの異なる二つの矩形925,926が抽出され
る。そして、矩形924,925,926の画像(白黒
反転画像)は、対角線で画像部と非画像部に2分される
ため、その黒画素数は矩形の総画素数(面積)のほぼ半
分の値となる。
【0049】図12(a)に示すような一つの頂点部に
凹部がある多角形枠931の場合、図12(b)に示す
ような内側枠932が抽出される。この内側枠932の
内部に対する矩形抽出によって、図12(c)に示すよ
うに枠の凹部分に矩形933が抽出される。この矩形9
33の画像は、図12(d)に示すような画像となり、
その白黒反転画像について矩形抽出を行うと図12
(e)に示すような一つの矩形935が抽出される。こ
の矩形935の画像(白黒反転画像)は、その全画素が
黒画素である。
【0050】形状抽出部230においては、注目する枠
の4頂点部に、図10(f)の矩形914又は図10
(g)の矩形915,916のような黒画素率を持つ矩
形が抽出されたときには、その枠を図10(a)に示す
ような4頂点を丸く面取りされた枠であると判断する。
注目する枠の4頂点部に、図11(f)の矩形924又
は図11(g)の矩形925,926のような黒画素率
を持つ矩形が抽出されたときには、その枠を図11
(a)に示すような4頂点を斜めに面取りされた枠であ
ると判断する。また、注目する枠のある頂点部に、図1
2(e)の矩形935のような黒画素率を持つ矩形が抽
出されたときには、その枠を図12(a)に示すような
凹部を持つ枠と判断する。
【0051】以上のようにして四角形枠以外の枠の形状
の種類分けを行った後、形状抽出部230は各枠のより
詳細な形状特徴を抽出する。
【0052】まず、4頂点が直角の四角形枠の場合につ
いて述べる。前記実施例4において述べたように、内側
枠に基づいて外側枠予測位置を求め、その範囲内につい
て矩形抽出を行って外側枠を抽出する。外側枠の水平方
向又は垂直方向の長さから、内側枠の水平方向又は垂直
方向の長さを差し引き、その差の2分の1を、枠を構成
する罫線の太さとして求める。また、内側枠(又は外側
枠)の水平方向及び垂直方向の長さをそれぞれ枠の水平
方向及び垂直方向の長さとして求める。
【0053】図10(a)に示すような4頂点が丸く面
取りされた枠911の場合、内側枠912の水平方向の
長さと、枠内矩形抽出により抽出された矩形913の水
平方向の長さを2倍した値との差を、枠を構成する罫線
の水平直線部の長さとして求める。内側枠912の垂直
方向の長さと、枠内矩形913の垂直方向の長さを2倍
した値との差を、枠構成罫線の垂直直線部の長さとして
求める。そして、枠内矩形913の垂直方向(又は水平
方向)の長さを半径、角度を90度とした円弧で、枠の
各頂点部の罫線を近似する。また、枠を構成する罫線の
太さについては、四角形枠の場合と同様に外側枠を抽出
し、外側枠と内側枠の水平方向(又は垂直方向)の長さ
の差を計算し、その2分の1を罫線の太さとして求め
る。
【0054】図11(a)に示すような4頂点が斜めに
面取りされた多角形枠921の場合、頂点が丸く面取り
された枠の場合と同様の方法で、罫線の直線部の長さ及
び太さを求める。また、各頂点部分の斜線部の長さを、
枠内矩形923の水平方向と垂直方向の長さの2乗和の
平方根として求める。斜線部の角度は、枠内矩形923
の水平方向及び垂直方向の長さから算出できるが、45
度と近似してもよい。
【0055】図12(a)に示すような凹部のある枠の
場合、内側枠の水平方向及び垂直方向の長さを、枠の凹
部以外の辺の罫線の水平方向及び垂直方向の長さとして
求める。内側枠の水平方向及び垂直方向の長さから枠内
矩形933の水平方向及び垂直方向の長さを引いた差
を、それぞれ凹部のある辺の罫線の水平方向及び垂直方
向の長さとして求める。枠内矩形933の水平方向及び
垂直方向の長さをそれぞれ凹部の罫線の水平方向及び垂
直方向の長さとして求める。罫線の太さは、四角形枠の
場合と同様に、外側枠の水平方向(又は垂直方向)の長
さと内側枠の水平方向(又は垂直方向)の長さの差の2
分の1を計算する。
【0056】以上のようにして抽出された各枠の内側枠
の位置座標、枠の種類及び枠の形状特徴の情報が処理結
果として出力される。このような情報が得られれば、枠
内文字の切り出し・認識及び表再現を高精度に行うこと
が可能になるが、これについては後記実施例7に関連し
てより詳しく述べる。
【0057】<実施例7>図13は、本発明の実施例7
の機能的構成を処理の流れに沿って表したブロック図で
ある。ただし、図13においては、図面の煩雑化を避け
るため、構成要素間接続の一部が省略されている。
【0058】図13において、2値画像入力部100に
より画像を入力し、白黒反転処理部110により入力画
像の白黒反転画像を作成し、矩形抽出部120により白
黒反転画像に対する矩形抽出を行い、抽出された矩形の
中から矩形選択処理部130によって枠としての矩形を
選択するまでの構成及び処理内容は、前記実施例1と同
じである。
【0059】240は斜線で分割された枠を判別する斜
線分割枠判別部であり、これは本実施例に特有の処理部
である。図14(a)に示す斜線分割枠1010の場
合、白黒反転後の矩形抽出により、図14(b)に示す
ような二つの矩形1011,1012が抽出される。二
つの矩形1011,1012は、ほぼ全体が重なった位
置関係にあり、それぞれが枠を分割する斜線によって等
面積の画像部と非画像部とに2分されている。
【0060】斜線分割枠判別部240は、内側枠メモリ
135内の矩形枠の位置座標を参照し、図14(b)の
矩形1011,1012のような位置関係の2つの矩形
枠があった場合、白黒反転画像メモリ115を参照し、
当該各矩形枠内の黒画素数をカウントし、その黒画素数
が矩形枠の総画素数(面積)のほぼ半分であるならば、
当該二つの矩形枠を一つの斜線分割枠であると判断す
る。あるいは、矩形選択処理部130によって選択され
た各矩形の黒画素の割合をまず調べ、それがほぼ50%
の矩形を斜線分割枠と判断し、そして結果として図14
(b)の矩形1011,1012のように斜線分割枠と
判断された二つの矩形がほぼ全体的に重なり合うときに
は、その二つの矩形の外接矩形を一つの斜線分割枠と認
識し、または、精度は悪くなるが、その一方だけを斜線
分割枠と認識する。
【0061】この後、前記実施例6と同様に、枠内矩形
抽出処理部175、四角枠判別部180、白黒反転処理
部200、矩形抽出部210、矩形内黒画素数抽出部2
20、形状抽出部230による一連の処理が行われる。
ただし、前記実施例6と異なり、枠内矩形抽出部175
から矩形内黒画素数抽出部220までの処理の対象から
斜線分割枠と判断された内側枠は除外される。
【0062】斜線分割枠と判断された内側枠は、形状抽
出部230における特殊枠の形状分類の対象からは除外
されるが、形状詳細特徴抽出の対象には含まれる。斜線
分割枠の形状詳細特徴抽出においては、内側枠メモリ1
35を参照し、その二つの内側枠、つまり図14(b)
に示す矩形1011,1012のような二つの矩形に外
接する矩形を斜線分割枠の内側枠と認識し、その水平及
び垂直方向の長さを斜線分割枠の水平及び垂直方向の長
さとして求める。また、その水平方向の長さ及び垂直方
向の長さの2乗和の平方根をとることにより、枠を分割
する斜線の長さを求める。その斜線の角度も、水平方向
及び垂直方向の長さから算出する。その傾きの向き(右
上がりか右下がりかの別)も求める。傾きの向きは、例
えば、その斜線分割枠を構成する二つの矩形枠の相対的
位置関係から判定することができる。つまり、図14
(a)に示すような右上がりの斜線で分割された枠10
10の場合、図14(b)に示すように左側の矩形10
11が右側の矩形1012より上に位置するが、右下が
りの斜線で分割された枠の場合、その上下関係が逆にな
るという性質を利用して、傾きの向きを判断できる。さ
らに4頂点が直角の四辺形枠の場合と同様に、斜線分割
枠の外側枠を求め、外側枠と内側枠の水平及び垂直方向
の長さの差の2分の1を、斜線分割枠を囲む罫線の太さ
として求める。斜線の太さね、同じ太さとしてよい。
【0063】本実施例においては、形状抽出部230は
さらに、以上のようにして得た各枠の形状特徴や種類の
情報を、各枠の位置座標とともに枠情報として集約し枠
メモリ235に格納する。この枠情報は、文字抽出部2
50及び表再現部270に利用される。
【0064】文字抽出部250は、2値イメージメモリ
105に格納されている2値イメージから、各枠内の文
字画像を切り出すもので、その切り出し方法は従来と同
様の文字矩形を抽出する方法でよい。ただし、斜線分割
枠の場合には、分割斜線より上の領域と下の領域とに分
けて文字矩形を抽出し、分割斜線と接する文字矩形はエ
ラーと判断し文字としては抽出しない。切り出された文
字画像は、その位置情報とともに文字画像メモリ255
に格納される。文字認識部260は、文字画像メモリ2
55内の各文字画像に対して文字認識を行い、認識した
文字のコードと位置情報を認識結果メモり265に格納
する。表再現処理部270は、認識結果メモり265内
の情報と枠メモリ235内の情報をもとに、各枠の罫線
と各枠内の文字からなる表のイメージを表再現メモリ2
75上に作成する。枠に関する詳細な情報を利用するた
め、枠内の文字の正確な切り出し・認識と、正確な表イ
メージの再現が可能である。
【0065】
【発明の効果】以上の説明した如く、請求項1の発明に
よれば、罫線抽出を経由することなく直接的に枠を認識
でき、枠認識のための処理時間を短縮できるとともに、
罫線で囲まれた枠ならば、さまざまな形状、大きさの枠
を確実に認識可能になる。請求項2の発明によれば、入
力画像の圧縮率を適切に選ぶことによって、かすれで切
れ切れになった罫線や不連続な罫線で囲まれた枠であっ
ても確実に認識可能となる。請求項3又は4の発明によ
れば、入力画像の圧縮率を適切に選ぶことにより、罫線
の存在しない表のカラムを認識することができる。請求
項乃至5乃至8によれば、枠の種類を分類して認識し、
また、枠の罫線の再現のための情報を得ることにより、
より精度のよい枠内文字認識や表再現が可能となる。請
求項9又は10の発明によれば、表の枠内の文字を高精
度に切り出して認識することができ、特に請求項10の
発明によれば斜線で分割された枠の文字も高精度に認識
できる、等々の効果を得られる。
【図面の簡単な説明】
【図1】枠を説明するための図である。
【図2】本発明の実施例1のブロック図である。
【図3】本発明の実施例2のブロック図である。
【図4】本発明の実施例3のブロック図である。
【図5】本発明の実施例4のブロック図である。
【図6】外側枠の抽出を説明するための図である。
【図7】本発明の実施例5のブロック図である。
【図8】スキューがある四角形枠の内部に抽出される矩
形を説明するための図である。
【図9】本発明の実施例6のブロック図である。
【図10】4頂点が丸く面取りされた枠の認識を説明す
るための図である。
【図11】4頂点が斜めに面取りされた枠の認識を説明
するための図である。
【図12】凹部を持つ枠の認識を説明するための図であ
る。
【図13】本発明の実施例7のブロック図である。
【図14】斜線で分割された枠の認識を説明するための
図である。
【符号の説明】
11 外側枠 12 内側枠 13 罫線 61 外側枠 62 内側枠 63 罫線 64 外側枠予測位置 100 2値画像入力部 105 2値イメージメモリ 110 白黒反転処理部 115 白黒反転画像メモリ 120 矩形抽出部 125 矩形メモリ 130 矩形選択処理部 135 内側枠メモリ 140 画像圧縮部 145 圧縮画像メモリ 150 位置座標変換部 155 矩形メモリ 160 画像圧縮部 162 外側枠予測位置生成部 163 矩形抽出部 165 外側枠メモリ 170 枠罫線太さ・長さ認識部 175 枠内矩形抽出処理部 180 四角形枠判別部 185 矩形メモリ 190 内側枠抽出処理部 200 白黒反転処理部 205 矩形メモリ 210 矩形抽出部 215 矩形メモリ 220 矩形内黒画素数抽出部 225 画素数メモリ 230 形状抽出部 240 斜線分割枠判別部 250 文字抽出部 256 文字画像メモリ 260 文字認識部 265 認識結果メモり 270 表再現処理部 275 表再現メモリ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力画像の白黒反転画像を作成し、その
    白黒反転画像上の連続して接している黒画素群に外接す
    る矩形の抽出によって、罫線に囲まれた枠の内側枠を認
    識することを特徴とする表処理方法。
  2. 【請求項2】 請求項1記載の表処理方法において、入
    力画像を圧縮してからその白黒反転画像を作成すること
    を特徴とする枠認識方法。
  3. 【請求項3】 入力画像の圧縮画像を作成し、その圧縮
    画像上の連続して接している黒画素群に外接する矩形を
    抽出することによって、罫線で囲まれない文字群のみか
    らなるカラムを枠として認識することを特徴とする表処
    理方法。
  4. 【請求項4】 認識された枠の内側枠の内部について入
    力画像上の連続して接している黒画素群に外接する矩形
    の抽出を行い、その結果に基づいて、枠を4頂点が直角
    の四角形枠とそれ以外の特殊枠とに分類することを特徴
    とする請求項1又は2記載の表処理方法。
  5. 【請求項5】 入力画像上の罫線で囲まれた枠の内側枠
    を認識し、その内側枠の内部について入力画像上の連続
    して接している黒画素群に外接する矩形の抽出を行い、
    その結果に基づいて、枠を4頂点が直角の四角形枠とそ
    れ以外の特殊枠とに分類することを特徴とする表処理方
    法。
  6. 【請求項6】 特殊枠に分類された枠に関し、その内側
    枠の内部より抽出された矩形の範囲について入力画像の
    白黒反転画像を作成し、その白黒反転画像上の連続して
    接している黒画素群に外接する矩形を抽出し、その矩形
    内の黒画素の割合を調べることによって、枠の形状を細
    分類することを特徴とする請求項4又は5記載の表処理
    方法。
  7. 【請求項7】 請求項1又は2記載の表処理方法におい
    て、白黒反転画像より抽出された矩形の内部の黒画素数
    がその総画素数のほぼ半分であるときに、その矩形を斜
    線により2分割された枠として認識することを特徴とす
    る表処理方法。
  8. 【請求項8】 認識された枠を構成する罫線を再現する
    ための情報を抽出することを特徴とする請求項1,2,
    4,5,6又は7記載の表処理方法。
  9. 【請求項9】 認識された枠毎に入力画像の文字の切り
    出し及び認識を行うことを特徴とする請求項1,2,
    3,4,5,6又は8記載の表処理方法。
  10. 【請求項10】 認識された枠毎に表画像上の文字の切
    り出し及び認識を行い、斜線により2分割された枠につ
    いては、その分割領域毎に文字の切り出し及び認識を行
    うことを特徴とする請求項7記載の表処理方法。
JP8348044A 1996-12-26 1996-12-26 表処理方法 Pending JPH10187878A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8348044A JPH10187878A (ja) 1996-12-26 1996-12-26 表処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8348044A JPH10187878A (ja) 1996-12-26 1996-12-26 表処理方法

Publications (1)

Publication Number Publication Date
JPH10187878A true JPH10187878A (ja) 1998-07-21

Family

ID=18394367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8348044A Pending JPH10187878A (ja) 1996-12-26 1996-12-26 表処理方法

Country Status (1)

Country Link
JP (1) JPH10187878A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image

Similar Documents

Publication Publication Date Title
US6347156B1 (en) Device, method and storage medium for recognizing a document image
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US6175844B1 (en) Ordering groups of text in an image
US7269298B2 (en) Image processing device, image processing method, and record medium on which the same is recorded
JPH0620092A (ja) 文書画像の領域識別方法
JP2009032299A (ja) 文書画像処理方法、文書画像処理装置、文書画像処理プログラムおよび記憶媒体
JP2002288589A (ja) 画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000181992A (ja) カラー文書画像認識装置
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP3774690B2 (ja) 画像を文字画像行に分割する方法および装置、ならびに、文字画像認識方法および装置
JP2001043313A (ja) 文字切出し方法
JPH0418351B2 (ja)
JP2004120092A (ja) 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラム
JPH10187878A (ja) 表処理方法
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JP2004199622A (ja) 画像処理装置、画像処理方法、記録媒体およびプログラム
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JP2872768B2 (ja) 文字切出し装置
JPH08123901A (ja) 文字抽出装置及び該装置を用いた文字認識装置
JP2007295210A (ja) 画像処理装置、画像処理方法、画像処理プログラム、およびこれを記録した記録媒体
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JPH1153539A (ja) 円形パターン判定方法および記録媒体
JP2003208568A (ja) 画像処理装置、画像処理方法、及び同方法に用いるプログラム
JP2002279345A (ja) 画像処理装置、画像処理方法及び該方法を実行するためのプログラムを格納したコンピュータ読み取り可能な記憶媒体
JPH08237404A (ja) 光学文字認識モードの選択方法