JPH0573721A - 表認識装置 - Google Patents

表認識装置

Info

Publication number
JPH0573721A
JPH0573721A JP3233519A JP23351991A JPH0573721A JP H0573721 A JPH0573721 A JP H0573721A JP 3233519 A JP3233519 A JP 3233519A JP 23351991 A JP23351991 A JP 23351991A JP H0573721 A JPH0573721 A JP H0573721A
Authority
JP
Japan
Prior art keywords
rectangle
character
ruled line
estimated
reduced image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3233519A
Other languages
English (en)
Inventor
Yujiro Kamimura
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3233519A priority Critical patent/JPH0573721A/ja
Publication of JPH0573721A publication Critical patent/JPH0573721A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】スキャナーから入力した表画像を基に、表構造
を認識する。 【構成】スキャナーから入力した表画像の連結黒画素の
外接矩形を黒画素ラベリング部11により求め、その大き
さから、文字である矩形を文字矩形推定部12により推定
する。推定した文字矩形の内部を白画素で満たし、n×
nドットにおいて少しでも黒画素を有するものを1ドッ
トの黒画素とする縮小画像を縮小画像作成部13により作
成する。縮小画像の縦、横2方向のヒストグラムにおい
て、高さがしきい値よりも高く幅がしきい値より狭い部
分に罫線があると罫線位置推定部15により推定し、推定
した罫線位置の縮小画像でのランの並びを調べることに
より罫線を抽出する。 【効果】縮小画像を作成することにより、破線やかすれ
による線の途切れがなくなり、正確に表の構造を認識す
ることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、印刷された表を読み取
り、表構造および、セル内の文字を認識する表認識装置
に関するものである。
【0002】
【従来の技術】近年、表認識装置がコンピュータなどの
入力装置として利用されるようになってきた。文書の清
書システムとして表認識装置の利用を考慮すると、罫線
位置、線種、線幅、およびセル内の文字を認識する必要
がある。
【0003】以下に従来の表認識装置について説明す
る。図6は従来の表認識装置の機能ブロック図であり、
表認識装置は、キーボード、マウスなどの指示により表
認識を行う命令を発行する認識指令部1と、入力された
画像データを格納する画像メモリ2と、画像データを走
査して一定長さ以上の黒画素の並び(以下ランという)
を抽出する実線ラン抽出部3と、画像データを走査して
特定パターンのランの並びを抽出する破線ラン抽出部4
と、実線ラン抽出部3および破線ラン抽出部4で抽出さ
れたランの連結性を調べて罫線を抽出し、抽出された罫
線位置の相互関係を見ることにより、セルを抽出する表
構造抽出部5と、サンプル文字を記憶する文字パターン
辞書6と、各セル内の文字をサンプル文字と比較し、前
もって決めた値よりも近い類似度ならば、その文字とし
て出力する文字認識部7と、認識した表の情報を出力す
る表出力部8とを備えた構成とされている。
【0004】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、表の中に文字が密集している場合、破線ラ
ン抽出部4において、文字部分を誤って罫線と認識して
しまい、表の構造が正確に認識できないという問題があ
った。
【0005】本発明は上記問題を解決するもので、表の
中に文字が密集したり、表の罫線が点線や波線で構成さ
れていたりする場合でも表の構造を正確に認識すること
のできる表認識装置を提供することを目的とするもので
ある。
【0006】
【課題を解決するための手段】上記問題を解決するため
に本発明は、与えられた入力図形を走査して得られた原
図形情報に基づいて、表の構造を認識する表認識装置に
おいて、連結黒画素に外接する外接矩形のリストを作成
する外接矩形リスト作成部と、外接矩形の面積または辺
の長さから矩形内が文字であると推定する文字矩形推定
部と、文字であると推定した文字矩形の内部を白画素で
満たし、所定の矩形の複数ドットを、少しでも黒画素を
含む場合に1ドットの黒画素として縮小して縮小画像を
作成する縮小画像作成部と、縮小画像における縦、横2
方向の黒画素のヒストグラムを抽出するヒストグラム抽
出部と、抽出したヒストグラムから罫線位置を推定する
罫線位置推定部と、推定した罫線位置の縮小画像での一
定長さ以上の黒画素の並びを調べることにより罫線を抽
出する罫線抽出部とを備えたものである。
【0007】
【作用】上記構成により、表の罫線部分が波線や点線で
構成されている場合や、罫線に途切れがある場合でも、
縮小率を適当に決めることにより、縮小画像では罫線の
途切れがなくなる。また、縮小画像を作成する段階で、
文字部分の消去を行って、この縮小画像における、縦、
横2方向のヒストグラムを抽出し、抽出したヒストグラ
ムの特徴から罫線位置を推定し、推定した位置の縮小画
像を見ることにより、表の中に文字が密集している場合
でも、表を構成する罫線を正確に抽出でき、正確な構造
認識が可能となる。
【0008】
【実施例】以下、図面を参照しながら本発明の実施例を
説明する。図1は本発明の一実施例における表認識装置
の機能ブロック図を示すものであり、従来のものと同機
能のものには同符号を付して、その説明は省略する。
【0009】図1に示すように、表認識装置は、認識指
令部1、画像メモリ2、表構造抽出部5、文字パターン
辞書6、文字認識部7、表出力部8の従来機能に加え
て、連結黒画素に外接する矩形のリストを作成する外接
矩形リスト作成部としての黒画素ラベリング部11と、外
接矩形の面積から矩形内が文字であると推定する文字矩
形推定部12と、文字矩形内の黒画素を除いて縮小画像を
作成する縮小画像作成部13と、縮小画像における縦、横
2方向の黒画素のヒストグラムを抽出するヒストグラム
抽出部14と、このヒストグラム抽出部14で抽出したヒス
トグラムにおいて高さがしきい値よりも高く、幅がしき
い値よりも狭い部分を捜し出す罫線位置推定部15と、こ
の罫線位置推定部15で推定した罫線位置の縮小画像デー
タを局所的にみることにより罫線を抽出する罫線抽出部
16と、セル内の文字を切り出す文字切り出し部17とを備
えた構成とされている。
【0010】図2は本実施例の表認識装置の構成を示す
ブロック図である。図2において、21は表画像を読み取
るスキャナで、読み取った表画像をイメージデータとし
て出力する。22はRAMで、スキャナ21からのイメージ
データを記憶する画像領域23と、連結黒画素の外接矩形
リストを格納する外接矩形リスト領域24と、イメージデ
ータの縮小画像を格納する縮小画像領域25と、縮小画像
の縦、横2方向の黒画素ヒストグラムを格納するヒスト
グラム領域26と、表認識の結果得られる表構造、セル内
文字を格納する表データ領域27とを有する。28はROM
で、文字認識に使用する辞書を記憶した特徴辞書領域29
およびプログラム記憶領域30を有する。31はプログラム
記憶領域30に記憶された制御プログラムに従って上述機
能の処理を行う処理回路、32は認識指令を行うキーボー
ド、33は表データ領域27に記憶された表を表示する表示
部である。
【0011】以上のように構成された本実施例の表認識
装置について以下その動作を図3および図4のフローチ
ャートを用いて説明する。図3において、ステップs1
では、スキャナ21から画像を入力してRAM22の画像領
域23に格納する(図5の(a) 参照)。ステップs2で、
入力した画像の傾きを補正した後、ステップs3で、傾
きを補正した画像の連結黒画素に外接する矩形を作成す
る。ステップs4では、外接矩形の面積の最頻値、すな
わち1文字の矩形面積と考えられる値を求める。ただ
し、このとき、波線、点線などの要素を除くために、矩
形の短辺がしきい値以下のものは、計算に入れない。ス
テップs5では、ステップs4で求めた最頻値との比
が、しきい値の範囲に入っている外接矩形を検索する
し、この矩形を文字と推定する(図5の(b) 参照)。ス
テップs6では、縮小画像を作成する(図5の(c) 参
照)。
【0012】このステップ6の詳細を図4により説明す
る。まず、ステップs61で、縮小画像の1ドットライン
に相当するイメージデータの領域(たとえば1/5に縮
小する場合は、イメージデータ5ライン)をワーク領域
にコピーする。ステップs62では、ステップs61でコピ
ーした領域とステップs5で抽出された矩形とが重なっ
ている部分を探し、その内部を白画素で満たす。そし
て、ステップs63で、縮小画像の1ドットに相当するイ
メージの中(たとえば1/5に縮小する場合は、5×5
の正方形の内部)が全て白画素ならば0、それ以外は1
として、縮小画像領域に書き込む。ステップs64では、
全てのラインに対して、処理が終了したかどうかを調
べ、終了していなければステップs61以下の処理を繰り
返す。
【0013】次に、図3に示すように、ステップs7に
おいて、ステップs6で得られた縮小画像の縦、横2方
向のヒストグラムを抽出する。ステップs8では、ステ
ップs7で得られたヒストグラムにおいて、高さがしき
い値よりも高く、幅がしきい値よりも狭い部分に罫線が
あると推定する。ステップs9では、推定した罫線位置
の縮小画像でのランの並びを調べることにより罫線を抽
出する。ステップs10では、ステップs9で得られた罫
線に囲まれた矩形を抽出し、表のセルとする。ステップ
s11では、ステップs10で抽出された全てのセル内の文
字認識が終了したかどうかを調べ、終了するまでステッ
プs12のセル内文字認識を繰り返す。ステップs13で
は、得られた表構造を出力する。
【0014】以上のように本実施例によれば、黒画素ラ
ベリング部11、文字矩形推定部12、縮小画像作成部13、
ヒストグラム抽出部14、罫線位置推定部15、および罫線
抽出部16の各機能を設けることにより、正確に表の構造
を認識することができる。
【0015】とくに、まず文字認識を行うことから、表
の中に文字が密集している場合でも表を正確に認識でき
る。また、文字部分を除いた部分を縮小して罫線を抽出
するため、表の罫線が点線や波線で構成された場合でも
表を正確に認識できる。
【0016】なお、上記実施例においては、外接矩形の
面積から文字矩形を推定したが、外接矩形の辺の長さか
ら文字矩形を推定してもよい。
【0017】
【発明の効果】以上のように本発明によれば、連結黒画
素の外接矩形リストを作成する外接矩形リスト作成部
と、外接矩形の面積または辺の長さから矩形内が文字で
あると推定する文字矩形推定部と、文字矩形内の黒画素
を除いて縮小画像を作成する縮小画像作成部と、縮小画
像における縦、横2方向のヒストグラムを抽出するヒス
トグラム抽出部と、抽出したヒストグラムの特徴から罫
線位置を推定する罫線位置推定部と、推定した罫線位置
の縮小画像での一定長さ以上の黒画素の並びを調べるこ
とにより罫線を抽出する罫線抽出部とを設けることによ
り、表の構造を正確に認識することができる。
【図面の簡単な説明】
【図1】本発明の実施例にかかる表認識装置の機能ブロ
ック図である。
【図2】同表認識装置の構成を示すブロック図である。
【図3】同表認識装置の制御手順を示すフローチャート
である。
【図4】同表認識装置の制御手順を示すフローチャート
である。
【図5】同表認識装置の画像などの様子を示す図であ
る。
【図6】従来の表認識装置の機能ブロック図である。
【符号の説明】
11 黒画素ラベリング部(外接矩形リスト作成部) 12 文字矩形推定部 13 縮小画像作成部 14 ヒストグラム抽出部 15 罫線位置推定部 16 罫線抽出部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 与えられた入力図形を走査して得られた
    原図形情報に基づいて、表の構造を認識する表認識装置
    において、連結黒画素に外接する外接矩形のリストを作
    成する外接矩形リスト作成部と、外接矩形の面積または
    辺の長さから矩形内が文字であると推定する文字矩形推
    定部と、文字であると推定した文字矩形の内部を白画素
    で満たし、所定の矩形の複数ドットを、少しでも黒画素
    を含む場合に1ドットの黒画素として縮小して縮小画像
    を作成する縮小画像作成部と、縮小画像における縦、横
    2方向の黒画素のヒストグラムを抽出するヒストグラム
    抽出部と、抽出したヒストグラムから罫線位置を推定す
    る罫線位置推定部と、推定した罫線位置の縮小画像での
    一定長さ以上の黒画素の並びを調べることにより罫線を
    抽出する罫線抽出部とを備えた表認識装置。
JP3233519A 1991-09-13 1991-09-13 表認識装置 Pending JPH0573721A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3233519A JPH0573721A (ja) 1991-09-13 1991-09-13 表認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3233519A JPH0573721A (ja) 1991-09-13 1991-09-13 表認識装置

Publications (1)

Publication Number Publication Date
JPH0573721A true JPH0573721A (ja) 1993-03-26

Family

ID=16956307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3233519A Pending JPH0573721A (ja) 1991-09-13 1991-09-13 表認識装置

Country Status (1)

Country Link
JP (1) JPH0573721A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
JP2010183620A (ja) * 2001-08-27 2010-08-19 Ricoh Co Ltd 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010183620A (ja) * 2001-08-27 2010-08-19 Ricoh Co Ltd 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP7244223B2 (ja) 電子文書における強調テキストの識別
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH0573721A (ja) 表認識装置
JP3052438B2 (ja) 表認識装置
JP2000082110A (ja) 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
JP3060248B2 (ja) 表認識装置
JP2957729B2 (ja) 行方向判定装置
JP2788506B2 (ja) 文字認識装置
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JP2003317107A (ja) 罫線抽出方法及び装置
JPH04360294A (ja) 表認識装置および表認識方法
JP3502130B2 (ja) 表認識装置および表認識方法
JPH0830725A (ja) 画像処理装置及び方法
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JPH117493A (ja) 文字認識処理装置
JP2982221B2 (ja) 文字読み取り装置
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JP2931041B2 (ja) 表内文字認識方法
JPH11242716A (ja) 画像処理方法および記録媒体
JPH01292586A (ja) 文字認識支援装置
JPH0728934A (ja) 文書画像処理装置
JP2002015323A (ja) 文書画像レイアウト識別方法および装置
JPH09288714A (ja) 表認識方法および装置
JP3064508B2 (ja) 文書認識装置