JPH04291479A - 罫線認識方法及び表処理方法 - Google Patents

罫線認識方法及び表処理方法

Info

Publication number
JPH04291479A
JPH04291479A JP3080939A JP8093991A JPH04291479A JP H04291479 A JPH04291479 A JP H04291479A JP 3080939 A JP3080939 A JP 3080939A JP 8093991 A JP8093991 A JP 8093991A JP H04291479 A JPH04291479 A JP H04291479A
Authority
JP
Japan
Prior art keywords
ruled line
lines
ruled
runs
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3080939A
Other languages
English (en)
Other versions
JP3140079B2 (ja
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03080939A priority Critical patent/JP3140079B2/ja
Publication of JPH04291479A publication Critical patent/JPH04291479A/ja
Application granted granted Critical
Publication of JP3140079B2 publication Critical patent/JP3140079B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書や帳票の2値画像
における罫線の認識と表の処理に関する。
【0002】
【従来の技術】一般に文字認識装置において文書あるい
は帳票を処理する場合、その画像を文字領域、イメージ
領域(写真、図等)、表領域に分割し、それぞれの領域
に別の処理を行なうことが多い。
【0003】従来、表領域の処理に関しては、表領域の
2値画像より黒画素の連結する矩形を求め、一定以上の
長さの矩形を罫線として認識している。そして、認識し
た罫線で囲まれた領域を表の一つの枠として認識し、枠
内の画像を切り出し、この画像より文字を切り出し認識
している。このような処理方法の例は、本願出願人によ
る特願平1−314519号、特願平1−312868
号、特願平2−134876号及び特願平2−1348
78号等の特許願に添付の明細書及び図面に述べられて
いる。
【0004】
【発明が解決しようとする課題】従来の方法によれば、
一定以上の長さの矩形でないと罫線として認識されない
ため、点線のような実線でない罫線が一本でも表に含ま
れていると、表の枠の認識を正常に行なうことができず
、その結果、表内文字認識のエラーが起こるという問題
があった。しかし近年、非実線の罫線を含む表が頻繁に
用いられるため、その正常な処理に対する要求が高まっ
ている。
【0005】したがって本発明の目的は、点線のような
非実線の罫線を含んだ表に対しても正確な処理を可能に
するための罫線認識方法及び表処理方法を提供すること
にある。
【0006】
【課題を解決するための手段】請求項1の発明によれば
、2値画像において、主走査方向または副走査方向の各
ラインの黒ランと白ランを抽出し、それぞれのランの長
さについてのヒストグラムを求める。そして、このヒス
トグラムのピーク部分の値が一定値を越えるときは、そ
のピーク部分に対応した長さを持つ黒ラン及び白ランの
連続範囲を罫線候補として抽出し、罫線候補にライン間
で連結したものを統合する処理を施すことによって、主
走査方向または副走査方向の罫線を認識する。
【0007】請求項2の発明によれば、前記ヒストグラ
ムに基づく方法によって罫線候補を抽出するとともに、
黒ランの長さの閾値処理によって一定長以上の長さの黒
ランも罫線候補として抽出し、罫線を認識する。
【0008】請求項3の発明によれば、文書もしくは帳
票の表領域の2値画像において、請求項2記載の方法に
よって主走査方向及び副走査方向の罫線を認識し、罫線
の情報より表の枠領域を認識して、枠領域内の文字を切
り出し文字認識する。
【0009】
【作用】点線もしくは破線、あるいは鎖線の罫線の場合
、ほぼ一定の長さの黒ランと白ランが連続するので、そ
れぞれの長さでランのヒストグラムはピークを示す。 また有効な一定長以上の罫線であれば、そのヒストグラ
ムのピーク値は一定値を越える。したがって、請求項1
の発明によれば、点線もしくは破線あるいは鎖線のよう
な非実線の罫線を正しく認識することができる。また、
黒ランの閾値処理による罫線認識を加えた請求項2の発
明によれば、非実線と実線の両方の罫線を認識すること
ができる。
【0010】また、請求項3の発明によれば、実線の罫
線のみからなる表、非実線の罫線のみからなる表、実線
と非実線の罫線が混在した表のいずれについても、罫線
によって囲まれた枠領域の認識、枠領域の文字切り出し
と文字認識を正常に行なうことができる。
【0011】
【実施例】図1は本発明の一実施例に係る処理装置のブ
ロック図、図2は処理のフローチャート、図3から図6
は罫線認識の説明のための図である。
【0012】2値画像入力部1において、スキャナ等に
より文書画像の2値データを入力し2値イメージメモリ
2に格納する(処理ステップ100)。表領域認識部3
において、2値イメージメモリ2内のイメージデータに
対して表領域を自動的に認識するか、あるいはマウス等
を用いて人手により領域指定をすることによって表領域
を認識し、表領域のイメージデータを切り出して表領域
イメージメモリ4に格納する(処理ステップ102)。
【0013】次に、表領域イメージデータに対し、罫線
の候補を抽出するための処理(処理ステップ104〜処
理ステップ111)を、主走査方向及び副走査方向のそ
れぞれについて予め決められた固定ライン数(数ライン
)単位に実行する。この処理の詳細は次の通りである。
【0014】ラン抽出部5において、表領域イメージデ
ータの注目する1ラインより黒ランと白ランを抽出し、
抽出したランの情報(例えば始点及び終点の座標、始点
の座標と長さ等)を黒ランメモリ6bと白ランメモリ6
wに格納する(処理ステップ104)。
【0015】ヒストグラム計算部7において、黒ランメ
モリ6b及び白ランメモリ6wより注目ラインのラン情
報を読み込み、黒ランと白ランにそれぞれについての長
さ(ランレングス)についてのヒストグラムの計算を行
ない、その結果をヒストグラムメモリ8に格納する(処
理ステップ106)。
【0016】罫線候補抽出部9において、ヒストグラム
メモリ8内の黒ランと白ランのヒストグラムデータとラ
ンメモリ6b,6w内の情報を参照し、注目ライン上の
ランより罫線を構成する可能性のあるランを選び、選択
したランの連続範囲を罫線候補として抽出し、その情報
(例えば始点と終点の座標、始点と長さ等)を罫線候補
メモリ10に格納する(処理ステップ108)。すなわ
ち、図3に示すような黒ランのヒストグラムと図4に示
すような白ランのヒストグラムが得られた場合、それぞ
れのピーク部分で一定値を越えたヒストグラム値を持つ
長さ(斜線部分)のランを選択し、その連続範囲を罫線
候補とする。
【0017】このような罫線候補の抽出アルゴリズムの
根拠は、点線もしくは破線、あるいは鎖線の罫線では、
特定の長さの黒ランと白ランが連続し、それぞれの長さ
でランヒストグラムがピークを示し、また有効な一定長
以上の罫線であれば、そのピーク値が一定値を越えると
いうことである。したがって、図6に示した罫線Aの場
合、連続した数ラインの各ライン上の黒ランと白ランの
連続した範囲Bが罫線候補としてそれぞれ抽出される。
【0018】次にラン閾値処理部11において、黒ラン
メモリ6bを参照し、注目ライン上の一定の閾値以上の
長さの黒ランを罫線候補として抽出し、その情報を罫線
候補メモリ10に格納する(処理ステップ110)。こ
の処理で実線の罫線を構成する黒ランを抽出することが
できる。図5の例では、長さが閾値を越える黒ランDは
実線の罫線候補として抽出されるが、短い黒ランDは候
補とはならない。
【0019】以上の罫線候補抽出の処理ループ(処理ス
テップ104〜110)が固定ライン数単位分について
終わると、この処理ループを処理ステップ111で抜け
出る。そして、罫線抽出部12において、罫線候補メモ
リ10内の情報を参照し、固定ライン数単位内の罫線候
補について、ライン間の連結性をチェックし、連結した
罫線候補を統合する処理を行ない、この処理後の統合さ
れた罫線候補または統合させないままの罫線候補を罫線
として認識し、その情報(罫線の矩形の対角頂点の座標
など)を罫線メモリ13に格納する(処理ステップ11
2)。図6の例では、連続する3ラインより抽出された
罫線候補は連結しているので、それを統合した矩形が一
本の罫線Bとして認識されることになる。
【0020】以上説明した固定ライン数単位の罫線認識
処理ループ(処理ステップ104〜114)を主走査方
向及び副走査方向について繰り返し、これを表領域全体
について終了すると、このループを抜け出て表内の文字
認識のための処理に進む。
【0021】まず枠認識部14において、罫線メモリ1
3内の罫線情報を参照し、認識された罫線により囲まれ
た枠を認識し、各枠の座標(対角2頂点の座標など)を
枠座標メモリ15に格納する(処理ステップ116)。 次に枠領域抽出部16において、枠座標メモリ15内の
情報を参照することにより、各枠領域のイメージデータ
を表領域イメージメモリ4内の表領域イメージデータよ
り切り出して枠イメージメモリ17に格納する(処理ス
テップ118)。行切り出し部18において、枠領域イ
メージメモリ17内のデータより、例えば主走査方向の
射影を利用する方法によって行(文字列)のイメージデ
ータを切り出し、それを行イメージメモリ19に格納す
る(処理ステップ120)。次に文字切り出し部20に
おいて、この行イメージデータより、例えば副走査方向
の射影を利用する方法によって文字のイメージデータを
切り出して文字認識部21に渡す(処理ステップ122
)。文字認識部21においては、この文字イメージデー
タに対して、例えば特徴抽出と認識辞書とのマッチング
によって文字認識を行ない、その結果を出力する(処理
ステップ124,126)。
【0022】
【発明の効果】以上説明した如く、本発明によれば、黒
ラン及び白ランを抽出して、その長さのヒストグラムを
計算し、このヒストグラムに基づいて選択した罫線を構
成する可能性の高いランの連続範囲を罫線候補として抽
出し、その連結したものを統合する処理を行なって罫線
を認識する方法によって、点線や破線あるいは鎖線のよ
うな非実線の罫線を認識することが可能であり、また黒
ランの長さの閾値処理によって一定長以上の黒線を罫線
候補として抽出し、その連結したものを統合して罫線と
して認識する方法を組み合わせることにより、実線の罫
線と非実線の罫線の両方を認識することが可能であり、
また、このような方法により非実線の罫線が用いられた
表についても、その枠領域を正常に抽出して文字認識を
行なうことが可能であり、処理可能な表の範囲が大幅に
拡張される。
【図面の簡単な説明】
【図1】本発明の一実施例に係る処理装置のブロック図
である。
【図2】処理の概略フローチャートである。
【図3】黒ランの長さのヒストグラムの一例を示すグラ
フである。
【図4】白ランの長さのヒストグラムの一例を示すグラ
フである。
【図5】閾値処理による罫線候補抽出の説明図である。
【図6】ヒストグラムによる罫線候補の抽出とその統合
による罫線認識の説明図である。
【符号の説明】
1    2値画像入力部             
   2    2値イメージメモリ 3    表領域認識部              
    4    表領域イメージメモリ 5    ラン抽出部               
     6b  黒ランメモリ 6w  白ランメモリ               
   7    ヒストグラム計算部 8    ヒストグラムメモリ           
 9    罫線候補抽出部 10    罫線候補メモリ            
  11    ラン閾値処理部 12    罫線抽出部              
    13    罫線メモリ 14    枠認識部               
     15    枠座標メモリ 16    枠領域抽出部             
   17    枠イメージメモリ 18    行切り出し部             
   19    行イメージメモリ 20    文字切り出し部            
  21    文字認識部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  2値画像において、主走査方向または
    副走査方向の各ラインの黒ランと白ランを抽出し、それ
    ぞれのランの長さについてのヒストグラムを求め、この
    ヒストグラムのピーク部分の値が一定値を越えるときは
    、そのピーク部分に対応した長さを持つ黒ラン及び白ラ
    ンの連続範囲を罫線候補として抽出し、この罫線候補に
    ライン間で連結したものを統合する処理を施すことを特
    徴とする罫線認識方法。
  2. 【請求項2】  抽出した黒ランの長さの閾値処理を行
    なって、一定長以上の長さの黒ランも罫線候補として抽
    出することを特徴とする請求項1記載の罫線認識方法。
  3. 【請求項3】  文書もしくは帳票の表領域の2値画像
    において、請求項2記載の罫線認識方法によって主走査
    方向及び副走査方向の罫線を認識し、罫線の情報より表
    の枠領域を認識して、枠領域内の文字を切り出し文字認
    識することを特徴とする表処理方法。
JP03080939A 1991-03-19 1991-03-19 罫線認識方法及び表処理方法 Expired - Fee Related JP3140079B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03080939A JP3140079B2 (ja) 1991-03-19 1991-03-19 罫線認識方法及び表処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03080939A JP3140079B2 (ja) 1991-03-19 1991-03-19 罫線認識方法及び表処理方法

Publications (2)

Publication Number Publication Date
JPH04291479A true JPH04291479A (ja) 1992-10-15
JP3140079B2 JP3140079B2 (ja) 2001-03-05

Family

ID=13732444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03080939A Expired - Fee Related JP3140079B2 (ja) 1991-03-19 1991-03-19 罫線認識方法及び表処理方法

Country Status (1)

Country Link
JP (1) JP3140079B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176414A (ja) * 2009-01-29 2010-08-12 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5365440B2 (ja) 2009-09-15 2013-12-11 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176414A (ja) * 2009-01-29 2010-08-12 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP4706764B2 (ja) * 2009-01-29 2011-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
KR101336901B1 (ko) * 2009-01-29 2013-12-04 후지제롯쿠스 가부시끼가이샤 화상 처리 장치, 화상 처리 방법 및 기록 매체
US8805076B2 (en) 2009-01-29 2014-08-12 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer readable medium

Also Published As

Publication number Publication date
JP3140079B2 (ja) 2001-03-05

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
JP2940936B2 (ja) 表領域識別方法
JP4031210B2 (ja) 文字認識装置、文字認識方法、及び記録媒体
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
WO2009114967A1 (zh) 基于移动扫描的图像处理方法及装置
JPH08235341A (ja) ドキュメントファイリング装置および方法
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
US5361309A (en) Character recognition apparatus and method with low-resolution storage for character extraction
JPH04291479A (ja) 罫線認識方法及び表処理方法
KR101048399B1 (ko) 문자 검출 방법 및 장치
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
CN112580594A (zh) 文档识别方法、装置、计算机设备和存储介质
KR940020246A (ko) 문서인식장치의 영역분할 방법
Aparna et al. A complete OCR system development of Tamil magazine documents
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH05159062A (ja) 文書認識装置
JPH04291478A (ja) 罫線認識方法及び表処理方法
JP2023034823A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP2803735B2 (ja) 罫線を含んだ文字認識装置
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置
JPH02166583A (ja) 文字認識装置
JPH0528260A (ja) 輪郭ベクトル抽出方式
JP3031565B2 (ja) 表領域判定方法
JP2931041B2 (ja) 表内文字認識方法
JPH06215181A (ja) 文字・文字列切り出し方法および文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees