JP2812982B2 - 表認識方法 - Google Patents

表認識方法

Info

Publication number
JP2812982B2
JP2812982B2 JP1086062A JP8606289A JP2812982B2 JP 2812982 B2 JP2812982 B2 JP 2812982B2 JP 1086062 A JP1086062 A JP 1086062A JP 8606289 A JP8606289 A JP 8606289A JP 2812982 B2 JP2812982 B2 JP 2812982B2
Authority
JP
Japan
Prior art keywords
frame
ruled
line segment
coordinate
table area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1086062A
Other languages
English (en)
Other versions
JPH02264386A (ja
Inventor
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1086062A priority Critical patent/JP2812982B2/ja
Priority to US07/501,805 priority patent/US5075895A/en
Publication of JPH02264386A publication Critical patent/JPH02264386A/ja
Application granted granted Critical
Publication of JP2812982B2 publication Critical patent/JP2812982B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字認識装置において、入力された文書や帳
票等の2値画像中の表領域を認識する方法に関する。
〔従来の技術〕
文字認識装置において文書画像を処理する場合、画像
を文字領域、写真や図等のイメージ領域、表領域等に分
割してそれぞれ別の処理を行うことが多い。この中で表
領域に関しては、罫線の位置座標を用いて、表中の各枠
内の画像を切出し、文字を認識する方式が取られてい
る。なお、画像中の枠パターンの認識方法としては、例
えば特開昭57-104363号公報に記載のように、画像を画
素単位に走査して、主走査および副走査方向に長線分を
検出し、それらが枠を形成しているか否か判定する方法
が知られている。
〔発明が解決しようとする課題〕
従来の表領域の処理は、表中の各枠が四方とも罫線
(線分)によって囲まれていることを前提としており、
両脇等に罫線が存在しない表については、枠が抽出でき
ず、表領域としての処理ができないという問題があっ
た。
本発明の目的は、文字認識装置における文書画像中の
表領域に対する処理として、表を構成する罫線の位置情
報から文字を切り出す際、両脇に罫線が存在しない表に
も対応可能とする表認識方法を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するため、本発明は、文書や帳票等の
入力画像中の表領域の処理において、対象とする表領域
のx方向およびy方向の罫線を抽出し、そのy方向の罫
線の中で最も左側(または右側)の罫線のx座標と、x
方向の罫線の中で最も上側および下側の罫線の始点(ま
たは終点)のx座標とから、対象としてる表の左右両側
に罫線が存在するか否かを判別し、存在しない場合、x
方向の罫線の中で最も上側と下側の罫線の始点(または
終点)のxy両座標値を用いてy方向の線分を仮想的に生
成することを特徴とする。
〔作用〕
文字認識装置において、入力された2値画像の表中の
各枠内の画像を切出し、文字を認識する際、両脇に罫線
が存在していない表に対しては、仮想の罫線が自動的に
生成される。従って、対象としている表の両脇に罫線が
存在するしないにかかわらず、表中の枠を認識し、枠内
の画像を切り出すことが可能になる。
〔実施例〕
以下、本発明の一実施例について図面により説明す
る。
第1図は本発明の一実施例のブロック図である。第1
図において、2値画像入力装置11はスキャナ等からな
り、文書や帳票等を読み取り、2値画像を2値画像メモ
リ21に格納する。表領域認識部12は、2値画像メモリ21
の2値画像データに対して表領域を認識し、表領域画像
メモリ22に格納する。この表領域の認識は、自動的に認
識する方法の他に、マウス等を用いて表領域を指定する
方法も考えられる。表領域画像メモリ22の表領域イメー
ジについて、x方向線分抽出部13はx方向の線分を抽出
してx方向線分座標メモリ23に保持し、y方向線分抽出
部14はy方向の線分を抽出してy方向線分座標メモリ24
に保持する。xおよびy方向線分座標メモリ23,24を用
いて、両脇罫線存在判定部15では、対象としている表の
両脇に罫線が存在するか否か判定し、両脇に罫線しない
表については、仮想罫線生成部16において仮想の罫線を
生成する。
枠認識部17では、仮想罫線生成部16で生成された仮想
の罫線を参考にして、xおよびy方向線分座標メモリ2
3,24の線分データから表中の枠を認識し、枠座標メモリ
25に各枠の座標値を格納する。枠領域抽出部18は、枠座
標メモリ25の枠座標データに基づき表領域画像メモリ22
より当該枠内の2値画像を切出し、文字認識部19に送
る。文字認識部19は、この切出された2値画像について
文字認識等の処理を行う。
第2図に、第1図の処理フローを示す。以下、これに
ついて説明する。
ステップ101: 2値画像入力装置11により文書や帳票を読み取り、そ
の2値画像データを2値画像メモリ21に格納する。
ステップ102: 2値画像メモリ21の2値画像データについて、表領域
認識部12において文書や帳票中の表領域を認識し、表領
域画像データを表領域画像メモリ22に格納する。なお、
表領域はマウス等を用いてオペレータが指定してもよ
い。
ステップ103,104: 表領域画像メモリ22の表領域画像データについて、x
方向線分抽出部13においてx方向に連結する黒画素を追
跡して、x方向の線分を認識し、その始点および終点の
座標値をx方向分座標メモリ23に保持する。y方向分抽
出部13においてもy方向に対して同様の処理を行い、y
方向の線分の始点および終点の座標をy方向線分座標メ
モリ24に保持する。
ステップ105: 両脇罫線存在判定部15において、xおよびy方向線分
座標メモリ23,24の座標データを用いて、最も左側(あ
るいは右側)のy方向線分の始点(あるいは終点)のx
座標値と最も上側(あるいは下側)のx方向線分の始点
(あるいは終点)のx座標値との関係から、対象として
いる表の両脇に罫線が存在しているか否かを判断する。
例えば第3図において、最も左側のy方向線分(1)の
始点座標を(lsx,lsy)、終点座標を(lex,ley)、最も
上側のx方向(2)の始点座標を(usx,usy)、最も下
側のx方向線分(3)の始点座標を(dsx,dsy)、とす
ると、 |lsx−usx|≧Th (Thは定数) |lex−dsx|≧Th の式を両方とも満足する場合、その表の両脇には罫線が
存在しないと判断する。
ステップ106: 両脇罫線存在判定部15で両脇に罫線が存在しないと判
断された表について、仮想罫線生成部16において仮想的
な罫線(y方向線分)を生成し、その座標をxおよびy
方向線分座標メモリ23,24に設定する。第3図の例で
は、左脇の罫線(最も左側のy方向線分)の座標に、始
点の座標を(Min(usx,dsx),usy)、終点の座標を(M
ax(usx,dsx),dsy)、右脇の罫線(最も右側のy方向
線分)の座標に、始点の座標を(Min(uex,dex),
uey)、終点の座標を(Max(uex,dex),dey)として仮
想的に罫線を生成する。
なお、両脇に罫線が存在すると判断された表に対して
は、この処理は行わない。
ステップ107: 枠認識部17では、両脇に罫線が存在するしないの表を
全く意識することなく、xおよびy方向線分座標メモリ
23,24を用いて、x方向線分とy方向線分の組み合せに
より枠の認識を行い、それぞれの枠の座標値を枠座標メ
モリ25に保持する。
ステップ108,109: 枠領域抽出部18において、枠座標メモリ25の枠座標デ
ータを用いて表領域画像メモリ22から該当枠内の画像を
切り出し、文字認識部19において文字認識等を行う。
〔発明の効果〕
以上説明したように、本発明によれば、文書画像中に
多く見られる両脇に罫線が存在しない表に対しても、各
枠内の画像を切り出すことができ、文字認識等の処理を
行うことが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成図、第2図は第1図の
処理フロー図、第3図は両脇に罫線が存在しない表の一
例を示す図である。 11……2値画像入力装置、12……表領域認識部、13……
x方向線分抽出部、14……y方向線分抽出部、15……両
脇罫線存在判定部、16……仮想罫線生成部、17……枠認
識部、18……枠領域抽出部、19……文字認識部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書や帳票等の入力画像中の表領域の処理
    において、対象とする表領域のx方向およびy方向の罫
    線を抽出し、そのy方向の罫線の中で最も左側(または
    右側)の罫線のx座標と、x方向の罫線の中で最も上側
    および下側の罫線の始点(または終点)のx座標とか
    ら、対象としている表の左右両側に罫線が存在するか否
    かを判別し、存在しない場合、x方向の罫線の中で最も
    上側と下側の罫線の始点(または終点)のxy両座標値を
    用いてy方向の線分を仮想的に生成することを特徴とす
    る表認識方法。
JP1086062A 1989-04-05 1989-04-05 表認識方法 Expired - Lifetime JP2812982B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1086062A JP2812982B2 (ja) 1989-04-05 1989-04-05 表認識方法
US07/501,805 US5075895A (en) 1989-04-05 1990-03-30 Method and apparatus for recognizing table area formed in binary image of document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1086062A JP2812982B2 (ja) 1989-04-05 1989-04-05 表認識方法

Publications (2)

Publication Number Publication Date
JPH02264386A JPH02264386A (ja) 1990-10-29
JP2812982B2 true JP2812982B2 (ja) 1998-10-22

Family

ID=13876211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1086062A Expired - Lifetime JP2812982B2 (ja) 1989-04-05 1989-04-05 表認識方法

Country Status (2)

Country Link
US (1) US5075895A (ja)
JP (1) JP2812982B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5191612A (en) * 1990-03-13 1993-03-02 Fujitsu Limited Character recognition system
US5253305A (en) * 1991-06-25 1993-10-12 Industrial Technology Research Institute Character boundary identification method and system
US5544045A (en) * 1991-10-30 1996-08-06 Canon Inc. Unified scanner computer printer
JPH05250357A (ja) * 1992-03-05 1993-09-28 Ricoh Co Ltd 画像読取修正装置および修正画像形成装置
US5418865A (en) * 1992-03-20 1995-05-23 Xerox Corporation Mark sensing on a form
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP2789971B2 (ja) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 表認識装置
JPH06348800A (ja) * 1993-06-02 1994-12-22 Canon Inc 画像処理方法及び装置
US5704004A (en) * 1993-12-01 1997-12-30 Industrial Technology Research Institute Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5634054A (en) * 1994-03-22 1997-05-27 General Electric Company Document-based data definition generator
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5737442A (en) * 1995-10-20 1998-04-07 Bcl Computers Processor based method for extracting tables from printed documents
JP3814320B2 (ja) * 1995-12-14 2006-08-30 キヤノン株式会社 画像処理方法及び装置
JP3814334B2 (ja) * 1996-04-19 2006-08-30 キヤノン株式会社 画像処理装置及びその方法
US6018593A (en) * 1996-09-11 2000-01-25 Ricoh Company, Ltd. Method and system for correcting image position based upon predetermined pattern portions
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
US6711292B2 (en) 1998-12-30 2004-03-23 Canon Kabushiki Kaisha Block selection of table features
US7602972B1 (en) * 2005-04-25 2009-10-13 Adobe Systems, Incorporated Method and apparatus for identifying white space tables within a document
JP5222126B2 (ja) * 2008-12-25 2013-06-26 キヤノン株式会社 画像処理方法、画像処理装置及びプログラム
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN110084117B (zh) * 2019-03-22 2021-07-20 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4428077A (en) * 1979-09-03 1984-01-24 Hitachi, Ltd. Line recognition method
JPS56129981A (en) * 1980-03-14 1981-10-12 Toshiba Corp Optical character reader
JPS57104363A (en) * 1980-12-19 1982-06-29 Ricoh Co Ltd Frame pattern discriminating method
JPS57150075A (en) * 1981-03-12 1982-09-16 Fuji Xerox Co Ltd Square figure recognizing device
JPS58103266A (ja) * 1981-12-15 1983-06-20 Toshiba Corp 文字画像処理装置
JPS63182793A (ja) * 1987-01-26 1988-07-28 Sharp Corp 文字切り出し方式
US4827330A (en) * 1987-07-20 1989-05-02 Litton Industrial Automation Systems, Inc. Automatic document image revision
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US4901365A (en) * 1988-12-19 1990-02-13 Ncr Corporation Method of searching binary images to find search regions in which straight lines may be found

Also Published As

Publication number Publication date
JPH02264386A (ja) 1990-10-29
US5075895A (en) 1991-12-24

Similar Documents

Publication Publication Date Title
JP2812982B2 (ja) 表認識方法
JP2940936B2 (ja) 表領域識別方法
JP2000181988A (ja) 光学文字読取装置
JP2939985B2 (ja) 画像処理装置
JP3348224B2 (ja) 表枠線の交点補正装置および表認識装置および光学文字読取装置
JPH05151388A (ja) 処理領域及び処理条件の指定方式
JP2957729B2 (ja) 行方向判定装置
JP3157534B2 (ja) 表認識方法
JP2851087B2 (ja) 表処理方法
JP3031565B2 (ja) 表領域判定方法
JP2755299B2 (ja) 画像処理方法
JPS5949671A (ja) 光学的文字読取装置
JPS6327752B2 (ja)
JPH09128478A (ja) 画像処理装置
JP3196603B2 (ja) バーコード認識方法及びシステム
JP4350317B2 (ja) 画像処理装置及び方法
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法
JPH0713996A (ja) 文字認識装置
JPH05128305A (ja) 領域分割方法
JP2931041B2 (ja) 表内文字認識方法
JP2844618B2 (ja) 文字切り出し装置
JPS6327751B2 (ja)
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JP2954218B2 (ja) 画像処理方法及び装置
JPH0261775A (ja) 表画像認識方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090807

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090807

Year of fee payment: 11