JP2000306102A - 罫線識別方法および記録媒体 - Google Patents

罫線識別方法および記録媒体

Info

Publication number
JP2000306102A
JP2000306102A JP11116905A JP11690599A JP2000306102A JP 2000306102 A JP2000306102 A JP 2000306102A JP 11116905 A JP11116905 A JP 11116905A JP 11690599 A JP11690599 A JP 11690599A JP 2000306102 A JP2000306102 A JP 2000306102A
Authority
JP
Japan
Prior art keywords
ruled line
line
extracted
run
ruled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11116905A
Other languages
English (en)
Inventor
Tsutomu Oishi
勉 大石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11116905A priority Critical patent/JP2000306102A/ja
Publication of JP2000306102A publication Critical patent/JP2000306102A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 固定閾値や動的に推定した閾値では抽出でき
ない短い罫線を精度よく識別する。 【解決手段】 ラン属性情報が線でないランを用いて連
結矩形を抽出し(15)、連結矩形単位に含まれるラン
の長さを基に短罫線を判定する(16)。短罫線の上端
あるいは下端に、直交して罫線が接触しているいれば桁
線として判定し(17)、桁線を枠抽出の際の罫線とし
て使用する場合は、桁線を伸長し罫線として登録する。
抽出された罫線を使用して枠を抽出し(18)、枠内か
ら文字矩形を抽出する(19)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力画像から短い
罫線を精度よく識別する罫線識別方法および記録媒体に
関する。
【0002】
【従来の技術】文書画像から罫線を抽出する従来の技術
として、例えば以下の方法が挙げられる。第1の方法
は、ドットの頻度分布とランの頻度分布を用いて罫線候
補を判定する罫線認識方法がある(特開平8−2728
95号公報を参照)。第2の方法として、ラン頻度分布
の頻度がある一定以上のランを探し出し、このランの長
さを閾値として罫線を認識する方法がある(特開平4−
291478号公報を参照)。
【0003】従来の方法では、固定閾値を用いて罫線を
抽出しているため、表の中に含まれる文字の大きさより
も少し大きな長さを持った線を抽出することが難しい。
これは、あらゆるドキュメントにおいて文字内に罫線が
抽出されないような、ある程度大きな固定の閾値を設定
する必要があるためである。このように、従来の方法で
は、ある程度大きな固定の閾値を設定しているので、文
字内の疑似罫線の抽出を抑えることができるが、逆に、
文字サイズよりも少し大きい程度の短い罫線を抽出する
ことができなかった。
【0004】
【発明が解決しようとする課題】そこで、本出願人は先
に、上記した問題を解決するために、閾値を固定値では
なく、読み取り原稿の特徴から閾値を推定し、この閾値
を基に罫線を判別する罫線認識方法を提案した(特願平
10-335141号、特願平11-23870号を参
照)。
【0005】図8は、先に提案した構成を示し、図9
は、その処理フローチャートを示す。スキャナなどの画
像入力部1で原稿を読み取り、入力画像を原画メモリ2
に格納する(ステップ101)。ラン抽出部3は、原画
メモリ2内の画像データの主走査方向についてランを抽
出しメモリに格納する。第1の連結矩形抽出部4は、メ
モリ上のランを使って連結矩形を抽出し、ID付与部5
は連結矩形に矩形ID(シリアル番号)を付与し、その
矩形IDを、その連結矩形成分を構成する全てのランに
も付与する(ステップ103)。矩形ID選択部6は、
処理対象となる連結矩形(矩形ID)を選択し(ステッ
プ104)、頻度計数部7は指定された矩形IDをもつ
ランを検索し、頻度を計数する(ステップ105)。フ
ィルタ処理部8において、頻度分布に対してデジタルフ
ィルタ(ローパスフィルタ)をかけて高周波ノイズを除
去する。ピーク検出部9は、頻度分布におけるランレン
グスの小さい方から、2次微分値がゼロあるいは微分値
の符号が変化する点を探索し、ピークとする(ステップ
107)。次いで、差分計算部10は、ピークより後方
で、隣の頻度との差分を求める(ステップ108)。閾
値設定部11は、差分がゼロとなったランレングスを閾
値とする(ステップ109)。
【0006】第2の連結矩形抽出部12は、主走査方向
における抽出されたランについて、上記算出された閾値
より大きなランのみを対象に連結矩形の抽出を行う(ス
テップ110)。罫線抽出部13は、抽出された連結矩
形から罫線を抽出する(ステップ111)。副走査方向
についても同様の処理を行い(ステップ113)、罫線
を抽出する。属性情報記録部14は、連結矩形成分を構
成するランに対するラン属性情報に線であることを記録
する。このような処理をすべての連結矩形に対して行う
ことによって、罫線を抽出する。
【0007】本発明は上記提案した方法をさらに改良す
るもので本発明の目的は、固定閾値や動的に推定した閾
値では抽出できない短い罫線を精度よく識別する罫線識
別方法および記録媒体を提供することにある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、入力画像からランを抽出
し、該抽出されたランについて、所定の閾値より大きな
ランを用いて連結矩形を抽出し、該抽出された第1の連
結矩形から罫線を抽出し、該罫線抽出後に罫線以外のラ
ンを用いて第2の連結矩形を抽出し、該第2の連結矩形
毎に短罫線であるか否かを判定することを特徴としてい
る。
【0009】請求項2記載の発明では、短罫線であると
判定されたとき、前記罫線に直交して接触しているか否
かを調べることにより、前記短罫線が桁線であるか否か
を判定することを特徴としている。
【0010】請求項3記載の発明では、桁線であると判
定されたとき、該桁線を、その上下に存在する直交する
罫線に接触するまで伸長し、伸長した桁線を罫線として
枠を抽出することを特徴としている。
【0011】請求項4記載の発明では、前記枠内から文
字の連結矩形成分を抽出することを特徴としている。
【0012】請求項5記載の発明では、短罫線であるか
否かは、前記第2の連結矩形に含まれるランの長さを基
に判定することを特徴としている。
【0013】請求項6記載の発明では、短罫線であるか
否かは、前記第2の連結矩形に含まれるランの中心点を
用いて連結矩形を抽出し、該抽出された矩形数を基に判
定することを特徴としている。
【0014】請求項7記載の発明では、入力された画像
から罫線を抽出し、抽出された罫線を原画上で消去し、
罫線が消去された原画上から連結矩形を抽出し、該連結
矩形毎に短罫線であるか否かを判定することを特徴とし
ている。
【0015】請求項8記載の発明では、入力された画像
を縮小し、縮小画像から罫線を抽出し、抽出された罫線
を縮小画像上で消去し、罫線が消去された縮小画像上か
ら連結矩形を抽出し、該連結矩形毎に短罫線であるか否
かを判定することを特徴としている。
【0016】請求項9記載の発明では、入力画像からラ
ンを抽出する機能と、該抽出されたランについて、所定
の閾値より大きなランを用いて連結矩形を抽出する機能
と、該抽出された第1の連結矩形から罫線を抽出する機
能と、該罫線抽出後に罫線以外のランを用いて第2の連
結矩形を抽出する機能と、該第2の連結矩形毎に短罫線
であるか否かを判定する機能をコンピュータに実現させ
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体であることを特徴としている。
【0017】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 (実施例1)図1は、本発明の実施例1の構成を示す。
本実施例では、上記提案した構成に加えて第3の連結矩
形抽出部15、短罫線判定部16、桁線判定部17、枠
抽出部18、文字抽出部19を設けている。図2、3は
本発明の実施例1の処理フローチャートである。図2の
処理内容は、図9で説明したものと同様である。
【0018】第3の連結矩形抽出部15は、ラン属性情
報が線でないランを用いて連結矩形を抽出する(ステッ
プ115)。短罫線判定部16は、抽出された連結矩形
単位に、これに含まれるランの長さと、ランの長さの平
均値との差が所定の範囲内にあれば、短罫線として判定
する(ステップ116)。また、連結矩形を構成するラ
ンの属性情報として線であることを記録する(ステップ
117)。
【0019】次いで、桁線判定部17は、短罫線として
判定された場合、この短罫線を構成する連結矩形の上端
あるいは下端に、先に抽出した罫線に対して直交して接
触しているか否かを調べ、上端あるいは下端に接触して
いれば、桁線として判定する(ステップ118)。
【0020】次いで、枠抽出部18は、桁線として判定
され、この桁線を枠抽出の際の罫線として使用する場合
は、上端に接触しているときは下端を伸長し、下端に接
触しているときは上端を伸長し、これと直交する罫線に
到達するまで伸長し、この伸長された桁線を罫線として
登録する(ステップ119)。この処理をすべての矩形
について行う(ステップ120)。そして、抽出された
罫線を使用して枠を抽出する(ステップ121)。続い
て、文字抽出部19は、枠情報を利用して枠内から、罫
線、線ノイズ、桁線以外の連結成分を抽出することによ
り文字矩形を抽出する(ステップ122)。
【0021】(実施例2)実施例2では、芯線から短罫
線を抽出する実施例である。実施例2の短罫線判定部1
6は以下のように処理する。図4は、実施例2を説明す
る図である。すなわち、ランの中心点を使用して連結矩
形を抽出し、抽出した矩形(芯線矩形)の数が1個なら
ば短罫線と判定する。短罫線の場合(a)は芯線矩形の
数が1となるが、短罫線でない場合(b)は矩形数が1
より多い。
【0022】(実施例3)実施例3は、ランを使用する
ことなく短罫線を抽出する実施例である。図5は、実施
例3の構成を示す。実施例1と異なる点のみを説明す
る。第1の連結矩形抽出部24は、固定閾値よりも大き
なランのみを使用して連結矩形を抽出する。連結矩形消
去部25は、原画像上で、連結矩形抽出された領域に対
応する部分を消去する。第2の連結矩形抽出部26は、
先の領域が消去された原画上で連結矩形を抽出する。短
罫線判定部27は、抽出された矩形の大きさ、縦横比な
どを利用して短罫線であるか否かを判定する。
【0023】(実施例4)図6は、実施例4の構成を示
す。実施例3との相違点は、高速に処理するため、原画
像を使用せずに、縮小画像作成部32で予め縮小画を作
成しておき、この縮小画33に対して実施例3と同様に
処理する点である。
【0024】(実施例5)実施例5は、本発明をソフト
ウェアによって実現する場合の実施例である。図7は、
実施例5のシステム構成例を示す。CD−ROMなどの
記録媒体には、本発明の罫線識別機能または処理手順が
記録されていて、これをシステムにインストールする。
スキャナなどにセットされた原稿を読み取り、メモリ上
に展開された原稿画像から短罫線を抽出すると共に、短
罫線が桁線であるか否かを判定し、その判定結果をディ
スプレイなどに表示出力する。
【0025】
【発明の効果】以上、説明したように、請求項1、9記
載の発明によれば、従来の方法では抽出できなかった短
い罫線を精度よく抽出することができる。
【0026】請求項2記載の発明によれば、短い罫線を
抽出し、これが桁線であるか否かを識別できる。
【0027】請求項3記載の発明によれば、桁線を伸張
して枠を抽出しているので、桁線の誤認識を回避するこ
とができる。
【0028】請求項4記載の発明によれば、桁線に区切
られた文字単位で文字矩形を抽出でき、文字認識の精度
を向上させることができる。
【0029】請求項5記載の発明によれば、ランの形状
を使用しているので、より精度よく短い罫線を識別でき
る。
【0030】請求項6記載の発明によれば、ノイズの少
ない画像から正確に短い罫線を識別できる。
【0031】請求項7記載の発明によれば、ランデータ
を使用することなく、短い罫線を識別できる。
【0032】請求項8記載の発明によれば、縮小画を使
用しているので、より高速に短い罫線を識別できる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】本発明の実施例1の処理フローチャートであ
る。
【図3】図2の続きの処理フローチャートである。
【図4】本発明の実施例2を説明する図である。
【図5】本発明の実施例3の構成を示す。
【図6】本発明の実施例4の構成を示す。
【図7】本発明の実施例5の構成を示す。
【図8】先に提案した発明の構成を示す。
【図9】先に提案した発明の処理フローチャートであ
る。
【符号の説明】
1 画像入力部 2 原画メモリ 3 ラン抽出部 4 第1の連結矩形抽出部 5 ID付与部 6 矩形ID選択部 7 頻度計数部 8 フィルタ処理部 9 ピーク検出部 10 差分計算部 11 閾値設定部 12 第2の連結矩形抽出部 13 罫線抽出部 14 属性情報記録部 15 第3の連結矩形抽出部 16 短罫線判定部 17 桁線判定部 18 枠抽出部 19 文字抽出部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力画像からランを抽出し、該抽出され
    たランについて、所定の閾値より大きなランを用いて連
    結矩形を抽出し、該抽出された第1の連結矩形から罫線
    を抽出し、該罫線抽出後に罫線以外のランを用いて第2
    の連結矩形を抽出し、該第2の連結矩形毎に短罫線であ
    るか否かを判定することを特徴とする罫線識別方法。
  2. 【請求項2】 短罫線であると判定されたとき、前記罫
    線に直交して接触しているか否かを調べることにより、
    前記短罫線が桁線であるか否かを判定することを特徴と
    する請求項1記載の罫線識別方法。
  3. 【請求項3】 桁線であると判定されたとき、該桁線
    を、その上下に存在する直交する罫線に接触するまで伸
    長し、伸長した桁線を罫線として枠を抽出することを特
    徴とする請求項2記載の罫線識別方法。
  4. 【請求項4】 前記枠内から文字の連結矩形成分を抽出
    することを特徴とする請求項3記載の罫線識別方法。
  5. 【請求項5】 短罫線であるか否かは、前記第2の連結
    矩形に含まれるランの長さを基に判定することを特徴と
    する請求項1記載の罫線識別方法。
  6. 【請求項6】 短罫線であるか否かは、前記第2の連結
    矩形に含まれるランの中心点を用いて連結矩形を抽出
    し、該抽出された矩形数を基に判定することを特徴とす
    る請求項1記載の罫線識別方法。
  7. 【請求項7】 入力された画像から罫線を抽出し、抽出
    された罫線を原画上で消去し、罫線が消去された原画上
    から連結矩形を抽出し、該連結矩形毎に短罫線であるか
    否かを判定することを特徴とする罫線識別方法。
  8. 【請求項8】 入力された画像を縮小し、縮小画像から
    罫線を抽出し、抽出された罫線を縮小画像上で消去し、
    罫線が消去された縮小画像上から連結矩形を抽出し、該
    連結矩形毎に短罫線であるか否かを判定することを特徴
    とする罫線識別方法。
  9. 【請求項9】 入力画像からランを抽出する機能と、該
    抽出されたランについて、所定の閾値より大きなランを
    用いて連結矩形を抽出する機能と、該抽出された第1の
    連結矩形から罫線を抽出する機能と、該罫線抽出後に罫
    線以外のランを用いて第2の連結矩形を抽出する機能
    と、該第2の連結矩形毎に短罫線であるか否かを判定す
    る機能をコンピュータに実現させるためのプログラムを
    記録したコンピュータ読み取り可能な記録媒体。
JP11116905A 1999-04-23 1999-04-23 罫線識別方法および記録媒体 Pending JP2000306102A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11116905A JP2000306102A (ja) 1999-04-23 1999-04-23 罫線識別方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11116905A JP2000306102A (ja) 1999-04-23 1999-04-23 罫線識別方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2000306102A true JP2000306102A (ja) 2000-11-02

Family

ID=14698553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11116905A Pending JP2000306102A (ja) 1999-04-23 1999-04-23 罫線識別方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2000306102A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image

Similar Documents

Publication Publication Date Title
JP2000306102A (ja) 罫線識別方法および記録媒体
JP4129898B2 (ja) 文字サイズ推定方法および装置
JP4089849B2 (ja) 罫線処理装置および記録媒体
JP3466899B2 (ja) 文字認識装置及び方法並びにプログラム記憶媒体
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2796561B2 (ja) 表形式文書認識方式
JP4381455B2 (ja) 文字サイズ推定方法、装置および記録媒体
JP2565150B2 (ja) 文字切り出し方法
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JP3190794B2 (ja) 文字切り出し装置
JP3411795B2 (ja) 文字認識装置
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JP3406942B2 (ja) 画像処理装置及び方法
JPH11242716A (ja) 画像処理方法および記録媒体
JP2001126028A (ja) 罫線識別方法、罫線識別装置および記録媒体
JPH07168911A (ja) 文書認識装置
JP2520174B2 (ja) 文字自動抽出装置
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2022051198A (ja) Ocr処理装置、ocr処理方法、及びプログラム
JPH0225553B2 (ja)
JP6127685B2 (ja) 情報処理装置、プログラム、及び形状認識方法
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP2002133368A (ja) 罫線消去方法、文字抽出装置、及び、記録媒体
JP2000181990A (ja) 罫線処理方法、装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080430