JPH0997309A - 文字抽出装置 - Google Patents

文字抽出装置

Info

Publication number
JPH0997309A
JPH0997309A JP7251395A JP25139595A JPH0997309A JP H0997309 A JPH0997309 A JP H0997309A JP 7251395 A JP7251395 A JP 7251395A JP 25139595 A JP25139595 A JP 25139595A JP H0997309 A JPH0997309 A JP H0997309A
Authority
JP
Japan
Prior art keywords
color
character
line
distance
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7251395A
Other languages
English (en)
Inventor
Yoshihiro Irie
佳洋 入江
Hiroshi Kameyama
博史 亀山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP7251395A priority Critical patent/JPH0997309A/ja
Publication of JPH0997309A publication Critical patent/JPH0997309A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 多色の枠を有する伝票などから、文字情報の
みを、高速で抽出する。 【解決手段】 本発明の装置の特徴は、罫線枠のある伝
票などの書類から文字情報のみを取り出す文字情報抽出
装置において、背景色と罫線枠の色のみが存在する領域
を色判定領域として設定する色判定領域設定手段と、前
記色判定領域設定手段で設定された領域を読取り、その
領域からRGB空間での背景色と罫線色の分布中心を線
で結び、罫線色を示す基準線を形成する罫線色基準線決
定手段と、罫線を含む文字領域を読取り、その分布と前
記罫線色基準線との距離を演算する演算手段と、前記演
算手段によって算出された距離があらかじめ決定された
しきい値よりも大きいか否かを比較する比較手段とを含
み、大きいときのみ文字情報としてとりだすようにした
ことにある。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字抽出装置に係
り、特に罫線枠のある伝票等からの文字抽出に関する。
【0002】
【従来の技術】従来、枠などでフォーマットが指定され
た原稿を読み取る場合、フォーマットに対応した色の情
報を読取り時に除去するいわゆるドロップアウトカラー
技術が用いられている。これは光源を選択したり、フィ
ルターを用いたりすることにより不要な色情報を除去
し、別の色で形成された文字情報のみを取り出すように
したものである。
【0003】しかしながら、このような技術では対象と
するドロップアウトカラーの種類が制限される上、光学
系に依存するため、耐久性、高速性などの面で問題が多
かった。
【0004】例えば多数枚複写方式の伝票などでは、そ
れぞれを区別するために、多彩な色を使用することが多
くなってきている。このように多彩な色で印刷された伝
票においては、罫線情報を除去し、罫線枠内の文字のみ
を読み取ろうとすると、処理が極めて複雑となるという
問題があった。
【0005】そこでRGB空間のクラスタリング処理に
より、分布密度の高い3点すなわち文字、用紙、模様の
点を検出、その点のうち、点(0,0,0)に最も近い
点を文字、点(0,0,0)から最も遠い点を用紙、残
りを模様とする方式が提案されている(特開平4−13
3190号)。
【0006】
【発明が解決しようとする課題】このような方式では、
RGB空間のクラスタリング処理時の処理量が極めて多
く、処理に多大な時間がかかるという問題があった。
【0007】本発明は、前記実情に鑑みてなされたもの
で、高速処理が可能で、多彩な色、あるいは多色印刷に
対しても適用可能な文字抽出装置を提供することを目的
とする。
【0008】
【課題を解決するための手段】本発明の装置の特徴は、
罫線枠のある伝票などの書類から文字情報のみを取り出
す文字抽出装置において、背景色と罫線枠の色のみが存
在する領域を色判定領域として設定する色判定領域設定
手段と、前記色判定領域設定手段で設定された領域を読
取り、その領域からRGB空間での背景色と罫線色の分
布中心を線で結び、罫線色を示す基準線を形成する罫線
色基準線決定手段と、罫線を含む文字領域を読取り、そ
の分布と前記罫線色基準線との距離を演算する演算手段
と、前記演算手段によって算出された距離があらかじめ
決定されたしきい値よりも大きいか否かを比較する比較
手段とを含み、大きいときのみ文字情報としてとりだす
ようにしたことにある。
【0009】
【発明の実施の形態】かかる構成によれば、あらかじめ
色認識エリアを設定してこのRGB読取り出力から背景
−罫線色基準線を作成しておき、この背景−罫線色基準
線からの距離に応じて文字情報であるか罫線情報である
かを決定するようにしているため、処理量の大幅な低減
をはかるとともに高速で信頼性の高い抽出処理が可能と
なる。また文字と罫線の明度が逆転していてもよく、ま
た、多色印刷に対しても容易に適用可能である。
【0010】また、多色印刷でも色情報を検出する領域
を印刷色毎に設定して登録しておけば、容易に抽出可能
である。
【0011】例えば赤と青の2色で印刷されていても、
赤と青それぞれで処理した画像を組み合わせることによ
って赤と青の両方を除去することができるため処理が極
めて簡単である。
【0012】次に、本発明の実施例について図面を参照
しつつ詳細に説明する。
【0013】この文字情報抽出装置は、図1に機能ブロ
ック図を示すように、認識しようとする画像をよみとる
ための画像入力部1と、背景色と罫線枠の色のみが存在
する領域を色判定領域として設定する色判定領域設定手
段と、前記色判定領域設定手段で設定された領域を読取
り、その領域からRGB空間での背景色と罫線色の分布
中心を線で結び、罫線色を示す基準線を形成する罫線色
基準線決定手段とを具備し、得られた情報を格納する色
情報格納部2Sと、罫線を含む文字領域を読取り、その
分布と前記罫線色基準線との距離を演算する距離演算部
2Cと、前記距離演算部によって算出された距離があら
かじめ決定されたしきい値よりも大きいか否かを比較す
る比較手段とを含み、大きいときのみ文字情報としてと
りだすようにした文字抽出部2と、文字抽出部で抽出さ
れた文字情報を二値化する二値化処理部3と、二値化処
理部3で形成された二値化情報を認識する文字認識部4
とを具備したことを特徴とする。
【0014】この装置は図2に示すように罫線を含む原
画像から、RGB空間での背景色と罫線色の分布中心か
らの距離値を求め、距離値がしきい値よりも大きいとき
のみその情報を取り出すようにしこれを文字情報として
二値化して取り出すものである。
【0015】この装置を用いて、まず、図3に示すよう
な伝票から文字情報を抽出する場合について説明する。
【0016】まずここでは“納品書”の“納”(図4)
という文字を含むエリアを色情報検出エリア(色判定領
域)とし、認識対象の文字領域(文字認識エリア)とし
て、日付エリアを読み取る場合を考える。なおこの
“納”という文字の色は日付けエリア内の罫線の色と同
色である。図5は、全体の処理を示すフローチャートで
ある。ここでは、画像入力を行い(ステップ101)、
これらの入力情報から文字抽出を行い(ステップ10
2)2値化して(ステップ103)、文字認識を行う
(ステップ104)。
【0017】ここで文字抽出ステップにおいては、まず
あらかじめ定められた色情報検出エリアから色情報を検
出し、RGBそれぞれの色について罫線色と背景色とに
ついてヒストグラム(図6)を作成し、これからRGB
空間分布図を形成する。そして認識対象エリアの読取り
を行い、文字情報についてのRGB空間分布図を形成す
る(図7)。
【0018】そしてこのRGB空間分布図に基づいて、
罫線色基準線からの距離の分布を算出し、距離分布図を
作成する(図8)。この距離分布図からしきい値を決定
し、このしきい値よりも小さいときは罫線情報であると
し、しきい値よりも小さい情報を除いたものを文字情報
として取り出す。これにより図9(a) に示すように罫線
および文字を含んだ原画像から、罫線情報を除いて図9
(b) に示すような2値化画像を取り出すことができる。
【0019】次に図10にもとづいて文字抽出について
詳細に説明する。前述したように画像入力ステップ10
1で入力された画像から色情報検出エリアの切り出しを
行う(ステップ201)。ここでは納品書の“納”とい
う文字を選択して色情報検出エリアとして切り出す。そ
してこの色情報検出エリアの入力画像についてRGBそ
れぞれの濃度ヒストグラムを作成し(ステップ20
2)、ヒストグラムの極大点を検出する(ステップ20
3)。なお、この背景−罫線の直線検出に際してのRG
Bそれぞれの色について罫線色と背景色とについて検出
したヒストグラムは図11に示すごとくである。ここで
r1,g1,b1はそれぞれ罫線色を示し、r2,g
2,b2はそれぞれ背景色を示す。上述したように
“納”という文字の色が文字認識エリア内の罫線の色に
等しいので、ここでは“納”の文字色を罫線色と表現し
ている。なお濃度は例えば、r1>r2,g1>g2,
b1>b2である。
【0020】このようにして背景−罫線の中心座標のR
GB情報(r1,g1,b1,r2g2,b2)を得る
(ステップ204)。
【0021】次に、文字認識エリアここではたとえば日
付エリアを選択して文字認識エリアとして切り出す(ス
テップ205)。
【0022】そして、罫線情報と文字情報との混在した
領域である文字認識エリアを読み取った場合の出力を各
色についてのヒストグラムを3次元で表したものを図1
2に示す。ここでは背景色の点Oを頂点とするV字状を
示す。Kは罫線情報、Cは文字情報に相当する。このよ
うに、罫線情報と文字情報とははっきりとわかれるた
め、あるしきい値をあらかじめ設定しておけば、容易に
抽出可能である。なお、図中複数の点が重なるものも1
つの点として表示しており、必ずしも密度は表現されて
いない。
【0023】この図12における分布図から、距離演算
部2Cにおいて前記罫線色基準線との距離を演算(座標
変換)する(ステップ206)(図13)。罫線A(r
1,g1,b1) 背景B(r2,g2,b2) 文字
Cとしたとき、文字Cと罫線色基準線との距離hは次式
で表される。
【0024】 このようにして抽出した文字情報に対して距離値ヒスト
グラムを作成(ステップ207)する(図8)。
【0025】そしてあとは前述したように二値化処理
(ステップ103)を経て文字認識を行う(ステップ1
04)。
【0026】このようにして多色情報から文字情報のみ
を高速で容易に抽出して認識することが可能となる。
【0027】
【発明の効果】以上説明してきたように、本発明によれ
ば、多色印刷においても極めて容易に高速でかつ安定し
て文字抽出を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の装置の機能ブロック図
【図2】本発明による抽出過程を示す図
【図3】読み取るべき伝票を示す図
【図4】背景・罫線色判定エリアを示す図
【図5】本発明による文字抽出工程のフローチャート図
【図6】Rのヒストグラムを示す図
【図7】RGB空間分布を示す説明図
【図8】距離分布を示す図
【図9】原画像と処理後の二値化画像を示す図
【図10】文字抽出のフローチャートを示す図
【図11】背景−罫線基準線検出のためのRGBそれぞ
れの色について罫線色と背景色とについて検出したヒス
トグラムを示す図
【図12】認識対象エリアの入力画像をRGB空間分布
として示す図
【図13】背景−罫線基準線からの距離の算出過程を示
す図
【符号の説明】
1 画像入力部 2 文字抽出部 3 二値化処理部 4 文字認識部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 罫線枠のある伝票などの書類から文字情
    報のみを取り出す文字抽出装置において、 背景色と罫線枠の色のみが存在する領域を色判定領域と
    して設定する色判定領域設定手段と、 前記色判定領域設定手段で設定された領域を読取り、そ
    の領域からRGB空間での背景色と罫線色の分布中心を
    線で結び、罫線色を示す基準線を形成する罫線色基準線
    決定手段と、 罫線を含む文字領域を読取り、その分布と前記罫線色基
    準線との距離を演算する演算手段と、 前記演算手段によって算出された距離があらかじめ決定
    されたしきい値よりも大きいか否かを比較する比較手段
    とを含み、大きいときのみ文字情報としてとりだすよう
    にしたことを特徴とする文字抽出装置。
JP7251395A 1995-09-28 1995-09-28 文字抽出装置 Pending JPH0997309A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7251395A JPH0997309A (ja) 1995-09-28 1995-09-28 文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7251395A JPH0997309A (ja) 1995-09-28 1995-09-28 文字抽出装置

Publications (1)

Publication Number Publication Date
JPH0997309A true JPH0997309A (ja) 1997-04-08

Family

ID=17222212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7251395A Pending JPH0997309A (ja) 1995-09-28 1995-09-28 文字抽出装置

Country Status (1)

Country Link
JP (1) JPH0997309A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310817A (ja) * 2007-06-18 2008-12-25 Sharp Corp テキストマップの中からライン構造を検出する方法および画像処理装置
JP2009159185A (ja) * 2007-12-26 2009-07-16 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理方法およびその装置
US7729534B2 (en) 2004-03-22 2010-06-01 Canon Kabushiki Kaisha Image-processing device and image-processing method for extracting a recognition-target area including a character from a target image
JP2011018359A (ja) * 2010-09-16 2011-01-27 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法
JP2012095002A (ja) * 2010-10-25 2012-05-17 Hitachi Omron Terminal Solutions Corp 画像補正装置および画像補正方法
US9092892B2 (en) 2012-03-30 2015-07-28 Brother Kogyo Kabushiki Kaisha Image processing device determining binarizing threshold value
US9230186B2 (en) 2012-03-30 2016-01-05 Brother Kogyo Kabushiki Kaisha Image processing device generating binary image data by selecting specific component

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7729534B2 (en) 2004-03-22 2010-06-01 Canon Kabushiki Kaisha Image-processing device and image-processing method for extracting a recognition-target area including a character from a target image
JP2008310817A (ja) * 2007-06-18 2008-12-25 Sharp Corp テキストマップの中からライン構造を検出する方法および画像処理装置
US8000535B2 (en) 2007-06-18 2011-08-16 Sharp Laboratories Of America, Inc. Methods and systems for refining text segmentation results
JP2009159185A (ja) * 2007-12-26 2009-07-16 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理方法およびその装置
JP4654237B2 (ja) * 2007-12-26 2011-03-16 日立コンピュータ機器株式会社 ドロップアウトカラー処理装置
JP2011018359A (ja) * 2010-09-16 2011-01-27 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法
JP2012095002A (ja) * 2010-10-25 2012-05-17 Hitachi Omron Terminal Solutions Corp 画像補正装置および画像補正方法
US9092892B2 (en) 2012-03-30 2015-07-28 Brother Kogyo Kabushiki Kaisha Image processing device determining binarizing threshold value
US9230186B2 (en) 2012-03-30 2016-01-05 Brother Kogyo Kabushiki Kaisha Image processing device generating binary image data by selecting specific component

Similar Documents

Publication Publication Date Title
CN104899586B (zh) 对图像中包含的文字内容进行识别方法及装置
EP1310912A2 (en) Image processing method, apparatus and system
JP3018949B2 (ja) 文字読取装置およびその方法
JPH0997309A (ja) 文字抽出装置
EP1445100A2 (en) Printed paper inspecting method and apparatus
JP3955467B2 (ja) 画像処理プログラム及び画像処理装置
JP2003087562A (ja) 画像処理装置および画像処理方法
JP2008252239A (ja) 帳票処理装置
JP2005071134A (ja) 光学的文字読取装置
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP2001195584A (ja) 画像認識装置
JP3412441B2 (ja) 画像処理装置
JPH05128308A (ja) 文字認識装置
JPH08101880A (ja) 文字認識装置
JPH0749874A (ja) インデックスの作成方法
JP2001216473A (ja) 画像処理方法、画像処理装置及び記録媒体
JP2000331118A (ja) 画像処理装置及び記録媒体
JP2003123076A (ja) 画像処理装置及び画像処理プログラム
JPS6361387A (ja) 文字切り出し方法
JPH06266887A (ja) フォーマット作成方法およびそれを用いた光学文字読取装置
JPS58222381A (ja) 文字切出し方式
JP2004240500A (ja) 画像処理装置、画像処理プログラムおよび記憶媒体
JPH05290212A (ja) 文字認識装置
JPH06215139A (ja) 図形認識方法
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050222