JPS6115284A - 光学的文字読取装置 - Google Patents

光学的文字読取装置

Info

Publication number
JPS6115284A
JPS6115284A JP59134857A JP13485784A JPS6115284A JP S6115284 A JPS6115284 A JP S6115284A JP 59134857 A JP59134857 A JP 59134857A JP 13485784 A JP13485784 A JP 13485784A JP S6115284 A JPS6115284 A JP S6115284A
Authority
JP
Japan
Prior art keywords
underline
pattern
memory
characters
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59134857A
Other languages
English (en)
Inventor
Hiromi Nanba
難波 広海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59134857A priority Critical patent/JPS6115284A/ja
Priority to US06/749,209 priority patent/US4633502A/en
Publication of JPS6115284A publication Critical patent/JPS6115284A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の技術分野] 本発明は、アンダーラインを付加した文字を読取るため
の光学的文字読取装置に関する。
[発明の技術的背景とその問題点コ 従来、光学的文字読取装置(OCR)には、読取対象と
してアンダーラインを付加した文字を読取る方式のもの
がある。このようなOCRにおいて、アンダーラインが
複数の文字に連続して付加されている場合、単に文字行
方向(水平方向)及び垂直方向の各射影データを利用し
た検出切出方式では、隣接文字を検出切出して認識する
ことは不可能である。
このため、従来のOCRでは、第7図(a)に示すよう
に、文字ブロック50に対して矢印51で示す横方向(
以下行方向と称す)に走査し、行方向の射影52が作成
される。そして、同図(a)に示すように、文字ブロッ
ク50とアンダーライン53が分離している場合、アン
ダーライン53を除く文字ブロック50の領域に対して
縦方向(矢印54)に走査が行われる。これにより、同
図(b)に示すような垂直方向の射影55が得られる。
この射影55を利用して、文字ブロック50から1文字
毎の文字パターンを検出切出し、認識処理を実行するこ
とになる。また、同図(C)に示すように、文字ブロッ
ク50とアンダーライン53が接続している場合には、
アンダーライン53の幅に相当する部分を除去した領域
に対して、同図(d)に示すような射影55を作成する
。この射影55を利用して、上記と同様に1文字毎の検
出切出処理(以下検切処理と称す)が行われる。
しかしながら、上記のような方式のOCRでは第8図(
a)に示すように、行間隔が狭い印字(例えば6行/イ
ンチ)の文字を読取る場合、上の行のアンダーラインも
避けて1文字毎の検切処理を行なう必要があり、処理が
複雑になる問題がある。また、パターンマツチング方式
で認識処理を行なうOCRでは、パターンメモリから文
字ブロックを中心とする小室す−rズの領域を検切し、
マツチング処理が実行される。このとき、同図(b)に
示すように、アンダーライン53の位置に対して、中心
位置が近い文字60の場合には、検切領域内にアンダー
ライン53が含まれることがある。
このため、検切処理後の文字に対する認識精度が低下す
る欠点がある。
[発明の目的] 本発明は上記の点に鑑みてなされたもので、その目的は
、アンダーラインを含む文字を読取る際、簡単な構成で
、文字を高精度に認識でき、アンダーラインを含む認識
結果を出力できる光学的文字読取装置を提供することに
ある。
C発明の11 本発明では、アンダーライン付き文字パターンを格納し
たパターンメモリ内を走査し、アンダーラインのパター
ンを検出しその位置情報を記憶するアンダーライン検出
手段が設けられる。このアンダーライン検出手段により
記憶された上記位置情報に基づいて、アンダーライン消
去手段によりパターンメモリ内のアンダーラインのパタ
ーン領域に白データが書込まれて、上記アンダーライン
のパターンが消去される。文字認識手段は、アンダーラ
イン消去手段によりアンダーラインのパターンが消去さ
れた状態のパターンメモリから、文字のパターンを読出
して認識する。さらに、上記アンダーライン検出手段に
より記憶された位置情報に基づいて、出力手段が文字認
識手段の認識結果にアンダーラインのデータを付加編集
して出力するように構成されている。
このような構成のOCRにより、アンダーラインを検出
、消去して、文字の!!?!識を確実に実行し、この後
アンダーライン付き文字認識結果を編集して出力するこ
とができる。
[発明の実施例] 以下図面を参照して本発明の一実施例を説明する。第1
図は一実施例に係わるOCRの構成を示すブロック図で
ある。第1図において、光電センサ10は、用紙上を走
査して、用紙に記録されたアンダーラインを含む文字を
光電変換する。光電センサ10から出力される電気信号
は、増幅器11により増幅された後、2値化回路12に
供給される。2値化回路12は、用紙上に記録されたア
ンダーライン付き文字に対応する2値化パターンPを作
成して、マルチプレクサ(MPX)13に出力する。マ
ルチプレクサ13は、用紙が光電センサ10により走査
されている際、2値化パターンPを行パターンメモリ1
4へ出力する。また、マルチブレクリ13は、アンダー
ライン消去時(後述する)には白データ(論理信号rO
J)Wを選択して行パターンメモリ14に出力する。
行パターンメモリ14は、Xアドレスカウンタ15及び
Yアドレスカウンタ1Gによりアドレスが指定され、1
行分の2値化パターンPを格納する。マイクロプロセッ
サ17は、予め記憶したプログラムに基づいてOCRの
動作を制御し、さらに付属したメモリを利用してアンダ
ーライン消去処理及び文字認識結果にアンダーラインを
付加する編集処理等を実行する。正規化回路18は、行
パターンメモリ14から出力される文字パターンCに対
して認識処理に、必要な正規化処理を行なって、類似度
計算回路20に出力する。類似度計算回路20は、正規
化回路18から出力される文字パターンC及び辞書メモ
リ19に記憶された標準パターンとの類似度を計算し、
その文字all結果Aをマイクロプロセッサ11に出力
する。出力インターフェース21は、マイクロプロセッ
サ17から送られるアンダーラインを含む文字認識結果
を出力する。尚、タイミングジェネレータ22は、マイ
クロプロセッサ17の制御により光電センサ10等の各
回路の動作に必要なタイミング信号を発生する。
上記のような構成のOCRにおいて、一実施例に係わる
動作を説明する。先ず、図示しない用紙が光電センサ1
0により走査されて、2値化回路12かう第2図に示す
ようなアンダーラインパターンUを含む2値化パターン
Pが行パターンメモリ14に格納されたとする。この場
合、マルチプレクサ13は、マイクロプロセッサ17の
制御により、2値化回路12から出力される2値化パタ
ーンPを選択して行パターンメモリ14に出力する。マ
イクロプロセッサ17は、行パターンメモリ14内を走
査し、2値化パターンPに対する垂直方向の射影23を
作成する。この作成した射影23に基づいて、マイクロ
プロセッサ17はアンダーラインパターンUを検出する
。具体的には、マイクロプロセッサ17は、射影23か
ら文字ブロック幅が所定の値以上である場合、文字ブロ
ック(即ち2値化パターンP)の下部領域24に対して
、第3図に示すように垂直方向に走査し、各走査ライン
毎の黒ビット数を計数する。この黒ビット数の計数値の
合計が一定値以上である場合、マイクロプロセッサ17
は、アンダーラインパターンUが存在する可能性が有る
と判定する。マイクロプロセッサ17は、可能性有りと
判定すると、上記下部領域24に対する追跡走査を実行
し、アンダーラインパターンUを検出する。
即ち、第4図に示すように、マイクロプロセッサ17は
、行方向へ白ビットが所定の個数(例えば2個)で連続
する位置まで追跡走査し、追跡長が最大のものを求める
。このとき、第4図に示すように、第1追跡走査線UL
O,第2追跡走査IUL1及び第3追跡走査線UL2を
順次求め、以下同様にして追跡長がOになるまで追跡走
査線を求める。このようにして求めた追跡走査線の系列
を、マイクロプロセッサ17は始点座標25.終点塵1
i26及び長さ等からなるアンダーラインパターンUの
位置情報として付属メモリに格納する。
次に、マイクロプロセッサ17は、上記のようにして求
めた位置情報に基づいて、行パターンメモリ14内のア
ンダーラインパターンUを消去する処理を実行する。具
体的には、例えば第5図に示す点Aを上記第1追跡走査
線ULOの始点とした場合、この点Aから始まる追跡走
査線上の各点において、下記のようなアルゴリズムによ
りアンダーラインパターンUの消去を行なう。先ず、例
えば第5図の着目点P、Qを始点として、その着目点が
黒ドツトならば消去(即ち白データを書込む)し、下へ
1ドツト分移動させる。このような動作を繰返し、着目
点が白ドツトであるか又は始点P。
Qから所定ドツト(例えば5ドツト)の位置に到達した
ら、着目点を上に例えば5ドツト移動させる。そして、
上に移動した着目点が黒ドツト(第5図の点D)ならば
、その点はアンダーラインに接した文字(例えば英小文
字のy)の一部と判定し、着目点を下へ例えば2ドツト
移動させる。また、上に移動した着目点が白ドツトなら
ば、着目点を下へ例えば1ドツト移動させる。これによ
り設定された着目点が黒ドツトならば、その点を消去し
、下へ1ドツト移動させる。このような動作を、始点位
置P、Qに戻るまで繰返す。
以上のような処理を、追跡走査線1全ての点について実
行すると、黒データとして残るのは第5図に示す斜線部
分のみとなり、さらに全ての追跡走査線(例えば始点B
から始まる追跡走査棒)について行なうと、アンダーラ
インパターンUが消去されることになる。尚、上記のよ
うなアンダーラインパターンUの消去処理において、着
目点の移動ドツト数等の定数値は、読取対象の文字サイ
ズ、文字の線幅及び光電変換の際の解像度等に応じて最
適値に設定される。
次に、上記のようにしてアンダーラインパターンUが消
去された後、文字パターンCのみが正規化回路18で正
規化されて、類似度計算回路20に送られる。この類似
度計算回路20では、上記のように辞書メモリ19の標
準パターンと文字パターンCとの類似度が計算され、類
似度の高い4!準パターンが認識結果としてマイクロプ
ロセッサ17に出力される。マイクロプロセッサ17で
は、文字!!!識結果及びアンダーラインパターンUの
各位置情報を利用して、各文字に対するアンダーライン
の有無が判定される。具体的には、例えば第6図に示す
ような文字の外接矩形枠30の中心座標CX(1)が、
上記のアンダーラインパターンUの位置情報に基づいて
求められるアンダーラインの範囲UXしくJ)、UXR
(J)の中に有るか否かにより、アンダーラインパター
ンUの有無が判定される。
この判定結果に基づいて、マイクロプロセッサ17は文
字認識結果にアンダーラインデータを付加して出力イン
ターフェース21に出力する。このとき、マイクロプロ
セッサ17は、文字コードとアンダーラインコードを編
集した認識結果、またはアンダーラインスタートコード
、文字コード列及びアンダーラインストップコードを編
集した011結果を出力する。
このようにして、アンダーライン付きの文字パターンを
一時行パターンメモリ14に格納した後、アンダーライ
ンパターンを消去する処理を行なう。
このとき、アンダーラインパターンの位置情報を、マイ
クロプロセッサ17は付属メモリに記憶しておく。そし
て、文字パターンのみに対する文字認識処理が実行され
た後、その文字認識結果に所定のアンダーラインを付加
する編集処理が実行される。
このとき、マイクロプロセッサ17により予め記憶され
たアンダーラインパターンの位置情報が利用されること
になる。したがって、従来の方式のようなアンダーライ
ンを避けて、文字パターンのみを検切する処理を不要に
することができる。また、行間隔の狭いアンダーライン
付きの文書の場合でも、アンダーラインを消去した後に
文字に対してのみ認識処理を行なうため、確実な文字読
取処理を実行することができる。さらに、アンダーライ
ンに接触している文字の場合でも、文字を高精度に読取
ることができる。
[発明の効果] 以上詳述したように本発明によれば、アンダーラインを
含む文字を読取る際、簡単な構成で、アンダーラインを
消去して文字のみを認識でき、その後アンダーラインを
含むICff1l結果を出力できる。
したがって、結果的にアンダーライン付きの文字を高精
度に読取ることができ、しかも特別複雑な処理を必要と
しない極めて有用な光学的文字読取装置を提供すること
ができるものである。
【図面の簡単な説明】
第1図は本発明の一実施例に係わる光学的文字読取装置
の構成を示すブロック図、第2図は同実施例の行パター
ンメモリの記憶内容の一例を示す図、第3図乃至第5図
はそれぞれ同実施例のアンダーライン消去処理の動作を
説明するための図、第6図は同実施例の編集処理の動作
を説明するための図、第7図及び第8図はそれぞれ従来
の光学的文字読取装置の動作を説明するための図である
。 10・・・光電センサ、12・・・2値化回路、13・
・・マルチプレクサ、14・・・行パターンメモリ、1
7・・・マイクロプロセッサ、20・・・類似度計算回
路、21・・・出力イン々−フェース≠ζ 出願人代理人 弁理士 鈴江武彦 第1図 第2図 第3図 第4図 第5図 第6図 第7図 (a)       (b) (c)       (d) 第8図 (a)      (b) n

Claims (1)

    【特許請求の範囲】
  1. 用紙上に記録された文字及びアンダーラインを光電変換
    して得られる各パターンを格納するパターンメモリと、
    このパターンメモリ内を走査して上記アンダーラインの
    パターンを検出しその位置情報を記憶するアンダーライ
    ン検出手段と、このアンダーライン検出手段により記憶
    された上記位置情報に基づいて上記パターンメモリ内の
    アンダーラインのパターン領域に白データを書込み上記
    アンダーラインのパターンを消去するアンダーライン消
    去手段と、このアンダーライン消去手段によりアンダー
    ラインのパターンが消去された状態の上記パターンメモ
    リから上記文字のパターンを読出して認識する文字認識
    手段と、上記アンダーライン検出手段により記憶された
    位置情報に基づいて上記文字認識手段の認識結果に上記
    アンダーラインのデータを付加編集して出力する出力手
    段とを具備してなることを特徴とする光学的文字読取装
    置。
JP59134857A 1984-06-29 1984-06-29 光学的文字読取装置 Pending JPS6115284A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP59134857A JPS6115284A (ja) 1984-06-29 1984-06-29 光学的文字読取装置
US06/749,209 US4633502A (en) 1984-06-29 1985-06-27 Optical recognizing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59134857A JPS6115284A (ja) 1984-06-29 1984-06-29 光学的文字読取装置

Publications (1)

Publication Number Publication Date
JPS6115284A true JPS6115284A (ja) 1986-01-23

Family

ID=15138088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59134857A Pending JPS6115284A (ja) 1984-06-29 1984-06-29 光学的文字読取装置

Country Status (2)

Country Link
US (1) US4633502A (ja)
JP (1) JPS6115284A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63276683A (ja) * 1987-03-04 1988-11-14 Matsushita Electric Ind Co Ltd 文字認識装置
JP2010250425A (ja) * 2009-04-13 2010-11-04 Hitachi Software Eng Co Ltd 下線除去装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2667435B2 (ja) * 1987-05-01 1997-10-27 株式会社リコー 領域抽出方法
DE3851591D1 (de) * 1987-07-30 1994-10-27 Computer Ges Konstanz Schaltungsanordnung zur Aufbereitung von schrägstehenden, insbesondere handgeschriebenen Zeichen.
US5129012A (en) * 1989-03-25 1992-07-07 Sony Corporation Detecting line segments and predetermined patterns in an optically scanned document
JPH03150672A (ja) * 1989-11-08 1991-06-27 Toshiba Corp ナンバプレート検出装置
US5101444A (en) * 1990-05-18 1992-03-31 Panacea, Inc. Method and apparatus for high speed object location
US5050222A (en) * 1990-05-21 1991-09-17 Eastman Kodak Company Polygon-based technique for the automatic classification of text and graphics components from digitized paper-based forms
EP0677817B1 (en) * 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
JPH08221576A (ja) * 1994-12-12 1996-08-30 Toshiba Corp 文字列における直線検出方式、直線除去方式および宛名領域判別装置
JP3345224B2 (ja) * 1995-03-06 2002-11-18 富士通株式会社 パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP5034398B2 (ja) * 2006-09-14 2012-09-26 富士通株式会社 文字認識プログラム、文字認識方法および文字認識装置
US8000535B2 (en) * 2007-06-18 2011-08-16 Sharp Laboratories Of America, Inc. Methods and systems for refining text segmentation results
US9361536B1 (en) * 2014-12-16 2016-06-07 Xerox Corporation Identifying user marks using patterned lines on pre-printed forms
CN110209279A (zh) * 2019-05-30 2019-09-06 上海云甫智能科技有限公司 一种基于智能眼镜的阅读管理方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4292622A (en) * 1980-02-21 1981-09-29 Hendrix Electronics, Inc. System and method for processing horizontal line characteristics in an image
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63276683A (ja) * 1987-03-04 1988-11-14 Matsushita Electric Ind Co Ltd 文字認識装置
JP2010250425A (ja) * 2009-04-13 2010-11-04 Hitachi Software Eng Co Ltd 下線除去装置
US8452133B2 (en) 2009-04-13 2013-05-28 Hitachi Solutions, Ltd. Underline removal apparatus

Also Published As

Publication number Publication date
US4633502A (en) 1986-12-30

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
JPS6115284A (ja) 光学的文字読取装置
US5164996A (en) Optical character recognition by detecting geo features
EP0266140B1 (en) Optical character recognition by forming and detecting matrices of geographical features
US6947596B2 (en) Character recognition method, program and recording medium
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JP2877380B2 (ja) 光学的文字読取装置
JP3160458B2 (ja) 文字読取装置及び文字読取方法
JP2590099B2 (ja) 文字読取方式
JPH0557632B2 (ja)
JP3710164B2 (ja) 画像処理装置及び方法
JP3095437B2 (ja) 文字行検出切出装置および文字読取装置
JPS589471B2 (ja) リンカクツイセキマエシヨリホウシキ
JPS59180783A (ja) 光学的文字読取装置
JP2578768B2 (ja) 画像処理方法
JPH1040338A (ja) 光学式文字読取装置
JP4544691B2 (ja) 文字読取装置
JPH04139593A (ja) 郵便番号認識装置
JPH11184962A (ja) 光学的文字読取装置、照合修正方法、及び記録媒体
JPH04359393A (ja) 光学的文字読取装置
JPH039506B2 (ja)
JPH0426153B2 (ja)
JPH05101219A (ja) 直線式の検索方式
JPS62200490A (ja) 光学的文字読取装置
JPH0628521A (ja) 光学的文字読取装置