JPH03228195A - 光学的文字認識装置 - Google Patents

光学的文字認識装置

Info

Publication number
JPH03228195A
JPH03228195A JP2022267A JP2226790A JPH03228195A JP H03228195 A JPH03228195 A JP H03228195A JP 2022267 A JP2022267 A JP 2022267A JP 2226790 A JP2226790 A JP 2226790A JP H03228195 A JPH03228195 A JP H03228195A
Authority
JP
Japan
Prior art keywords
recognition
font
character
dictionary
outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022267A
Other languages
English (en)
Inventor
Hideaki Ueda
上田 秀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2022267A priority Critical patent/JPH03228195A/ja
Publication of JPH03228195A publication Critical patent/JPH03228195A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は光学的文字認識装置(以下OCRと称する)に
関し、特に多フォントの活字文字認識装置に関する。
[従来の技術] 従来、多フォントの活字文字を認識対象とするOCRは
、各フォントのカテゴリが持つ共通の特徴を辞書とした
。1カテゴリに対して1つの辞書を用意しているか、各
フォント毎に独立して1カテゴリに対して複数種の辞書
を用意している。
[発明が解決しようとする課題] 上述した従来の多フォントの活字文字を認識対象するO
CRにおいては、前者の方式によると。
多フォント間の同一カテゴリに共通な特徴を使用してい
るため読取精度が低く、かつ認識辞書の改良も難しいと
いう欠点がある。また後者の方式によると 全フォント
の辞書と照合するため照合時間が大となり、かつ認識辞
書を格納するメモリか大きくなり装置のコストを高くす
るという欠点がある。
前述の両方式の欠点は認識対象字種か多ければ多いほど
大きな欠点となる。例えば認識対象か日本語の文書とな
れば、その認識対象文字種は最低でもJIS第1水準の
3000字種は必要になるし1文書の種類によってはJ
IS第2水準の6000字種も要求され、上述の欠点か
ら装置として実現することは困難となる。
[課題を解決するための手段] 本発明の目的は、活字印刷物か通常は同一のフォントで
印刷されていることに着目して、印刷物の最初の頁に印
刷されている全文字を各フォント毎に独立して用意して
いる認識辞書と照合し、その時のカテゴリの認識結果に
よって印刷されている文字のフォントの種類を確定し、
以後そのフォントの辞書とのみ照合を行うことで前述の
両方式の問題点を解決するOCRを提供することにある
本発明によれば、原画を光電変換して1文字毎の文字パ
ターンを得て入力文字パターンを出力する観測部と、前
記入力文字パターンを一行分格納して格納された文字パ
ターンを1文字毎に出力する文字パターン格納部と、前
記格納された文字パターンの特徴を抽出して抽出された
特徴を出力する特徴抽出部と、複数フォント分の認識辞
書を格納する低速アクセス記憶部と、該低速アクセス記
憶部に格納された前記複数フォント分の認識辞書から選
択信号によって選択された1フォント分の認識辞書を選
択された認識辞書として格納する高速アクセス記憶部と
、前記抽出された特徴と前記選択された認識辞書とを照
合して認識カテゴリおよび照合情報を出力する認識部と
、前記認識カテゴリおよび照合情報から前記格納された
文字パターンに対応する認識対象印刷物のフォントを確
定して確定されたフォントを出力する認識辞書選択部と
、前記確定されたフォントから前記選択信号を出力する
制御部とを有する光学的文字認識装置か得られる。
[実施例] 次に本発明の実施例について図面を参、照して。
より詳細に説明する。
第1図は本発明の一実施例による光学的文字認識装置の
構成を示すブロック図である。
第1図において、観測部2は原画1を光電変換して得た
1文字毎の文字パターンを文字パターン格納部3に出力
する。文字パターン格納部3は。
−行分の文字パターンを格納するパターンメモリであり
、制御部9の制御信号により1文字毎に文字パターンを
特徴抽出部4に出力する。特徴抽出部4は文字パターン
格納部3から送られてくる文字パターンの特徴を抽出し
、認識部5に出力する。
認識部5は高速アクセス記憶部6に初期格納されている
第1のフォントの認識辞書と特徴抽出部4て抽出された
文字パターンの特徴とを照合し、認識ガテゴリと照合時
の情報を認識辞書選択部7に出力する。認識辞書選択部
7は認識部5から出力されて(る認識カテゴリと照合時
の情報のうち。
−行分の認識カテゴリを格納する。
制御部9は文字パターン格納部3に格納されている一行
分の文字パターンについて上述の処理を繰り返し実施す
る制御を行い、高速アクセス記憶部6に初期格納されて
いる認識辞書による照合か完了すると、低速アクセス記
憶部8にあらかじめ格納されている第2のフォントの認
識辞書を高速アクセス記憶部6に格納する制御を行う。
第2のフォントの認識辞書が高速アクセス記憶部6に格
納されると、制御部9は前記と同様の処理を繰り返し、
第2のフォントの認識辞書との照合を行い。
認識カテゴリと照合時の情報のうち、−行分の認識カテ
ゴリを認識辞書選択部7に格納していく。
これらの処理は低速アクセス記憶部8に格納されいる全
てのフォントの辞書との照合が完了するまで繰り返され
る。
前記処理が完了すると、第1のフォントの認識辞書から
最後のフォントの認識辞書までの認識カテゴリと照合時
の情報により、認識辞書選択部7は最適なフォントの超
重辞書を選択し、制御部9に通知する。制御部9は低速
アクセス記憶部8から通知されたフォントの超重辞書を
高速アクセス記憶部6に格納する制御を行う。ここで制
御部9は以後最適なフォントの辞書を照合した認識カテ
ゴリ出力する。
「発明の効果」 以上説明したように本発明によれば1原画中のフォント
の種類を認識部から出力される認識カテゴリと照合時の
情報によって確定することによって、その後の活字文字
の認識時間を短縮させることかでき、かつ認識辞書を格
納するメモリも1フォント分のメモリ容量で装置を構成
することかできるという効果かある。
【図面の簡単な説明】
第1図は本発明の一実施例による光学的文字認識装置の
構成を示すブロック図である。 1・・・原画12・・・観/I11部、3・・・文字パ
ターン格納部、4・・・特徴抽出部、5・・・認識部、
6・・・高速アクセス記憶部、7・・・認識辞書選択部
、8・・・低速アクセス記憶部、9・・・制御部。

Claims (1)

    【特許請求の範囲】
  1. 1、原画を光電変換して1文字毎の文字パターンを得て
    入力文字パターンを出力する観測部と、前記入力文字パ
    ターンを一行分格納して格納された文字パターンを1文
    字毎に出力する文字パターン格納部と、前記格納された
    文字パターンの特徴を抽出して抽出された特徴を出力す
    る特徴抽出部と、複数フォント分の認識辞書を格納する
    低速アクセス記憶部と、該低速アクセス記憶部に格納さ
    れた前記複数フォント分の認識辞書から選択信号によっ
    て選択された1フォント分の認識辞書を選択された認識
    辞書として格納する高速アクセス記憶部と、前記抽出さ
    れた特徴と前記選択された認識辞書とを照合して認識カ
    テゴリおよび照合情報を出力する認識部と、前記認識カ
    テゴリおよび照合情報から前記格納された文字パターン
    に対応する認識対象印刷物のフォントを確定して確定さ
    れたフォントを出力する認識辞書選択部と、前記確定さ
    れたフォントから前記選択信号を出力する制御部とを有
    する光学的文字認識装置。
JP2022267A 1990-02-02 1990-02-02 光学的文字認識装置 Pending JPH03228195A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022267A JPH03228195A (ja) 1990-02-02 1990-02-02 光学的文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022267A JPH03228195A (ja) 1990-02-02 1990-02-02 光学的文字認識装置

Publications (1)

Publication Number Publication Date
JPH03228195A true JPH03228195A (ja) 1991-10-09

Family

ID=12077997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022267A Pending JPH03228195A (ja) 1990-02-02 1990-02-02 光学的文字認識装置

Country Status (1)

Country Link
JP (1) JPH03228195A (ja)

Similar Documents

Publication Publication Date Title
JP3139521B2 (ja) 自動言語決定装置
US4979227A (en) Method for automatic character recognition employing a lexicon having updated character strings
US5119437A (en) Tabular document reader service
JPH0721319A (ja) 自動アジア言語決定装置
EP0032913B1 (en) Multi-font character recognition technique
US4799271A (en) Optical character reader apparatus
US4491965A (en) Character recognition apparatus
JPH03228195A (ja) 光学的文字認識装置
WO2022025216A1 (ja) 圧縮データ検索エンジンを用いた情報処理装置及びその情報処理方法
JPS63150787A (ja) 光学的文字認識装置
JPS6089290A (ja) パタ−ン認識方法
Eqbal EXTRACTION AND DETECTION OF TEXT FROM IMAGES
JP3121401B2 (ja) 認識辞書及び文字認識装置
JPS63147287A (ja) 光学的文字認識装置
JPS5914078A (ja) 帳票読取装置
JPS63269267A (ja) 文字認識方法
JPH02205990A (ja) 光学的文字認識装置
JP3116453B2 (ja) 英文字認識装置
JP2784004B2 (ja) 文字認識装置
JPS60254388A (ja) 光学的文字読取装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JPS6191780A (ja) 文字認識装置
JPH1166240A (ja) 文書認識方法および文書認識装置
JPH03212783A (ja) マッチング方式
JPH07117995B2 (ja) 文字認識装置