JP3151866B2 - 英文字認識方法 - Google Patents

英文字認識方法

Info

Publication number
JP3151866B2
JP3151866B2 JP19311891A JP19311891A JP3151866B2 JP 3151866 B2 JP3151866 B2 JP 3151866B2 JP 19311891 A JP19311891 A JP 19311891A JP 19311891 A JP19311891 A JP 19311891A JP 3151866 B2 JP3151866 B2 JP 3151866B2
Authority
JP
Japan
Prior art keywords
character
recognition
pattern
word
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19311891A
Other languages
English (en)
Other versions
JPH0535922A (ja
Inventor
昇 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP19311891A priority Critical patent/JP3151866B2/ja
Publication of JPH0535922A publication Critical patent/JPH0535922A/ja
Application granted granted Critical
Publication of JP3151866B2 publication Critical patent/JP3151866B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、印刷された一般文書の
文字認識を行なう英文字認識方法に関するものである。
【0002】
【従来の技術】近年、文書読み取り装置が開発されつつ
あり、それに従い種々の文字認識方法が提案されてい
る。
【0003】以下に従来の英文字認識方法について説明
する。従来の英文字認識方法は、一文字毎に認識を行
い、認識確度の高い文字は確定文字とし、認識確度の低
い文字に対しては、複数の候補の中から、単語辞書と比
較することにより、認識文字を決定していた。
【0004】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、単語間に複数の不確定の文字がある場合に
は、認識不能となることがあり、認識率の低下を招き、
エラーの原因となり作業性が悪く、かつ、処理に時間を
要すという問題点があった。
【0005】本発明は上記従来の問題点を解決するもの
で、一般文書においては、同じフォントが数多く使わ
れ、かつ分かち書きされた単語は、ほとんどが予め登録
可能な単語であるという知見に基づき、複数の単語によ
り、クロスワードパズルのように、未確定の文字を決定
する方法を採用することにより、又一般文書の認識を行
なう際、マルチフォントの認識処理に比較して、文字パ
ターン群に分類する処理は、確実で、高速に行なうこと
が可能であり、処理速度、認識率ともに向上させること
が可能であることがわかった。本発明はこの検討結果に
基づきなされたもので、一般文書における英文字認識率
を向上させ、処理時間の短縮化を可能とした作業効率を
著しく高めた英文字認識方法を提供することを目的とす
る。
【0006】
【課題を解決するための手段】この目的を達成するため
に本発明の英文字認識方法は、入力画像より文字領域を
抽出し、抽出した文字領域から単語単位に切り出しを行
い、更に単語内の文字候補図形を抽出した後、前記切り
出した文字候補図形を形状の類似に基づいて文字パター
ン群に分類し、分類した文字パターン群の代表パターン
について文字認識を行い、文字認識の結果、認識確度の
低い代表パターンが存在する場合には、当該パターンと
認識確度の高かったパターンとを含む単語を、英単語辞
書と照合し、認識確度の低い文字パターン群について認
識文字を確定させる構成を有している。
【0007】
【作用】この構成によって、重ね合わせ法や類似度判定
法などを用いて切り出した文字候補図形を形状の類似に
基づいて文字パターン群に分類し、各文字パターン群の
代表パターンを文字認識処理するので、文字毎の認識処
理回数を減らすことができると共に、認識確度の低いパ
ターンが存在する場合には、認識確度の高かったパター
ンを含む単語を辞書と照合して確定させるので、不確定
のまま出力することがなくなる。
【0008】
【実施例】以下本発明の一実施例について、図面を参照
しながら説明する。
【0009】図1は本発明の英文字認識方法の一実施例
におけるブロック構成図である。1は入力された文字画
像の画像パターン、2は画像パターン1から文字領域を
抽出する文字領域抽出部、3は抽出された文字領域より
単語の切り出しを行う単語切り出し部、4は単語内の文
字候補図形の抽出を行う文字パターン切り出し部、5は
文字パターン切り出し部4により切り出された文字パタ
ーンを重ね合わせ法等により複数の文字パターン群に分
類する文字パターン群分類部、6は文字パターン群分類
部5で分類した文字パターン群の代表パターンに対し文
字パターン用辞書7を用いて認識を行う認識処理部、8
は単語辞書照合部、9は単語辞書、10は認識確度の高
い文字をキーとして単語辞書照合部8で単語辞書9と比
較を行い、複数の単語より認識確度の低い文字パターン
群に対しても認識文字を確定させる文字パターン群認識
確定部である。
【0010】以上のように構成された英文字認識方法の
ブロック図に従い、以下図2乃至図3を用いてその動作
を説明する。図2は本発明の一実施例の動作を示すフロ
ーチャートである。
【0011】初めに、画像データより文字領域を抽出
し、さらに単語、文字パターンを単位として、抽出す
る。次に文字パターンを各々重ね合わせること等によ
り、ある基準以上似ているものを文字パターン群とす
る。文字パターン群の代表パターンに対し、認識を行な
う。認識確度の高いものをキーとして、単語単位で単語
辞書と照合を行なう。複数の単語であてはまる文字パタ
ーンを確定させる。これまでの処理ですべての文字パタ
ーン群の認識結果が確定できなければ、更に単語照合を
行い、あてはまる単語の存在しない場合、認識結果をそ
のまま出力する。
【0012】次に図3の具体例を用いて説明する。図3
は入力画像の画像パターンの模式図である。英文字の下
の番号は文字パターン群番号を示す。各文字パターンを
重ね合わせて、24の文字パターン群に分類する。この
24の文字パターン群を代表する文字パターンに対し認
識処理を行なう。認識処理の結果により、(2),
(6),(10),(11),(15),(16)の文
字パターン群の認識確度が低いとすると、a(2)d,
mak(6)s,poi(2)(15)s,b(6)s
(15),(15)oの単語辞書との整合により、
(2)=n,(6)=e,(15)=tが確定できる。
これらを使って、未確定文字パターンを含んだ単語を整
理すると、(11)ombine,p(10)a(1
1)ti(11)e,t(16)e,t(16)eo
(10)y,t(16)(10)ee,Fi(10)s
tより、(11)=c,(10)=r,(16)=hが
決定され、すべての文字が認識される。
【0013】尚、本発明は、認識処理を限定していない
ため、特徴抽出を行い複数の特徴辞書から類似度を求め
その最も大きな類似度のものを認識文字とする認識処理
とも組み合わせて使用することが可能である。
【0014】
【発明の効果】以上のように本発明は、入力画像より文
字領域を抽出し、抽出した文字領域から単語単位に切り
出しを行い、更に単語内の文字候補図形を抽出した後、
前記切り出した文字候補図形を形状の類似に基づいて文
字パターン群に分類し、分類した文字パターン群の代表
パターンについて文字認識を行い、文字認識の結果、認
識確度の低い代表パターンが存在する場合には、当該パ
ターンと認識確度の高かったパターンとを含む単語を、
英単語辞書と照合し、認識確度の低い文字パターン群に
ついて認識文字を確定させる構成としたことにより、切
り出した文字候補図形を形状の類似に基づいて文字パタ
ーン群に分類し、各文字パターン群の代表パターンを文
字認識処理するので、文字毎の認識処理回数を減らすこ
とができ、認識処理速度を大幅に向上させることができ
ると共に、認識確度の低いパターンが存在する場合に
は、認識確度の高かったパターンを含む単語を辞書と照
合して確定させるので、不確定のまま出力することがな
くなり、認識精度が格段に向上する。
【図面の簡単な説明】
【図1】本発明の英文字認識方法の一実施例におけるブ
ロック構成図
【図2】本発明の一実施例の動作を示すフローチャート
【図3】画像パターンの模式図
【符号の説明】
1 画像パターン 2 文字領域抽出部 3 単語切り出し部 4 文字パターン切り出し部 5 文字パターン群分類部 6 認識処理部 7 文字パターン用辞書 8 単語辞書照合部 9 単語辞書 10 文字パターン群認識確定部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/72 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力画像より文字領域を抽出し、 抽出した文字領域から単語単位に切り出しを行い、 更に単語内の文字候補図形を抽出した後、前記切り出し
    た文字候補図形を形状の類似に基づいて文字パターン群
    に分類し、 分類した文字パターン群の代表パターンについて文字
    識を行い、文字認識の結果、認識確度の低い代表パターンが存在す
    る場合には、当該パターンと 認識確度の高かったパター
    ンとを含む単語を、英単語辞書と照合し、認識確度の低
    い文字パターン群について認識文字を確定させることを
    特徴とする英文字認識方法。
JP19311891A 1991-08-01 1991-08-01 英文字認識方法 Expired - Fee Related JP3151866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19311891A JP3151866B2 (ja) 1991-08-01 1991-08-01 英文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19311891A JP3151866B2 (ja) 1991-08-01 1991-08-01 英文字認識方法

Publications (2)

Publication Number Publication Date
JPH0535922A JPH0535922A (ja) 1993-02-12
JP3151866B2 true JP3151866B2 (ja) 2001-04-03

Family

ID=16302560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19311891A Expired - Fee Related JP3151866B2 (ja) 1991-08-01 1991-08-01 英文字認識方法

Country Status (1)

Country Link
JP (1) JP3151866B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100258934B1 (ko) * 1997-07-15 2000-06-15 윤종용 군집화된 알파벳 추출에 의한 온라인 영문 단어 인식장치 및방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
糸乗,尾崎"類似文字による日本語単語抽出"信学技報(PRMU98−87),電子情報通信学会,p25−p32.1998年9月

Also Published As

Publication number Publication date
JPH0535922A (ja) 1993-02-12

Similar Documents

Publication Publication Date Title
JP3452774B2 (ja) 文字認識方法
JP2713622B2 (ja) 表形式文書読取装置
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
Baird Global-to-local layout analysis
JP3151866B2 (ja) 英文字認識方法
JPS6262388B2 (ja)
JP2751865B2 (ja) 文字列認識装置
JPH06215184A (ja) 抽出領域のラベリング装置
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP2746345B2 (ja) 文字認識の後処理方法
KR100473660B1 (ko) 단어인식방법
JP2974145B2 (ja) 文字認識結果の修正方法
JP3116453B2 (ja) 英文字認識装置
JP3428504B2 (ja) 文字認識装置
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH0944604A (ja) 文字認識処理方法
JP3100786B2 (ja) 文字認識後処理方式
JP2752499B2 (ja) 文字読取り装置
JP2549831B2 (ja) 文字認識装置の入力パターン・文字列登録方法
JPH02230484A (ja) 文字認識装置
JPH06195508A (ja) 文字切り出し方法
JP2851102B2 (ja) 文字切出し方法
JP2972443B2 (ja) 文字認識装置
Thakur et al. Offline Recognition of Image for content Based Retrieval

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees