JPH05174185A - 日本語文字認識装置 - Google Patents

日本語文字認識装置

Info

Publication number
JPH05174185A
JPH05174185A JP3006984A JP698491A JPH05174185A JP H05174185 A JPH05174185 A JP H05174185A JP 3006984 A JP3006984 A JP 3006984A JP 698491 A JP698491 A JP 698491A JP H05174185 A JPH05174185 A JP H05174185A
Authority
JP
Japan
Prior art keywords
character
rectangle
recognition
cutout
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3006984A
Other languages
English (en)
Inventor
Ayumi Tachibana
亜由美 橘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3006984A priority Critical patent/JPH05174185A/ja
Publication of JPH05174185A publication Critical patent/JPH05174185A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 日本語文字認識において、文字間の区切位置
を明確にし、誤切出し,誤認識を最小限とする。 【構成】 最も確からしい認識文字コードを出力するた
め、文字部分の連結成分の外接矩形を抽出する手段2
と、隣接する外接矩形が横書き文書ならば上下方向に、
縦書き文書ならば左右方向に重なっている場合に統合を
行う(基本矩形)手段3と、基本矩形が単独で1文字とし
て決定できるか否かを判定し、決定できない場合、該基
本矩形の範囲を検出し、この範囲に対し切出し候補とし
て隣接する基本矩形の統合の組合せを求め、それぞれに
優先順位をつける手段4,5と、全切出候補を認識し、
切出し優先順位及び認識類似度より最も確からしい認識
文字コードを出力する手段6,7,8,9を有する日本
語文字認識装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語の印刷文書をス
キャナなどの画像読み取り装置から画像データとして読
み込み、文字領域に対して、1文字ずつ切り出し、認識
する日本語文字認識装置に関するものである。
【0002】
【従来の技術】一般に、日本語の印刷文書では、全角・
半角文字及び欧文が混在しており、文字サイズが一定で
ない。また、「は」、「い」などのような分離文字が多
く存在する。そのため、個々の文字の切り出しを正確に
行うことは困難である。従来は、入力された画像データ
の文字領域に対して、現在の実行位置のみに着目しなが
ら全角文字と推定して1文字ずつ切出し、認識結果が棄
却となった場合、再度、切出しを行い、認識結果が受諾
されるまでこれを繰り返していた。
【0003】
【発明が解決しようとする課題】しかしながら、分離文
字あるいは半角文字が並んだ場合、実行位置のみに着目
した切出し処理では、文字間の区切れ位置の推定が困難
であり、誤切出しの原因となっていた。本発明は上記従
来の問題を解決するものであり、誤切出し,誤認識を最
小限にする日本語文字認識装置を提供することを目的と
するものである。
【0004】
【課題を解決するための手段】本発明は上記目的を達成
するため、分離文字あるいは半角文字が並んでいる可能
性のある文字列の範囲を検出し、その範囲で全ての切出
し候補を求め、認識を行い、切出し優先順位と認識類似
度との相互判断で、最も確からしい認識文字コードを出
力するため、文字部分の連結成分の外接矩形を抽出する
手段と、隣接する外接矩形が、横書き文書ならば上下方
向に、縦書き文書ならば左右方向に重なっている場合に
統合を行う(これを基本矩形という)手段と、基本矩形が
単独で1文字として決定できるか否か判定し、決定でき
ない場合、その基本矩形の範囲を検出し、この範囲に対
し、切出し候補として隣接する基本矩形の統合の組合せ
を求め、それぞれに優先順位をつける手段と、全切出し
候補を認識し、切出し優先順位及び認識類似度より最も
確からしい認識文字コードを出力する手段とを有するも
のである。
【0005】
【作用】本発明は上記した構成により、実行位置のみで
なく範囲全体に着目して複数の切出し候補を求め、切出
し及び認識の情報から認識文字コードを決定するため、
誤切出し及び誤認識を最小限に抑え、認識情報を向上さ
せることができる。
【0006】
【実施例】図1は、本発明の一実施例における日本語文
字認識装置の全体構成図である。図1において、1はス
キャナなどの画像読み取り装置から画像データを入力す
る入力部、2は入力された画像データの文字領域に対し
て、文字部分の連結成分の外接矩形を抽出する外接矩形
抽出部、3は抽出された外接矩形を基に、切出しの最小
単位となる基本矩形を作成する基本矩形作成部、4は切
出し候補として基本矩形の統合の組合せを求める切出し
候補作成部、5は切出し候補及びその優先順位を格納す
る切出し候補格納部、6は切出された文字を認識する認
識部、7は各切出し候補に対し、認識文字コード及び認
識類似度を格納する認識情報格納部、8は切出し優先順
位及び認識類似度より、認識文字コードを決定する文字
決定部、9は決定した認識文字コードを出力する出力部
である。
【0007】以上のように構成された本実施例の日本語
文字認識装置について、図2に示すフローチャートを参
照して動作を説明する。まず、入力部1から画像データ
を入力し(S1)、入力画像データの文字領域に対し、文
字部分の連結成分の外接矩形を外接矩形作成部2で抽出
する(S2)。例えば、図3(A)における文字領域であれ
ば、図3(b)のような外接矩形が抽出される。次に、抽
出された外接矩形を基に基本矩形作成部3で基本矩形を
作成する。作成方法は、隣接する外接矩形が、横書き文
書ならば上下方向に、縦書き文書ならば左右方向に重な
っている場合これらを統合する。図3(B)の外接矩形で
あれば、基本矩形は図3(c)のように作成される(S3)。
次に、全角文字幅のしきい値maxwidthを基本矩形の幅の
最大値×th(1.1)とする。次に、隣接する基本矩形の統
合結果の幅が、maxwidthより大きいか否かを判断し
(S5)、大きいならば基本矩形の内部の文字認識(S6)に
移行し、大きくなければ隣接する基本矩形の統合結果の
幅がmaxwidthより小さいか、等しいかの判断(S7)に移
行する。図3(c)の基本矩形aにおいて、a,bの統合
結果の幅がWabとなり、maxwidthより小さいため、基本
矩形aは単独で1文字と決定できずS7に移行する。ま
た、基本矩形cにおいて、cとdとの統合結果の幅がW
cdとなり、maxwidthより大きいため、基本矩形cは単独
で1文字と決定でき、S6に移行する。
【0008】統合結果の幅がmaxwidthより大きい場合は
(S6)、基本矩形の内部の文字の認識を行い、認識文字
コードを出力する。隣接する基本矩形の統合結果の幅
が、maxwidthより小さいか、あるいは等しい間基本矩形
をシフトし(S7),(S8)、基本矩形が単独で1文字とし
て決定できない範囲を検出する。例えば、図3(c)であ
れば、範囲a−b、範囲e−h、範囲j−kが検出され
る。次に、検出された切出し範囲に対し、切出し候補と
して、隣接する基本矩形の統合の組合せとそれぞれの優
先順位を切出候補作成部4によって求める(S9)。図3
(c)の範囲e−hでは、図3(D)のような優先順位で切
出し候補が抽出されることにする。全切出し候補の認識
を行い、認識コードと認識類似度を求め(S10)、全切出
し候補に対し、切出し優先順位と認識類似度より、最も
確からしい認識文字コードを文字決定部8によって出力
する(S11)。例えば、切出し優先順位iに対し、切出し
確度を(10−i)÷100で表すことにすれば、図4に示す
ように、切出し候補に対し、切出し確度はのようにな
る。また、文字の認識類似度がのようになったとする
と、範囲全体の認識類似度は個々の文字の認識類似度の
平均で表すことにすればのようになる。切出しと認識
の総合確度とし、切出し確度×範囲の認識類似度で表す
ことにすればのようになり、切出し優先順位が2番目
の結果が認識文字コードとして決定される。次に、次の
基本矩形が存在するか否かを判定し(S12)、存在すれば
基本矩形をシフト(S13)した後、S5に移行し処理を繰
り返す。存在しなければ終了する。
【0009】
【発明の効果】本発明は、上記実施例から明らかなよう
に、分離文字あるいは半角文字が並んでいる可能性のあ
る文字列の範囲を最初に検出し、その範囲で全ての切出
し候補を求め、認識を行い、切出し優先順位と認識類似
度との相互判断で、最も確からしい認識文字コードを出
力することにより、誤切出し及び誤認識を最小限に抑え
ることができる優れた文字認識装置を実現できるという
効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施例における日本語文字認識装置
の全体構成図である。
【図2】本発明の一実施例における日本語文字認識のフ
ローチャートである。
【図3】本発明の実施例における文字切出しの手順例を
示す図である。
【図4】本発明の実施例における認識文字の決定を示す
ものである。
【符号の説明】
1…入力部、 2…外形矩形抽出部、 3…基本矩形作
成部、 4…切出し候補作成部、 5…切出し候補情報
格納部、 6…認識部、 7…認識情報格納部、8…文
字決定部、 9…出力部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 行毎に分割された文字領域に対して1文
    字ずつ切出し、認識する文字認識装置において、文字部
    分の連結成分の外接矩形を抽出する手段と、隣接する外
    接矩形が、横書き文書ならば上下方向に、縦書き文書な
    らば左右方向に重なっている場合には統合を行う(基本
    矩形)手段と、基本矩形が単独で1文字として決定でき
    るか否か判定し、決定できない場合、その基本矩形の範
    囲を検出し、この範囲に対し、切出し候補として隣接す
    る基本矩形の統合の組合せを求め、それぞれに優先順位
    をつける手段と、全切出し候補を認識し、切出し優先順
    位及び認識類似度より最も確からしい認識文字コードを
    出力する手段とを備えたことを特徴とする日本語文字認
    識装置。
JP3006984A 1991-01-24 1991-01-24 日本語文字認識装置 Pending JPH05174185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3006984A JPH05174185A (ja) 1991-01-24 1991-01-24 日本語文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3006984A JPH05174185A (ja) 1991-01-24 1991-01-24 日本語文字認識装置

Publications (1)

Publication Number Publication Date
JPH05174185A true JPH05174185A (ja) 1993-07-13

Family

ID=11653433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3006984A Pending JPH05174185A (ja) 1991-01-24 1991-01-24 日本語文字認識装置

Country Status (1)

Country Link
JP (1) JPH05174185A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026287A (ja) * 2007-07-23 2009-02-05 Sharp Corp 文字画像抽出装置および文字画像抽出方法
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
JP2009026287A (ja) * 2007-07-23 2009-02-05 Sharp Corp 文字画像抽出装置および文字画像抽出方法
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image

Similar Documents

Publication Publication Date Title
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US8565474B2 (en) Paragraph recognition in an optical character recognition (OCR) process
JP4655335B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH04195692A (ja) 文書読取装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
Zlatopolsky Automated document segmentation
JPH05174185A (ja) 日本語文字認識装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JPH11191135A (ja) 文書画像の日本語英語判定方法、文書認識方法および記録媒体
JP3197441B2 (ja) 文字認識装置
JP3060237B2 (ja) 日本語文字認識装置
JP2728086B2 (ja) 文字切り出し方法
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JP3220226B2 (ja) 文字列方向判別方法
JPH04241074A (ja) 自動文書清書装置
JPH0452783A (ja) 図面読取装置
JPH04130979A (ja) 文字画像切出し方法
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2851102B2 (ja) 文字切出し方法
JP2728085B2 (ja) 文字切り出し方法
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH1069522A (ja) 文字認識装置及び文字認識方法並びに文字認識方法を記録した記録媒体
JPH04211884A (ja) 文字切り出し方法
JPH0528301A (ja) 文書認識装置