JP3060237B2 - 日本語文字認識装置 - Google Patents

日本語文字認識装置

Info

Publication number
JP3060237B2
JP3060237B2 JP2308575A JP30857590A JP3060237B2 JP 3060237 B2 JP3060237 B2 JP 3060237B2 JP 2308575 A JP2308575 A JP 2308575A JP 30857590 A JP30857590 A JP 30857590A JP 3060237 B2 JP3060237 B2 JP 3060237B2
Authority
JP
Japan
Prior art keywords
character
width
rectangle
recognition
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2308575A
Other languages
English (en)
Other versions
JPH04181393A (ja
Inventor
亜由美 橘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2308575A priority Critical patent/JP3060237B2/ja
Publication of JPH04181393A publication Critical patent/JPH04181393A/ja
Application granted granted Critical
Publication of JP3060237B2 publication Critical patent/JP3060237B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、日本語の印刷文書をスキャナなどの画像読
み取り装置により画像データとして読み込み、文字領域
に対して、1文字ずつ認識する日本語文字認識装置に関
するものである。
(従来の技術) 一般に、日本語の印刷文書では、全角・半角文字及び
欧文文字が混在しており、文字サイズが一定ではない。
また、「は」、「い」などのような分離文字が多く存在
している。そのため、個々の文字を認識するための切出
し範囲を正確に定めることは困難である。
従来の日本語文字認識装置は、入力された画像データ
の文字領域に対して、現在の実行位置のみに着目しなが
ら全角文字と推定して1文字ずつ切出し、それを認識
し、その認識結果が棄却となった場合、再度、切出しを
行い、認識結果が受諾されるまでこれを繰り返してい
た。
(発明が解決しようとする課題) しかしながら、分離文字あるいは半角文字が並んだ場
合、実行位置のみに着目した切出し処理では、文字間の
区切れ位置の推定が困難であり、誤り切出しの原因とな
っていた。
本発明は上記の誤り切出しを排除して、正しい文字認
識を行なうことができる日本語文字認識装置の提供を目
的とする。
(課題を解決するための手段) 本発明は、上記の目的を分離文字、あるいは半角文字
が並んでいる可能性のある文字列の範囲を検出し、その
範囲で全ての切出し候補を求め、最も優先順位の高い切
出し候補文字の認識を行い、認識結果が棄却された場
合、次に優先順位の高い切出し候補の認識を行い、認識
結果が受諾されるまで繰り返し文字認識装置によって達
成する。
(作 用) 本発明は上記した構成により、実行位置のみでなく範
囲全体に着目して複数の切出し候補文字を求め、優先順
位の高い切出し候補文字から認識を行うため、誤り切出
し、及び誤り認識が最小限に抑えられ、高い認識精度の
文字認識装置となる。
(実施例) 以下、本発明の実施例を図面を用いて説明する。
第1図は、本発明の一実施例を示した全体構成ブロッ
ク図で、1は、スキャナなどの画像読み取り装置から画
像データを入力する入力部、2は、入力された画像デー
タの文字領域に対して、文字部分の連結成分の外接矩形
を抽出する外接矩形抽出部、3は、抽出された外接矩形
を基に、切出し範囲の最小単位となる基本矩形を作成す
る基本矩形作成部、4は、切出し候補として基本矩形の
統合の組合せを求める切出し候補作成部、5は、切出し
候補及びその優先順位を格納する切出し候補情報格納
部、6は、切出し文字を認識する認識部、7はその認識
結果が棄却、または受諾された場合の次の処理の制御を
行う制御部、8は、認識文字コードを出力する出力部で
ある。
第2図は上記第1図の動作を示すフローチャート、第
3図は第2図の動作ステップの説明を補助する切出し手
順における文字の図である。
以下、第2図の動作ステップを第3図を参照して説明
する。
まず、S1において、入力部1から画像データを入力
し、入力画像データの文字領域に対し、文字部分の連結
成分の外接矩形を抽出する(S2)。
これにより例えば、第3図の図(a)のような入力文
字領域であれば、図(b)のような外接矩形が抽出され
る。次に、その抽出された外接矩形を基に基本矩形を作
成する(S3)。作成方法は、隣接する外接矩形が、横書
き文書ならば上下方向に、縦書き文書ならば左右方向に
重なっている場合、これらを統合する。これはたとえ
ば、第3図の図(b)のような外接矩形であれば、基本
矩形は図(c)のように作成される。
つぎにS4において、全角文字幅のしきい値Wmaxを基本
矩形の幅の最大値×1.1とし、S5において、隣接する基
本矩形の統合結果の幅が、上記Wmaxより大きいか否かを
判断し、大きければ、S6に移行し、大きくなければS7に
移行する。これは例えば、第3図の図(c)の基本矩形
aにおいて、隣接基本矩形bとの統合結果の幅は、Wab
でWmaxより小さいため、基本矩形aは単独で1文字と決
定できずS7に移行する。また、基本矩形cにおいて、基
本矩形dと統合した幅はWcdとなり、Wmaxより大きいた
め基本矩形cは単独で1文字と決定されて、S6に移行す
る。
S6においては、基本矩形の内部の文字の認識を行い、
S13に移行して認識文字コードを出力し、S14に移行す
る。
S7,S8において隣接する基本矩形の統合結果の幅が、W
maxより小さいか、あるいは等しい場合は統合を繰り返
して基本矩形をシフトし、基本矩形が単独で1文字とし
て決定できない範囲を検出する。例えば、第3図の図
(c)であれば、範囲a−b,範囲e−h,範囲j−kが検
出される。
次に検出された切出し範囲に対し,切出し候補として
隣接する基本矩形の統合の組合せと、それぞれの優先順
位を求める(S9)。第3図の図(c)の範囲e−hで
は、図(d)に示す付番のような優先順位で切出し候補
が抽出されることにする。
つぎにS10において、優先順位の高い切出し候補の個
々の文字の認識を行い、その結果が受諾、または棄却の
いずれであるかを判断する(S11)。その結果、受諾さ
れた場合、S13に移行し、棄却された場合は、S12に移行
し、次に優先順位の高い切出し候補にシフトしS10に戻
る。例えば、第3図の図(d)の切出し候補に対し、1
番目の切出し候補は棄却されるため、2番目の切出し候
補の認識に移り、この結果が受諾され、認識文字コード
として決定されることになる。
S13において、認識した文字の文字コードを出力し、S
14において、次の基本矩形が存在するか否かを判断し、
存在すれば、S15において基本矩形をシフトした後、S5
に移行して処理を繰り返し、存在しなければ認識処理は
終了する。
(発明の効果) 本発明は、分離文字あるいは半角文字が並んでいる可
能性のある文字列の範囲を最初に検出し、その範囲で全
ての切出し候補文字を求め、最も優先順位の高い切出し
候補文字の認識を行い、その認識結果が受諾されるまで
優先順位の高い切出し候補から認識を行っていくことに
より、誤り切出し、及び誤認識が最小限に抑えられる効
果を有する。
【図面の簡単な説明】
第1図は、本発明の一実施例における日本語文字認識装
置の全体構成図、第2図は第1図の動作フローチャー
ト、第3図は文字切出しの手順例を示した図である。 1……入力部、2……外接矩形抽出部、3……基本矩形
作成部、4……切出し候補作成部、5……切出し候補情
報格納部、6……認識部、7……制御部、8……出力
部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】行毎に分割された文字領域に対して1文字
    ずつ切出し、認識する文字認識装置において、 文字の連結成分の外接矩形を抽出する手段と、横書き文
    書ならば上下方向に、縦書き文書ならば左右方向に重な
    っている場合に、上記外接矩形を統合して基本矩形を抽
    出する手段と、上記基本矩形が単独で1文字となる幅を
    有するか否かを判定し、1文字となる幅を有していない
    場合、隣接する基本矩形を統合し、この統合を行った範
    囲について、すべての切出し候補文字として隣接する基
    本矩形との統合の組合せを求めて、それぞれに優先順位
    をつける手段と、優先順位の高い順に切出し候補文字の
    認識を行い、認識結果が受諾されるまで繰り返す手段
    と、認識文字コードを出力する手段とを備えたことを特
    徴とする日本語文字認識装置。
JP2308575A 1990-11-16 1990-11-16 日本語文字認識装置 Expired - Lifetime JP3060237B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2308575A JP3060237B2 (ja) 1990-11-16 1990-11-16 日本語文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2308575A JP3060237B2 (ja) 1990-11-16 1990-11-16 日本語文字認識装置

Publications (2)

Publication Number Publication Date
JPH04181393A JPH04181393A (ja) 1992-06-29
JP3060237B2 true JP3060237B2 (ja) 2000-07-10

Family

ID=17982683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2308575A Expired - Lifetime JP3060237B2 (ja) 1990-11-16 1990-11-16 日本語文字認識装置

Country Status (1)

Country Link
JP (1) JP3060237B2 (ja)

Also Published As

Publication number Publication date
JPH04181393A (ja) 1992-06-29

Similar Documents

Publication Publication Date Title
US7321688B2 (en) Image processor for character recognition
US20070081179A1 (en) Image processing device, image processing method, and computer program product
JPH1139428A (ja) 文書映像の方向修正方法
JP2835178B2 (ja) 文書読取装置
US6275608B1 (en) Image processing method and apparatus and memory medium
JP3060237B2 (ja) 日本語文字認識装置
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JPH05174185A (ja) 日本語文字認識装置
JP2918666B2 (ja) 文字画像切出し方法
JPH1069522A (ja) 文字認識装置及び文字認識方法並びに文字認識方法を記録した記録媒体
JP3197441B2 (ja) 文字認識装置
JP3187182B2 (ja) 光学的手書き文字列認識方法および装置
JP2570571B2 (ja) 光学文字読取装置
JP2002024743A (ja) 画像読取システムおよび画像読取方法
JPH01277989A (ja) 文字列パターン読み取り装置
JP3334369B2 (ja) 選択項目認識装置
JPH04241074A (ja) 自動文書清書装置
JPH0514952B2 (ja)
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置
JP2665226B2 (ja) 文字認識装置
JP2002014981A (ja) 文書ファイリング装置
JP2925270B2 (ja) 文字読取装置
JPH0443476A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080428

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 11