JPH03278290A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH03278290A
JPH03278290A JP2080216A JP8021690A JPH03278290A JP H03278290 A JPH03278290 A JP H03278290A JP 2080216 A JP2080216 A JP 2080216A JP 8021690 A JP8021690 A JP 8021690A JP H03278290 A JPH03278290 A JP H03278290A
Authority
JP
Japan
Prior art keywords
word
style
character
font
gothic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2080216A
Other languages
English (en)
Inventor
Mitsuru Kubota
満 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2080216A priority Critical patent/JPH03278290A/ja
Publication of JPH03278290A publication Critical patent/JPH03278290A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、文書画像より単語を抽出し認識する文字認識
装置に関する。
[従来の技術] 従来の文字認識装置においては、文書画像より単語を抽
出し認識するには、外部的な操作により単語の書体を指
定し、それに基づいてパターンデータと比較し文字認識
を行っていた。
[発明が解決しようとする課題] しかし、このような従来の文字認識装置では、外部的な
操作により書体の指定を行うため使用者に負担がかかる
といった問題があった。
また、外部的な操作を行わず書体別に分けられていない
パターンデータにより、異なる書体(明朝体、ゴシック
体またはイタリック体)を認識した場合、誤認識する可
能性が大きいなどの問題点があった。また、目的とする
単語を内部的な操作により書体を判別する場合において
も明朝体(ゴシック体)とイタリック体が混在すると正
しく判別ができないという問題点があった。
そこで、本発明はこのような問題点を解決するもので、
その目的とするところは、単語の書体を内部的な操作に
より、書体が混在する場合においても目的とする単語の
書体を正しく判別し、使用者に負担をかけることなく、
正しく認識する文字認識装置を提供することにある。
[課題を解決するための手段] 本発明は、紙面等の反射光を光電変換して文書画像を入
力する光学的画像入力手段と、前記入力画像から、文字
行を選択し文字行に含まれる単語を抽出する手段と、前
記抽出された単語から一文字一文字を抽出し、あらかじ
め所有している文字パターンデータとの比較を行うこと
により、一致度の最も高い文字コードに変換する手段か
らなる文字認識装置において、 前記文字行に含まれる単語を抽出する手段において、単
語の書体(明朝体、ゴシック体またはイタリック体)を
内部的な操作によりに判別する手段と、 前記判別された単語の書体に対して、あらかじめ書体別
に分けられているパターンデータと比較する手段を具備
することを特徴とする。
また、前記内部的な操作により書体を判別する手段は、
抽出行の垂直方向周辺分布の形状より目的とする単語の
書体を判別することを特徴とする。
また、前記周辺分布の形状は、文書画像領域において、
ブロックごとに求めた抽出行の垂直方向及び斜め方向の
周辺分布のピーク値及び、文字及び単語間隔数より目的
とする単語の書体を判別することを特徴とする。
[実施例〕 以下本発明について実施例に基づいて詳細に示す。
本発明の文字認識装置のブロック図を第8図に示す。文
字認識装置は、プログラムに従って処理を実行するCP
U23、文書画像を記憶装置に入力する画像入力装置2
4、文字認識結果を表示する文字表示装置25、認識用
文字データ辞書の納まっているROM26、及び文書画
像を記憶する記憶装置であるRAM27より構成されて
いる。
以下、本発明に基づく文字認識装置の書体の判別方法及
び認識方法を第1図、第2図、第3図、第4図、第5図
、第6図及び第7図を用いて説明する。第7図は、認識
方法を示すフローチャートであり光学的画像入力手段に
より入力13された文書画像は、行方向周辺分布の計数
14により行抽出される。次に抽出された行において垂
直方向の計数15及び斜め方向(垂直方向に対して傾き
θ方向)の計数16を行う。ここで、θは平均的なイタ
リック体の傾きである。第1図及び第2図は、前記の方
法に基づいて計数した明朝体(ゴシック体)1の垂直方
向の周辺分布2及び斜め方向の周辺分布3の形状を示し
、第3図及び第4図は、イタリック体4の垂直方向の周
辺分布5および斜め方向の周辺分布6の形状を示す。次
に、これらの形状に基づく、目的とする単語の書体判別
方法について示す。明朝体(ゴシック体)では、垂直方
向周辺分布計数時にピーク値が斜め方向周辺分布計数時
より大きくなるのに対して、イタリック体は、斜め方向
周辺分布計数時のほうがピーク値が大きくなる。従って
、画像領域を数ブロックにわけブロックごとに垂直方向
と斜め方向のピーク値を比較する。ここで、ブロックご
とにピーク値を比較するのは、抽出行において、明朝体
(ゴシック体)とイタリック体が混在する場合も目的と
する単語の書体を正しく判別するためである。例として
、画像を分割するブロック数を4としたときについて説
明する。イタリック体の単語が明朝体(ゴシック体)の
単語にはさまれている場合7(第5図)を考慮して、ま
ず初めに文書画像の中心に近いブロック(ブロック2.
3)の垂直方向周辺分布8と斜め方向周辺分布9のピー
ク値を比較する。これにより文書画像の両わきに明朝体
(ゴシック体)が含まれることによる誤判別を防ぐこと
が可能となる。
次に、文書画像の一部にゴシック体が含まれる場合10
(第6図)は、中心に近いブロック(ブロック2.3)
では、判別があいまいとなる。この場合には、その隣の
ブロック(ブロック1.4)の縦方向周辺分布11及び
斜め方向周辺分布12のピーク値の比較を行なう。第6
図の場合、比較するブロック数を増しても判別があいま
いとなるため、さらに文字及び単語間隔の比較から判断
を行なう。文字及び単語間隔は、明朝体では垂直方向周
辺分布計数時に明確となるのに対して、イタリック体で
は、斜め方向周辺分布計数時に明確となる。従って、垂
直方向周辺分布及び斜め方向周辺分布より得られる文字
及び単語間隔数を比較する。上記のように文書画像領域
をブロックごとにわけ、判別があいまいなときには比較
するブロック数を増し、さらに縦方向計数時及び斜め方
向計数時の文字及び単語間隔数を比較するという方法に
より、第6図のような文書画像は、斜め方向周辺分布の
計数から得られる文字及び単語間隔数のほうが垂直方向
周辺分布の計数から得られる文字及び単語間隔数より大
きくなるため、イタリック体と判別し単語(+ptic
alが抽出される。また、ゴシック体(明朝体)のみの
文書画像及びイタリック体のみの文書画像(ともに図示
せず)においては、中心に近いブロック(ブロック2.
3)の垂直方向周辺分布のピーク値と斜め方向周辺分布
のピーク値の比較から書体の判別が可能であることは言
うまでもない。
上記の方法に基づく形状の差異より書体の判別17を行
う。この判別結果に基づいて明朝体(ゴシック体)また
は、イタリック体の処理ルーチンを行う。次に単語の抽
出18.19を行い、単語中の一文字一文字と、書体別
に分けられたパターンデータとの比較(イタリック体2
0、ゴシック体21)を行い、認識結果を表示22する
[発明の効果] 以上、説明したように本発明によれば、内部操作により
単語の書体の判別ができ使用者への負担を軽減できる。
また、異なる書体が混在する文書画像においても目的と
する単語の書体を正しく判別できる。さらに、認識時の
パターンデータは、書体別に分けられていて、上記の方
法により目的とする単語の書体を判別した後、書体別に
分けられたパターンデータとの比較を行うため、正確か
つ高速に文字の認識を行なう文字認識装置を提供するこ
とができる。
【図面の簡単な説明】
第1図は、本発明の文字認識装置において、明朝体(ゴ
シック体)について垂直方向に計数した図。第2図は明
朝体(ゴシック体)について斜め方向に計数した図。第
3図は、イタリック体について垂直方向に計数した図。 第4図は、イタリック体について斜め方向に計数した図
。第5図及び第6図は、明朝体(ゴシック体)とイタリ
ック体の単語が混在している文書画像を示した図。第7
図は、文字認識方法を示すフローチャート。第8図は、
本発明の文字認識装置の構成を示す図。 1゜ 2゜ 3゜ 4゜ 5゜ 6゜ 7゜ 8゜ 9゜ ゴシック体 ゴシック体垂直方向周辺分布図 ゴシック体斜め方向周辺分布図 (Zθ) イタリック体 イタリック体垂直方向周辺分布図 イタリック体斜め方向周辺分布図 (Zθ) 明朝体(ゴシック体)及びイタリッ ク体混在文書画像 縦方向周辺分布 斜め方向周辺分布 10゜ 11゜ 12゜ 13゜ 14゜ 15゜ 16゜ 17゜ 18゜ 19゜ 20゜ 21゜ 22゜ 23゜ 24゜ 25゜ 26゜ 27゜ 明朝体(ゴシック体)及びイタリ ック体混在文書画像 縦方向周辺分布 斜め方向周辺分布 画像入力 行方向周辺分布の尉数 垂直方向周辺分布の計数 斜め方向周辺分布の計数 書体の判別 単語抽出(イタリック体) 単語抽出(明朝体・ゴシック体) 文字認識(イタリック体) 文字認識(明朝体・ゴシック体) 認識結果表示 PU 画像入力装置・ 文字表示装置 OM AM 1 第6図

Claims (3)

    【特許請求の範囲】
  1. (1)紙面等の反射光を光電変換して文書画像を入力す
    る光学的画像入力手段と、前記入力画像から、文字行を
    選択し文字行に含まれる単語を抽出する手段と、前記抽
    出された単語から一文字一文字を抽出し、あらかじめ所
    有している文字パターンデータとの比較を行うことによ
    り、一致度の最も高い文字コードに変換する手段からな
    る文字認識装置において、 前記文字行に含まれる単語を抽出する手段において、単
    語の書体(明朝体、ゴシック体またはイタリック体)を
    内部的な操作によりに判別する手段と、 前記判別された単語の書体に対して、あらかじめ書体別
    に分けられているパターンデータと比較する手段を具備
    することを特徴とする文字認識装置。
  2. (2)前記内部的な操作により書体を判別する手段は、
    抽出行の垂直方向及び斜め方向の周辺分布の形状より目
    的とする単語の書体を判別することを特徴とする請求項
    1記載の文字認識装置。
  3. (3)前記周辺分布の形状は、文書画像領域において、
    ブロックごとに求めた抽出行の垂直方向及び斜め方向の
    周辺分布のピーク値及び、文字及び単語間隔数より目的
    とする単語の書体を判別することを特徴とする請求項1
    記載の文字認識装置。
JP2080216A 1990-03-28 1990-03-28 文字認識装置 Pending JPH03278290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2080216A JPH03278290A (ja) 1990-03-28 1990-03-28 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2080216A JPH03278290A (ja) 1990-03-28 1990-03-28 文字認識装置

Publications (1)

Publication Number Publication Date
JPH03278290A true JPH03278290A (ja) 1991-12-09

Family

ID=13712186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2080216A Pending JPH03278290A (ja) 1990-03-28 1990-03-28 文字認識装置

Country Status (1)

Country Link
JP (1) JPH03278290A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142066A (ja) * 2017-02-27 2018-09-13 京セラドキュメントソリューションズ株式会社 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142066A (ja) * 2017-02-27 2018-09-13 京セラドキュメントソリューションズ株式会社 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US4903312A (en) Character recognition with variable subdivisions of a character region
US6643401B1 (en) Apparatus and method for recognizing character
US6920247B1 (en) Method for optical recognition of a multi-language set of letters with diacritics
US6327385B1 (en) Character segmentation device and character segmentation system
US6272238B1 (en) Character recognizing method and apparatus
JPH03278290A (ja) 文字認識装置
JP2917427B2 (ja) 図面読取装置
JPH0350692A (ja) 文字認識装置
JPH0371380A (ja) 文字認識装置
JP3457094B2 (ja) 文字認識装置及び文字認識方法
JP3911942B2 (ja) 文字認識装置
JP2697790B2 (ja) 文字タイプ決定方法
JPS63269267A (ja) 文字認識方法
KR100248384B1 (ko) 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템
JP3151866B2 (ja) 英文字認識方法
Kim et al. Segmentation of touching characters in printed Korean/English document recognition
JPH0514952B2 (ja)
JPH0562021A (ja) 標準フオント及び利用者指定カスタムフオントを認識するための光学式文字認識(ocr)システム
JPS6378287A (ja) 文字認識装置
JPH04280393A (ja) 文字図形認識装置
JPH0215388A (ja) 文字認識装置
JP3595081B2 (ja) 文字認識方法
JPH0281189A (ja) 文字認識方法
JPH02141891A (ja) 接続文字の切出し方法
JPH0368093A (ja) 文字認識装置