JPH056456A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH056456A
JPH056456A JP3158049A JP15804991A JPH056456A JP H056456 A JPH056456 A JP H056456A JP 3158049 A JP3158049 A JP 3158049A JP 15804991 A JP15804991 A JP 15804991A JP H056456 A JPH056456 A JP H056456A
Authority
JP
Japan
Prior art keywords
character
pattern
unit
distance data
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3158049A
Other languages
English (en)
Inventor
Hirobumi Okazaki
博文 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP3158049A priority Critical patent/JPH056456A/ja
Publication of JPH056456A publication Critical patent/JPH056456A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 使用しない文字を認識対象から除外して認識
性能を向上させることができる文字認識装置を得る。 【構成】 読取部12により帳票13から読取られた画
像情報は文字切出部14に送られ、各文字ごとに切り出
されて特徴抽出部15に送出される。特徴抽出部15は
切り出された文字パターン情報から特徴的パターンを抽
出し、候補文字選択部16に送出する。候補文字選択部
16は、入力された特徴パターンデータと辞書格納部1
7内の標準文字パターンデータとのパターンマッチング
を行い、各標準文字パターンごとに、近似の度合いを示
す距離データを算出する。そして、非認識文字群格納部
18に格納された非認識文字コードに対応する距離デー
タに最大値をセットしたのち、距離データの値の小さい
ものから順に所定個数の候補文字を出力する。これによ
り、非認識文字が候補となることがなくなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータ処理装置に係わ
り、特に帳票等の原稿から読み取った情報から文字を認
識する文字認識装置に関する。
【0002】
【従来の技術】データ処理装置へのデータ入力手段の1
つとして、通常OCR(Optical Character Recognitio
n)とよばれる文字認識装置が用いられることが多い。こ
の装置は、印刷あるいは手書き文字を光電変換素子から
の入力に基づいて電気的に認識するもので、キーボード
入力等に比べて簡単かつ高速の入力が可能である。この
装置では、多数の標準パターンを予め登録しておき、読
み取った文字から抽出した特徴パターンとパターンマッ
チングを行うことにより近似するいくつかの候補文字を
抽出して出力するようになっている。
【0003】ところで、このような装置を使用する実際
の業務では、例えば所定のフォームの帳票のように文字
の種別が比較的限定されているものを読み取る場合が多
く、存在するすべての文字とマッチングを行うのは効率
が悪い。このため、従来は、例えば読取対象文字を数
字、英字、あるいは漢字等の各種別に分けて文字の属す
る各種別内でのみマッチングを行い、近似するものから
順にいくつかの候補を出力するようになっていた。
【0004】
【発明が解決しようとする課題】しかしながら、読取対
象が極めて多数の標準パターンを有する漢字のような種
別の場合には、類似の文字が多数存在することから、実
際には使用しない文字まで候補となることがあり、特に
手書き文字の場合には、各人の筆跡の相違等によりさほ
ど近似していない文字まで候補となる場合もある。
【0005】このように、従来の文字認識装置では、マ
ッチングの対象となる文字種別を限定しても、依然とし
て文字認識性能をさほど向上できないという問題があっ
た。従って、上記問題点を解決しなければならないとい
う課題がある。
【0006】本発明はかかる問題を解決するためになさ
れたもので、使用しない文字を認識対象から除外して認
識性能を向上させることができる文字認識装置を得るこ
とを目的とする。
【0007】
【課題を解決するための手段】本発明に係る文字認識装
置は、(i) 各種帳票等を読み取る読取手段と、(ii)帳票
等の種類により使用されることのない文字群を非認識文
字群として予め記憶する記憶手段と、(iii) 読取手段で
読み取られた文字と標準文字パターンとのパターンマッ
チングを行うパターンマッチング手段と、(iv)このパタ
ーンマッチング手段の処理対象または処理結果から記憶
手段内の非認識文字群を除外する除外手段とを有するも
のである。
【0008】
【作用】本発明に係る文字認識装置では、帳票等の種類
により使用されることのない文字群を非認識文字群とし
て予め登録しておき、これらをパターンマッチング処理
の対象またはその結果から除外することにより、不使用
文字が候補として出力されることがなくなる。
【0009】
【実施例】以下実施例につき本発明を詳細に説明する。
【0010】図1は本発明の一実施例における文字認識
装置及びその周辺装置を表わしたものである。この図
で、文字認識装置11には読取部12が備えられ、帳票
13上の文字等の情報を画像情報として読取るようにな
っている。読取部12は文字切出部14を介して特徴抽
出部15に接続され、さらにパターンマッチング部31
へと接続されている。このパターンマッチング部31に
は、文字コードに対応付けて標準パターンを格納する辞
書格納部17と、マッチングの結果得られた距離データ
を格納する距離データ格納部32が接続されている。こ
の距離データ格納部32は候補文字選択部16に接続さ
れ、さらにこの候補文字選択部16は、帳票13では使
用されることのない文字(以下、非認識文字と呼ぶ。)
のコードを格納する非認識文字群格納部18に接続され
ている。候補文字選択部16は転送部19を介して、デ
ータ処理装置21の転送部22に接続されている。ま
た、転送部19は書込制御部20を介して非認識文字群
格納部18に接続されている。データ処理装置21の転
送部22は、処理部23に接続されている。この処理部
23には、フロッピィディスク装置やハードディスク装
置等の外部記憶装置24やキーボード(KB)25が接
続されるほか、表示制御部26を介してディスプレイ装
置(CRT)27が接続されている。
【0011】以上のような構成の文字認識装置及びその
周辺装置の動作を説明する。読取部12により帳票13
から読み取られた画像情報は、文字切出部14に送出さ
れ、ここで1文字単位の文字パターンに切り出される。
この文字パターンは特徴抽出部15に送られ、ここで所
定の手順に従って特徴パターンが抽出される。この特徴
パターン28はパターンマッチング部31に入力され
る。
【0012】図2は、候補文字選択部16及びその周辺
部を表わしたものである。この候補文字選択部16には
一致判定部33が設けられ、非認識文字群格納部18が
接続されると共に、距離データ格納部32及び距離デー
タ書換制御部34へと接続されている。距離データ格納
部32は、候補文字抽出部35を介して転送部19(図
1)へと接続されている。距離データ格納部32は、距
離データ書換制御部34により直接的にデータ書換制御
が行われるようになっている。
【0013】さて、特徴抽出部15から出力された特徴
パターン28は、パターンマッチング部31に入力さ
れ、辞書格納部17内のすべての標準パターンに対しパ
ターンマッチングが行われる。例えば、図3(A)に示
すように、辞書格納部17に各文字コードに対応して標
準パターンデータP1 〜Pnが格納されているとする
と、パターンマッチング部31は、所定のアルゴリズム
により、特徴パターン28と各標準パターンデータP1
〜Pn との類似の度合いを示す距離データD1 〜Dn
算出し、距離データ格納部32に格納する。これにより
距離データ格納部32の内容は同図(B)のようにな
る。
【0014】一致判定部33は、距離データ格納部32
から文字コードを読み出すごとに非認識文字群格納部1
8の内容を参照して一致するものがあるか否かを判定
し、一致するものがあった場合には、その文字コードを
距離データ書換制御部34に送出する。これを受けた距
離データ書換制御部34は、距離データ格納部32の該
当文字コードに対応する距離データを最大値Dmax に書
き換える。例えば、非認識文字群格納部18に図3
(C)に示すような非認識文字コード(○○××,○×
○×,○○△△,……)が登録されているとすると、距
離データ格納部32内の、これらに対応した距離データ
(D4 ,Di ,Dj ,……)が、すべて最大値Dmax
書き換えられる。これにより、距離データ格納部32の
内容は同図(D)に示すようになる。
【0015】この後、候補文字抽出部35は、距離デー
タ格納部32内の距離データをソートし、その値の小さ
いものから所定個数(例えば、5個)の文字コードを候
補文字群29として抽出し、出力する。このとき、同図
(D)に示すように、文字コード(○○××,○×○
×,○○△△,……)に対応する距離データは最大値D
max となっているので、これらの文字コードが候補とし
て出力されることはない。
【0016】さて、候補文字抽出部35から出力された
候補文字コード29は転送部19(以下図1)を介して
出力され、データ処理装置21の転送部22を経て処理
部23へと転送される。処理部23は、受け取った文字
コードを基に、該当する候補文字を表示制御部26によ
りディスプレイ装置27に表示する。そして、キーボー
ド25からの入力に応じて候補の中から正しい文字を決
定する。
【0017】図4(A)に示すように、例えば“雑費”
という文字を認識する場合において、従来の文字認識装
置で認識処理を行った場合には、同図(C)に示すよう
な候補文字群が出力され、正しい認識が行われない。こ
れに対し、本装置では、非認識文字群格納部18に同図
(B)に示すような非認識文字群を格納しておくことに
より、これらの文字が認識対象から除外されるため、同
図(D)に示すような候補文字群が出力される。ここで
は、第1位の候補文字が“雑費”となっており、正しい
認識が行われている。
【0018】なお、本実施例の説明中、非認識文字コー
ドは予め非認識文字群格納部18に格納されているとし
たが、この非認識文字群格納部18への登録は、装置の
立ち上げ時に、データ処理装置21の外部記憶装置24
に予め格納された非認識文字コードのデータファイルを
読み出して行う。この場合、外部記憶装置24から読み
出された非認識文字コードは、転送部22を経て文字認
識装置11に転送され、書込制御部20の制御の下に非
認識文字群格納部18に格納される。
【0019】また、外部記憶装置24への非認識文字コ
ード登録は、キーボード25より行う。この場合、例え
ば漢字の部首や偏をキーボード25より入力することに
よりディスプレイ装置26の画面に該当する漢字を表示
させ、これらの中から所望の漢字をカーソルで指定して
選択するようにしてもよい。さらに、本実施例では、パ
ターンマッチング処理後に、非認識文字群を除外するこ
ととしたがパターンマッチング前に除外するようにして
もよい。
【0020】
【発明の効果】以上説明したように、本発明によれば、
帳票等の種類により使用されることのない文字群を非認
識文字群として予め登録しておき、これらをパターンマ
ッチング処理の対象またはその結果から除外することし
たので、不使用文字が候補として出力されることがなく
なり、文字認識性能が向上するという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例における文字認識装置とその
周辺装置を示すブロック図である。
【図2】この文字認識装置における候補文字選択部16
を詳細に示すブロック図である。
【図3】この文字認識装置の動作を説明するための説明
図である。
【図4】この文字認識装置による文字認識の一例を示す
説明図である。
【符号の説明】
11 文字認識装置 12 読取部 13 帳票 14 文字切出部 15 特徴抽出部 16 候補文字選択部 17 辞書格納部 18 非認識文字群格納部 21 データ処理装置 31 パターンマッチング部 32 距離データ格納部 33 一致判定部 34 距離データ書換制御部 35 候補文字抽出部

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 各種帳票等を読み取る読取部と、前記帳
    票等の種類により使用されることのない文字群を非認識
    文字群として予め記憶する記憶手段と、前記読取部で読
    み取られた文字と標準文字パターンとのパターンマッチ
    ングを行うパターンマッチング手段と、このパターンマ
    ッチング手段の処理対象または処理結果から前記記憶手
    段内の非認識文字群を除外する除外手段とを具備するこ
    とを特徴とする文字認識装置。
JP3158049A 1991-06-28 1991-06-28 文字認識装置 Pending JPH056456A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3158049A JPH056456A (ja) 1991-06-28 1991-06-28 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3158049A JPH056456A (ja) 1991-06-28 1991-06-28 文字認識装置

Publications (1)

Publication Number Publication Date
JPH056456A true JPH056456A (ja) 1993-01-14

Family

ID=15663178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3158049A Pending JPH056456A (ja) 1991-06-28 1991-06-28 文字認識装置

Country Status (1)

Country Link
JP (1) JPH056456A (ja)

Similar Documents

Publication Publication Date Title
US6950533B2 (en) Sorting images for improved data entry productivity
JP2713622B2 (ja) 表形式文書読取装置
JPH05217025A (ja) オンライン手書き文字認識装置および方法
US20020054706A1 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
JPH06290251A (ja) 電子ファイル装置の文書画像処理方法
JPH056456A (ja) 文字認識装置
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JPH10302025A (ja) 手書き文字認識装置およびそのプログラム記録媒体
JP3233803B2 (ja) 難読漢字検索装置
JP3481850B2 (ja) 文字認識装置
JPH09114926A (ja) オンライン文字認識における入力文字大分類方法および装置
JPS61150081A (ja) 文字認識装置
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JP2851865B2 (ja) 文字認識装置
JPH06333083A (ja) 光学式文字読取装置
JP2976990B2 (ja) 文字認識装置
JPH05346974A (ja) 文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH11232381A (ja) 文字読取装置
JPH0492973A (ja) イメージ情報登録検索装置
JPS6061875A (ja) パターン認識装置における標準パターン作成方法
JPH07120396B2 (ja) 文書読み取り装置
JPS6293776A (ja) 情報認識装置