JPH0290384A - 文字認識装置の後処理方式 - Google Patents

文字認識装置の後処理方式

Info

Publication number
JPH0290384A
JPH0290384A JP63243097A JP24309788A JPH0290384A JP H0290384 A JPH0290384 A JP H0290384A JP 63243097 A JP63243097 A JP 63243097A JP 24309788 A JP24309788 A JP 24309788A JP H0290384 A JPH0290384 A JP H0290384A
Authority
JP
Japan
Prior art keywords
character
recognition
processing
post
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63243097A
Other languages
English (en)
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63243097A priority Critical patent/JPH0290384A/ja
Publication of JPH0290384A publication Critical patent/JPH0290384A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置に係り、特に一文字単位の認識
結果に対する後処理方式に関する。
〔従来の技術及び解決しようとする課題〕日本語の場合
、ひらがなの[へ]とカタカナの[へ]、カタカナの[
二]と漢字の[ニコ、カタカナの長音記号[−]と漢字
の[−コ、カタカナの[ロコと漢字の[口]など、字形
が類似した文字が多いため、文字パターンの特徴による
一文字単位の認識では誤認識文字の発生を完全に防止す
ることは極めて困難である。そこで、文字認識装置にお
いては、一文字単位の認識結果の文字列に注目した誤認
識文字の検出・修正の処理(後処理)を行うことが有効
である。
このような後処理としては、単語知識を用いて誤認識文
字を修正する方式が数多く発表されている。この方式は
、予め文章中に用いられると予想される単語を辞書ファ
イルとして用意しておき、認識結果文字列と辞書ファイ
ル内の単語との比較照合を行い、辞書にない単語は第2
候補以下の文字に置き換えて比較・照合を行い、最終的
に辞書中の似た単語に修正する。
しかし、数万語にもなる膨大な単語の辞書ファイルを持
つことになるので、システムが大規模になると\もに、
その単語検索に時間がか\り処理手順も複雑であるので
処理速度が遅いこと、また、辞書ファイルにない単語に
ついては対処できないという問題があった。
また、オンライン文字認識装置において、誤認しやすい
文字が認識結果として得られた場合に、その前後の文字
種の関係から文字を決定する後処理方式も提案されてい
る(特開昭62−138989号)。しかし、文字に関
するルールを使用するので、ルール数が多くなるという
問題がある。
また、文字HA m装置において、個々の文字のイメー
ジの特徴から文字種を判別し、文字種の前後関係の情報
(文法情報)を用いて単語辞書との照合を行う方式も提
案されている(特開昭63−6687号)。しかし、文
字種決定の処理などが複雑であるという問題がある。
本発明の目的は、上記従来方式よりも効率的かつ効果的
な後処理方式を提供することにある。
〔課題を解決するための手段〕
本発明は、認識結果文字列の文字種を文字コードから判
別し、その文字種の連続性に着目して、予め文字種(ひ
らがな、カタカナ、漢字、数字など)の連続性のルール
を適用することによって、誤認識文字の検出、修正また
は両方を行い、検出した誤認識文字を誤認識フラグ情報
を付加して出力し、あるいは、この誤認識・修正を単語
知識処理の前処理として行うことを特徴とする。
〔作 用〕
このような文字種の連続性のルールによる誤認一 識文字の検出、修正は、実施例で説明するように、ルー
ルが比較的簡単になると\もに、処理も簡便・高速とな
る。
また、単語知識の適用では検出・修正が困難な誤認識文
字についても検出・修正が可能である。
また、この誤認識文字の検出・修正を単語知識処理の前
処理として行うことにより、単語知識処理を効率化し、
処理全体を高速化することができる。
誤認識文字に付加して出力される誤認識フラグ情報に従
って、例えばデイスプレィ画面上に誤認識文字の修飾表
示などが可能となり、対話による修正作業の効率を大幅
に改善できる。
〔実施例〕
以下、図面により本発明の実施例について説明する。
実施例1 第1図は本実施例の構成を示す機能ブロック図である。
画像入力部1は原稿のイメージをスキャナ2から読込み
、画像メモリ3に格納する。文字切出し部4は画像メモ
リ3に格納された原稿イメージから一文字毎のイメージ
を切出し、文字画像メモリ5に格納する。前処理部6は
文字画像メモリ5に格納された一文字のイメージに正規
化、平滑化などの処理を施す。
文字認識部7は前処理後の一文字のイメージの特徴抽出
を行い、抽出した特徴と文字認識辞書メモリ8上の文字
認識辞書の特徴との比較を行い、候補文字(数候補)の
コードを認識結果として認識結果メモリ9に書出す。
こ\までの構成は従来の文字認識装置と同様であり、こ
の後の構成すなわち誤認識検出部11、文字種出現ルー
プ格納メモリ12、結果出力部13に関連した構成が従
来と異なる。
誤認識検出部11は、認識結果文字列の文字種を文字コ
ードより判別し、その文字種の並びと、メモリ12上の
文字種出現ルールとを照合することにより、不自然な文
字種の並びとなっている部分を「誤認識の可能性が高い
」として検出し、その文字にF誤認識フラグJを付加す
るものである。
結果出力部13は、認識結果メモリ9の内容を「誤認識
フラグjの情報も含めて出力する。
こ−で、第6図に示す文字種出現ルールを例として想定
する。このルールは、注目文字とその前後の1文字の文
字種のつながり関係を記述したものである。なお、各ル
ールの正解文字種は、本実施例では省いてもよい。
この文字種出現ルールによる場合、文字認識結果の連続
する3文字の文字種の並び関係を各ルール番号の記述す
る記述と比較し、あるルール番号で一致したときは、注
目文字に「誤認識フラグ」を付加する。
文字認識部7の認識結果として第7図のような候補文字
列が得られたとする。誤認識検出部11は、各候補文字
のコードよりその文字種を判断し、「第1候補文字種」
の欄(認識結果メモリ9上にある)に書込む。次に3文
字の窓を順次ずらしながら、文字種出現ルールとの照合
を行う。あるルール番号との比較が一致した場合、その
時の3文字の窓の中央の文字(注目文字)の位置の「誤
認識文字フラグ」の欄にルール番号を誤認識フラグとし
て書込む。第7図の矢印で示す文字の場合、ルール番号
[1]で一致がとれるので、誤認識文字フラグの欄に[
1コがたてられる。
上記誤認識検出処理のフローチャー1〜を第10図に示
す。
以上説明した文字種の連続性のルールを利用した誤認識
検出処理は、単語知識を用いる方法に比べ簡便であって
高速処理が可能である。また、単語知識を用いる方法の
ように、未登録(未知)の単語に関して対応できないと
いうような制約もなし)。
さて、前述のように結果出力部13は誤認識フラグの情
報も認識結果と一緒に出力する。したがって、出力光と
してCRTデイスプレィなどの表示装置を考えた場合、
第8図に示すように、誤認識文字の反転、綱掛け、色付
けなどの修飾を行って表示させることができる。このよ
うにすれば、誤認識文字と他の文字との区別が明瞭で、
画面上での確認、対話による修正作業が容易になる。
=8 矢1tfL雀 第2図は本実施例の構成を示す機能ブロック図であり、
第1図と同じ符号は同一部分を示す。
本実施例においては、後処理部に誤認識修正部14と、
単語知識辞書格納メモリ15が追加されている。誤認識
修正部14は、誤認識検出部11により誤認識フラグが
付加された位置の文字を誤認識文字と仮定し、その近辺
の文字列の単語知識辞書との照合を行い、候補文字との
マツチングの一致度の高い単語を選択し、その単語に従
ってフラグ位置の文字を修正する。
第6図に示した文字種出現ルールを想定し、第7図に示
す例を考える。この例の「ファイリング」という文字列
中にひらがなの「す」が含まれているので、ルール番号
[1]の文字種出現ルールと一致し、その位置にルール
番号[1コのフラグが書込まれる。
この場合、メモリ15上の単語知識辞書に「ファイリン
グ」が登録されているとすると、誤認識修正部14は、
フラグ付加位置の第1候補のひらがな「す」をカタカナ
「す」に修正する。第9図はこの修正の説明図である。
このように、単語知識を用いた誤認識修正処理の前処理
として、文字種の出現ルールを利用した簡便・高速な処
理によって誤認識文字を検出するため、単語知識によっ
て誤認識文字の検出と修正の両方を行う方式に比べ、処
理の高速化・効率化が図れる。
なお、結果出力部13は、後処理を通して得られた認識
結果メモリ9の内容を出力する。
実施例1 第3図は本実施例の構成を示す機能ブロック図であり、
第1図と同一の符号は同一部分を示す。
本実施例と前記各実施例との違いは、後処理部に、文字
種出現ルールによらずに誤認識文字を検出する誤認識検
出部16、文字種出現ルールにより誤認識文字の修正を
行う誤認識修正部17が設けられていることである。
誤認識検出部]6は、一文字単位の認識処理では誤認し
やすい文字を予め記憶している。このような文字として
は、カタカナの「す」とひらがなの「す」、カタカナの
「二」と漢字の「二」、カタカナの長音記号「−」と漢
字の「−」、カタカナの「口」と漢字のr口jなどがあ
る。そして、認識結果文字列の第1候補文字列の中から
、誤認しやすい文字を検出すると、その文字位置に誤認
識フラグとして[1]をたてる。
誤認識修正部17は、「誤認識フラグjのたっている位
置の第1候補文字コードおよび前後の文字コードの文字
種を判定し、その文字種の並びと文字種出現ルール(第
6図)との照合を行い、あるルール番号で一致した場合
は、そのルール番号に記述された正解文字種の候補文字
に誤認識位置の文字を修正する。
例えば第7図に示した認識結果の場合、誤認識検出部1
6は「ファイリング」の「す」の位置にフラグをたてる
。誤認識修正部17は、「す」の前後の文字種の並びは
「カタカナ−ひらがな−カタカナjであって文字種出現
ルール(第6図)のルール番号1に一致するので、正解
文字種をカタカナと推定し、第1候補のひらがな「す」
を第2候補のカタカナ「す」に修正する。
なお、結果出力部13は、後処理を通して得られた認識
結果メモリ9の内容を出力する。
実施例4 第4図は本実施例の構成を示す機能ブロック図であり、
第1図と同一の符号は同一部分を示す。
本実施例における誤認識修正部18は、第3図中の誤認
識修正部17と同様に文字種出現ルールとの照合により
誤認識文字を修正するものであるが、誤認識検出部11
より誤認識フラグとしてルール番号が付加されるので、
当該ルールの検索は行わず、指定されたルール番号に記
述された正解文字種を直接的に認識し修正を行う。
この誤認識修正部17の処理のフローチャートを第11
図に示す。
尖傭潰1 第5図は本実施例の構成を示す概略ブロック図であり、
第2図または第4図と同じ符号は同一部分を示す。
図から明らかなように、本実施例における後処理部は、
誤認識検出部11および誤認識修正部18により文字種
出現ルールを用いた誤認識検出および誤認識修正を行っ
た後、単語知識後処理部19で単語知識を用いた文字列
のチエツク・修正を再度行う構成である。なお、単語知
識後処理部19と第2図中の誤認識修正部14との違い
は、単語知識後処理部19は誤認識フラグ依存せずに文
字列のチエツクを行う点である。
このような構成によれば、文字種情報に基づく処理で検
出・修正ができなかった誤認識文字についても修正でき
るので、認識率が一層向上する。
また、単語知識による後処理の前に文字種情報に基づく
誤認識検出・修正処理が行われるため、単語知識だけで
は修正不可能な誤認識の修正も可能となり、また、単語
知識による後処理の前に殆どの誤認識は修正済みとなる
ので、単語知識後処理の混乱(手間)が減り、後処理全
体の時間の短縮が図れる。
なお、文字種出現ルールは、4文字以上の連続した文字
種並び毎に記述してもよいし、その文字数を可変長とし
て記述してもよい。
また本発明は、文字認識装置に限らず音声認識などの自
然言語処理全般に応用可能である。
〔発明の効果〕
以上の説明から明らかなように、本発明によれば、単語
知識を用いた後処理よりも簡便・高速な誤認識文字の検
出・修正が可能となり、また、単語知識によっては検出
・修正が不可能な誤認識の検出・修正が可能となり、さ
らには単語知識処理との組合せによって処理全体の効率
化を図ることができるなどの効果を得られる。
【図面の簡単な説明】
第1図、第2図、第3図、第4図および第5図はそれぞ
れ本発明の別異の実施例の構成を示す機能ブロック図、
第6図は文字種出現ルールの例を示す図、第7図は認識
結果および誤認識検出結果を示す図、第8図は誤認識文
字を修飾した表示の例を示す図、第9図は認識結果と単
語知識との照合の例を示す図、第10図は文字種出現ル
ールを用いた誤認識検出処理のフローチャート、第11
図は文字種出現ルールを用いた誤認識修正処理のフロー
チャー1へである。 7・・・文字認識部、 9・・・認識結果メモリ、11
・・・誤認識検出部、 12・・文字種出現ルール格納メモリ、13・・・結果
出力部、  14・・・誤認識修正部、15・・・単語
知識辞書メモリ、 16・・・誤認識検出部、 17・・・誤認識修正部、
18・・・誤認識修正部、 19・・・単語知識後処理部。 Q。

Claims (5)

    【特許請求の範囲】
  1. (1)一文字単位の認識結果に対し、その文字コードに
    より文字種を判別して文字種の連続性のルールを適用す
    ることにより誤認識文字を検出し、誤認識フラグ情報を
    付加して出力することを特徴とする文字認識装置の後処
    理方式。
  2. (2)一文字単位の認識結果に対し、その文字コードに
    より文字種を判別して文字種の連続性のルールを適用す
    ることによって誤認識文字を検出し、検出された誤認識
    文字を単語知識の適用によって修正することを特徴とす
    る文字認識装置の後処理方式。
  3. (3)一文字単位の認識結果中の予め定めた文字を誤認
    識文字として検出し、検出された誤認識文字を文字種の
    連続性のルールの適用によって修正することを特徴とす
    る文字認識装置の後処理方式。
  4. (4)誤認識文字の修正を文字種の連続性のルールの適
    用によって行うことを特徴とする請求項(2)記載の文
    字認識装置の後処理方式。
  5. (5)誤認識文字の修正後の認識結果に対し、単語知識
    による後処理を行うことを特徴とする請求項(3)記載
    の文字認識装置の後処理方式。
JP63243097A 1988-09-28 1988-09-28 文字認識装置の後処理方式 Pending JPH0290384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63243097A JPH0290384A (ja) 1988-09-28 1988-09-28 文字認識装置の後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63243097A JPH0290384A (ja) 1988-09-28 1988-09-28 文字認識装置の後処理方式

Publications (1)

Publication Number Publication Date
JPH0290384A true JPH0290384A (ja) 1990-03-29

Family

ID=17098746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63243097A Pending JPH0290384A (ja) 1988-09-28 1988-09-28 文字認識装置の後処理方式

Country Status (1)

Country Link
JP (1) JPH0290384A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049890A (ja) * 2000-08-01 2002-02-15 Minolta Co Ltd 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2008243227A (ja) * 2001-10-15 2008-10-09 Silverbrook Research Pty Ltd 手書き文字認識で使用されるテンプレートを生成する方法および装置
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6139175A (ja) * 1984-07-31 1986-02-25 Toshiba Corp 光学的文字読取装置
JPS6249582A (ja) * 1985-08-29 1987-03-04 Toshiba Corp 光学文字読取り装置
JPS6330991A (ja) * 1986-07-25 1988-02-09 Matsushita Electric Ind Co Ltd 文字認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6139175A (ja) * 1984-07-31 1986-02-25 Toshiba Corp 光学的文字読取装置
JPS6249582A (ja) * 1985-08-29 1987-03-04 Toshiba Corp 光学文字読取り装置
JPS6330991A (ja) * 1986-07-25 1988-02-09 Matsushita Electric Ind Co Ltd 文字認識装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2002049890A (ja) * 2000-08-01 2002-02-15 Minolta Co Ltd 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2008243227A (ja) * 2001-10-15 2008-10-09 Silverbrook Research Pty Ltd 手書き文字認識で使用されるテンプレートを生成する方法および装置
JP4568774B2 (ja) * 2001-10-15 2010-10-27 シルバーブルック リサーチ ピーティワイ リミテッド 手書き文字認識で使用されるテンプレートを生成する方法
US7881536B2 (en) 2001-10-15 2011-02-01 Silverbrook Research Pty Ltd Identifying a string formed from a number of hand-written characters
US8000531B2 (en) 2001-10-15 2011-08-16 Silverbrook Research Pty Ltd Classifying a string formed from a known number of hand-written characters
US8285048B2 (en) 2001-10-15 2012-10-09 Silverbrook Research Pty Ltd Classifying a string formed from hand-written characters

Similar Documents

Publication Publication Date Title
JPH0290384A (ja) 文字認識装置の後処理方式
JP3274014B2 (ja) 文字認識装置および文字認識方法
JPH06215184A (ja) 抽出領域のラベリング装置
JPH11328316A (ja) 文字認識装置、方法及び記憶媒体
JP3350127B2 (ja) 文字認識装置
JPH0528324A (ja) 英文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JP3085107B2 (ja) 文字認識装置
JP3255816B2 (ja) 文字認識装置
JPH02120994A (ja) 文字認識装置
JP3123181B2 (ja) 文字認識装置
JPH02292691A (ja) 文字認識装置
JP2702143B2 (ja) 文章解析方式
JPH0944606A (ja) 文字認識処理方法
JP3476872B2 (ja) 文字認識装置
JPH02118785A (ja) 誤認識修正方法及び装置
JPH0458381A (ja) 光学的文字読取装置
JPH10301597A (ja) 音声認識装置
JPH0757059A (ja) 文字認識装置
JPH04289989A (ja) 英文字認識装置
JPH0433084A (ja) パターン識別装置
JPH10240736A (ja) 形態素解析装置
JPH0223399A (ja) 登録音声選択方式