JP2732593B2 - 文字読取システム - Google Patents

文字読取システム

Info

Publication number
JP2732593B2
JP2732593B2 JP63174429A JP17442988A JP2732593B2 JP 2732593 B2 JP2732593 B2 JP 2732593B2 JP 63174429 A JP63174429 A JP 63174429A JP 17442988 A JP17442988 A JP 17442988A JP 2732593 B2 JP2732593 B2 JP 2732593B2
Authority
JP
Japan
Prior art keywords
character
reading
kanji
candidate
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63174429A
Other languages
English (en)
Other versions
JPH0223490A (ja
Inventor
和司 清野
さつき 柳楽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Software Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Software Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Software Engineering Corp filed Critical Toshiba Corp
Priority to JP63174429A priority Critical patent/JP2732593B2/ja
Publication of JPH0223490A publication Critical patent/JPH0223490A/ja
Application granted granted Critical
Publication of JP2732593B2 publication Critical patent/JP2732593B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、漢字とこの漢字や読みが記録された帳票の
文字読取処理に好適な文字読取システムに関する。
(従来の技術) 従来、文字読取装置において、文字認識精度向上の有
力な方法として、知識ベースとの照合による後処理が用
いられている。これは、知識処理と呼ばれるものであ
り、例えば住所、氏名、会社名など帳票に記録される文
字データの範囲が予めある程度明確になっている場合、
これらを知識ベースとして用意しておき、この知識ベー
スと帳票の文字認識結果として得られる候補文字群とを
照合し、一定以上かつ最大値の尤度を持つ単語を最終的
な答えとするものである。
このような知識処理には、例えば第8図に示す氏名の
データのように、漢字とこの漢字の読み文字列(フリガ
ナ)から文字認識処理を行なう場合がある。この場合、
認識結果である漢字とフリガナの候補文字は、別々に知
識ベースと照合される単独処理が行なわれている。この
ため、知識ベースとの照合対象となる情報は、読取デー
タから得られた候補文字の漢字またはフリガナだけとな
ってしまい、文字認識の後処理としては充分な結果が得
られない場合があった。こうしたことから、漢字とフリ
ガナの両方の候補文字をつき合わせたふりがな処理と呼
ばれる照合手段が考えられている。このふりがな処理に
は、例えば読み処理と区切り辞書処理と呼ばれるものが
ある。この読み処理と区切り辞書処理の方法を説明す
る。はじめに、第8図のような漢字「佐藤」とフリガナ
「サトウ」が記録された帳票の文字認識の結果、第9図
に示すような文字候補が得られたものとする。
まず、読み処理について説明する。この読み処理に用
いられる知識ベースは、第10図のようになっており、漢
字の文字毎にそれぞれいくつかの読みが対応するように
構成されている。はじめに、文字認識の結果得られた候
補文字のフリガナの文字数が認識される。ここでは、3
文字であることが認識される。漢字の候補文字には、第
1文字には「仕」と「佐」、第2文字には「藤」が得ら
れている。これより、第1文字の読みと第2文字の読み
の組合わせから、3文字になるものが選択される。ここ
では、「シトウ」と「サトウ」の2通りの読みが得られ
る。この2通りの読みと、フリガナの文字候補とが照合
される。ここで、候補文字に対する知識ベースから得ら
れた単語「シトウ」、「サトウ」のそれぞれについて文
字尤度が求められる。この尤度は、例えば第1候補とし
て得られた文字を100点、第2候補を80点、第3候補を7
0点として求められる。これより「シトウ」の尤度は、
0+80+70=150点となり、文字数で割って正規化する
と50点となる。また、「サトウ」の尤度は、80+80+70
=230点となり、正規化して77点となる。この結果、尤
度の高い「サトウ」が第1の出力候補と判定される。こ
うして、最終認識結果として「サトウ」及び「佐藤」が
出力される。
次に、区切り辞書処理を説明する。この区切り辞書処
理の知識ベースは、第11図のようになっており、漢字の
組合わせによる名字とこの読み、及び漢字とかなのそれ
ぞれの文字数のデータより構成されている。この区切り
辞書処理では、文字数データから漢字部分とフリガナ部
分が判断され、漢字部分とフリガナ部分が同時にそれぞ
れ照合される。例えば、「佐藤」「サトウ」が、それぞ
れ漢字とフリガナの文字候補と照合される。ここで、漢
字とフリガナのそれぞれの文字尤度が求められる。例え
ば、候補順位と尤度得点が上記同様とすると、「佐藤」
の尤度は、80+100=180点となり、正規化して90点とな
る。「サトウ」の尤度は、80+80+70=230点となり、
正規化して77点となる。同様にして、「鈴木」「スズ
キ」以下の知識ベースのデータについも尤度が求められ
る。この結果、「佐藤」「サトウ」の尤度が最大値であ
れば、第1の出力候補として判定され出力される。
ところで、読み処理、及び区切り辞書処理の何れも、
帳票に記録された漢字とフリガナの文字認識処理を行な
い、この結果より得られた候補文字について知識処理を
行なって最終的な認識結果を出力するものである。
しかしながら、帳票に記録されるデータが、漢字また
はフリガナの何れしか記入されていない場合は、漢字と
フリガナの両方の候補文字を得ることができない。この
ため、読み処理、区切り辞書処理の何れも行なうことが
できない。
また、帳票に漢字とフリガナの両方が記録されている
場合であっても、文字認識処理の際に、リジェクト(認
識不可能)が発生する場合がある。このような場合、帳
票に記録された文字に対応する候補文字が得れないこと
がある。例えば、漢字にリジェクトが発生したとする
と、この漢字の読みが得られないため読み処理を行なう
ことができない。
一方、区切り辞書処理は、一部にリジェクトが発生し
た場合であっても、漢字部分またはフリガナ部分の照合
によって出力候補を得ることができるが、知識ベースが
単語単位となっているために、候補文字に対応する単語
が登録されていない場合には、類似度が低下するため、
正確な認識文字を得ることができない場合がある。
(発明が解決しようとする課題) このように、帳票に漢字とフリガナの両方が記録され
ていない場合や、リジェクトが発生して候補文字が得ら
れない場合には、処理によっては実施できなかったり、
または不都合な処理結果が得られることがあり、正確な
最終認識結果を出力することができないという問題があ
った。
本発明は上記のような点に鑑みてなされたもので、帳
票に記録される文字を知識ベースを用いたに知識処理に
よって確実に認識することが可能な文字読取システムを
提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明は、読取対象となる帳票に記録された文字を識
別ベースを用いた照合を行なうことによって最終的な文
字認識結果を出力する文字読取システムにおいて、帳票
に記録された漢字及び読み文字列のそれぞれに対応した
単語群からなる知識ベース及び帳票を読取処理した結果
得られた漢字,読み文字列から成る候補文字群とを照合
することにより出力候補を選択する単語処理手段と、漢
字文字列とこの漢字文字列に対して1対1で対応した読
み文字列から成る文字列群により構成される知識ベース
及び候補文字群の漢字,読みとを照合することにより出
力候補を選択する区切り辞書処理手段と、単漢字とこの
単漢字の読みから成る知識ベースから上記候補文字の漢
字の読みを選択して、候補文字の読み文字列の文字数と
同数となる読み文字列を構成し、この構成した読み文字
列と候補文字の読み文字列とを照合して出力候補を選択
する読み処理手段とを備えている。そして、帳票に漢字
及びこの漢字に対応する読み文字列が記録されているか
否かを判定した結果、漢字及び読み文字列の何れかが記
録されていないと判断された場合に、単独処理手段を行
なう。また、帳票に漢字及び読み文字列が記録されてい
ると判断された場合に、帳票を読取処理した結果、漢字
及び読み文字列に候補文字が得られたか否かを判断し、
漢字及び読み文字列に対応する候補文字が得られなかっ
たものが有ると判断された場合に、区切り辞書処理手段
及び上記単独処理手段を行ない、漢字及び読み文字列に
それぞれ候補文字が有ると判断された場合に、読み処理
手段,区切り辞書処理手段及び単独処理手段を行なう。
この結果、各処理手段から得られた最も類似度が高い出
力候補を選択して出力するように構成するものである。
(作用) このようにして構成される文字読取装置の知識処理に
おいては、処理方法が異なる単独処理、区切り辞書処
理、読み処理を、帳票に記録されるデータ、及びこの帳
票の読取処理の結果得られる候補文字の有無に応じて選
択して複合的に行ない、各処理によって得られた出力候
補から最も候補文字と類似度の高いものを最終認識結果
として出力する。
(実施例) 以下、図面を参照して本発明の一実施例を説明する。
第1図は同実施例に係わる文字読取システムの構成を示
すブロック図である。第1図において、文字読取部11
は、スキャナ部、文字読取処理部等(図示せず)を備え
ており、帳票12に記録される文字の読取処理を行なう。
上記帳票12は、例えば氏名のように記録された文字デー
タの範囲が予めある程度明確となっているものであり、
ここでは漢字とこの漢字のフリガナが記録されるもので
ある。文字読取部11は、上記帳票12をスキャナ部に読込
み、光を照射してその反射光を光電変換する。そして、
この光電変換により得られた信号を2値化し、シートバ
ッファ(図示せず)上に帳票イメージとして格納する。
文字読取処理部は、フォーマットコントロールデータに
基づいて、シートバッファに格納された帳票イメージか
ら1文字毎に文字パターンの切出しを行ない、文字認識
を行なう。文字読取部11は、こうして得た候補文字の文
字マトリクスを知識処理部13に出力する。知識処理部13
は、最終知識処理部14において候補文字について知識処
理を行なう。最終認識処理部14は、例えば読み処理、区
切り辞書処理等の知識処理に対応する知識ベース15と候
補文字とを照合することにより認識文字を決定する。知
識処理装置13は、こうして得られた認識文字を最終認識
結果として出力する。
次に、同実施例の動作を説明する。
同実施例における知識処理は、帳票に記録される漢
字、及びこの漢字のフリガナから得られた候補文字と知
識ベースとを照合し、最終認識文字を出力するものであ
る。ここで行なわれる知識処理の方法は、漢字とフリガ
ナのそれぞれについての別に処理を行なう単独処理と、
ふりがな処理である読み処理、及び区切り辞書処理とな
っている。読み処理、区切り辞書処理の処理方法は、第
8図乃至第11図を用いてすでに説明しているので、ここ
では説明は省略する。
ここで、上記各知識処理の選択方法を、第2図に示す
フローチャートを参照しながら説明する。はじめに、文
字読取部11において文字読取処理される帳票が、漢字と
フリガナの両方が記録されているか否か判定する(ステ
ップS1)。この結果、漢字またはフリガナの何れか片方
のみが記録されている場合、ふりがな処理を行なうこと
ができないため、記録されている漢字、またはフリガナ
について単独処理を行なう(ステップS5)。知識処理部
13は、この単独処理で得られた出力候補を最終出力候補
として出力する(ステップS7)。
ステップS1において帳票に漢字とフリガナの両方が記
録されていると判定された場合、この帳票が文字読取部
11によって文字読取処理認識された結果、漢字部分の候
補文字がリジェクトすることなく各文字についてそれぞ
れ得られたか否か判定される(ステップS2)。この結
果、漢字部分に候補文字があがらなかったものがあると
判定された場合は、読み処理を行なうことができないた
め、区切り辞書処理が行なわれ(ステップS4)、この後
単独処理が行われる(ステップS5)、ここで、区切り辞
書処理、及び単独処理による出力候補がそれぞれ得られ
る。こうして得られた出力候補について、候補文字との
類似度の比較が行なわれ(ステップS6)、最も類似度の
高い出力候補が最終認識文字として出力される(ステッ
プS7)。
ステップS2において、漢字部分の候補文字が各文字に
ついて得られたと判定された場合、まず読み処理が行な
われ(ステップS3)、この処理による出力候補が得られ
る。読み処理が行なわれた後、区切り辞書処理(ステッ
プS4)、及び単独処理(ステップS5)が行なわれ、各処
理における出力候補が得られる。各処理により得られた
出力候補は、類似度が比較され(ステップS6)、最も類
似度が高いものが最終候補文字として出力される(ステ
ップS7)。
次に、具体的な処理例を説明する。読取対象となる帳
票は、第3図に示すように、漢字部分が「多中」、フリ
ガナが「タナカ」と記録されているものとする。この帳
票が「タナカ」または「多中」のいずれかのみ記録され
ている場合は、単独処理だけが行なわれる。
読取対象の帳票を文字読取部11において文字読取処理
した結果、第4図に示すような文字候補が得られたもの
とする。ここでは、各文字について候補文字が得られて
いるので、読み処理、区切り辞書処理、単独処理の各処
理が全て行なわれる。例えば、帳票4を読取処理した結
果、漢字「多」がリジェクトされ、漢字部分の第1文字
に対応する候補文字が得られなかった場合のようなとき
は、区切り辞書処理、及び単独処理が行なわれる。
初めに、読み処理が行なわれる。この読み処理に用い
られる知識ベースを第5図に示している。漢字の候補文
字は、第1文字に「為」「多」「谷」、第2文字「中」
「巾」「甲」が得られている。フリガナの文字数が3文
字であることから、第1文字と第2文字の読みの組合わ
せで3文字になる読みが構成される。ここでは、第6図
に示すように、「イナカ」「イキン」…等の読みが構成
される。この構成された各読みとフリガナの文字候補と
が照合される。ここで、候補文字に対する尤度が求めら
れる。ここで行なわれる尤度計算が、上記では説明した
得点と同じとすると、例えば「イナカ」と尤度は、0+
100+70=170点となり、正規化して57点となる。以下、
同様にして各データについて尤度が求められる。「タナ
カ」の尤度は、80+100+70=250点となり、正規化して
83点となる。また、読みに対応する「多中」の尤度が、
80+100=180点となり、正規化して90点となる。これよ
り、「タナカ」「多中」の尤度が最大値であれば出力候
補として選択される。
次に、区切り辞書処理が行なわれる。この区切り辞書
処理に用いられる知識ベースを第7図に示している。こ
の処理に用いられる知識ベースには、漢字部分に「多
中」が登録されていないものとする。ここで、知識ベー
スに登録されたデータと候補文字が照合され、尤度が求
められる。「タカナ」の尤度は、80+100+70=250点と
なり、正規化して83点となる。「田中」の尤度は、0+
100=100点となり、正規化して50点となる。このように
して、「山田」「ヤマダ」以下の知識データについても
同様にして尤度が求められる。この結果、「田中」「タ
ナカ」の尤度が最大であれば出力候補として選択され
る。これは、読み処理で得られなかった出力候補を、処
理方法が異なる区切り辞書処理によって得ることができ
た一例である。
次に、単独処理が行なわれる。この処理においては、
漢字部分とフリガナ部分が、それぞれに対応する知識ベ
ースと照合され、漢字部分とフリガナ部分について出力
候補が得られる。
こうして各知識処理から得られた出力候補について類
似度が比較される。例えば、読み処理から得られた「タ
ナカ」「多中」と、区切り辞書処理から得られた「タナ
カ」「田中」を比較すると、「タナカ」「多中」の尤度
が高いことから、これが最終認識結果として選択され
る。
このように、上記実施例における知識処理では、帳票
に記録されるデータが漢字、またはフリガナの何れしか
記録されていない場合であっても、この記録されたデー
タについて単独処理を行なうことができる。また、漢字
とフリガナの両方が記録されている帳票の読取処理を行
なった結果、一部にリジェクトが発生した場合であって
も、区切り辞書処理、及び単独処理によって最終認識文
字を得ることができる。さらに、区切り辞書処理に用い
られる知識ベースに候補文字に対応する単語が登録され
ていない場合であっても、読み処理、及び単独処理によ
り出力候補が得ることができるので正確な認識文字を得
ることができる。このように、各処理の欠点を互いに補
うことによって、確実に帳票に記録された文字を認識す
ることが可能となる。
なお、上記実施例においては、帳票に記録される氏名
データについて述べてきたが、例えば住所、会社名等、
他の記入データについても広く応用できることは勿論で
ある。
また、知識ベースのデータと候補文字との照合の際の
尤度計算を、例えば二乗平均を用いた計算方法によって
行なうこともできる。
[発明の効果] 以上のように本発明によれば、帳票の文字の認識の結
果得られた候補文字と知識ベースとを照合して最終的な
文字認識結果を出力する文字読取装置の知識処理におい
て、帳票に記録されるデータ、またはこの帳票から得ら
れた候補文字の有無に応じて、処理方法が異なる読み処
理、区切り辞書処理、単独処理の中から実施可能な知識
処理を選択して複合的な行なうことにより、各処理の欠
点を補うことができるので、帳票に記録された漢字とフ
リガナについて、より確実な文字の認識が可能となるも
のである。
【図面の簡単な説明】
第1図は本発明の一実施例に係わる文字読取装置の知識
処理の構成を示すブロック図、第2図は同実施例の知識
処理の処理手順を示すフローチャート、第3図乃至第7
図は同実施例の具体的な動作を説明するための図、第8
図乃至第11図は従来の知識処理を説明するための図であ
る。 11……文字読取部、12……帳票、13……知識処理部、14
……最終認識処理部、15……知識ベース。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−21581(JP,A) 特開 平1−231185(JP,A) 情報処理学会全国大会講演論文集 V ol.36 No.3(1988)p.1795− 1796

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】読取対象となる帳票に記録された文字を識
    別ベースを用いた照合を行なうことによって最終的な文
    字認識結果を出力する文字読取システムにおいて、 漢字及び読み文字列のそれぞれに対応した単語群から成
    る知識ベース及び上記帳票を読取処理した結果得られた
    漢字,読み文字列から成る候補文字群とを照合すること
    により出力候補を選択する単独処理手段と、 漢字文字列とこの漢字文字列に対して1対1で対応した
    読み文字列から成る文字列群により構成される知識ベー
    ス及び上記候補文字群の漢字,読み文字列とを照合する
    ことにより出力候補を選択する区切り辞書処理手段と、 単漢字とこの単漢字の読みから成る知識ベースから上記
    候補文字の漢字の読みを選択して、上記候補文字の読み
    文字列の文字数と同数となる読み文字列を構成し、この
    構成した読み文字列と上記候補文字の読み文字列とを照
    合して出力候補を選択する読み処理手段と、 上記帳票に漢字及びこの漢字に対応する読み文字列が記
    録されているか否かを判定する帳票判定手段と、 この帳票判定手段により上記漢字及び読み文字列の何れ
    かが記録されていないと判断された場合に、上記単独処
    理を行なう第1の照合手段と、 上記帳票判定手段により上記帳票に漢字及び読み文字列
    が記録されていると判断された場合に、上記帳票を読取
    処理した結果、漢字及び読み文字列に候補文字が得られ
    たか否かを判断する候補文字判断手段と、 この候補文字判断手段により上記漢字及び読み文字列に
    対応する候補文字が得られなかったものが有ると判断さ
    れた場合に、上記区切り辞書処理手段及び上記単独処理
    手段を行なう第2の照合手段と、 上記候補文字判断手段により漢字及び読み文字列にそれ
    ぞれ候補文字が有ると判断された場合に、上記読み処理
    手段,上記区切り辞書処理手段及び上記単独処理手段の
    それぞれを行なう第3の照合手段と、 上記照合手段により行なわれる上記各処理手段から得ら
    れた最も類似度が高い出力候補を選択する選択手段とを
    具備したことを特徴とする文字読取システム。
JP63174429A 1988-07-13 1988-07-13 文字読取システム Expired - Lifetime JP2732593B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63174429A JP2732593B2 (ja) 1988-07-13 1988-07-13 文字読取システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63174429A JP2732593B2 (ja) 1988-07-13 1988-07-13 文字読取システム

Publications (2)

Publication Number Publication Date
JPH0223490A JPH0223490A (ja) 1990-01-25
JP2732593B2 true JP2732593B2 (ja) 1998-03-30

Family

ID=15978383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63174429A Expired - Lifetime JP2732593B2 (ja) 1988-07-13 1988-07-13 文字読取システム

Country Status (1)

Country Link
JP (1) JP2732593B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274580A (ja) * 1991-02-28 1992-09-30 Oki Electric Ind Co Ltd 光学文字読取り装置
JPH0546806A (ja) * 1991-08-20 1993-02-26 Oki Electric Ind Co Ltd 文字認識方法
JP2996823B2 (ja) * 1992-12-11 2000-01-11 英明 磯貝 文字認識装置
CN109255040B (zh) * 2018-07-27 2021-10-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会全国大会講演論文集 Vol.36 No.3(1988)p.1795−1796

Also Published As

Publication number Publication date
JPH0223490A (ja) 1990-01-25

Similar Documents

Publication Publication Date Title
JP2732593B2 (ja) 文字読取システム
JPH0743755B2 (ja) 文字認識装置
Saiga et al. An OCR system for business cards
JPH0441388B2 (ja)
JP3157557B2 (ja) 文字認識装置
JPH024033B2 (ja)
JP2746345B2 (ja) 文字認識の後処理方法
JP3187182B2 (ja) 光学的手書き文字列認識方法および装置
JPS59158482A (ja) 文字認識装置
JP4805485B2 (ja) 単語認識方法および単語認識装置
JPS6252912B2 (ja)
JPH0319589B2 (ja)
JPH02217977A (ja) 光学的文字読取装置
JPH0475557B2 (ja)
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置
JP2839515B2 (ja) 文字読取システム
JPH10269311A (ja) 帳票処理単位指定方法
JP2784004B2 (ja) 文字認識装置
JPS60138689A (ja) 文字認識方法
JP2743995B2 (ja) 文字読取装置
JPS63303481A (ja) 住所読取装置
JPH06259595A (ja) 文字認識処理装置及び認識処理方法
JPH09218921A (ja) 一般文書読取装置
JPS63138479A (ja) 文字認識装置
JPH06180793A (ja) ナンバープレート自動認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071226

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 11