JP2003331214A - 文字認識誤り訂正方法、装置及びプログラム - Google Patents

文字認識誤り訂正方法、装置及びプログラム

Info

Publication number
JP2003331214A
JP2003331214A JP2002140463A JP2002140463A JP2003331214A JP 2003331214 A JP2003331214 A JP 2003331214A JP 2002140463 A JP2002140463 A JP 2002140463A JP 2002140463 A JP2002140463 A JP 2002140463A JP 2003331214 A JP2003331214 A JP 2003331214A
Authority
JP
Japan
Prior art keywords
word
notation
character
string
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002140463A
Other languages
English (en)
Other versions
JP3975825B2 (ja
Inventor
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002140463A priority Critical patent/JP3975825B2/ja
Publication of JP2003331214A publication Critical patent/JP2003331214A/ja
Application granted granted Critical
Publication of JP3975825B2 publication Critical patent/JP3975825B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 本発明は、漢字表記と仮名表記のような2種
類以上の異なる表記が同時に与えられる日本語の文字認
識装置の誤りを訂正する方法の提供を目的とする。 【解決手段】 本発明は、たとえば、手書き帳票におけ
る住所や氏名のように、漢字表記と仮名表記のような2
種類以上の異なる表記が同時に与えられる場合に、言語
モデル、文字認識装置モデル、及び、漢字表記と仮名表
記を対応付けながら最適な単語列を探索するアルゴリズ
ムを用いて、同じ内容が漢字表記と仮名表記で表現され
ているという冗長性を利用することにより、漢字表記又
は仮名表記の何れか一方だけでは訂正できない誤りを訂
正する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、手書き文字認識に
おいて生じる誤りを訂正する技術に係り、特に、文字認
識結果としての文字パターンを読み込み、文字の前後の
繋がりを表現する言語モデルを用いて入力された文字パ
ターンの誤り部分を検知し正解候補を提示する日本語の
文字認識装置の誤りを訂正する方法及び装置に関する。
【0002】
【従来の技術】一般に、申込書のような手書き帳票で
は、漢字表記の住所や氏名を記入する際に、仮名表記の
振り仮名を付与する習慣がある。これには、漢字表記と
仮名表記が同じ内容を表わすという制約、或いは、同じ
内容が漢字表記と仮名表記で表現されているという冗長
性を利用することにより、この帳票データを人間が処理
する際に誤りを防ぐ、という効果がある。
【0003】たとえば、手書き帳票を人手で処理する場
合、漢字表記からは「水田」でるか「永田」であるか判
別できないときに、仮名表記が「ながた」と判別できれ
ば、漢字表記は「永田」であることがわかる。同様に、
仮名表記からは「なかた」であるか「ながた」であるか
が判別できないときに、漢字表記が「永田」と判別でき
れば、仮名表記は「ながた」であることがわかる。さら
に、漢字表記に「水田」と「永田」の可能性があり、仮
名表記に「なかた」と「ながた」の可能性がある場合、
「水田」は「ながた」とは読めないので、妥当な解釈
は、漢字表記「永田」と仮名表記「ながた」の組だけで
あることがわかる。
【0004】ところが、文字認識装置を用いて帳票を自
動的に処理しようとする場合、従来の文字認識誤り訂正
法は、漢字表記と仮名表記を同時に扱うことにより、両
者の間に存在する制約(又は冗長性)を有効に利用しな
がら誤り訂正を実現することができなかった。その理由
は、以下の(1)及び(2)の二つである。
【0005】(1)出現する可能性がある漢字表記と仮
名表記の組を辞書中に全て登録することは事実上不可能
なので、辞書には無くても正しい漢字表記と仮名表記の
組が入力に出現する可能性を考慮しなければならない。
しかし、このような事象に確率を与える方法は考案され
ていなかった。
【0006】(2)漢字表記と仮名表記の文字認識候補
がそれぞれ複数ある場合、漢字表記と仮名表記の対応の
可能性は非常に膨大な数になる。しかし、これを系統的
に調べるアルゴリズムが考案されていなかった。
【0007】従来の文字認識の誤り訂正法は、一つの入
力文字列(漢字表記又は仮名表記)に対して、文字ng
ram、すなわち、nが2以上の整数を表わすときに、
n個の文字からなるn連鎖を表現する文字ngramモ
デルや、単語ngram、すなわち、nが2以上の整数
を表わすときに、n個の単語からなるn連鎖を表現する
単語ngramモデルなどの統計的言語モデルを利用し
て、誤り訂正を行なう方法が主流である。
【0008】文字ngramモデルを使用する例とし
て、 杉村・斉藤:「文字連接情報を用いた読み取り不能文字
の判定処理−文字認識への応用−」電子情報通信学会論
文誌 Vol.J68−D No.1, pp.64−71, 1985が挙げられ
る。単語ngramモデルを利用する例としては、 高尾・西野:「日本語文書リーダ後処理の実現と評価」
情報処理学会論文誌Vol.33 No.5, pp.664−670, 1992 伊東・丸山:「OCR入力された日本語文の誤り検出と
自動訂正」情報処理学会論文誌 Vol.33, No.5, pp.664
−670, 1992 永田:「文字類似度と統計的言語モデルを用いた日本語
文字認識誤り訂正法」電子情報通信学会論文誌(D−I
I) Vol.J81−D−II, No.11, pp.2624−2634, 1998 が挙げられる。
【0009】これらの方法に対して、近年、漢字表記と
仮名表記を同時に利用して誤り訂正を行なう方法とし
て、単漢字とその読みの組を基本単位とする統計的言語
モデルに基づいて、漢字表記と仮名表記を対応付ける方
法が、 Nagata, M.: Synchronous Morphological Analysis of
Grapheme and Phonemefor Japanese OCR, Proceedings
of the 38th Annual Meeting of the Association for
Computational Linguistics, pp.384−391, 2000 に提案されている。この文献で提案された方法では、た
とえば、「福沢諭吉」と「フクザワユキチ」という漢字
表記と仮名表記の文字認識結果の組を入力とする場合、
「福/フク」というような単漢字とその読みの組の出現
確率に基づいて、漢字表記及び仮名表記のそれぞれに対
する複数の文字認識候補の中から「福/フク」、「沢/
サワ」、「諭/ユ」、「吉/キチ」という対応関係を求
めることにより誤り訂正を行なう。
【0010】単漢字とその読みを言語モデルの基本単位
とする方法は、氏名のように短い文字列(漢字表記が3
−5文字程度)で、かつ、一つの漢字に対する読み方の
異なり数が多い場合には有効な方法である。
【0011】
【発明が解決しようとする課題】ところが、住所のよう
に長い文字列(漢字表記が10−15文字程度)を対象
とする場合、単漢字とその読みを言語モデルの基本単位
とすると、探索すべき組合せの数が膨大になり計算量が
大きくなってしまう、という問題がある。特に、仮名表
記から検索される漢字表記の候補の数が問題になる。
【0012】たとえば、「神奈川県横須賀市光の丘」と
いう漢字表記と「カナガワケンヨコスカシヒカリノオ
カ」という仮名表記の組を入力とする場合、「カ」と読
む可能性がある漢字は以下に示すように少なくとも21
4個ある。
【0013】
【表1】 次に、「カナ」と読む可能性がある漢字は以下に示すよ
うに少なくとも17個ある。
【0014】
【表2】 さらに、「ナ」と読む可能性がある漢字は少なくとも6
6個あり、「ナガ」と読む可能性のある漢字は少なくと
も15個ある。
【0015】同様に、「神」という漢字の読みは、 シン ジン カミ カン コウ カ カグ カナ カモ クマ コ コハ ダマ ミ のように少なくとも14個ある。
【0016】文字認識の誤り訂正の場合、認識結果の第
1候補だけではなく、下位候補についても考慮しなけれ
ばならないので、探索空間はさらに大きくなり、住所の
ような長い文字列では無視できない計算量となる。
【0017】単語を統計的言語モデルの基本単位とした
場合、文字マトリクス(すなわち、入力文の各文字位置
において文字認識スコアの高い順番に文字候補を並べた
リスト)に含まれる文字の組合せの大部分は単語を構成
しないので、辞書と照合する単語の数は少なくなる。し
かし、反対に、未知語候補、すなわち、辞書と照合しな
い単語候補の数が多くなるので、状況は改善しない。
【0018】もし、単語を構成する可能性が高い漢字文
字列と仮名文字列の組合せに対して高い確率を与えるよ
うな未知語モデルを考案することができれば、未知語候
補を絞り込むことによって計算量を削減できるので、住
所の漢字表記と仮名表記のような比較的長い文字列の組
に対しても、両者を対応付けながら誤り訂正を行なえ
る。しかし、従来、このような未知語モデルは提案され
ていない。
【0019】上記の従来技術の問題点に鑑みて、本発明
は、住所の漢字表記と仮名表記のような比較的長い第1
の表記の文字列と第2の表記の文字列の組において、互
いに対応する第1の表記と第2の表記の文字認識結果の
組を同時に取り扱うことにより、第1の表記と第2の表
記の間に存在する制約又は冗長性を利用した誤り訂正を
実現する文字認識誤り訂正方法の提供を目的とする。
【0020】また、本発明は、このような文字認識誤り
訂正方法を実施する装置の提供を目的とする。
【0021】さらに、本発明は、このような文字認識誤
り訂正方法をコンピュータに実現させるプログラムの提
供を目的とする。
【0022】
【課題を解決するための手段】本発明は、文字認識装置
の出力として漢字表記と仮名表記のような第1の表記及
び第2の表記が同時に与えられる場合に、言語モデル、
文字認識装置モデル、及び、第1の表記と第2の表記を
対応付けながら最適な単語列を探索するアルゴリズムを
用いて、同じ内容が第1の表記と第2の表記で表現され
ているという冗長性を利用することにより、第1の表記
又は第2の表記の何れか一方だけでは訂正できない誤り
を訂正するものである。
【0023】本発明は、任意の第1の表記の文字列と、
第2の表記の文字列について、第1の表記の文字列と第
2の表記の文字列の同時確率、すなわち、第1の表記の
文字列が第2の表記の文字列を第1の表記で表わした文
字列であり、かつ、第2の表記の文字列が第1の表記の
文字列を第2の表記で表わした文字列である確率を与え
る言語モデルと、任意の二つの文字について、一方の文
字が他方の文字に誤認識される確率を与える文字認識装
置モデルと、言語モデル及び文字認識装置モデルに基づ
いて、最も確率が大きい単語列、すなわち、最も確率が
大きい第1の表記の単語列と第2の表記の単語列の組を
求める最適単語列検索手段と、を用いて、第1の表記の
文字列と第2の表記の文字列を対応付けることにより、
第1の表記の文字列又は第2の表記の文字列の一方の文
字列だけでは訂正できない誤りを訂正する文字認識誤り
訂正方法を提供する。
【0024】請求項1に係る発明は、第1の表記の文字
列及び第2の表記の文字列を文字認識することによって
得られた第1の表記による第1の文字列及び第2の表記
による第2の文字列の組の文字認識誤り訂正方法であっ
て、第1の表記による文字列が第2の表記の文字列を第
1の表記で表わした文字列であり、かつ、第2の表記の
文字列が第1の表記の文字列を第2の表記で表わした文
字列である単語同時確率を与える言語モデルと、第1の
表記及び第2の表記のそれぞれについて、二つの文字の
うちの一方が他方の文字に誤認識される文字混同確率を
与える文字認識装置モデルとを記憶手段に準備し、上記
第1の文字列及び上記第2の文字列の組に対し、上記記
憶手段に準備された上記言語モデル及び上記文字認識装
置モデルを用いて、単語列候補を抽出し、上記単語列候
補の中から最も確率が高い単語列を選ぶことにより、最
も確からしい第1の表記の文字列と第2の表記の文字列
の組を獲得する、ことを特徴とする文字認識誤り訂正方
法である。
【0025】請求項2に係る発明は、第1の表記の文字
列及び第2の表記の文字列を文字認識することによって
得られた第1の表記による第1の文字列及び第2の表記
による第2の文字列の組の文字認識誤り訂正方法であっ
て、モデルを記憶手段に設定する手順と、上記記憶手段
に設定された上記モデルを用いて、上記第1の表記によ
る第1の文字列及び上記第2の表記による第2の文字列
の組の単語列候補を抽出する手順と、上記記憶手段に設
定された上記モデルを用いて、上記抽出された単語列候
補の中から、最も確率が高い単語列を選ぶことにより、
最も確からしい第1の表記の文字列と第2の表記の文字
列の組を獲得する手順と、を有し、上記モデルを上記記
憶手段に設定する手順は、同じ単語を表わす第1の表記
と第2の表記の組を記憶する単語辞書を上記記憶手段に
格納し、単語の第1の表記と第2の表記の組の2個以上
の連鎖の出現確率を与える単語連鎖モデルを上記記憶手
段に格納し、上記単語辞書に登録されていない任意の第
1の表記の文字列及び第2の表記の文字列が単語を構成
する確率を与える未知語モデルを上記記憶手段に格納
し、第1の表記及び第2の表記のそれぞれについて、二
つの文字のうちの一方が他方の文字に誤認識される文字
混同確率を与える文字認識装置モデルを上記記憶手段に
格納する手順を含み、上記単語列候補を抽出する手順
は、上記第1の文字列と上記第2の文字列の組合せとし
て可能性のある組と完全一致する単語候補を上記単語辞
書から検索する手順と、上記第1の文字列と上記第2の
文字列の組合せとして可能性のある組と類似照合する類
似単語候補を上記単語辞書から検索する手順と、上記第
1の文字列と上記第2の文字列の組合せとして可能性の
ある組から、上記単語辞書に登録されていない未知語候
補を生成する手順と、を含み、上記最も確からしい第1
の表記の文字列と第2の表記の文字列の組を獲得する手
順は、上記単語候補、上記類似単語候補、及び、上記未
知語候補の組合せに対し、上記単語辞書、上記単語連鎖
モデル及び上記未知語モデルを用いて、第1の表記によ
る単語が第2の表記の単語を第1の表記で表わした単語
であり、かつ、第2の表記の単語が第1の表記の単語を
第2の表記で表わした単語である単語同時確率を求め、
上記文字認識装置モデルを用いて文字混同確率を求め、
上記単語同時確率と上記文字混同確率の積が最大になる
ような単語列を選ぶ手順を含む、ことを特徴とする文字
認識誤り訂正方法である。
【0026】請求項3に係る発明によれば、上記単語辞
書に登録されていない任意の第1の表記の文字列及び第
2の表記の文字列が単語を構成する確率を与える上記未
知語モデルは、単語の第1の表記を構成する文字の種類
に基づいて定義された単語タイプの何れかに任意の単語
を分類し、単語タイプの出現頻度から単語タイプの出現
確率を計算し、各単語タイプの第1の表記の平均単語長
と第2の表記の平均単語長から、第1の表記の長さと第
2の表記の長さの同時確率を計算し、第1の表記の2個
以上の文字の連鎖及び第2の表記の2個以上の文字の連
鎖から、第1の表記の文字列の出現確率及び第2の表記
の文字列の出現確率を計算することにより、単語の第1
の表記を構成する文字の種類に基づいて分類された単語
タイプ別に第1の表記の文字列と第2の表記の文字列の
組が単語を構成する確率を推定するように用いられる。
【0027】請求項4に係る発明は、第1の表記の文字
列及び第2の表記の文字列を文字認識することによって
得られた第1の表記による第1の文字列及び第2の表記
による第2の文字列の組の文字認識誤り訂正装置であっ
て、第1の表記による文字列が第2の表記の文字列を第
1の表記で表わした文字列であり、かつ、第2の表記の
文字列が第1の表記の文字列を第2の表記で表わした文
字列である単語同時確率を与える言語モデルと、第1の
表記及び第2の表記のそれぞれについて、二つの文字の
うちの一方が他方の文字に誤認識される文字混同確率を
与える文字認識装置モデルと、上記第1の文字列及び上
記第2の文字列の組に対し、上記記憶手段に準備された
上記言語モデル及び上記文字認識装置モデルを用いて、
単語列候補を抽出し、上記単語列候補の中から最も確率
が高い単語列を選ぶことにより、最も確からしい第1の
表記の文字列と第2の表記の文字列の組を獲得する最適
単語列探索手段と、を有することを特徴とする文字認識
誤り訂正装置である。
【0028】請求項5に係る発明は、第1の表記の文字
列及び第2の表記の文字列を文字認識することによって
得られた第1の表記による第1の文字列及び第2の表記
による第2の文字列の組の文字認識誤り訂正装置であっ
て、モデルを記憶する記憶手段と、上記記憶手段に設定
された上記モデルを用いて、上記第1の表記による第1
の文字列及び上記第2の表記による第2の文字列の組の
単語列候補を抽出する手段と、上記記憶手段に設定され
た上記モデルを用いて、上記抽出された単語列候補の中
から、最も確率が高い単語列を選ぶことにより、最も確
からしい第1の表記の文字列と第2の表記の文字列の組
を獲得する最適単語列探索手段と、を有し、上記記憶手
段に格納される上記モデルは、同じ単語を表わす第1の
表記と第2の表記の組を記憶する単語辞書と、単語の第
1の表記と第2の表記の組の2個以上の連鎖の出現確率
を与える単語連鎖モデルと、上記単語辞書に登録されて
いない任意の第1の表記の文字列及び第2の表記の文字
列が単語を構成する確率を与える未知語モデルと、第1
の表記及び第2の表記のそれぞれについて、二つの文字
のうちの一方が他方の文字に誤認識される文字混同確率
を与える文字認識装置モデルと、を含み、上記単語列候
補を抽出する手段は、上記第1の文字列と上記第2の文
字列の組合せとして可能性のある組と完全一致する単語
候補を上記単語辞書から検索する単語照合手段と、上記
第1の文字列と上記第2の文字列の組合せとして可能性
のある組と類似照合する類似単語候補を上記単語辞書か
ら検索する類似単語照合手段と、上記第1の文字列と上
記第2の文字列の組合せとして可能性のある組から、上
記単語辞書に登録されていない未知語候補を生成する未
知語候補生成手段と、を含み、上記最適単語列探索手段
は、上記単語候補、上記類似単語候補、及び、上記未知
語候補の組合せに対し、上記単語辞書、上記単語連鎖モ
デル及び上記未知語モデルを用いて、第1の表記による
単語が第2の表記の単語を第1の表記で表わした単語で
あり、かつ、第2の表記の単語が第1の表記の単語を第
2の表記で表わした単語である単語同時確率を求め、上
記文字認識装置モデルを用いて文字混同確率を求め、上
記単語同時確率と上記文字混同確率の積が最大になるよ
うな単語列を選ぶ、ことを特徴とする文字認識誤り訂正
装置である。
【0029】請求項6に係る発明によれば、上記単語辞
書に登録されていない任意の第1の表記の文字列及び第
2の表記の文字列が単語を構成する確率を与える上記未
知語モデルは、単語の第1の表記を構成する文字の種類
に基づいて定義された単語タイプの何れかに任意の単語
を分類する単語タイプ判定手段と、各単語タイプの第1
の表記の平均単語長と第2の表記の平均単語長から、第
1の表記の長さと第2の表記の長さの同時確率を計算す
る単語長確率計算手段と、第1の表記の2個以上の文字
の連鎖及び第2の表記の2個以上の文字の連鎖から、第
1の表記の文字列の出現確率及び第2の表記の文字列の
出現確率を計算する単語表記確率計算手段と、単語の第
1の表記を構成する文字の種類に基づいて分類された単
語タイプ別に第1の表記の文字列と第2の表記の文字列
の組が単語を構成する確率を推定する未知語確率計算手
段と、を含む。
【0030】請求項7に係る発明は、第1の表記の文字
列及び第2の表記の文字列を文字認識することによって
得られた第1の表記による第1の文字列及び第2の表記
による第2の文字列の組の文字認識誤り訂正プログラム
であって、第1の表記による文字列が第2の表記の文字
列を第1の表記で表わした文字列であり、かつ、第2の
表記の文字列が第1の表記の文字列を第2の表記で表わ
した文字列である単語同時確率を与える言語モデルと、
第1の表記及び第2の表記のそれぞれについて、二つの
文字のうちの一方が他方の文字に誤認識される文字混同
確率を与える文字認識プログラムモデルと、上記第1の
文字列及び上記第2の文字列の組に対し、上記記憶機能
に準備された上記言語モデル及び上記文字認識プログラ
ムモデルを用いて、単語列候補を抽出し、上記単語列候
補の中から最も確率が高い単語列を選ぶことにより、最
も確からしい第1の表記の文字列と第2の表記の文字列
の組を獲得する最適単語列探索機能と、をコンピュータ
に実現させることを特徴とする文字認識誤り訂正プログ
ラムである。
【0031】請求項8に係る発明は、第1の表記の文字
列及び第2の表記の文字列を文字認識することによって
得られた第1の表記による第1の文字列及び第2の表記
による第2の文字列の組の文字認識誤り訂正プログラム
であって、モデルを記憶する記憶機能と、上記記憶機能
に設定された上記モデルを用いて、上記第1の表記によ
る第1の文字列及び上記第2の表記による第2の文字列
の組の単語列候補を抽出する機能と、上記記憶機能に設
定された上記モデルを用いて、上記抽出された単語列候
補の中から、最も確率が高い単語列を選ぶことにより、
最も確からしい第1の表記の文字列と第2の表記の文字
列の組を獲得する最適単語列探索機能と、をコンピュー
タに実現させ、上記記憶機能に格納される上記モデル
は、同じ単語を表わす第1の表記と第2の表記の組を記
憶する単語辞書と、単語の第1の表記と第2の表記の組
の2個以上の連鎖の出現確率を与える単語連鎖モデル
と、上記単語辞書に登録されていない任意の第1の表記
の文字列及び第2の表記の文字列が単語を構成する確率
を与える未知語モデルと、第1の表記及び第2の表記の
それぞれについて、二つの文字のうちの一方が他方の文
字に誤認識される文字混同確率を与える文字認識プログ
ラムモデルと、を含み、上記単語列候補を抽出する機能
は、上記第1の文字列と上記第2の文字列の組合せとし
て可能性のある組と完全一致する単語候補を上記単語辞
書から検索する単語照合機能と、上記第1の文字列と上
記第2の文字列の組合せとして可能性のある組と類似照
合する類似単語候補を上記単語辞書から検索する類似単
語照合機能と、上記第1の文字列と上記第2の文字列の
組合せとして可能性のある組から、上記単語辞書に登録
されていない未知語候補を生成する未知語候補生成機能
と、を含み、上記最適単語列探索機能は、上記単語候
補、上記類似単語候補、及び、上記未知語候補の組合せ
に対し、上記単語辞書、上記単語連鎖モデル及び上記未
知語モデルを用いて、第1の表記による単語が第2の表
記の単語を第1の表記で表わした単語であり、かつ、第
2の表記の単語が第1の表記の単語を第2の表記で表わ
した単語である単語同時確率を求め、上記文字認識プロ
グラムモデルを用いて文字混同確率を求め、上記単語同
時確率と上記文字混同確率の積が最大になるような単語
列を選ぶ、ことを特徴とする文字認識誤り訂正プログラ
ムである。
【0032】請求項9に係る発明によれば、上記単語辞
書に登録されていない任意の第1の表記の文字列及び第
2の表記の文字列が単語を構成する確率を与える上記未
知語モデルは、単語の第1の表記を構成する文字の種類
に基づいて定義された単語タイプの何れかに任意の単語
を分類する単語タイプ判定機能と、各単語タイプの第1
の表記の平均単語長と第2の表記の平均単語長から、第
1の表記の長さと第2の表記の長さの同時確率を計算す
る単語長確率計算機能と、第1の表記の2個以上の文字
の連鎖及び第2の表記の2個以上の文字の連鎖から、第
1の表記の文字列の出現確率及び第2の表記の文字列の
出現確率を計算する単語表記確率計算機能と、単語の第
1の表記を構成する文字の種類に基づいて分類された単
語タイプ別に第1の表記の文字列と第2の表記の文字列
の組が単語を構成する確率を推定する未知語確率計算機
能と、を含む。
【0033】
【発明の実施の形態】図1は、本発明の第1実施例によ
る文字認識誤り訂正システムの構成図である。本実施例
の文字認識誤り訂正システムは、日本語の漢字表記と、
日本語の仮名表記を文字認識する文字認識装置1と、日
本語の漢字表記と仮名表記の組を文字認識装置1によっ
て認識した結果に依存する文字認識誤りを訂正する文字
認識誤り訂正装置100と、含む。また、本発明の第1
実施例は、たとえば、申込書のような手書き帳票の住所
欄の文字認識を想定しているため、漢字表記には、漢
字、カタカナ、ひらがな、ローマ字、英数字なども含ま
れる場合があり、また、振り仮名欄の仮名表記には、カ
タカナ又はひらがなの他にローマ字や英数字が含まれる
場合がある。尚、以下の実施例の説明では、簡単のた
め、漢字表記は、漢字だけにより構成され、仮名表記は
カタカナだけにより構成されているものとする。
【0034】文字認識誤り訂正装置100は、文字認識
装置1からの文字認識結果として、漢字表記の文字マト
リクスと、仮名表記の文字マトリクスを入力する。文字
マトリクスとは、入力の各文字位置において文字認識ス
コアの高い順番に文字候補を並べたリストを、文字数分
だけ並べたリストである。また、以下では、文字マトリ
クスの各文字位置において、その文字位置の文字候補の
リストから一文字ずつ選ぶことにより構成される文字列
を、「文字マトリクスに含まれる文字列」と呼ぶ。
【0035】文字認識誤り訂正装置100は、文字認識
装置1から漢字表記の文字マトリクス及び仮名表記の文
字マトリクスを受け取る最適単語列検索部2と、単語の
漢字表記と仮名表記の組を記憶する単語辞書7と、漢字
表記の文字マトリクスに含まれる漢字列及び仮名表記の
文字マトリクスに含まれる仮名列の組と完全一致する単
語を単語辞書7から検索する単語照合部3と、単語辞書
7に登録されていない任意の漢字列と仮名列の組が単語
を構成する確率を与える未知語モデル8と、漢字表記の
文字マトリクスに含まれる漢字列及び仮名表記の文字マ
トリクスに含まれる仮名列の組から、未知語モデル8を
用いて、未知語候補を生成する未知語候補生成部4と、
任意の二つの文字について、一方の文字が他方の文字に
誤認識される確率、すなわち、文字混同確率を与える文
字認識装置モデル10と、漢字表記の文字マトリクスに
含まれる漢字列及び仮名表記の文字マトリクスに含まれ
る仮名列の組と類似照合する単語を単語辞書7から検索
する類似単語照合部5と、単語の漢字表記と仮名表記の
組のn個の連鎖、すなわち、ngramの出現確率を与
える単語ngramモデル6と、単語ngramモデル
6、単語辞書7及び未知語モデル8を含み、任意の漢字
列と仮名列について、漢字列が仮名列の漢字表記であ
り、かつ、仮名列が漢字列の仮名表記である確率、すな
わち、漢字表記と仮名表記の同時確率を与える言語モデ
ル9と、を具備する。
【0036】また、最適単語列探索部2は、単語照合部
3から単語辞書7と完全一致した単語を受け、未知語候
補生成部4から未知語候補を受け、及び、類似単語照合
部5から単語辞書7と類似照合した類似単語を受け、言
語モデル9及び文字認識装置モデル10に基づいて、最
も確率が大きい単語列、すなわち、漢字表記と仮名表記
の組を求める。
【0037】図2は、本発明の第1実施例による文字認
識誤り訂正システムにおける文字認識誤り訂正方法を説
明するフローチャートである。
【0038】文字認識誤り訂正方法は、文字認識装置1
で漢字表記と仮名表記の組を文字認識することにより得
られた漢字表記の文字マトリクスと仮名表記の文字マト
リクスの組を入力として用いる。
【0039】ステップ1において、単語照合部3は、漢
字表記の文字マトリクスに含まれる漢字文字列と仮名表
記の文字マトリクスに含まれる仮名文字列の組と完全一
致する単語辞書7中の単語、すなわち、一致単語を同定
する。
【0040】ステップ2において、未知候補生成部4
は、漢字表記の文字マトリクスに含まれる漢字文字列と
仮名表記の文字マトリクスに含まれる仮名文字列の組の
中で、単語辞書7に登録されていない単語の候補、すな
わち、未知語を生成する。
【0041】ステップ3において、類似単語照合部5
は、漢字表記の文字マトリクスに含まれる漢字文字列及
び仮名表記の文字マトリクスに含まれる仮名文字列の組
と類似照合する単語辞書7中の単語、すなわち、類似単
語を同定する。
【0042】最後に、ステップ4において、最適単語列
探索部2は、言語モデル9と文字認識モデル10に基づ
いて、一致単語、未知語及び類似単語の中で、最も確率
が大きい単語列、すなわち、漢字表記と仮名表記の組を
求める。
【0043】上記説明では、ステップ1、ステップ2、
ステップ3の順に処理が行なわれているが、ステップ
1、ステップ2、ステップ3を実行する順序は、このよ
うな順に制限されることはなく、どのような順序で行な
っても構わない。
【0044】このような本発明の第1実施例の文字認識
誤り訂正システムの構成によれば、漢字表記と仮名表記
を対応付けることが可能になり、漢字表記又は仮名表記
のいずれか一方のみからでは訂正できない誤りを訂正
し、入力が辞書に登録されていない単語を含む場合でも
未知語モデル8に基づいて、漢字列と仮名列の組の出現
確率を推定し、正解文字が文字マトリクスに含まれてい
ない場合でも類似単語照合によって誤り訂正候補を提示
できるようになる。
【0045】図3は、本発明の第2実施例による文字認
識誤り訂正システムの概略ブロック図である。次に、図
3を参照して、本発明の第2実施例の構成を説明する。
図3において、図1の構成要素と同じ参照番号を付され
た構成要素は、図1における対応した構成要素と同一若
しくは類似した構成要素である。
【0046】本発明の第2実施例による文字認識誤り訂
正システムは、文字認識装置1、最適単語列探索部2、
単語照合部3、未知単語生成部4、類似単語照合部5、
言語モデル9、及び、文字認識装置モデル10を含む。
単語モデル9は、単語bigramモデル60と、単語
辞書7と、未知語モデル8とを含む。単語bigram
モデル60は、単語bigram頻度テーブル61と、
単語bigram確率計算部62とを含む。未知語モデ
ル8は、未知語確率計算部81と、単語タイプ判定部8
2と、単語タイプ定義記憶部83と、単語長確率計算部
84と、平均単語長テーブル85と、単語表記確率計算
部86と、文字bigram頻度テーブル87と、を含
む。文字認識装置モデル10は、文字混同確率計算部1
1と文字認識装置正解率テーブル12とを含む。
【0047】ここで、単語bigramは、2個の単語
からなる2連鎖を表わし、文字bigramは2個の文
字からなる2連鎖を表わす。
【0048】最適単語列探索部2は、入力された漢字表
記と仮名表記の組に対して文字認識装置1が出力した漢
字表記マトリクスと仮名表記マトリクスの組を入力と
し、二つの文字マトリクスのそれぞれについて、文頭か
ら文末へ一文字ずつ進む動的計画法(dynamic programm
ing)を用いて、単語列の同時確率、すなわち、単語b
igram確率の積と、文字混同確率との積を最大化す
るような単語列を求める。
【0049】そのため、最適単語列探索部2には、単語
照合部3からの完全一致単語と、未知語候補生成部4か
らの未知語候補と、類似単語照合部5からの類似単語候
補とが、単語候補として与えられる。単語候補には、文
字混同確率計算部11によって、単語の漢字表記及び仮
名表記を構成する文字混同確率が与えられる。また、単
語bigram確率は、単語bigram確率計算部6
2によって与えられる。
【0050】単語照合部3は、漢字表記の文字マトリク
スに含まれる文字列と仮名表記の文字マトリクスに含ま
れる文字列の全ての組合せを単語辞書7と照合し、照合
したものを完全一致単語として、最適単語列検索部2へ
与える。ここで、文字マトリクスの各文字位置におい
て、その文字位置の文字候補のリストから一文字ずつ選
ぶことにより構成される文字列を、「文字マトリクスに
含まれる文字列」と呼ぶ。
【0051】未知語候補生成部4は、漢字表記の文字マ
トリクスに含まれる文字列と仮名表記の文字マトリクス
に含まれる文字列の組合せの中で、単語辞書7と照合し
ない組合せを未知語であるとみなし、未知語モデル確率
計算部81により求めた未知語確率が大きい順に予め定
めた個数の未知語を、未知語候補として最適単語列検索
部2へ与える。
【0052】類似単語照合部5は、漢字表記の文字マト
リクスに含まれる文字列と仮名表記の文字マトリクスに
含まれる文字列の全ての組合せを単語辞書7と類似照合
し、照合したものを類似単語候補として最適単語列検索
部2へ与える。類似単語照合の距離尺度としては、一方
の文字列を他方の文字列に変換するのに必要な挿入・削
除・置換の回数を表す編集距離(すなわち、一致する文
字数の割合)を使用することができる。
【0053】単語bigram確率計算部62は、単語
bigram頻度テーブル61に付与された単語big
ram頻度から、単語bigramの出現確率を計算す
る。
【0054】単語タイプ判定部82は、単語タイプ定義
83に基づいて、未知語候補の漢字表記を構成する文字
の種類から未知語の単語タイプを決定する。
【0055】単語長確率計算部84は、平均単語長テー
ブル85に記憶された各単語タイプの漢字表記と仮名表
記の平均単語長から、未知語候補の漢字表記の長さと仮
名表記の長さの同時確率を求める。
【0056】単語表記確率計算部86は、文字bigr
am頻度テーブル87に記憶された漢字表記の文字bi
gram頻度及び仮名表記文字の文字bigram頻度
から、未知語候補の漢字表記の文字列と仮名表記の文字
列の同時確率を求める。
【0057】文字混同確率計算部11は、文字認識装置
正解率テーブル12に格納されている第1候補正解率と
累積正解率から、文字混同確率を計算する。
【0058】かくして、最適単語列探索部2は、単語b
igram確率の積と、文字混同確率との積を最大化す
るような単語列(漢字表記と仮名表記の組)を求めるこ
とができる。
【0059】以下では、まず、本発明の理論的基礎であ
る「文字認識誤り訂正の情報理論的解釈」について説明
し、続いて、言語モデル、未知語モデル、文字認識装置
モデル、最適単語列探索手段、類似単語照合手段の順に
説明する。
【0060】〔1〕文字認識誤り訂正の情報理論的解釈 本発明の第3実施例では、文字認識装置の入力と出力の
関係を、雑音のある通信路のモデル(noisy channel mo
del)で定式化する。入力された第1の表記である漢字
表記(graphemes)と第2の表記である仮名表記(phonem
es)をそれぞれGとPとし、これらに対する文字認識装
置の出力をG’とP’とする。本発明の文字認識の誤り
訂正は、事後確率P(G,P|G’,P’)を最大にす
る漢字表記
【0061】
【数1】 と仮名表記
【0062】
【数2】 を求める問題に帰着する。さらに、ベイズの定理を使え
ば、 P(G,P)P(G’,P’|G,P) を最大にする漢字表記と仮名表記の組
【0063】
【数3】 を求めればよいことがわかる。
【0064】
【数4】 ここでは、P(G,P)を言語モデル、P(G’,P’
|G,P)を文字装置モデルと呼ぶ。
【0065】〔2〕言語モデル 漢字表記及び仮名表記が、それぞれ、 長さlの文字列 G=αα...α 及び 長さmの文字列 P=ββ...β から構成されるとする。さらに、単語の漢字表記と仮名
表記を対応付けることにより、漢字表記と仮名表記の組
が長さnの単語列 (G,Ρ)=((g,p),(g
),...,(g,p)) に分割されるとする。
【0066】たとえば、漢字表記「神奈川県横須賀市光
の丘」と仮名表記「カナガワケンヨコスカシヒカリノオ
カ」の組は、単語列((神奈川県,カナガワケン),
(横須賀市,ヨコスカシ),(光の丘,ヒカリノオ
カ))に対応付けられ分割される。
【0067】本発明では、言語モデルP(G,P)を、
漢字表記Gと仮名表記Pを対応付ける最も尤もらしい単
語列P(G,Ρ)の同時確率で近似する。さらに、この
単語列の同時確率P(G,Ρ)を後述の単語bigra
mモデルで近似する。
【0068】〔3〕単語bigramモデル 一般に、単語N−gramは、Nが2以上の整数を表わ
すときに、N個の単語からなるN連鎖を表わす。一例と
して、単語bigramは、2個の単語からなる単語連
鎖である。単語bigramモデルは、次式のように単
語bigram確率P(g,p|gi−1,p
i−1)の積で単語列の同時確率を近似する。
【0069】
【数5】 ここで、<bos>及び<eos>は、文の先頭及び末
尾を表わす特別な記号である。
【0070】単語bigram確率を求める方法(すな
わち、単語bigram確率計算手段)は以下の通りで
ある。
【0071】先ず、漢字仮名混じり表記の日本語テキス
トを単語に分割し、仮名表記の読みを付与したデータを
作成する。以降、このデータを学習データと呼ぶ。
【0072】この学習データにおける単語の漢字表記と
仮名表記の組の出現頻度C(g,p)、及び、単語
の漢字表記と仮名表記の組のbigramの出現確率C
(g i−1,pi−1,g,p)を求め、単語bi
gram頻度テーブルに格納しておく。
【0073】図4は単語出現頻度の例の説明図であり、
図5は単語bigram出現頻度の例の説明図である。
図示された例では、’/’で区切られた漢字列と仮名列
の組が一つの単語を表わす。
【0074】次に、これらの出現頻度から単語の相対頻
度f(g,p)及び単語bigramの相対頻度f
(g,p|gi−1,pi−1)を求める。
【0075】
【数6】 次に、これらの相対頻度を線形補間して単語bigra
m組確率を求める。ここで、線形補間係数αは訓練デー
タの確率が最大になるように決定する。 P(g,p|gi−1,pi−1)= (1−α)f(g,p)+αf(g,p|gi−1,pi−1) (5) 〔4〕未知語モデル 未知語モデルは、単語辞書に登録されていない漢字表記
と仮名表記の組の出現確率を求めるための計算モデルで
ある。これは、未知語(g,p)を構成する 長さlの漢字表記文字列g=cg...cglg と、 長さlの仮名表記文字列p=cp...cplp の同時確率分布P(g,p)として定義される。
【0076】本発明の一実施例では、単語の漢字表記を
構成する文字の種類に基づいて複数の単語タイプを定義
し、単語タイプ別に未知語の確率を推定する。
【0077】図6は、日本語の未知語を7種類の単語タ
イプに分類した場合の例の説明図である。単語タイプの
定義は、バッカス記法(Backus Naur Form, BNF)で記
述されており、ここで、[・・・]は、文字集合中の任
意の1文字と照合することを表わす。二つの文字の間
に、−を書くことで文字範囲を表わす。文字コードに
は、JIS−X−0208を仮定している。*は0回以
上の繰り返しを表わし、+は1回以上の繰り返しを表わ
す。
【0078】<sym>、<num>、<alpha
>、<hira>、<kata>、及び、<kan>
は、それぞれ記号列、数字列、アルファベット列、ひら
がな列、カタカナ列、及び、漢字列を表わす。これら以
外の複数の字種から構成される文字列は、すべて<mi
sc>とする。
【0079】本発明の第3実施例では、単語タイプ確
率、すなわち、未知語における各単語タイプ<WT>の
出現確率P(<WT>)、及び、単語タイプ別の未知語
の漢字表記と仮名表記の同時確率P(g,p|<WT
>)の積から、未知語の出現確率(未知語の漢字表記と
仮名表記の同時確率)P(g,p)を求める。 P(g,p)=P(<WT>)P(g,p|<WT>) (6) 単語タイプ確率は、学習データにおける低頻度語(出現
頻度が1の単語)を単語タイプに分類し、それぞれ単語
タイプの相対頻度から求める。
【0080】単語タイプ別の未知語の出現確率P(g,
p|<WT>)は、単語タイプ別の漢字表記の長さと仮
名表記の長さの同時確率P(l,l|<WT>)、
漢字表記の文字列の出現確率P(g)、及び、仮名表記
の文字列の出現確率P(p)の積で近似する。
【0081】
【数7】 以下では、単語タイプ別の漢字表記の長さと仮名表記の
長さの同時確率P(l ,l|<WT>)を単語長確
率と呼ぶ。
【0082】単語長確率は、単語タイプ別の漢字表記の
長さの分布と単語タイプ別の仮名表記の長さの分布の積
で近似し、漢字表記及び仮名表記の長さの分布は、それ
ぞれ、単語タイプ別の漢字表記の平均文字長λ
g,<WT>及び仮名表記の平均文字長λp,<WT>
をパラメータとするポワソン分布で近似する。
【0083】
【数8】 単語タイプ別の漢字表記の平均文字長λg,<WT>
び仮名表記の平均文字長λp,<WT>は、学習データ
における低頻度語から求める。図7は、単語タイプ別の
漢字表記と仮名表記の平均文字長の例の説明図である。
【0084】漢字表記の文字列の出現確率P(g)は、
漢字表記に使用される文字の文字bigramで近似す
る。
【0085】
【数9】 仮名表記の文字列の出現確率P(p)は、仮名表記に使
用される文字の文字bigramモデルで近似する。
【0086】
【数10】 漢字表記及び仮名表記の文字bigram確率は、単語
bigram確率と同様に、学習データから求めた文字
出現頻度と文字bigram出現頻度からそれぞれの相
対確率を求め、この相対確率を線形補間することにより
得られる。図8は、漢字表記の文字bigramの出現
頻度の例を示し、図9は、仮名表記の文字bigram
の出現頻度の例を示す図である。
【0087】〔5〕文字認識装置モデル 本発明の第3実施例では、文字認識装置モデルP
(G’,P’|G,P)に関して、漢字表記Gと仮名表
記Pが独立に認識され、さらに漢字表記の各文字cg
と仮名表記の各文字cpが独立に認識されると仮定す
る。
【0088】
【数11】 一般に、文字認識装置において、入力された文字c
文字cと認識される確率P(c|c)は、文字混
同確率(character confusion probability)と呼ばれ
る。文字混同確率は、基本的には、文字認識装置の入力
と出力の組の頻度データである文字混同行列(characte
r confusion matrix)から求めることができる。しか
し、文字混同行列は、文字認識法が入力画像の品質に大
きく依存するので汎用性が低い。また、日本語は文字の
種類が3000字以上あるので、すべての文字について
十分に多くの文字認識結果を集めることはできない。
【0089】そこで、本発明の第3実施例では、文字認
識装置が出力する第1候補の正解率p、及び、第n候
補までの累積正解率p(nは文字認識装置が出力する
文字候補の数)をパラメータとして、文字混同確率を以
下のように近似する。
【0090】
【数12】 ここで、|C|は認識対象となる文字集合の大きさであ
る。たとえば、漢字の場合、|C|=6879、仮名
の場合、|C|=87に設定すればよい。
【0091】式(12)は、文字混同確率として、もし
その文字が第1候補であるならば、文字に関係なく一定
の値(第1候補の平均正解率)pを割り当てる。も
し、その文字が第2候補以降の候補文字の中に入ってい
れば、累積正解率から第1候補正解率を差し引いた残り
を均等に割り当てる。もし、その文字が文字候補になけ
れば、1から累積正解率を引いたものを、候補文字以外
の文字集合に対して均等に割り当てる。
【0092】〔6〕最適単語列探索 式(1)に示す事後確率を最大化する漢字表記と仮名表
記の組を求める手順(最適単語列探索手段)を以下に示
す。
【0093】入力された漢字表記及び仮名表記を、それ
ぞれ、 長さlの文字列 G=αα...α 及び 長さmの文字列 P=ββ...β とする。
【0094】漢字表記中の文字位置及び仮名表記中の文
字位置を、それぞれ、x(0≦x≦l)及びy(0≦y
≦m)で表わすことにすると、漢字表記と仮名表記を対
応付けることにより得られる長さnの単語列 (G,Ρ)=((g,p),(g
),...,(g,p)) は、単語の境界の座標の列(長さn+1) (x,y),(x,y),(x
),...,(x,y) で表現することができる。ここで、文字位置(x,y
)は、それぞれ単語(g,p)の終了位置であ
り、(x,y)=(0,0)及び(x,y)=
(l,m)である。
【0095】先頭からi番目の単語までの単語列の同時
確率P(g,p,...,g,p)と、各単語
を構成する漢字表記と仮名表記の各文字の文字混同確率
との積の最大値をφ(g,p)と定義すると、式
(2)より、以下の関係が成立する。
【0096】
【数13】 ここで、qとrは、漢字表記gの開始位置と終了位置
を表わし、sとtは仮名表記pの開始位置と終了位置
を表わす。すなわち、 g=cgq+1...cg =cps+1...cp である。また、cg’及びcp’は、cg及びc
に対応する文字認識結果である。
【0097】式(13)は、以下の関係を表わす。先頭
からi番目の単語までの同時確率と各単語の漢字表記と
仮名表記を構成する各文字の文字混同確率の積の最大値
φ(g,p)は、先頭からi−1番目の単語までの
同時確率と各単語の漢字表記と仮名表記を構成する各文
字の文字混同確率の積の最大値φ(gi−1
i− )と、i−1番目の単語とi番目の単語の単語
bigram確率P(g,p |gi−1
i−1)の積の最大値に、i番目の単語の漢字表記と
仮名表記を構成する各文字の文字混同確率の積を掛けた
ものである。この関係を利用して、先頭から順にφ(g
,p)を求めれば、先頭から末尾までの確率の最大
値φ(g,p)を求めることができる。
【0098】図10は、最適単語列探索の動作を説明す
るためのフローチャートである。最適単語列探索は、二
次元の動的計画法を用いて式(13)の計算を実現す
る。ここでは、φ(g,p)を部分解析の確率と呼
び、φ(g,p)を格納するテーブルを部分解析テ
ーブルと呼ぶ。
【0099】以下では、図10に従って、最適単語列探
索の動作を説明する。
【0100】最適単語列探索は、漢字表記と仮名表記の
先頭から始まり、それぞれの現在の解析位置が末尾方向
へ一文字ずつ進む。ステップS11では、探索の開始位
置を漢字表記と仮名表記の先頭(0,0)に設定する。
【0101】ステップS12では、探索が漢字表記の末
尾に達したかどうかを判断する。もし、末尾に達してい
れば、最適単語列探索を終了する。そうでなければ、以
下の処理を漢字表記の各文字位置で行なう。
【0102】ステップS13では、探索が仮名表記の末
尾に達したかどうかを判断する。もし、末尾に達してい
れば、ステップS30へ進む。そうでなければ、以下の
処理を仮名表記の各文字位置で行なう。
【0103】ステップS14では、現在の漢字表記の文
字位置と仮名表記の文字位置の組に到達するまで全ての
単語列を部分解析テーブルから検索し、その中の一つを
現在の部分解析(単語列)として選ぶ。
【0104】ステップS15では、全ての単語列を調べ
たかを判定する。もしそうならば、ステップS29にお
いて、探索を仮名表記の次の文字位置へ進める。そうで
なければ、以下の処理を各単語列について行なう。
【0105】ステップS16では、現在の漢字表記の文
字位置から始まる、漢字表記の文字マトリクスに含まれ
る全ての漢字文字列のリストを作成する。
【0106】ステップS17では、現在の仮名表記の文
字位置から始まる、仮名表記の文字マトリクスに含まれ
る全ての仮名文字列のリストを作成する。
【0107】ステップS18では、ステップS16で作
成した漢字文字列のリストと、ステップS17で作成し
た仮名文字列のリストの全ての組合せから構成される単
語リストを作成する。このリストの中で、単語辞書に照
合しないものは未知語とみなす。
【0108】ステップS19では、ステップS16で作
成した漢字文字列のリスト、及び、ステップS17で作
成した仮名文字列のリストと類似照合する単語辞書中の
単語を、単語リストに追加する。
【0109】ステップS20では、単語リストから一つ
の単語を選ぶ。
【0110】ステップS21では、全ての単語を調べた
かを判定する。もしそうでなければ、ステップS28へ
進む。そうでなければ、以下の処理を各単語について行
なう。
【0111】ステップS22では、現在の単語(現在の
単語を最後の単語とする先頭からの単語列)が部分解析
テーブルに登録されているかどうかを調べる。もしそう
ならば、ステップS24へ進む。もしそうでなければ、
ステップS23において、この単語を部分解析テーブル
に登録し、部分解析(単語列)の確率を0に初期化した
後に、ステップS24へ進む。
【0112】ステップS24では、現在の単語列と現在
の単語の組合せによる新しい単語列の確率を求める。新
しい単語列の確率は、次式で表わされる。
【0113】
【数14】 ステップS25では、もし新しい単語列の確率が、最後
の単語が同じである以前の単語列の確率よりも大きいか
どうかを調べる。もしそうれあれば、ステップS26に
おいて新しい単語列の確率を部分解析テーブルに格納し
てステップS27へ進む。
【0114】ステップS27では、次の単語を選び、ス
テップS21へ戻る。
【0115】ステップS28では、次の単語列を選び、
ステップS15へ戻る。
【0116】ステップS29では、探索を仮名表記の次
の文字位置へ進め、ステップS13へ戻る。
【0117】ステップS30では、探索を漢字表記の次
の文字位置へ進め、ステップS12へ戻る。
【0118】〔7〕単語の類似照合 以下では、最適単語探索のステップS9における単語の
類似照合の方法について説明する。現在の漢字文字列の
文字位置をxとし、仮名文字列の文字位置をyとする。
【0119】先ず始めに、漢字文字列をキーにして単語
を類似検索する。
【0120】(1)現在の漢字表記の文字位置xから始
まり、漢字表記の文字マトリクスに含まれる全ての漢字
文字列のリストの要素と、漢字表記が一致する単語辞書
中の単語を全て検索して、類似単語候補リストを作成す
る。
【0121】(2)類似単語候補リストの各要素につい
て、その仮名表記と、現在の仮名表記の文字位置yから
始まり、仮名表記の文字マトリクスに含まれる全ての仮
名文字列との編集距離(一致しない文字数)の最小値を
求める。
【0122】(3)類似単語候補リストから、相対編集
距離(文字列の長さに対する一致しない文字の割合)が
0.5以下の単語を取り出し、これを出現頻度順に並
べ、最大5個を類似単語候補として生成する。
【0123】次に、仮名文字列をキーにして単語を類似
検索する。
【0124】(4)現在の仮名表記の文字位置yから始
まり、仮名表記の文字マトリクスに含まれる全ての仮名
文字列のリストの要素と、仮名表記が一致する単語辞書
中の単語を全て検索して、類似単語候補リストを作成す
る。
【0125】(5)類似単語候補リストの各要素につい
て、その漢字表記と、現在の漢字表記の文字位置xから
始まり、漢字表記の文字マトリクスに含まれる全ての漢
字文字列との編集距離(一致しない文字数)の最小値を
求める。
【0126】(6)類似単語候補リストから、相対編集
距離(文字列の長さに対する一致しない文字の割合)が
0.5以下の単語を取り出し、これを出現頻度順に並
べ、最大5個を類似単語候補として生成する。
【0127】(7)最後に、漢字文字列をキーにして生
成した単語候補と仮名文字列をキーにして生成した単語
候補の集合和(重複した単語候補を一つにまとめたも
の)を、最終的な類似単語候補とする。
【0128】なお、ここで説明した編集距離の閾値0.
5や最大候補数5は、パラメータの設定値の一例であ
り、最適な値は、たとえば、実験的に決定される。ま
た、上記の例では、最初に漢字文字列をキーにして単語
を類似検索し、次に仮名文字列をキーにして単語を類似
検索しているが、逆に、最初に仮名文字列をキーにして
単語を類似検索し、次に漢字文字列をキーにして単語を
類似検索してもよい。
【0129】
【実施例】最後に、本発明の一実施例による処理例を示
す。図11は、漢字表記「福井県福井市糸崎町」と仮名
表記「フクイケンフクイシイトザキチョウ」に対して文
字認識装置が出力した文字マトリクスの組に対する最適
単語列探索の例を説明する図である。
【0130】この処理例では、文字マトリクスは第2候
補までを使用している。たとえば、「福」という漢字に
対する第1候補及び第2候補は、それぞれ、「福」及び
「禍」であり、「フ」という仮名に対する第1候補及び
第2候補は、それぞれ、「フ」及び「ク」である。
【0131】最適単語列探索では、各文字位置におい
て、そこへ到達する単語列とそこから出発する単語の全
ての組合せを調べ、出発する単語の終了位置における単
語列の同時確率を更新する。
【0132】図11の左側では、漢字表記の文字位置を
x(横軸)、仮名表記の文字位置をy(縦軸)で表わ
し、ある文字位置(6,9)に到達する単語列と出発す
る単語の位置関係、すなわち、文字位置(6,9)に到
達する単語列の最後の単語の開始位置、及び、文字位置
(6,9)から始まる単語の終了位置を示している。
【0133】図11の右側では、文字位置(6,9)に
到達する単語列の最後の単語、及び、文字位置(6,
9)から始まる単語の組合せの全てを調べる様子を示し
ている。各単語は「漢字文字列/仮名文字列」で表現
し、単語に対応する箱の上部には、単語の開始位置と終
了位置の座標が示されている。また、単語が未知語の場
合は、箱の下部に単語タイプを示している。
【0134】単語候補には、単語辞書と完全一致したも
の、単語辞書と類似照合したもの、及び、単語辞書と照
合しなかったもの(未知語)の3種類ある。たとえば、
文字位置(3,5)から文字位置(6,9)にある単語
「福井市/フクイシ」は完全一致したものであり、漢字
文字列「福井市」及び仮名文字列「フクイシ」が文字マ
トリクスにあり、かつ、「福井市/フクイシ」が単語辞
書にある。
【0135】文字位置(6,9)から文字位置(8,1
3)にある単語「糸崎/イトザキ」は類似照合したもの
で、漢字文字列「糸崎」は文字マトリクスにあるが、仮
名文字列「イトザキ」は文字マトリクスになく、漢字文
字列をキーにして単語辞書から検索したものである。文
字位置(5,7)から文字位置(6,9)にある単語候
補「市/イシ」は未知語候補対であり、漢字文字列
「市」も仮名文字列「イシ」も文字マトリクスにある
が、この単語「市/イシ」は辞書にない。
【0136】図11には、ある文字位置(6,9)にお
ける処理の様子が示されているが、このような処理を原
点(0,0)から始めて(9,16)まで、平面上の全
ての格子点で行なうことにより、漢字表記と仮名表記の
同時確率と文字混同確率の積が最大となる単語列を求め
ることができる。
【0137】上記の本発明の実施例による文字認識誤り
訂正方法は、ソフトウェア(プログラム)で構築するこ
とが可能であり、コンピュータのCPUによってこのプ
ログラムを実行することにより本発明の実施例による文
字認識誤り訂正装置を実現することができる。構築され
たプログラムは、ディスク装置等に記録しておき必要に
応じてコンピュータにインストールされ、フレキシブル
ディスク、メモリカード、CD−ROM等の可搬記録媒
体に格納して必要に応じてコンピュータにインストール
され、或いは、通信回線等を介してコンピュータにイン
ストールされ、コンピュータのCPUによって実行され
る。
【0138】以上、本発明の代表的な実施例を説明した
が、本発明は、上記の実施例に限定されることなく、特
許請求の範囲内において、種々変更・応用が可能であ
る。
【0139】
【発明の効果】以上のように、本発明によれば、漢字文
字列と仮名文字列の同時確率を与える言語モデルと、文
字混同確率を与える文字認識装置モデルと、言語モデル
及び文字認識装置モデルに基づいて、入力された漢字文
字列と仮名文字列の文字認識結果の組に対して最も確率
が大きい単語列を求める最適単語列探索手段と、を用い
て漢字表記と仮名表記を対応付けることにより、同じ内
容が漢字表記と仮名表記で表現されているという冗長性
を利用して、漢字表記又は仮名表記のいずれか一方のみ
からでは訂正できない文字認識誤りを訂正することがで
きる、文字認識誤り訂正方法を実現できる。
【図面の簡単な説明】
【図1】本発明の第1実施例による文字認識誤り訂正シ
ステムの構成図である。
【図2】本発明の第1実施例による文字認識誤り訂正方
法のフローチャートである。
【図3】本発明の第2実施例による文字認識誤り訂正シ
ステムの構成図である。
【図4】単語辞書の例の説明図である。
【図5】単語bigramの出現頻度の例の説明図であ
る。
【図6】単語タイプの定義の例の説明図である。
【図7】単語タイプ別の漢字表記の平均長と仮名表記の
平均長の例の説明図である。
【図8】漢字表記の文字bigramの出現頻度の例の
説明図である。
【図9】仮名表記の文字bigramの出現頻度の例の
説明図である。
【図10】本発明の第3実施例による最適単語列探索処
理のフローチャートである。
【図11】最適単語列探索の例を示す図である。
【符号の説明】
1 文字認識装置 2 最適単語列探索部 3 単語照合部 4 未知語候補生成部 5 類似単語照合部 6 単語ngramモデル 7 単語辞書 8 未知語モデル 9 単語モデル 10 文字認識装置モデル 100 文字認識誤り訂正装置

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 第1の表記の文字列及び第2の表記の文
    字列を文字認識することによって得られた第1の表記に
    よる第1の文字列及び第2の表記による第2の文字列の
    組の文字認識誤り訂正方法であって、 第1の表記による文字列が第2の表記の文字列を第1の
    表記で表わした文字列であり、かつ、第2の表記の文字
    列が第1の表記の文字列を第2の表記で表わした文字列
    である単語同時確率を与える言語モデルと、第1の表記
    及び第2の表記のそれぞれについて、二つの文字のうち
    の一方が他方の文字に誤認識される文字混同確率を与え
    る文字認識装置モデルとを記憶手段に準備し、 該第1の文字列及び該第2の文字列の組に対し、該記憶
    手段に準備された該言語モデル及び該文字認識装置モデ
    ルを用いて、単語列候補を抽出し、該単語列候補の中か
    ら最も確率が高い単語列を選ぶことにより、最も確から
    しい第1の表記の文字列と第2の表記の文字列の組を獲
    得する、ことを特徴とする文字認識誤り訂正方法。
  2. 【請求項2】 第1の表記の文字列及び第2の表記の文
    字列を文字認識することによって得られた第1の表記に
    よる第1の文字列及び第2の表記による第2の文字列の
    組の文字認識誤り訂正方法であって、 モデルを記憶手段に設定する手順と、 該記憶手段に設定された該モデルを用いて、該第1の表
    記による第1の文字列及び該第2の表記による第2の文
    字列の組の単語列候補を抽出する手順と、 該記憶手段に設定された該モデルを用いて、該抽出され
    た単語列候補の中から、最も確率が高い単語列を選ぶこ
    とにより、最も確からしい第1の表記の文字列と第2の
    表記の文字列の組を獲得する手順と、を有し、 該モデルを該記憶手段に設定する手順は、 同じ単語を表わす第1の表記と第2の表記の組を記憶す
    る単語辞書を該記憶手段に格納し、単語の第1の表記と
    第2の表記の組の2個以上の連鎖の出現確率を与える単
    語連鎖モデルを該記憶手段に格納し、該単語辞書に登録
    されていない任意の第1の表記の文字列及び第2の表記
    の文字列が単語を構成する確率を与える未知語モデルを
    該記憶手段に格納し、第1の表記及び第2の表記のそれ
    ぞれについて、二つの文字のうちの一方が他方の文字に
    誤認識される文字混同確率を与える文字認識装置モデル
    を該記憶手段に格納する手順を含み、 該単語列候補を抽出する手順は、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組と完全一致する単語候補を該単語辞書から検索
    する手順と、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組と類似照合する類似単語候補を該単語辞書から
    検索する手順と、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組から、該単語辞書に登録されていない未知語候
    補を生成する手順と、を含み、 該最も確からしい第1の表記の文字列と第2の表記の文
    字列の組を獲得する手順は、 該単語候補、該類似単語候補、及び、該未知語候補の組
    合せに対し、該単語辞書、該単語連鎖モデル及び該未知
    語モデルを用いて、第1の表記による単語が第2の表記
    の単語を第1の表記で表わした単語であり、かつ、第2
    の表記の単語が第1の表記の単語を第2の表記で表わし
    た単語である単語同時確率を求め、該文字認識装置モデ
    ルを用いて文字混同確率を求め、該単語同時確率と該文
    字混同確率の積が最大になるような単語列を選ぶ手順を
    含む、ことを特徴とする文字認識誤り訂正方法。
  3. 【請求項3】 該単語辞書に登録されていない任意の第
    1の表記の文字列及び第2の表記の文字列が単語を構成
    する確率を与える該未知語モデルは、 単語の第1の表記を構成する文字の種類に基づいて定義
    された単語タイプの何れかに任意の単語を分類し、 単語タイプの出現頻度から単語タイプの出現確率を計算
    し、 各単語タイプの第1の表記の平均単語長と第2の表記の
    平均単語長から、第1の表記の長さと第2の表記の長さ
    の同時確率を計算し、 第1の表記の2個以上の文字の連鎖及び第2の表記の2
    個以上の文字の連鎖から、第1の表記の文字列の出現確
    率及び第2の表記の文字列の出現確率を計算することに
    より、 単語の第1の表記を構成する文字の種類に基づいて分類
    された単語タイプ別に第1の表記の文字列と第2の表記
    の文字列の組が単語を構成する確率を推定するように用
    いられること特徴とする請求項2記載の文字認識誤り訂
    正方法。
  4. 【請求項4】 第1の表記の文字列及び第2の表記の文
    字列を文字認識することによって得られた第1の表記に
    よる第1の文字列及び第2の表記による第2の文字列の
    組の文字認識誤り訂正装置であって、 第1の表記による文字列が第2の表記の文字列を第1の
    表記で表わした文字列であり、かつ、第2の表記の文字
    列が第1の表記の文字列を第2の表記で表わした文字列
    である単語同時確率を与える言語モデルと、 第1の表記及び第2の表記のそれぞれについて、二つの
    文字のうちの一方が他方の文字に誤認識される文字混同
    確率を与える文字認識装置モデルと、 該第1の文字列及び該第2の文字列の組に対し、該記憶
    手段に準備された該言語モデル及び該文字認識装置モデ
    ルを用いて、単語列候補を抽出し、該単語列候補の中か
    ら最も確率が高い単語列を選ぶことにより、最も確から
    しい第1の表記の文字列と第2の表記の文字列の組を獲
    得する最適単語列探索手段と、を有することを特徴とす
    る文字認識誤り訂正装置。
  5. 【請求項5】 第1の表記の文字列及び第2の表記の文
    字列を文字認識することによって得られた第1の表記に
    よる第1の文字列及び第2の表記による第2の文字列の
    組の文字認識誤り訂正装置であって、 モデルを記憶する記憶手段と、 該記憶手段に設定された該モデルを用いて、該第1の表
    記による第1の文字列及び該第2の表記による第2の文
    字列の組の単語列候補を抽出する手段と、 該記憶手段に設定された該モデルを用いて、該抽出され
    た単語列候補の中から、最も確率が高い単語列を選ぶこ
    とにより、最も確からしい第1の表記の文字列と第2の
    表記の文字列の組を獲得する最適単語列探索手段と、を
    有し、 該記憶手段に格納される該モデルは、 同じ単語を表わす第1の表記と第2の表記の組を記憶す
    る単語辞書と、 単語の第1の表記と第2の表記の組の2個以上の連鎖の
    出現確率を与える単語連鎖モデルと、 該単語辞書に登録されていない任意の第1の表記の文字
    列及び第2の表記の文字列が単語を構成する確率を与え
    る未知語モデルと、 第1の表記及び第2の表記のそれぞれについて、二つの
    文字のうちの一方が他方の文字に誤認識される文字混同
    確率を与える文字認識装置モデルと、を含み、 該単語列候補を抽出する手段は、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組と完全一致する単語候補を該単語辞書から検索
    する単語照合手段と、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組と類似照合する類似単語候補を該単語辞書から
    検索する類似単語照合手段と、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組から、該単語辞書に登録されていない未知語候
    補を生成する未知語候補生成手段と、を含み、 該最適単語列探索手段は、 該単語候補、該類似単語候補、及び、該未知語候補の組
    合せに対し、該単語辞書、該単語連鎖モデル及び該未知
    語モデルを用いて、第1の表記による単語が第2の表記
    の単語を第1の表記で表わした単語であり、かつ、第2
    の表記の単語が第1の表記の単語を第2の表記で表わし
    た単語である単語同時確率を求め、該文字認識装置モデ
    ルを用いて文字混同確率を求め、該単語同時確率と該文
    字混同確率の積が最大になるような単語列を選ぶ、こと
    を特徴とする文字認識誤り訂正装置。
  6. 【請求項6】 該単語辞書に登録されていない任意の第
    1の表記の文字列及び第2の表記の文字列が単語を構成
    する確率を与える該未知語モデルは、 単語の第1の表記を構成する文字の種類に基づいて定義
    された単語タイプの何れかに任意の単語を分類する単語
    タイプ判定手段と、 各単語タイプの第1の表記の平均単語長と第2の表記の
    平均単語長から、第1の表記の長さと第2の表記の長さ
    の同時確率を計算する単語長確率計算手段と、第1の表
    記の2個以上の文字の連鎖及び第2の表記の2個以上の
    文字の連鎖から、第1の表記の文字列の出現確率及び第
    2の表記の文字列の出現確率を計算する単語表記確率計
    算手段と、 単語の第1の表記を構成する文字の種類に基づいて分類
    された単語タイプ別に第1の表記の文字列と第2の表記
    の文字列の組が単語を構成する確率を推定する未知語確
    率計算手段と、を含むこと特徴とする請求項5記載の文
    字認識誤り訂正装置。
  7. 【請求項7】 第1の表記の文字列及び第2の表記の文
    字列を文字認識することによって得られた第1の表記に
    よる第1の文字列及び第2の表記による第2の文字列の
    組の文字認識誤り訂正プログラムであって、 第1の表記による文字列が第2の表記の文字列を第1の
    表記で表わした文字列であり、かつ、第2の表記の文字
    列が第1の表記の文字列を第2の表記で表わした文字列
    である単語同時確率を与える言語モデルと、 第1の表記及び第2の表記のそれぞれについて、二つの
    文字のうちの一方が他方の文字に誤認識される文字混同
    確率を与える文字認識プログラムモデルと、 該第1の文字列及び該第2の文字列の組に対し、該記憶
    機能に準備された該言語モデル及び該文字認識プログラ
    ムモデルを用いて、単語列候補を抽出し、該単語列候補
    の中から最も確率が高い単語列を選ぶことにより、最も
    確からしい第1の表記の文字列と第2の表記の文字列の
    組を獲得する最適単語列探索機能と、をコンピュータに
    実現させることを特徴とする文字認識誤り訂正プログラ
    ム。
  8. 【請求項8】 第1の表記の文字列及び第2の表記の文
    字列を文字認識することによって得られた第1の表記に
    よる第1の文字列及び第2の表記による第2の文字列の
    組の文字認識誤り訂正プログラムであって、 モデルを記憶する記憶機能と、 該記憶機能に設定された該モデルを用いて、該第1の表
    記による第1の文字列及び該第2の表記による第2の文
    字列の組の単語列候補を抽出する機能と、 該記憶機能に設定された該モデルを用いて、該抽出され
    た単語列候補の中から、最も確率が高い単語列を選ぶこ
    とにより、最も確からしい第1の表記の文字列と第2の
    表記の文字列の組を獲得する最適単語列探索機能と、を
    コンピュータに実現させ、 該記憶機能に格納される該モデルは、 同じ単語を表わす第1の表記と第2の表記の組を記憶す
    る単語辞書と、 単語の第1の表記と第2の表記の組の2個以上の連鎖の
    出現確率を与える単語連鎖モデルと、 該単語辞書に登録されていない任意の第1の表記の文字
    列及び第2の表記の文字列が単語を構成する確率を与え
    る未知語モデルと、 第1の表記及び第2の表記のそれぞれについて、二つの
    文字のうちの一方が他方の文字に誤認識される文字混同
    確率を与える文字認識プログラムモデルと、を含み、 該単語列候補を抽出する機能は、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組と完全一致する単語候補を該単語辞書から検索
    する単語照合機能と、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組と類似照合する類似単語候補を該単語辞書から
    検索する類似単語照合機能と、 該第1の文字列と該第2の文字列の組合せとして可能性
    のある組から、該単語辞書に登録されていない未知語候
    補を生成する未知語候補生成機能と、を含み、 該最適単語列探索機能は、 該単語候補、該類似単語候補、及び、該未知語候補の組
    合せに対し、該単語辞書、該単語連鎖モデル及び該未知
    語モデルを用いて、第1の表記による単語が第2の表記
    の単語を第1の表記で表わした単語であり、かつ、第2
    の表記の単語が第1の表記の単語を第2の表記で表わし
    た単語である単語同時確率を求め、該文字認識プログラ
    ムモデルを用いて文字混同確率を求め、該単語同時確率
    と該文字混同確率の積が最大になるような単語列を選
    ぶ、ことを特徴とする文字認識誤り訂正プログラム。
  9. 【請求項9】 該単語辞書に登録されていない任意の第
    1の表記の文字列及び第2の表記の文字列が単語を構成
    する確率を与える該未知語モデルは、 単語の第1の表記を構成する文字の種類に基づいて定義
    された単語タイプの何れかに任意の単語を分類する単語
    タイプ判定機能と、 各単語タイプの第1の表記の平均単語長と第2の表記の
    平均単語長から、第1の表記の長さと第2の表記の長さ
    の同時確率を計算する単語長確率計算機能と、 第1の表記の2個以上の文字の連鎖及び第2の表記の2
    個以上の文字の連鎖から、第1の表記の文字列の出現確
    率及び第2の表記の文字列の出現確率を計算する単語表
    記確率計算機能と、 単語の第1の表記を構成する文字の種類に基づいて分類
    された単語タイプ別に第1の表記の文字列と第2の表記
    の文字列の組が単語を構成する確率を推定する未知語確
    率計算機能と、を含むこと特徴とする請求項8記載の文
    字認識誤り訂正プログラム。
  10. 【請求項10】 漢字表記と仮名表記の組を文字認識し
    た結果が入力として与えられ、この入力中の文字認識誤
    りを訂正する文字認識誤り訂正装置であって、 任意の漢字列と仮名列について、漢字列と仮名列の同時
    確率、すなわち、漢字列が仮名列の漢字表記であり、か
    つ、仮名列が漢字列の仮名表記である確率を与える言語
    モデルと、 任意の二つの文字について、文字混同確率、すなわち、
    一方の文字が他方の文字に誤認識される確率を与える文
    字認識装置モデルと、 言語モデルと文字認識装置モデルに基づいて、入力され
    た漢字表記と仮名表記の文字認識結果の組に対して最も
    確率が大きい漢字表記と仮名表記の組を求める最適文字
    列探索手段と、を備え、 漢字表記と仮名表記を対応付けることにより、同じ内容
    が漢字表記と仮名表記で表現されているという冗長性を
    利用して、文字認識の誤りを訂正することを特徴とする
    文字認識誤り訂正装置。
  11. 【請求項11】 漢字表記と仮名表記の組を文字認識し
    た結果が入力として与えられ、この入力中の文字認識誤
    りを訂正する日本語文字認識誤り訂正装置であって、 漢字表記と仮名表記のそれぞれに対する文字マトリク
    ス、すなわち、各文字位置において文字認識スコアの高
    い順番に文字候補を並べたリストのリストを入力とし、 単語の漢字表記と仮名表記の組を記憶する単語辞書と、 単語の漢字表記と仮名表記の組のngram出現確率を
    与える単語ngramモデルと、 単語辞書に登録されていない任意の漢字列と仮名列の組
    が単語を構成する確率を与える未知語モデルと、 任意の二つの文字について、文字混同確率、すなわち、
    一方の文字が他方の文字に誤認識される確率を与える文
    字認識装置モデルと、 漢字表記の文字マトリクスと仮名表記の文字マトリクス
    に含まれる漢字列と仮名列の組と完全一致する単語辞書
    中の単語を検索する単語照合手段と、 漢字表記の文字マトリクスと仮名表記の文字マトリクス
    に含まれる漢字列と仮名列の組と類似照合する単語辞書
    中の単語を検索する類似単語照合手段と、 漢字表記の文字マトリクスと仮名表記の文字マトリクス
    に含まれる漢字列と仮名列の組から、単語辞書に登録さ
    れていない単語、すなわち、未知語の候補を生成する未
    知語候補生成手段と、 前記単語照合手段により検索された単語、前記類似単語
    照合手段により検索された単語、及び、前記未知候補生
    成手段により生成された未知語の組合せの中から、言語
    モデルと文字認識装置モデルに基づいて、入力された漢
    字表記と仮名表記の文字マトリクスの組に対して最も確
    率が大きい単語列を求める最適単語列探索手段と、を備
    え、 漢字表記と仮名表記を対応付けることにより、同じ内容
    が漢字表記と仮名表記で表現されているという冗長性を
    利用して、漢字表記又は仮名表記のいずれか一方のみか
    らでは訂正できない誤りを訂正し、入力が辞書に登録さ
    れていない単語を含む場合でも未知語モデルに基づいて
    漢字列と仮名列の組の出現確率を推定し、正解文字が文
    字マトリクスに含まれていない場合でも類似単語照合に
    よって単語候補を検索することを特徴とする、文字認識
    誤り訂正装置。
  12. 【請求項12】 単語辞書に登録されていない任意の漢
    字列と仮名列の組が単語を構成する確率を与える未知語
    モデルは、 単語の漢字表記を構成する文字の種類に基づいて定義さ
    れた単語タイプのいずれかに任意の単語を分類する単語
    タイプ判定手段と、 単語タイプの出現頻度から単語タイプの出現確率を求め
    る単語タイプ確率計算手段と、 各単語タイプの漢字表記と仮名表記の平均単語長から、
    漢字表記の長さとかな表記の長さの同時確率を求める単
    語長確率計算手段と、 漢字表記の文字ngram頻度と仮名表記の文字ngr
    am頻度から、漢字表記の文字列の出現確率及び仮名表
    記の文字列の出現確率を求める単語表記確率計算手段
    と、を備え、 単語の漢字表記を構成する文字の種類に基づいて分類さ
    れた単語タイプ別に漢字列と仮名列の組が単語を構成す
    る確率を推定することを特徴とする未知語モデルを備え
    た、請求項11記載の文字認識誤り訂正装置。
JP2002140463A 2002-05-15 2002-05-15 文字認識誤り訂正方法、装置及びプログラム Expired - Fee Related JP3975825B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002140463A JP3975825B2 (ja) 2002-05-15 2002-05-15 文字認識誤り訂正方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002140463A JP3975825B2 (ja) 2002-05-15 2002-05-15 文字認識誤り訂正方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2003331214A true JP2003331214A (ja) 2003-11-21
JP3975825B2 JP3975825B2 (ja) 2007-09-12

Family

ID=29701344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002140463A Expired - Fee Related JP3975825B2 (ja) 2002-05-15 2002-05-15 文字認識誤り訂正方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP3975825B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649590B2 (en) 2008-09-22 2014-02-11 Glory Ltd. Paper sheet management apparatus, paper sheet management method, and paper sheet management program
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及***
CN109828981A (zh) * 2017-11-22 2019-05-31 阿里巴巴集团控股有限公司 一种数据处理方法及计算设备
JP2019204417A (ja) * 2018-05-25 2019-11-28 株式会社ふくおかフィナンシャルグループ 帳票認識システム
CN111062376A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 基于光学字符识别与纠错紧耦合处理的文本识别方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649590B2 (en) 2008-09-22 2014-02-11 Glory Ltd. Paper sheet management apparatus, paper sheet management method, and paper sheet management program
JP5512527B2 (ja) * 2008-09-22 2014-06-04 グローリー株式会社 紙葉類管理装置、紙葉類管理方法及び紙葉類管理プログラム
CN109828981A (zh) * 2017-11-22 2019-05-31 阿里巴巴集团控股有限公司 一种数据处理方法及计算设备
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN108564086B (zh) * 2018-03-17 2024-05-10 上海柯渡医学科技股份有限公司 一种字符串的识别校验方法及装置
US11227154B2 (en) 2018-05-25 2022-01-18 Fukuoka Financial Group, Inc. Ledger recognition system
WO2019225157A1 (ja) * 2018-05-25 2019-11-28 株式会社ふくおかフィナンシャルグループ 帳票認識システム
CN110785773A (zh) * 2018-05-25 2020-02-11 福冈金融集团株式会社 票据识别***
JP2019204417A (ja) * 2018-05-25 2019-11-28 株式会社ふくおかフィナンシャルグループ 帳票認識システム
CN110785773B (zh) * 2018-05-25 2023-09-05 福冈金融集团株式会社 票据识别***
CN109213998B (zh) * 2018-08-17 2023-06-23 上海蜜度信息技术有限公司 中文错字检测方法及***
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及***
CN111062376A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 基于光学字符识别与纠错紧耦合处理的文本识别方法

Also Published As

Publication number Publication date
JP3975825B2 (ja) 2007-09-12

Similar Documents

Publication Publication Date Title
Kissos et al. OCR error correction using character correction and feature-based word classification
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
JP4421134B2 (ja) 文書画像検索装置
JP2726568B2 (ja) 文字認識方法及び装置
US7610193B2 (en) Document based character ambiguity resolution
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
WO2004042641A2 (en) Post-processing system and method for correcting machine recognized text
CN111695343A (zh) 错词纠正方法、装置、设备及存储介质
JPH0736882A (ja) 辞書検索装置
US10963717B1 (en) Auto-correction of pattern defined strings
WO2007086059A2 (en) Determining near duplicate 'noisy' data objects
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
Lehal et al. A shape based post processor for Gurmukhi OCR
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
Aliwy et al. Corpus-based technique for improving Arabic OCR system
JP2012098905A (ja) 文字認識装置、文字認識方法及びプログラム
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
Mohapatra et al. Spell checker for OCR
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP3369127B2 (ja) 形態素解析装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法
CN115146630B (zh) 基于专业领域知识的分词方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070611

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100629

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110629

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120629

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130629

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140629

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees