JPH11328317A

JPH11328317A - 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体

Info

Publication number: JPH11328317A
Application number: JP10127615A
Authority: JP
Inventors: Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-05-11
Filing date: 1998-05-11
Publication date: 1999-11-30
Anticipated expiration: 2018-05-11
Also published as: JP4066507B2

Abstract

(57)【要約】【課題】本発明は、長さが短い訂正対象単語及び前後
の文脈情報が利用できない訂正対象単語に対し訂正単語
候補を正確に提示する日本語文字認識誤り訂正方法及び
装置の提供を目的とする。【解決手段】本発明は、文字認識装置からの文字マト
リクス中の文字列と完全一致する単語辞書中の単語を同
定するため単語照合手段が単語候補を生成し、文字マト
リクス中の未知語を同定するため未知語候補生成手段が
未知語候補を生成し、正解文字が候補文字に含まれてい
ない単語の訂正候補を生成するため類似単語照合手段が
文字マトリクスの部分文字列と類似した辞書中の単語を
文字混同確率と単語出現確率とに基づいて文脈を利用せ
ずに検索し、形態素解析手段が同定された単語、未知単
語候補及び類似照合単語の組合せの中から単語分割モデ
ルに基づいて単語列を確率が高い順番に任意の個数だけ
出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、印刷文字又は手書
き文字を認識する日本語文字認識装置の文字認識誤りを
訂正する技術に係わり、特に、光学的文字認識装置（Ｏ
ＣＲ）が出力する文字認識誤りを含む日本語テキストに
対して、統計的言語モデルと、統計的文字認識装置モデ
ルと、確率的形態素解析アルゴリズムとを用いて、入力
文に含まれる誤りを高い精度で訂正できる技術に関す
る。

【０００２】

【従来の技術】従来の文字認識の誤り訂正法は、（１）
文字の接続確率（文字ｎｇｒａｍ確率）を利用する方
法、（２）単語の接続確率（単語ｎｇｒａｍ確率）を利
用する方法の二つに大別できる。文字の接続確率を利用
する方法（例えば、杉村・斉藤「文字連接情報を用いた
読取不能文字の判定処理−文字認識への応用−」電子情
報通信学会論文誌 Vol.J68-D No.1, pp.64-71, 1985）
は、文字接続表又は文字接続確率を用いて、隣接する文
字候補の接続の可否（又は尤もらしさ）を判定すること
により、誤りの検出・訂正を行う。

【０００３】この文字の連接情報を利用する方法は、実
現が容易で、かつ、比較的大きな認識性能の向上が達成
できる。しかし、入力文を単なる文字列として扱うの
で、単語を構成しない文字列や、文法的に正しくない文
字列を許容することが多く、一般的には単語の接続確率
を用いる方法よりも訂正精度が低い。これに対して、単
語の接続確率を利用する方法（例えば、高尾・西野「日
本語文書リーダ後処理の実現と評価」情報処理学会論文
誌 Vol.33 No.5, pp.664-670, 1992 、伊東・丸山「Ｏ
ＣＲ入力された日本語文の誤り検出と自動訂正」情報処
理学会論文誌 Vol.33 No.5, pp.664-670, 1992 など）
は、文字認識の候補文字を組み合わせて構成される単語
を単語辞書から検索しながら単語間の接続を検査し、文
頭から文末までに到達する単語列の中で最適なものを正
解文字列とする。

【０００４】この単語辞書と単語接続情報を利用する方
法は、(a) 辞書に登録されていない単語が入力文中に存
在したり、(b) 正解文字が候補文字に含まれていない場
合に、性能が大きく低下するという問題点がある。辞書
に登録されていない単語への対処法としては、未登録語
テンプレートを使って未登録語を発見し、文字の接続確
率を使って文字列を限定する方法がある（前述の高尾・
西野の論文）。しかし、この未登録語テンプレートは、
発見的（ヒューリスティック）に人手で作成せねばなら
ず、網羅性や移植性に問題がある。

【０００５】正解文字が候補文字に含まれていない場合
の対処法としては、候補文字補完と類似単語照合とがあ
る。候補文字補完とは、予め文字認識が誤りそうな類似
文字の組を定義しておき、文字認識結果の候補文字に対
して、無条件にこの類似文字を候補として付け加える方
法である（杉村「候補文字補完と言語処理による漢字認
識の誤り訂正処理法」電子情報通信学会論文誌 Vol.J8
2-D-II No.7, pp.993-1000, 1989 ）。候補文字補完
は、補完した文字が必ずしも正解文字を含むとは限らな
いのに、誤り訂正に必要な計算量を一様に大きく増加さ
せる問題がある。

【０００６】類似単語照合とは、単語辞書との照合の際
に、完全に一致したものだけではなく、類似した（部分
的に一致した）単語も検索する方法である（例えば、Wa
gnerとFishcer “The String-to-String Correction Pr
oblem" Journal of ACM Vol.21 No.1, pp.168-173,
1974）。類似単語照合の際に用いる距離尺度としては、
一方の文字列を他方の文字列に変換するのに必要な挿入
・削除・置換の回数を表す編集距離(edit distance) を
用いるのが一般的である。

【０００７】類似単語照合は、英語のように長い単語が
多い（平均約５文字）言語のスペルチェックなどでは有
効である。しかし、日本語のように短い単語が多い（平
均約２文字）言語では、あまり有効ではない。例えば、
単語の類似度を一致した文字数で計測する場合、一文字
が一致する二文字単語の組は非常に多く存在し、すべて
の一文字単語の組は同じ類似度を持つという問題があ
る。

【０００８】文字認識誤り訂正における日本語向きの類
似単語照合法としては、まず編集距離に基づいて訂正単
語候補集合を作成し、前後の文脈に基づいて訂正単語候
補を順位付けする方法が提案されている（永田「日本語
文字認識方法及び装置」、特願平7-115926号、1995）。
しかし、文脈を利用する方法は、氏名のように単語の長
さが短く、かつ、前後の文脈が利用できない場合には、
有効に作用しないという問題がある。

【０００９】

【発明が解決しようとする課題】本発明は、上記従来手
法の問題点に鑑み、１．訂正対象となる単語の長さが短
い場合、及び、２．訂正対象となる単語の前後の文脈情
報が利用できない場合に訂正単語候補を正確に提示する
ことができる日本語文字認識誤り訂正方法及び装置を提
供することを目的とする。

【００１０】

【課題を解決するための手段】上記目的を達成する本発
明の日本語文字認識誤り訂正方法は、入力として与えら
れた日本語文に含まれる文字認識誤りを訂正する単語候
補として、単語の出現頻度と文字の図形的類似度とに基
づいて任意の個数の単語を確率が高い順番に提示するこ
とを特徴とする。

【００１１】図１は本発明の原理構成図である。本発明
の日本語文字認識誤り訂正装置は、文字認識誤りを含む
日本語テキストの誤りを訂正する。同図に示す如く、本
発明の日本語認識誤り訂正装置は、文字マトリクス、即
ち、入力文の各文字位置において文字認識スコアの高い
順番に文字候補を並べたリストを入力とし、連続する二
つの単語において第１の単語が与えられたときの第２の
単語の条件付き出現確率である単語二つ組確率を与える
単語分割モデル７と、単語分割モデル７が持っている単
語辞書と文字マトリクスに含まれる文字列を照合する単
語照合手段４とを有する。また、日本語認識誤り訂正装
置は、平均単語長と、連続する二つの文字において第１
の文字が与えられたときの第２の文字の条件付き出現確
率である文字二つ組確率とから、任意の文字列を表記と
する単語の出現確率を与える単語モデル５と、辞書に登
録されていない単語を同定するために文字マトリクスに
含まれる部分文字列から単語モデル５に基づいて未知語
候補を生成する未知語候補生成手段２とを有する。日本
語認識誤り訂正装置は、任意の二つ文字の間の文字混同
確率を与える文字認識装置モデル６と、正解文字が候補
文字に含まれていない場合に訂正単語候補を生成するた
めに文字混同確率と単語出現確率とに基づいて文字マト
リクスに含まれる文字列と類似した単語を検索する類似
単語照合手段３を更に有する。また、日本語誤り訂正装
置は、単語分割モデル７、単語モデル５、及び文字認識
装置モデル６に基づいて、単語列の同時確率と各文字の
文字混同確率との積が大きい順に任意の個数の単語列を
求める形態素解析手段１を有する。

【００１２】図２は本発明の原理を説明するためのフロ
ーチャートである。本発明の日本語認識誤り訂正方法
は、文字認識装置８が出力した文字マトリクスを入力と
し、最初に、文字マトリクスに含まれる文字列と完全に
一致する単語辞書中の単語を同定するために、単語照合
手段４が単語候補を生成する（ステップ１）。次に、文
字マトリクスに含まれる未知語、即ち、辞書に登録され
ていない単語を同定するために、未知語候補生成手段２
が未知語候補、即ち、単語の表記と出現確率との組を生
成する（ステップ２）。更に、正解文字が候補文字に含
まれていない単語の訂正候補を生成するために、類似単
語照合手段３が文字マトリクスに含まれる部分文字列と
類似した辞書中の単語を、文字混同確率と単語出現確率
とに基づいて前後の文脈を利用せずに検索する（ステッ
プ３）。最後に、形態素解析手段１が、文字マトリクス
に含まれる辞書中の単語、未知単語候補、及び、類似照
合単語の組合せの中から、単語分割モデル７に基づい
て、形態素解析候補、即ち、単語列を確率が高い順番に
任意の個数だけ出力する（ステップ４）。

【００１３】従って、本発明によれば、入力文が登録さ
れていない単語を含む場合や、正解文字が文字候補に含
まれていない場合でも、文字混同確率と単語出現確率と
に基づいて文脈を利用せずに短い単語の訂正候補を生成
し、単語列の同時確率と各文字の文字混同確率の積が大
きい順に単語列を提示する日本語文字認識誤り訂正方法
及び装置が実現できる。

【００１４】以下、上記本発明の目的を達成する本発明
の日本語文字認識方法及び日本語文字認識装置の種々の
構成を説明する。図３は本発明の日本語文字認識誤り訂
正方法の説明図である。同図に示す如く、本発明の日本
語文字認識誤り訂正方法は、文字認識誤りを含む日本語
文を入力し（ステップ９１）、文を構成する単語列の同
時確率を与える単語分割モデル９１と、任意の二つの文
字の間の文字混同確率を与える文字認識装置モデル９２
とに基づいて、上記訂正対象となる単語の文字列と類似
照合する辞書９３中の単語を検索し（ステップ９２）、
訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示する（ステップ９３）。

【００１５】尚、上記説明及び図３において、辞書９３
は単語分割モデル９１と別個に設けられているが、辞書
９３は単語分割モデル９１に含まれていても構わない。
図４は上記本発明の方法を実現する日本語文字認識誤り
訂正装置１０の構成図である。日本語文字認識誤り訂正
装置１０は、単語の出現頻度を格納する記憶手段１２
と、文字の図形的類似度を計算する計算手段１３と、入
力手段１１に与えられた日本語文を構成する単語の出現
頻度を上記記憶手段１２から獲得し、上記計算手段１３
によって計算された上記日本文を構成する文字の図形的
類似度を獲得し、上記獲得された単語の出現頻度及び文
字の図形的類似度とに基づいて、上記日本語文に含まれ
る文字認識誤りを訂正する単語候補として、任意の個数
の単語を確率が高い順番に提示する手段１４とからな
る。

【００１６】図５は、本発明による他の日本語文字認識
誤り訂正装置２０の構成図である。同図に示す日本語文
字認識誤り訂正装置２０は、入力手段２１に与えられた
日本語文に含まれる文字列と一致する単語を単語候補と
して生成する手段２２と、上記文に含まれる未知の部分
文字列を未知語候補として生成する手段２３と、上記文
に含まれる部分文字列と類似した単語を上記文の文脈と
は無関係に訂正単語候補として生成する手段２４と、上
記単語候補、上記未知語候補及び上記訂正単語候補の組
合せの中から、上記日本語文に含まれる文字認識誤りの
訂正単語列として、任意の個数の単語候補列を確率の高
い順番に出力する手段２５とからなる。

【００１７】図６は上記本発明の日本語文字認識誤り訂
正装置２０が実施する誤り訂正方法の動作説明図であ
る。同図に示す如く、本発明の日本語文字認識誤り訂正
方法は、入力として与えられた日本語文に含まれる文字
列と一致する単語を単語候補として生成し（ステップ２
１）、上記文に含まれる未知の部分文字列を未知語候補
として生成し（ステップ２２）、上記文に含まれる部分
文字列と類似した単語を上記文の文脈とは無関係に訂正
単語候補として生成し（ステップ２３）、上記単語候
補、上記未知語候補及び上記訂正単語候補の組合せの中
から、上記日本語文に含まれる文字認識誤りの訂正単語
列として、任意の個数の単語候補列を確率の高い順番に
出力する（ステップ２４）。

【００１８】図７は、本発明による他の日本語文字認識
誤り訂正装置３０の構成図である。同図に示す入力とし
て与えられた日本語文に含まれる文字認識誤りを訂正す
る日本語文字認識誤り訂正装置３０は、文を構成する単
語列の同時確率を与える単語分割モデル格納手段３１
と、任意の二つの文字の間の文字混同確率を与える文字
認識装置モデル格納手段３２と、上記訂正対象となる単
語の文字列と類似照合する辞書３５中の単語を検索する
類似単語照合手段３３と、訂正対象となる単語の長短、
並びに、訂正対象となる単語の前後の文脈情報の利用の
可否には係わらず、上記訂正対象となる単語の訂正単語
候補として任意の個数の単語を確率の高い順番に提示す
る手段３４とからなる。

【００１９】上記本発明の入力として与えられた日本語
文に含まれる文字認識誤りを訂正する日本語文字認識誤
り訂正装置３０において、類似単語照合手段３３は、文
を構成する単語列の同時確率を与える単語分割モデル３
１と、任意の二つの文字の間の文字混同確率を与える文
字認識装置モデル３２とに基づいて、上記訂正対象とな
る単語の文字列と類似照合する辞書３５中の単語を検索
し、訂正単語候補提示手段３４は、訂正対象となる単語
の長短、並びに、訂正対象となる単語の前後の文脈情報
の利用の可否には係わらず、上記訂正対象となる単語の
訂正単語候補として任意の個数の単語を確率の高い順番
に提示する。

【００２０】図８は、本発明による他の日本語文字認識
誤り訂正装置４０の構成図である。同図に示す日本語文
字認識誤り訂正装置４０は、日本語文の各文字位置毎に
文字認識スコアの高い順番に並べられた文字候補のリス
トである文字マトリクスを入力する手段４１と、平均単
語長と、連続する二つの文字において第１の文字が与え
られたときの第２の文字の条件付き出現確率を示す文字
二つ組確率とを記憶する単語モデル格納手段４２と、上
記単語モデル格納手段４２に記憶された平均単語長及び
文字二つ組確率に基づいて、上記文字マトリクスに含ま
れる部分文字列の中から、未知語候補として任意の個数
の未知語の表記と出現確率の組を確率が高い順番に求め
る未知語候補生成手段４３と、上記日本語文が辞書に登
録されていない単語を含むか否かとは係わらず、上記未
知語候補を含む単語候補の組合せの中から、上記日本語
文を構成する単語列の同時確率と上記日本語文を構成す
る各文字の文字混同確率との積が大きい順番に任意の個
数の単語候補列を提示する手段４４とからなる。

【００２１】上記日本語文字認識誤り訂正装置４０は、
日本語文の各文字位置毎に文字認識スコアの高い順番に
並べられた文字候補のリストである文字マトリクスを入
力し、平均単語長と、連続する二つの文字において第１
の文字が与えられたときの第２の文字の条件付き出現確
率を示す文字二つ組確率とに基づいて、上記文字マトリ
クスに含まれる部分文字列の中から、未知語候補として
任意の個数の未知語の表記と出現確率の組を確率が高い
順番に求め、上記日本語文が辞書に登録されていない単
語を含むか否かとは係わらず、上記未知語候補を含む単
語候補の組合せの中から、上記日本語文を構成する単語
列の同時確率と上記日本語文を構成する各文字の文字混
同確率との積が大きい順番に任意の個数の単語候補列を
提示する。

【００２２】図９は、本発明による他の日本語文字認識
誤り訂正装置５０の構成図である。同図に示す日本語文
字認識誤り訂正装置５０は、日本語文の各文字位置毎に
文字認識スコアの高い順番に並べられた文字候補のリス
トである文字マトリクスを入力する手段５１と、文字マ
トリクスに含まれる文字列と類似照合する辞書中の単語
を検索し、ある文字がどの文字にどれくらいの頻度で認
識されるかを示す文字混同行列及び文字の図形的特徴を
数値化した文字特徴ベクトルから推定される二つの文字
の間の文字混同確率を記憶する文字認識装置モデル格納
手段５２と、正解文字が上記文字候補に含まれているか
否かとは係わらず、上記文字認識装置モデル格納手段か
ら得られた上記日本語文を構成する各文字の文字混同確
率が大きい順番に任意の個数の単語候補列を提示する手
段５３とからなる。

【００２３】本発明の日本語文字認識誤り訂正装置５０
は、日本語文の各文字位置毎に文字認識スコアの高い順
番に並べられた文字候補のリストである文字マトリクス
を入力し、文字マトリクスに含まれる文字列と類似照合
する辞書中の単語を検索し、ある文字がどの文字にどれ
くらいの頻度で認識されるかを示す文字混同行列及び文
字の図形的特徴を数値化した文字特徴ベクトルから二つ
の文字の間の文字混同確率を推定し、正解文字が上記文
字候補に含まれているか否かとは係わらず、上記日本語
文を構成する各文字の文字混同確率が大きい順番に任意
の個数の単語候補列を提示する。

【００２４】図１０は、本発明による他の日本語文字認
識誤り訂正装置６０の構成図である。同図に示す日本語
文字認識誤り訂正装置６０は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力する手段６１と、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率を記憶する文字認識装置モデル格
納手段６２と、単語出現確率を記憶する単語分割モデル
格納手段６３と、上記文字混同確率及び上記単語出現確
率に基づいて上記単語の順位付けを行なう類似単語照合
手段６４と、正解文字が上記文字候補に含まれているか
否かとは係わらず、上記順位付けされた単語を含む単語
候補の組合せの中から、上記日本語文を構成する単語列
の同時確率と上記日本語文を構成する各文字の文字混同
確率との積が大きい順番に任意の個数の単語候補列を提
示する手段６５とからなる。

【００２５】上記本発明の日本語文字認識誤り訂正装置
６０は、日本語文の各文字位置毎に文字認識スコアの高
い順番に並べられた文字候補のリストである文字マトリ
クスを入力し、文字マトリクスに含まれる文字列と類似
照合する辞書中の単語を検索し、ある文字がどの文字に
どれくらいの頻度で認識されるかを示す文字混同行列及
び文字の図形的特徴を数値化した文字特徴ベクトルから
推定される二つの文字の間の文字混同確率と単語出現確
率とに基づいて上記単語の順位付けを行い、正解文字が
上記文字候補に含まれているか否かとは係わらず、上記
順位付けされた単語を含む単語候補の組合せの中から、
上記日本語文を構成する単語列の同時確率と上記日本語
文を構成する各文字の文字混同確率との積が大きい順番
に任意の個数の単語候補列を提示する。

【００２６】図１１は、本発明による他の日本語文字認
識誤り訂正装置７０の構成図である。同図に示す日本語
文字認識誤り訂正装置７０は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力する手段７１と、上記
文字マトリクスに含まれる部分文字列と照合する辞書７
３中の単語を検索する単語照合手段７２と、平均単語長
と、連続する二つの文字において第１の文字が与えられ
たときの第２の文字の条件付き出現確率を示す文字二つ
組確率とを記憶する単語モデル格納手段７４と、上記日
本語文が辞書に登録されていない単語を含む場合に、上
記記憶された平均単語長及び文字二つ組確率に基づい
て、上記文字マトリクスに含まれる部分文字列の中か
ら、未知語候補として確率が高い順番に任意の個数の未
知語の表記と出現確率の組を求める未知語候補生成手段
７５と、正解文字が上記文字候補に含まれていない場合
に、文字マトリクスに含まれる文字列と類似照合する辞
書中の単語を検索し、ある文字がどの文字にどれくらい
の頻度で認識されるかを示す文字混同行列及び文字の図
形的特徴を数値化した文字特徴ベクトルから推定される
二つの文字の間の文字混同確率を記憶する文字認識装置
モデル格納手段７６と、単語出現確率を記憶する単語分
割モデル格納手段７７と、上記記憶された文字混同確率
及び単語出現確率に基づいて上記単語の順位付けを行な
う類似単語照合手段７８と、上記文字マトリクスに含ま
れる辞書中の単語、上記未知語候補、及び、上記順位付
けされた単語を含む単語候補の組合せの中から、上記日
本語文を構成する単語列の同時確率と上記日本語文を構
成する各文字の文字混同確率との積が大きい順番に任意
の個数の単語候補列を提示する形態素解析手段７９とか
らなる。

【００２７】上記本発明の日本語文字認識誤り訂正装置
７０は、日本語文の各文字位置毎に文字認識スコアの高
い順番に並べられた文字候補のリストである文字マトリ
クスを入力し、上記文字マトリクスに含まれる部分文字
列と照合する辞書中の単語を検索し、上記日本語文が辞
書に登録されていない単語を含む場合に、平均単語長
と、連続する二つの文字において第１の文字が与えられ
たときの第２の文字の条件付き出現確率を示す文字二つ
組確率とに基づいて、上記文字マトリクスに含まれる部
分文字列の中から、未知語候補として確率が高い順番に
任意の個数の未知語の表記と出現確率の組を求め、正解
文字が上記文字候補に含まれていない場合に、文字マト
リクスに含まれる文字列と類似照合する辞書中の単語を
検索し、ある文字がどの文字にどれくらいの頻度で認識
されるかを示す文字混同行列及び文字の図形的特徴を数
値化した文字特徴ベクトルから推定される二つの文字の
間の文字混同確率と単語出現確率とに基づいて上記単語
の順位付けを行い、上記文字マトリクスに含まれる辞書
中の単語、上記未知語候補、及び、上記順位付けされた
単語を含む単語候補の組合せの中から、上記日本語文を
構成する単語列の同時確率と上記日本語文を構成する各
文字の文字混同確率との積が大きい順番に任意の個数の
単語候補列を提示する。

【００２８】また、本発明は、日本語文字認識誤り訂正
装置に適用される文字認識装置モデル作成装置を提供す
る。図１２は文字認識装置モデル作成装置の構成図であ
る。同図に示す如く本発明の文字認識装置モデル作成装
置８０は、ある文字がどの文字にどれくらいの頻度で認
識されるかを与える文字混同頻度を記憶する文字混同頻
度格納手段８１と、文字の図形的特徴を数値化した文字
特徴ベクトルを記憶する文字特徴ベクトル格納手段８２
と、互いに距離が近い文字特徴ベクトルを一つにまとめ
ることにより、上記文字を複数の文字クラスに分類する
文字クラスタリング手段８３と、上記文字混同頻度及び
上記文字クラスに基づいて、ある文字クラスの文字がど
の文字クラスの文字にどのくらいの頻度で認識されるか
を表す文字クラス混同確率を推定する手段８４と、ある
文字がこれまで観測されていない文字に認識される確率
の総和を推定する未観測事象確率推定手段８５と、上記
未観測事象の確率の総和を文字クラス混同確率に比例す
るように配分し、和が１になるように正規化することに
より未観測事象の文字混同確率を求め、観測事象の確率
の総和を文字混同確率に比例するように配分し、全体の
確率の和が１になるように正規化する手段８６とにより
構成され、文字の図形的類似度に基づいて任意の二つの
文字の間の文字混同確率を与えることを特徴とする。

【００２９】図１３は、本発明の文字認識装置モデル作
成装置８０の動作説明図である。同図に示す如く、文字
認識装置モデル作成装置８０は、文字混同頻度が０か否
かを判定し（ステップ８１）、０であるならば、未観測
事象の確率の総和を推定し（ステップ８２）、入力文字
と出力文字が属するクラスを求め、文字クラス混同確率
を推定し（ステップ８３）、未観測事象の確率の総和を
文字クラス混同確率に比例して配分し、全体の確率の和
が１になるように正規化し（ステップ８４）、文字混同
頻度が０ではない場合、観測事象の確率を文字混同確率
に比例して配分し、全体の確率の和が１になるように正
規化する（ステップ８５）。

【００３０】また、本発明は、上記本発明の日本語文字
認識誤り訂正装置及び文字認識装置モデル作成装置の各
々の構成要件を実現するソフトウェア（プログラム）を
記録した記録媒体を含む。かかる本発明の日本語文字認
識誤り訂正プログラム及び文字認識装置モデル作成プロ
グラムは、ディスク装置等に格納しておき、必要に応じ
て文字認識誤り訂正システムのコンピュータにインスト
ールして、夫々、文字認識誤り訂正及び文字認識装置モ
デル作成を行うことも可能である。

【００３１】本発明の日本語認識誤り訂正プログラムを
記録した記録媒体は、単語の出現頻度を記憶させるプロ
セスと、文字の図形的類似度を計算するプロセスと、入
力として与えられた日本語文を構成する記憶された単語
の出現頻度を獲得し、上記計算された上記日本文を構成
する文字の図形的類似度を獲得し、上記獲得された単語
の出現頻度及び文字の図形的類似度とに基づいて、上記
日本語文に含まれる文字認識誤りを訂正する単語候補と
して、任意の個数の単語を確率が高い順番に提示させる
プロセスとからなることを特徴とする日本語文字誤り訂
正プログラムを記録する。

【００３２】また、本発明は、入力として与えられた日
本語文に含まれる文字列と一致する単語を単語候補とし
て生成させるプロセスと、上記文に含まれる未知の部分
文字列を未知語候補として生成させるプロセスと、上記
文に含まれる部分文字列と類似した単語を上記文の文脈
とは無関係に訂正単語候補として生成させるプロセス
と、上記単語候補、上記未知語候補及び上記訂正単語候
補の組合せの中から、上記日本語文に含まれる文字認識
誤りの訂正単語列として、任意の個数の単語候補列を確
率の高い順番に出力させるプロセスとからなることを特
徴とする日本語文字認識誤り訂正プログラムを記録した
記録媒体である。

【００３３】また、本発明は、入力として与えられた日
本語文を構成する単語列の同時確率を与えるプロセス
と、任意の二つの文字の間の文字混同確率を与えるプロ
セスと、上記訂正対象となる単語の文字列と類似照合す
る辞書中の単語を検索させるプロセスと、訂正対象とな
る単語の長短、並びに、訂正対象となる単語の前後の文
脈情報の利用の可否には係わらず、上記訂正対象となる
単語の訂正単語候補として任意の個数の単語を確率の高
い順番に提示させるプロセスとからなることを特徴とす
る日本語文字認識誤り訂正プログラムを記録した記録媒
体である。

【００３４】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、平
均単語長と、連続する二つの文字において第１の文字が
与えられたときの第２の文字の条件付き出現確率を示す
文字二つ組確率とを記憶させるプロセスと、上記記憶さ
れた平均単語長及び文字二つ組確率に基づいて、上記文
字マトリクスに含まれる部分文字列の中から、未知語候
補として任意の個数の未知語の表記と出現確率の組を確
率が高い順番に求めさせるプロセスと、上記日本語文が
辞書に登録されていない単語を含むか否かとは係わら
ず、上記未知語候補を含む単語候補の組合せの中から、
上記日本語文を構成する単語列の同時確率と上記日本語
文を構成する各文字の文字混同確率との積が大きい順番
に任意の個数の単語候補列を提示させるプロセスとから
なることを特徴とする日本語文字認識誤り訂正プログラ
ムを記録した記録媒体である。

【００３５】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、文
字マトリクスに含まれる文字列と類似照合する辞書中の
単語を検索し、ある文字がどの文字にどれくらいの頻度
で認識されるかを示す文字混同行列及び文字の図形的特
徴を数値化した文字特徴ベクトルから推定される二つの
文字の間の文字混同確率を記憶させるプロセスと、正解
文字が上記文字候補に含まれているか否かとは係わら
ず、上記文字認識装置モデル格納手段から得られた上記
日本語文を構成する各文字の文字混同確率が大きい順番
に任意の個数の単語候補列を提示させるプロセスとから
なることを特徴とする日本語文字認識誤り訂正プログラ
ムを記録した記録媒体である。

【００３６】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、文
字マトリクスに含まれる文字列と類似照合する辞書中の
単語を検索し、ある文字がどの文字にどれくらいの頻度
で認識されるかを示す文字混同行列及び文字の図形的特
徴を数値化した文字特徴ベクトルから推定される二つの
文字の間の文字混同確率を記憶させるプロセスと、単語
出現確率を記憶させるプロセスと、上記文字混同確率及
び上記単語出現確率に基づいて上記単語の順位付けを行
わせるプロセスと、正解文字が上記文字候補に含まれて
いるか否かとは係わらず、上記順位付けされた単語を含
む単語候補の組合せの中から、上記日本語文を構成する
単語列の同時確率と上記日本語文を構成する各文字の文
字混同確率との積が大きい順番に任意の個数の単語候補
列を提示させるプロセスとからなることを特徴とする日
本語文字認識誤り訂正プログラムを記録した記録媒体で
ある。

【００３７】また、本発明は、日本語文の各文字位置毎
に文字認識スコアの高い順番に並べられた文字候補のリ
ストである文字マトリクスを入力させるプロセスと、上
記文字マトリクスに含まれる部分文字列と照合する辞書
中の単語を検索させるプロセスと、平均単語長と、連続
する二つの文字において第１の文字が与えられたときの
第２の文字の条件付き出現確率を示す文字二つ組確率と
を記憶させるプロセスと、上記日本語文が辞書に登録さ
れていない単語を含む場合に、上記記憶された平均単語
長及び文字二つ組確率に基づいて、上記文字マトリクス
に含まれる部分文字列の中から、未知語候補として確率
が高い順番に任意の個数の未知語の表記と出現確率の組
を求めさせるプロセスと、正解文字が上記文字候補に含
まれていない場合に、文字マトリクスに含まれる文字列
と類似照合する辞書中の単語を検索し、ある文字がどの
文字にどれくらいの頻度で認識されるかを示す文字混同
行列及び文字の図形的特徴を数値化した文字特徴ベクト
ルから推定される二つの文字の間の文字混同確率を記憶
させるプロセスと、単語出現確率を記憶させるプロセス
と、上記記憶された文字混同確率及び単語出現確率に基
づいて上記単語の順位付けを行なわせるプロセスと、上
記文字マトリクスに含まれる辞書中の単語、上記未知語
候補、及び、上記順位付けされた単語を含む単語候補の
組合せの中から、上記日本語文を構成する単語列の同時
確率と上記日本語文を構成する各文字の文字混同確率と
の積が大きい順番に任意の個数の単語候補列を提示させ
るプロセスとからなることを特徴とする日本語文字認識
誤り訂正プログラムを記録した記録媒体である。

【００３８】また、本発明は、ある文字がどの文字にど
れくらいの頻度で認識されるかを与える文字混同頻度を
記憶させるプロセスと、文字の図形的特徴を数値化した
文字特徴ベクトルを記憶させるプロセスと、互いに距離
が近い文字特徴ベクトルを一つにまとめることにより、
上記文字を複数の文字クラスに分類させるプロセスと、
上記文字混同頻度及び上記文字クラスに基づいて、ある
文字クラスの文字がどの文字クラスの文字にどのくらい
の頻度で認識されるかを表す文字クラス混同確率を推定
させるプロセスと、ある文字がこれまで観測されていな
い文字に認識される確率の総和を推定させるプロセス
と、上記未観測事象の確率の総和を文字クラス混同確率
に比例するように配分し、和が１になるように正規化す
ることにより未観測事象の文字混同確率を求め、観測事
象の確率の総和を文字混同確率に比例するように配分
し、全体の確率の和が１になるように正規化させるプロ
セスとにより構成され、文字の図形的類似度に基づいて
任意の二つの文字の間の文字混同確率を与えることを特
徴とする文字認識装置モデル作成プログラムを記録した
記録媒体である。

【００３９】

【発明の実施の形態】図１４は、本発明の一実施例によ
る日本語文字認識誤り訂正システムの概略ブロック図で
ある。同図に示す如く、日本語文字認識誤り訂正システ
ムは、日本語入力文を受け、文字マトリクスを出力する
文字認識装置１０１と、与えられた文字マトリクスを入
力して単語列を出力する文字認識誤り訂正装置１００と
からなる。

【００４０】文字認識誤り訂正装置１００は、前向き探
索部１０２、部分解析テーブル１０３、後向き探索部１
０４、平均単語長テーブル１０５、未知語候補生成部１
０６、類似単語照合部１０７、単語出現確率テーブル１
０８、単語照合手段１０９、単語二つ組確率テーブル１
１０、文字二つ組確率テーブル１１１、文字混同確率計
算部１１２、文字混同頻度テーブル１１３、文字クラス
混同頻度テーブル１１４、文字クラスタリング部１１
５、及び文字特徴ベクトルテーブル１１６により構成さ
れる。

【００４１】前向き探索部１０２は、入力文に対して文
字認識装置１が出力した文字マトリクスを入力とし、入
力文字マトリクスの文頭から文末へ一文字ずつ進む動的
計画法(Dynamic Programming) を用いて、単語列の同時
確率（即ち、単語二つ組確率の積）と各文字の文字混同
確率との積が最大化されるような入力文の単語分割を求
める。前向き探索部１０２は、文頭からある単語に至る
までの単語列の同時確率と各文字の文字混同確率との積
を最大化する部分解析（単語列）の確率を、最後の単語
毎に計算し、部分解析スコアテーブル１０３に記録す
る。

【００４２】前向き探索において、単語候補は、単語照
合部１０９と類似単語照合部１０７と未知語候補生成部
１０６とによって提案される。提案された単語候補に
は、文字列混同確率生成部１１２によって、単語を構成
する各文字の文字混同確率の積が与えられる。また、単
語二つ組確率は単語二つ組確率テーブル１１０より与え
られる。

【００４３】以下では、文字マトリクスの各文字位置に
おいて、その文字位置の文字候補のリストから一文字ず
つ選ぶことにより構成される文字列を、「文字マトリク
スに含まれる文字列」と呼ぶ。単語照合部１０９は、文
字マトリクスに含まれる文字列と単語出現確率テーブル
１０８の単語表記とを照合し、照合したものを単語候補
として提案する。

【００４４】類似単語照合手段１０７は、文字マトリク
スに含まれる文字列及び単語出現確率テーブル１０８の
単語表記を、単語出現確率テーブル１０８より与えられ
る単語出現確率を用いて類似照合する。未知語候補生成
部１０６は、文字マトリクスに含まれる文字列の中で単
語出現確率テーブル１０８の単語表記と照合しないもの
を未知語とみなし、平均単語長テーブル１０５より与え
られる平均単語長と、文字二つ組確率テーブル１１１よ
り与えられる文字二つ組確率を用いて単語出現確率を推
定して、予め定めた個数の未知語を出力確率が大きい順
に未知語候補として提案する。

【００４５】後向き探索部１０４は、前向き探索部２に
おいて部分解析テーブル１０３に格納された部分解析を
入力し、文末から文頭へ一単語ずつ進むＡ^*アルゴリズ
ムを用いて、単語列の同時確率と各文字の文字混同確率
との積が最も大きい方から順番に一つずつ単語列候補を
求める。文字混同確率計算部１１２は、文字混同頻度テ
ーブル１１３に格納された文字混同頻度と、文字クラス
混同頻度テーブル１１４に格納された文字クラス混同頻
度とから文字混同確率を求める。

【００４６】文字クラスタリング部１１５は、文字特徴
ベクトルテーブル１１６をベクトル量子化アルゴリズム
を用いて予め定められた個数の文字クラスに分類し、文
字クラス間の混同数を文字混同頻度テーブル１１３より
求める。以下では、まず、本発明の理論的基礎である
「文字認識誤り訂正の情報理論的解釈」について説明
し、続いて、文字認識装置モデル、単語分割モデル、単
語モデル、前向き探索部及び後向き探索部、未知語候補
生成部、並びに、類似単語照合部の順に説明する。

【００４７】・文字認識誤り訂正の情報理論的解釈本発明の一実施例において、文字認識装置１の入力と出
力の関係は、雑音のある通信路のモデル(noisy channel
model) で定式化される。入力文字列Ｃに対する文字認
識結果をＸとすれば、文字認識の誤り訂正は、事後確率
Ｐ（Ｃ｜Ｘ）を最大にする文字列

【００４８】

【外１】

【００４９】を求める問題に帰着する。ベイズの定理に
より、次の関係が成り立つので、

【００５０】

【数１】

【００５１】Ｐ（Ｘ｜Ｃ）Ｐ（Ｃ）を最大にする文字列

【００５２】

【外２】

【００５３】を求めればよい。

【００５４】

【数２】

【００５５】ここでは、Ｐ（Ｘ｜Ｃ）を文字認識装置モ
デル、Ｐ（Ｃ）を言語モデルと呼ぶ。以下では、本発明
の一実施例で用いた文字認識装置モデル及び言語モデル
について説明する。・文字認識装置モデル文字認識装置モデルＰ（Ｘ｜Ｃ）は、入力文字列Ｃを構
成する各文字ｃ_iが、Ｘを構成する各文字ｘ_iに認識さ
れる確率の積から計算できる。

【００５６】

【数３】

【００５７】Ｐ（ｘ_i｜ｃ_i）は文字混同確率(charact
er confusion probability) と呼ばれ、基本的には文字
認識装置の入力と出力の組の頻度データである文字混同
行列(character confusion matrix)から求めることがで
きる。しかし、文字混同行列は、文字認識法が入力画像
の品質に大きく依存するので汎用性が低い。また、日本
語は文字の種類が３０００字以上もあるので、すべての
文字について十分に多くの文字認識結果を集めることは
できない。必然的に文字混同行列は疎(sparse)になるの
で、文字混同確率Ｐ（ｘ_i｜ｃ_i）を相対頻度から最尤
推定するのは不適切である。

【００５８】例えば、「環境」という単語が「技境」と
誤認識されたとする。図１５は「環」と「境」という文
字に関する文字混同行列のデータの例を示す図である。
スラッシュ（’／’）で区切られた文字と数字の組は、
入力文字に対する出力文字とその頻度を表す。「環」と
いう文字に関する認識結果を１２９１個集めたとき、出
力される文字は「環」が１２８９個、「探」が１個、
「像」が１個しかなく、「技」と認識される例はない。
従って、単純に最尤推定すると、文字混同確率Ｐ（技｜
環）＝０となる。これは「ゼロ頻度問題」と呼ばれ、少
数の学習データから確率モデルを推定する際には必ず発
生する問題である。

【００５９】そこで、本発明の一実施例では、文字の図
形的な特徴を数値化したデータである文字特徴ベクトル
を、文字混同行列と組み合わせることにより、文字の図
形的な類似度に基づいて文字混同確率を平滑化(smoothi
ng) する。そのため、まず全ての未観測事象の出現確率
の和を推定し、次に、文字の類似度に基づいて各未観測
事象に確率を再配分する。以下でその方法を説明する。

【００６０】・未観測事象から生起する確率の推定本発明の一実施例において、未観測事象の確率の総和の
推定法として、WittenとBellの方法（Witten and Bill,
“The Zero-Frequency Problem: Estimating the Proba
bilities of Novel Events in Adaptive Text Compress
ion", IEEE Transaction on information Theory, Vo
l.37, No.4, pp.1085-1094, 1991 ）を用いる。Witten
とBellの方法では、既に観測された事象の延べ総数、即
ち、種類の違いを無視して計算した合計をｎとし、異な
り総数、即ち、種類が同じものは一つとして計算した合
計をｒとするとき、新しい事象（未観測事象）が生起す
る確率をｒ／（ｎ＋ｒ）と推定する。一方、既にｃ回観
測された事象の確率はｃ／（ｎ＋ｒ）と推定する。Witt
enとBellの方法は、新しい事象を観測する確率は、観測
事象の異なり総数が増加すると共に増え、観測事象の延
べ総数が増加すると共に減るという経験則を反映したも
ので、単純な計算により実用的な精度が得られるという
利点がある。尚、WittenとBellの方法は、テキスト圧縮
の分野で考案されたもので、文字認識の誤り訂正にこの
方法を応用するのは本発明の一実施例に特有の新規事項
である。

【００６１】文字ｃ_iが文字ｃ_jに認識されるという事
象の頻度をＣ（ｃ_i，ｃ_j）とし、文字ｃ_iが未観測の
文字に認識されるという事象の確率の和をβ（ｃ_i）と
する。WittenとBellの方法よりβ（ｃ_i）は以下のよう
に推定される。

【００６２】

【数４】

【００６３】ここでΘ（ｘ）は異なり総数を求めるため
に導入した以下のようなステップ関数である。

【００６４】

【数５】

【００６５】図１５に示された例では、文字「環」は１
２９１（＝１２８９＋１＋１）回入力され、出力には
「環」、「探」及び「像」の３つの文字がある。従っ
て、新しい文字を観測する確率は、３／（１２９１＋
３）＝３／１２９４である。・図形的類似度に基づく文字クラスタリング WittenとBellの方法は、未観測事象の確率の総和を求め
るための一般的な方法として使用できるが、個々の未観
測事象に確率を再配分する方法は、モデル化する対象に
応じて新たに考案する必要がある。最も簡単な確率の再
配分法は、すべての未観測事象を等確率と仮定する方法
である。しかし、文字混同確率の場合、図形的に似てい
る文字ほど認識誤りが生じ易いので、等確率とする仮定
は不適切である。

【００６６】本発明の一実施例では、図形的に似ている
文字の間の誤り傾向に基づいて未観測事象の文字混同確
率を再配分するために、まず、図形的な類似度に基づい
て文字を適当な数のクラスに分類し、この文字クラス間
の混同頻度を文字混同頻度から求める。そして、文字ク
ラス混同頻度に比例するように未観測事象の確率を再配
分する。文字クラスは文字特徴ベクトルをクラスタリン
グすることにより求める。一般に、文字認識は特徴抽出
及び分類により構成される。特徴抽出は画像から文字認
識に有効な複数の特徴量を取り出す操作であり、分類は
入力文字画像の特徴ベクトルと予め用意した各文字の代
表ベクトルを何らかの距離尺度に基づいて比較する操作
である。従って、文字特徴ベクトル間の距離に基づいて
文字をクラスタリングすれば、文字認識の誤り傾向を反
映する図形的に似た文字の集合が得られる。

【００６７】本発明の一実施例では、文字特徴量として
外郭方向寄与度（荻田・内藤・増田「外郭方向寄与度特
徴による手書き漢字の識別」、電子通信学会論文誌、Vo
l.J66-D, No.10, pp.1185-1192, 1983）が使用され、ク
ラスタリング手法としてＬＢＧアルゴリズム(Linde, Bu
zo and Gray “An algorithm for Vector QuantizerDes
ign", IEEE Transactions on Communications, Vol.COM
-28, No.1, pages 84-95, 1980)が使用されている。但
し、文字特徴ベクトルとクラスタリング手法は、最終的
に図形的に類似した文字のクラスが得られる方法であれ
ばよく、本実施例で使用された外郭方向寄与度とＬＢＧ
アルゴリズムに限定されることはない。外郭方向寄与度
は本来１５３６次元のベクトルであるが、２段階の特徴
選択法を用いて２５６次元に縮退した特徴ベクトルを作
成する。次に、３０２１個の日本語の文字に対し各文字
の特徴ベクトルをＬＢＧアルゴリズムを用いて、３０２
１個の文字を１２８個のクラスに分類した。

【００６８】図１６はクラスタリングにより作成された
文字クラスの例を説明する図である。クラス２９は
「環」を含む文字クラス、クラス１１９は「技」を含む
文字クラスである。図形的に類似した特徴を持つ文字が
一つのクラスを構成していることが分かる。・文字クラス混同頻度と文字混同確率の計算法文字クラスと文字混同頻度から文字クラス混同頻度を求
める手順を説明する。文字クラスｃｌａｓｓ_Iに属する
文字が文字クラスｃｌａｓｓ_Jに属する文字に認識され
る頻度を文字クラス混同頻度と呼び、Ｃ（ｃｌａｓ
ｓ_I，ｃｌａｓｓ_J）で表す。文字クラス混同頻度Ｃ
（ｃｌａｓｓ_I，ｃｌａｓｓ_J）は、ｃｌａｓｓ_Iとｃ
ｌａｓｓ_Jに属する文字に関する文字混同行列の要素の
和から求めることができる。

【００６９】

【数６】

【００７０】文字混同行列に比べれば少ないが、文字ク
ラス混同行列にもゼロ要素がある。そこで、まず前述の
WittenとBellの方法を文字クラス混同行列に適用してゼ
ロ要素（未観測事象）の確率の和を求め、未観測事象は
等確率と仮定して確率を再配分する。これによりすべて
の文字クラスの間にクラス混同確率が定義できる。図１
７は文字クラス混同行列の例を示す図である。同図に
は、クラス２９（「環」を含む文字クラス）の文字クラ
ス混同頻度が示されている。クラス２９は入力として３
１０３６回現れ、クラス１１９（「技」を含む文字クラ
ス）に認識されたのは７回である。また、出力の中の異
なりクラスは３６個ある。従って、文字クラス混同確率
は、Ｐ（ｃｌａｓｓ₁₁₉｜ｃｌａｓｓ₂₉）＝７／（３１
０３６＋３６）＝７／３１０７２である。

【００７１】未観測事象の文字混同確率は、文字クラス
混同確率に比例するように配分される。即ち、

【００７２】

【数７】

【００７３】ここで、α（ｃ_i）は、未観測事象の文字
混同確率の和がβ（ｃ_i）に等しくなるようにするため
の正規化係数であり、

【００７４】

【数８】

【００７５】ｃｌａｓｓ（ｃ_i）は文字ｃ_iが属するク
ラスを求める関数である。文字クラス混同確率Ｐ（ｃｌ
ａｓｓ（ｃ_j）｜ｃｌａｓｓ（ｃ_i））及び正規化係数
α（ｃ_i）は予め計算しておくことができるので、式
（７）に示す文字混同確率の計算は非常に効率的に実現
できる。・言語モデル（単語分割モデル）続いて、言語モデル（単語分割モデル）、前向き探索及
び後向き探索について説明する。

【００７６】文字列Ｃ＝ｃ₁ｃ₂．．．ｃ_mから構成さ
れる入力文が、単語列Ｗ＝ｗ₁ｗ₂．．．ｗ_nに分割さ
れるとする。本発明の一実施例では、式（２）における
文字列Ｃの確率Ｐ（Ｃ）を、文字列Ｃを構成する最も尤
もらしい単語列の確率Ｐ（Ｗ）で近似する。さらに、本
実施例では、単語列の同時確率Ｐ（Ｗ）を次式のように
単語二つ組確率の積で近似する。

【００７７】

【数９】

【００７８】ここで、“# ”は文の先頭及び末尾を表す
特殊な記号である。単語二つ組確率は、大量のテキスト
データから事前に学習しておく。一般にＰ（Ｗ）は単語
分割モデルと呼ばれる。式（９）のように、単語分割モ
デルを言語モデルとして用いると、文字認識誤り訂正
は、文字認識装置の出力文字列Ｘに対し事後確率Ｐ（Ｗ
｜Ｘ）を最大にする単語列

【００７９】

【外３】

【００８０】を求める問題に帰着する。式（２）と同様
にベイズの定理を用いれば、これはＰ（Ｘ｜Ｗ）とＰ
（Ｗ）の積を最大化すればよいことになる。

【００８１】

【数１０】

【００８２】式（１０）を最大化する単語列は、文頭か
ら文末方向へ一文字ずつ進む動的計画法により求められ
る。さらに、文末から文頭方向へ進むＡ^*探索を用いれ
ば、確率が大きい順に任意の個数の単語列候補を求める
こともできる。本発明の一実施例では、文頭から文末方
向へ一文字ずつ進む動的計画法を前向き探索と称し、文
末から文頭方向へ進むＡ^*探索を後向き探索と称する。
以下では、前向き探索及び後向き探索について説明す
る。

【００８３】・前向き探索前向き探索部１０２が式（１０）を最大化する単語列を
求める手順を説明する。文頭からｉ番目の単語までの単
語列の同時確率Ｐ（ｗ₁．．．ｗ_i）と、単語列を構成
する各文字の文字混同確率Ｐ（ｘ_j｜ｃ_j）との積の最
大値をφ（ｗ_i）と定義すると、式（９）より、以下の
関係が成立する。

【００８４】

【数１１】

【００８５】ここで、ｑ及びｒは単語ｗ_iの開始位置及
び終了位置を表す。即ち、ｗ_i＝ｃ_q+ ₁．．．ｃ_rであ
り、ｘ_q+1．．．ｘ_rはｗ_iに対応する文字認識結果で
ある。式（１１）は以下の関係を表す。文頭からｉ番目
の単語までの同時確率と単語列を構成する各文字の文字
混同確率との積の最大値φ（ｗ_i）は、文頭からｉ−１
番目の単語までの同時確率と単語列を構成する各文字の
文字混同確率との積の最大値φ（ｗ_i-1）と、ｉ番目の
単語の単語二つ組確率Ｐ（ｗ_i｜ｗ_i-1）との積の最大
値に、ｉ番目の単語を構成する各文字の文字混同確率の
積を掛けたものである。この関係を利用して、文頭から
順にφ（ｗ_i）を求めれば、文頭から文末までの確率の
最大値φ（ｗ_n）を求めることができる。

【００８６】図１８は本発明の一実施例による前向き探
索部１０２の動作フローチャートである。前向き探索は
動的計画法を用いて式（１１）の計算を実現する。ここ
では、φ（ｗ_i）を部分解析の確率と呼び、φ（ｗ_i）
を格納するテーブルを部分解析テーブル１０３と呼ぶ。
以下では、図１８に従って前向き探索の動作を説明す
る。前向き探索は、入力文の先頭から始まり、文末方
向へ一文字ずつ進む。ステップ１０１では、探索の開始
位置を入力文の先頭に設定する。

【００８７】ステップ１０２では、探索が文末に達した
か否かを判断する。もし、文末に達していれば、前向き
探索を終了する。そうでなければ、以下の処理を各文字
位置で行う。ステップ１０３では、現在の文字位置に到
達する全ての部分解析を部分解析テーブル１０３から検
索し、その中の一つを現在の部分解析として選ぶ。

【００８８】ステップ１０４では、全ての部分解析を調
べたか否かを判定する。もしそうならば、ステップ１１
４において探索を次の文字位置へ進める。そうでなけれ
ば、以下の処理を各部分解析について行う。ステップ１
０５では、現在の文字位置から始まるすべての単語候補
の集合を作成し、その中から一つの単語を現在の単語と
して選ぶ。すべての単語候補の集合は、文字マトリクス
に含まれる文字列と照合する辞書中の単語（単語照合部
１０９から得られる）、文字列マトリクスに含まれる文
字列と類似照合する辞書中の単語（類似単語照合部１０
７から得られる）、及び、文字マトリクスに含まれる文
字列で辞書と照合しないものから生成した未知単語候補
（未知語候補生成部１０６から得られる）より構成され
る。

【００８９】ステップ１０６では、全ての単語を調べた
か否かを判定する。もしそうならば、ステップ１１３に
おいて次の部分解析を選ぶ。そうでなければ、以下の処
理を各単語について行う。ステップ１０７では、現在の
単語（を最後の単語とする部分解析）が部分解析テーブ
ル１０３に登録されているか否かを調べる。もしそうな
らば、ステップ１０９に進む。そうでなければ、ステッ
プ１０８において、この単語を部分解析テーブル１０３
に登録し、部分解析の確率を０に初期化した後に、ステ
ップ１０９へ進む。

【００９０】ステップ１０９では、現在の部分解析と現
在の単語の組合せによる新しい部分解析の確率を求め
る。新しい部分解析の確率は、

【００９１】

【外４】

【００９２】である。ステップ１１０では、新しい部分
解析の確率が、最後の単語が同じである以前の部分解析
の確率よりも大きいか否かを調べる。もしそうであれ
ば、ステップ１１１において、新しい部分解析の確率を
部分解析テーブル１０３に格納し、ステップ１１２へ進
む。もしそうでなければ、そのままステップ１１２へ進
む。

【００９３】ステップ１１２では、次の単語を選びステ
ップ１０６へ戻る。ステップ１１３では、次の部分解析
を選び、ステップ１０４へ戻る。ステップ１１４では、
探索を次の文字位置へ進め、ステップ１０２へ戻る。・後向き探索後向き探索部１０４が、式（１０）の確率が大きい順に
一つずつ単語分割候補を求める手順を説明する。

【００９４】ある単語分割候補Ｗ＝ｗ₁．．．ｗ_nにお
いて、文末からｉ番目の単語までの単語列の同時確率Ｐ
（ｗ₁．．．ｗ_n）と、単語列を構成する各文字の文字
混同確率Ｐ（ｘ_j｜ｃ_j）との積をψ（ｗ_i）と定義す
ると、前向き部分解析の場合と同様に、式（９）より、
以下の関係が成立する。

【００９５】

【数１２】

【００９６】ここで、ｓ及びｔは単語ｗ_i+1の開始位置
及び終了位置を表す。すなわち、ｗ_i+ ₁＝ｃ_s+1．．．
ｃ_tであり、ｘ_s+1．．．ｘ_tはｗ_i+1に対応する文字
認識結果である。φ（ｗ_i）を前向き部分解析の確率、
ψ（ｗ_i）を後向き部分解析の確率と呼ぶことにする。
単語分割候補の確率は、任意のｗ_iについて、前向き部
分解析の確率φ（ｗ_i）と後向き部分解析の確率ψ（ｗ
_i）との積で表せる。

【００９７】Ｐ（Ｘ｜Ｗ）Ｐ（Ｗ）＝φ（ｗ_i）ψ（ｗ_i） (13) 本発明の後向き探索では、単語分割候補を確率が大きい
順に一つずつ求めるためにＡ^*アルゴリズムを用いる。
Ａ^*アルゴリズムは、状態空間グラフの最小コスト経路
を求めるアルゴリズムである（Ａ^*アルゴリズムの詳細
については、人工知能に関する教科書、例えば、Avron
Barr、 Edward A. Feigenbaum 編、田中幸吉・淵一博監
訳、「人工知能ハンドブック第Ｉ巻」第II章探索、共立
出版、１９８３を参照のこと）。

【００９８】ここで、Ａ^*アルゴリズムについて簡単に
説明する。グラフの任意のノードをｎとしたとき、初期
状態からｎまでの最適な経路のコストをｇ（ｎ）とし、
ｎから最終状態までの最適な経路のコストをｈ（ｎ）と
する。ｎを通る最適な経路のコストｆ（ｎ）は次式で与
えられる。ｆ（ｎ）＝ｇ（ｎ）＋ｈ（ｎ） (14) 初期状態から最終状態への最適な経路を求める問題を考
える。もしｆ（ｎ）が正確にわかっていれば、初期状態
からｆ（ｎ）が最小となるノードを辿ることにより解が
得られる。実際にはｇ（ｎ）もｈ（ｎ）も正確にはわか
らないので探索が必要である。

【００９９】ｇ（ｎ）は、それまでわかっているｎまで
の道の中でコストが最小のものとする。ｈ（ｎ）の推定
値を

【０１００】

【外５】

【０１０１】とするとき、もし推定コスト

【０１０２】

【外６】

【０１０３】が真のコストｈ（ｎ）より小さければ、即
ち、

【０１０４】

【外７】

【０１０５】ならば、

【０１０６】

【外８】

【０１０７】が最小となるノードを辿ることにより最適
解が得られることを証明できる。この性質を利用したよ
うなグラフ探索戦略をＡ^*アルゴリズムという。また、
ある探索アルゴリズムが必ず最適解を発見できるとき、
その探索アルゴリズムは認容可能(admissible)であると
いう。もし推定コスト

【０１０８】

【外９】

【０１０９】と真のコストｈ（ｎ）が一致するならば、
Ａ^*アルゴリズムは（最適経路以外のノードを通ること
なく）直ちに最適経路を求めることができる。一般に推
定コストが真のコストに近いほど、探索量は少なくて済
む。もし推定コストを常に０とすれば、推定コストが真
のコストより小さいという認容可能条件を満たすが、実
際的にはｇ（ｎ）を用いて幅優先探索をするのと同じで
あり、非常に効率が悪い。

【０１１０】本発明の一実施例では、後向き部分解析を
グラフのノードと考え、関数ｇ（ｎ）として、後向き部
分解析の確率の対数の絶対値、関数ｈ（ｎ）として前向
き部分解析の確率の対数の絶対値を用いる。これによ
り、単語分割候補の確率が最大の解は、コスト関数ｆ
（ｎ）が最小の解に対応する。前向き探索によりｈ
（ｎ）の真の値が分かっているので、後向き探索は認容
可能であり、必ず直ちに最適解を求めることができる。
最適解が得られたら、そのノードを取り除き、更に探索
を続けることにより次の最適解が得られる。このように
して、後向き探索では、確率が高い順に任意の数の単語
分割候補を求めることができる。

【０１１１】図１９は本発明の一実施例による後向き探
索部１０４の動作フローチャートである。一般に、Ａ^*
アルゴリズムでは、ｏｐｅｎとｃｌｏｓｅｄという二つ
のリストを用いる。リストｏｐｅｎは、既に生成され、
残りの経路のコスト関数ｈ（ｎ）を計算したが、まだ展
開されていない（調べられていない）ノードの集合であ
る。このリストは、関数h(n)の値に基づく優先度付きキ
ューになっている。リストｃｌｏｓｅｄは、既に展開さ
れた（調べられた）ノードの集合である。

【０１１２】Ａ^*アルゴリズムでは、最終状態に対応す
るノードを生成するまで、各ステップで一つのノードを
展開する。各ステップでは、既に生成されているが、未
だ展開されていない、最もコストが小さいノードを展開
する。即ち、選ばれたノードの後続のノードを生成し、
残りの経路のコスト関数ｈ（ｎ）を計算し、既に生成さ
れていないかを検査した後にリストｏｐｅｎに加える。
この検査によって、各ノードはグラフの中に一回だけ現
れることが保証される。また、二つ以上の経路が同じノ
ードを生成するときは、コストが小さい方のノードだけ
を記録する。

【０１１３】以下では、図１９に従って後向き探索部１
０４の動作について説明する。ステップ２０１では、文
末を表す後向き部分解析をリストｏｐｅｎに代入する。
また、リストｃｌｏｓｅｄには空リストを代入する。ス
テップ２０２では、リストｏｐｅｎが空リストか否かを
調べる。もし、そうならば、解が見つからなかったので
探索が失敗したことを通知して探索を終了する。そうで
なければ、以下の処理を行う。

【０１１４】ステップ２０３では、リストｏｐｅｎの先
頭要素を取り出し、現在の後向き部分解析とする。そし
て、ステップ２０４において、探索が文頭に達したか否
かを調べる。もし、探索が文頭に達していれば、現在の
後向き部分解析が最適解であり、探索が成功したことを
通知して後向き探索を終了する。そうでなければ、以下
の処理を行う。また、探索は成功したが、さらに、その
次にコストが小さい（確率が大きい）解を求めたい場合
にも以下の処理を行う。

【０１１５】ステップ２０５では、現在の後向き部分解
析をリストｃｌｏｓｅｄへ挿入し、リストｃｌｏｓｅｄ
の要素を初期状態から最終状態までの全経路のコストｆ
（ｎ）の順にソートする。ステップ２０６では、現在の
後向き部分解析の左側に接続可能な全ての単語を検索
し、その中の一つを現在の単語とする。

【０１１６】ステップ２０７では、全ての単語を調べた
か否かを判定する。もしそうであれば、ステップ２０２
へ進む。そうでなければ、以下の処理を行う。ステップ
２０８では、現在の後向き部分解析から現在の単語へ遷
移する経路を表す新しい後向き部分解析を作成し、これ
を変数ｎｅｗｐａｔｈに代入する。ステップ２０９で
は、現在の単語へ遷移する後向き部分解析が既にリスト
ｏｐｅｎの中に含まれているか否かを検査する。もし含
まれていなければ、ステップ２１３へ進む。含まれてい
るならば、以下の処理を行う。

【０１１７】ステップ２１０では、現在の単語へ遷移す
るリストｏｐｅｎの要素を変数ｏｌｄｐａｔｈに代入す
る。ステップ２１１では、変数ｎｅｗｐａｔｈの全経路
コストと変数ｏｌｄｐａｔｈの全経路コストを比較す
る。もし、変数ｎｅｗｐａｔｈの全経路コストの方が大
きければ、そのままステップ２１８へ進む。もし、変数
ｎｅｗｐａｔｈのコストの方が小さければ、ステップ２
１２おいて、リストｏｐｅｎから変数ｏｌｄｐａｔｈに
対応する要素を削除し、変数ｎｅｗｐａｔｈに対応する
要素をリストｏｐｅｎに挿入した後、コストの順にソー
トする。そしてステップ２１８へ進む。

【０１１８】ステップ２１３では、現在の単語への遷移
を表す後向き部分解析がリストｃｌｏｓｅｄに含まれて
いるか否かを検査する。もし含まれていなければ、ステ
ップ２１７へ進む。含まれていれば、以下の処理を行
う。ステップ２１４では、現在の単語へ遷移するリスト
ｃｌｏｓｅｄの中の要素を変数ｏｌｄｐａｔｈに代入す
る。

【０１１９】ステップ２１５では、変数ｎｅｗｐａｔｈ
の全経路コストと、変数ｏｌｄｐａｔｈの全経路コスト
とを比較する。もし、変数ｎｅｗｐａｔｈの全経路コス
トの方が大きければ、リストｃｌｏｓｅｄから変数ｏｌ
ｄｐａｔｈに対応する要素を削除し、変数ｎｅｗｐａｔ
ｈに対応する要素をリストｃｌｏｓｅｄへ挿入した後、
コストの順にソートする。そしてステップ２１８へ進
む。

【０１２０】ステップ２１７では、変数ｎｅｗｐａｔｈ
に対応した要素をリストｏｐｅｎへ挿入した後、コスト
の順にソートする。そしてステップ２１８へ進む。ステ
ップ２１８では、次の単語を選ぶ。・単語モデル続いて、単語モデル及び未知語候補生成部１０６につい
て説明する。

【０１２１】単語モデルは、辞書に登録されていない単
語の出現確率を求めるための計算モデルである。これ
は、未知語ｗ_iを構成する文字列ｃ₁．．．ｃ_kの同時
確率分布として定義される。これは、一般性を失うこと
なく、単語長確率と単語表記確率の積で表せる。

【０１２２】

【数１３】

【０１２３】ここで、ｋは未知語を構成する文字列の長
さであり、＜ＵＮＫ＞は未知語を表す特殊記号である。
単語長確率Ｐ（ｋ）は、平均単語長をλパラメータとす
るポワソン分布で近似される。これは、文字と文字との
間に長さ０の単語境界記号が平均間隔λで無作為に出現
するような確率過程で単語分割を近似したことを意味す
る。

【０１２４】

【数１４】

【０１２５】単語表記確率Ｐ（ｃ₁．．．ｃ_k）は、以
下のように文字二つ組確率の積で近似される。

【０１２６】

【数１５】

【０１２７】ここで“# ”は単語の先頭及び末尾を表す
特別な記号である。尚、平均単語長及び文字二つ組確率
は、大量のテキストデータから事前に学習され、夫々、
平均単語長テーブル１０５及び文字二つ組確率テーブル
１１１に格納されている。・未知語候補の生成未知語候補の生成は、入力文が辞書に登録されていない
単語を含む場合に対処するため行われる。未知語候補生
成部１０６は、前向き探索において、入力文の各文字位
置で、その文字位置から始まる文字マトリクスに含まれ
る部分文字列の中で辞書と照合しないものを、未知語候
補として、式（１５）の単語モデルに基づく出現確率が
高い順番に予め決められた個数だけ生成する。計算量を
削減したい場合には、文字認識の第１候補から構成され
る文字列の部分文字列だけから未知語候補を生成すれば
よい。

【０１２８】この方法は、本来、辞書に登録されている
単語が文字認識誤りによって、みかけ上、辞書に登録さ
れていない単語になった場合に、単語区切りを推定する
方法としても有効である。図２０は、本発明の一実施例
による未知語候補生成部１０６における未知語候補生成
の動作を説明するフローチャートである。ここでは、説
明を簡単にするため、文字認識の第１候補から構成され
る文字列だけを用いて未知語候補を生成することにす
る。

【０１２９】未知語候補生成部１０６は、入力文に対す
る文字マトリクスの第１候補から構成される文字列、及
び、未知語候補を生成すべき文字位置がパラメータとし
て与えられる。ステップ３０１では、現在の文字位置を
未知語候補の開始点を表す変数ｉに代入し、未知語候補
の終了点を表す変数ｊにｉ＋１を代入する。また未知語
候補リストに初期値として空リストを代入する。

【０１３０】ステップ３０２では、ｊが入力文の長さよ
り小さいか否かを調べる。もしそうでなければ、ステッ
プ３０９へ進む。そうであれば、以下の処理を行う。ス
テップ３０３では、未知語候補の長さｊ−１が予め定め
られた未知語の最大長より大きいか否かを調べる。もし
そうならば、ステップ３０９へ進む。そうでなければ、
以下の処理を行う。

【０１３１】ステップ３０４では、入力文のｊ文字目が
区切り記号か否かを調べる。区切り記号とは、句
点（。）や読点（、）などの単語の一部とはなり得ない
記号のことである。もしそうならば、ステップ３０９へ
進む。そうでなければ、以下の処理を行う。ステップ３
０５では、入力文字列の文字位置ｉから文字位置ｊまで
の部分文字列を未知語候補の表記とする。

【０１３２】ステップ３０６では、現在の未知語候補の
表記が辞書と照合するか否かを調べる。もしそうであれ
ば、ステップ３０８へ進む。そうでなければ、以下の処
理を行う。ステップ３０７では、先ず単語モデルに基づ
いて、現在の未知語候補の出現確率を求める。次に、こ
の未知語候補を未知語候補リストに加え、ステップ３０
８へ進む。

【０１３３】ステップ３０８では、未知語候補の終わり
の文字位置を表わす変数ｊを一つ増やし、ステップ３０
２へ戻る。ステップ３０９では、得られた未知語候補リ
ストを確率が大きい順にソートし、予め決められた個数
の未知語候補を選ぶ。・単語の類似度（ｎｇｒａｍ距離と編集距離）続いて、単語の類似度の計算法と類似単語照合部１０７
について説明する。ここでは説明を簡単にするため、一
つの単語だけからなる文字列に対して類似単語照合を行
う場合を説明する。実際には、入力文の任意の部分文字
列に対して、類似単語照合を行う必要がある。

【０１３４】文字認識装置１が出力した文字列をＸ、こ
の文字列に対する訂正単語候補をＷとする。式（１０）
より、もし以下の関係が成立すれば、ＸをＷで訂正すべ
きである。Ｐ（Ｘ）Ｐ（Ｘ｜Ｘ）＜Ｐ（Ｗ）Ｐ（Ｘ｜Ｗ） (18) 式（１８）の左辺は、未知語Ｘが生起し、かつ、Ｘが正
しく認識される確率を表す。式（１８）の右辺は、単語
Ｗが生起し、ＷがＸに誤認識される確率を表す。Ｐ
（Ｘ）は未知語モデルから求められ、Ｐ（Ｗ）は単語分
割モデルから求められる。Ｐ（Ｘ｜Ｘ）及びＰ（Ｘ｜
Ｗ）は、Ｘ及びＷを構成する文字の文字混同確率の積か
ら求められる。

【０１３５】単語出現確率Ｐ（Ｗ）と単語混同確率Ｐ
（Ｘ｜Ｗ）との積が大きい単語Ｗほど、文字列Ｘの訂正
候補としては尤もらしい。そこで、本発明の一実施例に
よる類似単語照合部１０７では、文字列Ｘに対して、辞
書中の全ての単語の中からＰ（Ｗ）Ｐ（Ｘ｜Ｗ）の値が
大きい順に予め決められた個数の訂正候補を提案する。
しかし、単語辞書の大きさが数万語以上の場合、入力文
中の任意の部分文字列Ｘ、及び、単語辞書中のすべての
単語Ｗの組合せについて、Ｐ（Ｗ）Ｐ（Ｘ｜Ｗ）の値を
求め、確率の積の値が大きい単語を選ぶというような単
純な実現方法では、膨大な計算が必要になってしまう。

【０１３６】そこで、本発明の一実施例では、先ずｎｇ
ｒａｍ距離に基づいて訂正単語候補を生成し、次に、編
集距離に基づいて訂正単語候補を絞り込み、最後に単語
出現確率と文字混同確率との積に基づいて訂正単語候補
を決定するという３つのステップから構成される手続を
用いることにより、効率的な類似単語照合を実現する。
以下に、その詳細を説明する。

【０１３７】ｎｇｒａｍ距離は、二つの文字列が共通に
含む文字ｎｇｒａｍの数を文字列間の距離尺度（類似
度）とする。文字認識の場合、挿入誤り及び削除誤りの
数は少ないので、説明を簡単にするため、ここでは文字
認識の入力と出力の文字列長は同じとする。同じ長さの
文字列が夫々ｍ個の文字ｎｇｒａｍを含み、そのうちｃ
個が一致するならば、二つの文字列のｎｇｒａｍ距離は
（ｍ−ｃ）／ｍである。

【０１３８】例として、「インターネット」と「インク
ジェット」のｂｉｇｒａｍ距離を考える。夫々の文字列
から文字ｂｉｇｒａｍを作成すると以下のようになる。インターネット=># イ、イン、ンタ、ター、ーネ、ネ
ッ、ット、ト# インクジェット=># イ、イン、ンク、クジ、ジェ、ェ
ッ、ット、ト# ここで# は、単語の先頭又は末尾を表す特殊記号であ
る。８個の文字ｂｉｇｒａｍのうち４個が一致するの
で、「インターネット」と「インクジェット」のｂｉｇ
ｒａｍ距離は４／８である。この値が小さいほど、二つ
の文字列は類似していると言える。

【０１３９】ところが、文字ｎｇｒａｍ距離は、文字位
置を入れ替えた単語（ａｎａｇｒａｍ）の間の距離が小
さく（類似度が大きく）なるという欠点がある。例え
ば、もし「ネットインター」という単語があれば、「イ
ンターネット」と「ネットインター」は共通の文字ｂｉ
ｇｒａｍが５個あるので、ｂｉｇｒａｍ距離は３／８に
なる。

【０１４０】インターネット=># イ、イン、ンタ、タ
ー、ーネ、ネッ、ット、ト# ネットインター=># ネ、ネッ、ット、トイ、イン、ン
タ、ター、ー# このように、「インターネット」に対し、「ネットイン
ター」の方が「インクジェット」より類似度が大きくな
るので、ｎｇｒａｍ距離は文字認識の誤り訂正の距離尺
度としては不適切である。

【０１４１】しかし、ｎｇｒａｍ距離には、ある文字ｎ
ｇｒａｍを含む単語のリストを単語辞書から予め作成し
ておけば、ｎｇｒａｍ距離が小さい単語を非常に高速に
検索できるという利点がある。そこで、本発明の一実施
例では、訂正対象となる文字列に対して、先ずｎｇｒａ
ｍ距離がある閾値以下の単語を検索した後に、検索され
た単語集合と訂正対象文字列との編集距離を計算し、編
集距離がある閾値以下の単語を訂正単語候補とする。

【０１４２】編集距離は、二つの文字列に対して、一方
の文字列を他方の文字列に変換するのに必要な挿入・削
除・置換の数の最小値を距離尺度とする。文字認識の場
合に、挿入誤り及び削除誤りの数は少ないので、説明を
簡単にするため、ここでは置換誤りだけを考慮する。置
換誤りのみの場合、同じ長さｎを持つ二つの文字列がｃ
文字だけ一致するとき、二つの文字列の編集距離は（ｎ
−ｃ）／ｎである。

【０１４３】例えば、「インターネット」と「インクジ
ェット」は、４文字が一致するので、編集距離は４／７
である。一方、「インターネット」と「ネットインタ
ー」は一致する文字がないので、編集距離は７／７であ
る。一般に編集距離が小さいほど、二つの文字列は類似
している。一般に、長い単語、具体的には、長さ３以上
の単語については、編集距離により、正確に訂正単語候
補を提案することができる。例えば、文字認識の出力が
「インクー示ット」の場合、編集距離が小さい順に並べ
ると、以下のような単語が訂正候補として提案される。
ここで、右側の数値は編集距離である。

【０１４４】インクジェット２／７インターネット２／７インターソフト３／７インツーリスト３／７しかし、短い単語、具体的には、長さ２の単語について
は、編集距離により類似単語照合を行うと、非常に多く
の訂正単語候補が得られる。日本語は殆どの単語が２文
字であり、文字の種類が３０００以上あるので、この問
題は避けて通れない。

【０１４５】例えば、もし「環境」が「技境」と誤読さ
れた場合、「技境」という文字列をキーにして編集距離
が小さい単語を検索すると、少なくとも以下のような２
０個の単語が得られる。技術技法技師技能技巧技芸技量環境国境苦境心境越境下境老境秘境辺境県境見境進境逆境これらはすべて編集距離１／２であり、編集距離だけで
は、これ以上絞り込むことができない。もし入力文中の
任意の長さ２の文字列について、このように１０から数
十個の訂正単語候補を提案すると、単語候補のすべての
組合せを調べる処理である形態素解析の計算量が非常に
大きくなるという問題が発生する。

【０１４６】そこで、本発明の一実施例では、編集距離
により検索された訂正単語候補について、単語の出現確
率と文字混同確率との積Ｐ（Ｗ）Ｐ（Ｘ｜Ｗ）を計算
し、その値が大きい順に予め決められた個数を訂正単語
候補として提案する。前述の例の「技境」に対する編集
距離１／２の単語集合をＰ（Ｗ）Ｐ（Ｘ｜Ｗ）の値が大
きい順にソートすると、以下のように図形的に似た文字
を含む単語が上位に並ぶようになる。

【０１４７】環境技術技法国境苦境．．．実験によれば、上位５個程度までに、殆どの場合、正解
単語が入っているので、訂正単語候補の提案数を大幅に
削減することができる。このようにして、ｎｇｒａｍ距
離、編集距離、及び、単語の出現確率と文字混同確率と
の積という３つの類似度の尺度を順番に適用しながら訂
正単語候補を絞り込むことにより、本発明の一実施例
は、訂正単語候補の生成処理を効率的に実現すると同時
に、訂正単語候補の提案数を少なくすることにより、形
態素解析の計算量の削減を実現している。

【０１４８】・類似単語照合図２１は本発明の一実施例による類似単語照合部１０７
の動作を説明するフローチャートである。以下では、図
２１を参照して類似単語照合の動作を説明する。類似単
語照合部１０７には、入力文に対する文字マトリクスの
第１候補からなる文字列及び類似語を検索すべき文字位
置が与えられる。

【０１４９】ステップ４０１では、現在の文字位置を類
似単語照合の対象となる文字列の開始点を表す変数ｉに
代入し、類似単語照合の対象となる文字列の終了点を表
す変数ｊにｉ＋１を代入する。また、訂正単語候補リス
トに初期値として空リストを代入する。ステップ４０２
では、ｊが入力文の長さよりも小さいか否かを調べる。
もしそうでなければ、処理を終了する。そうであれば、
以下の処理を行う。

【０１５０】ステップ４０３では、類似照合対象文字列
の長さｊ−１が予め定められた類似語の最大長より大き
いか否かを調べる。もしそうならば、処理を終了する。
そうでなければ、以下の処理を行う。ステップ４０４で
は、入力文のｊ文字目が区切り記号か否かを調べる。も
しそうならば、処理を終了する。そうでなければ、以下
の処理を行う。

【０１５１】ステップ４０５では、入力文字列の文字位
置ｉから文字位置ｊまでの部分文字列を類似単語照合の
対象文字列とする。ステップ４０６では、類似照合の対
象文字列とのｎｇｒａｍ距離が予め決められた閾値より
小さい単語を辞書から検索する。ステップ４０７では、
類似照合の対象文字列と、ステップ４０６で検索された
単語との間の編集距離を求め、この値が予め決められた
閾値より小さい単語だけを残す。

【０１５２】ステップ４０８では、類似照合の対象文字
列と、ステップ４０７で残された単語との間で、単語の
出現確率と、単語表記から対象文字列への文字混同確率
との積の値を求め、この値が大きい順に指定された個数
の単語を訂正単語候補リストに加える。ステップ４０９
では、類似照合の対象文字列の終わりの文字位置を表わ
す変数ｊを一つ増やし、ステップ４０２へ戻る。

【０１５３】

【実施例】最後に、本発明の実施例を示す。図２２は、
本発明の一実施例による文字認識誤り訂正システムの処
理例を表す図である。同図には、「組織変更」という文
字列に対して文字認識装置１が出力した文字マトリク
ス、この文字マトリクスに対して本発明の一実施例によ
る文字認識誤り訂正装置１００が出力する単語候補列、
及び、文字マトリクスの各文字位置で本発明の一実施例
による文字認識誤り訂正装置１００が生成する単語候補
の例が示されている。

【０１５４】この処理例では、文字マトリクスは第５候
補までを使用している。例えば、「組」という文字に対
する第１から第５候補は、夫々、「網」、「綱」、
「縮」、「細」及び「纏」である。文字位置は、文字と
文字の間に与えられた０から始まる番号である。文字認
識誤り訂正装置１００が出力する単語候補列は第３候補
までを示す。各単語は「表記／読み／品詞」の組で表現
され、単語境界は空白で表す。単語列の前の行には、式
（９）より求めた単語列の確率の対数が示されている。
従って、この数値の絶対値が小さいほど、確率は高い。

【０１５５】この処理例では、「組」と「更」の２つの
文字は、入力の文字マトリクスの中に正解文字が含まれ
ていない。しかし、類似単語照合により「組織」及び
「変更」という訂正単語候補が生成され、出力の第１候
補には「組織変更」という正解が得られている。類似単
語照合の動作を示すために、この処理例では、各文字位
置で生成された単語候補の一覧を示す。例えば、文字位
置０では、文字マトリクスに含まれる文字候補と照合す
る１文字単語として「網／アミ／名詞」、「綱／ツナ／
名詞」等が生成され、文字マトリクスに含まれる文字候
補の組合せと照合する２文字単語として「細線／サイセ
ン／名詞」が生成されている。

【０１５６】文字位置０における類似単語照合では、文
字マトリクスの第１候補から構成される長さ２の文字列
「網織」との編集距離が１／２である単語、即ち、どち
らか一方の１文字が一致する単語の中から、文字の図形
的類似度と単語の出現頻度とに基づいて「組織／ソシキ
／動詞」、「網膜／モウマク／名詞」等の単語が生成さ
れている。この例では長さ３以上の類似照合単語はな
い。

【０１５７】文字位置０における未知語候補としては、
文字マトリクスの第１候補から構成される文字列「網織
変東」の部分文字列「網」、「網織」、「網織変」、
「網織変東」の中で、単語辞書に収録されている単語の
表記と一致しない「網織」、「網織変」及び「網織変
東」の３つが未知語候補として生成される。ここで、Ｎ
ＩＬは単語の読みが定義されていないことを表し、＜Ｕ
ＮＫ＞は未知語であることを示す。

【０１５８】図２３は本発明の一実施例の文字認識誤り
訂正の精度を示す図である。横軸は本発明の一実施例に
よる誤り訂正を適用する前の文字認識精度、横軸は本発
明の一実施例による誤り訂正を適用した後の文字認識精
度である。例えば、（０．７０，０．８８）という点
は、入力テキストの第１位候補の文字認識率が７０％の
とき、本発明の一実施例の誤り訂正により文字認識率が
８８％まで向上されることを表す。もし精度を表す点が
斜め４５度の直線上にあれば、誤り訂正の前後で認識率
に変化がないことを表し、点がこの直線より上にあれば
あるほど、誤り訂正の精度が高いことを表す。

【０１５９】図２３には、文字の図形的類似度を利用し
て訂正単語候補の順位付けを行う本発明の一実施例によ
る文字認識誤り訂正と比較するために、文字の図形的類
似度は使用せずに文字マトリクスの候補順位だけから文
字混同確率を適当に推定する方法の精度も同時に示され
ている。説明を簡単にするため、ここでは、本発明の一
実施例の誤り訂正方法を文字類似度法と呼び、候補順位
から文字混同確率を推定する方法を候補順位法と呼ぶ。

【０１６０】候補順位法は、入力テキストのｉ番目の文
字をｃ_iとし、このｃ_iに対するｊ番目の文字認識候補
をｘ_ijとするとき、文字混同確率Ｐ（ｘ_ij｜ｃ_j）を以
下のように近似する。

【０１６１】

【数１６】

【０１６２】ここで、ｐは文字認識の第１候補の平均正
解率である。式（１９）は、文字による認識率の違いを
無視し、第ｎ番目の文字候補が平均的にどれぐらい信頼
できるかを幾何分布により近似したものである。図２３
に示すように、入力テキストの認識率が様々に変化した
場合でも（７０−９５％）、文字の図形的類似度を利用
する本発明の一実施例による文字認識誤り訂正（文字類
似度法）は、従来の図形的類似度を利用しない方法（候
補順位法）に比べて誤り訂正精度が大幅に高い。

【０１６３】また、文字認識誤り訂正システムの構成
は、上記の実施例で説明された例に限定されることな
く、文字認識誤り訂正システムの各々の構成要件をソフ
トウェア（プログラム）で構築し、ディスク装置等に格
納しておき、必要に応じて文字認識誤り訂正システムの
コンピュータにインストールして文字認識誤り訂正を行
うことも可能である。さらに、構築されたプログラムを
フロッピーディスクやＣＤ−ＲＯＭ等の可搬記録媒体に
格納し、このようなシステムを用いる場面で汎用的に使
用することも可能である。

【０１６４】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。

【０１６５】

【発明の効果】以上のように、本発明によれば、単語二
つ組確率及び単語出現確率を与える単語分割モデルと、
文字マトリクスに含まれる部分文字列と完全一致照合す
る辞書中の単語を検索する単語照合手段と、平均単語長
及び文字二つ組確率から構成される単語モデルと、文字
マトリクスに含まれる部分文字列から未知語候補を生成
する未知語生成手段と、任意の二つの文字の間の文字混
同確率を与える文字認識装置モデルと、文字混同確率と
単語出現頻度とに基づいて文字マトリクスに含まれる部
分文字列に類似した辞書中の単語を検索する類似単語照
合手段と、単語列の同時確率と各文字の文字混同確率と
の積が大きい順に単語列を提示する形態素解析手段とを
用いて、文脈を利用せずに短い単語の訂正候補を精度良
く提示できる、日本語文字認識誤り訂正方法及び装置が
実現される。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の原理を説明するフローチャートであ
る。

【図３】本発明の日本語文字認識誤り訂正方法の説明図
である。

【図４】本発明の日本語文字認識誤り訂正装置の構成図
である。

【図５】本発明の日本語文字認識誤り訂正装置の構成図
である。

【図６】本発明の日本語文字認識誤り訂正装置の動作説
明図である。

【図７】本発明の日本語文字認識誤り訂正装置の構成図
である。

【図８】本発明の日本語文字認識誤り訂正装置の構成図
である。

【図９】本発明の日本語文字認識誤り訂正装置の構成図
である。

【図１０】本発明の日本語文字認識誤り訂正装置の構成
図である。

【図１１】本発明の日本語文字認識誤り訂正装置の構成
図である。

【図１２】本発明の文字認識装置モデル作成装置の構成
図である。

【図１３】本発明の文字認識装置モデル作成装置の動作
フローチャートである。

【図１４】本発明の一実施例による日本語文字認識誤り
訂正システムの概略ブロック図である。

【図１５】文字混同頻度の例を示す図である。

【図１６】文字クラスの例を示す図である。

【図１７】文字クラス混同頻度の例を示す図である。

【図１８】本発明の一実施例による前向き探索の動作フ
ローチャートである。

【図１９】本発明の一実施例による後向き探索の動作フ
ローチャートである。

【図２０】本発明の一実施例による未知語候補生成の動
作フローチャートである。

【図２１】本発明の一実施例による類似単語照合の動作
フローチャートである。

【図２２】本発明の一実施例の文字認識誤り訂正の処理
例を示す図である。

【図２３】本発明の一実施例の文字認識誤り訂正の精度
を示す図である。

【符号の説明】

１形態素解析手段２未知語候補生成手段３類似単語照合手段４単語照合手段５単語モデル格納手段６文字認識装置モデル格納手段７単語分割モデル格納手段８文字認識装置

Claims

【特許請求の範囲】

【請求項１】入力として与えられた日本語文に含まれ
る文字認識誤りを訂正する単語候補として、単語の出現
頻度と文字の図形的類似度とに基づいて任意の個数の単
語を確率が高い順番に提示することを特徴とする日本語
文字認識誤り訂正方法。
【請求項２】入力として与えられた日本語文に含まれ
る文字列と一致する単語を単語候補として生成し、上記文に含まれる未知の部分文字列を未知語候補として
生成し、上記文に含まれる部分文字列と類似した単語を上記文の
文脈とは無関係に訂正単語候補として生成し、上記単語候補、上記未知語候補及び上記訂正単語候補の
組合せの中から、上記日本語文に含まれる文字認識誤り
の訂正単語列として、任意の個数の単語候補列を確率の
高い順番に出力することを特徴とする日本語文字認識誤
り訂正方法。
【請求項３】入力として与えられた日本語文に含まれ
る文字認識誤りを訂正する日本語文字認識誤り訂正方法
において、文を構成する単語列の同時確率を与える単語分割モデル
と、任意の二つの文字の間の文字混同確率を与える文字
認識装置モデルとに基づいて、上記訂正対象となる単語
の文字列と類似照合する辞書中の単語を検索し、訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示することを特徴とする日本語
文字認識誤り訂正方法。
【請求項４】日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、平均単語長と、連続する二つの文字において第１の文字
が与えられたときの第２の文字の条件付き出現確率を示
す文字二つ組確率とに基づいて、上記文字マトリクスに
含まれる部分文字列の中から、未知語候補として任意の
個数の未知語の表記と出現確率の組を確率が高い順番に
求め、上記日本語文が辞書に登録されていない単語を含むか否
かとは係わらず、上記未知語候補を含む単語候補の組合
せの中から、上記日本語文を構成する単語列の同時確率
と上記日本語文を構成する各文字の文字混同確率との積
が大きい順番に任意の個数の単語候補列を提示すること
を特徴とする日本語文字認識誤り訂正方法。
【請求項５】日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから二つの文字の間
の文字混同確率を推定し、正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記日本語文を構成する各文字の文字混同確率が
大きい順番に任意の個数の単語候補列を提示することを
特徴とする日本語文字認識誤り訂正方法。
【請求項６】日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率と単語出現確率とに基づいて
上記単語の順位付けを行い、正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記順位付けされた単語を含む単語候補の組合せ
の中から、上記日本語文を構成する単語列の同時確率と
上記日本語文を構成する各文字の文字混同確率との積が
大きい順番に任意の個数の単語候補列を提示することを
特徴とする日本語文字認識誤り訂正方法。
【請求項７】日本語文の各文字位置毎に文字認識スコ
アの高い順番に並べられた文字候補のリストである文字
マトリクスを入力し、上記文字マトリクスに含まれる部分文字列と照合する辞
書中の単語を検索し、上記日本語文が辞書に登録されていない単語を含む場合
に、平均単語長と、連続する二つの文字において第１の
文字が与えられたときの第２の文字の条件付き出現確率
を示す文字二つ組確率とに基づいて、上記文字マトリク
スに含まれる部分文字列の中から、未知語候補として確
率が高い順番に任意の個数の未知語の表記と出現確率の
組を求め、正解文字が上記文字候補に含まれていない場合に、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率と単語出現確率とに基づいて上記
単語の順位付けを行い、上記文字マトリクスに含まれる辞書中の単語、上記未知
語候補、及び、上記順位付けされた単語を含む単語候補
の組合せの中から、上記日本語文を構成する単語列の同
時確率と上記日本語文を構成する各文字の文字混同確率
との積が大きい順番に任意の個数の単語候補列を提示す
ることを特徴とする日本語文字認識誤り訂正方法。
【請求項８】単語の出現頻度を格納する記憶手段と、文字の図形的類似度を計算する計算手段と、入力として与えられた日本語文を構成する単語の出現頻
度を上記記憶手段から獲得し、上記計算手段によって計
算された上記日本文を構成する文字の図形的類似度を獲
得し、上記獲得された単語の出現頻度及び文字の図形的
類似度とに基づいて、上記日本語文に含まれる文字認識
誤りを訂正する単語候補として、任意の個数の単語を確
率が高い順番に提示する手段とからなることを特徴とす
る日本語文字誤り訂正装置。
【請求項９】入力として与えられた日本語文に含まれ
る文字列と一致する単語を単語候補として生成する手段
と、上記文に含まれる未知の部分文字列を未知語候補として
生成する手段と、上記文に含まれる部分文字列と類似した単語を上記文の
文脈とは無関係に訂正単語候補として生成する手段と、上記単語候補、上記未知語候補及び上記訂正単語候補の
組合せの中から、上記日本語文に含まれる文字認識誤り
の訂正単語列として、任意の個数の単語候補列を確率の
高い順番に出力する手段とからなることを特徴とする日
本語文字認識誤り訂正装置。
【請求項１０】入力として与えられた日本語文に含ま
れる文字認識誤りを訂正する日本語文字認識誤り訂正装
置において、文を構成する単語列の同時確率を与える単語分割モデル
格納手段と、任意の二つの文字の間の文字混同確率を与える文字認識
装置モデル格納手段と、上記訂正対象となる単語の文字列と類似照合する辞書中
の単語を検索する類似単語照合手段と、訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示する手段とからなることを特
徴とする日本語文字認識誤り訂正装置。
【請求項１１】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、平均単語長と、連続する二つの文字において第１の文字
が与えられたときの第２の文字の条件付き出現確率を示
す文字二つ組確率とを記憶する単語モデル格納手段と、上記単語モデル格納手段に記憶された平均単語長及び文
字二つ組確率に基づいて、上記文字マトリクスに含まれ
る部分文字列の中から、未知語候補として任意の個数の
未知語の表記と出現確率の組を確率が高い順番に求める
未知語候補生成手段と、上記日本語文が辞書に登録されていない単語を含むか否
かとは係わらず、上記未知語候補を含む単語候補の組合
せの中から、上記日本語文を構成する単語列の同時確率
と上記日本語文を構成する各文字の文字混同確率との積
が大きい順番に任意の個数の単語候補列を提示する手段
とからなることを特徴とする日本語文字認識誤り訂正装
置。
【請求項１２】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶する文字認識装置モデ
ル格納手段と、正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記文字認識装置モデル格納手段から得られた上
記日本語文を構成する各文字の文字混同確率が大きい順
番に任意の個数の単語候補列を提示する手段とからなる
ことを特徴とする日本語文字認識誤り訂正装置。
【請求項１３】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶する文字認識装置モデ
ル格納手段と、単語出現確率を記憶する単語分割モデル格納手段と、上記文字混同確率及び上記単語出現確率に基づいて上記
単語の順位付けを行なう類似単語照合手段と、正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記順位付けされた単語を含む単語候補の組合せ
の中から、上記日本語文を構成する単語列の同時確率と
上記日本語文を構成する各文字の文字混同確率との積が
大きい順番に任意の個数の単語候補列を提示する手段と
からなることを特徴とする日本語文字認識誤り訂正装
置。
【請求項１４】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力する手段と、上記文字マトリクスに含まれる部分文字列と照合する辞
書中の単語を検索する単語照合手段と、平均単語長と、連続する二つの文字において第１の文字
が与えられたときの第２の文字の条件付き出現確率を示
す文字二つ組確率とを記憶する単語モデル格納手段と、上記日本語文が辞書に登録されていない単語を含む場合
に、上記記憶された平均単語長及び文字二つ組確率に基
づいて、上記文字マトリクスに含まれる部分文字列の中
から、未知語候補として確率が高い順番に任意の個数の
未知語の表記と出現確率の組を求める未知語候補生成手
段と、正解文字が上記文字候補に含まれていない場合に、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率を記憶する文字認識装置モデル格
納手段と、単語出現確率を記憶する単語分割モデル格納手段と、上記記憶された文字混同確率及び単語出現確率に基づい
て上記単語の順位付けを行なう類似単語照合手段と、上記文字マトリクスに含まれる辞書中の単語、上記未知
語候補、及び、上記順位付けされた単語を含む単語候補
の組合せの中から、上記日本語文を構成する単語列の同
時確率と上記日本語文を構成する各文字の文字混同確率
との積が大きい順番に任意の個数の単語候補列を提示す
る形態素解析手段とからなることを特徴とする日本語文
字認識誤り訂正装置。
【請求項１５】ある文字がどの文字にどれくらいの頻
度で認識されるかを与える文字混同頻度を記憶する文字
混同頻度格納手段と、文字の図形的特徴を数値化した文字特徴ベクトルを記憶
する文字特徴ベクトル格納手段と、互いに距離が近い文字特徴ベクトルを一つにまとめるこ
とにより、上記文字を複数の文字クラスに分類する文字
クラスタリング手段と、上記文字混同頻度及び上記文字クラスに基づいて、ある
文字クラスの文字がどの文字クラスの文字にどのくらい
の頻度で認識されるかを表す文字クラス混同確率を推定
する手段と、ある文字がこれまで観測されていない文字に認識される
確率の総和を推定する未観測事象確率推定手段と、上記未観測事象の確率の総和を文字クラス混同確率に比
例するように配分し、和が１になるように正規化するこ
とにより未観測事象の文字混同確率を求め、観測事象の
確率の総和を文字混同確率に比例するように配分し、全
体の確率の和が１になるように正規化する手段とにより
構成され、文字の図形的類似度に基づいて任意の二つの文字の間の
文字混同確率を与えることを特徴とする文字認識装置モ
デル作成装置。
【請求項１６】単語の出現頻度を記憶させるプロセス
と、文字の図形的類似度を計算するプロセスと、入力として与えられた日本語文を構成する単語の出現頻
度を獲得し、上記計算された上記日本文を構成する文字
の図形的類似度を獲得し、上記獲得された単語の出現頻
度及び文字の図形的類似度とに基づいて、上記日本語文
に含まれる文字認識誤りを訂正する単語候補として、任
意の個数の単語を確率が高い順番に提示させるプロセス
とからなることを特徴とする日本語文字誤り訂正プログ
ラムを記録した記録媒体。
【請求項１７】入力として与えられた日本語文に含ま
れる文字列と一致する単語を単語候補として生成させる
プロセスと、上記文に含まれる未知の部分文字列を未知語候補として
生成させるプロセスと、上記文に含まれる部分文字列と類似した単語を上記文の
文脈とは無関係に訂正単語候補として生成させるプロセ
スと、上記単語候補、上記未知語候補及び上記訂正単語候補の
組合せの中から、上記日本語文に含まれる文字認識誤り
の訂正単語列として、任意の個数の単語候補列を確率の
高い順番に出力させるプロセスとからなることを特徴と
する日本語文字認識誤り訂正プログラムを記録した記録
媒体。
【請求項１８】入力として与えられた日本語文を構成
する単語列の同時確率を与えるプロセスと、任意の二つの文字の間の文字混同確率を与えるプロセス
と、上記訂正対象となる単語の文字列と類似照合する辞書中
の単語を検索させるプロセスと、訂正対象となる単語の長短、並びに、訂正対象となる単
語の前後の文脈情報の利用の可否には係わらず、上記訂
正対象となる単語の訂正単語候補として任意の個数の単
語を確率の高い順番に提示させるプロセスとからなるこ
とを特徴とする日本語文字認識誤り訂正プログラムを記
録した記録媒体。
【請求項１９】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、平均単語長と、連続する二つの文字において第１の文字
が与えられたときの第２の文字の条件付き出現確率を示
す文字二つ組確率とを記憶させるプロセスと、上記記憶された平均単語長及び文字二つ組確率に基づい
て、上記文字マトリクスに含まれる部分文字列の中か
ら、未知語候補として任意の個数の未知語の表記と出現
確率の組を確率が高い順番に求めさせるプロセスと、上記日本語文が辞書に登録されていない単語を含むか否
かとは係わらず、上記未知語候補を含む単語候補の組合
せの中から、上記日本語文を構成する単語列の同時確率
と上記日本語文を構成する各文字の文字混同確率との積
が大きい順番に任意の個数の単語候補列を提示させるプ
ロセスとからなることを特徴とする日本語文字認識誤り
訂正プログラムを記録した記録媒体。
【請求項２０】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶させるプロセスと、正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記文字認識装置モデル格納手段から得られた上
記日本語文を構成する各文字の文字混同確率が大きい順
番に任意の個数の単語候補列を提示させるプロセスとか
らなることを特徴とする日本語文字認識誤り訂正プログ
ラムを記録した記録媒体。
【請求項２１】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、文字マトリクスに含まれる文字列と類似照合する辞書中
の単語を検索し、ある文字がどの文字にどれくらいの頻
度で認識されるかを示す文字混同行列及び文字の図形的
特徴を数値化した文字特徴ベクトルから推定される二つ
の文字の間の文字混同確率を記憶させるプロセスと、単語出現確率を記憶させるプロセスと、上記文字混同確率及び上記単語出現確率に基づいて上記
単語の順位付けを行わせるプロセスと、正解文字が上記文字候補に含まれているか否かとは係わ
らず、上記順位付けされた単語を含む単語候補の組合せ
の中から、上記日本語文を構成する単語列の同時確率と
上記日本語文を構成する各文字の文字混同確率との積が
大きい順番に任意の個数の単語候補列を提示させるプロ
セスとからなることを特徴とする日本語文字認識誤り訂
正プログラムを記録した記録媒体。
【請求項２２】日本語文の各文字位置毎に文字認識ス
コアの高い順番に並べられた文字候補のリストである文
字マトリクスを入力させるプロセスと、上記文字マトリクスに含まれる部分文字列と照合する辞
書中の単語を検索させるプロセスと、平均単語長と、連続する二つの文字において第１の文字
が与えられたときの第２の文字の条件付き出現確率を示
す文字二つ組確率とを記憶させるプロセスと、上記日本語文が辞書に登録されていない単語を含む場合
に、上記記憶された平均単語長及び文字二つ組確率に基
づいて、上記文字マトリクスに含まれる部分文字列の中
から、未知語候補として確率が高い順番に任意の個数の
未知語の表記と出現確率の組を求めさせるプロセスと、正解文字が上記文字候補に含まれていない場合に、文字
マトリクスに含まれる文字列と類似照合する辞書中の単
語を検索し、ある文字がどの文字にどれくらいの頻度で
認識されるかを示す文字混同行列及び文字の図形的特徴
を数値化した文字特徴ベクトルから推定される二つの文
字の間の文字混同確率を記憶させるプロセスと、単語出現確率を記憶させるプロセスと、上記記憶された文字混同確率及び単語出現確率に基づい
て上記単語の順位付けを行なわせるプロセスと、上記文字マトリクスに含まれる辞書中の単語、上記未知
語候補、及び、上記順位付けされた単語を含む単語候補
の組合せの中から、上記日本語文を構成する単語列の同
時確率と上記日本語文を構成する各文字の文字混同確率
との積が大きい順番に任意の個数の単語候補列を提示さ
せるプロセスとからなることを特徴とする日本語文字認
識誤り訂正プログラムを記録した記録媒体。
【請求項２３】ある文字がどの文字にどれくらいの頻
度で認識されるかを与える文字混同頻度を記憶させるプ
ロセスと、文字の図形的特徴を数値化した文字特徴ベクトルを記憶
させるプロセスと、互いに距離が近い文字特徴ベクトルを一つにまとめるこ
とにより、上記文字を複数の文字クラスに分類させるプ
ロセスと、上記文字混同頻度及び上記文字クラスに基づいて、ある
文字クラスの文字がどの文字クラスの文字にどのくらい
の頻度で認識されるかを表す文字クラス混同確率を推定
させるプロセスと、ある文字がこれまで観測されていない文字に認識される
確率の総和を推定させるプロセスと、上記未観測事象の確率の総和を文字クラス混同確率に比
例するように配分し、和が１になるように正規化するこ
とにより未観測事象の文字混同確率を求め、観測事象の
確率の総和を文字混同確率に比例するように配分し、全
体の確率の和が１になるように正規化させるプロセスと
により構成され、文字の図形的類似度に基づいて任意の二つの文字の間の
文字混同確率を与えることを特徴とする文字認識装置モ
デル作成プログラムを記録した記録媒体。