WO2011074067A1

WO2011074067A1 - 文字認識方法、文字認識装置および文字認識プログラム

Info

Publication number: WO2011074067A1
Application number: PCT/JP2009/070886
Authority: WO
Inventors: 靖之工藤; 将平長谷川; 真一江口
Original assignee: 富士通フロンテック株式会社
Priority date: 2009-12-15
Filing date: 2009-12-15
Publication date: 2011-06-23
Also published as: EP2515257A4; EP2515257A1; US8588520B2; JPWO2011074067A1; JP5363591B2; US20120308127A1

Abstract

　文字認識処理における手書き／活字判別の精度を向上させ、文字認識による処理時間を短縮するともに文字認識精度を向上させること。　イメージ文字の階調分布を解析し（Ｓ４）、イメージ文字の文字色を解析し（Ｓ５）、文字ストロークの変曲点の階調と変曲点以外の文字ストロークの階調との比を解析し（Ｓ６）、文字ストロークエッジ強度を解析し（Ｓ７）、イメージ文字の縦サイズおよび中心位置を解析し（Ｓ８）、イメージ文字の文字サイズおよびピッチを解析し（Ｓ９）、それぞれの解析結果を数値化した第１ないし第６スコアを集計して手書きか活字かを判定し（Ｓ１０）、認識対象項目内の手書きおよび活字の混在をチェックする（Ｓ１１）。これにより、手書きか活字かの判定精度が上がるので、文字認識の処理時間が短縮され、文字認識精度を向上させることができる。

Description

文字認識方法、文字認識装置および文字認識プログラム

　本発明は文字認識方法、文字認識装置および文字認識プログラムに関し、特に金融機関等で使用する帳票に印字された文字および手書きで記入された文字を判別する文字認識方法、文字認識装置および文字認識プログラムに関する。

　金融機関等では、帳票に印刷および記入された文字の入力を自動化するために、帳票上の文字を認識する文字認識装置が用いられている。この文字認識装置では、文字認識の精度を高めるために、帳票に印刷される見出しおよびそれに対応するデータがどの位置にどのような順序で記載されているかを定義した定義体をあらかじめ作成しておき、その定義情報に基づいて文字列を認識している。

　帳票には、あらかじめ印刷された活字文字と、利用者によって書き込まれる手書き文字とがあり、定義体には、文字認識対象項目が手書きであるか活字であるかを設定してある。文字認識装置は、帳票の文字を認識するときに、定義体を参照し、文字認識対象項目が手書きの設定ならば手書き用文字認識エンジンを使用し、活字の設定ならば活字用文字認識エンジンを使用して文字認識する。

　このように、定義体を使用した文字認識では、文字認識対象項目が手書き文字であるか活字文字であるかが事前に判明しているので、それぞれに応じた文字認識処理を行うことで認識精度を向上させることができる。しかし、定義体を作成する場合、事前に認識したい帳票を入手する必要があり、また、収集できる帳票は限られているため、文字認識装置で使用できる帳票が限定されてしまう。しかも、実際に定義体を作成する際、文字認識する各文字認識対象項目に対し、手書き／活字の設定を行なうことになるので、定義体を作成するときの作業工数が大きい。

　そこで、文書のイメージデータから文字列を抽出し、各文字の高さ方向の中心位置を算出し、中心位置の規則性により手書き文字か活字文字かを判別し、その判別結果に基づき文字認識を行う方法が提案されている（たとえば、特許文献１参照）。

　この特許文献１の方法では、文字列内に濁点や拗音が含まれる場合に中心位置の規則性にばらつきが出てしまう。このことから、文字列から濁点、拗音を含めずに文字を抽出し、抽出した全文字の中心位置の規則性から手書き文字か活字文字かを判別する方法も知られている（たとえば、特許文献２参照）。

　また、文字を切り出して、複数の特徴量を算出し、得られた特徴量により手書き文字か活字文字かを判断する方法も知られている（たとえば、特許文献３参照）。特徴量としては、濃度の均一性、画素値のばらつき、文字ストロークの直線性、文字の高さ、幅の均一性、文字線幅の均一性等が用いられている。

特開２０００－１８１９９３号公報特開２０００－３３１１２２号公報特開２００６－９２３４５号公報

　従来の文字認識方法の何れにおいても、文字認識対象項目の文字列が手書き文字であるか活字文字であるかしか判断していない。そのため、たとえ定義体を使用して文字認識を行う方法においても、手書きおよび活字のどちらも記入される可能性がある文字認識対象項目については対処することができない。したがって、文字認識のときには、手書き用および活字用の両方の文字認識エンジンを呼び出すことになるので、処理時間がかかるという問題点があった。

　本発明はこのような点に鑑みてなされたものであり、文字認識処理における手書き／活字判別の精度を向上させ、文字認識による処理時間を短縮するとともに文字認識精度を向上させる文字認識方法、文字認識装置および文字認識プログラムを提供することを目的とする。

　本発明では上記の課題を解決するために、帳票上の手書きの文字と活字の文字とを判別して認識する文字認識方法において、前記帳票のイメージデータから文字認識の対象となる項目を特定し、特定された認識対象項目のイメージ文字の位置およびサイズを算出し、前記イメージ文字の手書きおよび活字の特性を解析して手書きまたは活字の確からしさを数値化したスコアを算出し、前記スコアを基に前記イメージ文字が手書きか活字かを判定し、認識対象項目内の各文字のスコアの平均値を算出して手書きおよび活字の混在をチェックし、各認識対象項目の文字を手書きか活字かの判定結果および手書きおよび活字の混在のチェック結果に応じた文字認識エンジンを用いて文字認識を行う、ことからなり、前記スコアの算出は、前記イメージ文字の階調分布を解析して手書きまたは活字の確からしさを数値化した第１スコアを算出し、前記イメージ文字の文字色を解析して手書きまたは活字の確からしさを数値化した第２スコアを算出し、前記イメージ文字から抽出した文字ストロークから前記文字ストロークが変化する変曲点の階調と変曲点以外の文字ストロークの階調との比を解析して手書きまたは活字の確からしさを数値化した第３スコアを算出し、前記文字ストロークと背景との境界における濃淡変化の強さを表す文字ストロークエッジ強度を解析して手書きまたは活字の確からしさを数値化した第４スコアを算出し、前記イメージ文字の位置およびサイズから文字の縦サイズおよび中心位置を解析して手書きまたは活字の確からしさを数値化した第５スコアを算出し、前記イメージ文字の位置およびサイズから文字サイズおよびピッチを解析して手書きまたは活字の確からしさを数値化した第６スコアを算出する、ことを含み、前記イメージ文字が手書きか活字かの判定では、前記第１ないし第６スコアをそれらの重要度に応じて設定されたウエイトを考慮して前記スコアを集計している、ことを特徴とする文字認識方法が提供される。

　また、本発明では、帳票上の手書きおよび活字の文字を認識する文字認識装置において、前記帳票のイメージデータから特定された認識対象項目のイメージ文字の階調分布を解析して手書きまたは活字の確からしさを数値化した第１スコアを算出する階調分布解析部と、前記イメージ文字の文字色を解析して手書きまたは活字の確からしさを数値化した第２スコアを算出する文字色解析部と、前記イメージ文字から抽出した文字ストロークから前記文字ストロークが変化する変曲点の階調と変曲点以外の文字ストロークの階調との比を解析して手書きまたは活字の確からしさを数値化した第３スコアを算出する文字ストローク階調比解析部と、前記文字ストロークと背景との境界における濃淡変化の強さを表す文字ストロークエッジ強度を解析して手書きまたは活字の確からしさを数値化した第４スコアを算出する文字ストロークエッジ強度解析部と、前記イメージ文字の位置およびサイズから文字の縦サイズおよび中心位置を解析して手書きまたは活字の確からしさを数値化した第５スコアを算出する文字サイズ／中心位置解析部と、前記イメージ文字の位置およびサイズから文字サイズおよびピッチを解析して手書きまたは活字の確からしさを数値化した第６スコアを算出する文字サイズ／ピッチ解析部と、認識対象項目内の各文字の前記第１ないし第６スコアの平均値を算出して手書きおよび活字の混在をチェックする手書き／活字混在チェック部と、を有し、前記第１ないし第６スコアを重要度に応じて設定されたウエイトを考慮して集計した集計スコアと、前記手書き／活字混在チェック部によるチェック結果とを基に、前記イメージ文字が手書きか活字かを判定する手書き／活字判別部と、各認識対象項目の文字について、前記手書き／活字判別部による判定結果に応じた文字認識エンジンを用いて文字認識を行う文字認識処理部と、を備えていることを特徴とする文字認識装置が提供される。

　さらに、本発明では、帳票上の手書きの文字と活字の文字とを判別する処理をコンピュータに実行させる文字認識プログラムであって、前記コンピュータに、前記帳票のイメージデータから文字認識の対象となる項目を特定し、特定された認識対象項目のイメージ文字の位置およびサイズを算出し、前記イメージ文字の階調分布を解析して手書きまたは活字の確からしさを数値化した第１スコアを算出し、前記イメージ文字の文字色を解析して手書きまたは活字の確からしさを数値化した第２スコアを算出し、前記イメージ文字から抽出した文字ストロークから前記文字ストロークが変化する変曲点の階調と変曲点以外の文字ストロークの階調との比を解析して手書きまたは活字の確からしさを数値化した第３スコアを算出し、前記文字ストロークと背景との境界における濃淡変化の強さを表す文字ストロークエッジ強度を解析して手書きまたは活字の確からしさを数値化した第４スコアを算出し、前記イメージ文字の位置およびサイズから文字の縦サイズおよび中心位置を解析して手書きまたは活字の確からしさを数値化した第５スコアを算出し、前記イメージ文字の位置およびサイズから文字サイズおよびピッチを解析して手書きまたは活字の確からしさを数値化した第６スコアを算出し、前記第１ないし第６スコアを重要度に応じて設定されたウエイトを考慮して集計することにより前記イメージ文字が手書きか活字かを判定し、認識対象項目内の各文字のスコアの平均値を算出して手書きおよび活字の混在をチェックし、各認識対象項目の文字を手書きか活字かの判定結果および手書きおよび活字の混在のチェック結果に応じて文字認識を行う、処理を実行させることを特徴とする文字認識プログラムが提供される。

　このような文字認識方法、文字認識装置および文字認識プログラムによれば、複数の解析結果を組み合わせると共に手書きおよび活字の混在チェックで手書きか活字かの判定を行い、この判定結果に応じた文字認識エンジンを用いることができるので、文字認識による処理時間を短縮するともに文字認識精度が向上する。

　上記構成の文字認識方法、文字認識装置および文字認識プログラムは、複数の解析を組み合わせて文字認識項目に記載されている文字が手書きか活字かを判断しているので、判断の精度が上がることから、手書き文字は手書き文字、活字文字は活字文字としてそれぞれ文字認識することが可能になり、文字認識精度が向上するという利点がある。

　１つの認識対象項目内に手書きと活字が混在している場合でも、文字ごとに手書き／活字判定を行っていることから、手書き文字は手書き文字、活字文字は活字文字としてそれぞれ文字認識することが可能になり、文字認識精度が向上する。

　定義体を使用しない文字認識装置で、帳票内にある見出しを抽出する際に、手書き／活字判別部の機能を活用することにより、手書きの文字列を見出しの抽出対象から除外することができるので、見出しを抽出する処理の性能向上に繋がる。

　本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

本発明の実施の形態に係る文字認識装置を示すブロック図である。文字認識の処理の全体の流れを示すフローチャートである。認識対象の帳票の例を示す図である。帳票の画像から文字認識の対象となる箇所を特定した状態を示す図である。スコア集計処理において各スコアに付けられるウエイトの例を示す図である。階調分布による手書き活字解析処理の流れを示すフローチャートである。階調分布解析処理を説明する図であって、（Ａ）は手書き文字の階調値のヒストグラムを示し、（Ｂ）は活字文字の階調値のヒストグラムを示している。文字色による手書き活字解析処理の流れを示すフローチャートである。文字色解析処理を説明する図であって、（Ａ）は手書き文字の彩度のヒストグラムを示し、（Ｂ）は手書き文字の明度のヒストグラムを示し、（Ｃ）は活字文字の彩度のヒストグラムを示し、（Ｄ）は活字文字の明度のヒストグラムを示している。文字ストロークによる手書き活字解析処理の流れを示すフローチャートである。各ストロークと変曲点を説明する図であって、（Ａ）は手書き文字の変曲点の例を示し、（Ｂ）は活字文字の変曲点の例を示している。文字ストロークエッジ強度による手書き活字解析処理の流れを示すフローチャートである。文字ストロークエッジ強度を説明する図であって、（Ａ）は手書き文字の場合の階調値の変化を示し、（Ｂ）は活字文字の場合の階調値の変化を示している。文字サイズ／中心位置による手書き活字解析処理の流れを示すフローチャートである。手書き文字の文字サイズ／中心位置による解析例を説明する図であって、（Ａ）は黒画素の集合の外接矩形の算出結果を示し、（Ｂ）は文字縦サイズによる分類の算出結果を示し、（Ｃ）は各文字の中心座標平均を示し、（Ｄ）は各文字の中心座標平均と中心座標との差の算出結果を示している。活字文字の文字サイズ／中心位置による解析例を説明する図であって、（Ａ）は黒画素の集合の外接矩形の算出結果を示し、（Ｂ）は文字縦サイズによる分類の算出結果を示し、（Ｃ）は各文字の中心座標平均を示し、（Ｄ）は各文字の中心座標平均と中心座標との差の算出結果を示している。文字枠間による手書き活字解析処理の流れを示すフローチャートである。文字枠間による手書き活字解析例を説明する図である。手書き／活字混在チェック処理の流れを示すフローチャートである。認識対象項目に手書き文字と活字文字とが混在しているときの処理の説明図である。文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。

　以下、本発明の実施の形態について、対象の帳票として金融機関等で使用している振込依頼書を使用し、この振込依頼書に印字および手書きで記載されている文字列の認識を行う装置に適用した場合を例に図面を参照して詳細に説明する。

　図１は本発明の実施の形態に係る文字認識装置を示すブロック図である。
　文字認識装置１０は、装置全体を制御する制御部１１を備え、この制御部１１には、スキャナ制御部１２、文字認識位置特定部１３、手書き／活字判別部１４および認識結果表示部１５が接続されている。手書き／活字判別部１４は、文字認識処理部１６が接続され、この文字認識処理部１６には、文字認識処理のときに参照される手書き文字認識辞書１７および活字文字認識辞書１８が関連されている。

　手書き／活字判別部１４は、認識対象項目の文字が手書きであるか活字であるかを判別する機能を有する要素であり、この判別結果に基づいて文字認識処理部１６は、適切な文字認識エンジンを用いた文字認識処理を可能にしている。すなわち、この手書き／活字判別部１４は、階調分布解析部１９と、文字色解析部２０と、文字ストローク階調比解析部２１と、文字ストロークエッジ強度解析部２２と、文字サイズ／中心位置解析部２３と、文字サイズ／ピッチ解析部２４と、手書き／活字混在チェック部２５とを備えている。

　階調分布解析部１９は、印字濃度が一定の活字では、濃度分布が小さく、筆圧により濃度が一定でない手書き文字の場合には、濃度分布が大きいという傾向のある特徴を解析に利用している。この階調分布解析部１９は、解析結果から手書きまたは活字の確からしさを数値化したスコア（第１スコア）を算出する。

　文字色解析部２０は、銀行業務で使用する帳票に手書きで記入する場合、大抵は黒色またはカーボン転写した青色であり、それに対して、活字は様々な色で印字されているという傾向のある特徴を解析に利用している。この文字色解析部２０は、解析結果から文字が無彩色であるか有彩色であるかに応じて手書きまたは活字の確からしさを数値化したスコア（第２スコア）を算出する。

　文字ストローク階調比解析部２１は、手書き文字の場合、文字ストロークが変化する箇所（変曲点）において、記入速度が低下するため、変曲点の文字濃度が高くなるという活字には見られない傾向のある特徴を解析に利用している。この文字ストローク階調比解析部２１は、文字ストロークの階調と変曲点の階調との比を解析し、手書きまたは活字の確からしさを数値化したスコア（第３スコア）を算出する。

　文字ストロークエッジ強度解析部２２は、活字の場合、印字された文字と背景との境界のエッジの強度（濃淡変化の強さ）が高く、手書き文字の場合、エッジ強度が弱いという傾向のある特徴を解析に利用している。この文字ストロークエッジ強度解析部２２は、そのエッジの強度を解析し、手書きまたは活字の確からしさを数値化したスコア（第４スコア）を算出する。

　文字サイズ／中心位置解析部２３は、文字の縦サイズおよび中心位置を解析している。すなわち、帳票に記入される文字サイズは、活字の場合、ある一定の縦幅で印字されるが、手書きの場合、縦幅にばらつきがある。また、文字の記入位置についても、活字は一定の中心位置に印字されるが、手書きは、活字のように一定の位置に記入することができないため、中心位置にばらつきがある。文字サイズ／中心位置解析部２３は、このような傾向のある特徴を解析に利用し、手書きまたは活字の確からしさを数値化したスコア（第５スコア）を算出する。

　文字サイズ／ピッチ解析部２４は、文字サイズ／中心位置解析部２３による解析では、拗音等、通常より小さい文字をばらつきと判断してしまうのを補う機能を有するものである。この文字サイズ／ピッチ解析部２４は、同種の文字間にあるばらつきと判断された文字については、これを活字らしいと判断し、手書きまたは活字の確からしさを数値化したスコア（第６スコア）を算出する。

　手書き／活字混在チェック部２５は、認識対象項目内の文字列が手書き文字および活字文字が混在していないかどうかをチェックする。これにより、同一の認識対象項目内の文字であっても、手書き文字および活字文字が混在していれば、文字認識処理部１６は、文字ごとに文字認識処理に適切な文字認識エンジンを使用することが可能になる。

　手書き／活字判別部１４は、各解析部で算出された第１ないし第６スコアを重要度に応じたウエイトを考慮して集計した集計スコアと、手書き／活字混在チェック部２５によるチェック結果とを基に、イメージ文字が手書きであるか活字であるかを判定する。

　図２は文字認識の処理の全体の流れを示すフローチャート、図３は認識対象の帳票の例を示す図、図４は帳票の画像から文字認識の対象となる箇所を特定した状態を示す図、図５はスコア集計処理において各スコアに付けられるウエイトの例を示す図である。

　文字認識装置１０は、まず、スキャナ制御部１２によりスキャナによって読み取った帳票の画像を入力する（ステップＳ１）。この読み取りの対象の帳票は、図２に示したように、たとえば振込依頼書であり、その表題以外の文字列は、罫線枠の中に印刷および手書きで記載されている。

　次に、文字認識装置１０の制御部１１は、帳票の画像から文字認識の対象となる箇所を特定する（ステップＳ２）。この認識対象箇所の特定は、たとえば図３中に示したように、罫線枠の中の領域であって、中に見出し文字を含まない罫線枠とすることができ、図３では、認識対象は、太線の枠で示している。制御部１１は、次に、特定された認識対象箇所の画像に対しイメージ文字を切り出すラベリング処理等を行い、イメージ文字の位置およびサイズを特定し（ステップＳ３）、手書き／活字判別部１４に渡す。

　手書き／活字判別部１４では、まず、階調分布解析部１９が文字の濃淡を表す階調値の分布を解析して階調の分布の具合に応じた値の第１スコアを算出し（ステップＳ４）、文字色解析部２０が文字の色を解析して文字色に応じた値の第２スコアを算出する（ステップＳ５）。

　次に、文字ストローク階調比解析部２１が文字ストロークの階調と文字ストロークが変化する変曲点の階調との比を解析してその比の大きさに応じた第３スコアを算出し（ステップＳ６）、文字ストロークエッジ強度解析部２２が文字ストロークエッジの濃淡変化を表すエッジ強度を解析し、文字ストロークエッジのかすれ具合に応じた第４スコアを算出する（ステップＳ７）。

　次に、文字サイズ／中心位置解析部２３が文字の縦サイズおよび中心位置を解析し、それらのばらつき具合に応じた第５スコアを算出し（ステップＳ８）、文字サイズ／ピッチ解析部２４が認識対象文字とその両隣の文字との縦サイズの比較および両隣の文字との文字ピッチの大きさを解析し、文字の縦サイズおよびピッチに関して特定の条件に応じた第６スコアを算出する（ステップＳ９）。

　手書き／活字判別部１４は、以上のようにして算出された第１ないし第６スコアを集計し、認識対象文字が手書き文字か活字文字かを判別する（ステップＳ１０）。この集計処理のとき、第１ないし第６スコアは、図５に示したように、重要度に応じてウエイトが付けられる。この図５の例では、第１スコアおよび第５スコアは、手書き／活字判別処理に係る重要度が最も高いことを示している。集計スコアは、第１ないし第６スコアにそれぞれの対応するウエイトが乗ぜられた値の総和によって算出される。なお、本実施の形態では、各解析処理にて算出される第１ないし第６スコアは、手書きまたは活字の確からしさに応じて－５０～＋５０と数値化される。手書きであるか活字であるかは、０を基準とし、集計スコアが正数の場合は活字、負数の場合は手書き文字と判別している。

　次に、手書き／活字混在チェック部２５が認識対象項目内の文字列の中に手書き文字および活字文字が混在していないかどうかをチェックする（ステップＳ１１）。
　次に、手書き／活字判別部１４での判別結果および手書き／活字混在チェック部２５によるチェック結果を基に、文字認識処理部１６が手書き文字認識辞書１７または活字文字認識辞書１８を使用して文字認識処理を行い（ステップＳ１２）、文字認識結果をたとえば振込処理を行う装置に通知する（ステップＳ１３）。

　次に、手書き／活字判別部１４で行う各解析処理の具体例について説明する。
　図６は階調分布による手書き活字解析処理の流れを示すフローチャート、図７は階調分布解析処理を説明する図であって、（Ａ）は手書き文字の階調値のヒストグラムを示し、（Ｂ）は活字文字の階調値のヒストグラムを示している。

　階調分布解析部１９は、まず、文字認識対象項目内にて位置およびサイズが特定されたイメージ文字の画像からグレー画像を作成し（ステップＳ２１）、そのグレー画像から背景画素を除外した文字の画素に対し、たとえば１画素ずつ走査したときの画素数（階調値）のヒストグラムを作成する（ステップＳ２２）。次に、作成されたヒストグラムより半値幅を算出し（ステップＳ２３）、その半値幅の閾値を用いて第１スコアを算出する（ステップＳ２４）。この処理は、文字認識対象項目内のすべての文字に対して個々に実施される。

　作成された図７に示すヒストグラムによれば、（Ａ）の手書き文字の場合、筆圧により文字の濃度が一定でないことから、階調値が分散されてその分布が広がってしまい、その結果、階調値の分布の半値幅も大きく、その閾値よりも大きくなる。なお、半値幅は、ヒストグラムから背景画素を除外し、残りのヒストグラム内で画素数が最大となる点から左右に走査し、画素の半分を取るように設定した幅を表す。この手書き文字の場合、第１スコアには、たとえば半値幅とその閾値との差を算出した値を元に生成した負数が設定される。

　一方、図７の（Ｂ）の活字の場合は、文字の濃度が一定であって文字と背景の中間の階調値を有する部分が少ないので、階調値の分布が狭まり、半値幅が小さくなって、その閾値よりも小さくなる。この活字文字の場合、第１スコアには、たとえば半値幅とその閾値との差を算出した値を元に生成した正数が設定される。

　図８は文字色による手書き活字解析処理の流れを示すフローチャート、図９は文字色解析処理を説明する図であって、（Ａ）は手書き文字の彩度のヒストグラムを示し、（Ｂ）は手書き文字の明度のヒストグラムを示し、（Ｃ）は活字文字の彩度のヒストグラムを示し、（Ｄ）は活字文字の明度のヒストグラムを示している。

　文字色解析部２０は、まず、文字認識対象項目内にて位置およびサイズが特定されたイメージ文字の画像を色相（Ｈ）、彩度（Ｓ）および明度（Ｖ）の成分からなるＨＳＶ色空間に変換する（ステップＳ３１）。次に、彩度（Ｓ）および明度（Ｖ）についてのヒストグラムを作成してそれぞれの分布を求め（ステップＳ３２）、彩度（Ｓ）、明度（Ｖ）の分布から文字色の有無を算出する（ステップＳ３３）。

　彩度の分布値は、図９の（Ａ）および（Ｃ）に示したように、数値が高くなる程、鮮やかな色を使用しており、鮮やかな色を使用していない場合は、彩度が０付近に集中する。明度の分布値も同様に、図９の（Ｂ）および（Ｄ）に示したように、数値が高くなる程、明るい色を使用しており、明るい色を使用していない場合は、０に近い位置まで明度が分布する。

　彩度分布値および明度分布値にはそれぞれ閾値が設定されており、彩度分布値が閾値より小さく、かつ明度分布値が閾値より小さい場合は、無彩色であると判断できる。逆に、彩度分布値、明度分布値が共に閾値より大きい場合は、有彩色であると判断できる。

　ステップＳ３３の処理において文字色を算出した後、その文字色は無彩色かどうかが判断され（ステップＳ３４）、無彩色の場合は、第２スコアに－５０が設定され、色相のヒストグラムは作成しない（ステップＳ３５）。文字色が無彩色でない場合は、第２スコアに＋５０が設定される（ステップＳ３６）。

　ただし、青色を手書きと設定する場合は、青色であることを判別するための処理が追加される。すなわち、彩度分布値、明度分布値がそれぞれ閾値より大きくて、ステップＳ３４で無彩色でないと判断された場合に、色相（Ｈ）のヒストグラムを作成し、使用色を判断する。色相（Ｈ）のヒストグラムでは、画像で使用している色の分布を表現している。色相（Ｈ）のヒストグラム内で背景画素が除外され、残りのヒストグラム内で全体画素の中で青色の領域に存在する画素の割合が算出される。青色の領域に存在する画素の割合の閾値が設定されていて、割合が閾値を超えた場合、文字が青色であると判断される。この場合のスコアは、青色の領域に存在する画素の割合と閾値の差であり、その差を元に作成した数値が第２スコアに設定される。

　図１０は文字ストロークによる手書き活字解析処理の流れを示すフローチャート、図１１は各ストロークと変曲点を説明する図であって、（Ａ）は手書き文字の変曲点の例を示し、（Ｂ）は活字文字の変曲点の例を示している。

　文字ストローク階調比解析部２１は、まず、文字認識対象項目内にて位置およびサイズが特定されたイメージ文字の画像より連続する黒画素を探索することによって文字のストロークを抽出し、抽出した各文字ストロークのベクトルを求める（ステップＳ４１）。次に、ベクトルが変化する箇所が求められ、その箇所を変曲点とする（ステップＳ４２）。この変曲点は、文字ストロークのベクトルが交差する部分であって、手書き文字の場合、図１１の（Ａ）に丸で示す部分のように、筆圧の関係で濃淡ができやすく、（Ｂ）の活字の場合は、そのような濃淡がない部分である。

　次に、変曲点の平均階調値と変曲点以外の文字ストローク全体の平均階調値とが算出され、変曲点の平均階調値と変曲点以外の文字ストローク全体の平均階調値との比が算出される（ステップＳ４３）。変曲点の平均階調値と変曲点以外の文字ストローク全体の平均階調値との比は、手書きの場合、大きく、活字の場合は、小さくなる傾向を有する。そして、階調値の比の閾値が設定され、閾値と階調値の比との差が算出され、その差を元に作成した数値をスコアとして第３スコアに、手書きの場合は負数、活字の場合は正数で設定される（ステップＳ４４）。

　図１２は文字ストロークエッジ強度による手書き活字解析処理の流れを示すフローチャート、図１３は文字ストロークエッジ強度を説明する図であって、（Ａ）は手書き文字の場合の階調値の変化を示し、（Ｂ）は活字文字の場合の階調値の変化を示している。

　文字ストロークエッジ強度解析部２２は、文字と背景との境界のエッジでは、手書き文字と活字とで濃淡変化の強さ、すなわち文字ストロークエッジ強度が異なる特性を利用している。まず、文字の全ストロークについてベクトルの進行方向から見て左右方向に３分割し、左側境界および右側境界とするエッジの階調値平均（第１階調値とする）を算出する（ステップＳ５１）。次に、文字全体のストロークの階調値平均（第２階調値とする）が算出され（ステップＳ５２）、第１階調値と第２階調値との差が算出される（ステップＳ５３）。ここで、手書き文字の場合は、図１３の（Ａ）に示したように、文字ストロークエッジの部分がかすれ具合によって第１階調値が低下するため、第２階調値との差が大きくなり、活字の場合は、図１３の（Ｂ）に示したように、第１階調値の低下がほとんどないので、第１階調値と第２階調値との差が小さくなる。そして、第１階調値と第２階調値の差の閾値を設定し、第１階調値と第２階調値の差と設定された閾値とを用いてスコアが算出され、手書きの場合は負数、活字の場合は正数で第４スコアに設定される（ステップＳ５４）。

　なお、この例では、文字ストロークエッジと文字ストロークとのエッジ強度を用いて手書きか活字かの判断をしているが、文字ストロークエッジとその周辺の背景とのエッジ強度を用いてもよい。この場合、上記のステップＳ５２およびＳ５３は、エッジ周辺の背景の階調値の平均（第３階調値とする：請求の範囲では、第２階調値としてある）を算出し、第１階調値と第３階調値との差を算出するステップに置き換えられる。第１階調値と第３階調値との差は、手書き文字の場合は小さく、活字の場合は大きくなるので、この判断に基づいて、第４スコアに設定されるスコアの正負記号が決められる。

　図１４は文字サイズ／中心位置による手書き活字解析処理の流れを示すフローチャート、図１５は手書き文字の文字サイズ／中心位置による解析例を説明する図であって、（Ａ）は黒画素の集合の外接矩形の算出結果を示し、（Ｂ）は文字縦サイズによる分類の算出結果を示し、（Ｃ）は各文字の中心座標平均を示し、（Ｄ）は各文字の中心座標平均と中心座標との差の算出結果を示し、図１６は活字文字の文字サイズ／中心位置による解析例を説明する図であって、（Ａ）は黒画素の集合の外接矩形の算出結果を示し、（Ｂ）は文字縦サイズによる分類の算出結果を示し、（Ｃ）は各文字の中心座標平均を示し、（Ｄ）は各文字の中心座標平均と中心座標との差の算出結果を示している。

　文字サイズ／中心位置解析部２３は、文字認識対象項目内における各文字の縦サイズを算出し（ステップＳ６１）、同一のサイズを持つ文字を集めて文字列集合を作成する（ステップＳ６２）。ここで、同一のサイズとは、完全な同一を含め、ある程度の誤差は許容したサイズとする。文字の縦サイズの算出結果は、図１５の（Ａ）および図１６の（Ａ）に示したように、文字認識対象項目内の文字の順番、文字枠中心座標および文字枠幅のデータと共に管理される。文字列集合の作成は、図１５の（Ｂ）および図１６の（Ｂ）に示したように、文字認識対象項目内から文字の縦サイズ別に分類され、図示の例では、それぞれ第１ないし第３分類の３つに分類されている。このとき、それぞれ分類された文字列に対し、平均縦サイズ、平均中心座標および縦サイズの割合も算出されている。この縦サイズの割合は、算出された平均縦サイズをＳ１、Ｓ２、．．．、Ｓｎとし、Ｓ１～Ｓｎの中で最大のものをＳｍａｘ、それ以外の文字列のものを代表してＳとするとき、最大の文字列の平均縦サイズＳｍａｘとそれ以外の文字列の平均縦サイズＳとの比（Ｓ／Ｓｍａｘ）で求められる。

　次に、縦サイズが同一の文字を集めた文字列について中心位置を評価する（ステップＳ６３）。すなわち、各文字列の平均中心座標と文字数の二乗との積の総和を文字数の二乗の総和で除すことにより認識項目の中心座標平均Ｍが算出される。この中心座標平均Ｍは、図１５に例示した例では、
Ｍ＝（３３．５×４＋６４×１＋４３×１）／（４＋１＋１）＝４０．２・・（１）
となり、図１６に例示した例では、
Ｍ＝（８７．８×２５＋８６．８×１６）／（２５＋１６）＝８７．４・・（２）
となる。この中心座標平均Ｍおよび文字認識対象項目の文字は、図１５の（Ｃ）および図１６の（Ｃ）に示したような位置関係になる。なお、中心座標平均Ｍの算出において、縦サイズの割合が一定の割合以下の文字列は、ここの中心位置による評価は行わないようにしている。たとえば、図１６の（Ｂ）の例では、第２分類の文字列は、その縦サイズの割合が５６％と低いので、中心座標平均Ｍの算出式（２）から除外している。

　次に、中心座標平均Ｍと各文字の中心座標との差を算出してばらつきが調査され、閾値を用いて第５スコアが算出される（ステップＳ６４）。ばらつきが大きい場合、文字は手書き、小さい場合は活字と判断する。図１５の（Ｄ）および図１６の（Ｄ）に文字認識対象項目内の文字のばらつきとスコアの例を示している。この文字サイズ／中心位置による手書き活字解析処理は、文字認識対象項目単位で行い、文字単位でのスコアは、項目単位で行ったスコアを設定する。

　図１７は文字枠間による手書き活字解析処理の流れを示すフローチャート、図１８は文字枠間による手書き活字解析例を説明する図である。
　文字サイズ／ピッチ解析部２４は、認識対象文字の両隣に位置する文字の文字サイズを算出し（ステップＳ７１）、認識対象文字と両隣の文字との文字ピッチを算出し（ステップＳ７２）、該当文字が所定の条件を満たすかどうか判定し、第６スコアを設定する（ステップＳ７３）。文字サイズ／中心位置解析部２３による文字の縦サイズおよび中心位置に基づいた解析では、拗音等、通常文字より小さいものをばらつきと判断していたが、文字サイズ／ピッチ解析部２４による解析では、特定の条件に一致したものは、活字と判断することにしている。

　この特定の条件とは、文字の縦サイズが両隣の文字サイズ以下であり、かつ、両隣の文字とのピッチがほぼ等間隔であることである。図１８の例では、「ッ」の文字サイズが両隣の文字（「ロ」と「ク」）の高さ以内であり、かつ位置も両隣文字から推定した位置にあるので、活字と判断される。これにより、同種の文字間にある拗音において、この特定の条件に一致したものは、活字と判断される。

　第６スコアは、以上の特定の条件が成立する文字を活字と判断して＋５０が設定され、そうでない場合には手書き文字と判断して－５０が設定される。
　手書き／活字判別部１４では、以上のようにして解析された第１ないし第６スコアを集計して手書き文字か活字文字かを判別している。複数の解析結果を組み合わせ、これを基に総合的に手書き文字か活字文字かを判別しているので、より精度の高い判別を可能にしている。

　図１９は手書き／活字混在チェック処理の流れを示すフローチャート、図２０は認識対象項目に手書き文字と活字文字とが混在しているときの処理の説明図である。
　手書き／活字混在チェック部２５は、認識対象項目の全文字についてスコアの平均値を算出して各文字との差をチェックし（ステップＳ８１）、極端な差がある文字は除外して、再度平均値を算出し、差に変化がないかをチェックして手書きか活字かを判断する（ステップＳ８２）。

　この認識対象項目内に手書き文字、活字文字が混在しているかどうかをチェックする処理を図２０の例で説明すると、認識対象項目内の各文字についてそれぞれ解析が行われ、集計スコアが算出される。次に、各文字の集計スコアから文字全体の平均値（第１平均値とする）を算出する（図示の例では、第１平均値＝－０．９）。次に、第１平均値と各文字の集計スコアとの差を算出し、その差の絶対値が設定した閾値より大きいかどうかを判断する。閾値を、たとえば「１０」とすると、図２０の例では、何れの文字も第１平均値と各文字の集計スコアとの差の絶対値が設定した閾値より大きいことから、この段階での判定はすべて×になっている。

　次に、極端に差がある文字については、他の文字とは異なる文字種（手書き／活字）の可能性がある。このため、認識対象項目から第１平均値より小さな文字を除外し、第１平均値より大きな文字だけで再度、集計スコアの平均値（第２平均値とする）を算出する（図示の例では、第２平均値＝４２．８６）。

　第１平均値と第２平均値との差が大きい場合は、除外した文字の文字種が他の文字とは異なると判断する。図示の例では、第１平均値と第２平均値との差が大きいので、除外した文字と残された文字とは、文字種が異なると判断される。

　さらに、第２平均値と残された各文字の集計スコアとの差を算出し、その差の絶対値が設定した閾値より大きいかどうかを判断する。図２０の例では、何れの文字も第２平均値と各文字の集計スコアとの差の絶対値が設定した閾値「１０」より小さく、同一文字種と推定できるから、判定はすべて○になっている。この結果、文字「平」、「成」、「月」および「日」は、活字と判別され、除外した文字「２」、「１」、「１」、「１」、「３」および「０」は手書き文字と判別されることになる。

　また、第１平均値を算出したときに、この第１平均値と極端に差がある文字が存在しない場合には、先に算出した集計スコア通りの判別が用いられる。
　なお、以上の解析による判別処理は、定義体を使用しない場合について説明したが、定義体を使用した処理を併用することにより、手書き／活字判別処理の精度を向上させることができる。また、階調分布解析部１９、文字色解析部２０、文字ストローク階調比解析部２１、文字ストロークエッジ強度解析部２２、文字サイズ／中心位置解析部２３および文字サイズ／ピッチ解析部２４のいずれかの解析処理において、活字の確からしさが確実な所定の閾値を超えていると判断された場合、当該イメージ文字に関する残りの解析をスキップして次のイメージ文字の解析に進めるようにしてもよい。

　図２１は文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。
　文字認識装置１０は、その一部がコンピュータ５０によって構成されている。コンピュータ５０は、ＣＰＵ（Central Processing Unit）５１によって装置全体が制御されている。ＣＰＵ５１には、バス５７を介してＲＡＭ（Random Access Memory）５２、ハードディスクドライブ（ＨＤＤ:Hard Disk Drive）５３、グラフィック処理装置５４、入力インタフェース５５、および通信インタフェース５６が接続されている。

　ＲＡＭ５２には、ＣＰＵ５１に実行させるＯＳ（Operating System）のプログラムや文字認識処理に必要なアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ５２には、ＣＰＵ５１による処理に必要な各種データが格納される。ハードディスクドライブ５３には、ＯＳ、文字認識のためのアプリケーションプログラム、文字認識に使われる辞書等が格納されている。

　グラフィック処理装置５４には、モニタ５８が接続されている。グラフィック処理装置５４は、ＣＰＵ５１からの命令に従って、画像をモニタ５８の画面に表示させる。入力インタフェース５５には、スキャナ５９、キーボード６０およびマウス６１が接続されている。入力インタフェース５５は、スキャナ５９、キーボード６０およびマウス６１から送られてくる信号を、バス５７を介してＣＰＵ５１に送信する。

　通信インタフェース５６は、金融機関内のネットワークに接続されている。通信インタフェース５６は、ネットワークを介して、他のコンピュータとの間でデータの送受信を行う。

　以上のようなハードウェア構成によって、本実施の形態の文字認識装置１０に係る処理機能を実現することができる。その場合、文字認識装置１０が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

　上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

　１０　文字認識装置
　１１　制御部
　１２　スキャナ制御部
　１３　文字認識位置特定部
　１４　手書き／活字判別部
　１５　認識結果表示部
　１６　文字認識処理部
　１７　手書き文字認識辞書
　１８　活字文字認識辞書
　１９　階調分布解析部
　２０　文字色解析部
　２１　文字ストローク階調比解析部
　２２　文字ストロークエッジ強度解析部
　２３　文字サイズ／中心位置解析部
　２４　文字サイズ／ピッチ解析部
　２５　手書き／活字混在チェック部
　５０　コンピュータ
　５１　ＣＰＵ
　５２　ＲＡＭ
　５３　ハードディスクドライブ
　５４　グラフィック処理装置
　５５　入力インタフェース
　５６　通信インタフェース
　５７　バス
　５８　モニタ
　５９　スキャナ
　６０　キーボード
　６１　マウス

Claims

　帳票上の手書きの文字と活字の文字とを判別して認識する文字認識方法において、
　前記帳票のイメージデータから文字認識の対象となる項目を特定し、
　特定された認識対象項目のイメージ文字の位置およびサイズを算出し、
　前記イメージ文字の手書きおよび活字の特性を解析して手書きまたは活字の確からしさを数値化したスコアを算出し、
　前記スコアを基に前記イメージ文字が手書きか活字かを判定し、
　認識対象項目内の各文字のスコアの平均値を算出して手書きおよび活字の混在をチェックし、
　各認識対象項目の文字を手書きか活字かの判定結果および手書きおよび活字の混在のチェック結果に応じた文字認識エンジンを用いて文字認識を行う、
　ことからなり、
　前記スコアの算出は、
　前記イメージ文字の階調分布を解析して手書きまたは活字の確からしさを数値化した第１スコアを算出し、
　前記イメージ文字の文字色を解析して手書きまたは活字の確からしさを数値化した第２スコアを算出し、
　前記イメージ文字から抽出した文字ストロークから前記文字ストロークが変化する変曲点の階調と変曲点以外の文字ストロークの階調との比を解析して手書きまたは活字の確からしさを数値化した第３スコアを算出し、
　前記文字ストロークと背景との境界における濃淡変化の強さを表す文字ストロークエッジ強度を解析して手書きまたは活字の確からしさを数値化した第４スコアを算出し、
　前記イメージ文字の位置およびサイズから文字の縦サイズおよび中心位置を解析して手書きまたは活字の確からしさを数値化した第５スコアを算出し、
　前記イメージ文字の位置およびサイズから文字サイズおよびピッチを解析して手書きまたは活字の確からしさを数値化した第６スコアを算出する、
　ことを含み、
　前記イメージ文字が手書きか活字かの判定では、前記第１ないし第６スコアをそれらの重要度に応じて設定されたウエイトを考慮して前記スコアを集計している、
　ことを特徴とする文字認識方法。
　前記階調分布の解析、前記文字色の解析、前記文字ストロークの解析、前記文字ストロークエッジ強度の解析、前記文字の縦サイズおよび中心位置の解析、および前記文字サイズおよびピッチの解析において、前記第１ないし第６スコアのいずれかが確実に活字と判断できる所定の閾値を超えている場合、当該イメージ文字に関する残りの解析をスキップして次の前記イメージ文字の解析に進めることを特徴とする請求の範囲第１項記載の文字認識方法。
　前記階調分布の解析は、前記イメージ文字のグレー画像を作成し、１文字単位の階調値のヒストグラムを作成し、前記ヒストグラムよりその半値幅を算出し、前記半値幅と所定の閾値との差を算出して前記第１スコアとすることを特徴とする請求の範囲第１項記載の文字認識方法。
　前記文字色の解析は、前記イメージ文字を色相、彩度および明度の成分からなる色空間に変換し、前記彩度および前記明度についてのヒストグラムを作成し、前記彩度および前記明度の分布値により無彩色か有彩色かを判断し、無彩色または有彩色に応じた値を前記第２スコアに設定することを特徴とする請求の範囲第１項記載の文字認識方法。
　有彩色の中から特定の文字色を判別する場合、前記色相についてのヒストグラムを作成し、前記色相の分布値に応じた値を前記第２スコアに設定することを特徴とする請求の範囲第４項記載の文字認識方法。
　前記文字ストロークの解析は、前記イメージ文字から抽出した文字ストロークのベクトルを求め、前記ベクトルの交点である変曲点を算出し、前記変曲点の平均階調値および前記変曲点以外の前記文字ストローク全体の平均階調値を算出し、前記変曲点の平均階調値と前記変曲点以外の前記文字ストローク全体の平均階調値との比に応じた値を前記第３スコアとして設定することを特徴とする請求の範囲第１項記載の文字認識方法。
　前記文字ストロークエッジ強度の解析は、前記イメージ文字から文字ストロークを抽出し、前記文字ストロークのエッジの階調値の平均である第１階調値を算出し、前記文字ストロークの全体の階調値の平均である第２階調値を算出し、前記第１階調値と前記第２階調値との差と所定の閾値との差を前記第４スコアとして設定することを特徴とする請求の範囲第１項記載の文字認識方法。
　前記文字ストロークエッジ強度の解析は、前記イメージ文字から文字ストロークおよびその背景を抽出し、前記文字ストロークのエッジの階調値の平均である第１階調値を算出し、前記エッジの周辺における前記背景の階調値の平均である第２階調値を算出し、前記第１階調値と前記第２階調値との差と所定の閾値との差を前記第４スコアとして設定することを特徴とする請求の範囲第１項記載の文字認識方法。
　前記文字の縦サイズおよび中心位置の解析は、縦サイズが同一の文字を集めた文字列についての文字列中心位置を算出し、文字の中心位置と前記文字列中心位置との差と所定の閾値との差を前記第５スコアとして設定することを特徴とする請求の範囲第１項記載の文字認識方法。
　前記文字サイズおよびピッチの解析は、認識対象項目にて判定対象となる文字およびその両隣の文字に対して縦サイズ差と文字間ピッチとを算出し、前記縦サイズ差および前記文字間ピッチが所定の関係にあるかどうかに応じた値を前記第６スコアに設定することを特徴とする請求の範囲第１項記載の文字認識方法。
　帳票上の手書きおよび活字の文字を認識する文字認識装置において、
　前記帳票のイメージデータから特定された認識対象項目のイメージ文字の階調分布を解析して手書きまたは活字の確からしさを数値化した第１スコアを算出する階調分布解析部と、
　前記イメージ文字の文字色を解析して手書きまたは活字の確からしさを数値化した第２スコアを算出する文字色解析部と、
　前記イメージ文字から抽出した文字ストロークから前記文字ストロークが変化する変曲点の階調と変曲点以外の文字ストロークの階調との比を解析して手書きまたは活字の確からしさを数値化した第３スコアを算出する文字ストローク階調比解析部と、
　前記文字ストロークと背景との境界における濃淡変化の強さを表す文字ストロークエッジ強度を解析して手書きまたは活字の確からしさを数値化した第４スコアを算出する文字ストロークエッジ強度解析部と、
　前記イメージ文字の位置およびサイズから文字の縦サイズおよび中心位置を解析して手書きまたは活字の確からしさを数値化した第５スコアを算出する文字サイズ／中心位置解析部と、
　前記イメージ文字の位置およびサイズから文字サイズおよびピッチを解析して手書きまたは活字の確からしさを数値化した第６スコアを算出する文字サイズ／ピッチ解析部と、
　認識対象項目内の各文字の前記第１ないし第６スコアの平均値を算出して手書きおよび活字の混在をチェックする手書き／活字混在チェック部と、
　を有し、前記第１ないし第６スコアを重要度に応じて設定されたウエイトを考慮して集計した集計スコアと、前記手書き／活字混在チェック部によるチェック結果とを基に、前記イメージ文字が手書きか活字かを判定する手書き／活字判別部と、
　各認識対象項目の文字について、前記手書き／活字判別部による判定結果に応じた文字認識エンジンを用いて文字認識を行う文字認識処理部と、
　を備えていることを特徴とする文字認識装置。
　帳票上の手書きの文字と活字の文字とを判別する処理をコンピュータに実行させる文字認識プログラムであって、
　前記コンピュータに、
　前記帳票のイメージデータから文字認識の対象となる項目を特定し、
　特定された認識対象項目のイメージ文字の位置およびサイズを算出し、
　前記イメージ文字の階調分布を解析して手書きまたは活字の確からしさを数値化した第１スコアを算出し、
　前記イメージ文字の文字色を解析して手書きまたは活字の確からしさを数値化した第２スコアを算出し、
　前記イメージ文字から抽出した文字ストロークから前記文字ストロークが変化する変曲点の階調と変曲点以外の文字ストロークの階調との比を解析して手書きまたは活字の確からしさを数値化した第３スコアを算出し、
　前記文字ストロークと背景との境界における濃淡変化の強さを表す文字ストロークエッジ強度を解析して手書きまたは活字の確からしさを数値化した第４スコアを算出し、
　前記イメージ文字の位置およびサイズから文字の縦サイズおよび中心位置を解析して手書きまたは活字の確からしさを数値化した第５スコアを算出し、
　前記イメージ文字の位置およびサイズから文字サイズおよびピッチを解析して手書きまたは活字の確からしさを数値化した第６スコアを算出し、
　前記第１ないし第６スコアを重要度に応じて設定されたウエイトを考慮して集計することにより前記イメージ文字が手書きか活字かを判定し、
　認識対象項目内の各文字のスコアの平均値を算出して手書きおよび活字の混在をチェックし、
　各認識対象項目の文字を手書きか活字かの判定結果および手書きおよび活字の混在のチェック結果に応じて文字認識を行う、
　処理を実行させることを特徴とする文字認識プログラム。