JP5630689B2

JP5630689B2 - 文字認識方法及び文字認識装置

Info

Publication number: JP5630689B2
Application number: JP2010130613A
Authority: JP
Inventors: 中村　宏; 宏中村
Original assignee: Nidec Sankyo Corp
Current assignee: Nidec Sankyo Corp
Priority date: 2010-06-08
Filing date: 2010-06-08
Publication date: 2014-11-26
Anticipated expiration: 2030-06-08
Also published as: JP2011257896A

Description

本発明は、紙やプラスチックなどの媒体上にある文字を光学的に読み取る文字認識方法及び文字認識装置に関する。

従来から、例えば小切手などの媒体表面に印刷された文字列を認識するための装置がある。例えば、二値化された画像データから文字部分を検出して、その文字部分を外接矩形枠に沿って切り出し、得られた文字パターンから特徴量を抽出し、入力パターンの特徴ベクトルと特徴辞書中の文字ごとの基準ベクトルとの類似度を求め、その類似度の大きさにより候補文字を選択する、といった文字認識装置などが知られている。

このような文字認識装置の中には、認識精度を向上させるために、認識結果に基づいて二値化をやり直すなどの様々な工夫を施したものが存在する（例えば特許文献１，２参照）。

より具体的に説明すると、特許文献１に開示された技術では、文字認識の結果と黒点数の計数結果によって、多値画像を二値化しなおす必要があるか否かを判定し、必要があれば、当初の閾値とは異なる閾値を設定し、その新たな閾値を用いて多値画像を二値化するようにしている。また、特許文献２に開示された技術では、１文字ごとに多値画像を二値化し、文字認識の結果、照合できなかった場合に、例えば文字線幅などの図形情報を抽出して、その値に応じた再二値化を行うようにしている。

特開平０９−０１６７１５号公報特開平０９−１３８８３４号公報

しかしながら、特許文献１に開示された技術では、再二値化をするか否かは、二値化文字画像の黒点数の計数結果に応じて決定する。そのため、文字が標準字形と相似である場合は大きな問題はないが、印刷時の変形や印刷後の欠け等により字形の変化が大きい場合、正しい判断が行われなくなる虞がある。すなわち、認識結果に対する信頼性の確保、という点で問題がある。また、特許文献２に開示された技術でも、抽出する図形情報によっては、再二値化するための閾値設定が難しい、という問題がある。例えば、再二値化の閾値の決定に際して、文字線幅が一様に太く又は細くなるとは限らず、再二値化するための正確な閾値設定は難しい。

本発明は、このような点に鑑みてなされたものであり、その目的は、文字認識の認識結果に対する信頼性を高めることが可能な文字認識方法及び文字認識装置を提供することにある。

以上のような課題を解決するために、本発明は、以下のものを提供する。

（１）媒体を撮像して得られた画像データを二値化する二値化処理ステップと、二値化された画像データから認識対象文字を含む領域を求める文字切出しステップと、前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出ステップと、前記特徴抽出ステップで抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出した複数の類似度を類似度閾値と比較して候補文字を判定する第一の文字判定ステップと、前記第一の文字判定ステップに基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、ｎ×ｍの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求める分離処理ステップと、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する第二の文字判定ステップと、を含むことを特徴とする文字認識方法。

本発明によれば、媒体を撮像して得られた画像データを二値化し、二値化された画像データから認識対象文字を含む領域を求め、その領域にある認識対象文字の特徴ベクトルを抽出し、抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出し、算出した複数の類似度を類似度閾値と比較して候補文字を判定し、その判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定することとしたので、最初の候補文字の判定によって区別できなかったものについて、別の特徴ベクトル（分離評価値）による判定を行うことができ、認識結果に対する信頼性を高めることができる。

また、本発明に係る文字認識方法は、前記分離処理ステップにおける前記分離評価値は、前記領域をｎ×ｍの分割領域に分けた後、当該分割領域にある少なくとも二以上の文字特徴量を抽出することによって求められることを特徴とする。

本発明によれば、上述した分離評価ステップにおける分離評価値は、領域をｎ×ｍの分割領域に分けた後、その分割領域にある少なくとも二以上の文字特徴量を抽出することによって求められることとしたので、ｎやｍの値（整数）を適当な値に設定することで、分離評価値の精度を変化させることができる。例えば、ｎやｍを大きな値にすれば、より細かく分割された領域で分離評価値が求められるので、より精度を高めることができる。なお、ｎとｍは異なる値であってもよいし、同じ値（ｎ＝ｍ）であってもよい。

（２）媒体を撮像して得られた画像データを二値化する二値化処理部と、二値化された画像データから認識対象文字を含む領域を求める文字切出し部と、前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出部と、前記特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する文字認識部と、前記文字認識部で算出した複数の類似度を類似度閾値と比較して候補文字を判定する判定部と、前記判定部に基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、ｎ×ｍの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求めるとともに、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する分離処理部と、を備えたことを特徴とする文字認識装置。

本発明によれば、判定部の判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定することとしたので、第一の文字判定で候補文字の判定によって区別できなかったものについて、別の特徴ベクトル（分離評価値）による第二の文字判定を行うことができ、認識結果に対する信頼性を高めることができる。

本発明に係る文字認識方法及び文字認識装置によれば、第一の文字判定で候補文字が複数であった場合でも、別の特徴ベクトルである分離評価値を用いて第二の文字判定が行われるので、文字認識の認識結果に対する信頼性を簡易に高めることができる。

以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。

［文字認識装置］
図１は、本発明の実施の形態に係る文字認識装置１の電気的構成を示すブロック図である。

文字認識装置１は、記録媒体表面に印刷された文字列の画像をイメージスキャナにより光学的に読み取り、この読み取られた文字列の画像から認識対象文字１文字ごとの文字画像を切り出し、この文字画像から抽出した特徴ベクトル（特徴点や特徴量等）を、認識用辞書に記憶された基本となる特徴ベクトル（特徴点や特徴量等）と比較・照合することにより文字認識を行い、認識された文字を出力するようにした光学的文字読取装置（Optical Character Reader）が用いられている。

図１において、記録媒体２は、ＪＩＳに準拠している一般的なカードであり、例えば、幅８６ｍｍ，高さ５４ｍｍ，厚み０．７６ｍｍというサイズのプラスチックカードである。

図１に示すように、記録媒体２には、光学的に読み取りが可能な文字・数字等が印字された文字記録領域２Ａが設定されている。具体的には、複数の文字が一定方向に規則正しく並んで文字列を形成しており、かつ、文章等を構成している。この文字記録領域２Ａには、例えば、記録媒体２を特定する固有情報が表示されている。この固有情報とは、例えば、記録媒体２の使用者の氏名及び記録媒体２を特定する番号や記録媒体２の使用者番号等である。なお、記録媒体２は、このプラスチックカードに限定されるものではなく、文字列が印字されているものであればよく、例えば、ＩＤカードやパスポートブック、或いは運転免許証などでもよい。

図１に示す文字認識装置１は、記録媒体２に表示された文字列を光学的に読み取り可能な装置であり、密着型の（１次元）撮像素子１１と、画像メモリ１２と、データ処理部１３と、を有している。

密着型の（１次元）撮像素子１１は、図１に示すように、記録媒体２を、図示しない搬送手段によって所定の搬送方向Ｔ（図１では左から右）に搬送する媒体搬送機構に設けられている。この撮像素子１１は、ＣＣＤ等からなるラインセンサであり、搬送方向Ｔとほぼ直交する方向（記録媒体２の幅方向）に一列に配置され、かつ、記録媒体２上に形成された文字記録領域２Ａの幅よりも長く形成されている。なお、媒体搬送機構には搬送ガイド（番号を付記せず）が形成されており、記録媒体２は、その一端が搬送ガイドに接して搬送されるようになっている。なお、撮像素子１１は、１次元に限定されるものではなく、２次元撮像素子であってもよい。

画像メモリ１２は、撮像して得られた画像データを格納するものである。具体的には、画像データを有限個の画素の行列とみなし、例えば、各画素は、８ビットの情報量をもち、２５６階調の多値画像データで表され、画素値である輝度値は０から２５５までの整数値として表されている。なお、この画像メモリ１２は、ＲＡＭ，ＳＤＲＡＭ，ＤＤＲＳＤＲＡＭ，ＲＤＲＡＭなど、画像データを記憶しうるものであれば如何なるものであってもよい。

データ処理部１３は、画像メモリ１２から多値画像データを読み出して、上述した各部において様々な処理を施し、最終的に、記録媒体２上の文字列を認識するものである。本実施の形態では、図１に示すように、二値化処理部１３ａと、文字切り出し部１３ｂと、類似特徴抽出部１３ｃと、文字認識部１３ｄと、特徴辞書格納部１３ｅと、判定部１３ｆと、再二値化処理部１３ｇと、分離処理部１３ｈと、文字出力部１３ｉと、分離条件格納部１３ｊとを有している。また、これらの各部は、ＣＰＵ又はＭＰＵやＲＡＭ，ＲＯＭなどの電気要素によって、ハードウェア的に実現することができる。

二値化処理部１３ａは、媒体を撮像して得られた画像データを二値化する。本実施の形態では、画像メモリ１２に格納された２５６階調の多値画像データを読み出して、既に公知となっている判別分析法など適当な方法によって第１の二値化閾値を求め、白黒二値の二値画像データに変換を行うものである。なお、二値画像データは、画像メモリ１２に、多値画像データが格納されているメモリ領域とは別のメモリ領域に、二値画像データとして格納されている。

文字切出し部１３ｂは、二値化処理部１３ａで得られた二値画像データから、認識対象文字（以下、「文字」という。）を含む領域、すなわち、１文字分ずつの（文字）画像を検出して切り出すものである。本実施の形態では、二値画像データから１文字（例えば、１文字を形成する黒画素領域）に外接した外接矩形領域が切り出されるようになっている。

特徴抽出部１３ｃは、文字切り出し部１３ｂで切り出された領域にある認識対象文字の特徴ベクトル（例えば、特徴量、特徴点等）を抽出する。本実施の形態では、文字切出し部１３ｂから供給される外接矩形領域を複数の部分領域に分け、各部分領域ごとの特徴ベクトルを抽出する。

文字認識部１３ｄは、それぞれの文字ごとに文字認識を行い、候補文字を出力する。ここで、この文字認識は、文字切出し部１３ｂにより切り出された文字の特徴ベクトルのそれぞれに対し、認識辞書３１５に予め登録されている個々の基準文字の基準特徴ベクトルと１つずつ照合することにより行われる。本実施の形態では、特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する。

特徴辞書格納部１３ｅは、予め、記録媒体２で使用される全文字について求めておいた基準特徴ベクトルが格納されている。この特徴ベクトルは、特徴比較が行われる際に、特徴辞書格納部１３ｅから類似度が高い候補文字の特徴ベクトルが読み出され、特徴比較が行われ、類似度が算出される。

判定部１３ｆは、文字認識部１３ｄで算出された類似度から認識結果の判定を行う。本実施形態では、算出された類似度が、類似度閾値より高い値を持つ候補文字を読み出す。

再二値化処理部１３ｇは、判定部１３ｆにおいて、類似度の最大値が所定の類似度閾値をクリアしていない場合、すなわち、類似度閾値をクリアしなかった候補文字については当該認識対象文字を認識できないので、再二値化処理が実行される。この場合、第１の二値化閾値とは異なる第２の二値化閾値を用いて、上述した特徴抽出部１３ｃで再処理されるようになっている。また、分離処理部１３ｈにおいて、分離評価値が所定の分離評価閾値をクリアしていない場合、すなわち、分離評価閾値をクリアしなかった候補文字について当該認識対象文字を認識できないので、再二値化処理が実行される。この場合、第１の二値化閾値とは異なる第２の二値化閾値を用いて、分離処理部１３ｈで再処理されるようになっている。

分離処理部１３ｈは、判定部１３ｆにおいて、所定の類似度閾値を複数の候補文字がクリアしている場合、これら複数の候補文字について分離処理が行われる。例えば、第一位と第二位の文字候補の類似度が共に類似度閾値をクリアし、かつ、両者が接近している場合（数字の「０（ゼロ）」とアルファベット文字「Ｏ（オー）、アルファベットの小文字のｌ（エル）とアルファベットの大文字のＩ（アイ）」等）などには、それらを分離する処理を行う。本処理では、類似度閾値をクリアした複数の候補文字を最もよく分離できる評価値を特徴ベクトルの適切な１個又は複数要素の組合せから計算し分離評価値として求め、その分離評価値を所定の分離評価閾値と比較することによって、分離を行う。また、分離処理部１３ｈは、算出された分離評価値から認識結果の判定を行う。本実施の形態では、算出された分離評価値が、分離評価閾値より低い値を持つ候補文字を読み出す。

文字出力部１３ｉは、判定部１３ｆからの認識結果を出力する。

分離条件格納部１３ｊは、類似度が近似する複数の候補文字、例えば、数字「０（ゼロ）」とアルファベット文字「Ｏ（オー）」、数字「６」と「８」とアルファベット文字「Ｂ」等を判定可能となるような分離評価値を求める計算式やこれら候補文字の高さＨの情報等が格納されている。

［文字認識方法］
図２は、本発明の実施の形態に係る文字認識方法を示すフローチャートである。
図３は、記録媒体２の文字記憶領域２Ａ（図１参照）に印刷された文字列を撮像したときの二値画像データを示す図である。

図２に示すように、本実施形態に係る文字認識方法では、まず、カードなどの記録媒体２は、媒体搬送機構の搬送ガイドに沿って搬送され、撮像素子１１を通過することによって、記録媒体２上の文字記録領域２Ａが撮像される。撮像によって得られたアナログの画像データは、光電変換され、図示しないアナログ／ディジタル変換回路が接続され、このアナログ画像データをディジタル画像データに変換される。例えば８ビットの２５６階調の多値画像データに変換されて画像メモリ１２に格納される。なお、このようなアナログ／ディジタル変換回路自体は、既に公知であるので、ここでの詳細な説明は省略する。

図３は、記録媒体２の文字記憶領域２Ａ（図１参照）に印刷された文字列を撮像したときの画像データを示す図である。なお、本実施の形態では、２列の文字列が印字されている。また、説明を簡単にするために、文字列の方向は、画像メモリ１２の水平方向とほぼ一致しており、文字列の方向に直交する方向を垂直方向としている。

本実施の形態では、画像メモリ１２は、Ｍ行×Ｎ列の画素をマトリクス状に配列して構成され、各画素には文字記録領域２Ａ内の多値画像データがそれぞれ記憶されている。具体的には、白エレメントを構成する画素では輝度値（最大値２５５）が相対的に大きな値になり、黒エレメントを構成する画素では輝度値（最小値０）が相対的に小さな値になっている。

図２においては、まず、二値化処理が行われる（ステップＳ１）。具体的には、二値化処理部１３ａは、画像メモリ１２から２５６階調の多値画像データを読み出して、判別分析法など適当な方法によって第１の二値化閾値を求め、白黒の二値画像データに変換を行う。また、このステップＳ１は、媒体を撮像して得られた画像データを二値化する「二値化処理ステップ」の一例に相当する。

次に、文字切り出し処理が行われる（ステップＳ２）。文字切り出し部１３ｂは、記録媒体２上に形成された文字記録領域２Ａに印字された認識対象文字を１文字ごとに文字画像を切り出す。なお、このステップＳ２は、二値化された画像データから認識対象文字を含む領域を求める「文字切出しステップ」の一例に相当する。

より詳細に述べれば、まず、文字列の切り出しが行われる。具体的には、文字切り出し部１３ｂは、２列の文字列の二値画像データを、水平方向（文字列の方向）に射影して、各文字列の上下エッジ（図３において上下）を検出する。そして、上下エッジの中心位置を、各文字列の中心ラインとして２列の文字列の切り出しを行う。次いで、各文字列について文字切り出しが行われる。まず、文字区切り位置検出が行われる。具体的には、文字切り出し部１３ｂは、上述したように、検出された文字列ごとの二値画像データについて、垂直方向に射影計算を行う。垂直射影によって得られた垂直射影データには、文字列を構成する文字と隣の文字間の空白部分が含まれているため、垂直射影データが所定の区切り位置検出用閾値を超えた箇所を、文字列を構成する文字の区切り位置として検出する。この過程については、図４及び図５を用いて詳しく説明する。なお、文字区切り位置検出は、垂直射影データが所定の区切り位置検出用閾値（図５ではSLEVで示す線）を超えた箇所を、文字列を構成する文字と隣の文字の区切り位置として検出する。

図４は、文字列を構成する文字（一部）に着目したときの二値画像データである。また、図５は、図４に示す二値画像データを垂直射影することによって得られた垂直射影データである。なお、図４は、図３中の上の文字列の「Ｋ」から「Ｃ」までの画像データを図５において、各文字間の空白部分は、ＳＬＥＶ（区切り位置検出用閾値）を超えていることを示している。

次に、仮決定された文字の外周矩形領域内における文字位置を正確に決定する処理を、図６を用いて説明する。図６は、文字列を構成する文字「<」の二値画像データを示す図である。

図６において、この「<」の文字の位置を正確に特定するために、外周矩形領域内の二値画像データにおいて、垂直射影ＰＸ及び水平射影ＰＹを計算する。そして、求められたＰＸに沿って、文字の左右境界位置の検出を行い、外周矩形領域の左端点を起点としてＰＸを右方向にスキャンして、連続して一定回数して、そのレベル値（画素の検出）が連続して一定回数（例えば３回）境界位置検出用閾値を下回ったら、その最初の地点を文字の左エッジとする。そして、同様に、外周矩形領域の右端点を起点としてＰＸを左方向にスキャンして、境界位置検出用閾値を下回ったらその最初の地点を文字の右エッジとする。

次に、水平射影ＰＹについても同様に処理する。図６において、上述した境界決定処理にて得られている左エッジ位置と右エッジ位置とで区切られた範囲を定義域として行い、外周矩形領域の上端、下端を外側からスキャンして、各レベル値が連続して一定回数、境界位置検出用閾値を下回ったら、その最初の地点を文字の上エッジ、下エッジとする。このようにして、文字列内の文字「<」の位置を特定し、１つの文字に外接した外接矩形領域を切り出す。これにより、文字に外接する外接矩形領域を求めることによって、正確な文字切出しを行うことができ、類似度を算出する処理を行う際に、（余白があることに起因した）誤差を少なくすることができる。図２のステップＳ２の文字切り出し処理が終了すると、図６に示すように、認識対象文字の外接矩形領域が求められる。

次に、特徴抽出処理が行われる（ステップＳ３）。具体的には、特徴抽出部１３ｃは、外接矩形領域を任意の部分領域に分割する。本実施の形態では、図７に示すように、例えば、１個の外接矩形領域を５×５の領域に分割し、各領域を部分領域とする。各部分領域において、部分領域内の全画素数に占める黒画素数の割合を求め、それらを要素とする特徴ベクトルとしての特徴量を生成する。なお、図７に示すように、外接矩形領域を任意の部分領域に分割する際の領域の大きさは同等でなくてもよい。

図８は、図７に示す外接矩形領域（図６でいう一点鎖線に囲まれた領域内）を、一点鎖線で示すような５×５の領域に分割したとき、各部分領域における各画素の画素値（二値）を示している。図８では、数値２５５は二値の「白」を示し、数値０は二値の「黒」を示している。

次に、特徴ベクトルとしての特徴量を、各部分領域ごとに算出する。特徴量は、各部分領域内の全画素数に占める黒画素数（輝度値０の数）の割合を求める。
その結果、図９に示すように、２５個の特徴量を生成することができる。例えば、図９中の右上（符号ａｘ）の０．９０９０９は、図７の部分領域ａｘに対応した図８中の右上の部分領域ａｘにおいて、０（黒画素）の数（３０個）を、０（黒画素）と２５５（白画素）の総数（３３個）で割った値となる（３０÷３３≒０．９０９０９）。なお、このステップＳ３は、領域にある認識対象文字の特徴ベクトルを抽出する「特徴抽出ステップ」の一例に相当する。

次に、文字認識処理が行われる（ステップＳ４）。具体的には、文字認識部１３ｄは、上述のようにして得られた部分領域ごとの特徴量を、予めこの記録媒体２で使用される全文字について求めておいた基準特徴量（たとえば図１０の符号ｓａｘで示す値を参照）に対する類似度（例えば正規化相関係数）を計算し、最も類似度が高いもの、すなわち最大スコア値を与えるものを、その文字が該当する候補文字に設定する。本実施例では、文字「<」に対する類似度が０．９０２と最大値を与えるため、「<」が該当する候補文字となる。なお、このステップＳ４は、抽出した特徴ベクトル（特徴量）を複数の基準文字ごとに所与の基準特徴ベクトル（基準特徴量）それぞれと比較し、各基準特徴ベクトル（基準特徴量）との類似度を算出する「類似度算出ステップ」の一例に相当する。

なお、基準特徴量は、予め特徴辞書格納部１３ｅに格納されているものであって、特徴比較が行われる際に、特徴辞書格納部１３ｅから類似度が高い文字のデータが読み出され、特徴比較が行われる。

候補文字の判定処理が行われる（ステップＳ５）。具体的には、判定部１３ｆにより、候補文字が抽出されたか否かが判断される。候補文字が１文字抽出された場合、文字出力部１３ｉに出力され、判定部１３ｆからの認識結果を出力する（ステップＳ８）。一方、候補文字が抽出されなかった場合、再二値化処理が必要と判断され（ステップＳ５：ＮＯ）、（認識対象）文字について、再二値化処理部１３ｇで再二値化処理が実行される（ステップＳ６）。また、候補文字が２文字以上抽出された場合、分離処理部１３ｈに出力され、分離処理が行われる（ステップＳ７）。なお、このステップＳ５は、算出した複数の類似度を類似度閾値と比較して候補文字を判定する「第一の文字判定ステップ」の一例に相当する。

（分離処理）
分離処理部１３ｈによる分離処理が行われる（ステップＳ７）。文字認識部１３ｄで（認識対象）文字との類似度を算出し判定部１３ｆで判定するが、類似度が第一位と第二位の複数の候補文字が、各類似度が共に類似度閾値をクリアし、かつ、両者が接近している場合などには、候補文字を特定することができず判定ができないので、それらを（認識対象）文字に対して分離する処理を行う。このような候補文字として、例えば、数字「０（ゼロ）」とアルファベットの「Ｏ（オー）」や、アルファベットの小文字「ｌ（エル）」とアルファベットの大文字「Ｉ（アイ）」などがある。なお、このステップＳ７は、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求める「分離処理ステップ」の一例に相当する。

本処理では、このように類似度が近い候補文字を、（認識対象）文字に対して最もよく分離できる評価値を特徴量の適切な１個又は複数要素の組合せから計算し、その分離評価値を分離評価閾値と比較することによって、分離を行う。

この分離処理の詳細な情報処理の流れについて説明は、図１１に示すとおりである。また、具体例を図１２に示す。図１２に示すように、パスポートガイドでは数字「０（ゼロ）」とアルファベット文字「Ｏ（オー）」が代表的な候補文字である。フォント上はストロークの曲率の違いや、文字高さの違いによる判別が可能であるが、印刷条件や走査条件、光学条件などの理由で、文字の歪みや文字線太さの変化が生じやすく、分離不能となる場合がある。上述した文字認識処理での特徴量における類似度も近い値をとることがあり、差異も顕著でない場合がある。そこで、本実施例では、分離評価値を分離評価閾値と比較することによって、分離を行う。

例えば図１２に示すように、類似度を算出する際に使用した部分分割領域、すなわち５×５分割された領域の四隅の値ＤＡ，ＤＢ，ＤＣ，ＤＤと、左右の中央値Ｅ，Ｆを用いて、第一位と第二位の複数の候補文字と判別することができなかった（認識対象）文字について、図１４（ａ）に示す計算式で分離評価値を算出する（図１１のステップＳ１１）。図１４（ａ）に示す計算式で求めた分離評価値は数字「０（ゼロ）」で小さくなる一方、アルファベット文字「Ｏ（オー）」で大きくなるようになっている。そこで、判別論理を図１４（ｂ）に示すようにする（図１１のステップＳ１２）。図１４（ｂ）中のＫ１及びＫ２は、分離評価閾値であり、実験的に求めることが可能である。求めた分離評価値ｆｘが分離評価閾値Ｋ１よりも小さい場合には、（認識対象）文字は数字「０（ゼロ）」と、分離処理部１３ｈで判定する。また、求めた分離評価値ｆｘが分離評価閾値Ｋ２よりも大きい場合には、文字はアルファベット文字「Ｏ（オー）」と判定する。さらに、分離評価値ｆｘがＫ１とＫ２に挟まれた範囲にあるときは、判定不能領域として、後述する別の指標を用いる。なお、５×５分割された領域は文字認識で使用した部分分割領域を用いたが、分離評価値を求めるために，新たな部分分割領域を設定してもよい。

判定不能領域にある場合、たとえば、初期状態すなわち文字認識処理後の文字画像（二値画像）が図１２（ａ）に示すものとなっている場合、分離評価値（ｆｘの値）は判定不能領域にある。このときは、別の指標として文字高さＨを用いる。Ｈ１<Ｈ２として、文字高さＨ（Ｈ'）が、Ｈ（Ｈ'）<Ｈ１であれば「Ｏ（オー）」とし、Ｈ（Ｈ'）>Ｈ２であれば「０（ゼロ）」として、分離処理部１３ｈで判定し、結果が確定された後（図１１のステップＳ１４）、文字出力部１３ｉから文字出力がされることになる（図２のステップＳ８）。なお、文字高さＨ'は、後述する再二値化処理（ステップＳ１３）の反復によって形成された文字画像の文字高さを示す（図１２（ｂ）参照）。

なお、Ｈ１≦Ｈ（Ｈ'）≦Ｈ２であれば判定不能領域にあるとして（図１１のステップＳ１２：ＮＯ）、再二値化処理部１３ｇに出力される。再二値化処理部１３ｇでは、（認識対象）文字について、第１の二値化閾値を第２の二値化閾値に代えて再二値化を繰り返しながら、分離評価値ｆｘを計算する（図１１のステップＳ１３）。再度計算して求めた分離評価値ｆｘが上述した分離閾値Ｋ１またはＫ２と比較し、再度計算して求めた分離評価値ｆｘが判定不能領域から外れたか又は規定反復回数に到達したか否かにより、最終判定を行う。判定不能領域から外れた場合は、「０（ゼロ）」か「Ｏ（オー）」のうち該当する文字が文字出力部１３ｉから出力され、判定不能領域から外れなかった場合は、文字出力部１３ｉから判定不能として出力される。

本実施例では、例えば、図１２（ａ）に示す文字画像が分離評価値（ｆｘの値）は判定不能領域にあると判定された場合（図１１のステップＳ１２）、再二値化処理（ステップＳ１３）の反復によって、図１２（ｂ）に示すような文字画像が形成された。この文字画像の二値画像データを用いて、分離処理部１３ｈで分離処理を行い、計算された分離評価値ｆｘ'<Ｋ１（分離評価閾値）となり、「０（ゼロ）」と判定される。また、図１２（ｂ）において、再二値化処理された文字画像は文字高さＨ'となり、上述した分離評価値ｆｘ'を用いた分離処理で、以前として判定不能領域からはずれなかった場合には、上述したように、文字高さＨ'を、Ｈ１、Ｈ２と比較するようにしてもよい。なお、再二値化処理の詳細な説明は後述する。また、上述したステップＳ１１は、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値（上述したｆｘ）を求める「分離処理ステップ」の一例に相当する。また、上述したステップＳ１２は、分離評価値それぞれを分離評価閾値（上述したＫ１、Ｋ２）と比較して候補文字を判定する「第二の文字判定ステップ」の一例に相当する。

（再二値化処理）
図２のフローチャートに戻り、判定部１３ｆにより、候補文字が抽出されなかった場合、再二値化処理が必要と判断され（ステップＳ５：ＮＯ）、（認識対象）文字について、再二値化処理部１３ｇで再二値化処理が実行される（ステップＳ６）。上述したように、図２のステップＳ４の文字認識処理において、基準文字「<」に対する類似度が０．９０２と最大値を与えるため、「<」が該当する文字として決定されることになるが、合理的に決定された第１の二値化閾値による文字画像であっても、文字の形状によっては認識対象文字と基準文字との類似度が類似度閾値に到達しないことがあり得る（上述のように、０．９０２のような高い類似度が与えられない場合がある）。
これは、例えば、手動走査型スキャナにおける走査速度による幅方向の解像度低下などが原因となって、文字形状が著しく歪んだり、印刷時あるいは使用中に生じた文字のかすれ・欠如が生じていたりするからである。この場合、再二値化するための第２の二値化閾値を求めるのに、たとえば黒点数だけによる方法では、文字のかすれ・欠落などにより、見かけ上濃度が濃くなっている場合でも濃度が濃くなる方向に閾値補正が行われる。そして、欠落以外の部分の文字線が太い場合には、過剰に線が太くなる方向に作用するため、正確な認識が行われなくなってしまう。

そこで、本実施形態に係る文字認識方法では、再二値化の要否判定に、特徴量の類似度を用いるようにしている。文字欠けやかすれなどの形状に生じた変形は、確実に類似度に反映させることができるため、黒点数による方法に比べて判断誤りが生じにくい、というメリットがある。

図１７は、再二値化の要否判定に関する具体例を説明するための説明図である。図１７には、アルファベットの大文字"Ｌ"の文字画像（二値画像データ）を示しており、図１７（ａ）は、文字認識処理（図２のステップＳ４）で使用した第１の二値化閾値を適用した場合の図である。この場合、相対的に二値化閾値が低いために線が細くなり、文字切出し処理で右側のエッジ部が実際よりも内側に検出されている。そのため、基準文字との類似度は０．４７５という低い数値を示している。このとき、上述したように、判定部１３ｆにおいて、照合が正しく行われていないので判定不能として、再二値化処理が必要であると判定する。この二値化閾値を変化させる方向は、増加か減少か類似度からでは分からないため、初めに増加させる方向にシフトさせる。文字画像としては、黒画素の数が増える方向である。図１７（ｂ）は、第１の二値化閾値として設定した２５６階調の多値画像データ上の輝度値よりも８増加させた輝度値を第２の二値化閾値と設定した場合、この第２の二値化閾値で再二値化処理した文字画像である。この文字画像と基準文字との類似度は０．５７２である。さらに、輝度値を増加させ、第３の二値化閾値を設定し、再二値化処理した文字画像と基準文字との類似度は０．８８６と十分大きい値となった（図１７（ｃ）参照）。これにより、本来の正しい結果に到達したと判断する。なお、輝度値を増加方向への変化で類似度が十分に改善されなかった場合は、減少する方向（例えば、輝度値で８減少）へ変化させ、類似度が改善されるかを調べる。改善が見られなかった場合は、再二値化処理前の結果を採用することにする。

図１１のステップＳ１３は再二値化処理であり、図２のステップＳ６と同様の処理を行うので、ここでの説明は省略する。また、ステップＳ１３での第２の二値化閾値、第３の二値化閾値等は、ステップＳ６で説明したような輝度値８づつ増加、減少させてもよいし、８以外の数値であってもよい。

［実施形態の主な効果］
以上説明したように本実施形態に係る文字認識方法によれば、記録媒体２の既知の位置に印刷された既知の文字数からなる文字列を、１次元撮像素子１１で主走査を行い、手動もしくは機械駆動による記録媒体２移動で副走査を行うようにして、２次元の画像情報に変換し、この画像データを適切に処理することにより文字列の認識を行うようにした文字認識装置１において、記録媒体２を走査した多値画像を二値化するステップ（図２のステップＳ１）と、（認識対象）文字に外接する外接矩形領域を求め、外接矩形領域内の特徴量を抽出するステップ（図２のステップＳ２，ステップＳ３）と、基準特徴量との類似度を算出するステップ（図２のステップＳ４）と、類似度を類似度閾値と比較して第一の文字判定するステップ（図２のステップＳ５）と、その判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと（認識対象）文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定する（図２のステップＳ７）ことで構成することで、第一の文字判定で候補文字の判定によって区別できなかったものについて、別の特徴量（分離評価値）による判定を行うことができ、認識結果に対する信頼性を高めることができる。

また、上述した図２のステップＳ５で、判定ができなかった場合、（認識対象）文字について再二値化処理を行うステップ（図２のステップ６）を構成することで、再二値化後の（認識対象）文字を、特徴抽出ステップ（図２のステップ４）に出力するように構成することで、判定できなかった（認識対象）文字の読取精度を更に上げることができる。
同様に、分離処理ステップ（図２のステップＳ７）で、判別できなかった（認識対象）文字について、再二値化処理部１３ｇに出力し、再二値化処理を行うことにより、再二値化で求めた（認識対象）文字と、類似度が近似した基準文字との分離精度を高めることができ、ひいては認識結果に対する信頼性を高めることができる。

［他の実施形態］
また、上述した分離条件格納部１３ｊでは、数字「０（ゼロ）」とアルファベット文字「Ｏ（オー）」と、類似度が近似する２つの候補文字での分離評価を行ったが、３つの候補文字等、数字「６」と「８」とアルファベット文字「Ｂ」の類似度が近似した候補文字の計算式も格納されている。例えば、図１５に示すように、５×５分割された領域の右上の値ＤＡ'、その下の値ＤＢ'、中央の値ＤＣ'、左下の値ＤＤ'を用いて、図１６（ａ）に示す計算式で分離評価値を算出する（図１１のステップＳ１１）。この分離評価値は、候補文字「６」で小さくなる一方、候補文字「Ｂ」で大きくなる。そこで、判別論理を図１６（ｂ）及び図１６（ｃ）に示すようにする（図１１のステップＳ１２）。図１６（ｂ）中のＫ１'及びＫ２'は、分離評価閾値であり、実験的に求めることが可能である。Ｋ１'とＫ２'に挟まれた範囲にあるときは、候補文字「８」と判定する。

このように、特徴抽出ステップ（図２のステップＳ３）で外接矩形領域（図６でいう一点鎖線に囲まれた領域内）を、５×５の領域に分割した後、分離処理ステップ（図２のステップＳ７）において、分割領域にある少なくとも二以上（図１３ではＡ〜Ｆの６個、図１５ではＡ〜Ｄの４個））の別の特徴量を抽出する（分離評価値を求める）こととしたので、分割する領域数を調整することで、精度調整が可能になる。たとえば、図１３でいうとＥとＦはなくても分離評価値を求めることもできるが、ＥとＦがあった方が、数字「０（ゼロ）」とアルファベット文字「Ｏ（オー）」の違いがはっきりし（ｆｘの値に差がつく）、より精度を高めることができる。

また、本実施形態では、再二値化処理（図２のステップＳ６及び図１１のステップＳ１３）を行う際、類似度が改善されるように再二値化のための二値化閾値を変化させることとしたが、たとえば判定された全ての文字に関する類似度の基本統計量を算出し、その算出された基本統計量に基づいて、再二値化処理を行ってもよい。すなわち、本実施形態における文字認識方法は、第一の文字判定ステップに基づいて、判定された全ての文字に関する類似度の基本統計量を算出する基本統計量算出ステップと、この基本統計量算出ステップで算出された基本統計量に基づいて、二値化処理を行う再二値化処理ステップと、を含むことにより、基本統計量を用いて最適な二値化閾値を設定した上で再二値化処理を行うことができ、認識結果に対する信頼性をより高めることができる。ここでいう基本統計量とは、たとえば類似度の総数、最大値、最小値、平均値、標準偏差などである。基本統計量として最小値を採用した場合には、最小値が大きくなるように変更していき、基本統計量として分散や標準偏差を採用した場合には、これらが小さくなるように変更していく。このようにして、基本統計量が改善するように閾値を変更すれば、分離評価値による認識対象文字１個１個の精度向上に加え、文字列全体を考えた際の精度向上に大きく貢献することができる。

また、類似度の基本統計量に基づいて、再二値化処理を繰り返すことで、再二値化する際の二値化閾値を適切に設定することができ、文字認識の効率化に貢献することができる。

なお、本実施形態では、１次元撮像素子１１，リニア搬送機構を用いることとしたが、本発明はこれらに限定されるものではない。例えば、２次元ＣＣＤやＣＭＯＳイメージャなどのエリアセンサと被写体支持機構との組み合わせでもよい。また、認識対象としては、活字文字だけでなく、手書き文字にも適用できる。また、文字認識に留まらず、１Ｄ及び２Ｄバーコードの復号などにも応用することができる。

本発明に係る文字認識方法及び文字認識装置は、文字認識の信頼性を高めるものとして有用である。

本発明の実施の形態に係る文字認識装置の電気的構成を示すブロック図である。本発明の実施の形態に係る文字認識方法を示すフローチャートである。記録媒体のＯＣＲ文字記憶領域に印刷された文字を撮像したときの画像データを示す図である。文字列を構成する文字（一部）に着目したときの画像データである。図４に示す画像データを垂直射影することによって得られた垂直射影データである。文字列を構成する文字「<」の画像データを示す図である。外接矩形領域の一例を示す図である。５×５の領域に分割したときの部分領域における輝度を示す図である。各部分領域内の全画素数に占める黒画素数の割合を示す図である。基準特徴ベクトルの一例を示す図である。分離処理の詳細な情報処理の流れを説明するためのフローチャートである。分離処理の対象となる画像の具体例を示す図である。分離評価値の算出を説明するための説明図である。分離評価値を算出するための計算式を示す図である。他の分離評価値の算出を説明するための説明図である。他の分離評価値を算出するための計算式を示す図である。再二値化の要否判定に関する具体例を説明するための説明図である。

１文字認識装置
２記録媒体
１１撮像素子
１２画像メモリ
１３データ処理部
１３ａ二値化処理部
１３ｂ文字切出し部
１３ｃ特徴抽出部
１３ｄ文字認識部
１３ｅ特徴辞書格納部
１３ｆ判定部
１３ｇ再二値化処理部
１３ｈ分離処理部
１３ｉ文字出力部
１３ｊ分離条件格納部

Claims

媒体を撮像して得られた画像データを二値化する二値化処理ステップと、
二値化された画像データから認識対象文字を含む領域を求める文字切出しステップと、
前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出ステップと、
前記特徴抽出ステップで抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する類似度算出ステップと、
前記類似度算出ステップで算出した複数の類似度を類似度閾値と比較して候補文字を判定する第一の文字判定ステップと、
前記第一の文字判定ステップに基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、ｎ×ｍの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求める分離処理ステップと、
前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する第二の文字判定ステップと、を含むことを特徴とする文字認識方法。
媒体を撮像して得られた画像データを二値化する二値化処理部と、
二値化された画像データから認識対象文字を含む領域を求める文字切出し部と、
前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出部と、
前記特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する文字認識部と、
前記文字認識部で算出した複数の類似度を類似度閾値と比較して候補文字を判定する判定部と、
前記判定部に基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、ｎ×ｍの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求めるとともに、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する分離処理部と、を備えたことを特徴とする文字認識装置。