JP5630689B2 - 文字認識方法及び文字認識装置 - Google Patents

文字認識方法及び文字認識装置 Download PDF

Info

Publication number
JP5630689B2
JP5630689B2 JP2010130613A JP2010130613A JP5630689B2 JP 5630689 B2 JP5630689 B2 JP 5630689B2 JP 2010130613 A JP2010130613 A JP 2010130613A JP 2010130613 A JP2010130613 A JP 2010130613A JP 5630689 B2 JP5630689 B2 JP 5630689B2
Authority
JP
Japan
Prior art keywords
character
similarity
separation
threshold
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010130613A
Other languages
English (en)
Other versions
JP2011257896A (ja
Inventor
中村 宏
宏 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nidec Sankyo Corp
Original Assignee
Nidec Sankyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nidec Sankyo Corp filed Critical Nidec Sankyo Corp
Priority to JP2010130613A priority Critical patent/JP5630689B2/ja
Publication of JP2011257896A publication Critical patent/JP2011257896A/ja
Application granted granted Critical
Publication of JP5630689B2 publication Critical patent/JP5630689B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、紙やプラスチックなどの媒体上にある文字を光学的に読み取る文字認識方法及び文字認識装置に関する。
従来から、例えば小切手などの媒体表面に印刷された文字列を認識するための装置がある。例えば、二値化された画像データから文字部分を検出して、その文字部分を外接矩形枠に沿って切り出し、得られた文字パターンから特徴量を抽出し、入力パターンの特徴ベクトルと特徴辞書中の文字ごとの基準ベクトルとの類似度を求め、その類似度の大きさにより候補文字を選択する、といった文字認識装置などが知られている。
このような文字認識装置の中には、認識精度を向上させるために、認識結果に基づいて二値化をやり直すなどの様々な工夫を施したものが存在する(例えば特許文献1,2参照)。
より具体的に説明すると、特許文献1に開示された技術では、文字認識の結果と黒点数の計数結果によって、多値画像を二値化しなおす必要があるか否かを判定し、必要があれば、当初の閾値とは異なる閾値を設定し、その新たな閾値を用いて多値画像を二値化するようにしている。また、特許文献2に開示された技術では、1文字ごとに多値画像を二値化し、文字認識の結果、照合できなかった場合に、例えば文字線幅などの図形情報を抽出して、その値に応じた再二値化を行うようにしている。
特開平09−016715号公報 特開平09−138834号公報
しかしながら、特許文献1に開示された技術では、再二値化をするか否かは、二値化文字画像の黒点数の計数結果に応じて決定する。そのため、文字が標準字形と相似である場合は大きな問題はないが、印刷時の変形や印刷後の欠け等により字形の変化が大きい場合、正しい判断が行われなくなる虞がある。すなわち、認識結果に対する信頼性の確保、という点で問題がある。また、特許文献2に開示された技術でも、抽出する図形情報によっては、再二値化するための閾値設定が難しい、という問題がある。例えば、再二値化の閾値の決定に際して、文字線幅が一様に太く又は細くなるとは限らず、再二値化するための正確な閾値設定は難しい。
本発明は、このような点に鑑みてなされたものであり、その目的は、文字認識の認識結果に対する信頼性を高めることが可能な文字認識方法及び文字認識装置を提供することにある。
以上のような課題を解決するために、本発明は、以下のものを提供する。
(1) 媒体を撮像して得られた画像データを二値化する二値化処理ステップと、二値化された画像データから認識対象文字を含む領域を求める文字切出しステップと、前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出ステップと、前記特徴抽出ステップで抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出した複数の類似度を類似度閾値と比較して候補文字を判定する第一の文字判定ステップと、前記第一の文字判定ステップに基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、n×mの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求める分離処理ステップと、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する第二の文字判定ステップと、を含むことを特徴とする文字認識方法。
本発明によれば、媒体を撮像して得られた画像データを二値化し、二値化された画像データから認識対象文字を含む領域を求め、その領域にある認識対象文字の特徴ベクトルを抽出し、抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出し、算出した複数の類似度を類似度閾値と比較して候補文字を判定し、その判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定することとしたので、最初の候補文字の判定によって区別できなかったものについて、別の特徴ベクトル(分離評価値)による判定を行うことができ、認識結果に対する信頼性を高めることができる。
また、本発明に係る文字認識方法は、前記分離処理ステップにおける前記分離評価値は、前記領域をn×mの分割領域に分けた後、当該分割領域にある少なくとも二以上の文字特徴量を抽出することによって求められることを特徴とする
本発明によれば、上述した分離評価ステップにおける分離評価値は、領域をn×mの分割領域に分けた後、その分割領域にある少なくとも二以上の文字特徴量を抽出することによって求められることとしたので、nやmの値(整数)を適当な値に設定することで、分離評価値の精度を変化させることができる。例えば、nやmを大きな値にすれば、より細かく分割された領域で分離評価値が求められるので、より精度を高めることができる。なお、nとmは異なる値であってもよいし、同じ値(n=m)であってもよい。
) 媒体を撮像して得られた画像データを二値化する二値化処理部と、二値化された画像データから認識対象文字を含む領域を求める文字切出し部と、前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出部と、前記特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する文字認識部と、前記文字認識部で算出した複数の類似度を類似度閾値と比較して候補文字を判定する判定部と、前記判定部に基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、n×mの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求めるとともに、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する分離処理部と、を備えたことを特徴とする文字認識装置。
本発明によれば、判定部の判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定することとしたので、第一の文字判定で候補文字の判定によって区別できなかったものについて、別の特徴ベクトル(分離評価値)による第二の文字判定を行うことができ、認識結果に対する信頼性を高めることができる。
本発明に係る文字認識方法及び文字認識装置によれば、第一の文字判定で候補文字が複数であった場合でも、別の特徴ベクトルである分離評価値を用いて第二の文字判定が行われるので、文字認識の認識結果に対する信頼性を簡易に高めることができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
[文字認識装置]
図1は、本発明の実施の形態に係る文字認識装置1の電気的構成を示すブロック図である。
文字認識装置1は、記録媒体表面に印刷された文字列の画像をイメージスキャナにより光学的に読み取り、この読み取られた文字列の画像から認識対象文字1文字ごとの文字画像を切り出し、この文字画像から抽出した特徴ベクトル(特徴点や特徴量等)を、認識用辞書に記憶された基本となる特徴ベクトル(特徴点や特徴量等)と比較・照合することにより文字認識を行い、認識された文字を出力するようにした光学的文字読取装置(Optical Character Reader)が用いられている。
図1において、記録媒体2は、JISに準拠している一般的なカードであり、例えば、幅86mm,高さ54mm,厚み0.76mmというサイズのプラスチックカードである。
図1に示すように、記録媒体2には、光学的に読み取りが可能な文字・数字等が印字された文字記録領域2Aが設定されている。具体的には、複数の文字が一定方向に規則正しく並んで文字列を形成しており、かつ、文章等を構成している。この文字記録領域2Aには、例えば、記録媒体2を特定する固有情報が表示されている。この固有情報とは、例えば、記録媒体2の使用者の氏名及び記録媒体2を特定する番号や記録媒体2の使用者番号等である。なお、記録媒体2は、このプラスチックカードに限定されるものではなく、文字列が印字されているものであればよく、例えば、IDカードやパスポートブック、或いは運転免許証などでもよい。
図1に示す文字認識装置1は、記録媒体2に表示された文字列を光学的に読み取り可能な装置であり、密着型の(1次元)撮像素子11と、画像メモリ12と、データ処理部13と、を有している。
密着型の(1次元)撮像素子11は、図1に示すように、記録媒体2を、図示しない搬送手段によって所定の搬送方向T(図1では左から右)に搬送する媒体搬送機構に設けられている。この撮像素子11は、CCD等からなるラインセンサであり、搬送方向Tとほぼ直交する方向(記録媒体2の幅方向)に一列に配置され、かつ、記録媒体2上に形成された文字記録領域2Aの幅よりも長く形成されている。なお、媒体搬送機構には搬送ガイド(番号を付記せず)が形成されており、記録媒体2は、その一端が搬送ガイドに接して搬送されるようになっている。なお、撮像素子11は、1次元に限定されるものではなく、2次元撮像素子であってもよい。
画像メモリ12は、撮像して得られた画像データを格納するものである。具体的には、画像データを有限個の画素の行列とみなし、例えば、各画素は、8ビットの情報量をもち、256階調の多値画像データで表され、画素値である輝度値は0から255までの整数値として表されている。なお、この画像メモリ12は、RAM,SDRAM,DDR SDRAM,RDRAMなど、画像データを記憶しうるものであれば如何なるものであってもよい。
データ処理部13は、画像メモリ12から多値画像データを読み出して、上述した各部において様々な処理を施し、最終的に、記録媒体2上の文字列を認識するものである。本実施の形態では、図1に示すように、二値化処理部13aと、文字切り出し部13bと、類似特徴抽出部13cと、文字認識部13dと、特徴辞書格納部13eと、判定部13fと、再二値化処理部13gと、分離処理部13hと、文字出力部13iと、分離条件格納部13jとを有している。また、これらの各部は、CPU又はMPUやRAM,ROMなどの電気要素によって、ハードウェア的に実現することができる。
二値化処理部13aは、媒体を撮像して得られた画像データを二値化する。本実施の形態では、画像メモリ12に格納された256階調の多値画像データを読み出して、既に公知となっている判別分析法など適当な方法によって第1の二値化閾値を求め、白黒二値の二値画像データに変換を行うものである。なお、二値画像データは、画像メモリ12に、多値画像データが格納されているメモリ領域とは別のメモリ領域に、二値画像データとして格納されている。
文字切出し部13bは、二値化処理部13aで得られた二値画像データから、認識対象文字(以下、「文字」という。)を含む領域、すなわち、1文字分ずつの(文字)画像を検出して切り出すものである。本実施の形態では、二値画像データから1文字(例えば、1文字を形成する黒画素領域)に外接した外接矩形領域が切り出されるようになっている。
特徴抽出部13cは、文字切り出し部13bで切り出された領域にある認識対象文字の特徴ベクトル(例えば、特徴量、特徴点等)を抽出する。本実施の形態では、文字切出し部13bから供給される外接矩形領域を複数の部分領域に分け、各部分領域ごとの特徴ベクトルを抽出する。
文字認識部13dは、それぞれの文字ごとに文字認識を行い、候補文字を出力する。ここで、この文字認識は、文字切出し部13bにより切り出された文字の特徴ベクトルのそれぞれに対し、認識辞書315に予め登録されている個々の基準文字の基準特徴ベクトルと1つずつ照合することにより行われる。本実施の形態では、特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する。
特徴辞書格納部13eは、予め、記録媒体2で使用される全文字について求めておいた基準特徴ベクトルが格納されている。この特徴ベクトルは、特徴比較が行われる際に、特徴辞書格納部13eから類似度が高い候補文字の特徴ベクトルが読み出され、特徴比較が行われ、類似度が算出される。
判定部13fは、文字認識部13dで算出された類似度から認識結果の判定を行う。本実施形態では、算出された類似度が、類似度閾値より高い値を持つ候補文字を読み出す。
再二値化処理部13gは、判定部13fにおいて、類似度の最大値が所定の類似度閾値をクリアしていない場合、すなわち、類似度閾値をクリアしなかった候補文字については当該認識対象文字を認識できないので、再二値化処理が実行される。この場合、第1の二値化閾値とは異なる第2の二値化閾値を用いて、上述した特徴抽出部13cで再処理されるようになっている。また、分離処理部13hにおいて、分離評価値が所定の分離評価閾値をクリアしていない場合、すなわち、分離評価閾値をクリアしなかった候補文字について当該認識対象文字を認識できないので、再二値化処理が実行される。この場合、第1の二値化閾値とは異なる第2の二値化閾値を用いて、分離処理部13hで再処理されるようになっている。
分離処理部13hは、判定部13fにおいて、所定の類似度閾値を複数の候補文字がクリアしている場合、これら複数の候補文字について分離処理が行われる。例えば、第一位と第二位の文字候補の類似度が共に類似度閾値をクリアし、かつ、両者が接近している場合(数字の「0(ゼロ)」とアルファベット文字「O(オー)、アルファベットの小文字のl(エル)とアルファベットの大文字のI(アイ)」等)などには、それらを分離する処理を行う。本処理では、類似度閾値をクリアした複数の候補文字を最もよく分離できる評価値を特徴ベクトルの適切な1個又は複数要素の組合せから計算し分離評価値として求め、その分離評価値を所定の分離評価閾値と比較することによって、分離を行う。また、分離処理部13hは、算出された分離評価値から認識結果の判定を行う。本実施の形態では、算出された分離評価値が、分離評価閾値より低い値を持つ候補文字を読み出す。
文字出力部13iは、判定部13fからの認識結果を出力する。
分離条件格納部13jは、類似度が近似する複数の候補文字、例えば、数字「0(ゼロ)」とアルファベット文字「O(オー)」、数字「6」と「8」とアルファベット文字「B」等を判定可能となるような分離評価値を求める計算式やこれら候補文字の高さHの情報等が格納されている。
[文字認識方法]
図2は、本発明の実施の形態に係る文字認識方法を示すフローチャートである。
図3は、記録媒体2の文字記憶領域2A(図1参照)に印刷された文字列を撮像したときの二値画像データを示す図である。
図2に示すように、本実施形態に係る文字認識方法では、まず、カードなどの記録媒体2は、媒体搬送機構の搬送ガイドに沿って搬送され、撮像素子11を通過することによって、記録媒体2上の文字記録領域2Aが撮像される。撮像によって得られたアナログの画像データは、光電変換され、図示しないアナログ/ディジタル変換回路が接続され、このアナログ画像データをディジタル画像データに変換される。例えば8ビットの256階調の多値画像データに変換されて画像メモリ12に格納される。なお、このようなアナログ/ディジタル変換回路自体は、既に公知であるので、ここでの詳細な説明は省略する。
図3は、記録媒体2の文字記憶領域2A(図1参照)に印刷された文字列を撮像したときの画像データを示す図である。なお、本実施の形態では、2列の文字列が印字されている。また、説明を簡単にするために、文字列の方向は、画像メモリ12の水平方向とほぼ一致しており、文字列の方向に直交する方向を垂直方向としている。
本実施の形態では、画像メモリ12は、M行×N列の画素をマトリクス状に配列して構成され、各画素には文字記録領域2A内の多値画像データがそれぞれ記憶されている。具体的には、白エレメントを構成する画素では輝度値(最大値255)が相対的に大きな値になり、黒エレメントを構成する画素では輝度値(最小値0)が相対的に小さな値になっている。
図2においては、まず、二値化処理が行われる(ステップS1)。具体的には、二値化処理部13aは、画像メモリ12から256階調の多値画像データを読み出して、判別分析法など適当な方法によって第1の二値化閾値を求め、白黒の二値画像データに変換を行う。また、このステップS1は、媒体を撮像して得られた画像データを二値化する「二値化処理ステップ」の一例に相当する。
次に、文字切り出し処理が行われる(ステップS2)。文字切り出し部13bは、記録媒体2上に形成された文字記録領域2Aに印字された認識対象文字を1文字ごとに文字画像を切り出す。なお、このステップS2は、二値化された画像データから認識対象文字を含む領域を求める「文字切出しステップ」の一例に相当する。
より詳細に述べれば、まず、文字列の切り出しが行われる。具体的には、文字切り出し部13bは、2列の文字列の二値画像データを、水平方向(文字列の方向)に射影して、各文字列の上下エッジ(図3において上下)を検出する。そして、上下エッジの中心位置を、各文字列の中心ラインとして2列の文字列の切り出しを行う。次いで、各文字列について文字切り出しが行われる。まず、文字区切り位置検出が行われる。具体的には、文字切り出し部13bは、上述したように、検出された文字列ごとの二値画像データについて、垂直方向に射影計算を行う。垂直射影によって得られた垂直射影データには、文字列を構成する文字と隣の文字間の空白部分が含まれているため、垂直射影データが所定の区切り位置検出用閾値を超えた箇所を、文字列を構成する文字の区切り位置として検出する。この過程については、図4及び図5を用いて詳しく説明する。なお、文字区切り位置検出は、垂直射影データが所定の区切り位置検出用閾値(図5ではSLEVで示す線)を超えた箇所を、文字列を構成する文字と隣の文字の区切り位置として検出する。
図4は、文字列を構成する文字(一部)に着目したときの二値画像データである。また、図5は、図4に示す二値画像データを垂直射影することによって得られた垂直射影データである。なお、図4は、図3中の上の文字列の「K」から「C」までの画像データを図5において、各文字間の空白部分は、SLEV(区切り位置検出用閾値)を超えていることを示している。
次に、仮決定された文字の外周矩形領域内における文字位置を正確に決定する処理を、図6を用いて説明する。図6は、文字列を構成する文字「<」の二値画像データを示す図である。
図6において、この「<」の文字の位置を正確に特定するために、外周矩形領域内の二値画像データにおいて、垂直射影PX及び水平射影PYを計算する。そして、求められたPXに沿って、文字の左右境界位置の検出を行い、外周矩形領域の左端点を起点としてPXを右方向にスキャンして、連続して一定回数して、そのレベル値(画素の検出)が連続して一定回数(例えば3回)境界位置検出用閾値を下回ったら、その最初の地点を文字の左エッジとする。そして、同様に、外周矩形領域の右端点を起点としてPXを左方向にスキャンして、境界位置検出用閾値を下回ったらその最初の地点を文字の右エッジとする。
次に、水平射影PYについても同様に処理する。図6において、上述した境界決定処理にて得られている左エッジ位置と右エッジ位置とで区切られた範囲を定義域として行い、外周矩形領域の上端、下端を外側からスキャンして、各レベル値が連続して一定回数、境界位置検出用閾値を下回ったら、その最初の地点を文字の上エッジ、下エッジとする。このようにして、文字列内の文字「<」の位置を特定し、1つの文字に外接した外接矩形領域を切り出す。これにより、文字に外接する外接矩形領域を求めることによって、正確な文字切出しを行うことができ、類似度を算出する処理を行う際に、(余白があることに起因した)誤差を少なくすることができる。図2のステップS2の文字切り出し処理が終了すると、図6に示すように、認識対象文字の外接矩形領域が求められる。
次に、特徴抽出処理が行われる(ステップS3)。具体的には、特徴抽出部13cは、外接矩形領域を任意の部分領域に分割する。本実施の形態では、図7に示すように、例えば、1個の外接矩形領域を5×5の領域に分割し、各領域を部分領域とする。各部分領域において、部分領域内の全画素数に占める黒画素数の割合を求め、それらを要素とする特徴ベクトルとしての特徴量を生成する。なお、図7に示すように、外接矩形領域を任意の部分領域に分割する際の領域の大きさは同等でなくてもよい。
図8は、図7に示す外接矩形領域(図6でいう一点鎖線に囲まれた領域内)を、一点鎖線で示すような5×5の領域に分割したとき、各部分領域における各画素の画素値(二値)を示している。図8では、数値255は二値の「白」を示し、数値0は二値の「黒」を示している。
次に、特徴ベクトルとしての特徴量を、各部分領域ごとに算出する。特徴量は、各部分領域内の全画素数に占める黒画素数(輝度値0の数)の割合を求める。
その結果、図9に示すように、25個の特徴量を生成することができる。例えば、図9中の右上(符号ax)の0.90909は、図7の部分領域axに対応した図8中の右上の部分領域axにおいて、0(黒画素)の数(30個)を、0(黒画素)と255(白画素)の総数(33個)で割った値となる(30÷33≒0.90909)。なお、このステップS3は、領域にある認識対象文字の特徴ベクトルを抽出する「特徴抽出ステップ」の一例に相当する。
次に、文字認識処理が行われる(ステップS4)。具体的には、文字認識部13dは、上述のようにして得られた部分領域ごとの特徴量を、予めこの記録媒体2で使用される全文字について求めておいた基準特徴量(たとえば図10の符号saxで示す値を参照)に対する類似度(例えば正規化相関係数)を計算し、最も類似度が高いもの、すなわち最大スコア値を与えるものを、その文字が該当する候補文字に設定する。本実施例では、文字「<」に対する類似度が0.902と最大値を与えるため、「<」が該当する候補文字となる。なお、このステップS4は、抽出した特徴ベクトル(特徴量)を複数の基準文字ごとに所与の基準特徴ベクトル(基準特徴量)それぞれと比較し、各基準特徴ベクトル(基準特徴量)との類似度を算出する「類似度算出ステップ」の一例に相当する。
なお、基準特徴量は、予め特徴辞書格納部13eに格納されているものであって、特徴比較が行われる際に、特徴辞書格納部13eから類似度が高い文字のデータが読み出され、特徴比較が行われる。
候補文字の判定処理が行われる(ステップS5)。具体的には、判定部13fにより、候補文字が抽出されたか否かが判断される。候補文字が1文字抽出された場合、文字出力部13iに出力され、判定部13fからの認識結果を出力する(ステップS8)。一方、候補文字が抽出されなかった場合、再二値化処理が必要と判断され(ステップS5:NO)、(認識対象)文字について、再二値化処理部13gで再二値化処理が実行される(ステップS6)。また、候補文字が2文字以上抽出された場合、分離処理部13hに出力され、分離処理が行われる(ステップS7)。なお、このステップS5は、算出した複数の類似度を類似度閾値と比較して候補文字を判定する「第一の文字判定ステップ」の一例に相当する。
(分離処理)
分離処理部13hによる分離処理が行われる(ステップS7)。文字認識部13dで(認識対象)文字との類似度を算出し判定部13fで判定するが、類似度が第一位と第二位の複数の候補文字が、各類似度が共に類似度閾値をクリアし、かつ、両者が接近している場合などには、候補文字を特定することができず判定ができないので、それらを(認識対象)文字に対して分離する処理を行う。このような候補文字として、例えば、数字「0(ゼロ)」とアルファベットの「O(オー)」や、アルファベットの小文字「l(エル)」とアルファベットの大文字「I(アイ)」などがある。なお、このステップS7は、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求める「分離処理ステップ」の一例に相当する。
本処理では、このように類似度が近い候補文字を、(認識対象)文字に対して最もよく分離できる評価値を特徴量の適切な1個又は複数要素の組合せから計算し、その分離評価値を分離評価閾値と比較することによって、分離を行う。
この分離処理の詳細な情報処理の流れについて説明は、図11に示すとおりである。また、具体例を図12に示す。図12に示すように、パスポートガイドでは数字「0(ゼロ)」とアルファベット文字「O(オー)」が代表的な候補文字である。フォント上はストロークの曲率の違いや、文字高さの違いによる判別が可能であるが、印刷条件や走査条件、光学条件などの理由で、文字の歪みや文字線太さの変化が生じやすく、分離不能となる場合がある。上述した文字認識処理での特徴量における類似度も近い値をとることがあり、差異も顕著でない場合がある。そこで、本実施例では、分離評価値を分離評価閾値と比較することによって、分離を行う。
例えば図12に示すように、類似度を算出する際に使用した部分分割領域、すなわち5×5分割された領域の四隅の値DA,DB,DC,DDと、左右の中央値E,Fを用いて、第一位と第二位の複数の候補文字と判別することができなかった(認識対象)文字について、図14(a)に示す計算式で分離評価値を算出する(図11のステップS11)。図14(a)に示す計算式で求めた分離評価値は数字「0(ゼロ)」で小さくなる一方、アルファベット文字「O(オー)」で大きくなるようになっている。そこで、判別論理を図14(b)に示すようにする(図11のステップS12)。図14(b)中のK1及びK2は、分離評価閾値であり、実験的に求めることが可能である。求めた分離評価値fxが分離評価閾値K1よりも小さい場合には、(認識対象)文字は数字「0(ゼロ)」と、分離処理部13hで判定する。また、求めた分離評価値fxが分離評価値K2よりも大きい場合には、文字はアルファベット文字「O(オー)」と判定する。さらに、分離評価値fxがK1とK2に挟まれた範囲にあるときは、判定不能領域として、後述する別の指標を用いる。なお、5×5分割された領域は文字認識で使用した部分分割領域を用いたが、分離評価値を求めるために,新たな部分分割領域を設定してもよい。
判定不能領域にある場合、たとえば、初期状態すなわち文字認識処理後の文字画像(二値画像)が図12(a)に示すものとなっている場合、分離評価値(fxの値)は判定不能領域にある。このときは、別の指標として文字高さHを用いる。H1<H2として、文字高さH(H')が、H(H')<H1であれば「O(オー)」とし、H(H')>H2であれば「0(ゼロ)」として、分離処理部13hで判定し、結果が確定された後(図11のステップS14)、文字出力部13iから文字出力がされることになる(図2のステップS8)。なお、文字高さH'は、後述する再二値化処理(ステップS13)の反復によって形成された文字画像の文字高さを示す(図12(b)参照)。
なお、H1≦H(H')≦H2であれば判定不能領域にあるとして(図11のステップS12:NO)、再二値化処理部13gに出力される。再二値化処理部13gでは、(認識対象)文字について、第1の二値化閾値を第2の二値化閾値に代えて再二値化を繰り返しながら、分離評価値fxを計算する(図11のステップS13)。再度計算して求めた分離評価値fxが上述した分離閾値K1またはK2と比較し、再度計算して求めた分離評価値fxが判定不能領域から外れたか又は規定反復回数に到達したか否かにより、最終判定を行う。判定不能領域から外れた場合は、「0(ゼロ)」か「O(オー)」のうち該当する文字が文字出力部13iから出力され、判定不能領域から外れなかった場合は、文字出力部13iから判定不能として出力される。
本実施例では、例えば、図12(a)に示す文字画像が分離評価値(fxの値)は判定不能領域にあると判定された場合(図11のステップS12)、再二値化処理(ステップS13)の反復によって、図12(b)に示すような文字画像が形成された。この文字画像の二値画像データを用いて、分離処理部13hで分離処理を行い、計算された分離評価値fx'<K1(分離評価閾値)となり、「0(ゼロ)」と判定される。また、図12(b)において、再二値化処理された文字画像は文字高さH'となり、上述した分離評価値fx'を用いた分離処理で、以前として判定不能領域からはずれなかった場合には、上述したように、文字高さH'を、H1、H2と比較するようにしてもよい。なお、再二値化処理の詳細な説明は後述する。また、上述したステップS11は、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値(上述したfx)を求める「分離処理ステップ」の一例に相当する。また、上述したステップS12は、分離評価値それぞれを分離評価閾値(上述したK1、K2)と比較して候補文字を判定する「第二の文字判定ステップ」の一例に相当する。
(再二値化処理)
図2のフローチャートに戻り、判定部13fにより、候補文字が抽出されなかった場合、再二値化処理が必要と判断され(ステップS5:NO)、(認識対象)文字について、再二値化処理部13gで再二値化処理が実行される(ステップS6)。上述したように、図2のステップS4の文字認識処理において、基準文字「<」に対する類似度が0.902と最大値を与えるため、「<」が該当する文字として決定されることになるが、合理的に決定された第1の二値化閾値による文字画像であっても、文字の形状によっては認識対象文字と基準文字との類似度が類似度閾値に到達しないことがあり得る(上述のように、0.902のような高い類似度が与えられない場合がある)。
これは、例えば、手動走査型スキャナにおける走査速度による幅方向の解像度低下などが原因となって、文字形状が著しく歪んだり、印刷時あるいは使用中に生じた文字のかすれ・欠如が生じていたりするからである。この場合、再二値化するための第2の二値化閾値を求めるのに、たとえば黒点数だけによる方法では、文字のかすれ・欠落などにより、見かけ上濃度が濃くなっている場合でも濃度が濃くなる方向に閾値補正が行われる。そして、欠落以外の部分の文字線が太い場合には、過剰に線が太くなる方向に作用するため、正確な認識が行われなくなってしまう。
そこで、本実施形態に係る文字認識方法では、再二値化の要否判定に、特徴量の類似度を用いるようにしている。文字欠けやかすれなどの形状に生じた変形は、確実に類似度に反映させることができるため、黒点数による方法に比べて判断誤りが生じにくい、というメリットがある。
図17は、再二値化の要否判定に関する具体例を説明するための説明図である。図17には、アルファベットの大文字"L"の文字画像(二値画像データ)を示しており、図17(a)は、文字認識処理(図2のステップS4)で使用した第1の二値化閾値を適用した場合の図である。この場合、相対的に二値化閾値が低いために線が細くなり、文字切出し処理で右側のエッジ部が実際よりも内側に検出されている。そのため、基準文字との類似度は0.475という低い数値を示している。このとき、上述したように、判定部13fにおいて、照合が正しく行われていないので判定不能として、再二値化処理が必要であると判定する。この二値化閾値を変化させる方向は、増加か減少か類似度からでは分からないため、初めに増加させる方向にシフトさせる。文字画像としては、黒画素の数が増える方向である。図17(b)は、第1の二値化閾値として設定した256階調の多値画像データ上の輝度値よりも8増加させた輝度値を第2の二値化閾値と設定した場合、この第2の二値化閾値で再二値化処理した文字画像である。この文字画像と基準文字との類似度は0.572である。さらに、輝度値を増加させ、第3の二値化閾値を設定し、再二値化処理した文字画像と基準文字との類似度は0.886と十分大きい値となった(図17(c)参照)。これにより、本来の正しい結果に到達したと判断する。なお、輝度値を増加方向への変化で類似度が十分に改善されなかった場合は、減少する方向(例えば、輝度値で8減少)へ変化させ、類似度が改善されるかを調べる。改善が見られなかった場合は、再二値化処理前の結果を採用することにする。
図11のステップS13は再二値化処理であり、図2のステップS6と同様の処理を行うので、ここでの説明は省略する。また、ステップS13での第2の二値化閾値、第3の二値化閾値等は、ステップS6で説明したような輝度値8づつ増加、減少させてもよいし、8以外の数値であってもよい。
[実施形態の主な効果]
以上説明したように本実施形態に係る文字認識方法によれば、記録媒体2の既知の位置に印刷された既知の文字数からなる文字列を、1次元撮像素子11で主走査を行い、手動もしくは機械駆動による記録媒体2移動で副走査を行うようにして、2次元の画像情報に変換し、この画像データを適切に処理することにより文字列の認識を行うようにした文字認識装置1において、記録媒体2を走査した多値画像を二値化するステップ(図2のステップS1)と、(認識対象)文字に外接する外接矩形領域を求め、外接矩形領域内の特徴量を抽出するステップ(図2のステップS2,ステップS3)と、基準特徴量との類似度を算出するステップ(図2のステップS4)と、類似度を類似度閾値と比較して第一の文字判定するステップ(図2のステップS5)と、その判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと(認識対象)文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定する(図2のステップS7)ことで構成することで、第一の文字判定で候補文字の判定によって区別できなかったものについて、別の特徴量(分離評価値)による判定を行うことができ、認識結果に対する信頼性を高めることができる。
また、上述した図2のステップS5で、判定ができなかった場合、(認識対象)文字について再二値化処理を行うステップ(図2のステップ6)を構成することで、再二値化後の(認識対象)文字を、特徴抽出ステップ(図2のステップ4)に出力するように構成することで、判定できなかった(認識対象)文字の読取精度を更に上げることができる。
同様に、分離処理ステップ(図2のステップS7)で、判別できなかった(認識対象)文字について、再二値化処理部13gに出力し、再二値化処理を行うことにより、再二値化で求めた(認識対象)文字と、類似度が近似した基準文字との分離精度を高めることができ、ひいては認識結果に対する信頼性を高めることができる。
[他の実施形態]
また、上述した分離条件格納部13jでは、数字「0(ゼロ)」とアルファベット文字「O(オー)」と、類似度が近似する2つの候補文字での分離評価を行ったが、3つの候補文字等、数字「6」と「8」とアルファベット文字「B」の類似度が近似した候補文字の計算式も格納されている。例えば、図15に示すように、5×5分割された領域の右上の値DA'、その下の値DB'、中央の値DC'、左下の値DD'を用いて、図16(a)に示す計算式で分離評価値を算出する(図11のステップS11)。この分離評価値は、候補文字「6」で小さくなる一方、候補文字「B」で大きくなる。そこで、判別論理を図16(b)及び図16(c)に示すようにする(図11のステップS12)。図16(b)中のK1'及びK2'は、分離評価閾値であり、実験的に求めることが可能である。K1'とK2'に挟まれた範囲にあるときは、候補文字「8」と判定する。
このように、特徴抽出ステップ(図2のステップS3)で外接矩形領域(図6でいう一点鎖線に囲まれた領域内)を、5×5の領域に分割した後、分離処理ステップ(図2のステップS7)において、分割領域にある少なくとも二以上(図13ではA〜Fの6個、図15ではA〜Dの4個))の別の特徴量を抽出する(分離評価値を求める)こととしたので、分割する領域数を調整することで、精度調整が可能になる。たとえば、図13でいうとEとFはなくても分離評価値を求めることもできるが、EとFがあった方が、数字「0(ゼロ)」とアルファベット文字「O(オー)」の違いがはっきりし(fxの値に差がつく)、より精度を高めることができる。
また、本実施形態では、再二値化処理(図2のステップS6及び図11のステップS13)を行う際、類似度が改善されるように再二値化のための二値化閾値を変化させることとしたが、たとえば判定された全ての文字に関する類似度の基本統計量を算出し、その算出された基本統計量に基づいて、再二値化処理を行ってもよい。すなわち、本実施形態における文字認識方法は、第一の文字判定ステップに基づいて、判定された全ての文字に関する類似度の基本統計量を算出する基本統計量算出ステップと、この基本統計量算出ステップで算出された基本統計量に基づいて、二値化処理を行う再二値化処理ステップと、を含むことにより、基本統計量を用いて最適な二値化閾値を設定した上で再二値化処理を行うことができ、認識結果に対する信頼性をより高めることができる。ここでいう基本統計量とは、たとえば類似度の総数、最大値、最小値、平均値、標準偏差などである。基本統計量として最小値を採用した場合には、最小値が大きくなるように変更していき、基本統計量として分散や標準偏差を採用した場合には、これらが小さくなるように変更していく。このようにして、基本統計量が改善するように閾値を変更すれば、分離評価値による認識対象文字1個1個の精度向上に加え、文字列全体を考えた際の精度向上に大きく貢献することができる。
また、類似度の基本統計量に基づいて、再二値化処理を繰り返すことで、再二値化する際の二値化閾値を適切に設定することができ、文字認識の効率化に貢献することができる。
なお、本実施形態では、1次元撮像素子11,リニア搬送機構を用いることとしたが、本発明はこれらに限定されるものではない。例えば、2次元CCDやCMOSイメージャなどのエリアセンサと被写体支持機構との組み合わせでもよい。また、認識対象としては、活字文字だけでなく、手書き文字にも適用できる。また、文字認識に留まらず、1D及び2Dバーコードの復号などにも応用することができる。
本発明に係る文字認識方法及び文字認識装置は、文字認識の信頼性を高めるものとして有用である。
本発明の実施の形態に係る文字認識装置の電気的構成を示すブロック図である。 本発明の実施の形態に係る文字認識方法を示すフローチャートである。 記録媒体のOCR文字記憶領域に印刷された文字を撮像したときの画像データを示す図である。 文字列を構成する文字(一部)に着目したときの画像データである。 図4に示す画像データを垂直射影することによって得られた垂直射影データである。 文字列を構成する文字「<」の画像データを示す図である。 外接矩形領域の一例を示す図である。 5×5の領域に分割したときの部分領域における輝度を示す図である。 各部分領域内の全画素数に占める黒画素数の割合を示す図である。 基準特徴ベクトルの一例を示す図である。 分離処理の詳細な情報処理の流れを説明するためのフローチャートである。 分離処理の対象となる画像の具体例を示す図である。 分離評価値の算出を説明するための説明図である。 分離評価値を算出するための計算式を示す図である。 他の分離評価値の算出を説明するための説明図である。 他の分離評価値を算出するための計算式を示す図である。 再二値化の要否判定に関する具体例を説明するための説明図である。
1 文字認識装置
2 記録媒体
11 撮像素子
12 画像メモリ
13 データ処理部
13a 二値化処理部
13b 文字切出し部
13c 特徴抽出部
13d 文字認識部
13e 特徴辞書格納部
13f 判定部
13g 再二値化処理部
13h 分離処理部
13i 文字出力部
13j 分離条件格納部

Claims (2)

  1. 媒体を撮像して得られた画像データを二値化する二値化処理ステップと、
    二値化された画像データから認識対象文字を含む領域を求める文字切出しステップと、
    前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出ステップと、
    前記特徴抽出ステップで抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する類似度算出ステップと、
    前記類似度算出ステップで算出した複数の類似度を類似度閾値と比較して候補文字を判定する第一の文字判定ステップと、
    前記第一の文字判定ステップに基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、n×mの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求める分離処理ステップと、
    前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する第二の文字判定ステップと、を含むことを特徴とする文字認識方法。
  2. 媒体を撮像して得られた画像データを二値化する二値化処理部と、
    二値化された画像データから認識対象文字を含む領域を求める文字切出し部と、
    前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出部と、
    前記特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する文字認識部と、
    前記文字認識部で算出した複数の類似度を類似度閾値と比較して候補文字を判定する判定部と、
    前記判定部に基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、n×mの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求めるとともに、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する分離処理部と、を備えたことを特徴とする文字認識装置。
JP2010130613A 2010-06-08 2010-06-08 文字認識方法及び文字認識装置 Expired - Fee Related JP5630689B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010130613A JP5630689B2 (ja) 2010-06-08 2010-06-08 文字認識方法及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010130613A JP5630689B2 (ja) 2010-06-08 2010-06-08 文字認識方法及び文字認識装置

Publications (2)

Publication Number Publication Date
JP2011257896A JP2011257896A (ja) 2011-12-22
JP5630689B2 true JP5630689B2 (ja) 2014-11-26

Family

ID=45474031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010130613A Expired - Fee Related JP5630689B2 (ja) 2010-06-08 2010-06-08 文字認識方法及び文字認識装置

Country Status (1)

Country Link
JP (1) JP5630689B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7312183B2 (ja) 2018-02-02 2023-07-20 ウエスチングハウス・エレクトリック・カンパニー・エルエルシー 原子燃料の破損防止方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033205A (ja) * 2015-07-31 2017-02-09 富士通フロンテック株式会社 記載内容認識システム、記載内容認識方法、及び記載内容認識プログラム
CN109978078B (zh) * 2019-04-10 2022-03-18 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN111783765B (zh) * 2020-07-10 2024-03-22 上海淇毓信息科技有限公司 一种识别图像字符的方法、装置和电子设备
CN112699886B (zh) * 2020-12-30 2024-06-11 广东德诚科教有限公司 一种字符识别方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5949630B2 (ja) * 1977-03-28 1984-12-04 株式会社日立製作所 パタ−ン認識装置
JP5334042B2 (ja) * 2008-11-23 2013-11-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7312183B2 (ja) 2018-02-02 2023-07-20 ウエスチングハウス・エレクトリック・カンパニー・エルエルシー 原子燃料の破損防止方法

Also Published As

Publication number Publication date
JP2011257896A (ja) 2011-12-22

Similar Documents

Publication Publication Date Title
JP5334042B2 (ja) 文字列認識方法及び文字列認識装置
JP5591578B2 (ja) 文字列認識装置および文字列認識方法
CN103914858B (zh) 文档图像压缩方法及其在文档认证中的应用
US9158986B2 (en) Character segmentation device and character segmentation method
US7949187B2 (en) Character string recognition method and device
US8462394B2 (en) Document type classification for scanned bitmaps
US9977957B2 (en) Method and system for identifying characters on a valuable medium
JP6268023B2 (ja) 文字認識装置およびその文字切り出し方法
KR20070081410A (ko) 이차원 코드 검출 시스템 및 이차원 코드 검출 프로그램
JP6487255B2 (ja) 文字切り出し装置、文字認識装置、および文字切り出し方法
JP6171167B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラム
JP4945739B2 (ja) 文字列認識方法及び文字列認識装置
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP5011508B2 (ja) 文字列認識方法及び文字列認識装置
KR100726473B1 (ko) 이미지 분별 장치 및 그 방법
CN116469090A (zh) 喷码图案的检测方法、装置、电子设备和存储介质
JP5041775B2 (ja) 文字切出方法及び文字認識装置
JP2007060417A (ja) 図形認識方法
KR101070051B1 (ko) 도트 패턴에서 불변 영역을 인식하는 방법
JP6039944B2 (ja) 帳票種類判別装置および帳票種類判別方法
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法
Choudhary et al. An efficient algorithm for characters recognition of printed oriya script
JPH05166010A (ja) 文字切出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140925

R150 Certificate of patent or registration of utility model

Ref document number: 5630689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees