JP4594952B2 - 文字認識装置及び文字認識方法 - Google Patents

文字認識装置及び文字認識方法 Download PDF

Info

Publication number
JP4594952B2
JP4594952B2 JP2007072673A JP2007072673A JP4594952B2 JP 4594952 B2 JP4594952 B2 JP 4594952B2 JP 2007072673 A JP2007072673 A JP 2007072673A JP 2007072673 A JP2007072673 A JP 2007072673A JP 4594952 B2 JP4594952 B2 JP 4594952B2
Authority
JP
Japan
Prior art keywords
image
character
feature vector
license
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007072673A
Other languages
English (en)
Other versions
JP2008234291A (ja
Inventor
裕子 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007072673A priority Critical patent/JP4594952B2/ja
Publication of JP2008234291A publication Critical patent/JP2008234291A/ja
Application granted granted Critical
Publication of JP4594952B2 publication Critical patent/JP4594952B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、例えば免許証などの身分証の画像から文字を認識する文字認識装置及び文字認識方法に関する。
携帯電話機の販売代理店などで、利用者が携帯電話機の利用契約を行う際には、利用者が記載した申込書の一部に、例えば免許証や保険証などの身分証のコピーを貼り付けて契約センターなどへFAX送信される。
契約センターでは、FAXで受信された申込書をスキャナーなどの光学的文字読取装置(以下OCRと称す)でモノクロ画像に電子化してPCなどに表示してそのモノクロ画像から利用者が記載した内容や身分証の内容を確認した上で、利用者(契約者)のデータをデータベースへ登録し管理する。
この際、FAXから出力、つまりプリントされたモノクロFAX文書の紙面を、OCRにかけてその画像を読み取り文字認識することで得られた文字認識結果のテキストデータとイメージデータとを対応させてデータベースへ登録する。
ところで、申込書内の所定の身分証貼付欄には、身分証が必ずしも原寸大でコピーされて、かつ正規の方向に貼り付けられているとは限らない。
申込書内の身分証の部分だけが、任意の倍率でコピーされていたり、または正規の方向に貼り付けられていない申込書の画像では、身分証の範囲の画像を正しく切り出して正しい文字認識結果が得られないため、オペレータは、認識できなかった文字をPCへ直接キー入力することで身分証の内容を登録することになる。
身分証を認識する技術としては、例えば免許証を専用スキャナーで読み取り、読み取った免許証の画像から罫線を検出しそれを頼りに免許証の文字を認識する技術が知られている。
また、画像の向きを判定して文字を読み取る技術としては、送信対象の帳票の4つのシート角のうち3つのシート角の所定部分に基準マークを印刷しておき、ファクシミリ装置を通じて得られた帳票の画像から基準マークを検出することで帳票画像の向きを検出および修正し、その修正した画像から文字を認識する技術が既にある(例えば特許文献1参照)。
特開平2−12479号公報
上記先行技術の場合、帳票の画像をすべてスキャニングして文字の位置を割り出せば、身分証の位置を検出できるものの、例えば免許証などの免許証番号欄には、斜線を背景とした文字が印字されており、モノクロFAXやそのFAX用紙をスキャナーで取り込んだモノクロ画像ではこの部分の文字認識がエラーとなる確率が高いという問題があった。
本発明はこのような課題を解決するためになされたもので、斜線を背景とした文字画像の文字認識率を向上することができる文字認識装置及び文字認識方法を提供することを目的としている。
上記した課題を解決するために、本発明の文字認識装置は、斜線を背景にした文字列が印字された印字面より画像を取得する画像情報取得手段と、前記画像情報取得手段により取得された画像の中から、前記斜線を背景にした文字列の画像を抽出し、各文字単位に切り出す文字画像切出手段と、前記文字画像切出手段により切り出された文字画像を、前記斜線がほぼ水平になる角度に回転する文字画像回転手段と、前記文字画像回転手段により回転された文字画像より水平方向に線を構成する黒画素成分を除去する射線処理手段と、前記射線処理手段により水平方向に線を構成する黒画素成分が除去された文字画像の特徴ベクトルを抽出する特徴ベクトル抽出手段と、予め前記斜線の角度と一致する角度で回転させた状態の基準文字画像の特徴ベクトルとテキストデータとを対応付けた辞書を記憶した辞書記憶部と、前記特徴ベクトル抽出手段により抽出された前記文字画像の特徴ベクトルと前記辞書記憶部に記憶された特徴ベクトルとを比較して一致また近似する特徴ベクトルを持つテキストデータを出力する文字認識手段とを具備したことを特徴とする。
本発明の文字認識方法は、斜線を背景にした文字列が印字された印字面より画像を画像情報取得手段が取得するステップと、前記画像情報取得手段により取得された画像の中から、文字画像切出手段が、前記斜線を背景にした文字列の画像を抽出し、各文字単位に切り出すステップと、前記文字画像切出手段により切り出された文字画像を、文字画像回転手段が、前記斜線がほぼ水平になる角度に回転するステップと、前記文字画像回転手段により回転された文字画像より水平方向に線を構成する黒画素成分を射線処理手段が除去するステップと、前記射線処理手段により水平方向に線を構成する黒画素成分が除去された文字画像の特徴ベクトルを特徴ベクトル抽出手段が抽出するステップと、予め前記斜線の角度と一致する角度で回転させた状態の基準文字画像の特徴ベクトルとテキストデータとを対応付けた辞書を辞書記憶部に記憶しておき、前記特徴ベクトル抽出手段により抽出された前記文字画像の特徴ベクトルと、前記辞書記憶部に記憶された特徴ベクトルとを文字認識手段が比較して一致また近似する特徴ベクトルを持つテキストデータを出力するステップとを有することを特徴とする。
以上説明したように本発明によれば、斜線を背景とした文字画像の文字認識率を向上することができる。
以下、本発明の実施の形態を図面を参照して詳細に説明する。
図1は本発明に係る一つの実施の形態の身分証認識システムの構成を示す図、図2は申込書の一例を示す図である。
図1に示すように、この身分証認識システムは、帳票としての申込書1の表面を例えばCCDなどで走査(スキャン)して画像情報(イメージデータ)を取得(生成)するイメージスキャナー2(以下スキャナー2と称す)と、このスキャナー2に接続され、申込書1から読み取った画像情報(イメージデータ)に対して免許証23の画像の抽出処理及び文字認識処理を行うコンピュータ10とから構成されている。
スキャナー2は、申込書1よりその表面をCCDセンサにより走査してモノクロ画像(イメージデータ)を取得する。なお、FAXで送られてきたモノクロFAX紙をカラーでスキャンしても同じである。つまりスキャナー2は、申込書1よりモノクロ画像情報を取得する画像情報取得手段として機能する。
コンピュータ10は、操作部11、通信I/F12、記憶手段としてのメモリ13、表示部14、ハードディスク装置15、CPU16とを備えている。操作部11は、キーボート、マウスなどのユーザーが操作を行う入力手段である。
メモリ13には、文字を認識するための標準文字イメージ(登録パターンともいう)またはその特徴ベクトルとテキストデータとを対応付けた標準辞書13a(以下「第1辞書13a」と称す)と、免許証の所定の文字(免許書番号部分Mの斜線が入った文字)を認識するための斜線入り文字専用辞書13b(以下「第2辞書13b」と称す)とが記憶されている。
すなわち、メモリ13は、予め所定の角度で回転(傾斜)させた状態の基準文字画像の特徴ベクトルとテキストデータとを対応付けた辞書(第1辞書13b)を記憶した辞書記憶部として機能する。所定の角度とは、斜線が入った認識対象の文字画像の斜線の角度と一致する角度である。
また、メモリ13には、帳票画像内の免許証画像の位置や傾きなど検出し、検出した免許証画像内の文字画像を切り出すための免許証フォーマット13cが記憶されている。
この免許証フォーマット13cには、例えば免許証に予め複数印字されている特徴的な基準文字である「年」、「月」、「日」のうちのいずれか1種類、この例では「日」という文字種と、複数の基準文字「日」の位置関係のデータ(免許証23のある点(左上角など)を基準(X座標0,Y座標0)とした「日」という文字のX座標・Y座標と各文字間の距離データなど)が記憶されている。
また免許証フォーマット13cには、帳票内の免許証の画像から認識対象の文字列の画像を切り出すための領域情報が設定されている。領域情報は、上記「日」という文字と同様に、各文字のX座標・Y座標と各文字間の距離データなどにより指定されている。なお、フォーマットや辞書などはハードディスク装置15に記憶されていてもよい。
例えば免許証フォーマット13cには、切り取る領域情報(免許証の左上角の位置座標をX座標0,Y座標0)とした場合の各読み取り範囲の指定情報)の他、例えば免許証番号部分M(斜線を背景にした文字列が印字された印字面)の文字画像については、切り出し対象の文字画像が12個ある中の1つ目から4つ目の文字画像については第1辞書13a、5つ目から8つ目までの斜線入りの文字画像については第2辞書13b、9つ目から12個目までの文字画像については第1辞書13aを利用するという辞書指定条件(辞書指定情報)が設定されている。
表示部14は、スキャナー2が取り込んだ申込書1の画像や、抽出した免許証部分の画像から文字認識処理するための画面、文字認識結果のテキストデータなどを表示する。
ハードディスク装置15には、オペレーティングシステム(以下OSと称す)と、CPU16に各部の制御動作を行わせる制御ソフトウェアとがインストールされており、これらが協動して本システムの動作を実現する。動作説明ではコンピュータ起動後のCPU16の動作として説明する。
すなわち、CPU16は、スキャナー2により取得された申込書1の画像の中から免許証にプリントされている特徴文字、例えば「年」、「月」、「日」などのうちの少なくとも1つの種類の複数の文字を検出する特徴文字検出手段と、この特徴文字検出手段により検出された複数の文字の位置関係と予め設定された免許証23の文字の基準位置とに基づいて免許証画像の伸縮率および・または方向(縦・横・正規方向・上下反転方向など)を求め、申込書1の画像の中から免許証23の画像を抽出する画像抽出手段、この画像抽出手段により抽出された免許証23の部分の画像に対して文字認識を行う文字認識手段として機能する。
CPU16は、斜線を背景にした文字列が印字された印字面より画像を取得する画像情報取得手段として機能する。CPU16は、画像情報取得手段により取得された画像の中から、斜線を背景にした文字列の画像を抽出し、各文字単位に切り出す文字画像切出手段として機能する。CPU16は、文字画像切出手段により切り出された文字画像を、斜線がほぼ水平になる角度に回転する文字画像回転手段として機能する。
CPU16は、文字画像回転手段により回転された文字画像より水平方向に線を構成する黒画素成分を除去(消去)する射線処理手段として機能する。CPU16は、射線処理手段により水平方向に線を構成する黒画素成分が除去された文字画像の特徴ベクトルを抽出する特徴ベクトル抽出手段として機能する。
CPU16は、特徴ベクトル抽出手段により抽出された文字画像の特徴ベクトルとメモリ13の第2辞書13bの特徴ベクトルから斜線部分の特徴ベクトルを除いた特徴ベクトルとを比較して一致また近似する特徴ベクトルを持つテキストデータを出力する文字認識手段として機能する。
すなわち、CPU16は、メモリ13に予め記憶されている免許証内の画像を読み取るための免許証フォーマット13cに従って、免許証23の部分の画像の中の所定の領域の文字列、例えば氏名、生年月日、本籍、住所、免許証番号、免許取得年月日などの画像を取得し、個々の領域の画像を各文字単位に切り出し、個々の文字画像に対して免許証フォーマット13cにより個々の文字画像毎に指定された辞書(第1辞書13aまたは第2辞書13bのいずれか)を参照して文字認識処理を実行する。
切り出した各文字画像を認識する際に、CPU16は、背景に斜線がある文字画像については、斜線がほぼ水平になる角度(この例では文字中心を右まわりに45°回転)に文字画像を回転し、回転した文字画像より、水平方向の黒画素からなる線成分(斜線成分)を除去し、斜線成分を除去した文字画像の特徴ベクトルを抽出し、その部分専用の第2辞書13bを用いて、斜線部分の個所を除いた特徴ベクトルの比較で文字認識する。
図2に示すように、帳票、例えば携帯電話機の利用契約のための申込書1などには、住所、氏名、申し込み内容などの記入欄21と、本人確認物貼り付け欄22が設けられている。記入欄21には、申込者本人がボールペンなどにより自筆で該当事項が記入される。
本人確認物貼り付け欄22には、予め添付のための注意事項などが印刷されており、その上に申込者本人の確認物として申込者本人から提示された例えば免許証23や保険証などの身分証をコピーしたものを、その欄内に入るような大きさに拡大または縮小して貼り付け添付される。
申込書1は、ファクシミリ装置などにかけられ、通信網に伝送されて契約センターに受信されるので、契約センターでは、受信されたFAX用紙の画像、すなわち申込書1に身分証が貼り付けられた状態の画像は、免許証部分だけを傾きを直したりするような加工はできない。
つまり、FAX用紙の画像上の免許証は、本人確認物貼り付け欄22内においてその位置がバラバラであり、横向き、縦向き、縮尺率、拡大率など、さまざまな形に変形した状態となっていることがある。また、免許証23の背景には申込書1に予め印刷されていた各種の文字がはみ出していることが多い。
申込書1に貼り付けられる免許証23の方向としては、申込書1の免許証貼付欄に免許証を横長方向に貼り付けることを正規の方向とすると、免許証23の上下を逆にして貼り付ける第1ケースと、免許証を縦長方向(正規方向と直交する方向)に貼り付ける第2ケースと、それぞれの方向について少し傾斜した状態で貼り付ける第3のケースが考えられる。少し傾斜した状態としては、人間の視覚的の感覚で言えば、例えば3度〜5度程度までである。
図2に示すように、免許証23には、ほぼ同じ大きさの「日」という文字が最低5個(p1…p5)印刷されている。
そこで、本システムでは、免許証23の貼り付け位置を検出するための基準となる5個の「日」という文字(p1…p5)の中心点の位置情報をメモリ13に登録しておき、図3に示すような、認識対象の申込書の画像1aから検出された「日」という文字(d1…dn)の中心点の位置がそれぞれどれに対応するかを総当りで調べ、最も確からしい組み合わせを求める。
このように、組み合わせの中から最適な組み合わせを見つける問題のことを、「組み合わせ最適化問題」と呼び、その解決方法には幅優先探索法、深さ優先探索法、遺伝的アルゴリズム、シミュレーテッド・アニーリング法など、多くの方法が知られており、このシステムでは、いずれかの方法を利用する。
最も確からしい組み合わせが求められれば、その相対位置から、画像上のどの部分に、氏名・生年月日・住所・免許証番号などの記載項目があるのかを算出できる。本システムは、この算出結果に従って免許証23の部分画像とその中の記載項目を切り出し、文字認識処理を実行する。
ここで、図4のフローチャートを参照してこの身分証認識システムの概要動作を説明する。
この身分証認識システムの場合、スキャナー2の読み取り台に申込書1がセットされ、走査開始の操作が行われると、スキャナー2は、申込書1の表面を走査してイメージデータを生成しコンピュータ10へ送る。
コンピュータ10では、CPU16は、スキャナー2から受信された申込書1のイメージデータを縦方向に走査して複数の特徴文字「日」を検出し(S101)、各特徴文字の位置関係から、検出した複数の「日」の組み合わせを最適化し(S102)、免許証部分の画像の伸縮率および方向を検出する。
CPU16は、検出した免許証部分の画像の伸縮率(大きさ)および方向(傾きや上下逆さなど)に基づいて免許証の部分画像を切り出し、さらに予め設定された免許証フォーマット13cに従ってその免許証部分の画像から個々の記載項目の画像をさらに切り出して(S103)、個々の項目に対して文字認識処理を実行することで(S104)、申込書1に貼り付けられている免許証23の内容をテキストデータに変換してメモリ13に記憶すると共に、表示部14に表示する。
その後、ユーザーにより操作部11が保存操作あるいは出力操作されると、CPU16は、メモリ13のテキストデータと免許証部分の画像とを対応付けて保存場所または出力先であるハードディスク装置15(データベース)へ保存あるいは出力する。
以下、図5,図6を参照してこの身分証認識システムにおける免許証画像認識処理の詳細について説明する。
免許証画認識処理を行う場合、CPU16は、まず、スキャナー2により読み取られた申込書1の画像を一定方向(縦方向)に走査する(図5のS111)。
そして、CPU16は、画像を走査して得た白ピクセルと黒ピクセルの連続数を計数し(S112)、図4に示すように、その中である着目ライン31において、白ピクセルと黒ピクセルの連続数の比がほぼ黒:白:黒:白:黒=a:b:a:b:aとなる場所を探索し(S113)、「日」という文字があるべき場所(画像領域)を検出する。
次に、CPU16は、検出した場所について、左右に黒ピクセルを追跡し、横方向に連続する黒ピクセルの範囲32を検出する(S114)。
また、CPU16は、横方向に連続する黒ピクセルの範囲32の端部の黒ピクセルから、上下に黒ピクセルを追跡し、縦方向に連続する黒ピクセルの範囲33を検出する(S115)。
そして、CPU16は、検出した黒ピクセルの横方向の範囲32および縦方向の範囲33が、予めメモリ13に設定されている基準文字のサイズである、横1mm×縦2mm以上、横5mm×縦5mm以下という条件を満たしているか否かを判定する(S116)。
この判定の結果、条件を満たしている場合(S116のYes)、CPU16は、検出した横方向の範囲32および縦方向の範囲33内の画像に対して文字認識処理を行い、その文字認識結果が「日」である領域を選出する(S117)。
CPU16は、黒ピクセルと白ピクセルとが連続する数の比がa:b:a:b:aとなる場所がなくなるまで上記処理を繰り返し行う(S118)。つまり、CPU16は、黒ピクセルaと白ピクセルbとの配置比がa:b:a:b:aとなる画像領域から特徴文字を検出する。黒ピクセルaと白ピクセルbとの配置比とはピクセルの並び順とピクセルの数の比をいう。
このように画像から文字を認識する場合、従来は、画像全体の中から全て文字を認識することが一般的に行われていたが、画像全体の文字を全て認識すると、認識する文字が数百〜数千にも及ぶ場合があり、処理速度が著しく低下してしまう。
そこで、本実施形態では、特徴文字の「日」の字体が、線が均等間隔に並ぶことを利用して、白・黒のピクセルの並び方から予め「日」という文字があるらしい範囲を特定し、その特定した範囲だけを文字認識することで、免許証23の特徴的な文字である「日」を極めて高速に検出できる。
CPU16は、上記処理を繰り返すことで、複数の「日」という文字を検出し、それぞれの文字間の距離(間隔)を計算により求め、予めメモリ13に記憶されている各文字間の基準の距離(間隔)とを対比して免許証部分の画像の拡大率または縮小率などの伸縮率を求める。基準の距離は、免許証の実寸でもよく、ある倍率をかけた距離(間隔)でもよい。
CPU16は、免許証部分の画像の伸縮率を求めると、FAX用紙の画像の中から伸縮率に応じた範囲を切り出して免許証部分の画像をメモリ13に一時記憶する。
そして、CPU16は、メモリ13の免許証部分の画像に対して免許証フォーマット13cに従って文字画像を切り出して、個々の文字画像についてそれぞれの位置に応じて標準辞書である第1辞書13aまたは斜線入り文字専用辞書である第2辞書13bを使い分けて文字認識処理を実行し、文字認識結果をメモリ13に記憶する。
CPU16は、この文字認識処理の結果であるテキストデータとメモリ13に一時記憶しておいた免許証23の部分画像とを対応させて、ハードディスク装置15に構築されたデータベースに登録する。
次に、図7を参照して上記免許証認識処理の応用例について説明する。
図7に示すように、「日」という文字は、厳密には、中央から上の部分と下の部分では形が異なっている。この微妙な違いを検出することで、処理をさらに高速化できる。
すなわち、CPU16は、免許証23の特徴的な文字である「日」を認識(検出)した後、「日」という各文字についてそれぞれの上部または下部のパターンを調査し、はみ出し部35を検知する。この処理では、CPU16は、文字の上半分の部分または下半分の部分のどちらに、はみ出し部35があるかを判定する。
そして、CPU16は、文字の上部にはみ出し部35がある「日」の数と、下部にはみ出し部35がある「日」の数を計数し、多い方をもって免許証23の方向(上下)を判定する。つまりCPU16は、検出した「日」という特徴文字の上側部分と下側部分のうち、文字の一部が突出している側の数を計数して、免許証23の画像の向きを判定する。
このように、はみ出し部35の方向を検出して、予め文字の向き(上:正規方向または下:逆方向)を判定しておくことで、複数の「日」という文字を組み合わせ最適化処理で上下を判定する必要がなくなるので、免許証23の認識をより高速に行うことができる。
従来、免許証を専用スキャナーで読み取り、読み取った免許証23の画像から罫線を検出しそれを頼りに免許証を認識していたが、このように罫線を検出する技術の場合、申込書1のコピーやファクシミリ装置でFAX受信される帳票などの場合、罫線が途切れてしまうことが多く、免許証が認識できない場合がしばしば生じる問題があったが、本実施形態の免許証認識システムでは、罫線の代わりに、申込書に貼り付けられた免許証に太く印刷される複数の「日」を検出することで、免許証23の画像をより安定して認識できる。
また、申込書1に免許証が正規方向または正規方向と上下逆の方向(ほぼ0度または180度)に配置された場合にも、免許証23の画像部分についての認識が可能となる。
さらに、初めの縦方向の走査で特徴文字の「日」が検出されなかった場合、続いて、画像を90度回転して、上記免許証画像認識処理を行うことで、正規方向と直交する方向(90度もしくは270度)に配置された免許証23の画像部分についても認識可能となる。
通常、文字認識機能は、文字の画像が±5度程度まで傾いていても、文字を認識することができる。従って、上記実施形態の免許証認識方法によれば、免許証23が0度±5度、90度±5度、180度±5度、270度±5度の範囲で置かれていた場合に認識することが可能となる。通常の申込書であれば、この範囲を対象とすれば、ほとんどの免許証画像を認識できる。
さらに、画像を0度と90度だけでなく、10度、20度…170度のように10度刻みで回転して上記免許証画像認識処理を行えば、10度±5度、20度±5度…170度±5度も対象とすることができ、さらに日が上下反転していても文字認識できる特徴により190度±5度、200度±5度…350度±5度も対象とすることができるから、あらゆる方向に置かれた免許証を認識することが可能となる。
また、従来の方式では、罫線が均等間隔で並んでいることにより、ときどき1行ずれた認識結果が得られる場合があったが、本実施形態では、「日」という文字が画像上に均等に並んでいないため、ずれた認識結果が得られにくいという効果もある。
また、免許証上の特徴文字である「日」は、上下反転しても「日」と認識できるため、他の文字のように180度回転して認識しなくても「日」と検出でき、申込書1の画像から免許証部分の画像を切り出すまでの処理を極めて高速にできる。
続いて、図8乃至図15を参照して免許証画像における記載項目の文字認識処理(ステップS104)の詳細について説明する。
図3に示した申込書の画像1aの中の免許証部分の画像には、氏名、本籍、生年月日、住所、免許交付日、有効年月日などの他に、免許の条件の欄があり、その欄内には免許証番号Mがある。
この例では、例えば図8に示すように、「909811351090」という免許証番号Mが印字されているものとする。この免許証番号Mの部分を文字認識する場合、12桁の番号のうちの中央付近の番号には斜線が入っており、文字認識する上での障害になる。
そこで、本実施形態の場合、CPU16は、1文字毎に切り出した文字画像のうち、背景が白色の文字画像「9」、「0」、「9」、「8」、「1」、「0」、「9」、「0」などと、背景に斜線が描かれている文字画像「1」、「1」、「3」、「5」などとで、異なる画像処理と異なる辞書とで文字認識処理を行う。
CPU16は、白色の文字画像「9」、「0」、「9」、「8」、「1」、「0」、「9」、「0」については、第1辞書13aを参照して文字認識処理を行う。第1辞書13aの作りについては、一般的な文字認識用の辞書と同じであり、ここではその説明は省略する。
また、CPU16は、背景に斜線が描かれている文字画像「1」、「1」、「3」、「5」については、第2辞書13bを参照して文字認識処理を行う。
<免許証番号斜線部専用の辞書>
図9に示すように、第2辞書13bには、予め、「0」から「9」までの数字を右に45度回転させたパターンがテキストデータに対応して登録されている。この第2辞書13bを作成するには、まず、最初に登録するパターンを一定の大きさになるよう縦横に拡大縮小し線形に正規化する。
次に正規化した画像を縦横に格子状に分割し、分割した各マスごとに濃度特徴などを算出して得た特徴量を辞書として登録する。
図9には、数字の例えば「3」を9×9の格子状に分割した場合の例を示す。この場合、特徴量は81次元の特徴ベクトルで表される。CPU16は、切り出した斜線入りの文字画像についてこの第2辞書13bの特徴ベクトルを用いて、複合類似度法などの文字認識手法を用いて文字認識を行う。
<斜線が入った文字画像の処理>
以下、具体的な処理について説明する。
図8で示したように、免許証番号は12桁の数字からなり、真中の4桁部分には右上から左下へ45度の角度で斜線が引かれている。また、免許証番号欄の数字は固定ピッチで印字されている。このようなことを考慮し、免許証フォーマット13cには、文字画像の切り出し位置、範囲および使用辞書の情報が記憶されている。CPU16は、斜線が引かれていない部分から文字のピッチを求める。
これにより、CPU16は、文字ピッチを基に免許証番号部分Mの斜線部分の数字を1桁ずつ順に切り出し、免許証フォーマット13cで指定された辞書を参照して文字認識処理を行う。
CPU16が免許証番号を1文字ずつ順に文字認識を行う中で、例えば図11に示すように、4桁目の斜線入り文字画像「3」を切り出した場合、CPU16は、切り出した文字画像「3」を45度右に回転し(図10のS201)、斜線が水平線になるようにイメージを変換する(図12参照)。
次に、CPU16は、回転した画像に対して斜線の位置を検出する(S202)。
ここで、斜線は回転した画像上でX軸とほぼ平行な黒画素成分の集まり、つまり水平線となっているため、CPU16は、黒画素の水平方向の射影をとるなどの方法で斜線の位置を検出する。
斜線の位置を検出すると、CPU16は、続いてその画像から斜線を除去することで(S203)、図13に示すような間引き画像を得る。
次に、第2辞書13bを作成したときと同じ要領で、斜線を消した文字パターンに対して正規化(画像の大きさを辞書の登録パターンに対比できるようにそろえること)を行った上で特徴ベクトルを求める(S204)。正規化とは辞書の登録パターンの大きさに拡大縮小し線形にすることである。この例のように画像を9×9の格子状に分割した場合、特徴ベクトルは81次元となる。
ここで、斜線が引かれていたマスの特徴は、標準辞書である第1辞書13aの特徴と大きく異なるため、斜線部分の特徴は文字認識の結果に悪影響を与えてしまう。
そこで、CPU16は、第2辞書13bの登録パターンと、整形した画像の入力パターンそれぞれの特徴ベクトルから、斜線が入ったマスを除いたベクトルで第2辞書13bとの比較を行う。
つまり、CPU16は、斜線部分を除去した文字画像の特徴ベクトルと第2辞書13bの特徴ベクトルとを斜線が入ったマスを除いた特徴ベクトルで比較する。
図14に斜線部分を取り除いた特徴ベクトルの例を示す。この図14に示す例では、斜線が入っていたマスは、2、4、7行目の各行P(一行ずつ)であるため、81次元の特徴ベクトルから、3×9マス分の特徴ベクトル、つまり27次元分が取り除かれるため、比較対象が54次元の特徴ベクトルとなる。
このように斜線が入った部分の特徴ベクトルを除去して、それ以外の部分の特徴ベクトルを用いて文字認識を行うことにより(S205)、斜線の影響を排除して文字認識処理を実行できる。
また、文字を回転せずに斜線部分に該当するマスを特徴ベクトルからすべて除去した場合、斜線がかかる領域が多くなり、特徴量のほとんどが認識に使用できなくなる可能性がある。
しかし、45度回転して斜線が水平になるようにしたことで、取り除かれるマスは水平線ごとに横1列、または2列とすることができ、特徴ベクトルの次元数を一定数確保することが可能になるという利点もある。
図15に回転せずに斜線部分の特徴量を除去した例を示す。この図15の例では、斜線で塗りつぶしたマスで示される42マスが、数字の背景の斜線による影響を受けており、文字認識に使用できる特徴量は39次元となってしまい、比較のための情報量が明らかに減るため、認識精度が低下することになる。
このようにこの実施形態の身分証認識システムによれば、予め45度に回転させた文字パターンで斜線入り文字専用の認識辞書(第2辞書3b)を作成および登録しておき、入力パターンを45度回転させ斜線を除去した入力画像から特徴ベクトルを求め、その特徴ベクトルと、第2辞書3bから、斜線位置にある特徴ベクトルを除外した特徴ベクトルとを比較して文字認識を行うことで、免許証番号の斜線が引かれた部分について、その部分がモノクロ画像であったとしてもその部分の文字を認識することができる。
すなわち、斜線入り文字画像に対してはそれ専用の第2辞書13bを参照し、得られた入力画像パターンと第2辞書13bの登録パターンとの両方から、斜線がかかる部分の成分を除いた特徴ベクトルで文字認識を行うことで、斜線が引かれた文字であっても文字認識を行うことができる。
なお、本発明は、上記実施形態のみに限定されるものではない。上記実施形態では、免許証の「日」という文字で説明したが、この他、例えば保険証やパスポートなどでも同様の方法で認識できる。文字は、「日」だけでなく、認識対象の身分証の中に複数存在すれば、例えば「年」、「月」、「号」などを用いても良い。
また、上記実施形態では、文字画像の斜線部分を除去しただけであったが、文字画像内の黒画素成分に数ピクセルずつ肉付けすること、つまり文字を太らせることで特徴ベクトルが減ることを若干でも改善できる。
また上記実施形態では、第2辞書13bには、予め45度に回転させた文字パターンの特徴ベクトルとテキストデータとを対応付けて記憶していたが、斜線部分の特徴ベクトルを除いた状態で特徴ベクトルを記憶しておくことで、文字認識の際に、斜線部分の特徴ベクトルを除く処理を行わずに済む。
この実施形態の身分証認識システムの構成を示す図。 申込書を示す図。 申込書の画像を示す図。 図1の身分証認識システムの概要動作を示すフローチャート。 免許証画像認識処理の詳細を示すフローチャート。 「日」という文字の検出方法を説明するための図。 「日」という文字の上部と下部の形の違いで免許証の向きを判定することを示す図。 免許書番号部分の画像を拡大した図。 免許証番号斜線部専用の第2辞書の登録内容を示す図。 免許証番号の斜線入り文字画像に対する文字認識処理を示すフローチャート。 免許証番号部分より切り出された斜線入りの文字画像「3」を示す図。 文字画像「3」を45°回転させた様子を示す図。 回転させた文字画像「3」から斜線を除去した様子を示す図。 斜線部分を取り除いた特徴ベクトルの例を示す図。 回転せずに斜線部分の特徴ベクトルを除去した場合に特徴ベクトルの情報量が減ってしまう様子を示す図。
符号の説明
1…申込書、2…スキャナー、10…コンピュータ、11…操作部、12…通信I/F、13…メモリ、13a…第1辞書、13b…第2辞書、13c…免許証フォーマット、14…表示部、15…ハードディスク装置、16…CPU。

Claims (4)

  1. 斜線を背景にした文字列が印字された印字面より画像を取得する画像情報取得手段と、
    前記画像情報取得手段により取得された画像の中から、前記斜線を背景にした文字列の
    画像を抽出し、各文字単位に切り出す文字画像切出手段と、
    前記文字画像切出手段により切り出された文字画像を、前記斜線がほぼ水平になる角度に回転する文字画像回転手段と、
    前記文字画像回転手段により回転された文字画像より水平方向に線を構成する黒画素成分を除去する射線処理手段と、
    前記射線処理手段により水平方向に線を構成する黒画素成分が除去された文字画像の特徴ベクトルを抽出する特徴ベクトル抽出手段と、
    予め前記斜線の角度と一致する角度で回転させた状態の基準文字画像の特徴ベクトルとテキストデータとを対応付けた辞書を記憶した辞書記憶部と、
    前記特徴ベクトル抽出手段により抽出された前記文字画像の特徴ベクトルと前記辞書記憶部に記憶された特徴ベクトルとを比較して一致また近似する特徴ベクトルを持つテキストデータを出力する文字認識手段とを具備したことを特徴とする文字認識装置。
  2. 請求項1記載の文字認識装置において、
    前記画像情報取得手段が、
    帳票より画像を取得する帳票画像情報取得手段と、
    前記帳票画像情報取得手段により取得された帳票の画像の中から「年」、「月」、「日」の少なくとも1つの種類の複数の文字を検出する特徴文字検出手段と、
    前記特徴文字検出手段により検出された複数の文字の位置関係と予め設定された身分証の文字の基準位置とに基づいて身分証の画像の伸縮率および・または方向を求め、前記帳票の画像の中から身分証の画像を抽出する画像抽出手段と
    を具備したことを特徴とする請求項1記載の文字認識装置。
  3. 斜線を背景にした文字列が印字された印字面より画像を画像情報取得手段が取得するステップと、
    前記画像情報取得手段により取得された画像の中から、文字画像切出手段が、前記斜線を背景にした文字列の画像を抽出し、各文字単位に切り出すステップと、
    前記文字画像切出手段により切り出された文字画像を、文字画像回転手段が、前記斜線がほぼ水平になる角度に回転するステップと、
    前記文字画像回転手段により回転された文字画像より水平方向に線を構成する黒画素成分を射線処理手段が除去するステップと、
    前記射線処理手段により水平方向に線を構成する黒画素成分が除去された文字画像の特徴ベクトルを特徴ベクトル抽出手段が抽出するステップと、
    予め前記斜線の角度と一致する角度で回転させた状態の基準文字画像の特徴ベクトルとテキストデータとを対応付けた辞書を辞書記憶部に記憶しておき、前記特徴ベクトル抽出手段により抽出された前記文字画像の特徴ベクトルと、前記辞書記憶部に記憶された特徴ベクトルとを文字認識手段が比較して一致また近似する特徴ベクトルを持つテキストデータを出力するステップと
    を有することを特徴とする文字認識方法。
  4. 請求項3記載の文字認識方法において、
    帳票より画像を帳票画像情報取得手段が取得するステップと、
    前記帳票画像情報取得手段により取得された帳票の画像の中から「年」、「月」、「日」の少なくとも1つの種類の複数の文字を特徴文字検出手段が検出するステップと、
    前記特徴文字検出手段により検出された複数の文字の位置関係と予め設定された身分証の文字の基準位置とに基づいて画像抽出手段が身分証の画像の伸縮率および・または方向を求め、前記帳票の画像の中から身分証の画像を抽出するステップと
    を有することを特徴とする請求項3記載の文字認識方法。
JP2007072673A 2007-03-20 2007-03-20 文字認識装置及び文字認識方法 Active JP4594952B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007072673A JP4594952B2 (ja) 2007-03-20 2007-03-20 文字認識装置及び文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007072673A JP4594952B2 (ja) 2007-03-20 2007-03-20 文字認識装置及び文字認識方法

Publications (2)

Publication Number Publication Date
JP2008234291A JP2008234291A (ja) 2008-10-02
JP4594952B2 true JP4594952B2 (ja) 2010-12-08

Family

ID=39906989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007072673A Active JP4594952B2 (ja) 2007-03-20 2007-03-20 文字認識装置及び文字認識方法

Country Status (1)

Country Link
JP (1) JP4594952B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6080259B2 (ja) 2013-02-06 2017-02-15 日本電産サンキョー株式会社 文字切り出し装置及び文字切り出し方法
CN103235946A (zh) * 2013-04-08 2013-08-07 上海合合信息科技发展有限公司 人工识别名片信息的防泄密处理方法
CN104050450A (zh) * 2014-06-16 2014-09-17 西安通瑞新材料开发有限公司 一种基于视频的车牌识别方法
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端
JP6190923B1 (ja) * 2016-06-23 2017-08-30 株式会社ダイナム 会員情報登録支援システム
JP6563084B1 (ja) * 2018-06-22 2019-08-21 株式会社東芝 カード番号認識装置およびカード番号認識方法
JP2021047688A (ja) * 2019-09-19 2021-03-25 株式会社日立情報通信エンジニアリング 帳票認識方法およびプログラム
JP7372633B2 (ja) * 2020-03-31 2023-11-01 ローレルバンクマシン株式会社 紙葉類識別装置および紙葉類識別方法
CN113343970B (zh) * 2021-06-24 2024-03-08 中国平安人寿保险股份有限公司 文本图像检测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0279184A (ja) * 1988-09-16 1990-03-19 Hitachi Ltd 画像情報装置の正常画像判定方法
JPH03113582A (ja) * 1989-09-27 1991-05-14 Oki Electric Ind Co Ltd 文字背景処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0279184A (ja) * 1988-09-16 1990-03-19 Hitachi Ltd 画像情報装置の正常画像判定方法
JPH03113582A (ja) * 1989-09-27 1991-05-14 Oki Electric Ind Co Ltd 文字背景処理装置

Also Published As

Publication number Publication date
JP2008234291A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
JP4594952B2 (ja) 文字認識装置及び文字認識方法
JP5620244B2 (ja) 画像比較および文書認証のための画像位置合わせの方法及びプログラム
US6707466B1 (en) Method and system for form recognition and digitized image processing
US20200065601A1 (en) Method and system for transforming handwritten text to digital ink
US20100158326A1 (en) Signature system, signature device, signature verification device, signature verification method, computer readable medium and computer data signal
JP4557765B2 (ja) 画像処理装置およびその方法
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
US6600482B1 (en) Method and system for form recognition and digitized image processing
US10503993B2 (en) Image processing apparatus
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US11881043B2 (en) Image processing system, image processing method, and program
US9818028B2 (en) Information processing apparatus for obtaining a degree of similarity between elements
CN114283273A (zh) 对照***、对照方法和信息存储介质
JP4309881B2 (ja) 身分証認識装置及び身分証認識方法
JP4474231B2 (ja) 文書リンク情報取得システム
JP2018067096A (ja) 文字認識装置及び文字認識方法
WO2001052519A1 (en) A method and system for form recognition and digitized image processing
US11722615B2 (en) Image processing including adjusting image orientation
EP4379677A1 (en) Image processing system, image processing method, and program
EP4379678A1 (en) Image processing system, image processing method, and program
JP4188344B2 (ja) 指紋照合装置、方法およびプログラム
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP5277750B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP2000339407A (ja) 画像処理装置及び画像処理方法及びコンピュータ読み取り可能な記憶媒体
JP6743401B2 (ja) 帳票設計・読取設定支援装置、帳票設計・読取設定支援方法、及び、光学文字認識システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100521

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4594952

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350