JP2020086847A - 画像処理装置、制御方法及び制御プログラム - Google Patents

画像処理装置、制御方法及び制御プログラム Download PDF

Info

Publication number
JP2020086847A
JP2020086847A JP2018219424A JP2018219424A JP2020086847A JP 2020086847 A JP2020086847 A JP 2020086847A JP 2018219424 A JP2018219424 A JP 2018219424A JP 2018219424 A JP2018219424 A JP 2018219424A JP 2020086847 A JP2020086847 A JP 2020086847A
Authority
JP
Japan
Prior art keywords
image
area
character
predetermined
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018219424A
Other languages
English (en)
Inventor
桂二 小原
Keiji Ohara
桂二 小原
智晃 和田
Tomoaki Wada
智晃 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2018219424A priority Critical patent/JP2020086847A/ja
Priority to US16/424,282 priority patent/US10970579B2/en
Publication of JP2020086847A publication Critical patent/JP2020086847A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/184Extraction of features or characteristics of the image by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

【課題】入力画像から文字をより高精度に検出することを可能とする画像処理装置、制御方法及び制御プログラムを提供する。【解決手段】画像処理装置200は、所定フォーマットに従った画像における所定領域の位置を記憶する記憶部210と、文字認識対象領域を含む入力画像を取得する画像取得部221と、入力画像又は入力画像から生成された画像から文字認識対象領域に対応する領域を切り出して、所定フォーマットに従った画像の所定領域の位置に配置した補正画像を生成する補正画像生成部223と、補正画像から文字を検出する文字検出部224と、検出された文字に関する情報を出力する出力部203と、を有する。【選択図】図5

Description

本発明は、画像処理装置、制御方法及び制御プログラムに関し、特に、入力画像から文字を検出する画像処理装置、制御方法及び制御プログラムに関する。
近年、外国からの旅行者に関する情報を管理するために、スキャナを使用してパスポートを読み取った入力画像から、OCR(Optical Character Recognition)技術を利用して、必要な情報を抽出する技術が利用されている。一般に、スキャナ又はスキャナと接続されるパーソナルコンピュータ等の画像処理装置は、パスポートを読み取った入力画像のMRZ(Machine Readable Zone、機械読み取り範囲)に含まれる文字を認識する。しかしながら、パスポートの種類又はスキャナの読取方法等によっては、パスポートを読み取った入力画像内でMRZに含まれる文字が正しく認識されない場合がある。
ドロップアウトカラーで印刷された文字枠を有する帳票の文字枠内に記載された文字を認識する文字認識装置が開示されている(特許文献1を参照)。この文字認識装置は、非ドロップアウトカラーの画像から文字枠を認識し、認識された文字枠を基にして文字切り出し基準位置を決定し、文字切り出し基準位置を基にしてドロップアウト画像から文字画像を切り出して文字を認識する。
また、スキャナ機器から入力した画像からテキストデータを取得する画像入力装置が開示されている(特許文献2を参照)。この画像入力装置は、予め登録されたOCR領域設定にしたがって切り出した部分領域画像に対して1回目のOCR処理を実行し、部分領域を拡張して2回目のOCR処理を実行し、2回のOCR結果に基づいてテキストデータを取得する。
また、文字列の方向への画像データの水平射影と、垂直方向への画像データの垂直射影を計算することにより、文字の区切り位置を検出する文字列認識装置が開示されている(特許文献3を参照)。
特開2009−69951号公報 特開2008−40598号公報 特開2008−250754号公報
画像処理装置では、入力画像から文字をより高精度に検出することが望まれている。
画像処理装置、制御方法及び制御プログラムの目的は、入力画像から文字をより高精度に検出することを可能とすることにある。
実施形態の一側面に係る画像処理装置は、所定フォーマットに従った画像における所定領域の位置を記憶する記憶部と、文字認識対象領域を含む入力画像を取得する画像取得部と、入力画像又は入力画像から生成された画像から文字認識対象領域に対応する領域を切り出して、所定フォーマットに従った画像の所定領域の位置に配置した補正画像を生成する補正画像生成部と、補正画像から文字を検出する文字検出部と、検出された文字に関する情報を出力する出力部と、を有する。
また、実施形態の一側面に係る制御方法は、記憶部及び出力部を有する画像処理装置の制御方法であって、所定フォーマットに従った画像における所定領域の位置を記憶部に記憶し、文字認識対象領域を含む入力画像を取得し、入力画像又は入力画像から生成された画像から文字認識対象領域に対応する領域を切り出して、所定フォーマットに従った画像の所定領域の位置に配置した補正画像を生成し、補正画像から文字を検出し、検出された文字に関する情報を出力部に出力することを含む。
また、実施形態の一側面に係る制御プログラムは、記憶部及び出力部を有する画像処理装置の制御プログラムであって、所定フォーマットに従った画像における所定領域の位置を記憶部に記憶し、文字認識対象領域を含む入力画像を取得し、入力画像又は入力画像から生成された画像から文字認識対象領域に対応する領域を切り出して、所定フォーマットに従った画像の所定領域の位置に配置した補正画像を生成し、補正画像から文字を検出し、検出された文字に関する情報を出力部に出力することを画像処理装置に実行させる。
本実施形態によれば、画像処理装置、制御方法及び制御プログラムは、入力画像から文字をより高精度に検出することが可能となる。
実施形態に従った画像処理システム1の概略構成を示す図である。 第2記憶装置210及び第2CPU220の概略構成を示す図である。 パスポートのページの一例を示す模式図である。 画像読取処理の動作を示すフローチャートである。 検出処理の動作を示すフローチャートである。 読取画像600の一例を示す模式図である。 入力画像700の一例を示す模式図である。 二値画像800の一例を示す模式図である。 二値画像900の一例を示す模式図である。 回転二値画像1000の一例を示す模式図である。 補正画像1100の一例を示す模式図である。 処理装置230の概略構成を示すブロック図である。
以下、本開示の一側面に係る画像処理装置、制御方法及び制御プログラムについて図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
図1は、実施形態に従った画像処理システムの概略構成を示す図である。図1に示すように、画像処理システム1は、画像読取装置100と、情報処理装置200とを有する。
画像読取装置100は、例えばスキャナ装置等である。画像読取装置100は、フラットベッドタイプのスキャナ装置である。なお、画像読取装置100は、原稿を搬送させて撮像するADF(Auto Document Feeder)タイプのスキャナ装置でもよい。画像読取装置100は、情報処理装置200に接続されている。情報処理装置200は、画像処理装置の一例であり、例えばパーソナルコンピュータ等である。画像処理システム1は、スキャナ装置とパーソナルコンピュータとが一体として組み込まれたキオスク端末等でもよい。
画像読取装置100は、第1インタフェース装置101と、撮像装置102と、第1記憶装置110と、第1CPU(Control Processing Unit)120とを有する。
第1インタフェース装置101は、USB(Universal Serial Bus)等のシリアルバスに準じるインタフェース回路を有し、情報処理装置200と電気的に接続して画像データ及び各種の情報を送受信する。また、第1インタフェース装置101の代わりに、無線信号を送受信するアンテナと、所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路とを有する通信装置が用いられてもよい。所定の通信プロトコルは、例えば無線LAN(Local Area Network)である。
撮像装置102は、主走査方向に直線状に配列されたCCD(Charge Coupled Device)による撮像素子を備える縮小光学系タイプの撮像センサを有する。さらに、撮像装置102は、光を照射する光源と、撮像素子上に像を結ぶレンズと、撮像素子から出力された電気信号を増幅してアナログ/デジタル(A/D)変換するA/D変換器とを有する。撮像装置102において、撮像センサは、原稿の表面を撮像してアナログの画像信号を生成して出力し、A/D変換器は、このアナログの画像信号をA/D変換してデジタルの読取画像を生成して出力する。読取画像は、各画素データが、例えばRGB各色毎に8bitで表される計24bitのR(赤色)値、G(緑色)値、B(青色)値からなるカラー多値画像である。なお、CCDの代わりにCMOS(Complementary Metal Oxide Semiconductor)による撮像素子を備える等倍光学系タイプのCIS(Contact Image Sensor)が用いられてもよい。撮像装置102は、原稿として、例えばパスポート等を撮像する。
第1記憶装置110は、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第1記憶装置110には、画像読取装置100の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、コンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第1記憶装置110にインストールされてもよい。可搬型記録媒体は、例えばCD−ROM(compact disk read only memory)、DVD−ROM(digital versatile disk read only memory)等である。また、第1記憶装置110は、撮像装置102により生成された読取画像等を記憶する。
第1CPU120は、予め第1記憶装置110に記憶されているプログラムに基づいて動作する。なお、第1CPU120に代えて、DSP(digital signal processor)、LSI(large scale integration)等が用いられてよい。また、第1CPU120に代えて、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programming Gate Array)等が用いられてもよい。
第1CPU120は、第1インタフェース装置101、撮像装置102及び第1記憶装置110等と接続され、これらの各部を制御する。第1CPU120は、撮像装置102の原稿読取制御、第1インタフェース装置101を介した情報処理装置200とのデータ送受信制御等を行う。
情報処理装置200は、第2インタフェース装置201と、入力装置202と、表示装置203と、第2記憶装置210と、第2CPU220と、処理装置230とを有する。以下、情報処理装置200の各部について詳細に説明する。
第2インタフェース装置201は、画像読取装置100の第1インタフェース装置101と同様のインタフェース回路を有し、情報処理装置200と画像読取装置100とを接続する。また、第2インタフェース装置201の代わりに、無線信号を送受信するアンテナと、無線LAN等の所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路とを有する通信装置が用いられてもよい。
入力装置202は、キーボード、マウス等の入力装置及び入力装置から信号を取得するインタフェース回路を有し、利用者の操作に応じた信号を第2CPU220に出力する。
表示装置203は、出力部の一例である。表示装置203は、液晶、有機EL等から構成されるディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有し、第2記憶装置210と接続されて第2記憶装置210に保存されている画像データをディスプレイに表示する。
第2記憶装置210は、画像読取装置100の第1記憶装置110と同様のメモリ装置、固定ディスク装置、可搬用の記憶装置等を有する。第2記憶装置210には、情報処理装置200の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、例えばCD−ROM、DVD−ROM等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて第2記憶装置210にインストールされてもよい。また、第2記憶装置210は、画像読取装置100から受信した読取画像、及び、処理装置230により読取画像に対して画像処理がなされた各種の処理画像等を記憶する。また、第2記憶装置210は、所定フォーマットに従った画像における一又は複数の所定領域の位置を記憶する。所定領域の詳細については後述する。
第2CPU220は、予め第2記憶装置210に記憶されているプログラムに基づいて動作する。なお、第2CPU220に代えて、DSP、LSI、ASIC、FPGA等が用いられてもよい。
第2CPU220は、第2インタフェース装置201、入力装置202、表示装置203、第2記憶装置210及び処理装置230等と接続され、これらの各部を制御する。第2CPU220は、第2インタフェース装置201を介した画像読取装置100とのデータ送受信制御、入力装置202の入力制御、表示装置203の表示制御、処理装置230による画像処理の制御等を行う。また、第2CPU220は、読取画像から補正画像を生成し、補正画像から文字を検出する。
処理装置230は、読取画像に対して所定の画像処理を実行する。処理装置230は、CPU、DSP、LSI、ASIC又はFPGA等で構成される。
図2は、第2記憶装置210及び第2CPU220の概略構成を示す図である。
図2に示すように第2記憶装置210には、画像取得プログラム211、領域検出プログラム212、補正画像生成プログラム213、文字検出プログラム214及び出力制御プログラム215等の各プログラムが記憶される。これらの各プログラムは、プロセッサ上で動作するソフトウェアにより実装される機能モジュールである。第2CPU220は、第2記憶装置210に記憶された各プログラムを読み取り、読み取った各プログラムに従って動作する。これにより、第2CPU220は、画像取得部221、領域検出部222、補正画像生成部223、文字検出部224及び出力制御部225として機能する。
図3は、撮像装置102が原稿として撮像するパスポートのページの一例を示す模式図である。
図3に示すように、撮像装置102により撮像されるパスポートのページ300には、型、発行国、旅券番号、姓名、国籍、生年月日、性別、本籍、発行年月日、有効期間満了日、写真等の各情報が含まれる。また、このページ300には、MRZ301及び302等が含まれる。MRZ301及び302は機械読み取り範囲であり、MRZ301及び302には上記の各情報を集約した情報が示される。
パスポートのフォーマット、特にMRZの位置及びMRZに示される情報は、ICAO(International Civil Aviation Organization、国際民間航空機関)により規定されている。MRZは、パスポートの下端に隣接し、且つ、パスポートの綴じ目部と平行な方向(図3の水平方向H)に延伸する領域Rに位置する。領域Rは、パスポートの下端から23.2mm±1.0mmの範囲に規定されている。領域Rには、MRZ301に対応する上側領域と、MRZ302に対応する下側領域とが含まれる。各領域の水平方向Hの最大長さは114.0mmに規定され、垂直方向Vの最大長さは4.3mmに規定されている。水平方向Hにおける各領域の左端からパスポートの左端までの距離、及び、各領域の右端からパスポートの右端までの距離は6.0mm±1.0mmに規定されている。垂直方向Vにおける下側領域の中央位置からパスポートの下端までの距離は9.40mmに規定され、上側領域の中央位置から下側領域の中央位置までの距離は6.35mmに規定されている。
第2記憶装置210は、パスポートを撮像した画像におけるMRZの位置を、所定フォーマットに従った画像における所定領域の位置として記憶する。パスポートのフォーマットは所定フォーマットの一例であり、MRZは所定領域の一例である。なお、各国のパスポートは、原則として、ICAOにより規定されたフォーマットに従っているが、パスポートのサイズ、及び、MRZを含む各情報のパスポート内の位置(レイアウト)等は、国毎にわずかに異なる場合がある。
図4は、画像読取装置100による画像読取処理の動作を示すフローチャートである。以下、図4に示したフローチャートを参照しつつ、画像読取処理の動作を説明する。なお、以下に説明する動作のフローは、予め第1記憶装置110に記憶されているプログラムに基づき主に第1CPU120により画像読取装置100の各要素と協働して実行される。
最初に、撮像装置102は、パスポート等の文字を検出する対象である原稿を撮像した読取画像を生成し、第1記憶装置110に保存する(ステップS101)。
次に、第1CPU120は、第1記憶装置110に保存された読取画像を第1インタフェース装置101を介して情報処理装置200に送信し(ステップS102)、一連のステップを終了する。
図5は、情報処理装置200による検出処理の動作を示すフローチャートである。以下、図5に示したフローチャートを参照しつつ、検出処理の動作を説明する。なお、以下に説明する動作のフローは、予め第2記憶装置210に記憶されているプログラムに基づき主に処理装置230により情報処理装置200の各要素と協同して実行される。
最初に、画像取得部221は、読取画像を第2インタフェース装置201を介して画像読取装置100から取得し、取得した読取画像から入力画像を生成し、第2記憶装置210に保存する(ステップS201)。読取画像には、それぞれ検出対象である文字が示される一又は複数の文字認識対象領域が含まれる。
図6は、読取画像600の一例を示す模式図である。
図6に示すように、読取画像600には、MRZ602及びMRZ603が記載されたページ604が開かれたパスポート601が写っている。この例では、MRZ602及びMRZ603内の文字が、それぞれ情報処理装置200による検出対象であり、MRZ602及びMRZ603が、それぞれ文字認識対象領域である。読取画像600では、パスポート601においてページ604がずれてしまい、背表紙605に対して傾いた状態で撮像されている。そのため、MRZ602及びMRZ603は、読取画像600内の水平方向Hに対して傾いている。また、読取画像600では、画像読取装置100におけるパスポート601の搬送速度のムラにより、MRZ602とMRZ603の間の距離Dが短くなっている。このような読取画像600に対して、OCR処理を実行し、MRZ602及びMRZ603から文字を検出しようとすると、正しく文字が検出されない可能性がある。
画像取得部221は、読取画像から水平方向(主走査方向)、垂直方向(副走査方向)のそれぞれについてエッジ画素を抽出し、水平方向、垂直方向のそれぞれについてエッジ画素からなるエッジ画像を生成する。画像取得部221は、読取画像内の画素の水平方向の両隣の画素の輝度値の差の絶対値(以下、隣接差分値と称する)を算出し、隣接差分値が閾値Th1を越える場合、その読取画像上の画素を垂直エッジ画素として抽出する。この閾値Th1は、例えば、人が画像上の輝度の違いを目視により判別可能な輝度値の差(例えば20)に設定することができる。画像取得部221は、垂直方向にも同様の処理を行い、水平エッジ画素を抽出する。
なお、画像取得部221は、読取画像内の画素の水平又は垂直方向の所定距離だけ離れた画素の輝度値の差の絶対値を隣接差分値として算出してもよい。また、画像取得部221は、各画素の輝度値に代えて、各画素の色値(R値、G値又はB値)を用いて隣接差分値を算出してもよい。また、画像取得部221は、読取画像の輝度値又は色値を閾値と比較することによりエッジ画素を抽出してもよい。例えば、画像取得部221は、特定の画素の輝度値又は色値が閾値未満であり、その特定の画素に隣接する画素又はその特定の画素から所定距離だけ離れた画素の輝度値又は色値が閾値以上である場合、その特定の画素をエッジ画素とする。
次に、画像取得部221は、水平方向、垂直方向の各エッジ画像から複数の直線を抽出する。画像取得部221は、ハフ変換を用いて直線を検出する。なお、画像取得部221は、最小二乗法を用いて直線を検出してもよい。また、画像取得部221は、各エッジ画像内で相互に隣接するエッジ画素をラベリングにより一つのグループとしてまとめ、各グループの水平方向又は垂直方向における両端に位置する二つのエッジ画素を結んだ近似直線を直線として検出してもよい。
次に、画像取得部221は、検出した複数の直線から矩形を検出する。画像取得部221は、検出した複数の直線のうち二本ずつが略直交する四本の直線から構成される複数の矩形候補を抽出する。画像取得部221は、まず水平方向の直線(以下、第1の水平線と称する)を一つ選択し、選択した直線と略平行(例えば±3°以内)かつ閾値Th2以上離れた水平方向の直線(以下、第2の水平線と称する)を抽出する。次に、画像取得部221は、第1の水平線と略直交する(例えば90°に対して±3°以内)垂直方向の直線(以下、第1の垂直線と称する)を抽出する。次に、画像取得部221は、第1の水平線と略直交し、かつ第1の垂直線と閾値Th3以上離れた垂直方向の直線(以下、第2の垂直線と称する)を抽出する。なお、閾値Th2及び閾値Th3は、画像読取装置100の読取りの対象となる原稿のサイズに応じて予め定められ、同じ値としてもよい。
画像取得部221は、抽出した全ての直線について、上記の条件を満たす第1の水平線、第2の水平線、第1の垂直線及び第2の垂直線の全ての組合せを抽出し、抽出した各組合せから構成される矩形を矩形候補として抽出する。画像取得部221は、抽出した矩形候補の中で最も面積が大きい矩形候補を矩形として検出し、読取画像から検出した矩形を切出して切出し画像を生成する。
次に、画像取得部221は、切出し画像内の各画素毎に、以下の式に従って輝度値を算出し、算出した輝度値を各画素に対応する画素の階調値とする白黒多値画像を生成し、入力画像として取得する。このようにして生成された入力画像にも、読取画像に含まれていた文字認識対象領域が含まれる。なお、撮像装置102は、読取画像として白黒多値画像を生成してもよい。その場合、画像取得部221は、切出し画像を入力画像として取得する。
輝度値=0.299×(R値)+0.587×(G値)+0.114×(B値)
図7は、入力画像700の一例を示す模式図である。
図7に示す入力画像700は、図6に示す読取画像600から生成された入力画像である。入力画像700には、図6に示すパスポート601の上辺、左辺及び下辺にそれぞれ対応する直線702、703及び704と、右上端と右下端を結んだ近似直線705とからなる矩形701が含まれている。
次に、領域検出部222は、入力画像を二値化した二値画像を生成する(ステップS202)。領域検出部222は、入力画像内で階調値が二値化閾値以上である画素を白色画素とし、階調値が二値化閾値未満である画素を黒色画素とした画像を二値画像として生成する。二値化閾値は、事前の実験により、一般的な背景を形成する画素の階調値と文字を形成する画素の階調値の間の値に設定される。これにより、二値画像では、入力画像内の文字に対応する画素が黒色画素となり、背景に対応する画素が白色画素となる。
図8は、二値画像800の一例を示す模式図である。
図8に示す二値画像800は、図7に示す入力画像700から生成された二値画像である。図8に示すように、二値画像800では、図7に示す入力画像700内の文字に対応する画素が黒色画素に変換され、背景に対応する画素が白色画素に変換されている。但し、二値画像800では、写真801、下線802、パスポートの外枠803、804等に対応する画素も黒色画素に変換されている。
次に、領域検出部222は、二値画像において、ノイズ成分と、写真、下線又は外枠等の非文字成分とを除去する(ステップS203)。
領域検出部222は、二値画像内で相互に隣接する黒色画素をラベリングにより一つのグループとしてまとめ、二値画像内で黒色画素が連結する連結領域を特定する。領域検出部222は、特定した各連結領域の内、水平方向の長さ及び垂直方向の長さが文字下限値未満である連結領域をノイズ成分として抽出する。また、領域検出部222は、特定した各連結領域の内、水平方向の長さ又は垂直方向の長さが文字上限値以上である連結領域を非文字成分として抽出する。文字下限値は、読取対象とする原稿で使用される文字の水平及び垂直方向の最小の長さに相当する画像上の長さに設定され、文字上限値は、読取対象とする原稿で使用される文字の水平及び垂直方向の最大の長さに相当する画像上の長さに設定される。領域検出部222は、二値画像において、ノイズ成分として抽出した領域、及び、非文字成分として抽出した領域(黒色画素)を白色画素に変換する。
図9は、ノイズ成分及び非文字成分が除去された二値画像900の一例を示す模式図である。
図9に示す二値画像900は、図8に示す二値画像800においてノイズ成分及び非文字成分が除去された画像である。図9に示すように、二値画像900では、図8に示す写真801、下線802、パスポートの外枠803、804等に対応する画素が白色画素に変換されている。
領域検出部222は、二値画像からノイズ成分及び非文字成分を除去することにより、後述する処理において、二値画像内の文字の分布をより正確に検出することができる。
次に、領域検出部222は、入力画像に含まれる原稿の傾きを検出する(ステップS204)。
領域検出部222は、ノイズ成分及び非文字成分が除去された二値画像において、除去されずに残った各連結領域の外接矩形を文字領域として抽出する。領域検出部222は、所定方向(例えば水平方向)において相互に所定距離内に位置し且つ所定方向と直交する方向(例えば垂直方向)において相互に離間している文字領域同士を文字列に対応するグループとしてまとめる。領域検出部222は、二値画像を所定角度(例えば+1°及び−1°)ずつ回転させたときの各グループの外接矩形の面積の総和を算出し、算出した総和が最小となる角度を正負反転した角度を、入力画像に含まれる原稿の傾きとして検出する。
図9に示す二値画像900では、二値画像900を+α°だけ回転させたときに、各文字列が水平方向に沿って並ぶため、各グループの外接矩形の面積の総和が最小となる。そのため、+α°を正負反転した−α°が入力画像に含まれる原稿の傾きとして検出される。
なお、領域検出部222は、二値画像を所定角度ずつ回転させたときの各グループの外接矩形の幅(短手方向の長さ)の総和を算出し、算出した総和が最小となる角度を正負反転した角度を、入力画像に含まれる原稿の傾きとして検出してもよい。または、領域検出部222は、二値画像を所定角度ずつ回転させたときの各グループの外接矩形から、公知のOCR(Optical Character Recognition)技術を利用して文字を検出し、検出した各文字の確信度を算出する。確信度は、検出した文字について、予め設定された画像パターンと、二値画像内の画像パターンの一致度合いであり、例えば正規化相互相関等である。領域検出部222は、検出した各文字の確信度の総和を算出し、算出した総和が最大となる角度を正負反転した角度を、入力画像に含まれる原稿の傾きとして検出してもよい。
次に、領域検出部222は、検出した傾きに基づいて入力画像を回転させた回転画像を生成する(ステップS205)。領域検出部222は、原稿の傾きが0になるように、入力画像を回転させることにより、回転画像を生成する。なお、領域検出部222は、生成した回転画像に対して所定のアンチエイリアス処理を実行してもよい。これにより、回転画像内のジャギー(ピクセルのギザギザ)が軽減する。
図9に示す例では、領域検出部222は、二値画像を回転させたときに各グループの外接矩形の面積又は幅の総和が最小となる角度(+α°)だけ入力画像を回転させる(入力画像内の各画素の位置を変換する)ことにより、回転画像を生成する。
次に、領域検出部222は、回転画像を二値化した回転二値画像を生成する(ステップS206)。領域検出部222は、回転画像内で階調値が二値化閾値以上である画素を白色画素とし、階調値が二値化閾値未満である画素を黒色画素とした画像を二値画像として生成する。また、領域検出部222は、ステップS203の処理と同様にして、回転二値画像からノイズ成分及び非文字成分を除去する。
なお、領域検出部222は、ステップS205及びS206の処理の代わりに、ステップS204で検出した傾きに基づいて、二値画像を回転させることにより回転二値画像を生成してもよい。領域検出部222は、入力画像を回転させた回転画像に基づいて回転二値画像を生成することにより、ジャギーを軽減させた回転二値画像を生成することができる。一方、領域検出部222は、二値画像を回転させて回転二値画像を生成することにより、回転二値画像の生成処理の処理時間を短縮でき、検出処理における処理負荷を軽減することができる。
図10は、回転二値画像1000の一例を示す模式図である。
図10に示す回転二値画像1000は、図7に示す入力画像700から生成された回転二値画像である。図10に示すように、回転二値画像1000では、MRZ1001及びMRZ1002が水平方向Hに延伸するように、入力画像700(又は図9に示す二値画像900)に対して原稿が回転している。
次に、領域検出部222は、回転二値画像内で、所定方向に延伸する複数のライン毎に、各ラインにおける黒色画素数を算出する。ラインとは、画像内で特定の方向に並ぶ画素群のことを意味する。領域検出部222は、各ライン(所定方向と直交する方向における各ラインの座標)を階級とし、各ラインの黒色画素数を度数とする水平ヒストグラムを生成する(ステップS207)。所定方向は、回転二値画像における水平方向、即ちステップS206で入力画像において検出した原稿が傾いている方向である。
図10のグラフ1010は、回転二値画像1000に示される原稿の水平ヒストグラムを示す。図10に示すように、回転二値画像1000では、各文字列は水平方向Hに沿って並んでいる。そのため、文字が存在するライン上には多数の文字が存在し、黒色画素数が多くなり、他のライン上には文字が全く存在せず、黒色画素数が少なくなっている。
次に、領域検出部222は、所定方向に延伸する複数のライン毎に算出した黒色画素数に基づいて、入力画像内の文字認識対象領域候補を検出する(ステップS208)。領域検出部222は、水平ヒストグラムを参照して、入力画像内で、第2記憶装置210に記憶された所定領域の位置に対応する領域を抽出し、文字認識対象領域候補として検出する。領域検出部222は、文字認識対象領域候補が検出されなかった場合、入力画像内に文字認識対象領域が存在しないと判定する。
例えば、所定領域がMRZである場合、領域検出部222は、水平方向に延伸する水平ラインが垂直方向に連続するグループを抽出する。領域検出部222は、回転二値画像の下端側から順に水平ヒストグラムを走査し、各水平ライン内の全画素数に対する黒色画素数の割合が所定割合以上である水平ラインが第1所定数以上連続するグループを抽出する。所定割合は、事前の実験により、MRZを含む各水平ライン内の全画素数に対する黒色画素数の割合の最小値に設定される。第1所定数は、事前の実験により、MRZの上側領域及び下側領域の垂直方向の最小の長さ(例えば2mm)に相当する画素数に設定される。
領域検出部222は、回転二値画像の下端側から一番目及び二番目に抽出した各グループの垂直方向の中央位置から所定距離内の領域に対応する入力画像内の領域を、それぞれ文字認識対象領域候補として検出する。所定距離は、MRZの上側領域及び下側領域の垂直方向の最大長さの1/2に所定のマージンを加算した値に相当する画素数に設定される。一方、領域検出部222は、二つのグループが抽出されなかった場合、入力画像内に文字認識対象領域(MRZ)が存在しないと判定する。
なお、文字認識対象領域候補の検出範囲は、第2記憶装置210に記憶された所定領域の位置に基づいて設定されてもよい。例えば、検出範囲の下端は、垂直方向におけるMRZの下側領域の中央位置に相当する位置から、パスポートの下端側に向かって、下側領域の垂直方向の最大長さの1/2に相当する画素数に所定のマージンを加算した画素数だけ離れた位置に設定される。また、検出範囲の上端は、MRZが配置される領域Rの上端に相当する位置から、パスポートの上端側に向かって、所定のマージンだけ離れた位置に設定される。領域検出部222は、文字認識対象領域候補の検出範囲を限定することにより、図10に示す文様1003及び1004のようなMRZ以外の要素の影響によって、文字認識対象領域候補を誤って検出することを防止できる。
次に、領域検出部222は、回転二値画像内で、所定方向と直交する方向に延伸する複数のライン毎に、各ラインにおける黒色画素数を算出する。領域検出部222は、各ライン(所定方向における各ラインの座標)を階級とし、各ラインの黒色画素数を度数とする垂直ヒストグラムを生成する(ステップS209)。所定方向は、回転二値画像における垂直方向、即ちステップS204で入力画像において検出した原稿が傾いている方向と直交する方向である。
なお、領域検出部222は、各ラインの黒色画素数として、各ラインにおける黒色画素の内、回転二値画像内で文字認識対象領域候補として検出した領域内の黒色画素の数を算出してもよい。また、所定領域がMRZである場合、領域検出部222は、各ラインの黒色画素数として、回転二値画像において文字認識対象領域候補として検出した二つの領域及びその二つの領域に挟まれた領域を含む領域内の黒色画素の数を算出してもよい。
図10のグラフ1020は、回転二値画像1000に示される原稿の垂直ヒストグラムを示す。図10の例では、MRZ1001に対応する領域と、MRZ1002に対応する領域と、MRZ1001に対応する領域及びMRZ1002に対応する領域に挟まれた領域1005とを含む領域1006内の黒色画素数が算出される。図10に示すように、MRZが存在する垂直ライン上には多数の文字が存在し、黒色画素数が多くなり、他の垂直ライン上には文字が存在せず、黒色画素数が少なくなっている。
次に、領域検出部222は、所定方向と直交する方向に延伸する複数のライン毎に算出した黒色画素数に基づいて、入力画像内の文字認識対象領域を検出する(ステップS210)。領域検出部222は、垂直ヒストグラムを参照して、入力画像内で、第2記憶装置210に記憶された所定領域の位置に対応する領域を抽出し、文字認識対象領域として検出する。
例えば、所定領域がMRZである場合、領域検出部222は、回転二値画像の左端側から順に垂直ヒストグラムを走査し、黒色画素数が所定画素数以上である垂直ラインが第2所定数以上連続する第1グループを抽出する。所定画素数は、例えば1に設定される。第2所定数は、事前の実験により、MRZ内の一文字の水平方向の長さ(例えば0.5mm)に相当する画素数に設定される。なお、所定領域がパスポートのMRZである場合、上側領域の左端に位置する文字(P)は定まっているので、第2所定数は、MRZ内の文字Pの水平方向の長さ(例えば1.0mm)に相当する画素数に設定されてもよい。
次に、領域検出部222は、回転二値画像の右端側から順に垂直ヒストグラムを走査し、黒色画素数が所定画素数以上である垂直ラインが第3所定数以上連続する第2グループを抽出する。第3所定数は、事前の実験により、MRZ内の一文字の水平方向の長さ(例えば0.5mm)に相当する画素数に設定される。このように、領域検出部222は、黒色画素数が所定画素数以上である垂直ラインが第2又は第3所定数以上連続するグループを抽出することにより、孤立点等のノイズを含まないように各グループを抽出することができる。
領域検出部222は、第1グループの左端から第2グループの右端までの距離が下限値以上且つ上限値以下である場合、第1グループの左端と第2グループの右端の間の中央位置から所定距離内の領域に対応する入力画像内の領域を文字認識対象領域として検出する。下限値は、MRZの上側領域及び下側領域の水平方向の最大長さに相当する画素数から所定のマージンを減算した画素数に設定され、上限値は、その最大長さに相当する画素数に所定のマージンを加算した画素数に設定される。所定距離は、MRZの上側領域及び下側領域の水平方向の最大長さの1/2に相当する画素数に所定のマージンを加算した画素数に設定される。
一方、領域検出部222は、第1グループの左端から第2グループの右端までの距離が下限値未満である場合、入力画像内に文字認識対象領域(MRZ)が存在しないと判定する。また、領域検出部222は、第1グループの左端から第2グループの右端までの距離が上限値より大きい場合、第1グループの左端から第2グループの右端までの距離が下限値以上且つ上限値以下になるまで、第1グループ又は第2グループを再抽出する。領域検出部222は、第1グループの左端から右方向に垂直ヒストグラムを再走査し、黒色画素数が0である垂直ラインを挟んで、黒色画素数が所定画素数以上である垂直ラインが第2所定数以上連続するグループを新たな第1グループとして抽出する。または、領域検出部222は、第2グループの右端から左方向に垂直ヒストグラムを再走査し、黒色画素数が0である垂直ラインを挟んで、黒色画素数が所定画素数以上である垂直ラインが第3所定数以上連続するグループを新たな第2グループとして抽出する。
なお、第1グループ及び第2グループの抽出範囲は、第2記憶装置210に記憶された所定領域の位置に基づいて設定されてもよい。例えば、抽出範囲の左端は、水平方向におけるMRZの左端に相当する位置から、画像の左端側に、所定のマージンだけ離れた位置に設定される。また、検出範囲の右端は、水平方向におけるMRZの右端に相当する位置から、画像の右端側に、所定のマージンだけ離れた位置に設定される。領域検出部222は、第1グループ及び第2グループの抽出範囲を限定することにより、図10に示す文様1003及び1004のようなMRZ以外の要素の影響によって、文字認識対象領域を誤って検出することを防止できる。
このように、領域検出部222は、入力画像に含まれる原稿の傾きに基づいて入力画像を回転させた回転画像に基づいて、文字認識対象領域を検出する。これにより、領域検出部222は、入力画像内で文字認識対象領域が傾いていても、文字認識対象領域を良好に検出することができる。
上記したように、各国のパスポートは、原則として、ICAOにより規定されたフォーマットに従っているが、パスポートのサイズ、及び、MRZを含む各情報のパスポート内の位置等は、国毎にわずかに異なる場合がある。領域検出部222は、回転二値画像内の黒色画素数の分散状態に基づいて文字認識対象領域を検出することにより、様々な国のパスポートに対して、文字認識対象領域を正しく検出することができる。
特に、パスポートによっては、MRZが記載されたページよりパスポートの背表紙の方が大きく、MRZが記載されたページの周辺に写る背表紙が入力画像に含まれる場合がある。また、ICAOにより規定された規格に準拠していない国のパスポートでは、そもそも規定された位置にMRZが記載されていない可能性がある。また、クロッピング処理が何らかの理由で失敗して、原稿の背景色と異なる色を有する裏当てが入力画像に含まれる場合がある。これらの場合、入力画像内の期待される位置に文字認識対象領域が存在しない可能性がある。領域検出部222は、回転二値画像内の黒色画素数の分散状態に基づいて文字認識対象領域を検出することにより、入力画像内の期待した位置に文字認識対象領域が存在しない場合でも、文字認識対象領域を良好に検出することができる。
また、領域検出部222は、第2記憶装置に記憶された位置に対して所定のマージンをもって、文字認識対象領域候補及び文字認識対象領域を検出する。これにより、領域検出部222は、二値化処理又はノイズ除去処理等によって文字の一部が除去されてしまった場合でも、文字認識対象領域全体を良好に検出することができる。
入力画像内で文字認識対象領域が検出された場合、補正画像生成部223は、回転二値画像から文字認識対象領域に対応する領域を切り出して、所定フォーマットに従った画像の所定領域の位置に配置した補正画像を生成する(ステップS211)。回転二値画像は、入力画像から生成された画像の一例である。補正画像生成部223は、回転二値画像において、入力画像内の文字認識対象領域に対応する領域を特定し、特定した領域を、第2記憶装置210に記憶された、所定フォーマットに従った画像における所定領域の位置に配置することにより、補正画像を生成する。
なお、補正画像生成部223は、文字認識対象領域の大きさと、所定領域の大きさとが異なる場合、文字認識対象領域が補正画像内の所定領域の位置に配置されるように、文字認識対象領域を拡大又は縮小する。補正画像生成部223は、文字認識対象領域を拡大する場合、線形補間等の公知の補間処理を用いて、文字認識対象領域を引き伸ばすことにより拡大する。なお、補正画像生成部223は、ニアレストネイバー法、バイリニア法等の他の補間処理を用いて、文字認識対象領域を引き伸ばすことにより拡大してもよい。また、補正画像生成部223は、文字認識対象領域を縮小する場合、文字認識対象領域を間引くことにより縮小する。補正画像生成部223は、文字認識対象領域を拡大又は縮小することにより、補正画像内に適切な態様で文字認識対象領域を配置することができる。
図11は、補正画像1100の一例を示す模式図である。
図11に示す補正画像1100は、図10に示す回転二値画像1000から生成された補正画像である。図11に示すように、補正画像1100では、MRZに対応する文字認識対象領域1101及び1102が、MRZに対して規定された位置(領域)に配置され、他のコンテンツは全く配置されていない。
次に、文字検出部224は、補正画像から文字を検出する(ステップS212)。文字検出部224は、公知のOCR技術を利用して、補正画像から文字を検出する。なお、入力画像内で文字認識対象領域が検出されなかった場合、文字検出部224は、回転二値画像から文字を検出する。または、その場合、文字検出部224は、二値画像から文字を検出してもよい。
上記したように、補正画像において、MRZに対応する文字認識対象領域は、MRZに対して規定された適切な位置に配置されている。そのため、MRZ内の文字同士が近接し過ぎて、文字が誤って検出されることが防止される。また、補正画像において、MRZに対応する文字認識対象領域以外のコンテンツは、全く配置されていない。そのため、MRZ以外のコンテンツの影響を受けて、MRZ内の文字が誤って検出されることが防止される。
次に、出力制御部225は、検出された文字を表示装置203に表示し(ステップS213)、一連のステップを終了する。なお、出力制御部225は、検出された文字に関する情報として、検出された文字に代えて又は加えて、補正画像を表示装置203に表示してもよい。また、出力制御部225は、検出された文字又は補正画像を不図示の通信装置を介して不図示のサーバ等に送信してもよい。このように、出力制御部225は、検出された文字に関する情報を出力する。
なお、ステップS211において、補正画像生成部223は、入力画像から文字認識対象領域を切り出して、所定領域の位置に配置した補正画像を生成してもよい。その場合、補正画像生成部223は、ステップS204で検出された傾きに基づいて文字認識対象領域を回転させて所定領域の位置に配置する。また、ステップS212において、文字検出部224は、多値画像である補正画像から文字を検出する。なお、補正画像生成部223は、入力画像から切り出された文字認識対象領域が配置された補正画像を二値化し、文字検出部224は、二値画像である補正画像から文字を検出してもよい。
また、ステップS203を省略し、領域検出部222は、二値画像においてノイズ成分及び非文字成分を除去せずに文字認識対象領域を検出してもよい。また、ステップS204〜S206を省略し、領域検出部222は、二値画像から文字認識対象領域を検出してもよい。
また、ステップS204において、領域検出部222は、二値画像でなく、エッジ画像から原稿の傾きを検出してもよい。その場合、領域検出部222は、入力画像からエッジ画素を抽出し、エッジ画素からなるエッジ画像を生成する。領域検出部222は、エッジ画像内で相互に隣接するエッジ画素をラベリングにより一つのグループとしてまとめ、エッジ画像内でエッジ画素が連結する領域を連結領域として特定する。そして、領域検出部222は、二値画像内の連結領域から原稿の傾きを検出する場合と同様にして、エッジ画像内の連結領域から原稿の傾きを検出する。
同様に、ステップS207〜S210において、領域検出部222は、二値画像でなく、エッジ画像から文字認識領域を検出してもよい。その場合、領域検出部222は、エッジ画像内で、所定方向に延伸する複数のライン毎に、各ラインにおけるエッジ画素数を算出し、各ラインを階級とし、各ラインの黒色画素数を度数とする水平ヒストグラムを生成する。また、領域検出部222は、エッジ画像内で、所定方向と直交する方向に延伸する複数のライン毎に、各ラインにおけるエッジ画素数を算出し、各ラインを階級とし、各ラインの黒色画素数を度数とする垂直ヒストグラムを生成する。
また、ステップS207〜S210において、領域検出部222は、各ラインの黒色画素数に基づいて文字認識領域を検出するのでなく、他の方法により文字認識領域を検出してもよい。例えば、領域検出部222は、回転二値画像内で相互に隣接する黒色画素をラベリングにより一つのグループとしてまとめ、回転二値画像内で黒色画素が連結する連結領域の外接矩形を文字領域として抽出する。領域検出部222は、所定方向(例えば水平方向)において相互に所定距離内に位置し且つ所定方向と直交する方向(例えば垂直方向)において相互に離間している文字領域同士を文字列に対応するグループとしてまとめる。領域検出部222は、各グループの外接矩形を文字認識対象領域候補として検出する。そして、領域検出部222は、最も下側に位置する文字認識対象領域候補と、次に下側に位置する文字認識対象領域候補とを文字認識対象領域として検出する。
また、ステップS207〜S210において、領域検出部222は、第2記憶装置210に記憶された領域の位置に基づいて文字認識対象領域を検出するのでなく、画像内の特徴に基づいて文字認識対象領域を検出してもよい。その場合、第2記憶装置210には、画像内の特徴として、文字認識対象領域の幅もしくは高さ、又は、文字認識対象領域内の行数もしくは各行の間の距離(行間距離)等の情報が設定される。領域検出部222は、二値画像において相互に隣接する黒色画素をラベリングにより一つのグループとしてまとめ、相互に所定距離内に位置するグループを結合して、文字認識対象領域候補として検出する。
領域検出部222は、検出した文字認識対象領域候補毎に、幅、高さ、行数及び/又は行間距離を特定し、特定した各情報と第2記憶装置210に設定された各情報との一致度合いに基づいて、文字認識対象領域を検出する。領域検出部222は、特定した各情報と第2記憶装置210に設定された各情報との差が小さい程、高くなるように一致度合いを算出し、一致度合いが高い順に所定数の文字認識対象領域候補を文字認識対象領域として検出する。なお、領域検出部222は、情報毎に重みを異ならせて一致度合いを算出してもよい。また、領域検出部222は、特定の情報(例えば行数)について、特定した情報と第2記憶装置210に設定された情報とが一致しない場合、文字認識対象領域として検出しないようにしてもよい。
また、ステップS211において、補正画像生成部223は、補正画像において、文字認識対象領域に対応する領域を、パスポートを撮像した画像におけるMRZの位置に配置する代わりに、他の領域の位置に配置してもよい。例えば、補正画像生成部223は、補正画像において、文字認識対象領域に対応する領域を、健康保険被保険者証を撮像した画像における被保険者番号、氏名等の位置に配置してもよい。また、補正画像生成部223は、補正画像において、文字認識対象領域に対応する領域を、運転免許証を撮像した画像における番号、氏名等の位置に配置してもよい。また、補正画像生成部223は、補正画像において、文字認識対象領域に対応する領域を、通帳を撮像した画像における口座番号、店番号、氏名等の位置に配置してもよい。
また、補正画像生成部223は、補正画像において、文字認識対象領域に対応する領域を、所定の機関により規定された画像内の領域の位置でなく、利用者により規定された画像内の領域に配置してもよい。その場合、第2記憶装置210には、所定フォーマットに従った画像における所定領域の位置として、一般的なOCRソフトウェアにより文字が良好に検出される位置が設定される。例えば、所定領域は、画像内の水平方向又は垂直方向に延伸するように設定される。また、所定領域が複数設定される場合、各所定領域は、各所定領域の間に十分な余白が含まれるように設定される。
それらの場合、第2記憶装置210には、所定フォーマットに従った画像における所定領域の位置として、補正画像生成部223に配置すべき各領域の位置が設定される。ステップS207〜S210において、領域検出部222は、入力画像から、第2記憶装置210に設定された領域に対応する領域を、文字認識対象領域として検出する。
以上詳述したように、図5に示したフローチャートに従って動作することによって、情報処理装置200は、入力画像内の文字認識対象領域を所定フォーマットに従った画像における所定領域の位置に配置した補正画像を生成し、補正画像から文字を検出する。補正画像において、文字認識対象領域は所定フォーマットに従った適切な位置に配置され、且つ、文字認識対象領域以外のコンテンツは配置されない。したがって、情報処理装置200は、入力画像から文字をより高精度に検出することが可能となった。
また、情報処理装置200は、文字認識対象領域を、一般的なOCR処理に適した位置に配置した補正画像を生成する。したがって、情報処理装置200は、所定フォーマットに従った画像から文字を検出することに特化したOCRソフトウェアを使用することなく、汎用的なOCRソフトウェアを用いて文字を良好に検出することができる。
特に、原稿がパスポートである場合、国毎に、パスポートの詳細な仕様が異なる。例えば、フランスのパスポートでは、MRZの上側領域と下側領域の間の距離が短く、入力画像において上側領域と下側領域が隣接し、MRZの文字が良好に検出されない可能性がある。また、ドイツ等のパスポートでは、MRZが独立したページに記載され、入力画像内の期待される位置に文字認識対象領域が存在せず、MRZの文字が良好に検出されない可能性がある。情報処理装置200は、画像内の文字認識対象領域を適切な位置に配置した補正画像から文字を検出することにより、様々な仕様のパスポートからMRZ内の文字を良好に検出することができる。
図12は、他の実施形態に係る情報処理装置における処理装置230の概略構成を示すブロック図である。
処理装置230は、CPU220の代わりに、検出処理を実行する。処理装置230は、画像取得回路231、領域検出回路232、補正画像生成回路233、文字検出回路234及び出力制御回路235等を有する。
画像取得回路231は、画像取得部の一例であり、画像取得部221と同様の機能を有する。画像取得回路231は、読取画像を第2インタフェース装置201を介して画像読取装置100から取得し、読取画像から入力画像を生成し、第2記憶装置210に保存する。
領域検出回路232は、領域検出部の一例であり、領域検出部222と同様の機能を有する。領域検出回路232は、第2記憶装置210から入力画像を読み出し、入力画像から文字認識対象領域を検出し、検出結果を第2記憶装置210に保存する。
補正画像生成回路233は、補正画像生成部の一例であり、補正画像生成部223と同様の機能を有する。補正画像生成回路233は、第2記憶装置210から入力画像又は入力画像から生成された画像と、文字認識対象領域の検出結果と、所定フォーマットに従った画像における所定領域の位置とを読み出し、補正画像を生成し、第2記憶装置210に保存する。
文字検出回路234は、文字検出部の一例であり、文字検出部224と同様の機能を有する。文字検出回路234は、第2記憶装置210から補正画像を読み出し、補正画像から文字を検出し、検出結果を第2記憶装置210に保存する。
出力制御回路235は、出力制御部の一例であり、出力制御部225と同様の機能を有する。出力制御回路235は、第2記憶装置210から文字の検出結果を読み出し、表示装置203に出力する。
以上詳述したように、情報処理装置は、処理装置230を用いる場合も、入力画像から文字をより高精度に検出することが可能となった。
以上、好適な実施形態について説明してきたが、実施形態はこれらに限定されない。例えば、画像読取装置100と情報処理装置200の機能分担は、図1に示す画像処理システム1の例に限られず、画像読取装置100及び情報処理装置200の各部を画像読取装置100と情報処理装置200の何れに配置するかは適宜変更可能である。または、画像読取装置100と情報処理装置200を一つの装置で構成してもよい。
例えば、画像読取装置100の第1記憶装置110が、情報処理装置200の第2記憶装置210に記憶された各プログラムを記憶し、画像読取装置100の第1CPU120が、情報処理装置200の第2CPU120により実現される各部として動作してもよい。また、画像読取装置100が、情報処理装置200の処理装置230と同様の処理装置を有してもよい。
その場合、画像読取装置100は表示装置203と同様の表示装置を有する。検出処理は画像読取装置100で実行されるため、ステップS102、S201の読取画像の送受信処理は省略される。ステップS202〜S213の各処理は、画像読取装置100の第1CPU120又は処理装置によって実行される。これらの処理の動作は、情報処理装置200の第2CPU220又は処理装置230によって実行される場合と同様である。
また、画像処理システム1において、第1インタフェース装置101と第2インタフェース装置201は、インターネット、電話回線網(携帯端末回線網、一般電話回線網を含む)、イントラネット等のネットワークを介して接続してもよい。その場合、第1インタフェース装置101及び第2インタフェース装置201に、接続するネットワークの通信インタフェース回路を備える。また、その場合、クラウドコンピューティングの形態で画像処理のサービスを提供できるように、ネットワーク上に複数の情報処理装置を分散して配置し、各情報処理装置が協働して、検出処理等を分担するようにしてもよい。これにより、画像処理システム1は、複数の画像読取装置が読み取った読取画像について、効率よく検出処理を実行できる。
1 画像処理システム
200 情報処理装置
203 表示装置
210 第2記憶装置
221 画像取得部
222 領域検出部
223 補正画像生成部
224 文字検出部
225 出力制御部

Claims (7)

  1. 所定フォーマットに従った画像における所定領域の位置を記憶する記憶部と、
    文字認識対象領域を含む入力画像を取得する画像取得部と、
    前記入力画像又は前記入力画像から生成された画像から前記文字認識対象領域に対応する領域を切り出して、前記所定フォーマットに従った画像の前記所定領域の位置に配置した補正画像を生成する補正画像生成部と、
    前記補正画像から文字を検出する文字検出部と、
    前記検出された文字に関する情報を出力する出力部と、
    を有することを特徴とする画像処理装置。
  2. 前記入力画像に含まれる原稿の傾きを検出し、前記検出した傾きに基づいて前記入力画像を回転させた回転画像を生成し、前記回転画像に基づいて前記文字認識対象領域を検出する領域検出部をさらに有する、請求項1に記載の画像処理装置。
  3. 前記領域検出部は、
    前記回転画像を二値化した回転二値画像を生成し、
    前記回転二値画像内で、所定方向に延伸する複数のライン毎に、各ラインにおける黒色画素数を算出し、
    前記複数のライン毎に算出した黒色画素数に基づいて、前記文字認識対象領域を検出する、請求項2に記載の画像処理装置。
  4. 前記領域検出部は、
    前記回転二値画像内で、前記所定方向と直交する方向に延伸する複数のライン毎に、各ラインにおける黒色画素数を算出し、
    前記所定方向と直交する方向に延伸する複数のライン毎に算出した黒色画素数に基づいて、前記文字認識対象領域を検出する、請求項3に記載の画像処理装置。
  5. 前記補正画像生成部は、前記文字認識対象領域が前記補正画像内の前記所定領域の位置に配置されるように、前記文字認識対象領域を拡大又は縮小する、請求項1〜4の何れか一項に記載の画像処理装置。
  6. 記憶部及び出力部を有する画像処理装置の制御方法であって、
    所定フォーマットに従った画像における所定領域の位置を前記記憶部に記憶し、
    文字認識対象領域を含む入力画像を取得し、
    前記入力画像又は前記入力画像から生成された画像から前記文字認識対象領域に対応する領域を切り出して、前記所定フォーマットに従った画像の前記所定領域の位置に配置した補正画像を生成し、
    前記補正画像から文字を検出し、
    前記検出された文字に関する情報を前記出力部に出力する、
    ことを含むことを特徴とする制御方法。
  7. 記憶部及び出力部を有する画像処理装置の制御プログラムであって、
    所定フォーマットに従った画像における所定領域の位置を前記記憶部に記憶し、
    文字認識対象領域を含む入力画像を取得し、
    前記入力画像又は前記入力画像から生成された画像から前記文字認識対象領域に対応する領域を切り出して、前記所定フォーマットに従った画像の前記所定領域の位置に配置した補正画像を生成し、
    前記補正画像から文字を検出し、
    前記検出された文字に関する情報を前記出力部に出力する、
    ことを前記画像処理装置に実行させることを特徴とする制御プログラム。
JP2018219424A 2018-11-22 2018-11-22 画像処理装置、制御方法及び制御プログラム Pending JP2020086847A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018219424A JP2020086847A (ja) 2018-11-22 2018-11-22 画像処理装置、制御方法及び制御プログラム
US16/424,282 US10970579B2 (en) 2018-11-22 2019-05-28 Image processing apparatus for placing a character recognition target region at a position of a predetermined region in an image conforming to a predetermined format

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018219424A JP2020086847A (ja) 2018-11-22 2018-11-22 画像処理装置、制御方法及び制御プログラム

Publications (1)

Publication Number Publication Date
JP2020086847A true JP2020086847A (ja) 2020-06-04

Family

ID=70770087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018219424A Pending JP2020086847A (ja) 2018-11-22 2018-11-22 画像処理装置、制御方法及び制御プログラム

Country Status (2)

Country Link
US (1) US10970579B2 (ja)
JP (1) JP2020086847A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11722615B2 (en) 2021-04-28 2023-08-08 Pfu Limited Image processing including adjusting image orientation

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020127121A (ja) * 2019-02-04 2020-08-20 富士ゼロックス株式会社 情報処理装置
JP7104650B2 (ja) * 2019-03-20 2022-07-21 株式会社Pfu 画像読取装置、画像処理システム、制御方法及び制御プログラム
US11734830B2 (en) * 2020-05-31 2023-08-22 Sketchar , Vab Method of facade plane detection
CN116168409B (zh) * 2023-04-20 2023-07-21 广东聚智诚科技有限公司 一种应用于标准、专利分析报告自动生成***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210628A (ja) * 1994-01-20 1995-08-11 Matsushita Electric Ind Co Ltd 免許証読み取り装置
JPH103517A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 文書画像傾き角検出装置
JP2008071076A (ja) * 2006-09-13 2008-03-27 Oki Electric Ind Co Ltd 画像抽出装置
JP2018500706A (ja) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域認識方法及び装置
JP2018077890A (ja) * 2018-01-04 2018-05-17 株式会社リコー 画像処理装置、プログラム、画像処理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040598A (ja) 2006-08-02 2008-02-21 Canon Inc 画像入力装置
JP4945739B2 (ja) 2007-03-30 2012-06-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
JP5054472B2 (ja) 2007-09-11 2012-10-24 日立コンピュータ機器株式会社 文字認識装置及び文字認識装置における文字認識方法
JP5884560B2 (ja) * 2012-03-05 2016-03-15 オムロン株式会社 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
US9152930B2 (en) * 2013-03-15 2015-10-06 United Airlines, Inc. Expedited international flight online check-in
US8947745B2 (en) * 2013-07-03 2015-02-03 Symbol Technologies, Inc. Apparatus and method for scanning and decoding information in an identified location in a document
JP6161484B2 (ja) 2013-09-19 2017-07-12 株式会社Pfu 画像処理装置、画像処理方法及びコンピュータプログラム
JP6398710B2 (ja) * 2014-12-26 2018-10-03 ブラザー工業株式会社 読取装置および読取方法
JP6200040B1 (ja) 2016-06-17 2017-09-20 株式会社Pfu 画像処理装置、画像処理方法、および、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210628A (ja) * 1994-01-20 1995-08-11 Matsushita Electric Ind Co Ltd 免許証読み取り装置
JPH103517A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 文書画像傾き角検出装置
JP2008071076A (ja) * 2006-09-13 2008-03-27 Oki Electric Ind Co Ltd 画像抽出装置
JP2018500706A (ja) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域認識方法及び装置
JP2018077890A (ja) * 2018-01-04 2018-05-17 株式会社リコー 画像処理装置、プログラム、画像処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIWEN WANG ET AL.: ""Title Detection Algorithm for OCR Credentials Image Based on Directional Projection and Divergence"", 2010 3RD INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND INFORMATION TECHNOLOGY, JPN6022041051, 9 July 2010 (2010-07-09), US, pages 212 - 215, XP031747338, ISSN: 0004886808 *
吉光 裕司、外2名: ""ナンバープレート読み取り装置における、回転・歪み補正 ハフ変換およびラベリングを用いた回転、歪み補", OMRON TECHNICS, vol. 41, no. 3, JPN6022041049, 20 September 2001 (2001-09-20), JP, pages 316 - 320, ISSN: 0004886807 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11722615B2 (en) 2021-04-28 2023-08-08 Pfu Limited Image processing including adjusting image orientation

Also Published As

Publication number Publication date
US10970579B2 (en) 2021-04-06
US20200167588A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
JP2020086847A (ja) 画像処理装置、制御方法及び制御プログラム
US8861854B2 (en) Character recognition apparatus, method, and computer-readable, non-transitory medium
US9305236B2 (en) Image processing apparatus, image processing method, and computer-readable, non-transitory medium
US8532434B2 (en) Image processing method and apparatus for determining orientations based on reliabilities of a plurality of portions into which image has been divided or for determining orientations of portions of image divided by user's input so as to recognize characters for each divided portion of image, image forming apparatus, and storage medium
JP6099457B2 (ja) 画像処理装置、領域決定方法及びコンピュータプログラム
US8055079B2 (en) Image processing method, image processing apparatus, and image forming apparatus
US8363963B2 (en) Apparatus, method and computer readable medium that associates a plurality of possible word recognition results with an image
JP4362538B2 (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP2013042415A (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP2011008549A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
WO2020065995A1 (ja) 画像処理装置、制御方法及び制御プログラム
JP4362537B2 (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP2021149452A (ja) 画像処理装置、制御方法及び制御プログラム
US9268998B2 (en) Image determining apparatus, image processing system, and recording medium
JP6970834B2 (ja) 画像処理装置、制御方法及び制御プログラム
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP7022847B2 (ja) 画像処理装置、制御方法及び制御プログラム
JP7106672B2 (ja) 画像処理装置、制御方法及び制御プログラム
JP7282257B2 (ja) 画像処理装置、制御方法及び制御プログラム
JP2021149459A (ja) 画像処理装置、制御方法及び制御プログラム
WO2020157937A1 (ja) 画像処理装置、制御方法及び制御プログラム
WO2020157938A1 (ja) 画像処理装置、制御方法及び制御プログラム
JP2024073232A (ja) 画像処理装置、画像処理方法及び制御プログラム
JP2023026170A (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP2022029228A (ja) 画像処理装置、画像形成システム、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230221