JP6900164B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6900164B2
JP6900164B2 JP2016188375A JP2016188375A JP6900164B2 JP 6900164 B2 JP6900164 B2 JP 6900164B2 JP 2016188375 A JP2016188375 A JP 2016188375A JP 2016188375 A JP2016188375 A JP 2016188375A JP 6900164 B2 JP6900164 B2 JP 6900164B2
Authority
JP
Japan
Prior art keywords
item
keyword
search
item value
item name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016188375A
Other languages
English (en)
Other versions
JP2018055255A (ja
JP2018055255A5 (ja
Inventor
欽也 本田
欽也 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016188375A priority Critical patent/JP6900164B2/ja
Priority to US15/707,822 priority patent/US10740899B2/en
Publication of JP2018055255A publication Critical patent/JP2018055255A/ja
Publication of JP2018055255A5 publication Critical patent/JP2018055255A5/ja
Application granted granted Critical
Publication of JP6900164B2 publication Critical patent/JP6900164B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、帳票等のスキャン画像に対して、画像中に記載されている名前や合計金額などが記載されている領域を特定し、文字認識をすることで情報を抽出するシステムがある。名前や合計金額等の記載位置が異なるような非定型文書を対象として、特定の情報を抽出する技術も知られている。非定型文書を対象とする場合、例えば、事前にキーワードとなる項目名を設定しておき、スキャン画像に対する文字認識により、キーワードを特定し、キーワードの周辺(右や下等)の文字列をキーワードに対応する項目値として取得する。特許文献1には、非定型文書を対象とする場合に、キーワードらしさを表すキーワード尤度と、項目値らしさを表す項目値尤度を計算し、さらに文字列ペアの配置関係の妥当さを表す配置尤度を計算して、項目値を得る技術が開示されている。
特開2011−248604号公報
しかしながら、文字認識処理における文字認識精度は100%ではなく、またスキャンによる画像の汚れや文字の掠れ等の起因した誤認識も想定される。したがって、スキャン画像において、キーワード領域を検出できない場合がある。
本発明はこのような問題点に鑑みなされたもので、項目値に基づいて複数の項目名が特定された場合に、検索された所定の項目名最も類似する項目名を決定し、検索された項目値を、決定された項目名に対応する項目値として特定する仕組みを提供することを目的とする。
そこで、本発明は、情報処理装置であって、画像に含まれる文字を認識する認識手段と、前記画像に含まれる所定の項目名を前記認識手段による認識結果と所定の文字列との比較に基づいて検索する第1の検索手段と、前記第1の検索手段によって前記所定の項目名が見つからなかった場合に、前記画像に含まれる項目値を前記認識手段による認識結果と前記項目値のフォーマットに関する検索条件とに基づいて検索する第2の検索手段と、前記第2の検索手段によって検索された前記項目値に基づいて前記画像に含まれる項目名を、前記項目名と前記項目値との位置関係を示す位置関係情報に基づいて特定する第1の特定手段と、前記第1の特定手段によって複数の項目名が特定された場合、前記複数の項目名の中で前記第1の検索手段によって検索された前記所定の項目名に最も類似する項目名を決定する決定手段と、前記第2の検索手段によって検索された項目値を前記決定手段によって決定された項目名に対応する項目値として特定する第2の特定手段とを有することを特徴とする。
本発明によれば、項目値に基づいて複数の項目名が特定された場合に、検索された所定の項目名最も類似する項目名を決定し、検索された項目値を、決定された項目名に対応する項目値として特定する仕組みを提供することができる。
第1の実施形態に係る情報処理システムを示す図である。 帳票のスキャン画像の一例を示す図である。 項目値特定処理を示すフローチャートである。 黒画素塊検出処理の説明図である。 罫線除去処理後の画像の一例を示す図である。 罫線除去後の画像に対する文字領域の設定結果を示す図である。 キーワード判定処理を示すフローチャートである。 第2の判定条件の変形例の説明図である。 第2の判定条件の変形例の説明図である。 変形例に係るキーワード判定処理を示すフローチャートである。 キーワードと項目値の位置関係の変形例の説明図である。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
図1は、第1の実施形態に係る情報処理システムを示す図である。情報処理システムは、複写機100と、情報処理装置110とを有している。複写機100は、スキャナ101と、プリンタ102と、通信部103とを有している。スキャナ101は、文書のスキャンを行い、スキャン画像を生成する。プリンタ102は、画像を形成する。通信部103は、ネットワークを介して外部装置と通信を行う。
情報処理装置110は、CPU111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、通信部117とを有している。CPU111は、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、CPU111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。なお、後述する情報処理装置110の機能や処理は、CPU111がROM112又はHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
通信部117は、ネットワークを介して外部装置との通信処理を行う。表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられていてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
本実施形態においては、複写機100のスキャナ101が帳票等をスキャンし、スキャン画像を生成する。そして、スキャン画像は、通信部103により情報処理装置110に送信される。情報処理装置110においては、通信部117がスキャン画像を受信し、これをHDD114等の記憶部に記憶する。なお、スキャナ101のスキャン対象となる帳票は非定型帳票である。非定型帳票とは、記載されるキーワードの文字列又はその意味が同じ単語が含まれるが、これらの文字が記載される位置が異なるもの(帳票のフォーマットが未知のもの)のことである。また、非定型帳票においては、罫線の位置も異なる。これに対応し、情報処理装置110のHDD114には、非定型帳票に対応した、各情報の記載位置が異なる複数のスキャン画像が記憶されている。
図2は、帳票のスキャン画像201の一例を示す図である。スキャン画像201において、例えば、「発行日」202がキーワードであり、対応する項目値は、「平成27年10月04日」203である。なお、スキャン画像201に示される文字をオリジナル文字と称する。スキャン画像201に対応し、情報処理装置110のHDD114等の記憶部には、処理対象となるキーワードと、キーワードに対応した項目値と、が対応付けて格納されている。また、項目値のキーワードとの位置関係を示す位置関係情報も、HDD114に格納されている。
図2のスキャン画像201に対し、以下に示すキーワード、項目値、位置関係情報が設定されている。

キーワード:発行日
項目値:平成XX年XX月XX日
位置関係情報:キーワードの下方向に20mm以内に項目値が存在する

なお、発行日に対する項目値の年、月、日に対する数字は文書により異なる。このように、不定文字(数字)が入る位置には、Xが挿入されている。すなわち、項目値の「平成XX年XX月XX日」のXは、0から9の何れかの整数が入ることを意味する。なお、一般的にこのような表記を正規表記と呼ぶ。
さらに、検索対象となる対象画像において得られた文字列領域に対する文字認識結果からキーワード領域か否かを判定する判定条件、項目値を検索するための検索条件、キーワードと項目値の位置関係情報がHDD114等に格納されているものとする。キーワード、項目値、キーワードの判定条件、項目値の検索条件、位置関係情報は、例えば、ユーザ操作に応じて、CPU111がHDD114等への記録を行う。
図3は、情報処理装置110による項目値特定処理を示すフローチャートである。ここでは、キーワード「発行日」に対する項目値を特定する場合を例に説明する。また、本実施形態において、項目値の特定の対象となる画像は、複写機100のスキャナ101により得られたスキャン画像であり、ネットワークを介して通信部117が受信し、HDD114に記憶されているものとする。
S301において、CPU111は、まず、ユーザ操作に応じて、HDD114から処理対象の一のスキャン画像を選択する。そして、選択したスキャン画像において文字領域を抽出する。ここで、文字領域を抽出する処理について説明する。本処理は、2値化、黒画素塊検出、罫線除去、文字領域の抽出の4つの処理を含んでいる。
まず、2値化処理について説明する。CPU111は、スキャン画像に対して2値化を行うことにより、2値画像を得る。この2値化により、スキャン画像において、閾値より濃い色の画素は黒画素、その閾値より薄い色の画素は白画素となる。なお、以下では、スキャン画像が100DPIであるものとして説明を行うが、スキャン画像がこの解像度に限られないのは言うまでもない。
次に、黒画素塊検出処理について説明する。CPU111は、2値化処理により得られた二値画像に対し、8連結で繋がる黒画素の輪郭を追跡することにより、8方向の何れかの方向で連続して存在する黒画素の塊(黒画素塊)を検出する。8連結とは、左上、左、左下、下、右下、右、右上、上の8つの方向の何れかで、同じ色(今回のケースでは黒)の画素が連続しているという意味である。なお、4連結とは、左、下、右、上の4つの方向の何れかで同じ色の画素が連続しているという意味である。
なお、8方向に存在する8つの隣接画素の何れもが黒画素ではない単独の黒画素(孤立点)はノイズであるものとし、黒画素塊としては検出されないものとする。一方、8方向に存在する8つの隣接画素の何れか1つにでも黒画素が存在する黒画素は、その隣接する黒画素と共に、黒画素塊として検出される。図4の401はCPU111が検出した黒画素塊の一例である。またCPU111は、検出した黒画素塊の外接矩形の位置情報(四頂点のX,Y座標情報のこと)を算出する。なお、X軸は右方向に延び、Y軸は下方向に延びているものとする。幅は、X軸方向の長さ、高さは、Y軸方向の長さを指す。図4の402は黒画素塊401の外接矩形である。なお、本明細書で矩形と表現した時には、斜め向きの矩形は含まれず、四辺の全てがX座標軸、Y座標軸の何れかと平行な矩形を表す。
次に、罫線除去処理について説明する。CPU111は、検出した黒画素塊が以下の全ての条件に該当するか判定し、全てに該当する黒画素塊を、直線を構成する黒画素塊であると判定する。
・ 黒画素塊の外接矩形の幅が閾値以上、かつ高さが閾値以下である。または、幅が閾値
以下で高さが閾値以上である。
またCPU111は、以下の全ての条件に該当する黒画素塊を、表の罫線を構成する黒画素塊であると判定する。
・ 黒画素塊の外接矩形の幅、高さが閾値以上(例えば、100画素、0.25cm以上
)である。
・ 外接矩形の内部における黒画素塊の充填率が閾値以下である(例えば、黒画素塊が外
接矩形に占める割合が20%以下)。
・ 黒画素塊の最大幅及び高さと、外接矩形の幅及び高さの差が何れも小さい(例えば、
黒画素塊の最大幅及び高さと、外接矩形の幅及び高さの画素の差がともに10画素以下)。
CPU111は、表の罫線を構成すると判定した黒画素塊の外接矩形の位置情報をHDD114に記録する。以下では、そのように記録された位置情報を持つ外接矩形を表領域と呼ぶ。なお、以上の判定の結果、図4の401は表の罫線を構成すると判定される。それに伴い、外接矩形402は、表領域と判定される。CPU111は、直線や表の罫線を構成すると判定した黒画素塊を除去する。図5は、スキャン画像201から直線および罫線が除去された画像501を示す図である。
次に、文字領域の抽出処理について説明する。CPU111は、直線および罫線を構成する黒画素塊を除去した後の画像において、全ての黒画素塊に外接矩形を設定する。さらに、CPU111は、外接矩形同士の距離が閾値(例えば20画素、0.5cm)以内であるか判定する。具体的には、CPU111は、外接矩形を一つ一つ選択し、選択された外接矩形からの距離が閾値以内である外接矩形を検出し、検出した複数の外接矩形を統合する。すなわち、CPU111は、両方の外接矩形に外接する新たな外接矩形を設定し、その代わり、各外接矩形を削除する。
新たな外接矩形の設定、複数の外接矩形の削除が完了した後、CPU111は、その認識セル内の外接矩形をまた初めから一つ一つ選択し、互いの間の距離が閾値以内である外接矩形同士を統合していく。以上の処理を繰り返す。即ち、互いの間の距離が閾値以内である外接矩形が無くなるまで、外接矩形同士の統合が繰り返される。以上の処理が終わった後に設定されている外接矩形が、文字領域となる。図6は、罫線除去後の画像501に対する文字領域の抽出結果を示す図である。例えば、601は、「発行日」の文字列を含む文字領域である。602は、キーワード「発行日」に対応する項目値「平成27年10月04日」を含む文字領域である。603は、キーワード「診療日」に対応する項目値「平成27年10月04日」を含む文字領域である。
図3に戻り、S301の処理の後、S302において、CPU111は、各文字領域に対し、文字認識処理を行う。以下、文字認識により得られた文字を認識文字と称する。認識文字は、スキャン画像中のオリジナル文字に対する文字認識により得られた文字コードや、文字コードに対応した文字である。文字認識結果として得られた認識文字は、対応する文字領域に対応付けてRAM113等の記憶部に記録される。
次に、S303において、CPU111は、S301により得られた各文字領域の認識文字に基づいて、キーワードと一致する文字を検索する。例えば、図6に示す画像から得られた複数の文字列それぞれからキーワード「発行日」と一致する文字列を検索する。なお、CPU111がキーワードと一致すると判定するための判定条件は、予めHDD114に格納されているものとする。なお、S303において用いられる判定条件と、後述のS3113において用いられる判定条件とを区別すべく、以下においては、S303の判定条件を第1の判定条件、S313の判定条件を第2の判定条件と称することとする。
第1の判定条件は、認識文字に対する信頼度が第1の信頼度閾値以上である場合に、認識文字がキーワードと一致すると判定するというものである。ここで、信頼度は、キーワードらしさを表す指標である。キーワードである可能性が高い程、信頼度は高い値となる。信頼度の数値範囲は例えば0〜100とするが、数値範囲は実施形態に限定されるものではない。
次に、S304において、CPU111は、いずれかの文字領域からキーワードが検出された場合には(S304でYes)、キーワードが検出された領域をキーワード領域とし、処理をS305へ進める。CPU111は、キーワードが検出されなかった場合には(S304でNo)、処理をS307へ進める。
S305において、CPU111は、項目値のキーワードに対する位置関係情報と、キーワード領域の位置と、に基づいて、文字領域の中から、項目値領域を特定する。ここで、項目値領域は、項目値が示される領域である。キーワードの文字領域の下辺から下方向に20mm以内に項目値領域が存在することを示す位置関係情報に対し、図6の例では、文字領域601がキーワード領域として特定された場合には、文字領域602が項目値領域として特定される。
次に、S306において、CPU111は、位置関係情報から特定した項目値領域の認識文字が項目値の設定値に合致するか否かを判定する。CPU111は、例えば、キーワード「発行日」対しては、対応する項目値領域の認識文字が、項目値の設定値「平成XX年XX月XX日」のフォーマットに合致するかどうかを判定する。CPU111は、認識文字が項目値の設定値に合致する場合に、認識文字を項目値として特定し、処理を終了する。CPU111は、認識文字が項目値の設定値に合致しない場合には、項目値の特定に失敗したと判断し、処理を終了する。
一方、S307において、CPU111は、項目値の検索条件が設定されているか否かを確認する。本実施形態においては、項目値の設定値(正規表現「平成XX年XX月XX日」のフォーマット)が検索条件として設定されているものとする。CPU111は、項目値の検索条件が設定されている場合には(S307でYes)、処理をS308へ進める。CPU111は、項目値の検索条件が設定されていない場合には(S307でNo)、項目値の特定に失敗したと判断し、処理を終了する。
S308において、CPU111は、スキャン画像の文字認識結果に基づいて、項目値の検索条件に従い、項目値領域候補を検索する。CPU111は、項目値領域候補が検出された場合には(S309でYes)、処理をS310へ進める。CPU111は、項目値領域候補が検出されなかった場合には(S309でNo)、項目値の特定に失敗したと判断し、処理を終了する。S308の処理は、項目値領域候補を特定する領域特定処理の一例である。
例えば、図6の例では、「発行日」の文字領域601の下に「平成27年10月04日」の文字領域602があるが、これ以外に、「診療日」の文字領域603の下にも「平成27年10月04日」の文字領域604がある。この場合、S308の処理においては、文字領域602だけでなく文字領域604も項目値領域候補として検出される。
S310において、CPU111は、項目値領域候補と、位置関係情報と、に基づいて、候補領域候補の周辺の文字領域の中からキーワード領域候補を特定する。ここで、キーワード領域候補は、項目値領域候補が項目値領域である場合に、位置関係情報からキーワード領域として定まる領域である。例えば、キーワードの下方向に20mm以内に項目値が存在するという位置関係情報に対しては、項目値領域候補から上方向に20mm以内に位置する文字領域をキーワード領域候補として特定される。図6の例では、項目値領域候補としての文字領域602、604に対しそれぞれ、文字領域601、603がキーワード領域候補として特定される。S312の処理は、キーワード領域候補を特定する領域特定処理の一例である。
次に、S311において、CPU111は、キーワード領域候補の認識文字に基づいて、第2の判定条件に従い、キーワード領域候補の認識文字がキーワードと一致するかを判定する。ここで、第2の判定条件は、S303において用いられた第1の判定条件と異なる条件である。第2の判定条件は、第2の信頼度を用いて、認識文字がキーワードと一致するかを判定するものであり、第2の信頼度は、第1の判定条件の第1の信頼度に比べて小さい値である。
図7は、キーワード判定処理(S311)における詳細な処理を示すフローチャートである。S701において、CPU111は、S310において特定されたキーワード領域候補の中から、信頼度が最大値を示すキーワード領域候補を特定する。次に、S702において、CPU111は、信頼度の最大値と予め設定された第2の信頼度閾値とを比較する。CPU111は、信頼度の最大値が第2の信頼度閾値以上の場合には(S702でYes)、処理をS703へ進める。CPU111は、信頼度の最大値が信頼度閾値未満の場合には(S702でNo)、処理をS312へ進める。
S703において、CPU111は、S310において特定されたキーワード領域候補の信頼度のうち2番目に大きい信頼度を特定する。そして、CPU111は、信頼度の最大値と2番目に大きい信頼度との差分を算出する。次に、S704において、CPU111は、S704において算出した差分と、予め設定された差分閾値とを比較する。CPU111は、差分が差分閾値以上の場合には(S704でYes)、処理をS705へ進める。CPU111は、差分が差分閾値未満の場合には(S704でNo)、処理をS312へ進める。S705において、CPU111は、信頼度が最大値を示すキーワード領域候補をキーワード領域として特定する。CPU111は、その後処理をS312へ進める。なお、S311の処理は、第2の判定条件による判定結果に基づいて、キーワード領域を特定する領域特定処理の一例である。
例えば、信頼度の最大値が60%、2番目の信頼度が30%の場合、信頼度の差分は30%である。この差がある程度大きい場合には、信頼度の最大値を示すキーワード領域候補がキーワード領域である可能性が高いと考えることができる。一方、信頼度の最大値が60%であるのに対し、2番目の信頼度が55%であるとする。この場合には、信頼度の最大値を示すキーワード領域候補をキーワード領域として判定するのは誤判定の可能性が高いと考えることができる。このため、本実施形態においては、最大信頼度の値の評価だけでなく、2番目の信頼度との差分が差分閾値以上か否かについても評価することとした。
図3に戻り、S311の処理の後、S312において、CPU111は、キーワード領域を特定できたか否かを確認する。CPU111は、キーワード領域を特定できた場合には(S312でYes)、処理をS313へ進める。CPU111は、キーワード領域を特定できなかった場合には(S312でNo)、項目値の特定に失敗したと判断し、処理を終了する。S313において、CPU111は、特定したキーワード領域に対応する項目値領域候補を項目値領域として特定し、項目値領域の認識文字を項目値として特定する。例えば、図6の例において、文字領域601がキーワード領域として特定された場合には、対応する項目値領域候補である文字領域602が項目値領域として特定され、文字領域602の認識文字「平成27年10月04日」が項目値として特定される。
以上のように、情報処理装置110は、第1の判定条件を用いたキーワード検索によりキーワードを特定できない場合には、項目値からキーワード領域候補を絞り込み、第2の判定条件を用いてキーワード判定を行う。これにより、精度よくキーワード領域を特定することができる。
以下、実施形態の変形例について説明する。第1の変形例としては、S303及びS311において、認識文字がキーワードと一致するか否かを判定する処理は、実施形態に限定されるものではない。CPU111は、例えば、キーワードに含まれる文字数に対し、所定の割合の認識文字が一致する場合に、キーワードと一致すると判定するという判定条件を用いてもよい。
また、OCRによる文字認識結果には、1つの文字列に対して複数の候補がある場合がある。例えば「発行日」という文字列に対して、文字認識結果としての第1候補として「登行日」が得られた場合のように、「発」の文字に似た文字が第1候補として得られる場合がある。そして第2候補として「発行日」が得られる場合がある。これに対し、CPU111は、第N候補までにキーワードがあるかどうかで、キーワードらしさを表す値(信頼度)を算出してもよい。例えば第4候補までを対象とする場合、第1候補がキーワードと一致した場合に信頼度を100%とし、第2候補では75%、第3候補では50%、第4候補では25%とする。もちろん数値に重みづけ等をしてもかまわない。
さらに、第1の判定条件は、認識文字の候補数「N」までを対象とするのに対し、第2の判定条件は、候補数が「N+1」までを対象とするものであってもよい。この場合、CPU111は、第1の判定条件を用いてキーワード判定を行う場合に比べて、より多いOCR認識結果の候補数を参照することとなる。通常、参照するOCR認識結果の候補数を増やすと処理時間が増加するが、本例ではスキャン画像から得られたすべての文字領域ではなく、キーワード領域候補に対してのみ、参照するOCR認識結果の候補数を増やす。そのためパフォーマンスの低下を最低限に抑えつつ、より高い精度でキーワードを特定することができる。なお、第2の判定条件の候補数は、第1の判定条件の候補数よりも多い数であればよく、「N+1」に限定されるものではない。
また、第2の変形例としては、第2の判定条件は、第1の判定条件と異なる条件であればよく、実施形態に限定されるものではない。第2の判定条件の1つ目の変形例について説明する。図8、図9は、第2の判定条件の変形例の説明図である。第2の判定条件は、図8に示すように、1つの文字領域801として認識されるべき領域が3つの文字領域811、812、813として誤って特定された場合に対応する条件である。図9は、この場合の、キーワード判定処理(S311)における詳細な処理を示すフローチャートである。
S901において、CPU111は、キーワード領域候補が一定の範囲内に複数あるか否かを確認する。CPU111は、複数のキーワード領域候補が一定範囲内に存在する場合には(S901でYes)、処理をS902へ進める。CPU111は、一定範囲内に複数のキーワード領域候補が存在しない場合には(S901でNo)、処理をS312へ進める。
S902において、CPU111は、S901において一定範囲内に存在すると判断した複数のキーワード領域候補を1つの領域に結合する。以下、結合後の1つの領域を結合領域と称する。本処理により、図8の例では、キーワード領域候補として特定された文字領域811、812、813は、1つの結合領域801となる。
次に、S903において、CPU111は、結合領域の信頼度と、第1の信頼度閾値とを比較する。このように、本例においては、信頼度閾値には、第1の判定条件の信頼度閾値(第1の信頼度閾値)と同じ値を用いる。CPU111は、結合領域の信頼度が第1の信頼度閾値以上の場合には(S903でYes)、処理をS904へ進める。CPU111は、結合領域の信頼度が第1の信頼度閾値未満の場合には(S903でNo)、処理をS312へ進める。S904において、CPU111は、結合領域をキーワード領域として特定し、その後処理をS312へ進める。なお、対応する第1の判定条件は、実施形態において説明した通り、文字領域毎の文字認識結果とキーワードとの比較結果からキーワードと一致するかを判定するものである。
次に、第2の判定条件の2つ目の変形例について説明する。2つ目の変形例に係る第2の判定条件は、複数のキーワード領域候補の中から、正解のキーワードと共通のユニークな文字を含むものを特定するものである。例えば、キーワード「発行日」に対し、複数のキーワード領域候補の中で、1文字目が「発」のものが1つしかない場合、そのキーワード領域候補がキーワード領域であると判定する。
図10は、本例に係るキーワード判定処理(S311)における詳細な処理を示すフローチャートである。S1001において、CPU111は、変数iに1を設定する。次に、S1002において、CPU111が、正解キーワードのi文字目を取得する。キーワードが「発行日」の場合、「発」の文字を取得する。次に、S1003において、CPU111は、S1002において取得した正解キーワードのi文字目と、各キーワード領域候補のi文字目とを比較する。
次に、S1004において、CPU111は、S1003の比較において、i文字目が一致したキーワード領域候補が1つのみか否かを確認する。CPU111は、i文字目が一致したキーワード領域候補が1つのみの場合には(S1004でYes)、処理をS1005へ進める。CPU111は、i文字目が一致したキーワード領域候補が1つのみでない場合には(S1004でNo)、処理をS1006へ進める。なお、i文字目が一致したキーワード領域候補が1つのみでない場合とは、複数のキーワード領域においてi文字目が一致した場合と、i文字目が一致したキーワード領域候補が1つも存在しない場合である。S1005において、CPU111は、i文字目が一致したキーワード領域候補をキーワード領域として特定し、その後処理をS312へ進める。
S1006においては、CPU111は、変数iに1を加算する。次に、S1007において、CPU111は、iが正解のキーワードの文字数を超えたか否かを確認する。CPU111は、iがキーワードの文字数を超えた場合には(S1007でYes)、処理をS312へ進める。CPU111は、iがキーワードの文字数を超えていない場合には(S1007でNo)、処理をS1002へ進める。なお、ここでは、1文字単位での比較を行う例を示したが、キーワードの文字数よりも少ない文字数の単位、すなわちキーワードの一部の文字であればよく、1文字に限定されるものではない。また、いずれの判定条件も、上述のいくつかの条件を組み合わせたものとしてもよい。
また、第3の変形例としては、情報処理装置110は、第1の判定条件によるキーワード領域の特定処理を行うことなく、S302の処理の後、S307の処理に進み、項目値領域候補からキーワード領域を特定してもよい。
また、第4の変形例としては、キーワードと項目値の位置関係は実施形態に限定されるものではない。例えば、図11に示すように、「様」の文字領域1101をキーワードとし、その左方向に「様」に対応した項目値「キャノン太郎」の文字領域1102が存在するといった位置関係であってもよい。この場合、位置関係情報は、「キーワードの左辺から左方向に30mm以内に項目値の文字領域が存在する」という情報になる。
また、第5の変形例としては、情報処理装置110は、S308において項目値領域候補を検出できなかった場合には(S309でYes)、キーワードと項目値の位置関係に基づいて、キーワード領域候補と項目値候補領域のペアを特定してもよい。情報処理装置110は、特定したペアに対し、S311以降の処理を行うこととしてもよい。情報処理装置110は、例えば、キーワードの下方向に20mm以内に項目値が存在するという位置関係に対しては、文字領域のペアのうち上側の文字領域がキーワード領域候補となるため、上側の文字領域に対して、S311の処理を行う。
以上、上述した各実施形態によれば、精度よくキーワード領域を特定することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 複写機
110 情報処理装置
111 CPU

Claims (7)

  1. 画像に含まれる文字を認識する認識手段と、
    前記画像に含まれる所定の項目名を前記認識手段による認識結果と所定の文字列との比較に基づいて検索する第1の検索手段と、
    前記第1の検索手段によって前記所定の項目名が見つからなかった場合に、前記画像に含まれる項目値を前記認識手段による認識結果と前記項目値のフォーマットに関する検索条件とに基づいて検索する第2の検索手段と、
    前記第2の検索手段によって検索された前記項目値に基づいて前記画像に含まれる項目名を、前記項目名と前記項目値との位置関係を示す位置関係情報に基づいて特定する第1の特定手段と、
    前記第1の特定手段によって複数の項目名が特定された場合、前記複数の項目名の中で前記第1の検索手段によって検索された前記所定の項目名に最も類似する項目名を決定する決定手段と、
    前記第2の検索手段によって検索された項目値を前記決定手段によって決定された項目名に対応する項目値として特定する第2の特定手段とを有することを特徴とする情報処理装置。
  2. 前記第1の特定手段は、前記第2の検索手段によって検索された項目値の周辺にある前記項目名を、前記項目名と前記項目値との位置関係を示す位置関係情報に基づいて特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記決定手段は、前記複数の項目名の中で前記第1の検索手段によって検索された項目名に含まれる文字と一致する文字を最も多く有する項目名を決定することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記第1の検索手段が前記所定の項目名を見つけた場合に、前記第2の検索手段は、前記画像に含まれる前記項目値を検索しないことを特徴とする請求項1に記載の情報処理装置。
  5. 前記画像は、スキャナによって生成される画像であることを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  6. 画像に含まれる文字を認識する認識工程と、
    前記画像に含まれる所定の項目名を前記認識工程による認識結果と所定の文字列との比較に基づいて検索する第1の検索工程と、
    前記第1の検索工程によって前記所定の項目名が見つからなかった場合に、前記画像に含まれる項目値を前記認識工程による認識結果と前記項目値のフォーマットに関する検索条件とに基づいて検索する第2の検索工程と、
    前記第2の検索工程で検索された前記項目値に基づいて前記画像に含まれる項目名を、前記項目名と前記項目値との位置関係を示す位置関係情報に基づいて特定する第1の特定工程と、
    前記第1の特定工程によって複数の項目名が特定された場合、前記複数の項目名の中で前記第1の検索工程によって検索された前記所定の項目名に最も類似する項目名を決定する決定工程と、
    前記第2の検索工程によって検索された項目値を前記決定工程によって決定された項目名に対応する項目値として特定する第2の特定工程とを有することを特徴とする情報処理方法。
  7. 請求項に記載された情報処理方法を、コンピュータに実行させるためのプログラム。
JP2016188375A 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム Active JP6900164B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016188375A JP6900164B2 (ja) 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム
US15/707,822 US10740899B2 (en) 2016-09-27 2017-09-18 Image processing apparatus for identifying region within image, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016188375A JP6900164B2 (ja) 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2018055255A JP2018055255A (ja) 2018-04-05
JP2018055255A5 JP2018055255A5 (ja) 2019-11-07
JP6900164B2 true JP6900164B2 (ja) 2021-07-07

Family

ID=61686468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016188375A Active JP6900164B2 (ja) 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US10740899B2 (ja)
JP (1) JP6900164B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6874729B2 (ja) * 2018-04-02 2021-05-19 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN110874752A (zh) * 2018-08-31 2020-03-10 绿源钻石有限公司 宝石估价方法及装置、应用程序产品及可读取记录介质
JP2020123231A (ja) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7408313B2 (ja) * 2019-08-13 2024-01-05 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
US11568623B2 (en) 2019-08-22 2023-01-31 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP7447482B2 (ja) 2019-12-24 2024-03-12 日本電気株式会社 画像処理装置、システム、方法、及びプログラム
JP2022014322A (ja) * 2020-07-06 2022-01-19 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
CN113176979B (zh) * 2021-05-24 2022-11-04 深圳赛安特技术服务有限公司 应用程序异常监控方法、装置、计算机设备及存储介质
CN113673528B (zh) * 2021-08-06 2024-02-09 Oppo广东移动通信有限公司 文本处理方法、装置、电子设备和可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device
JP4393161B2 (ja) * 2003-11-20 2010-01-06 キヤノン株式会社 画像処理装置及び画像処理方法
JP4757001B2 (ja) * 2005-11-25 2011-08-24 キヤノン株式会社 画像処理装置、画像処理方法
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP4733577B2 (ja) * 2006-07-12 2011-07-27 日立コンピュータ機器株式会社 帳票認識装置及び帳票認識プログラム
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5621169B2 (ja) 2010-05-26 2014-11-05 日立オムロンターミナルソリューションズ株式会社 帳票認識装置および帳票認識方法
JP5906843B2 (ja) * 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP6463066B2 (ja) * 2014-07-07 2019-01-30 キヤノン株式会社 情報処理装置、情報処理方法、プログラム

Also Published As

Publication number Publication date
JP2018055255A (ja) 2018-04-05
US20180089835A1 (en) 2018-03-29
US10740899B2 (en) 2020-08-11

Similar Documents

Publication Publication Date Title
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH10116316A (ja) 文字認識方法及び装置
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
KR102094234B1 (ko) 지폐 일련번호 인식 장치 및 방법
JP2898562B2 (ja) ナンバープレート決定方法
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JP2008028716A (ja) 画像処理方法及び装置
JP2003091730A (ja) 画像照合装置、画像照合方法および画像照合プログラム
JP6624120B2 (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
JP2020047138A (ja) 情報処理装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JP6941331B2 (ja) 画像認識システム
JP5213338B2 (ja) 文字認識装置、文字認識方法、コンピュータプログラム
EP4036871A1 (en) Image processing apparatus, image processing method, program and storage medium
JP3157530B2 (ja) 文字切り出し方法
JP2021144673A (ja) 画像処理装置、画像処理方法、およびプログラム
JP2024030715A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210616

R151 Written notification of patent or utility model registration

Ref document number: 6900164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151