JP6148193B2 - 帳票定義作成装置、帳票定義作成方法、および、プログラム - Google Patents

帳票定義作成装置、帳票定義作成方法、および、プログラム Download PDF

Info

Publication number
JP6148193B2
JP6148193B2 JP2014058977A JP2014058977A JP6148193B2 JP 6148193 B2 JP6148193 B2 JP 6148193B2 JP 2014058977 A JP2014058977 A JP 2014058977A JP 2014058977 A JP2014058977 A JP 2014058977A JP 6148193 B2 JP6148193 B2 JP 6148193B2
Authority
JP
Japan
Prior art keywords
item
image
diversion
definition
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014058977A
Other languages
English (en)
Other versions
JP2015184815A (ja
Inventor
克夫 深沢
克夫 深沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2014058977A priority Critical patent/JP6148193B2/ja
Publication of JP2015184815A publication Critical patent/JP2015184815A/ja
Application granted granted Critical
Publication of JP6148193B2 publication Critical patent/JP6148193B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、帳票を電子化し、管理する帳票定義作成装置、帳票定義作成方法、および、プログラムに関する。
従来、紙媒体などの帳票を、スキャナ等の画像読取装置で読取り、画像からOCR(工学文字認識)を行う際に、読取位置や桁数、文字種などを定義した書式定義と呼ばれる読取定義体が用いられている。
OCRの書式定義を新規に作成する場合、(1)帳票をスキャナなどから入力しイメージデータ化し、(2)書式定義プログラムにこの帳票イメージを読み込み、(3)表示されるイメージの上にマウスなどで枠を描くことで読取り位置を設定し、(4)作成した枠に桁数や文字種などを設定することで読み取り項目とする手順となる。このように、新たな帳票にて書式定義を作成する場合、読取項目を一つずつ利用者が定義していく必要があり、項目数が多いときは多くの時間がかかるため、作成する書式定義が多いと書式定義を作成するのに大変な労力を要する。
そのため、類似した帳票の書式定義を作成する場合、1種類の帳票の書式定義を作成し、残りは書式定義を複写した後、読取項目の位置や桁数などを修正することで、工数を少なく書式定義を作成する方法が開発されている(特許文献1〜4参照)。
例えば、<1>新たな帳票をスキャナから入力してイメージデータ化し、書式定義プログラムに読み込み、<2>流用する帳票の書式定義を読み込み、先に読み込んだ帳票イメージの上に読取項目の枠を重ね合わせ、<3>読取項目の枠を帳票イメージの項目に合わせて移動し(桁数や枠のサイズが異なればそれらも変更し)、<4>不要な読取項目があれば削除し、新たな読取項目が必要なら作成する方法が開発されている。
特開平7−160803号公報 特開2001−229341号公報 特開2007−265389号公報 特開2009−53827号公報
しかしながら、書式定義を再利用する従来の方法では、元画像(流用元)と書式定義を新規作成する入力画像(流用先)のデザインが同一であることを前提としており、読取項目の移動や削除については対応できない、という問題点を有していた。
より具体的には、書式定義を流用しようとする場合、印刷やスキャナ入力時の位置ずれや斜行、歪みにより、同一種類の帳票であっても読取項目の位置がずれたり、類似とはいえ別帳票であるため、帳票設計の変更により帳票上の読取項目が移動していたり、マーク項目の間隔が変化していたり、さらには読取項目が無くなっている場合がある。
そのため流用帳票の書式定義を読み込んだ後、利用者が読取項目をひとつひとつ、読取り位置やサイズの調整を行い、かつ、不要になった読取項目を探して削除を行う必要がある。たとえば、従来方法としてはマウスなどで読取項目を複数選択して一括移動するものがあるが、読取項目の位置ずれはすべての読取項目で同一ではないため、一括移動ではすべての読取り位置が合わず、最終的には、利用者がひとつひとつ読取項目の位置の微調整を行なう必要があるという問題点を有していた。
本発明は、上記問題点に鑑みてなされたもので、すでに作成された書式定義を的確に流用することができる、帳票定義作成装置、帳票定義作成方法、および、プログラムを提供することを目的とする。
このような目的を達成するため、本発明の帳票定義作成装置は、文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置であって、上記記憶部は、流用元帳票の書式定義を記憶する書式定義記憶手段と、画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、を備え、上記制御部は、上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索手段と、上記項目位置探索手段による探索結果に基づいて、流用元帳票の読取項目を移動する項目対応付け手段と、を備える。
文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置において実行される帳票定義方法であって、上記記憶部は、流用元帳票の書式定義を記憶する書式定義記憶手段と、画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、を備え、上記制御部において実行される、上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索ステップと、上記項目位置探索手段による探索結果に基づいて、流用元帳票の読取項目を移動する項目対応付けステップと、を含む。
文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置に実行させるためのプログラムであって、上記記憶部は、流用元帳票の書式定義を記憶する書式定義記憶手段と、画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、を備え、上記制御部において、上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索ステップと、上記項目位置探索手段による探索結果に基づいて、流用元帳票の読取項目を移動する項目対応付けステップと、を実行させる。
この発明によれば、流用元と流用先のデザインが異なる場合であっても、流用元の書式定義を的確に流用することができるという効果を奏する。
図1は、本発明が適用される帳票定義作成装置の物理構成の一例を示すブロック図である。 図2は、本発明が適用される帳票定義作成装置の機能構成の一例を示すブロック図である。 図3は、本実施の形態における処理の一例を示すフローチャートである。 図4は、作成された書式定義の例を模式的に示した図である。 図5は、新たにスキャンした帳票画像の例を示す図である。 図6は、図5の帳票画像上において流用元の読取項目をそのまま対応付けた図である。 図7は、全***置決めを行った結果を模式的に示した図である。 図8は、項目位置探索部102cにより設定された探索範囲の例を示す図である。 図9は、ステップSA−6の探索処理の一例を示すフローチャートである。 図10は、読取項目の移動を模式的に示した図である。 図11は、ある位置において、流用元の読取項目の画像と、流用先の帳票画像との、画素ごとの排他的論理和(XOR)を求めた図である。 図12は、ある位置において、流用元の読取項目の画像と、流用先の帳票画像との、画素ごとの排他的論理和(XOR)を求めた図である。 図13は、罫線マッチング手法の一例を示すフローチャートである。 図14は、項目対応付け部102dの制御により、利用者に入力部112を介して項目の対応付けを行わせる例を示す図である。 図15は、探索範囲の重複による競合の例を示した図である。 図16は、競合有無の判断基準を説明するための図である。 図17は、競合を解消させるための評価基準を説明するための図である。 図18は、探索範囲から除外される範囲を示す図である。 図19は、競合解消手法の一例を示すための図である。 図20は、競合リストを追加した例を示す図である。 図21は、削除フラグをつけた例を示す図である。 図22は、項目を更に記入枠に分割し、記入枠ごとに位置決めを行う例を示す図である。
以下に、本発明にかかる帳票定義作成装置、帳票定義作成方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[1.本実施形態の構成]
次に、図1を参照して、帳票定義作成装置の構成について説明する。図1は、本発明が適用される帳票定義作成装置の物理構成の一例を示すブロック図であり、図2は、本発明が適用される帳票定義作成装置の機能構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
図1に示すように、本実施の形態の帳票定義作成装置は、コンピュータ10と、帳票画像を読み取るイメージスキャナ12と、キーボード13と、マウス11と、ディスプレイ14とを備える。なお、図示の物理構成は一例であり、本発明は、必ずしも該構成に限定されるものではない。
図2に機能構成を示すように、本実施の形態の帳票定義作成装置100は、概略的に、制御部102(画像入力制御部102a、全***置決め部102b、項目位置探索部102c、項目対応付け部102d、競合解消部102f)と、記憶部106(書式定義ファイル106a、画像ファイル106b)を備えて構成される。ここで、制御部102は、帳票定義作成装置100の全体を統括的に制御するCPU等である。また、記憶部106は、各種のデータベースやテーブルなどを格納する装置である。これら帳票定義作成装置100の各部は任意の通信路を介して通信可能に接続されている。なお、制御部102および記憶部106は、上述のコンピュータ10にて実現され、入力部112は、上述のイメージスキャナ12やキーボード13やマウス11等にて実現され、出力部114は、上述のディスプレイ14にて実現される。
記憶部106は、ストレージ手段であり、各種のデータベースやテーブル(書式定義ファイル106a、画像ファイル106b等)を格納する。
記憶部106の各構成要素のうち、図1において、書式定義ファイル106aは、文字読取のための書式定義を記憶する書式定義記憶手段である。例えば、書式定義ファイル106aは、流用元帳票の書式定義を記憶してもよい。例えば、利用者がマウス11やキーボード13を操作して、画面に表示される帳票画像上に読取項目を設定し、読取項目の属性(手書き/活字、読取り文字種など)を設定することで、書式定義が作成される。ここで、図4は、作成された書式定義の例を模式的に示した図である。
図4に示すように、書式定義では、帳票画像の座標上で、読取項目が設定されており、読取項目に指定した範囲で、OCRによる読取対象となる。
また、画像ファイル106bは、入力部112の画像読取手段により読取られた帳票の画像および加工画像を記憶する。例えば、画像ファイル106bは、画像読取装置により読取られた流用先帳票の画像を記憶する。また、画像読取手段としての入力部112は、イメージスキャナ12のほか、デジタルカメラ、およびWEBカメラ等を用いることができる。
また、制御部102は、OS(Operating System)等の制御プログラムや、各種の処理手順等を規定したプログラム、および、所要データを格納するための内部メモリを有する。そして、制御部102は、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、図1において、機能概念的に、画像入力制御部102a、全***置決め部102b、項目位置探索部102c、項目対応付け部102d、競合解消部102fを備えて構成されている。
このうち、画像入力制御部102aは、入力部112を制御して、帳票の画像を取得し、画像ファイル106bに格納する。
また、全***置決め部102bは、流用元帳票と流用先帳票の画像全体の位置決めを行う。
また、項目位置探索部102cは、流用元帳票の書式定義に基づく個々の読取項目を、流用先帳票の画像上において探索する。ここで、項目位置探索部102cは、流用先帳票の画像上における対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行ってもよい。例えば、項目位置探索部102cは、全***置決め部102bによる流用元帳票と流用先帳票の画像全体の位置決め結果に基づいて、流用先帳票の画像上における対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行う。これに限られず、項目位置探索部102cは、流用元帳票と流用先帳票の画像において文字認識を行い、流用先帳票の画像上において文字が対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行ってもよい。
また、項目対応付け部102dは、項目位置探索部102cによる探索結果に基づいて、流用元帳票の読取項目を移動させる。項目対応付け部102dは、項目を移動した結果を書式定義において定義して、書式定義ファイル106aに反映させてもよい。ここで、項目対応付け部102dは、項目位置探索部102cによる探索結果にて、対応する読取項目の位置が特定できなかった場合に、当該読取項目を削除する。
また、競合解消部102fは、項目対応付け部102dにより、流用元の複数の読取項目が、互いに領域を共有して対応づけられた場合に、競合を解消させる。例えば、競合解消部102fは、所定の評価基準に従って、当該評価基準に適合するように競合を解消させる。
以上で本帳票定義作成装置100の構成の説明を終える。
[2.本実施形態の処理]
次に、本実施の形態における処理の一例について、以下に図3から図22を参照して詳細に説明する。図3は、本実施の形態における処理の一例を示すフローチャートである。
図3に示すように、画像入力制御部102aは、入力部112の画像読取手段により読取られた紙(帳票)の画像を画像ファイル106bに格納するとともに、出力部114に表示する(ステップSA−1)。
そして、全***置決め部102bは、書式定義ファイル106aから、流用元となる帳票画像と書式定義を読み出す(ステップSA−2,SA−3)。
そして、全***置決め部102bは、流用元画像が、ステップSA−1で取得された流用先画像に重なるように、全体の位置合わせを行う(ステップSA−4)。ここで、図5は、新たにスキャンした帳票画像の例を示す図であり、図6は、図5の帳票画像上において流用元の読取項目をそのまま対応付けた図である。ここで、図中において、破線は、読取項目を表している(以下も同様)。
図5および図6に示すように、流用先の帳票画像の画像を基準として、流用元の帳票画像が流用先帳票画像に重なるように位置合わせ処理を行う場合、画像の左上角を基準点として重ねるような簡単な処理では、図6に示すように、全体的に読取位置がずれてしまう。そこで、全***置決め部102bが、全体的な読取位置のずれを補正する。
より具体的には、全***置決め部102bは、流用元と流用先の双方の帳票画像から抽出した特徴点を対応付けてもよく、帳票の四隅に十字線などの基準点となる記号が予め印刷されている場合は、その記号を検出して全***置合わせを行ってもよい。例えば、全***置決め部102bは、3点の対応付けができれば、アフィン変換のパラメータを求めることができるため、おおざっぱな位置決めが可能となる。また、より簡便な方法として、全***置決め部102bは、利用者が画像全体をマウスでドラッグすることで、位置ずれをおおざっぱに補正してもよい。ここで、図7は、全***置決めを行った結果を模式的に示した図である。
図7に示すように、新規に作成する帳票が流用したものから設計変更されている場合、読取項目の位置ずれや不一致が存在し、このままでは書式定義として使用できない。すなわち、用紙全体の位置ずれにより読取項目の位置がずれたり、枠の相対的な印刷位置が違うため、読取りフィールドの位置がずれる。そのため、本実施の形態は以下の処理を行う。
再び図3に戻り、項目位置探索部102cは、流用元帳票の書式定義に基づく個々の読取項目ごとの探索範囲を決定する(ステップSA−5)。項目位置探索部102cは、全***置決め部102bによる画像全体の位置合せ処理結果において位置ずれを伴った画像上において、読取項目ごとの探索範囲を決定する。図8は、項目位置探索部102cにより設定された探索範囲の例を示す図である。
図8に示すように、全***置決め部102bによりが求められた位置決めパラメータを基準にして、流用元の書式定義の持つ読取項目の位置を補正するために、これに上下左右にマージンをつけて探索範囲を設定する。なお、探索範囲を決めるときのマージンの値は、予め決められた固定値でもよく、また、伸縮率を参考に与えるマージンを決定してもよい。たとえば、全***置決め部102bがアフィン変換のパラメータを求めている場合、おおよその伸縮率を求めることができる。なお、全***置決め部102bは、決定した探索範囲を記憶部106に一時記憶させる。
再び図3に戻り、項目位置探索部102cは、探索範囲にて探索を実行する(ステップSA−6)。例えば、項目位置探索部102cが、項目ごとに探索範囲内をパタンマッチすることで、項目のある位置を検出する。ここで、図9〜図13に具体的な位置合わせの手法の例を示す。図9は、ステップSA−6の探索処理の一例を示すフローチャートである。
図9に示すように、まず、項目位置探索部102cは、流用先帳票画像の探索範囲にて、読取項目を移動させる(ステップSA−61)。図10は、読取項目の移動を模式的に示した図である。例えば、項目位置探索部102cは、探索範囲の初期位置に読取項目を移動させ、処理を繰り返す毎に1ピクセルずつ読取項目をずらしてもよい。すなわち、図10に示すように、項目位置探索部102cは、流用元の帳票画像から読取項目に該当する部分の画像を切り出し、探索範囲内をずらしながら重ね合わせていき、最も合致する箇所を探す手法にて移動させてもよい。
再び図9に戻り、項目位置探索部102cは、移動させた読取項目の画像と、流用先の帳票画像にて不一致の画素数をカウントする(ステップSA−62)。ここで、図11および図12は、ある位置において、流用元の読取項目の画像と、流用先の帳票画像との、画素ごとの排他的論理和(XOR)を求めた図である。
項目位置探索部102cは、項目に該当する画像部分をずらしながら、流用先の帳票画像と画素ごとに排他的論理和(XOR)を求める。これにより一致する画素の値は0、不一致の画素は1となるので、XORを取った後の画素値を合計することで一致度合いを判定できる。図11に示すように、その移動位置においてマッチングできていない場合は、マッチングがずれているため、排他的論理和で求められる画素数が多い。一方、図12に示すように、マッチングが良好の場合、画像が一致するため、排他的論理和にて求められる不一致画素数が少なくなる。
再び図9に戻り、項目位置探索部102cは、不一致画素の画素数がしきい値より少ないか否かを判定する(ステップSA−63)。探索範囲内を走査し、黒画素数がしきい値以下になる箇所を求めることで、合致する箇所を探すことができる。しきい値はたとえば、流用先画像の文字枠の範囲の面積に対する黒画素数の比率としてもよい。なお、流用元と流用先の2枚の画像は別の用紙のため、完全に一致するわけではなく、若干のずれが発生する。ずれの部分が差分として残るが、差分の上限にしきい値を設けることで、若干ずれてもマッチングしたと見なすことができる。
不一致画素数がしきい値よりも大きい場合(ステップSA−63,No)、項目位置探索部102cは、ステップSA−61に処理を戻し、項目位置を移動させて、上述したステップSA−61〜SA−63の処理を繰り返す。
一方、不一致画素数がしきい値よりも小さい場合(ステップSA−63,Yes)、項目位置探索部102cは、マッチング成功と判定する。探索範囲内に複数の文字枠が含まれる場合は、黒画素数がしきい値以下になる箇所を複数残すことで、複数の合致箇所を求めることができる。この際、同じ枠を二重に検出しないよう、合致箇所どうしの間隔がある程度空いたものを選択してもよい。
なお、予め閾値を設定することに限られず、探索範囲を網羅的に探索して、不一致画素数が最小となった位置にてマッチングが成功したと判定してもよい。ここで、マッチング手法の別の例として、図13は、罫線マッチング手法の一例を示すフローチャートである。
図9の上述した手法では文字枠のサイズが伸縮したときにマッチングが困難だが、以下に、図13を参照して説明するように、伸縮に対応したマッチングを行ってもよい。ここで、図13は、罫線で構成される文字枠の場合、罫線パタンを使ったマッチングを行う例である。罫線1本1本を新規帳票中の罫線と対応付けていくことで文字枠を見つけることができる。この方法では合致する罫線の長さに範囲を設けることで、サイズが伸縮したときの対応も容易である。
図13に示すように、まず、項目位置探索部102cは、流用元の帳票の枠を構成するベクトルのうち、最も長いものを1本選択し、それに近いベクトルを流用先帳票から探す(ステップSA−611)。なお、図中の白抜きの線は、選択された最も長い線である。
そして、項目位置探索部102cは、対応するベクトルが見つかると、このベクトルを基準として、流用元の帳票の枠の残りのベクトルの、流用先帳票上での探索範囲を決定する(ステップSA−612)。ここで、図13の破線は、探索範囲を示している。この探索範囲のサイズは、文字枠の伸縮の許容範囲や、イメージの伸縮の上限などから決定する。
そして、項目位置探索部102cは、探索範囲内に、流用元帳票の枠を構成するベクトルと類似の方向・長さのものが存在するか否かを探索する(ステップSA−613)。最終的に、枠全体に対して見つかった本数がしきい値(例えば80%)以上あれば、2つの枠が対応付いたと見なす(特開平11−3431の手法参照)。しきい値は、たとえば、流用画像の文字枠のベクトル本数に対する、見つかった本数の比率とする。
なお、上述した2つの手法のうち、どちらの処理が好ましいかは一意に決まらないため、システム設定で選択できるようにしてもよい。また無条件に削除を行った際も、削除箇所一覧を利用者に表示することが望ましい。なお、利用者が対応付かなかった読取項目を再設定してもよい。
再び図3に戻り、流用元の読取項目の一致パタンが見つかった場合(ステップSA−7,Yes)、項目対応付け部102dは、一致した位置に当該項目を移動させて、書式定義を変更する(ステップSA−8)。
一方、流用元の読取項目の一致パタンが見つからなかった場合(ステップSA−7,No)、項目対応付け部102dは、当該項目を削除または移動する(ステップSA−9)。なお、項目位置探索部102cの処理において一致パタンが見つからない場合、当該項目が新規帳票では削除されている(読取項目が無い)か、読取項目の形が変わったなどで、パタンマッチしなくなった(実際には読取項目がある)可能性が考えられる。この場合、帳票定義作成装置100は、無条件に読取項目の削除を行うか、もし実際には読取項目が存在する場合、新たに読取項目の定義を行ってもよい。ここで、図14は、項目対応付け部102dの制御により、利用者に入力部112を介して項目の対応付けを行わせる例を示す図である。
図14に示すように、項目位置探索部102cにて対応する項目が見つからない旨を利用者にメッセージを出し、その項目の情報を画面に表示する。利用者は帳票の内容から状況を判断し、読取項目が存在しなければ削除し、存在すればマウス等で読取項目を正しい場所に移動する。すなわち、この画面では、対応付かなかった項目が画面の端に一覧表示されるので、利用者はマウスでこれらの項目をイメージ上の正しい場所にドラッグすることで読取項目を再設定することができる。
再び図3に戻り、競合解消部102fは、項目対応付け部102dにより、流用元の複数の読取項目が、互いに領域を共有して対応づけられた場合に、競合を解消させる(ステップSA−10)。ここで、競合の解消手法について、図15〜図22を参照して説明する。図15は、探索範囲の重複による競合の例を示した図である。図中のかぎ括弧にて、探索範囲を示す。
図15に示すように、読取項目が同じ位置に対応付き、競合が発生する場合がある。項目位置探索部102cが探索範囲を決めたとき、項目どうしの距離が近いと、図15に示すように複数の読取項目の探索範囲が重複することが考えられる。この場合、たまたまその読取項目の形状が類似している場合、同じ場所に複数の読取項目を対応付ける可能性がある。これは明らかな競合であるため、重複を解消して1対1の対応付けとする必要がある。そこで、競合解消部102fは競合解消処理を行う。
まず、項目位置探索部102cにより決定した読取項目のうち、競合しているものがあるか否かを調査する。図16は、競合有無の判断基準を説明するための図である。
一例として、図16に示すように、競合解消部102fは、破線で示す読取項目と、白抜きで示す読取項目との重なりが読取項目の面積の20%を越えている場合に、競合と判断してもよい。
次に、競合解消部102fは、競合している読取項目について競合を解消させるための評価値を算定する。ここで、図17は、競合を解消させるための評価基準を説明するための図である。
図17に示すような帳票の評価基準の一例として、以下の基準を設定してもよい。
1) 検出した文字枠のサイズ(流用元と近い方が、評価値が高い)
2) 全***置決めが推定した位置からのずれ(ずれの小さい方が、評価値が高い)
3) 当該読み取り項目の近傍の活字(流用元に同じ活字があれば、評価値が高い)
4) フィールドの並びの妥当性(「姓」項目は「名」項目の左側にある、「フリガナ」項目は「姓名」フィールドの上にある、マーク項目内の枠の順番は逆転しないなど)
例えば、競合解消部102fは、これらの評価基準に基づいて、競合している読取り枠についての評価値を算出してもよい。算出方法として、たとえば、競合解消部102fは、これら4種類の評価のそれぞれに閾値を決め、閾値を越えていれば1、閾値を越えていない或いは不明であれば0を与える。たとえば、競合解消部102fは、1)について、文字枠のサイズの流用元との差が閾値以内であれば1を与え、全***置決めからの位置ずれが閾値以内であれば1を与える等であってもよい。なお、評価値は0と1だけではなく、閾値を複数持つことで0から5までなど多段階の評価値を与えることも可能である。競合解消部102fは、すべての評価の合計をその読取項目の評価値とする。
そして、競合解消部102fは、競合する読取り枠のすべての評価値を付けた後、最も高い評価値を持つ読取り枠が正しいと決定し、その位置に対応付く残りの読取項目の再探索を行う。この際、競合解消部102fは、対応付けが確定した場所は除外するように探索範囲を修正してもよい。ここで、図18は、探索範囲から除外される範囲を示す図である。
図18に示すように、競合解消部102fは、「分」の箇所で読取項目が確定した場合、他の読取項目の探索範囲から、当該確定した読取項目の領域を除外する。
競合解消部102fは、再探索により新たな対応位置が見つかった場合、競合解消の処理を行い、また見つからなかった場合、上述した一致パタンが見つからない場合の処理を行う。このように、競合解消部102fは、探索と競合の解消を繰り返すことで、徐々に読取項目を決定していき、最終的な読取項目の位置決め結果を得ることができる。
競合解消部102fは、評価値が同一の場合、正しい読取項目がどれかを決定することができない。この場合、競合解消部102fは、当該読取項目については利用者にメッセージを表示し、利用者に入力部112を介して競合を解消するよう制御してもよい。この際、すべての競合を解消する方法もあり、またひとつの読取項目を利用者に決定してもらい、競合していた残りの読取項目はシステム側で自動的に再探索を行うことで、正しい位置を決める方法をとることもできる。
また他の方法として、競合解消部102fは、読取項目をランダムにひとつ選択し、それを正しいものとすることもできる。この場合正しい場所に位置づかない可能性もあるが、最終的に利用者が目視確認するため、その段階で利用者が正しい位置に修正することができる。
競合解消部102fは、評価値の低いものを再探索するのではなく、各読取項目について、あらかじめ探索範囲内に対応付く複数の場所を求めておき、それらを評価値の高い順に候補として持つ手法を採用してもよい。こうすると探索が一度で済むので処理時間の短縮が期待できる。
この手法を採る場合のデータ形式を図19に示す。図19は、競合解消手法の一例を示すための図である。
図19に示すように、流用元の書式定義上の各読取り領域は、流用先の帳票上の探索範囲内を探索した結果を、領域座標と評価値の2つの情報として保存する。この際、図19に示すように、候補は評価値の高い順に整列させる。
競合解消部102fは、すべての読取領域について候補を得た後、競合が存在するか否かのチェックを行う。これは、図19のデータ形式にある領域座標を使い、領域の重なりが閾値以上あるものを検出する。重なりが存在した場合、候補データに競合リストを追加する。図20は、競合リストを追加した例を示す図である。ここで、競合は(5,3)のように、競合する読取項目の番号と、その候補Noで表される。競合が存在しないときは空であることを示すNULLを設定する。
次に、競合解消部102fは、各読取項目のうち、評価値の最も高い物をひとつ取り出して競合リストを参照する。競合するものが無ければその読取項目を確定として、次に評価値の高い読み取り項目の処理に移る。競合するものがあれば評価値を比較し、自らの評価値の方が高ければその読取項目を確定し、競合する他の読取項目の候補に削除フラグを付ける。図21は、削除フラグをつけた例を示す図である。なお、同一の場合は先に示した同一のときの処理を行って読取項目を確定する。
図21に示すように、これらの処理をすべての読取項目について行うことで、競合の無い読取項目の対応付けを行う。ここで、図22は、項目を更に記入枠に分割し、記入枠ごとに位置決めを行う例を示す図である。マーク項目の場合、個々のマーク枠の間隔が変わることがあるが、この方法をとることでマーク枠がずれることがなく位置決めが可能となる。マーク枠は同じ形をしたものが並ぶことが多く、競合が起きやすいが、同一マーク項目中の枠の左右・上下の関係は保存される場合が多いため、左右の関係や上下の関係を見て競合を解消する。
再び図3に処理を戻し、以上のように競合が解消されると、項目対応付け部102fは、流用先の書式定義を確定して書式定義ファイル106aに格納し、出力部114にて表示させる。
以上で、本実施の形態における処理の一例の説明を終える。
[3.本実施形態のまとめ、及び他の実施形態]
以上、本実施形態によれば、文字認識用帳票の書式定義を作成する帳票定義作成装置100において、流用元帳票の書式定義を記憶し、画像読取装置により読取られた流用先帳票の画像を記憶し、流用元帳票の書式定義に基づく個々の読取項目を、流用先帳票の画像上において探索し、探索結果に基づいて、流用元帳票の読取項目を移動させる。これにより、既に作成された帳票定義を的確に流用することができる。より具体的には、読み取り項目のパタンだけを使い位置決めを行うため、読取り項目が移動していても、追従して位置決めが可能になる。これにより利用者が読取項目を手で移動する手間を削減できる。
また、本実施形態によれば、項目位置の探索処理を行う前に、流用元帳票と流用先帳票の画像全体の位置決めを行うので、位置ずれを解消させて、全体的な大まかな位置決めを行うことができる。
また、本実施形態によれば、流用先帳票の画像上における対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行うので、探索範囲を限定することで効率よく書式定義を流用することができる。
また、本実施形態によれば、全***置決めによる流用元帳票と流用先帳票の画像全体の位置決め結果に基づいて、流用先帳票の画像上における対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行う。これにより本実施形態は、全***置決めによる大まかな位置を出発点とすることで、効率よく探索を行うことができる。
また、本実施形態によれば、項目対応付けにより、流用元の複数の読取項目が、互いに領域を共有して対応づけられた場合に、競合を解消させるので、本実施形態は、競合がある場合に精度よく検出することができる。すなわち、競合する読取り領域のひとつまたは複数を移動あるいは削除することで、残りの競合する読取り項目の位置を、評価値に基づき自動的に再配置することができる。
また、本実施形態によれば、所定の評価基準に従って、当該評価基準に適合するように競合を解消させるので、評価基準に沿った好適な帳票定義を作成することができる。
また、本実施形態によれば、項目位置の探索結果にて、対応する読取項目の位置が特定できなかった場合に、当該読取項目を削除するので、不要な読取項目を自動的に判別して削除することができる。
さらに、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
例えば、帳票定義作成装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、帳票定義作成装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、帳票定義作成装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、帳票定義作成装置100の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、後述する記録媒体に記録されており、必要に応じて帳票定義作成装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)等の記憶部106は、OS(Operating System)として協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部102を構成する。
また、このコンピュータプログラムは、帳票定義作成装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD、Blu−ray(登録商標) Disc等の任意の「可搬用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部106に格納される各種のデータベース等は、RAM、SSD、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやデータベースやウェブページ用ファイル等を格納する。
また、帳票定義作成装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
以上詳細に説明したように、本発明によれば、既に作成された帳票定義を的確に流用することができる、帳票定義作成装置、帳票定義作成方法、および、プログラムを提供することができ、特にスキャナで読み取った画像に関する画像処理分野で実施する場合に極めて有用である。
10 コンピュータ
11 マウス
12 イメージスキャナ
13 キーボード
14 ディスプレイ
100 帳票定義作成装置
102 制御部
102a 画像入力制御部
102b 全***置決め部
102c 項目位置探索部
102d 項目対応付け部
102f 競合解消部
106 記憶部
106a 書式定義ファイル
106b 画像ファイル
108 入出力制御インターフェース部
112 入力部
114 出力部
104 通信制御インターフェース部
200 外部機器

Claims (10)

  1. 文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置であって、
    上記記憶部は、
    流用元帳票の書式定義を記憶する書式定義記憶手段と、
    画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、
    を備え、
    上記制御部は、
    上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索手段と、
    上記項目位置探索手段による探索結果に基づいて、流用元帳票の読取項目を移動させる項目対応付け手段と、
    上記項目位置探索手段による処理を行う前に、流用元帳票と流用先帳票の画像全体の位置決めを行う全***置決め手段
    を備える帳票定義作成装置。
  2. 請求項に記載の帳票定義作成装置において、
    上記項目位置探索手段は、
    流用先帳票の画像上における対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行う帳票定義作成装置。
  3. 請求項に記載の帳票定義作成装置において、
    上記項目位置探索手段は、
    上記全***置決め手段による流用元帳票と流用先帳票の画像全体の位置決め結果に基づいて、流用先帳票の画像上における対応付けられた読取項目の位置から、所定の範囲内で当該読取項目の探索を行う帳票定義作成装置。
  4. 文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置であって、
    上記記憶部は、
    流用元帳票の書式定義を記憶する書式定義記憶手段と、
    画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、
    を備え、
    上記制御部は、
    上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索手段と、
    上記項目位置探索手段による探索結果に基づいて、流用元帳票の読取項目を移動させる項目対応付け手段と、
    上記項目対応付け手段により、流用元の複数の読取項目が、互いに領域を共有して対応づけられた場合に、競合を解消させる競合解消手段
    を備える帳票定義作成装置。
  5. 請求項に記載の帳票定義作成装置において、
    上記競合解消手段は、
    所定の評価基準に従って、当該評価基準に適合するように競合を解消させる帳票定義作成装置。
  6. 請求項1乃至のいずれか一つに記載の帳票定義作成装置において、
    上記項目対応付け手段は、
    上記項目位置探索手段による探索結果にて、対応する読取項目の位置が特定できなかった場合に、当該読取項目を削除する帳票定義作成装置。
  7. 文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置において実行される帳票定義方法であって、
    上記記憶部は、
    流用元帳票の書式定義を記憶する書式定義記憶手段と、
    画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、
    を備え、
    上記制御部において実行される、
    上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索ステップと、
    上記項目位置探索ステップにおける探索結果に基づいて、流用元帳票の読取項目を移動させる項目対応付けステップと、
    上記項目位置探索ステップの処理を行う前に、流用元帳票と流用先帳票の画像全体の位置決めを行う全***置決めステップと、
    を含むことを特徴とする、帳票定義作成方法。
  8. 文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置において実行される帳票定義方法であって、
    上記記憶部は、
    流用元帳票の書式定義を記憶する書式定義記憶手段と、
    画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、
    を備え、
    上記制御部において実行される、
    上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索ステップと、
    上記項目位置探索ステップにおける探索結果に基づいて、流用元帳票の読取項目を移動させる項目対応付けステップと、
    上記項目対応付けステップにおいて、流用元の複数の読取項目が、互いに領域を共有して対応づけられた場合に、競合を解消させる競合解消ステップと、
    を含むことを特徴とする、帳票定義作成方法。
  9. 文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置に実行させるためのプログラムであって、
    上記記憶部は、
    流用元帳票の書式定義を記憶する書式定義記憶手段と、
    画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、
    を備え、
    上記制御部において、
    上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索ステップと、
    上記項目位置探索ステップにおける探索結果に基づいて、流用元帳票の読取項目を移動させる項目対応付けステップと、
    上記項目位置探索ステップの処理を行う前に、流用元帳票と流用先帳票の画像全体の位置決めを行う全***置決めステップと、
    を実行させるためのプログラム。
  10. 文字認識用帳票の書式定義を作成する、記憶部と制御部を少なくとも備えた帳票定義作成装置に実行させるためのプログラムであって、
    上記記憶部は、
    流用元帳票の書式定義を記憶する書式定義記憶手段と、
    画像読取装置により読取られた流用先帳票の画像を記憶する画像記憶手段と、
    を備え、
    上記制御部において、
    上記流用元帳票の書式定義に基づく個々の読取項目を、上記流用先帳票の画像上において探索する項目位置探索ステップと、
    上記項目位置探索ステップにおける探索結果に基づいて、流用元帳票の読取項目を移動させる項目対応付けステップと、
    上記項目対応付けステップにおいて、流用元の複数の読取項目が、互いに領域を共有して対応づけられた場合に、競合を解消させる競合解消ステップと、
    を実行させるためのプログラム。
JP2014058977A 2014-03-20 2014-03-20 帳票定義作成装置、帳票定義作成方法、および、プログラム Active JP6148193B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014058977A JP6148193B2 (ja) 2014-03-20 2014-03-20 帳票定義作成装置、帳票定義作成方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014058977A JP6148193B2 (ja) 2014-03-20 2014-03-20 帳票定義作成装置、帳票定義作成方法、および、プログラム

Publications (2)

Publication Number Publication Date
JP2015184815A JP2015184815A (ja) 2015-10-22
JP6148193B2 true JP6148193B2 (ja) 2017-06-14

Family

ID=54351300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014058977A Active JP6148193B2 (ja) 2014-03-20 2014-03-20 帳票定義作成装置、帳票定義作成方法、および、プログラム

Country Status (1)

Country Link
JP (1) JP6148193B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021043775A (ja) 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021131659A (ja) * 2020-02-19 2021-09-09 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、及びプログラム
JP2023140051A (ja) 2022-03-22 2023-10-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934989A (ja) * 1995-07-20 1997-02-07 Hitachi Electron Eng Co Ltd Ocr用フォーマットパラメータ作成方法
JPH09204422A (ja) * 1996-01-26 1997-08-05 Casio Comput Co Ltd 読み取りデータ処理装置
JP3394694B2 (ja) * 1997-08-29 2003-04-07 沖電気工業株式会社 フォーマット情報登録方法及びocrシステム
JP2000172779A (ja) * 1998-12-03 2000-06-23 Toshiba Corp Ocrシステム及び同システムに適用する読取制御情報の作成方法
JP2001084254A (ja) * 1999-09-10 2001-03-30 Toshiba Corp 電子ファイリングシステムおよびファイリング方法
JP2002298081A (ja) * 2001-03-30 2002-10-11 Toshiba Corp 光学的文字認識装置及び帳票読取定義体のフィールド定義方法
JP2005092597A (ja) * 2003-09-18 2005-04-07 Trans Cosmos Inc 文書読み取り装置、そのプログラム、スキャナ装置、不可視画像印刷制御装置、そのプログラム及びシート状媒体
JP2007279828A (ja) * 2006-04-03 2007-10-25 Toshiba Corp 帳票処理装置、帳票様式作成装置、帳票、帳票処理用のプログラム、帳票様式作成用のプログラム
JP2007323474A (ja) * 2006-06-02 2007-12-13 Nec Corp Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体
JP4867941B2 (ja) * 2008-03-24 2012-02-01 沖電気工業株式会社 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム
JP2011013960A (ja) * 2009-07-02 2011-01-20 Ricoh Co Ltd 情報処理装置、電子時刻表表示方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2015184815A (ja) 2015-10-22

Similar Documents

Publication Publication Date Title
CN109543501B (zh) 图像处理装置、图像处理方法和存储介质
US10984233B2 (en) Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image
JP5059545B2 (ja) 画像処理装置及び画像処理方法
JPH113430A (ja) 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
JP2014092899A (ja) 画像処理装置及び画像処理プログラム
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP6148193B2 (ja) 帳票定義作成装置、帳票定義作成方法、および、プログラム
US20230206672A1 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
US20090265605A1 (en) Fixed-form information management system, method for managing fixed-form information, and computer readable medium
JP2013229011A (ja) 帳票識別装置および帳票識別方法
JP2012098984A (ja) 帳票データ補正方法および帳票データ補正プログラム
JP6931168B2 (ja) 情報処理装置、制御方法、プログラム
JP2011237905A (ja) データエントリシステムおよびデータエントリ方法
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JP2014006758A (ja) 保存文書出庫管理システム及び保存文書出庫管理方法
JP6700705B2 (ja) 振り分けシステム、情報処理方法、及びプログラム
JP6947971B2 (ja) 情報処理装置、制御方法、プログラム
US11163992B2 (en) Information processing apparatus and non-transitory computer readable medium
WO2016170690A1 (ja) 入力制御プログラム、入力制御装置、入力制御方法、文字修正プログラム、文字修正装置、及び文字修正方法
JP2020181405A (ja) 積算業務支援システム及び積算業務支援プログラム
JP2005071014A (ja) 文書画像処理装置、方法、プログラムおよび記憶媒体
JP7516170B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP2015156166A (ja) 地図補正方法、及び地図補正装置
JP2020047138A (ja) 情報処理装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20151005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170518

R150 Certificate of patent or registration of utility model

Ref document number: 6148193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150