JP2020087112A - 帳票処理装置および帳票処理方法 - Google Patents

帳票処理装置および帳票処理方法 Download PDF

Info

Publication number
JP2020087112A
JP2020087112A JP2018222392A JP2018222392A JP2020087112A JP 2020087112 A JP2020087112 A JP 2020087112A JP 2018222392 A JP2018222392 A JP 2018222392A JP 2018222392 A JP2018222392 A JP 2018222392A JP 2020087112 A JP2020087112 A JP 2020087112A
Authority
JP
Japan
Prior art keywords
character string
definition data
form definition
reading
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018222392A
Other languages
English (en)
Inventor
健太 高野橋
Kenta Takanohashi
健太 高野橋
新庄 広
Hiroshi Shinjo
広 新庄
良介 大館
Ryosuke Odate
良介 大館
直行 寺下
Naoyuki Terashita
直行 寺下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018222392A priority Critical patent/JP2020087112A/ja
Publication of JP2020087112A publication Critical patent/JP2020087112A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】多種の帳票が混在する場合においても、コストの増大を抑制しつつ、帳票の読取り精度を向上させる。【解決手段】位置照合部104は、帳票画像データ113および帳票定義データ110bを入力とし、帳票定義データ110bに含まれる位置情報111bに基づいて、読取り対象文字列の候補となる文字列画像114を帳票画像データ113から抽出し、文字認識部105は、文字列画像114と入力とし、その文字列画像114に基づいて文字認識処理を実施し、属性照合部106は、文字コード115と帳票定義データ110bを入力とし、簡易帳票定義データ110bに含まれる属性情報112bを用いた文字コード115に対する照合結果に基づいて読取結果116を決定する。【選択図】図1

Description

本発明は、帳票を読取り可能な帳票処理装置および帳票処理方法に関する。
従来、帳票上の文字列を認識するとき、認識すべき文字列の位置、属性、文字種、文字列の周囲の枠線のサイズや種類、枠線中に書かれているプレ印刷文字などを帳票定義データとして予め登録し、その帳票定義データに基づいて文字領域を決定して認識を行っていた。
また、多数の種類の帳票が混在した環境で処理を行う場合には、帳票定義データを複数登録し、処理対象の帳票種を特定した上で、適切な帳票定義データを選択する必要があった。一方、帳票定義データを利用せずに、帳票中の項目名や項目値の候補を自動的に抽出し、それらの位置関係などから尤もらしい読取り項目を決定する技術もあった。
帳票定義データを作成する技術に関しては、例えば、特許文献1に記載の技術がある。特許文献1には、「指定された読取り領域周辺あるいは内部のプレ印刷文字、記入文字と定義画像データ入力時に自動抽出した枠、罫線等のレイアウト情報を基にして定義データの自動作成を行う」という記載がある。
帳票種を特定する技術に関しては、例えば、特許文献2に記載の技術がある。特許文献2には、「本発明では、登録用カラー帳票画像の画素値の度数分布と、処理対象のカラー帳票画像の画素値の度数分布を作成する。各色成分毎に度数分布の相関係数を算出し、相関係数からカラー画像間の類似度を算出する。最も高い類似度が所定値以上のとき、類似度が最高値をとる登録カラー画像が、処理対象のカラー帳票画像と同一種であると判定する」という記載がある。
帳票定義データを用いることなく帳票上の文字列を認識する技術に関しては、例えば、特許文献3に記載の技術がある。特許文献3には、「帳票画像から文字列領域を検出する文字列検出部と、前記文字列領域の個々の文字を認識する文字列認識部と、帳票画像内の文字列に対し、当該文字列が項目名である確率を表す項目名尤度を計算する項目名尤度計算部と、帳票画像内の文字列に対し、当該文字列が表記辞書に登録された単語や文字列の文法表記ルールに一致する確率を表す項目値尤度を計算する項目値尤度計算部と、帳票画像内の文字列ペアに対し、当該文字列ペアの文字列の枠または文字列矩形に基づいて、当該文字列ペアの配置関係が項目名−項目値関係として妥当であるかを表す配置尤度を計算する配置尤度計算部と、前記項目名尤度、項目値尤度、配置尤度を基に、当該文字列ペアの項目名−項目値としての尤もらしさを表す評価値を計算する項目名−項目値関係評価値計算部と、前記項目名−項目値関係評価値計算部の出力する前記評価値により、帳票画像内での項目名−項目値関係の対応付けを決定する項目名−項目値関係決定部を有することを特徴とする」という記載がある。
特開2004−258706号公報 特開2002−24829号公報 特開2002−24829号公報
しかしながら、特許文献1、2の技術では、処理の対象となる帳票種の多様な状況が想定されていない。
すなわち、特許文献1の技術においては、帳票定義データ作成の一部自動化が実現されているものの、多種の帳票定義を作成するためには、高いコストが発生していた。特許文献2の技術においては、帳票種が多く、多種の帳票が混在する場合に精度良く文字列を見分けることが困難だった。
特許文献3では、項目名が存在せず、項目値のみが書かれた帳票については読取りが困難だった。また、項目名に対応する尤もらしい項目値の候補が複数存在する場合に帳票の読取り精度が低下することがあった。
本発明は、上記事情に鑑みなされたものであり、その目的は、多種の帳票が混在する場合においても、コストの増大を抑制しつつ、帳票の読取り精度を向上させることが可能な帳票処理装置および帳票処理方法を提供することにある。
上記目的を達成するため、第1の観点に係る帳票処理装置は、帳票画像データから抽出された文字列画像の位置情報と、読取り対象文字列に対して定義された位置情報との照合結果に基づいて、前記読取り対象文字列の候補となる文字列画像を決定する位置照合部と、前記読取り対象文字列の候補となる文字列画像に基づいて文字認識を行う文字認識部と、前記文字認識部による文字認識結果の属性と、前記読取り対象文字列に対して定義された属性情報との照合結果に基づいて、前記読取り対象文字列の候補となる文字列画像の読取結果を決定する属性照合部とを備える。
本発明によれば、多種の帳票が混在する場合においても、コストの増大を抑制しつつ、帳票の読取り精度を向上させることができる。
図1は、第1実施形態に係る帳票処理装置の構成を示すブロック図である。 図2は、帳票定義データの作成者に提示される帳票画像データの画面表示例を示す図である。 図3は、第1実施形態に係る帳票処理装置で用いられる簡易帳票定義データのデータ構造の一例を示す図である。 図4は、帳票画像データから抽出された特徴量と帳票定義データとの対応関係を示す図である。 図5は、第1実施形態に係る帳票処理装置の処理を示すフローチャートである。 図6は、第2実施形態に係る帳票処理装置の構成を示すブロック図である。 図7は、第2実施形態に係る帳票処理装置の処理を示すフローチャートである。 図8は、第3実施形態に係る帳票処理装置のハードウェア構成を示すブロック図である。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素およびその組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、第1実施形態に係る帳票処理装置の構成を示すブロック図である。
図1において、帳票処理装置は、スキャナ101、特徴抽出部102、帳票定義データベース103、位置照合部104、文字認識部105、属性照合部106、読取結果データベース107および帳票定義データ作成部108を備える。帳票定義データ作成部108は、ディスプレイ109に接続されている。
スキャナ101は、帳票を入力とし、図示しないランプを用いて光を帳票に照射し、その透過光を図示しない撮像素子を利用して電気信号へと変換し、帳票画像データ113として出力する。帳票画像データ113は、帳票に記入されている文字列の文字列画像を含む。スキャナ101は、カラー帳票画像データを出力してもよいし、モノクロ帳票画像データを出力してもよい。スキャナ101は、ノイズ、モアレおよび裏写りなどを軽減する前処理を帳票画像データ113に適用してもよい。
特徴抽出部102は、帳票画像データ113を入力とし、予め定められた複数の特徴に関する特徴量114a、114bを帳票画像データ113から抽出し、帳票定義データベース103に出力する。帳票画像データ113の特徴としては、例えば、帳票全体の輝度ヒストグラム情報、帳票に記載された枠線の接続関係、枠線の交点の接続関係などを設定することができる。特徴抽出部102は、帳票画像データ113に含まれる特徴を数値化することで特徴量114a、114bを抽出する。
特徴量114aは、帳票定義データ作成部108で作成された帳票定義データ110aと紐付けされた状態で帳票定義データベース103に格納される。特徴量114bは、位置照合部104および属性照合部106に出力する帳票定義データ110bを帳票定義データ110aから選択するために用いられる。このとき、帳票定義データベース103は、特徴量114bを特徴量114aと比較し、その比較結果に基づいて帳票定義データ110bを選択することができる。
帳票定義データベース103は、特徴量114aと特徴量114bとの比較結果に基づいて帳票定義データ110bを選択することにより、帳票定義データ110bの抽出の信頼性を向上させることが可能になる。
特徴抽出部102は、機械学習を用いて帳票画像データ113から特徴を抽出してもよい。例えば、多数の帳票画像データ113を収集し、帳票種でカテゴリ分けする。次に、前段が畳み込み層、後段が全結合層のニューラルネットワークモデルを設定し、入力を帳票画像データ113、出力を帳票種として、収集した帳票画像データを教師データとして用いて多クラス識別器を構築する。以上の手順で構築したニューラルネットワークモデルの畳み込み層を特徴抽出器として利用できる。このとき、ニューラルネットワークモデルの畳み込み層に帳票画像データ113を入力すると、特徴量114a、114bが出力される。
このように、機械学習を用いて特徴を抽出することで、特徴の選択と特徴抽出器の構築を自動化することができる。また、多クラス識別器を精度良く構築できた場合には、多クラス識別器から取り出した畳み込み層も、帳票画像の特徴を精度良く抽出する特徴抽出器であることが期待できる。
帳票定義データ作成部108は、帳票画像データ113を入力として、帳票画像データ113を帳票定義データ110aの作成者に提示する。そして、帳票定義データ作成部108は、作成者の読取り対象文字列の位置と属性の指定に基づいて、帳票定義データ110aを作成し、帳票定義データベース103に出力する。
図2は、帳票定義データの作成者に提示される帳票画像データの画面表示例を示す図である。
図2において、画面301は、図1のディスプレイ109に表示される。画面301は、帳票画像データ113、カーソル303および確定ボタン304を表示する。
帳票定義データ110aの作成者は、図示しないポインティングデバイスを用いてカーソル303を画面301上で移動させることができる。ポインティングデバイスとしては、例えば、マウス、タッチペンまたはタッチパネルなどを用いることができる。
帳票定義データ110aの作成者は、例えば、帳票画像データ113の位置P1〜P4に記入された文字列が読取り対象文字列として定義された帳票定義データ110aを作成するものとする。
このとき、帳票定義データ110aの作成者は、帳票画像データ113の各位置P1〜P4と、各位置P1〜P4の文字列の属性を指定する。
例えば、帳票定義データ110aの作成者は、帳票画像データ113の位置P2と、位置P2の文字列の属性を指定するものとする。このとき、帳票定義データ110aの作成者は、位置P2の左上座標P2−1をカーソル303で指し示し、ポインティングデバイスのボタンを押下することで、帳票画像データ113の位置P2の左上座標P2−1が、位置P2の読取り対象文字列の位置情報111aとして定義される。また、帳票定義データ110aの作成者は、位置P2の右下座標P2−2をカーソル303で指し示し、ポインティングデバイスのボタンを押下することで、帳票画像データ113の位置P2の右下座標P2−2が、位置P2の読取り対象文字列の位置情報111aとして定義される。
このとき、画面301は、位置情報111aが示す範囲を矩形で表示する。例えば、画面301は、位置P2の読取り対象文字列について、対向する頂点として左上座標P2−1および右下座標P2−2を持つ矩形を表示する。
次に、帳票定義データ110aの作成者は、例えば、位置P2の読取り対象文字列について、左上座標P2−1および右下座標P2−2が設定された状態で、位置P2を表す矩形内をカーソル303で指し示し、ポインティングデバイスのボタンを押下することで、予め決められた属性群を表示させる。そして、帳票定義データ110aの作成者は、その属性群から属性を指定することで、その指定した属性が、位置P2の読取り対象文字列の属性情報112aとして定義される。このとき、位置P2の読取り対象文字列の属性情報112aが、位置P2を表す矩形の近辺に表示される。例えば、位置P2の読取り対象文字列の属性情報112aが支店名である場合、支店名という属性情報112aが、位置P2を表す矩形の近辺に表示される。
また、帳票定義データ110aの作成者は、読取り対象文字列について、属性情報112aが設定された状態で、位置情報111aを表す矩形をカーソル303で指し示し、ポインティングデバイスのボタンを押下することで、予め決められた属性群を表示させる。そして、帳票定義データ110aの作成者は、その属性群から、現在設定されている属性情報112とは異なる属性を指定することで、現在設定されている属性情報112aとは異なる属性が、カーソル303で指し示した位置の読取り対象文字列の属性情報112aとして定義される。このとき、新たに定義された属性情報112aが、カーソル303で指し示した位置を表す矩形の近辺に表示される。
帳票定義データ110aの作成者は、以上の操作を繰り返すことで、帳票画像データ113の各位置P1〜P4について、各読取り対象文字列の位置情報111aと属性情報112aとの組を定義する。
そして、帳票定義データ110aの作成者は、帳票画像データ113の各位置P1〜P4について、読取り対象文字列の位置情報111aと属性情報112aとの組を設定すると、確定ボタン304をカーソル303にて指し示し、ポインティングデバイスのボタンを押下することにより、読取り対象文字列の位置情報111aと属性情報112aとの組を確定させる。
帳票定義データ作成部108は、読取り対象文字列の位置情報111aと属性情報112aとの組が確定されると、読取り対象文字列の位置情報111aと属性情報112aとの組が定義された帳票定義データ110aを作成し、帳票定義データベース103に出力する。
このように、図2の画面構成をとることで、帳票定義データ110aの作成者は、ポインティングデバイスを用いた簡単な操作で位置情報111と属性情報112を簡単に設定することが可能となり、帳票定義データ110aを低コストで作成することができる。
帳票定義データベース103は、帳票定義データ110aの作成時には、帳票画像データ113の特徴量114aに紐付けて、その帳票画像データ113についての帳票定義データ110aを格納する。また、帳票定義データベース103は、帳票の読取り時には、帳票画像データ113の特徴量114bに基づいて、帳票定義データ110bを選択する。そして、帳票定義データ110bに含まれる位置情報111bを位置照合部104に出力し、帳票定義データ110bに含まれる属性情報112bを属性照合部106に出力する。
すなわち、帳票定義データベース103は、帳票定義データ110aの作成時には、帳票定義データ110aと、帳票定義データ110aを作成したときに利用した帳票画像データ113から特徴抽出部102で抽出された特徴量114aを入力とし、帳票定義データ110aと特徴量114aを紐付けて記憶する。
帳票定義データベース103は、帳票定義データ110aと特徴量114aが新たに入力される度に、帳票定義データ110aと特徴量114aを紐付けて追記することで、複数の帳票定義データ110aを格納する。
また、帳票定義データベース103は、帳票の読取り時には、特徴量114bを入力とし、その入力された特徴量114bに基づいて、帳票定義データ110aの中から帳票定義データを1つ以上抽出し、帳票定義データ110bとして出力する。
すなわち、帳票定義データベース103は、すべての記憶した特徴量114aに対し、入力された特徴量114bとの距離Dを数式1に従って算出し、特徴量114bとの距離Dが予め設定された閾値TD以下の特徴量114aに紐付けられた帳票定義データ110aを帳票定義データ110bとして出力する。
Figure 2020087112

ここで、Faは特徴量114aを示すベクトル、Fbは特徴量114bを示すベクトル、・はドット積を示す。
このとき、帳票定義データベース103は、特徴量の観点で類似した帳票画像データ113に紐付けられた帳票定義データタ110bを抽出することができる。
帳票定義データベース103は、帳票定義データ110bを1つ以上抽出できなかった場合、帳票定義データ110bの取得に失敗したとみなしてもよい。帳票定義データ110bの取得に失敗した場合の動作は、図5のフローチャートを用いて後述する。
位置照合部104は、帳票画像データ113および帳票定義データ110bを入力とし、帳票定義データ110bに含まれる位置情報111bに基づいて、読取り対象文字列の候補となる文字列画像114を帳票画像データ113から抽出し、文字認識部105に出力する。
このとき、位置照合部104は、帳票画像データ113に含まれるすべての文字列を抽出する必要はなく、帳票定義データ110bで定義された読取り対象文字列を漏れなく抽出できればよい。言い換えれば、位置照合部104は、通常では読取り対象文字列にはならない帳票名、表中の項目名、各種注意書きに関する文字列画像などは抽出しなくてもよい。また、一般に帳票の端部付近に読取り対象文字列が含まれることは少ないため、位置照合部104は、帳票の端部以外から文字列画像114を抽出するようにしてもよい。
このように、読取り対象文字列の位置を定義することにより、帳票画像データ113から抽出される文字列画像114を減少させることができ、読取り精度を維持しつつ、処理の高速化を図ることができる。
位置照合部104における帳票画像データ113からの文字列画像の抽出は任意の方法を用いることができる。例えば、特許2991761号公報に記載されている方法を用いるようにしてもよい。
次に、位置照合部104は、帳票画像データ113から抽出した文字列画像に対し、位置情報111bで指定される位置から最短距離となる文字列画像114を数式2に従って決定し、文字認識部105に出力する。すなわち、位置照合部104は、位置情報111bで指定される位置の最も近くに存在する文字列画像114を抽出し、文字認識部105に出力する。
Figure 2020087112
ここで、Laは、文字列画像の抽出元の中心座標、Lbは、帳票定義データ110bに含まれる位置情報111bの中心座標である。この中心座標は、位置情報111bに含まれる左上座標P2−1と左上座標P2−2の平均値で求められる。なお、帳票画像データ113から抽出した文字列画像が複数存在する場合、それらの文字列画像を添字iで区別する。
帳票定義データ110bに複数の位置情報111bが含まれている場合、位置照合部104は、それぞれの位置情報111bに対して、数式2に従って最短距離となる文字列画像114を決定し、文字認識部105に出力する。
帳票定義データベース103から出力された帳票定義データ110bが複数存在するとき、位置照合部104は、前述の方法でそれぞれの帳票定義データ110bに対して最短距離となる文字列画像を決定する。
次に、位置照合部104は、それぞれの帳票定義データ110bに対して数式3に従って評価値Eを算出し、評価値Eが最小となる帳票定義データ110bに基づいた文字列画像114を決定し、文字認識部105に出力する。
Figure 2020087112
ここで、L´aは、各帳票定義データ110bに対して決定された文字列画像の抽出元の中心座標、Lbは、位置情報111bの中心座標を示す。この中心座標は、位置情報111bに含まれる左上座標P2−1と左上座標P2−2の平均値で求められる。帳票定義データ110bに位置情報110bが複数存在する場合、添字jで区別する。
位置照合部104は、その処理の途中経過および結果が信頼できないとみなされる状況になったならば、位置の照合に失敗したとみなしてもよい。例えば、位置照合部104は、、最小の評価値Eが、予め設定された閾値TEを超えた場合、位置の照合に失敗したものとみなすことができる。位置の照合に失敗した場合の動作は、図5のフローチャートを用いて後述する。
文字認識部105は、文字列画像114と入力とし、その文字列画像114に基づいて文字認識処理を実施し、文字認識結果を文字コード115として出力する。
すなわち、文字認識部105は、文字列画像114を文字単位に切り出した後、それぞれの文字を特徴量に変換し、図示しない文字データベースに登録されている文字の特徴量との距離を計算し、最短距離の文字コード115を属性照合部106に出力する。
文字認識部105は、その処理の途中経過および結果が信頼できないとみなされる状況になったならば、文字認識に失敗したとみなしてもよい。例えば、文字認識部105は、特徴量間の最短距離が、予め設定された閾値を越えた場合に、信頼度が高い文字認識ができなかったものとし、文字認識に失敗したとみなすことができる。文字認識に失敗した場合の動作は、図5のフローチャートを用いて後述する。
属性照合部106は、文字コード115と帳票定義データ110bを入力とし、簡易帳票定義データ110bに含まれる属性情報112bを用いた文字コード115に対する照合結果に基づいて読取結果116を決定し、読取結果データベース107に出力する。
すなわち、属性照合部106は、読取り対象文字列の属性の種類に応じた検証処理を予め用意しておき、属性情報112bに従って文字コード115の照合処理を行い、文字コード115が示す属性が確からしい場合には、その文字コード115を読取結果116として出力する。
例えば、属性照合部106は、属性「銀行名」の検証処理として、「図示しない全国の銀行名を格納した銀行名データベースに対して文字列を問い合わせ、その銀行名データベースに文字列が含まれていたならば、文字列が属性「銀行名」として確からしいとみなす」検証処理を用意することができる。
また、例えば、属性照合部106は、属性「口座番号」の検証処理として、「文字列が7桁以下の数字で構成されていれば、文字列が確からしいとみなす」検証処理を用意することができる。
属性照合部106は、その処理の途中経過および結果が信頼できないとみなされる状況になったならば、属性の照合に失敗したとみなしてもよい。例えば、属性照合部106は、属性「銀行名」の検証処理において、銀行名データベースに文字列が含まれていなかった場合に、属性の照合に失敗したとみなすことができる。属性の照合に失敗した場合の動作は、図5のフローチャートを用いて後述する。
読取結果データベース107は、読取結果116を入力とし、その読取結果116を記憶する。また、読取結果データベース107は、読取結果116をユーザに提示し、ユーザによって修正された読取結果を読取結果データベース107に格納する読取結果修正部(図示しない)から、読取結果116の呼び出しあるいは格納の要求があれば、それぞれの要求に従う。
図3は、第1実施形態に係る帳票処理装置で用いられる簡易帳票定義データのデータ構造の一例を示す図である。
図3において、帳票定義データ110aは、読取り対象文字列の位置情報111aと属性情報112aの組を複数個格納したデータ構造を持つ。例えば、図2の帳票画像データ113の各位置P1〜P4に記入されている文字列を読取り対象文字列1〜4とすることができる。このとき、帳票定義データ110aには、読取り対象文字列1〜4ごとに、位置情報111aと属性情報112aの組が登録される。
位置情報111aは、読取り対象文字列の左上座標P2−1および左上座標P2−2をそれぞれ帳票画像データ113の解像度における1ピクセル単位で表現することができる。
ただし、位置情報111aは、1ピクセル単位に限定されるものではない。例えば、位置情報111は、帳票画像データ113の解像度より荒い単位、例えば2ピクセル単位または5ピクセル単位で、左上座標P2−1および左上座標P2−2を保持してもよい。このとき、画面301は、位置情報111aの保持に用いられる単位で、読取り対象文字列の位置を示す矩形を表示するようにしてもよい。
また、位置情報111aは、図1のスキャナ101に入力された帳票を基準としてミリメートル単位で保持してもよい。この場合、画面301は、適切なスケーリング処理を実施して、読取り対象文字列の位置を示す矩形を表示するようにしてもよい。この単位の設定は、帳票読取装置全体における読取り精度と関連し、単位を荒くすれば帳票定義を素早く行うことができるようになるが、読取り精度は低下するため、このバランスをみて設定するのがよい。
このように読取り対象文字列の位置情報111aを設定することにより、帳票定義データ110aの情報量を低減し、記録量が低減できるだけでなく、帳票定義データ生成部108において、必要以上に高い精度で手間をかけて帳票定義データ110aが生成されるのを抑制できる。
属性情報112aは、読取り対象文字列の種類を示す情報である。例えば、金融分野の帳票では、銀行名、支店名、口座種別、口座番号、振込日、名義および住所などを属性情報112aとして設定することができる。
このように、帳票定義データ110aは、位置情報111aと属性情報112aを含み、通常の定義データに含まれるような、枠形状、文字数、手書き・活字、プレ印刷文字および文字ピッチなどの情報を含まない。このため、帳票定義データ作成部108によって帳票定義データ110aを容易に作成でき、帳票定義データ110aの作成にかかる手間およびコストを削減できる。
図4は、帳票画像データから抽出された特徴量と帳票定義データとの対応関係を示す図である。なお、図4の例では、個々の特徴量114a、114bが2つの特徴量A、Bのから構成される場合を示した。
図4において、帳票定義データベース103は、各帳票定義データ110aを、その帳票定義データ110aの作成に用いた帳票画像データ113の特徴量114aと紐付けて記憶する。そして、帳票定義データベース103は、特徴抽出部102から特徴量114bが入力されると、特徴量114bとの距離Dが閾値TD以下の特徴量114aに紐付けられた帳票定義データ110aを選択し、その選択した帳票定義データ110aを帳票定義データ110bとして出力する。
図5は、第1実施形態に係る帳票処理装置の処理を示すフローチャートである。
図5において、ステップS101では、スキャナ101は、帳票をスキャンし、帳票画像データ113に変換し、帳票画像データ113を特徴抽出部102、位置照合部104および帳票定義データ作成部108に出力する。
次に、ステップS102において、特徴抽出部102は、帳票画像データ113から特徴量114a、114bを抽出し、帳票定義データベース103に出力する。
次に、ステップS103aにおいて、帳票定義データベース103は、特徴量114bに対応する帳票定義データ110bを1つ以上抽出する。
次に、ステップS103bにおいて、帳票定義データベース103は、ステップS103aにおける帳票定義データ110bの取得に失敗したかどうかを判断する。帳票定義データ110bの取得に成功した場合、ステップS104aに進み、帳票定義データ110bの取得に失敗した場合、ステップS108aに進む。
次に、ステップS104aにおいて、位置照合部104は、帳票定義データ110bに含まれる位置情報111bに基づいて、帳票画像データ113から文字列画像114を抽出する。
次に、ステップS104bにおいて、位置照合部104は、ステップS104aにおける位置の照合に失敗したかどうかを判断する。位置の照合に成功した場合、ステップS105aに進み、位置の照合に失敗した場合、ステップS108aに進む。
次に、ステップS105aにおいて、文字認識部105は、文字列画像114を文字認識し、文字コード115へ変換する。
次に、ステップS105bにおいて、文字認識部105は、ステップS105aにおける文字の認識に失敗したかどうかを判断する。文字の認識に成功した場合、ステップS106aに進み、文字の認識に失敗した場合、ステップS108aに進む。
次に、ステップS106aにおいて、属性照合部106は、帳票定義データ110bに含まれる属性情報112bに基づいて文字コード115を検証し、文字コード115の読取結果116を得る。
次に、ステップS106bにおいて、属性照合部106は、ステップS106aにおける属性の照合に失敗したかどうかを判断する。属性の照合に成功した場合、ステップS107に進み、位置の照合に失敗した場合、ステップS108aに進む。
次に、ステップS107において、読取結果データベース107は、属性照合部106から出力された読取り結果116を格納する。
次に、ステップS108aにおいて、帳票定義作成部108は、帳票定義データ110aを作成する必要があるか判断する。帳票定義データ110aを作成する必要がある場合、ステップS108bに進み、帳票定義データ110aを作成する必要がない場合、処理を終了する。
帳票定義データを作成する必要があるのは、帳票が正しく読取りできなかったと推定される場合である。具体的には、次の場合である。
(1)ステップS103aにおいて、帳票定義データ110bの取得に失敗した場合。
(2)ステップS104aにおいて、位置の照合に失敗した場合。
(3)ステップS105aにおいて、文字認識に失敗した場合。
(4)ステップS106aにおいて、属性の照合に失敗した場合。
(5)ステップS103aにおいて、出力された帳票定義データ110bが信頼できない場合。すなわち、TD’<TDなる閾値TD’を予め設定したとき、閾値TD’<距離D<閾値TDの関係を満たす場合。
(6)ステップS104aにおいて、出力された文字列画像114が信頼できない場合。すなわち、TE’<TEなる閾値TE’を予め設定したとき、閾値TE’<距離E<閾値TEの関係を満たす場合。
(7)図示しない読取結果の修正ステップにおいて、読取結果データベース107に格納された読取結果116が修正された場合。
次に、ステップS108bにおいて、帳票定義作成部108は、帳票画像データ113に基づいて、帳票定義データ110aを生成する。
次に、ステップS103cにおいて、帳票定義データベース103は、帳票定義データ110aを格納し、処理を終了する。
なお、ステップS104bあるいはステップS105bあるいはステップS106bに関しては、それぞれ省略することも可能である。この動作を採用したとき、読取り対象文字列が複数ある場合に、一部の文字列の読取に失敗しても、処理を完遂させることが可能である。
以上説明したように、上述した第1実施形態によれば、多種の帳票が混在する環境下でも、低コストで高精度の帳票読取りが実現できる。すなわち、位置情報111aと属性情報112aのみから成る帳票定義データ110aを簡便な方法で生成することで、帳票定義データ110aの作成のコストを削減することが可能となる。また、帳票定義データ110bの位置情報111bに基づいて候補となる文字列を帳票から抽出し、帳票定義データ110bの属性情報112bに基づいて文字列を検証することで、読取りの精度を担保することができる。ここで、帳票定義データ110bで定義された位置情報111bと属性情報112bに基づいて、帳票から抽出された文字列画像の読取結果116を決定でき、項目名が帳票にない場合においても、帳票読取りが実現できる。また、読取処理に失敗した場合に、帳票定義データ110aを新たに生成することで、同様の帳票が次に入力されたときに読取りに成功する可能性を上げることができる。
また、ステップS103bあるいはステップS104bあるいはステップS105bあるいはステップS106bにおいて処理に失敗した場合、ステップS103cにおいて、新たな帳票定義データ110aを帳票定義データベース103に格納した後、ステップS102に進み、同じ帳票画像データ113に対して処理するようにしてもよい。
本動作によって、帳票定義データ110aを新たに作成するだけで、一度読取りに失敗した帳票に対して自動的に再読取り処理が実行されるため、失敗した読取結果をユーザが手作業で修正する手間を削減することができ、さらに新たに作成した帳票定義データ110aによって帳票が読めるようになったのか即座に確認することが可能になる。また、帳票が読めるようになるまで、帳票定義データ110aを修正することも容易にできるようになるため、帳票定義データ110aの品質の向上も図ることができる。
図6は、第2実施形態に係る帳票処理装置の構成を示すブロック図である。
図6の帳票処理装置には、図1の帳票処理装置に定義レス読取部201が追加されている。図5のステップS103b、S104b、S105b、S106bのいずれかで処理に失敗したと判断された時に、定義レス読取部201は動作する。
定義レス読取部201は、帳票画像データ113を入力として、予め定められ帳票中の読取項目を文字コード化して、読取結果116として出力する。定義レス読取部201は、帳票中の項目名などのキーワードを利用したり、文字認識結果を予め作成した属性ごとの辞書と突合することで、帳票定義データ110bを用いることなく、読取項目を推定する。定義レス読取部201は、例えば、特許第5621169号公報に記載の方法で実現することができる。
定義レス読取部201は、その処理の途中経過および結果が信頼できないとみなされる状況になったならば、帳票の読取りに失敗したとみなしてもよい。帳票の読取りに失敗した場合の動作は、図7のフローチャートを用いて後述する。
例えば、特許第5621169号公報に記載の方法で定義レス読取部201を実現した場合、定義レス読取部201は、特許第5621169号公報のステップS170で計算された評価値が、予め定めた閾値以下であったときに、信頼できる帳票読取りができなかったものとし、帳票の読取に失敗したとみなすことができる。
図7は、第2実施形態に係る帳票処理装置の処理を示すフローチャートである。
図7の処理には、図5の処理にステップS201a、S201bが追加されている。
ステップS103bにおいて、帳票定義データベース103は、ステップS103aに帳票定義データの取得に失敗したとき、ステップS201aに進む。ステップS104bにおいて、位置照合部104は、ステップS104aにおける位置の照合に失敗したとき、ステップS201aに進む。ステップS105bにおいて、文字認識部105は、ステップS105aにおける文字の認識に失敗したとき、ステップS201aに進む。ステップS106bにおいて、属性照合部106は、ステップS106aにおける属性の照合に失敗したとき、ステップS201aに進む。
次に、ステップS201aにおいて、定義レス読取部201は、帳票画像データ113の読取項目を文字コード化し、読取結果116を得る。
次に、ステップS201bにおいて、定義レス読取部201は、ステップS201aにおける帳票の読取りに失敗したかどうかを判断する。帳票の読取りに成功した場合、ステップS107に進み、帳票の読取りに失敗した場合、ステップS108aに進む。
次に、ステップS108aにおいて、帳票定義作成部108は、帳票定義データ110aを作成する必要があるか判断する。帳票定義データ110aを作成する必要がある場合、ステップS108bに進み、帳票定義データ110aを作成する必要がない場合、処理を終了する。
帳票定義データを作成する必要があるのは、帳票が正しく読取りできなかったと推定される場合である。具体的には、次の場合である。
(1)ステップS103において、帳票定義データ110bの取得に失敗した場合。
(2)ステップS104aにおいて、位置の照合に失敗した場合。
(3)ステップS105aにおいて、文字認識に失敗した場合。
(4)ステップS106aにおいて、属性の照合に失敗した場合。
(5)ステップS103aにおいて、出力された帳票定義データ110bが信頼できない場合。すなわち、TD’<TDなる閾値TD’を予め設定したとき、閾値TD’<距離D<閾値TDの関係を満たす場合。
(6)ステップS104において、出力された文字列画像が信頼できない場合。すなわち、TE’<TEなる閾値TE’を予め設定したとき、閾値TE’<距離E<閾値TEの関係を満たす場合。
(7)図示しない読取結果の修正ステップにおいて、読取結果データベース107に格納された読取結果116が修正された場合。
(8)ステップS201aにおいて、帳票の読取りに失敗した場合。
以上説明したように、上述した第2実施形態によれば、定義レス読取部201を設けることにより、処理対象の帳票に対応する帳票定義データ110aが作成されていなくても、帳票の読取りが行うことが可能となる。例えば、帳票読取装置の運用初期に帳票定義データ110aが十分に作成できていなくても、帳票読取装置の運用を開始することができる。あるいは、帳票読取装置の運用中に、新たな種類の帳票が入力されても、その帳票の読取りを行うことができる。
また、ステップS103bおよびステップS104bおよびステップS105bおよびステップS106bおよびステップS201bを省略し、ステップS201aをステップS106aの後、ステップS107の前に実行するように動作を変更してもよい。
このとき、位置照合部104は、位置の照合結果の評価値に相当する情報を算出し、文字列画像114とともに出力するように構成を変更する。文字認識部105は、文字の認識結果の評価値に相当する情報を算出し、入力された評価値と合算して、文字コード115とともに出力するように構成を変更する。属性照合部106は、属性の照合結果の評価値に相当する情報を算出し、入力された評価値と合算して、読取結果116として出力するように構成を変更する。定義レス読取部201は、定義レス読取りの評価値に相当する情報を算出し、読取結果116とともに出力するように構成を変更する。読取結果データベース107は、属性照合部106から出力された評価値と、定義レス読取部201から出力された評価値を比較し、評価値が高い方の読取結果116を採用して、読取結果データベース107に格納するように構成を変更する。
この変更により、帳票定義データ110aを活用して読取りを行った場合と、帳票定義データ110aを用いずに読取りを行った場合で、より正しいと考えられる読取結果を採用することが可能となる。
なお、上述した実施形態では、医療分野における帳票読取装置を例にとり説明したが、それ以外の各種読取装置に適用してもよい。例えば、領収書、医療レセプト、小切手または伝票などの読取装置に適用してもよい。
図8は、第3実施形態に係る帳票処理装置のハードウェア構成を示すブロック図である。
図8において、帳票処理装置110は、プロセッサ11、通信制御デバイス12、通信インターフェース13、主記憶デバイス14および外部記憶デバイス15を備える。プロセッサ11、通信制御デバイス12、通信インターフェース13、主記憶デバイス14および外部記憶デバイス15は、内部バス16を介して相互に接続されている。主記憶デバイス14および外部記憶デバイス15は、プロセッサ11からアクセス可能である。
また、帳票処理装置110の外部には、ポインティングデバイス20、ディスプレイ21およびスキャナ22が設けられている。ポインティングデバイス20、ディスプレイ21およびスキャナ22は、入出力インターフェース17を介して内部バス16に接続されている。
プロセッサ11は、帳票処理装置110全体の動作制御を司るハードウェアである。主記憶デバイス14は、例えば、SRAMまたはDRAMなどの半導体メモリから構成することができる。主記憶デバイス14には、プロセッサ11が実行中のプログラムを格納したり、プロセッサ11がプログラムを実行するためのワークエリアを設けたりすることができる。
外部記憶デバイス15は、大容量の記憶容量を有する記憶デバイスであり、例えば、ハードディスク装置やSSD(Solid State Drive)である。外部記憶デバイス15は、各種プログラムの実行ファイルやプログラムの実行に用いられるデータを保持することができる。外部記憶デバイス15には、帳票処理プログラム15Aおよび帳票定義データ15Bを格納することができる。帳票処理プログラム15Aは、帳票処理装置110にインストール可能なソフトウェアであってもよいし、帳票処理装置110にファームウェアとして組み込まれていてもよい。
通信制御デバイス12は、外部との通信を制御する機能を有するハードウェアである。通信制御デバイス12は、通信インターフェース13を介してネットワーク19に接続される。ネットワーク19は、インターネットなどのWAN(Wide Area Network)であってもよいし、WiFiなどのLAN(Local Area Network)であってもよいし、WANとLANが混在していてもよい。
入出力インターフェース17は、ポインティングデバイス20、ディスプレイ21およびスキャナ22から入力されるデータをプロセッサ11が処理可能なデータ形式に変換したり、プロセッサ11から出力されるデータをポインティングデバイス20およびディスプレイ21が処理可能なデータ形式に変換したりする。
プロセッサ11が帳票処理プログラム15Aを主記憶デバイス14に読み出し、帳票処理プログラム15Aを実行することにより、帳票定義データ15Bに含まれる位置情報に基づいて、読取り対象文字列の候補となる文字列画像を帳票画像データから抽出し、その抽出した文字列画像の文字認識処理を実施し、簡易帳票定義データ15Bに含まれる属性情報に基づいて文字認識結果の属性を照合することにより読取結果116を決定することができる。この時、帳票処理プログラム15Aは、図1の位置照合部104、文字認識部105および属性照合部106の機能を実現することができる。文字認識結果の属性の照合では、プロセッサ11は、ネットワーク19を介し、属性の検証処理に用いるデータベースにアクセスし、属性の検証処理に用いる情報を取得するようにしてもよい。
なお、帳票処理プログラム15Aの実行は、複数のプロセッサやコンピュータに分担させてもよい。あるいは、プロセッサ11は、ネットワーク19を介してクラウドコンピュータなどに帳票処理プログラム15Aの全部または一部の実行を指示し、その実行結果を受け取るようにしてもよい。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
101 スキャナ、102 特徴抽出部、103 帳票定義データベース、104 位置照合部、105 文字認識部、106 属性照合部、107 読取結果データベース、108 帳票定義データ作成部

Claims (11)

  1. 帳票画像データから抽出された文字列画像の位置情報と、読取り対象文字列に対して定義された位置情報との照合結果に基づいて、前記読取り対象文字列の候補となる文字列画像を決定する位置照合部と、
    前記読取り対象文字列の候補となる文字列画像に基づいて文字認識を行う文字認識部と、
    前記文字認識部による文字認識結果の属性と、前記読取り対象文字列に対して定義された属性情報との照合結果に基づいて、前記読取り対象文字列の候補となる文字列画像の読取結果を決定する属性照合部とを備える帳票処理装置。
  2. 前記位置照合部は、前記帳票画像データから抽出された文字列画像の位置と前記読取り対象文字列に対して定義された位置との距離に基づいて、前記読取り対象文字列の候補となる文字列画像を決定する請求項1に記載の帳票処理装置。
  3. 前記位置照合部は、前記文字列画像が帳票画像に複数存在する場合、前記読取り対象文字列との距離が最も小さい文字列画像を前記読取り対象文字列の候補として決定する請求項2に記載の帳票処理装置。
  4. 前記読取り対象文字列の位置と属性の指定に基づいて、前記読取り対象文字列の位置情報と属性情報とが定義された帳票定義データを作成する帳票定義データ作成部をさらに備える請求項1に記載の帳票処理装置。
  5. 前記読取り対象文字列の位置情報と属性情報とが定義された帳票定義データを、前記帳票画像データの特徴量に紐付けて格納する帳票定義データベースと、
    前記帳票画像データの特徴量を抽出する特徴抽出部とを備え、
    前記帳票定義データベースは、前記帳票画像データの特徴量に基づいて前記帳票定義データを選択し、前記位置照合部に出力する請求項4に記載の帳票処理装置。
  6. 前記帳票定義データベースは、前記帳票画像データの第1特徴量と、前記帳票定義データに紐付けられた第2特徴量との間の距離が閾値以下の前記第2特徴量に対応する帳票定義データを選択し、前記位置照合部に出力する請求項5に記載の帳票処理装置。
  7. 前記帳票定義データが複数選択された場合、前記位置照合部は、前記帳票画像データから抽出された文字列画像の位置と前記読取り対象文字列に対して定義された位置との距離に基づいて前記帳票定義データごとに評価値を計算し、前記評価値が最も小さい帳票定義データに基づく文字列画像を前記読取り対象文字列の候補として決定する請求項6に記載の帳票処理装置。
  8. 前記帳票画像データから抽出された項目名を含む文字列画像の文字認識結果に基づいて、前記文字列画像の読取結果を決定する定義レス読取部さらに備える請求項5に記載の帳票処理装置。
  9. 前記位置照合部が、前記位置情報の照合に失敗したときか、
    前記文字認識部が、前記文字認識に失敗したときか、
    前記属性照合部が、前記属性情報の照合に失敗したときか、
    前記帳票定義データベースが、前記帳票定義データの選択に失敗したとき、
    前記定義レス読取部は、前記帳票画像データの読取りを実行する請求項8に記載の帳票処理装置。
  10. 前記位置照合部が、前記位置情報の照合に失敗したときか、
    前記文字認識部が、前記文字認識に失敗したときか、
    前記属性照合部が、前記属性情報の照合に失敗したときか、
    前記帳票定義データベースが、前記帳票定義データの選択に失敗したときか、
    前記定義レス読取部が、前記帳票画像データの読取りに失敗したとき、
    前記帳票定義データ作成部は、前記帳票定義データの作成を実行する請求項8に記載の帳票処理装置。
  11. プロセッサにより実行される帳票処理方法であって、
    前記プロセッサは、
    帳票画像データから抽出された文字列画像の位置情報と、読取り対象文字列に対して定義された位置情報との照合結果に基づいて、前記読取り対象文字列の候補となる文字列画像を決定し、
    前記読取り対象文字列の候補となる文字列画像に基づいて文字認識を行い、
    前記文字認識結果の属性と、前記読取り対象文字列に対して定義された属性情報との照合結果に基づいて、前記読取り対象文字列の候補となる文字列画像の読取結果を決定する帳票処理方法。

JP2018222392A 2018-11-28 2018-11-28 帳票処理装置および帳票処理方法 Pending JP2020087112A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018222392A JP2020087112A (ja) 2018-11-28 2018-11-28 帳票処理装置および帳票処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018222392A JP2020087112A (ja) 2018-11-28 2018-11-28 帳票処理装置および帳票処理方法

Publications (1)

Publication Number Publication Date
JP2020087112A true JP2020087112A (ja) 2020-06-04

Family

ID=70910014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018222392A Pending JP2020087112A (ja) 2018-11-28 2018-11-28 帳票処理装置および帳票処理方法

Country Status (1)

Country Link
JP (1) JP2020087112A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020127811A (ja) * 2020-05-19 2020-08-27 株式会社三洋物産 遊技機
JP2022013524A (ja) * 2020-06-30 2022-01-18 Arithmer株式会社 帳票情報生成装置、方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020127811A (ja) * 2020-05-19 2020-08-27 株式会社三洋物産 遊技機
JP2022013524A (ja) * 2020-06-30 2022-01-18 Arithmer株式会社 帳票情報生成装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US10984233B2 (en) Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image
US10769425B2 (en) Method and system for extracting information from an image of a filled form document
US10049096B2 (en) System and method of template creation for a data extraction tool
US9767388B2 (en) Method and system for verification by reading
JP2018128996A (ja) 情報処理装置、制御方法、およびプログラム
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US20180174324A1 (en) Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor
US8750571B2 (en) Methods of object search and recognition
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2020087112A (ja) 帳票処理装置および帳票処理方法
EP3867733A1 (en) Input apparatus, input method, program, and input system
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
JP5634972B2 (ja) テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム
JP2010061471A (ja) 文字認識装置およびプログラム
US20220207900A1 (en) Information processing apparatus, information processing method, and storage medium
US11972208B2 (en) Information processing device and information processing method
US11620840B2 (en) Image processing apparatus for extracting a desired character string from a scanned image
JP2020095374A (ja) 文字認識システム、文字認識装置、プログラム及び文字認識方法
AU2022271364A1 (en) Facilitating identification of fillable regions in a form
US20170249299A1 (en) Non-transitory computer readable medium and information processing apparatus and method
US11170211B2 (en) Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium
JP7331551B2 (ja) 情報処理装置及び情報処理プログラム
JP2021064123A (ja) データ入力支援システム、データ入力支援方法、及びプログラム
WO2020080300A1 (en) Input apparatus, input method, program, and input system
JP2021028770A (ja) 情報処理装置及び表認識方法