JP2021043775A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2021043775A
JP2021043775A JP2019166157A JP2019166157A JP2021043775A JP 2021043775 A JP2021043775 A JP 2021043775A JP 2019166157 A JP2019166157 A JP 2019166157A JP 2019166157 A JP2019166157 A JP 2019166157A JP 2021043775 A JP2021043775 A JP 2021043775A
Authority
JP
Japan
Prior art keywords
item value
document
extracted
information
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019166157A
Other languages
English (en)
Inventor
岡田 茂
Shigeru Okada
茂 岡田
清水 淳一
Junichi Shimizu
淳一 清水
公則 吉塚
Kiminori Yoshizuka
公則 吉塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019166157A priority Critical patent/JP2021043775A/ja
Priority to CN202010185162.2A priority patent/CN112487859A/zh
Priority to US16/827,980 priority patent/US11321558B2/en
Publication of JP2021043775A publication Critical patent/JP2021043775A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

【課題】第1文書において抽出対象の項目値が含まれる項目値取得領域の周辺から得られる情報を活用しない場合に比して、第1文書と同一種類の第2文書から抽出対象の項目値をより確実に抽出できるようにする。【解決手段】情報処理装置10は、プリセット設定に従うと第1文書の読取画像から正しい項目値が抽出できない場合、読取画像に正しい項目値が抽出できる項目値取得領域21をユーザが指定すると、項目値取得領域21の周辺に存在する情報から周辺情報を生成する周辺情報生成部14と、第1文書と同一種類の第2文書において、項目値取得領域21の位置に対応する領域から正しい項目値が抽出できない場合、周辺情報と一致する周辺の情報が得られる領域に含まれる文字列を、当該項目の正しい項目値として抽出する項目値抽出部13と、を有する。【選択図】図1

Description

本発明は、情報処理装置及びプログラムに関する。
帳票などの読取画像に文字認識処理を施して文字列を抽出し、その文字列の中から所望の項目の項目値を自動的に抽出することによってデータ管理作業を効率化したいというニーズがある。項目値は、帳票に含まれている項目名を事前に指定したり、パターンマッチングなどを実施したりして抽出することができる。ただ、帳票上の間違った場所の文字列を項目値として抽出してしまう場合がある。
この場合、従来では、項目値の読取場所をユーザに指定させて、正しい項目値を抽出できるようにする技術が知られている(例えば、特許文献1)。そして、ユーザに指定された読取場所を記録しておくことで、それ以降に読取場所が訂正された帳票と同一種類の帳票が読み取られた場合、ユーザにより指定された読取場所から文字列を抽出することによって正しい項目値を抽出することができるようになる。
特開2001−202466号公報 特開2013−142955号公報
ところで、抽出対象の項目値を抽出する領域が指定された第1文書と同一種類の第2文書であっても、例えば第2文書に記載すべき事項の数が第1文書より増加するなどに伴い、第2文書における抽出対象の項目値の位置が第1文書とずれる場合がある。この場合、第1文書においては正しい項目値が抽出できた領域に対応する第2文書における領域から抽出できなくなる。
本発明は、第1文書において抽出対象の項目値が含まれる項目値取得領域の周辺から得られる情報を活用しない場合に比して、第1文書と同一種類の第2文書から抽出対象の項目値をより確実に抽出できるようにすることを目的とする。
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、第1文書と同一種類の第2文書の読取画像を取得すると、前記第2文書の読取画像内において、前記第1文書の読取画像内の抽出対象の項目値が含まれている項目値取得領域の周辺に存在する画像から得られる周辺情報に一致すると判定するための一致条件を満たすことから前記周辺情報と一致する周辺の情報が得られる領域に含まれる文字列を、前記第2文書の読取画像内の抽出対象の項目値として抽出することを特徴とする。
また、前記プロセッサは、前記第2文書の読取画像内において周辺から得られる情報が前記周辺情報に一致すると判定するための一致条件を満たす領域が存在しない場合、前記周辺情報との一致度が最も高い周辺の情報が得られる領域から抽出できた文字列を項目値として抽出することを特徴とする。
また、前記プロセッサは、前記項目値取得領域の位置に対応する前記第2文書の読取画像内の抽出領域の周辺から得られる情報が前記一致条件を満たす場合、前記抽出領域から抽出した文字列を項目値として抽出することを特徴とする。
また、前記周辺情報は、項目と関連性のない罫線、表あるいは写真の各画像、又は文字列の少なくとも1つで表されることを特徴とする。
また、前記項目値取得領域は、ユーザにより指定されることを特徴とする。
また、前記項目値取得領域は、所定の規則に従って設定されている領域から前記抽出対象の項目値が抽出できなかった場合にユーザにより領域が指定されることで設定されることを特徴とする。
本発明に係るプログラムは、コンピュータに、第1文書と同一種類の第2文書の読取画像を取得すると、前記第2文書の読取画像内において、前記第1文書の読取画像内の抽出対象の項目値が含まれている項目値取得領域の周辺に存在する画像から得られる周辺情報に一致すると判定するための一致条件を満たすことから前記周辺情報と一致する周辺の情報が得られる領域に含まれる文字列を、前記第2文書の読取画像内の抽出対象の項目値として抽出する機能を実現させる。
請求項1に記載の発明によれば、第1文書において抽出対象の項目値が含まれる項目値取得領域の周辺から得られる情報を活用しない場合に比して、第1文書と同一種類の第2文書から抽出対象の項目値をより確実に抽出することができる。
請求項2に記載の発明によれば、第2文書の形式が同一種類の第1の文書の形式と異なっている場合でも第2文書に記載されているはずの項目値を抽出することができる。
請求項3に記載の発明によれば、第1文書の読取画像における項目値取得領域の位置に対応する第2文書の読取画像内の抽出領域から抽出した文字列を項目値して抽出することができる。
請求項4に記載の発明によれば、項目に紐付かない情報を参照して項目値を抽出することができる。
請求項5に記載の発明によれば、ユーザが第1文書に項目値が含まれると明示的に指定した領域を項目値取得領域とすることができる。
請求項6に記載の発明によれば、抽出対象の項目値を抽出する領域が誤って設定されている場合にユーザにより訂正された領域を項目値取得領域とすることができる。
請求項7に記載の発明によれば、第1文書において抽出対象の項目値が含まれる項目値取得領域の周辺から得られる情報を活用しない場合に比して、第1文書と同一種類の第2文書から抽出対象の項目値をより確実に抽出することができる。
本発明に係る情報処理装置の一実施の形態を示すブロック構成図である。 本実施の形態における情報処理装置のハードウェア構成図である。 本実施の形態において処理対象とする文書の一例を示す図である。 図3に示す文書から抽出した項目値を示す図である。 本実施の形態において周辺情報の生成について説明するために用いる文書の一例を示す図である。 本実施の形態における項目値抽出処理を示すフローチャートである。 図6Aに続くフローチャートである。 本実施の形態において処理対象とする文書の他の例を示す図である。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
図1は、本発明に係る情報処理装置の一実施の形態を示すブロック構成図である。図1には、本実施の形態における情報処理装置10と、文書をスキャンして生成された読取画像を情報処理装置10に渡す複合機8とが示されている。
本実施の形態における情報処理装置10は、パーソナルコンピュータ(PC)等の従前から存在する汎用的なハードウェア構成で実現できる。従って、本実施の形態における情報処理装置10は、図2に示すように、CPU1、ROM2、RAM3、記憶手段としてのハードディスクドライブ(HDD)4、複合機8から文書の読取画像を受信する通信手段としてのネットワークインタフェース(IF)5及びユーザインタフェース(UI)6を内部バス7に接続して構成される。ユーザインタフェース6は、入力手段としてマウスとキーボードを、また表示手段としてディスプレイを設けて構成してもよい。あるいは、入力手段及び表示手段を兼用するタッチパネル式の液晶パネル等で構成してもよい。
複合機8は、コピー機能、スキャナ機能等各種機能を搭載する画像形成装置の一形態であり、コンピュータを内蔵した装置である。複合機8は、情報処理装置10と同様に従前から存在する汎用的なハードウェア構成で実現できる。
図1に戻り、本実施の形態における情報処理装置10は、読取画像取得部11、文書種類判別部12、項目値抽出部13、周辺情報生成部14、抽出情報提供部15、プリセット設定記憶部16、誤り訂正情報記憶部17、周辺情報記憶部18及び抽出情報記憶部19を有している。なお、本実施の形態の説明に用いない構成要素については、図から省略している。
読取画像取得部11は、複合機8が文書をスキャンして生成した文書の読取画像を取得する。文書種類判別部12は、文書の読取画像を解析することによって文書の種類を判別する。項目値抽出部13は、文書の読取画像から、当該文書の種類において抽出対象として予め設定されている項目の項目値を抽出し、抽出した結果を抽出情報記憶部19に保存する。周辺情報生成部14は、項目値抽出部13がプリセット設定に従って項目値を抽出しようとした結果、正しい項目値を抽出できなかった場合に周辺情報を生成する。周辺情報の詳細については後述する。抽出情報提供部15は、項目値抽出部13による項目値の抽出結果をユーザに提供する。各記憶部16〜19については、動作の説明と合わせて説明する。
情報処理装置10における各構成要素11〜15は、情報処理装置10を形成するコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。また、各記憶部16〜19は、情報処理装置10に搭載されたHDD4にて実現される。あるいは、RAM3又は外部にある記憶手段をネットワーク経由で利用してもよい。
本実施の形態では、1台の情報処理装置10が本実施の形態に必要な構成要素11〜19を有しているものとして説明するが、複数の情報処理装置に分散して構成してもよい。また、複合機8に搭載されているコンピュータを本実施の形態における情報処理装置10として用いてもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPU1がプログラムを順次実行することで各種処理が実現される。
次に、本実施の形態における動作について説明する。
本実施の形態における情報処理装置10は、文書の読取画像から予め設定されている項目の項目値を抽出する。本実施の形態では、項目値を抽出する方法としてパターンマッチングを採用する。すなわち、項目値は、原則、文書上のどの位置に存在するのか特定しておらず、項目値抽出部13は、プリセット設定記憶部16に記憶されているプリセット設定、すなわち抽出対象として予め設定されている項目又は当該項目の項目値の特徴に合致する文字列を文書の読取画像から探し出し、その探し出した文字列を当該項目の項目値として抽出する。項目の特徴というのは、例えば文書上における位置等である。項目値の特徴というのは、例えば抽出する項目値が企業名の場合は、「株式会社」等の文字列を含む文字列とするなどである。なお、項目値を抽出する方法は、パターンマッチングに限定する必要はなく、例えば、文書上における項目値の位置が定義されている場合や項目名が定義されている場合は、その定義されている情報を利用して項目値を抽出してもよい。
なお、プリセット設定に抽出対象として予め設定されているのは項目名であり、文書の読取画像から実際に抽出対象として抽出するのは当該項目名により特定される項目の項目値である。従って、本実施の形態では、説明の便宜上、抽出対象を「項目」として説明する場合もあり、「項目名」として説明する場合もある。
図3は、本実施の形態において処理対象とする文書の一例を示す図である。図3には、文書の一例として請求書という種別の帳票が示されている。また、図4は、図3に示す帳票から抽出した項目値を表形式にて示す図である。図4には、当該帳票から抽出すべきものとして予め設定されている項目の名称と、抽出された当該項目の項目値とが組にして示されている。
図4に示す設定例によると、項目値抽出部13は、株式会社X研究所から発行された請求書から、「送付先」、「送付元」、「支払期日」及び「合計金額」という各項目の項目値を抽出する必要がある。図3に示す帳票の内容例を参照すると明らかなように、「送付先」、「送付元」及び「合計金額」は、正しい項目値を抽出できているが、「支払期日」は、正しい項目値を抽出できていないことがわかる。
この場合、ユーザは、図3に示す文書(以下、「第1文書」とも称する)の読取画像を画面に表示させて、その読取画像において抽出対象の項目(この例では「支払期日」)に対応する正しい項目値の表示位置を指定する。表示位置として正しい項目値の表示範囲を指定する。本実施の形態では、第1文書の読取画像内の抽出対象の項目値が含まれる範囲を「項目値取得領域」と称することにする。図3に示す帳票の例によると、「支払期日」は、“2018年10月31日”であることが明らかなので、ユーザは、“2018年10月31日”を囲む範囲を指定することで項目値取得領域21を第1文書の読取画像に設定する。
項目値取得領域21が設定されると、項目値抽出部13は、帳票の種類を識別する識別情報(例えば、「帳票種類ID」)と、項目(この例では、「支払期日」)と、第1文書における項目値取得領域21の範囲を示す情報、例えば第1文書の所定位置(例えば、第1文書の左上の角)を原点とする座標系における範囲を示す座標情報と、を対応付けて誤り訂正情報を生成し、誤り訂正情報記憶部17に登録する。また、この登録と共に、図4に示す抽出情報に含まれる「支払期日」の項目値を“2018年10月1日”から“2018年10月31日”に訂正する。そして、項目値抽出部13は、株式会社X研究所から発行された図3に示す請求書から得られた図4に示す抽出情報に、当該請求書を識別する識別情報(例えば、「帳票ID」)を紐付けて抽出情報記憶部19に保存する。なお、項目「支払期日」は、日付の表記に従う文字列であることは明らかなので、日付型の文字列であるという情報を誤り訂正情報に付加することで項目値のデータ型を限定してもよい。
なお、データ型としては、英数字、数字などがある。また、システム(つまり、情報処理装置10)で所望のデータ型(例えば、3文字から成る文字列を“○○−×”のようにハイフンで2文字と1文字に分けるなど)を設定できるようにしてもよい。
これにより、以降の処理において、読取画像取得部11が第1文書の取得後、第1文書と同一種類の文書(以下、「第2文書」とも称する)の読取画像を取得した場合、項目値抽出部13は、誤り訂正情報が生成された項目(上記例においては「支払期日」)に対しては、プリセット設定ではなく当該誤り訂正情報を参照することで、項目値取得領域21の位置に対応する領域(以下、「抽出領域」とも称する)に含まれている文字列を、当該項目(すなわち「支払期日」)の項目値として抽出する。なお、その他の「送付先」、「送付元」及び「合計金額」の各項目に対しては、プリセット設定を継続して利用して各項目値を抽出する。項目値取得領域21から抽出される文字列は、第1文書上の項目値取得領域21から正しく抽出できたように、基本的には第2文書においても正しい項目値になると考えられる。
また、本実施の形態では、項目値取得領域21が設定されると、周辺情報生成部14は、項目値取得領域21の周辺に存在する画像から次のようにして周辺情報を生成し、周辺情報記憶部18に登録する。この周辺情報の生成について、図5を用いて説明する。
図5は、図3と同じ帳票を示す図である。まず、周辺情報生成部14は、帳票上、項目値取得領域21の周辺として四方に存在する画像の抽出を試みる。まず、周辺情報生成部14は、帳票の読取画像を解析することによって、項目値取得領域21の上方には、“合計金額”という文字列22aを検出する。文字として認識するためには、OCR(Optical Character Recognition)技術を利用して文字認識をしておく必要がある。なお、「文字列」は、文字の集合のことを意味するが、集合の中に1文字のみが含まれる場合もある。周辺情報生成部14は、このようにして検出した文字列22aを周辺情報に含める。
また、周辺情報生成部14は、項目値取得領域21の右側には、“お支払い”という文字列22bを検出する。なお、文字列22aは、項目値取得領域21の直上に位置するが、必ずしも直近の文字列(項目値取得領域21の右側においては“までに”)を周辺情報として取り扱わなくてもよく、特徴的な語句や名詞等を周辺情報として取り扱うようにしてもよい。
また、周辺情報生成部14は、項目値取得領域21の下方には、“振込先”という文字列22cを検出する。前述したように、必ずしも項目値取得領域21の直下の文字列“よろしく” を周辺情報として取り扱わなくてもよい。
そして、項目値取得領域21の左側には、何の画像も存在しない。この場合、周辺情報生成部14は、項目値取得領域21の左側に位置する帳票の縁22dを検出する。具体的には、座標値で表される帳票の縁22dまでの距離を周辺情報として取り扱うようにしてもよい。
以上のようにして、周辺情報生成部14は、帳票上、項目値取得領域21の四方に存在する画像(上記例では、文字列22a〜22c)を抽出する。また、存在しない場合には帳票の縁22dまでの距離を得る。このようにして、周辺情報生成部14は、項目値取得領域21の周辺から得られる情報から周辺情報を生成して周辺情報記憶部18に登録する。具体的には、周辺情報を生成する帳票の種類を識別する帳票種類IDに、周辺情報を取得した方向と当該方向に存在する文字列等の情報22a〜22dを紐付けて生成する。
なお、本実施の形態では、取得した文字列22a〜22cを周辺情報に含めるようにしたが、縁22dと同様に、項目値取得領域21からの距離の情報も合わせて含めるようにしてもよい。また、周辺情報に含める帳票上の情報は、例えば、項目値取得領域21の周辺に存在する罫線、表(若しくは表内の文字列等の情報)あるいは写真等の画像を周辺情報の対象としてもよい。また存在する罫線、表、写真等の特徴を周辺情報に含めるようにしてもよい。
文書から項目値を抽出する場合、一般にその項目値に関連する情報、例えば対応する項目名等の文書上における位置を参照して、項目値の存在する位置を検出するようにしている。具体的には、帳票上の項目名の右側や直下に存在すると推定して項目名を抽出する。もちろん、項目名などの項目値に関連する情報を周辺情報として取り扱ってもよいが、本実施の形態においては、上記説明から明らかなように、項目値取得領域21に対応する項目と関連性のない文字列等22a〜22dによって周辺情報を生成する。
なお、上記説明では、項目値取得領域21の上下(y軸方向)と左右(x軸方向)の四方から得られる情報に基づき周辺情報を生成するようにしたが、項目値取得領域21の周辺であればよく、四方に限る必要はない。例えば、少なくとも一方向でもよいし、4方向以上でもよい。
ところで、文書の種類によっては、文書内において項目値の位置がずれる場合がある。例えば、図3と図7は共に、株式会社X研究所から発行された同じ形式の請求書の例であるが、プライベートクラウド利用料の件数が異なると、レイアウトが異なってくる場合がル。例えば、項目値取得領域21が設定された図1に示す第1文書に対して、第2文書では、図7に例示するようにプライベートクラウド利用料の件数が増加することに伴い項目「支払期日」の項目値の位置が下方にずれる場合がある。
このように、第1文書と第2文書が同一種類の文書であっても、図3と図7に示す各帳票のレイアウトの違いから明らかなように、第1文書の読取画像で設定した項目値取得領域21の位置に対応する第2文書の読取画像内の領域(すなわち、「抽出領域」)23から項目「支払期日」の項目値を正しく抽出することができない。なお、文書の用紙サイズは同じであることから、項目値取得領域21と抽出領域23の各領域を特定する座標値は同じとなる。
ここで、文書の種類について説明する。ここでは、帳票を文書の例として説明する。
帳票の種類は、帳票の提供元(「発行元」ともいう)及び提供先(「宛先」ともいう)及び帳票の種別から特定される。帳票の種別(以下、「帳票種別」)は、一般に帳票の種類とも呼ばれる場合があるが、各帳票を種類によって分類する各グループを示している。帳票の場合、請求書、見積書、発注書、契約書等が帳票種別に該当する。図3に示す株式会社X研究所から発行された請求書は、請求書という帳票種別に分類される。「同一種類の帳票」には、発行元及び帳票種別が同一である帳票が該当する。図3に示す帳票と図7に示す帳票とは、発行元(「株式会社X研究所」)と帳票種別(「請求書」)の双方が同一であることから同一種類の帳票に該当する。
また、一企業が作成する帳票は、異なる種類であっても基本的に形式が類似している場合が少なくない。例えば、帳票名、発行日付、送付先、送付元等の各項目の帳票上における配置は、異なる種類であってもほぼ同じである場合が少なくない。従って、帳票種別が異なるものの発行元が同一である帳票を「同一種類の帳票」に含めてもよい。また、ある帳票への記載事項はほぼ同じである。例えば、請求書には、送付元、送付先、支払期日、請求金額等が記載されていることから、異なる企業から発行される場合でも、基本的に形式が類似してくる。従って、発行元が異なるものの帳票種別が同一である帳票を「同一種類の帳票」に含めてもよい。このように、形式や記載事項等の特徴が類似している帳票を同一種類と認定してもよい。
前述したように、第1文書からプリセット設定では正しい項目値が抽出できない場合、項目値抽出部13は、ユーザ操作に応じて正しい項目値を抽出できるように項目値取得領域21を設定する。しかしながら、第1文書と第2文書の各帳票のレイアウトのずれから第1文書の項目値取得領域21の位置に対応する第2文書の抽出領域23から正しい項目値が抽出できない場合がある。本実施の形態では、このような場合でも第2文書の読取画像から正しい項目値を抽出できるようにしたことを特徴としている。
以下、本実施の形態における項目値抽出処理について図6A及び図6Bに示すフローチャートを用いて説明する。なお、ここでは、第1文書に対する処理は、すでに終了しているものとする。従って、誤り訂正情報及び周辺情報は、必要により生成されている場合がある。
読取画像取得部11が、前述した第2文書に相当する帳票(以下、「第2帳票」ともいう)を取得すると(ステップ101)、文書種類判別部12は、当該帳票の種類を判別する(ステップ102)。これは、例えば、OCR技術を利用して第2帳票に記載されている帳票名を取得したり、帳票の種類を特定しうるコード情報(例えば、バーコードやQRコード(登録商標))が第2帳票に付加されている場合には、そのコード情報を読み取ったりして判別する。
続いて、項目値抽出部13は、第2帳票から予め設定されている項目に対応する項目値を抽出することになるが、その前に文書種類判別部12が判別した帳票の種類において誤り訂正がされているかどうかを確認する。誤り訂正がされているかどうかは、その帳票の種類に対応する誤り訂正情報が誤り訂正情報記憶部17に登録されているかどうかで確認できる。
ここで、第2帳票が誤り訂正されている種類の帳票でない場合(ステップ103でN)、項目値抽出部13は、プリセット設定記憶部16に設定されている第2帳票の種類に対応するプリセット設定に従って第2帳票の読取画像から当該帳票の種類において抽出対象となっている各項目の項目値を抽出する(ステップ104)。そして、項目値抽出部13は、第2帳票の帳票IDに、図4に示すように抽出対象の項目に、当該項目値を対応付けて抽出情報を生成し、抽出情報記憶部19に保存する(ステップ109)。
一方、第2帳票が誤り訂正されている種類の帳票の場合(ステップ103でY)、項目値抽出部13は、第2帳票において抽出対象の項目毎に以下の処理を行う。まず、抽出対象の項目の中から以下に説明する処理を実施していない項目を1つ選出する(ステップ105)。そして、その項目に対応する誤り訂正情報が生成されていない場合(ステップ106でN)、項目値抽出部13は、プリセット設定記憶部16に設定されている第2帳票の種類に対応するプリセット設定に従って第2帳票の読取画像から当該項目の項目値を抽出する(ステップ107)。そして、第2帳票において抽出対象の全ての項目に対して上記処理が終了していない場合(ステップ108でN)、ステップ105に移行する。一方、抽出対象の全ての項目に対して上記処理が終了した場合(ステップ108でY)、項目値抽出部13は、上記のように抽出情報を生成し、抽出情報記憶部19に保存する(ステップ109)。
項目値抽出部13は、選出した項目に対応する誤り訂正情報が生成されている場合(ステップ106でY)、項目値抽出部13は、その項目に対応する項目値取得領域21を含む誤り訂正情報及び周辺情報を各記憶部17,18から取得する(ステップ110)。
続いて、項目値抽出部13は、取得した項目値取得領域21の位置に対応する第2帳票上の領域(上記「抽出領域」)から文字列の抽出を試行する。ここで、文字列が抽出できた場合(ステップ112でY)、項目値抽出部13は、前述した周辺情報の生成と同様にして抽出領域の周辺から画像を取得する。そして、取得した画像が、ステップ110において取得した周辺情報と一致する場合(ステップ112でY)、項目値抽出部13は、試行により抽出した文字列を、当該項目の項目値として選択する(ステップ113)。そして、ステップ108に移行する。
図7は、図3に示す帳票(以下、「第1帳票」ともいう)と同じ帳票の種類に該当する帳票であるが、プライベートクラウド利用料の件数が増加することに伴い項目「支払期日」の項目値の位置が下方にずれている帳票のレイアウトの例を示す図である。仮に、第2帳票が図3に示す帳票(以下、「第1帳票」ともいう)と同じレイアウトの帳票だとすると、第2帳票の抽出領域の周辺から得られる情報は、第1帳票に基づき生成された周辺情報と同じはずである。従って、項目値取得領域21の位置に対応する抽出領域から項目「支払期日」の正しい項目値を抽出できる。これに対し、図7に示す帳票が第2帳票の場合、第2帳票と第1帳票とが同一種類の帳票であっても、第2帳票の抽出領域23の周辺から得られる情報は、図3に示す第1帳票に基づき生成された周辺情報と一致しない。この場合(ステップ112でN)、項目値抽出部13は、第2帳票を解析することによって別の項目値の候補となる文字列の抽出を試行する(ステップ114)。
例えば、項目「支払期日」の項目値は、日付を表す文字列なので、日付の形式にて構成されている文字列を第2帳票の中から抽出する。なお、抽出対象が項目「送付元」、「送付先」の場合、その項目値には、“株式会社”、“(株)”、“有限会社”等の文字列が含まれているのが一般的なので、これらの文字列を含む文字列の抽出を試みる。また、抽出対象が項目「合計金額」の場合、その項目値には、数字から成る文字列が含まれ、また文字列の先頭に“¥”又は文字列の後尾に“円”が付加されているので、これらの規則に従った文字列の抽出を試みる。
このように、システム(つまり、情報処理装置10)に予め設定されている項目に該当する文字列の抽出規則に従って、項目値抽出部13は、文字列の抽出を試行する。
ここで、別の項目値の候補となる文字列が抽出できた場合(ステップ115でY)、項目値抽出部13は、取得した文字列が存在する領域の周辺から、前述した周辺情報の生成と同様にして画像を取得する。そして、取得した画像が、ステップ110において取得した周辺情報と一致するかどうかを判定する。その後の処理については、すでに説明したので省略する。なお、図7に示す第2帳票の例では、項目「支払期日」と同じ日付型の文字列が数多く含まれているので、項目「支払期日」の項目値を含む領域が選択されるまで、ステップ112,114,115が繰り返し実行されることになる。
一方、別の項目値の候補となる文字列が抽出できなくなった場合(ステップ115でN)、項目値抽出部13は、処理をステップ107に移行し、プリセット設定に従って第2帳票の読取画像から当該項目の項目値を抽出する(ステップ107)。この場合、プリセット設定に従うことによって正しい項目値が抽出できる可能性もある。正しい項目値が抽出できなかった場合、ユーザは、上記と同様に抽出情報を訂正することで対応する。また、必要により項目値取得領域21を再設定してもよい。
図7に例示するように抽出領域23に含まれる文字列が日付型の場合、具体的には“2019年7月/1日”を項目「支払期日」の項目値として抽出してしまう可能性がある。しかしながら、本実施の形態においては、抽出領域23の周辺から得られる情報を、項目値取得領域21に対応する周辺情報と照合するようにしている。図7に示す抽出領域23の左側には、周辺情報と同様に帳票の縁が存在するかもしれない。しかしながら、それ以外の方向の画像は、周辺情報とは一致しないことから、“2019年7月/1日”が項目「支払期日」の項目値として抽出されることはない。ステップ114が繰り返し実行されることによって、いずれ領域24が選出されることになる。図7に示す帳票の例では、領域24の周辺から得られる情報が周辺情報と一致することから、“2019年8月31日”を項目「支払期日」の正しい項目値として抽出することができる。
ところで、本実施の形態においては、ステップ114において文字列が抽出できた領域(以下、「候補抽出領域」という)の周辺から得た情報が周辺情報と一致するかしないかで、候補抽出領域に正しい項目値が存在するかどうかを判定していた。本実施の形態においては、項目値取得領域21の上下左右の4方向の画像に基づき周辺情報を生成しているので、4方向とも周辺情報と一致する周辺の情報が得られる第2文書の領域から項目値を抽出している。
ただ、例えば、記載事項が増えたため文書上、改行が入り、第2文書においては、周辺情報に含まれている文字列の位置が第1文書とずれてしまう場合がある。また、周辺情報として設定された第1文書上の文字列が項目値であった場合、第2文書において当該項目の項目値が第1文書と異なる可能性が多分にある。項目値が異なる場合、抽出領域23の周辺から得た情報が周辺情報と一致しなくなる。また、項目値取得領域21と抽出領域23(又は候補抽出領域)とが同じ位置であっても、文書の読取精度によっては、抽出領域23から文書の縁までの距離(つまり、座標値)が周辺情報と一致しなくなる場合がある。
従って、項目値取得領域21の周辺から得た周辺情報と抽出領域23(又は候補抽出領域)の周辺から得た情報とが一致するかどうかを判定する際、ある程度の許容範囲を持たせて判定するのが好適である。例えば、周辺情報において項目値取得領域21から文書の縁までの距離が2.0cmと設定されていた場合、許容範囲を設定して、例えば抽出領域23(又は候補抽出領域)から文書の縁までの距離が1.7〜2.3cmであれば一致すると判定してもよい。このように、項目値取得領域21の周辺から得た周辺情報と抽出領域23(又は候補抽出領域)の周辺から得た情報とが一致するかどうかを判定するための一致条件を予め設定しておき、この一致条件を満たす場合を一致すると判定するようにしてもよい。例えば、周辺情報が距離で表される場合、±0.3cmであれば一致と判定するという一致条件を予め設定しておく。このようにして、項目値取得領域21の位置に対応する第2文書の読取画像内の抽出領域(又は候補抽出領域)の周辺から得られる情報が一致条件を満たす場合、抽出領域から抽出した文字列を項目値として抽出する。
ただ、帳票の種類によっては、レイアウトの変化が少なくなく、周辺情報に含める方向(上記例では上下左右の4方向)の全てにおいて抽出領域23(又は候補抽出領域)の周辺から得た情報が一致するとは限らない。この場合、周辺情報との一致度が最も高い周辺の情報が得られる領域から抽出できた文字列を項目値として抽出する。例えば、4方向全てにおいて周辺情報と一致する周辺の情報が得られる領域が存在しない場合、一致する方向の数が最も多い領域から抽出した文字列を項目値として選択する。
本実施の形態によれば、第1帳票と第2帳票が同一種類の帳票の場合において、第2帳票のレイアウトが第1帳票と異なるようになっても、項目に対応する正しい項目値を抽出することができる。
上記実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また上記実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
1 CPU、2 ROM、3 RAM、4 ハードディスクドライブ(HDD)、5 ネットワークインタフェース(IF)、6 ユーザインタフェース(UI)、7 内部バス、10 情報処理装置、11 読取画像取得部、12 文書種類判別部、13 項目値抽出部、14 周辺情報生成部、15 抽出情報提供部、16 プリセット設定記憶部、17 誤り訂正情報記憶部、18 周辺情報記憶部、19 抽出情報記憶部。

Claims (7)

  1. プロセッサを備え、
    前記プロセッサは、
    第1文書と同一種類の第2文書の読取画像を取得すると、前記第2文書の読取画像内において、前記第1文書の読取画像内の抽出対象の項目値が含まれている項目値取得領域の周辺に存在する画像から得られる周辺情報に一致すると判定するための一致条件を満たすことから前記周辺情報と一致する周辺の情報が得られる領域に含まれる文字列を、前記第2文書の読取画像内の抽出対象の項目値として抽出する、
    ことを特徴とする情報処理装置。
  2. 前記プロセッサは、
    前記第2文書の読取画像内において周辺から得られる情報が前記周辺情報に一致すると判定するための一致条件を満たす領域が存在しない場合、前記周辺情報との一致度が最も高い周辺の情報が得られる領域から抽出できた文字列を項目値として抽出する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記プロセッサは、
    前記項目値取得領域の位置に対応する前記第2文書の読取画像内の抽出領域の周辺から得られる情報が前記一致条件を満たす場合、前記抽出領域から抽出した文字列を項目値として抽出する、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記周辺情報は、項目と関連性のない罫線、表あるいは写真の各画像、又は文字列の少なくとも1つで表される、
    ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記項目値取得領域は、ユーザにより指定される、
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記項目値取得領域は、所定の規則に従って設定されている領域から前記抽出対象の項目値が抽出できなかった場合にユーザにより領域が指定されることで設定される、
    ことを特徴とする請求項5に記載の情報処理装置。
  7. コンピュータに、
    第1文書と同一種類の第2文書の読取画像を取得すると、前記第2文書の読取画像内において、前記第1文書の読取画像内の抽出対象の項目値が含まれている項目値取得領域の周辺に存在する画像から得られる周辺情報に一致すると判定するための一致条件を満たすことから前記周辺情報と一致する周辺の情報が得られる領域に含まれる文字列を、前記第2文書の読取画像内の抽出対象の項目値として抽出する機能、
    を実現させるためのプログラム。
JP2019166157A 2019-09-12 2019-09-12 情報処理装置及びプログラム Pending JP2021043775A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019166157A JP2021043775A (ja) 2019-09-12 2019-09-12 情報処理装置及びプログラム
CN202010185162.2A CN112487859A (zh) 2019-09-12 2020-03-17 信息处理装置、信息处理方法和计算机可读介质
US16/827,980 US11321558B2 (en) 2019-09-12 2020-03-24 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019166157A JP2021043775A (ja) 2019-09-12 2019-09-12 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2021043775A true JP2021043775A (ja) 2021-03-18

Family

ID=74864092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019166157A Pending JP2021043775A (ja) 2019-09-12 2019-09-12 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11321558B2 (ja)
JP (1) JP2021043775A (ja)
CN (1) CN112487859A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7430219B2 (ja) 2022-06-21 2024-02-09 エヌ・ティ・ティ・アドバンステクノロジ株式会社 文書情報構造化装置、文書情報構造化方法およびプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI750572B (zh) * 2020-01-30 2021-12-21 虹光精密工業股份有限公司 運用機器學習進行文件分類的文件處理系統及方法
JP7520605B2 (ja) * 2020-07-06 2024-07-23 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
JP2022098999A (ja) * 2020-12-22 2022-07-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065893A1 (en) * 2003-09-19 2005-03-24 The Alliance Group Of Texas System and Method for Commingled Remittance Payment Processing
JP2006134078A (ja) * 2004-11-05 2006-05-25 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2009122723A (ja) * 2007-11-09 2009-06-04 Fujitsu Ltd 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
JP2014170452A (ja) * 2013-03-05 2014-09-18 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2019049823A (ja) * 2017-09-08 2019-03-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202466A (ja) 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
JP2012205181A (ja) * 2011-03-28 2012-10-22 Fuji Xerox Co Ltd 画像処理装置およびプログラム
JP5880052B2 (ja) 2012-01-10 2016-03-08 富士ゼロックス株式会社 文書処理装置及びプログラム
GB2513431B (en) * 2013-04-25 2018-12-05 Testplant Europe Ltd Method for creating a label
JP6148193B2 (ja) 2014-03-20 2017-06-14 株式会社Pfu 帳票定義作成装置、帳票定義作成方法、および、プログラム
JP6702629B2 (ja) 2014-12-27 2020-06-03 株式会社 ハンモック 活字ocrシステム
WO2017115420A1 (ja) * 2015-12-28 2017-07-06 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6874729B2 (ja) * 2018-04-02 2021-05-19 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
US10896339B2 (en) * 2018-11-19 2021-01-19 Prosper Funding LLC Detecting magnetic ink character recognition codes
JP7265125B2 (ja) * 2019-02-25 2023-04-26 京セラドキュメントソリューションズ株式会社 情報処理装置
JP2020154997A (ja) * 2019-03-22 2020-09-24 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7259491B2 (ja) * 2019-04-01 2023-04-18 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065893A1 (en) * 2003-09-19 2005-03-24 The Alliance Group Of Texas System and Method for Commingled Remittance Payment Processing
JP2006134078A (ja) * 2004-11-05 2006-05-25 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2009122723A (ja) * 2007-11-09 2009-06-04 Fujitsu Ltd 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
JP2014170452A (ja) * 2013-03-05 2014-09-18 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2019049823A (ja) * 2017-09-08 2019-03-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7430219B2 (ja) 2022-06-21 2024-02-09 エヌ・ティ・ティ・アドバンステクノロジ株式会社 文書情報構造化装置、文書情報構造化方法およびプログラム

Also Published As

Publication number Publication date
CN112487859A (zh) 2021-03-12
US11321558B2 (en) 2022-05-03
US20210081660A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
JP2021043775A (ja) 情報処理装置及びプログラム
US9626738B2 (en) Image processing apparatus, image processing method, and storage medium
JP2012083951A (ja) 情報処理装置、情報処理方法及びプログラム
JP5938393B2 (ja) 画像処理装置
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US10706581B2 (en) Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor
JP2019040467A (ja) 画像処理装置およびその制御方法
EP2884425A1 (en) Method and system of extracting structured data from a document
JP2018042067A (ja) 画像処理システム、画像処理方法、情報処理装置
JP7379987B2 (ja) 情報処理装置及びプログラム
JP2010267083A (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
JP7035474B2 (ja) 文書処理装置およびプログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
JP5724286B2 (ja) 帳票作成装置、帳票作成方法、プログラム
JP6118646B2 (ja) 帳票処理装置、帳票処理方法、帳票処理プログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP2021152696A (ja) 情報処理装置及びプログラム
JP2021157375A (ja) 情報処理装置及びプログラム
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム
JP7370733B2 (ja) 情報処理装置、制御方法、及びプログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
JP5669044B2 (ja) 文書検定システム及び文書検定方法
JP6973433B2 (ja) 帳票処理装置、帳票処理方法、及びプログラム
JP6852359B2 (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240109