JP2021056722A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2021056722A
JP2021056722A JP2019178597A JP2019178597A JP2021056722A JP 2021056722 A JP2021056722 A JP 2021056722A JP 2019178597 A JP2019178597 A JP 2019178597A JP 2019178597 A JP2019178597 A JP 2019178597A JP 2021056722 A JP2021056722 A JP 2021056722A
Authority
JP
Japan
Prior art keywords
type
document
specified
title
item value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019178597A
Other languages
English (en)
Other versions
JP7439435B2 (ja
Inventor
清水 淳一
Junichi Shimizu
淳一 清水
岡田 茂
Shigeru Okada
茂 岡田
公則 吉塚
Kiminori Yoshizuka
公則 吉塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019178597A priority Critical patent/JP7439435B2/ja
Priority to CN202010126738.8A priority patent/CN112580414A/zh
Priority to US16/838,093 priority patent/US11521404B2/en
Publication of JP2021056722A publication Critical patent/JP2021056722A/ja
Application granted granted Critical
Publication of JP7439435B2 publication Critical patent/JP7439435B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出できるようにする。【解決手段】画像形成装置10は、帳票種別と当該帳票種別に分類される帳票のタイトルとが対応付けされた帳票種別情報を記憶する帳票種別情報記憶部16と、帳票種別毎に設定された、帳票から項目値を抽出するための規則が予め定義されている定義情報を記憶する定義情報記憶部17と、帳票の読取画像から抽出された文字列の中から帳票のタイトルを特定することによって当該帳票の帳票種別を特定する帳票種別特定部13と、当該帳票の帳票種別に対応する定義情報を参照して当該帳票の読取画像から項目値を抽出する項目値抽出部14と、を有する。【選択図】図1

Description

本発明は、情報処理装置及びプログラムに関する。
文書から特定の項目に対する項目値を自動的に抽出したい場合がある。例えば、文書が請求書等の帳票の場合、帳票の形式は、発行元の企業等によって予め決められている場合が少なくない。従って、帳票の形式を解析し、帳票のどの箇所に項目値が記載されているのかを特定しておけば、以降に同じ形式の帳票を取得した場合には、その帳票から所望の項目値を自動的に抽出することが可能となる。
また、所望の項目値は、一般に帳票上、対応する項目の項目名近傍に記載されている。例えば、合計金額という項目に対する項目値、すなわち合計金額を表す数字は、帳票上の「合計金額」という項目名を示す文字列の直下若しくは右側に存在する可能性が高いので、帳票の読取画像から「合計金額」という文字列を探し出すことで項目値を自動的に抽出することが可能となる。
前述したいずれの場合でも、従来においては、項目値を抽出する規則等を定義した情報を文書の種類毎に事前に用意している。
特開2001−202466号公報 特開2013−142955号公報
本発明は、文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出できるようにすることを目的とする。
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書の読取画像から抽出された当該文書の種類を表す表題を用いて当該種類の文書が分類される文書の種別を特定し、文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出することを特徴とする。
また、前記文書の種別は、当該文書の表題が抽出されると、予め定められている文書の種別に当該種別に分類される表題を対応付けして含む種別分類情報が参照されることによって特定されることを特徴とする。
また、前記種別分類情報に含まれる表題は、当該種別に分類される種類の文書の表題であり、前記種別は、少なくとも発注書、請求書又は領収書を含むことを特徴とする。
また、前記プロセッサは、複数の文書の読取画像を連続して取得した場合、文書毎に文書の種別を特定し、特定した各文書の種別に応じて前記複数の文書の分類処理を行うことを特徴とする。
また、分類処理を行う際に文書の種別が指定された場合、連続する複数の文書を、指定された文書の種別に該当する文書から、次に指定された文書の種別に該当する文書が表れる直前の文書、若しくは最終の文書までが組となるよう文書を分類することを特徴とする。
また、各組に分類された各文書には、当該文書の種別に対応する処理が施されることを特徴とする。
本発明に係るプログラムは、コンピュータに、文書の読取画像から抽出された当該文書の種類を表す表題を用いて当該種類の文書が分類される文書の種別を特定する機能、文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する機能、を実現させる。
請求項1に記載の発明によれば、文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出することができる。
請求項2に記載の発明によれば、種別分類情報に従って文書の種別を特定することができる。
請求項3に記載の発明によれば、文書を、当該文書の種類に応じた文書の種別に特定することができる。
請求項4に記載の発明によれば、特定した文書の種別を参考にして文書を分類することができる。
請求項5に記載の発明によれば、指定された文書の種別に該当しない文書は、指定された文書の種別に該当する文書に添付された文書という取り扱いにて文書の組を形成することができる。
請求項6に記載の発明によれば、指定された文書の種別に該当しない文書に対して、当該文書の種別に対応する処理を施すことができる。
請求項7に記載の発明によれば、文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出することができる。
実施の形態1における画像形成装置のブロック構成図である。 実施の形態1における画像形成装置のハードウェア構成図である。 実施の形態1における帳票種別情報記憶部に記憶される帳票種別情報のデータ構成の一例を示す図である。 実施の形態1における項目値抽出処理を示すフローチャートである。 実施の形態2における画像形成装置のブロック構成図である。 実施の形態2における帳票分類処理を示すフローチャートである。 実施の形態2においてスキャナに読み取られる複数の帳票及び各帳票に関連する情報を示す図である。 実施の形態2において帳票を分類してフォルダに格納する場合を示す概念図である。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。後述する各実施の形態においては、帳票を文書の例として説明する。
実施の形態1.
図1は、本実施の形態における画像形成装置10のブロック構成図である。図2は、本実施の形態における画像形成装置10のハードウェア構成図である。本実施の形態における画像形成装置10は、本発明に係る情報処理装置を搭載し、コピー機能、スキャナ機能等各種機能を搭載した複合機で実現可能である。図2において、ROM2には、本装置の制御や後述する本実施の形態の特徴的な処理機能を実現するための各種プログラムが格納されている。CPU1は、ROM2に格納された各種プログラムにしたがってスキャナ6やプリンタ7等本装置に搭載された各種機構の動作制御や各種機能を実現する。RAM3は、プログラム実行時のワークメモリや通信バッファとして利用される。HDD(Hard Disk Drive)4は、スキャナ6を使用して読み取った電子文書などを格納する。操作パネル5は、ユーザからの指示の受け付け、情報の表示を行う。スキャナ6は、ユーザがセットした原稿を読み取り、電子文書としてHDD4等に蓄積する。プリンタ7は、CPU1で実行される制御プログラムからの指示に従い出力用紙上に画像を印字する。ネットワークインタフェース(IF)8は、ネットワークを接続し、外部装置との電子データの送受信、またブラウザ経由による本装置へのアクセスなどに利用される。アドレスデータバス9は、CPU1の制御対象となる各種機構と接続してデータの通信を行う。
図1には、画像形成装置10とインターネット等のネットワーク(図示せず)経由で通信可能に接続されたクラウド30が示されている。本実施の形態における画像形成装置10は、読取画像取得部11、画像解析部12、帳票種別特定部13、項目値抽出部14、情報提供部15、帳票種別情報記憶部16、定義情報記憶部17及び帳票情報記憶部18を有している。なお、本実施の形態において説明に用いない構成要素については図から省略している。
読取画像取得部11は、スキャナ6により読み取られた帳票の読取画像を取得する。画像解析部12は、読取画像取得部11により取得された読取画像を解析して帳票に記載されている文字列を抽出する。帳票種別特定部13は、画像解析部12により抽出された文字列の中から当該帳票の種類を表す表題(以下、「タイトル」という)を抽出し、抽出したタイトルから当該帳票の種別を特定する。項目値抽出部14は、定義情報記憶部17に記憶されている定義情報の中から、帳票種別特定部13により特定された帳票の種別に対応して用意されている定義情報を利用して、帳票の読取画像から項目値を抽出する。そして、抽出した項目値を含む帳票情報を帳票情報記憶部18に保存する。情報提供部15は、帳票情報をユーザに提供する。
ここで、「帳票の種類」と「帳票の種別」について説明する。
帳票の種類は、帳票の提供元(「発行元」ともいう)及び提供先(「宛先」ともいう)と、帳票の種別から特定される。帳票の種別(以下、「帳票種別」ともいう)は、一般に帳票の種類とも呼ばれる場合があるが、各帳票を種類によって分類する各グループを示している。帳票種別は、管理者等によってある程度限定的に定められる。帳票の場合、請求書、見積書、発注書、領収書、契約書等が帳票種別に該当する。例えば、A社がB社から受け取る請求書と、A社がC社から受け取る請求書とは、発行元の異なる請求書なので、異なる種類の帳票となる。しかし、それぞれは、請求書という同じ帳票種別に分類される帳票となる。本実施の形態では、このように「帳票の種類」と「帳票種別」とを明確に使い分けている。
図3は、本実施の形態における帳票種別情報記憶部16に記憶される帳票種別情報のデータ構成の一例を示す図である。帳票種別情報は、帳票種別と当該帳票種別に分類される帳票のタイトルとが対応付けして構成される種別分類情報である。帳票種別情報は、帳票の管理者等によって予め設定される。ところで、帳票種別が同じでも、帳票の種類が異なれば、各帳票におけるタイトルの表記が異なってくる場合がある。例えば、帳票種別が見積書の場合を例にすると、各見積書のタイトルは、基本的には発行元となる各会社が自由に決めることができる。従って、各会社が作成する見積書のタイトルを示す文字列は、“見積書”、“お見積書”、“御見積書”などのように必ずしも一致せず、表記に揺れが生じうる。つまり、同じ帳票種別でも帳票の種類が異なるとタイトルが異なる場合が生じうる。このように、帳票種別情報に設定されるタイトルには、当該帳票種別に該当する帳票のタイトル、特に各会社が帳票に設定するタイトルを設定するのが好ましい。
定義情報記憶部17には、帳票種別毎に予め設定されている定義情報が記憶される。定義情報には、当該帳票種別に分類される帳票から1又は複数の項目値を抽出するための規則が予め定義されている。本実施の形態においては、帳票の種類毎ではなく帳票種別毎に定義情報を用意する。項目値抽出部14は、処理対象の帳票の帳票種別に対応する定義情報を利用して当該帳票の読取画像から抽出対象の項目値を抽出することになる。
帳票情報記憶部18には、項目値抽出部14によって帳票毎に生成される項目値情報が記憶される。項目値情報は、処理対象の帳票の識別情報(例えば「帳票ID」)及び当該帳票の帳票種別に、項目値抽出部14によって抽出された項目値と当該項目値に対応する項目名との組が対応付けされて生成される。
画像形成装置10における各構成要素11〜15は、画像形成装置10に搭載されたコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。また、各記憶部16〜18は、画像形成装置10に搭載されたHDD4にて実現される。あるいは、RAM3又は外部にある記憶手段をネットワーク経由で利用してもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
次に、本実施の形態において帳票の読取画像から項目値を抽出する処理について図4に示すフローチャートを用いて説明する。
ユーザが帳票をスキャナ6に読み取らせると、読取画像取得部11は、その帳票の読取画像を取得する(ステップ101)。続いて、画像解析部12は、取得された読取画像を解析して帳票に記載されている文字列を抽出する(ステップ102)。具体的には、OCR(Optical Character Recognition)技術を利用して、証票の読取画像から文字列を抽出する。なお、「文字列」は、文字の集合のことを意味するが、集合の中に1文字のみが含まれる場合もある。
続いて、帳票種別特定部13は、画像解析部12により抽出された文字列のうち、所定の抽出条件に合致する文字列を、その帳票のタイトルの候補として抽出する(ステップ103)。一般に、帳票のタイトルは、帳票の上方に位置し、一定以上のフォントの大きさの文字列である。従って、このような帳票上におけるタイトルの位置や、タイトルの表記文字の属性に関する条件を所定の抽出条件として予め設定しておき、この抽出条件に合致する文字列をタイトルの候補として抽出する。そして、帳票種別特定部13は、帳票種別情報記憶部16を参照し、タイトルの候補として抽出した文字列を、帳票種別情報に設定されている各タイトルと照合する。タイトルの候補となる文字列と一致するタイトルが存在すれば、その一致したタイトルを、当該帳票のタイトルと特定すると共に(ステップ104)、帳票種別情報において帳票のタイトルに対応する帳票種別を、当該帳票の帳票種別と特定する(ステップ105)。本実施の形態では、このように、帳票におけるタイトルの表記から当該帳票の帳票種別を特定する。
なお、帳票がいずれの帳票種別にも該当しない場合、その帳票は「その他」という帳票種別に分類する。
帳票の帳票種別が特定されると、項目値抽出部14は、その帳票種別に対応して設定されている定義情報を定義情報記憶部17から読み出すことによって取得し(ステップ106)、その定義情報に指定されている項目の項目値を帳票の読取画像から抽出する(ステップ107)。定義情報に、帳票上における抽出対象の各項目値の位置や領域が定義されている場合、項目値抽出部14は、定義情報を参照して帳票の読取画像の指定された位置等から項目値を抽出する。定義情報に、帳票上における抽出対象の各項目値の位置や領域が定義されてなく、抽出対象とする項目値に対応する項目名が定義されている場合、項目値抽出部14は、定義情報を参照して帳票の読取画像から項目名の位置を特定し、その項目名の近傍にある文字列を項目値として抽出させる。また、定義情報に、抽出対象の各項目値のパターン、例えば項目値を表すデータ型が定義されている場合、項目値抽出部14は、定義情報を参照して帳票の読取画像から定義されているデータ型に該当する文字列を項目値として抽出する。項目値を表すデータ型というのは、例えば項目値が日付の場合は“YYYY/MM/DD”であり、項目値抽出部14は、この“YYYY/MM/DD”という型に合致する文字列を項目値として抽出する。また、例えば項目値が金額の場合は、先頭に“¥”が付いている数字列であり、項目値抽出部14は、この“¥”が付いている数字列を項目値として抽出する。この項目値抽出部14による項目値の抽出処理は、既存技術を利用して行うようにしてもよい。
項目値抽出部14は、以上のようにして抽出した項目値を、当該項目の項目名に対応付けして項目値情報を生成して、帳票情報記憶部18に保存する(ステップ108)。より具体的には、帳票の識別情報及び当該帳票が分類される帳票種別、そして、当該帳票から抽出する項目の項目名及び当該項目の項目値を含む項目値情報を生成し、保存する。
情報提供部15は、生成された項目値情報を、例えば帳票を処理する後工程に提供したり、データ管理のためにクラウド30に提供したりする。提供する方法は特に限定しない。例えば、ファイル形式にてネットワークを介して送信したり、電子メール等の機能を利用して提供したりしてもよい。
実施の形態2.
上記実施の形態1では、帳票を1枚ずつ処理する場合を想定しているが、業務上、複数の帳票を月末等にまとめて処理する場合がある。本実施の形態では、ユーザが複数の帳票を連続してスキャナ6に読み取らせた場合、関連性のある帳票毎に分類して格納できるようにしたことを特徴としている。
図5は、本実施の形態における画像形成装置10のブロック構成図である。実施の形態1と同じ構成要素には、同じ符号を付け、説明を適宜省略する。本実施の形態における画像形成装置10は、実施の形態1における構成に、帳票分類処理部19を追加した構成を有している。
帳票分類処理部19は、複数の帳票の読取画像が連続して取得された場合において、帳票種別特定部13により各帳票の種別が特定されると、特定された各帳票の種別に応じて複数の帳票の分類処理を行う。帳票分類処理部19は、画像形成装置10に搭載されたコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。
次に、本実施の形態において処理対象の帳票を分類する処理について図6に示すフローチャートを用いて説明する。
ユーザが複数の帳票をスキャナ6に読み取らせて後述する帳票の分類を行いたい場合、ユーザは、所定の操作を行って帳票種別の指定画面を操作パネル5に表示させる。そして、ユーザは、分類の基準となる帳票種別を指定画面から入力指定する。このように、ユーザにより帳票種別が指定されると、画像形成装置10は、指定された帳票種別(以下、「指定帳票種別」ともいう)を受け付ける(ステップ201)。
続いて、ユーザは、処理対処運の複数の帳票を画像形成装置10のADF(Auto Document Feeder)にセットして順番に読み取らせる。画像形成装置10は、まず帳票を1枚読み取ると、実施の形態1において説明した項目値抽出処理を実施する(ステップ202)。項目値抽出処理の内容は、図3を用いて説明した実施の形態1と同じでよいので説明を省略する。
ここで、処理対象の帳票の帳票種別が指定帳票種別と一致する場合(ステップ203でY)、帳票分類処理部19は、帳票を分類して管理するためにグループを新規に作成し(ステップ204)、処理対象の帳票を新規作成したグループに登録する(ステップ205)。そして、未処理の帳票がまだ存在する場合(ステップ206でY)、ステップ202に戻り、ADFから続いて読み取られた帳票に対して項目値抽出処理を実施する。
ここで、処理対象の帳票の帳票種別が指定帳票種別と一致しない場合(ステップ203でN)、帳票分類処理部19は、処理対象の帳票を、作成済みであって直前の帳票が登録されたのと同じグループに登録する(ステップ205)。これにより、処理対象の帳票は、指定帳票種別に該当する直近の帳票と同じグループに振り分けられることになる。
また、処理対象の帳票の帳票種別が指定帳票種別と一致する場合(ステップ203でY)、帳票分類処理部19は、上記説明したようにグループを新規に作成する(ステップ204)。つまり、作成済みのグループとは別のグループを作成して、処理対象の帳票を新規作成したグループに登録する(ステップ205)。
以上の処理を繰り返し行い、全ての帳票に対して上記処理を実施すると(ステップ206でN)、帳票分類処理部19は、各帳票を、対応するグループのフォルダに格納する(ステップ207)。なお、各フォルダは、帳票情報記憶部18に設けられる。
以上説明したように、本実施の形態においては、連続する複数の帳票を、指定帳票種別に該当する帳票から、次に指定帳票種別に該当する帳票が表れる直前の帳票、若しくは最終の帳票(つまり、読み取らせる複数の帳票のうち最後に読み取られる帳票)までが組となるよう文書を分類する。
なお、同じ組に分類される帳票であっても、当該帳票の種別に該当する処理が施される。すなわち、項目値抽出部14は、指定帳票種別に該当しない文書に対して、指定帳票種別に対応して設定されている定義情報ではなく、当該文書の種別に対応して設定されている定義情報を用いて当該帳票の読取画像からを抽出する。
以上説明した帳票分類処理について、具体的な例を用いて説明する。
図7には、連続して読み取られる帳票31a〜31fが示されている。また、各帳票31a〜31fに対応させて、当該帳票から抽出されたタイトルが「タイトル抽出結果」として示されている。更に、当該帳票から特定された帳票種別も合わせて示されている。例えば、帳票31bのタイトルは、帳票種別情報のタイトルに設定されていない“添付1”なので、帳票種別は「その他」となる。帳票31cについても同様である。帳票31a,31d,31e,31fは、帳票種別情報の設定内容に従って帳票種別が特定される。
ここで、ユーザが請求書を基準に複数の帳票をグループ分けしたいために、帳票種別の指定画面から“請求書”を指定したとする。この場合、帳票31aの帳票種別は「請求書」なので、帳票31aが処理されることによって、ステップ204においてグループ(例えば、「グループA」)が新規作成され、このグループAに登録される。なお、このグループAが現時点で以降の帳票の登録対象となるグループとなる。
続く帳票31bの帳票種別は「その他」であって請求書ではないで、帳票31bは、ステップ205において直前に処理された帳票(つまり、直近に処理された請求書である帳票)31aと同じグループAに振り分けられる。帳票31cにおいても同様である。
続く帳票31dの帳票種別は「請求書」なので、帳票31dが処理されることによって、ステップ204においてグループ(例えば、「グループB」)が新規作成され、このグループBに登録される。これにより、グループBが現時点で以降の帳票の登録対象となるグループとなる。続く帳票31eの帳票種別は「見積書」であって請求書ではないで、帳票31eは、ステップ205において直近に処理された請求書である帳票31dと同じグループBに振り分けられる。
前述したように、同じ組に分類される帳票であっても、当該帳票の種別に該当する処理が施される。すなわち、項目値抽出部14は、例えばグループAに分類された帳票31b,31cに対して、請求書ではなくその他に対応する定義情報に従って項目値を抽出する。また、項目値抽出部14は、グループBに分類された帳票31eに対して、請求書ではなく見積書に対応する定義情報に従って項目値を抽出する。
なお、帳票31fの帳票種別は「請求書」なので、ステップ204において新たなグループ(例えば、「グループC」)が作成されることになる。これにより、グループBは、帳票31d,31eで構成されることが確定する。
図8は、図7に例示した帳票がフォルダに格納される場合を示す概念図である。図8に例示するように、各帳票31a〜31fは、該当するグループに分類されて格納される。なお、帳票31aに符号を付けて示すように、各帳票31a〜31fには、項目値抽出部14により生成された、対応する項目値情報が紐付けられる。
本実施の形態によれば、指定帳票種別が指定されると、読み取られた各帳票の帳票種別を参照することにより複数の帳票を分類することができる。
なお、本実施の形態では、ステップ201においてユーザが分類の基準となる帳票種別(上記例では、「請求書」)を指定するようにしたが、仮に、帳票種別を指定しなかった場合、帳票分類処理部19は、例えば帳票を帳票種別毎に分類して格納するようにしてもよい。つまり、請求書、見積書、及びその他という帳票種別毎にグループが作成され、各帳票が該当するグループに分類されることになる。
上記各実施の形態では、帳票を文書の一例として説明したが、複数の種類が設けられている文書であれば適用可能であり、帳票に限定する必要はない。
また、上記各実施の形態においては、本発明に係る情報処理装置が画像形成装置10に搭載されているものとして説明したが、画像形成装置10から帳票の読取画像を取得するよう構成することで、情報処理装置を画像形成装置10とは別の装置として設けてもよい。あるいは、クラウド30で実現するように構成してもよい。また、画像形成装置10が有する処理機能の一部、例えば、図1,5に示す処理機能のうち画像解析部12等を他の情報処理装置で実行させるように構成してもよい。
上記各実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また上記各実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
1 CPU、2 ROM、3 RAM、4 ハードディスクドライブ(HDD)、5 操作パネル、6 スキャナ、7 プリンタ、8 ネットワークインタフェース(IF)、9 アドレスデータバス、10 画像形成装置、11 読取画像取得部、12 画像解析部、13 帳票種別特定部、14 項目値抽出部、15 情報提供部、16 帳票種別情報記憶部、17 定義情報記憶部、18 帳票情報記憶部、19 帳票分類処理部、30 クラウド。

Claims (7)

  1. プロセッサを備え、
    前記プロセッサは、
    文書の読取画像から抽出された当該文書の種類を表す表題を用いて当該種類の文書が分類される文書の種別を特定し、
    文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する、
    ことを特徴とする情報処理装置。
  2. 前記文書の種別は、当該文書の表題が抽出されると、予め定められている文書の種別に当該種別に分類される表題を対応付けして含む種別分類情報が参照されることによって特定される、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記種別分類情報に含まれる表題は、当該種別に分類される種類の文書の表題であり、
    前記種別は、少なくとも発注書、請求書又は領収書を含む、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記プロセッサは、
    複数の文書の読取画像を連続して取得した場合、文書毎に文書の種別を特定し、
    特定した各文書の種別に応じて前記複数の文書の分類処理を行う、
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 分類処理を行う際に文書の種別が指定された場合、連続する複数の文書を、指定された文書の種別に該当する文書から、次に指定された文書の種別に該当する文書が表れる直前の文書、若しくは最終の文書までが組となるよう文書を分類する、
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 各組に分類された各文書には、当該文書の種別に対応する処理が施される、
    ことを特徴とする請求項4又は5に記載の情報処理装置。
  7. コンピュータに、
    文書の読取画像から抽出された当該文書の種類を表す表題を用いて当該種類の文書が分類される文書の種別を特定する機能、
    文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する機能、
    を実現させるためのプログラム。
JP2019178597A 2019-09-30 2019-09-30 情報処理装置及びプログラム Active JP7439435B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019178597A JP7439435B2 (ja) 2019-09-30 2019-09-30 情報処理装置及びプログラム
CN202010126738.8A CN112580414A (zh) 2019-09-30 2020-02-28 信息处理装置、信息处理方法及计算机可读介质
US16/838,093 US11521404B2 (en) 2019-09-30 2020-04-02 Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019178597A JP7439435B2 (ja) 2019-09-30 2019-09-30 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021056722A true JP2021056722A (ja) 2021-04-08
JP7439435B2 JP7439435B2 (ja) 2024-02-28

Family

ID=75119379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019178597A Active JP7439435B2 (ja) 2019-09-30 2019-09-30 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11521404B2 (ja)
JP (1) JP7439435B2 (ja)
CN (1) CN112580414A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI750572B (zh) * 2020-01-30 2021-12-21 虹光精密工業股份有限公司 運用機器學習進行文件分類的文件處理系統及方法
US20220147843A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. On-device knowledge extraction from visually rich documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319824A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 帳票認識方法
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2003168073A (ja) * 2001-11-29 2003-06-13 Toshiba Corp 帳票識別装置、帳票定義方法および帳票識別方法
US20170155783A1 (en) * 2015-11-26 2017-06-01 S-Printing Solution Co., Ltd. Image forming apparatus, mobile device, method for classifying document, and computer readable recording medium

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4760247A (en) * 1986-04-04 1988-07-26 Bally Manufacturing Company Optical card reader utilizing area image processing
US5310062A (en) * 1986-09-05 1994-05-10 Opex Corporation Apparatus for automated mail extraction and remittance processing
US5140139A (en) * 1989-11-13 1992-08-18 Cognitronics Corporation Preparing mark/read documents with markable boxes and locating the boxes from the document scan data
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
US5542007A (en) * 1993-10-27 1996-07-30 International Business Machines Corporation Form dropout compression method which handles form white-out and writing in shaded and white-out areas of the form
EP0790573B1 (en) * 1995-07-31 2007-05-09 Fujitsu Limited Document processor and document processing method
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
JP3694149B2 (ja) * 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6865715B2 (en) * 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
US6481624B1 (en) * 1997-11-26 2002-11-19 Opex Corporation Method and apparatus for processing documents to distinguish various types of documents
US6678681B1 (en) * 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
EP1124189A4 (en) * 1999-06-04 2004-07-21 Seiko Epson Corp DOCUMENT SORTING PROCESS, DOCUMENT SORTING AND RECORDING MEDIUM ON WHICH THE DOCUMENT SORTING PROGRAM IS RECORDED
US6442555B1 (en) * 1999-10-26 2002-08-27 Hewlett-Packard Company Automatic categorization of documents using document signatures
JP2001202466A (ja) * 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
US7647275B2 (en) * 2001-07-05 2010-01-12 Cummins-Allison Corp. Automated payment system and method
US7099508B2 (en) * 2001-11-29 2006-08-29 Kabushiki Kaisha Toshiba Document identification device, document definition method and document identification method
US7647320B2 (en) * 2002-01-18 2010-01-12 Peoplechart Corporation Patient directed system and method for managing medical information
US20030163785A1 (en) * 2002-02-28 2003-08-28 Hui Chao Composing unique document layout for document differentiation
US20040143547A1 (en) * 2002-07-02 2004-07-22 Dean Mersky Automated accounts payable using image typing and type specific processing
US7236653B2 (en) * 2003-03-27 2007-06-26 Sharp Laboratories Of America, Inc. System and method for locating document areas using markup symbols
US20110188759A1 (en) * 2003-06-26 2011-08-04 Irina Filimonova Method and System of Pre-Analysis and Automated Classification of Documents
WO2004095195A2 (en) * 2003-04-21 2004-11-04 Document Images, Llc System and method for managing imaged freight documents
RU2635259C1 (ru) * 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
CN100470544C (zh) * 2005-05-24 2009-03-18 国际商业机器公司 用于链接文档的方法、设备和***
US9740692B2 (en) * 2006-08-01 2017-08-22 Abbyy Development Llc Creating flexible structure descriptions of documents with repetitive non-regular structures
GB0622863D0 (en) * 2006-11-16 2006-12-27 Ibm Automated generation of form definitions from hard-copy forms
JP4825243B2 (ja) 2008-06-20 2011-11-30 富士通フロンテック株式会社 帳票認識装置、方法、データベース作成装置、方法、及びプログラム
US8254681B1 (en) * 2009-02-05 2012-08-28 Google Inc. Display of document image optimized for reading
JP4968293B2 (ja) * 2009-08-06 2012-07-04 コニカミノルタビジネステクノロジーズ株式会社 文書処理装置、文書処理方法およびプログラム
US8600814B2 (en) * 2009-08-30 2013-12-03 Cezary Dubnicki Structured analysis and organization of documents online and related methods
JP5185402B2 (ja) * 2011-01-11 2013-04-17 株式会社東芝 文書検索装置、文書検索方法、及び文書検索プログラム
JP5880052B2 (ja) 2012-01-10 2016-03-08 富士ゼロックス株式会社 文書処理装置及びプログラム
US9111140B2 (en) * 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US8931044B1 (en) * 2012-06-29 2015-01-06 Emc Corporation Methods and systems for automated assignment of protection to physical documents that are digitized
JP2014016762A (ja) 2012-07-09 2014-01-30 Hitachi Omron Terminal Solutions Corp 帳票認識装置および帳票認識方法
US8824803B2 (en) * 2012-08-31 2014-09-02 Ancestry.Com Operations Inc. Automated field position linking of indexed data to digital images
JP5942835B2 (ja) * 2012-12-20 2016-06-29 富士ゼロックス株式会社 手書き情報処理装置及びプログラム
JP6020161B2 (ja) * 2012-12-28 2016-11-02 富士通株式会社 グラフ作成プログラム、情報処理装置、およびグラフ作成方法
US9805258B2 (en) * 2014-08-21 2017-10-31 Kofax International Switzerland Sarl Systems and methods for separating documents
JP6379897B2 (ja) * 2014-09-11 2018-08-29 株式会社リコー 機器、情報処理装置、情報処理システム、データ処理方法、及びプログラム
US9544473B2 (en) * 2014-10-20 2017-01-10 Ricoh Company, Ltd. Information processing system and information processing method
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム
US10127673B1 (en) * 2016-12-16 2018-11-13 Workday, Inc. Word bounding box detection
KR20190091101A (ko) * 2018-01-26 2019-08-05 지의소프트 주식회사 딥러닝을 이용한 문서 종류 자동 분류 장치 및 방법
US10846553B2 (en) * 2019-03-20 2020-11-24 Sap Se Recognizing typewritten and handwritten characters using end-to-end deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319824A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 帳票認識方法
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2003168073A (ja) * 2001-11-29 2003-06-13 Toshiba Corp 帳票識別装置、帳票定義方法および帳票識別方法
US20170155783A1 (en) * 2015-11-26 2017-06-01 S-Printing Solution Co., Ltd. Image forming apparatus, mobile device, method for classifying document, and computer readable recording medium

Also Published As

Publication number Publication date
CN112580414A (zh) 2021-03-30
US20210097272A1 (en) 2021-04-01
US11521404B2 (en) 2022-12-06
JP7439435B2 (ja) 2024-02-28

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
US8792141B2 (en) Embedded form extraction definition to enable automatic workflow configuration
JP2007042106A (ja) 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム
US11303769B2 (en) Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium
JP2008140377A (ja) 情報検索装置、方法およびプログラム
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US20080243818A1 (en) Content-based accounting method implemented in image reproduction devices
JP7439435B2 (ja) 情報処理装置及びプログラム
JP7379987B2 (ja) 情報処理装置及びプログラム
US11593386B2 (en) Information processing apparatus and non-transitory computer readable medium
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2022128202A (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
US11182343B2 (en) File management device and file management method and non-transitory computer readable medium
CN112445911A (zh) 工作流程辅助装置、***、方法及存储介质
JP2020201822A (ja) 画像処理装置、その制御方法、及びプログラム
US20210110149A1 (en) Information processing apparatus and non-transitory computer readable medium
US10990338B2 (en) Information processing system and non-transitory computer readable medium
JP7172343B2 (ja) 文書検索用プログラム
JP2021034778A (ja) 情報処理装置及び情報処理プログラム
JP2021064122A (ja) 画像処理装置、画像処理方法、及びプログラム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP2006134079A (ja) 画像処理装置及びプログラム
US20220311889A1 (en) Information processing apparatus and information processing method
JP7404943B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240129

R150 Certificate of patent or registration of utility model

Ref document number: 7439435

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150