JP2024025219A - Pdf帳票の読取装置、読取方法及び読取プログラム - Google Patents

Pdf帳票の読取装置、読取方法及び読取プログラム Download PDF

Info

Publication number
JP2024025219A
JP2024025219A JP2022128480A JP2022128480A JP2024025219A JP 2024025219 A JP2024025219 A JP 2024025219A JP 2022128480 A JP2022128480 A JP 2022128480A JP 2022128480 A JP2022128480 A JP 2022128480A JP 2024025219 A JP2024025219 A JP 2024025219A
Authority
JP
Japan
Prior art keywords
pdf
data
type
extracting
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022128480A
Other languages
English (en)
Inventor
千明 白石
Chiaki Shiraishi
昭 伊東
Akira Ito
優花 ▲高▼木
Yuka Takagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JFE Systems Inc
Original Assignee
JFE Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JFE Systems Inc filed Critical JFE Systems Inc
Priority to JP2022128480A priority Critical patent/JP2024025219A/ja
Publication of JP2024025219A publication Critical patent/JP2024025219A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】紙に印刷する代わりにPDF化した様式不明の様々な帳票をそのまま読取り、帳票の種別を自動的に判定した上で、必要な情報を抽出して、PDF化した帳票と一緒に保存できるようにする。【解決手段】様式不明の様々なPDF帳票200から必要なデータを抽出するための、PDF帳票の読取に際し、帳票を同定できる特徴情報を帳票種別情報としてデータベース220化し、該データベースを参照し、帳票の種類に対して、その帳票種別ID210を付加し、帳票から必要なデータを抽出するためのキー定義を検索キー(202、204)として自動的に作成し、帳票を読込み、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定し、判定した帳票種別IDに対応する検索キーを取得し、読込まれた帳票をヘッダ部分200Aと明細部分200Bに分け、取得した検索キーを用いてデータを抽出する。【選択図】図3

Description

本発明は、PDF(ポータブル・ドキュメント・フォーマット)帳票の読取装置、読取方法及び読取プログラムに係り、特に、様々な様式のPDF帳票から必要なデータを抽出することが可能な、PDF帳票の読取装置、読取方法及び読取プログラムに関する。
電子帳簿保存法により、発注書や請求書等の取引の証憑(帳票とも称する)を電子化して保存することが義務付けられるようになる。その際、単に帳票イメージを保存すればよいわけではなく、「取引先」、「金額」、「取引日付」等の情報とセットで保存することが求められる。
従来は、例えば特許文献1や2に記載されたような技術を用いて、紙の帳票をOCR(光学式文字読み取り装置)で読み取って情報を読み出している。
特開2007-164609号公報 特開昭58-64573号公報
しかしながら、従来の技術は、AI(人工知能)技術などを使っても、例えば0(ゼロ)とO(オー)の判別ができない等、誤認識が多く、人手による確認や修正が必要であった。これは、たとえPDF帳票であっても、OCRで画像に変換してから解析するため、同じである。
なお、自社の帳票であれば、予めどのような帳票が来るか分かっており、ファイル名などを判定するためのキーを組込むことも可能であるが、他社から送られてくる様々な様式の帳票の場合、どのような様式の帳票が取込まれるのか不明であるという問題がある。
本発明は、前記従来の問題点を解消するべくなされたもので、紙に印刷する代わりにPDF化した様式不明の様々な帳票をそのまま読取り、帳票の種別を自動的に判定した上で、必要な情報を抽出して、PDF化した帳票と一緒に保存できるようにすることを課題とする。
本発明は、様式不明の様々なPDF帳票から必要なデータを抽出するための、PDF帳票の読取装置であって、帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手段と、該データベースを参照し、帳票の種類に対して、その帳票種別IDを付加する手段と、帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手段と、帳票を読込む手段と、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手段と、判定した帳票種別IDに対応する検索キーを取得する手段と、読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手段と、を含むことを特徴とするPDF帳票の読取装置により前記課題を解決するものである。
ここで、前記検索キーを、キー定義の名称をキー名として、データが出現する位置の明細内の座標と、明細の中の何行目かを示す段落内行指定に関する情報をPDF解析ライブラリを利用して抽出することにより自動的に作成することができる。
又、前記検索キーが、ページ内に単一出現する情報を定義するためのページキーと、ページ内に複数出現する情報を定義するためのラインキーとを含むことができる。
又、前記ラインキーの作成を、帳票から表になっている部分を抽出し、表のヘッダ部分の名称や、各列、行の座標を抽出することにより行うことができる。
又、前記ページキーが、取引先企業名、取引番号、請求合計金額、取引年月日及び担当者の少なくとも一部を含むことができる。
又、前記ラインキーが、注文番号、品目、数量、単価の少なくとも一部を含む注文明細データを含むことができる。
又、前記データを抽出する手段が、前記検索キーを用いて、表になっている部分のヘッダ部分の名称や、各列、各行の位置により、各列、各行の数値をデータとして抽出することができる。
又、前記データの抽出に際して、一枚の帳票中に表が複数存在する場合は、あらかじめ決めたルールに基づき明細部分と判定することができる。
又、前記データの抽出に際して、表中のセル内で改行されている場合は、別データとして扱い、別キーを用いて抽出することができる。
又、前記データの抽出に際して、表中のセル内のデータが数字の場合は、ヘッダ行でなくデータ行とみなすことができる。
又、前記データの抽出に際して、表中に複数列を含む列が存在する場合は、座標を修正することができる。
又、抽出されたデータをチェックして修正する手段を更に含むことができる。
又、帳票にイメージが埋込まれているか、文字コードが埋込まれているかを判別し、イメージが埋込まれている時はOCR処理する手段を更に含むことができる。
本発明は、又、様式不明の様々なPDF帳票から必要なデータを抽出するための、PDF帳票の読取方法であって、帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手順と、該データベースを参照し、帳票の種類に対して、その帳票種別IDを付加する手順と、帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手順と、帳票を読込む手順と、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手順と、判定した帳票種別IDに対応する検索キーを取得する手順と、読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手順と、を含むことを特徴とするPDF帳票の読取方法により同様に前記課題を解決するものである。
本発明は、又、様式不明の様々なPDF帳票から必要なデータを抽出するための、PDF帳票の読取方法をコンピュータにより実行させるPDF帳票の読取プログラムであって、帳票を同定できる特徴情報を帳票種別情報としてデータベース化する工程と、該データベースを参照し、帳票の種類に対して、その帳票種別IDを付加する工程と、帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する工程と、帳票を読込む工程と、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する工程と、判定した帳票種別IDに対応する検索キーを取得する工程と、読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する工程と、を含むことを特徴とするPDF帳票の読取プログラムにより同様に前記課題を解決するものである。
本発明によれば、多種類の様式不明の様々な帳票が取込まれる場合であっても、帳票の種別を自動的に判定した上で、必要な情報を抽出して、PDF化した帳票と一緒に保存することが可能となる。更に、PDF内の構造を直接覗き込んでデータを抽出するため、定義が正しく設定できれば、100%に近い識字率が期待できる。
本発明の実施形態に係るPDF帳票システムの全体を示す概略構成図 図1に示すクライアントPC、サーバのハードウェア構成を示すブロック図 本発明の実施形態の手順を示すフローチャート 実施形態で自動仕分けされる帳票の一例を示す図 実施形態の帳票仕分けにおける帳票種別情報の一例を示す図 同じく帳票種別判定の様子を示す図 同じく検索キーの種類の一例を示す図 同じくデータ抽出における抽出定義の一例を示す図 同じく検索キーの自動作成における検索キーの一例を示す図 同じくラインキー作成の仕組みを示す図 同じく表が2つ以上ある場合の一例を示す図 同じくセル内で改行されている場合の一例を示す図 同じくセルのデータが数字の場合の一例を示す図 同じく複数列を含む列が存在する場合の一例を示す図 同じくデータ抽出の様子を示す図 同じくデータ抽出の一例を示す図 図16からデータ抽出した結果を示す図 同じくデータ抽出の他の例を示す図 図18からデータ抽出した結果を示す図 実施例の機能構成を示す図 同じくデータの流れを示す図 同じくUIイメージの一例を示す図
以下、図面を参照して、本発明の実施の形態について詳細に説明する。なお、本発明は以下の実施形態及び実施例に記載した内容により限定されるものではない。また、以下に記載した実施形態及び実施例における構成要件には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。更に、以下に記載した実施形態及び実施例で開示した構成要素は適宜組み合わせてもよいし、適宜選択して用いてもよい。
図1は、本発明の実施形態に係るPDF帳票システムを示す概略構成図である。
図1に示す如く、PDF帳票システム1は、読込まれたPDF帳票を格納するサーバ101と、複数のPDF帳票を表示・印刷するクライアントPC(パーソナルコンピュータ)102と、を備えて構成されている。サーバ101とクライアントPC102とは、ネットワーク103を介して互いに通信可能に接続されている。なお、ネットワーク103の形態としては、LAN(Local Area Network)、WAN(Wide Area Network)などがある。ネットワーク103上に接続される各種装置の構成は一例であり、用途や目的に応じて様々な構成例があることは言うまでもない。なお、PDF帳票は、文字データを有する複数のフィールドを備えた帳票の電子ファイルであり、単数又は複数のページで構成されている。
サーバ101は、PDF帳票を読取る帳票読取プログラムを具備することで、PDF帳票の読取装置として機能する。又、サーバ101は、クライアントPC102によりPDF帳票から抽出したデータに対する修正を行うことができる。修正されたデータは、サーバ101に登録される。
ここで、サーバ101には、データファイル104とユーザ情報格納部105とが設けられている。データファイル104には、登録されるPDF帳票が複数格納されている。データファイル104では、同一種類のPDF帳票がグループ化され管理されている。ユーザ情報格納部105には、各PDF帳票に対する表示や印刷が可能なユーザ情報が格納されている。つまり、サーバ101は、クライアントPC102からサーバ101へ送信されるユーザ情報に従い、各PDF帳票へのアクセスを判定している。
クライアントPC102は、PDF帳票の閲覧者などが使用するPCであり、PDF帳票から抽出したデータの確認・修正を行うだけでなく、PDF帳票を表示・印刷する帳票閲覧プログラムを具備することで、PDF帳票を表示・印刷する出力装置としても機能する。
クライアントPC102によるPDF帳票を閲覧・印刷する概略手順は、以下のようになる。
まず、クライアントPC102から、サーバ101にユーザ情報と閲覧・印刷希望する
PDF帳票のリクエストを送信する。サーバ101では、そのユーザ情報をユーザ情報格納部105で参照する。そして、そのユーザ情報がユーザ情報格納部105に存在し、且つリクエストのあったPDF帳票がそのユーザ情報に対応していれば、サーバ101はそのリクエストのあったPDF帳票をクライアントPC102に送信する。クライアントPC102は、送信されたPDF帳票を受信し、帳票閲覧プログラムを用いて、表示や印刷を行う。
次に、サーバ101とクライアントPC102のハードウェア構成を、図2を用いて説明する。なお、本実施形態に係るサーバ101とクライアントPC102はいずれも同様のハードウェア構成を有するコンピュータである。このため、以下クライアントPC102のハードウェア構成についてのみ説明し、重複した説明は省略する。
クライアントPC102は、CPU110と、RAM112と、ROM114と、入力コントローラ118と、表示コントローラ120と、印刷コントローラ122と、外部メモリコントローラ124と、通信I/F(インターフェイス)コントローラ126と、を備える。
CPU110は、クライアントPC102を構成する上記各デバイスを、システムバス116を介して統括的に制御している。RAM112は、CPU110の主メモリ、ワークエリア、一時待避領域等として機能する。また、RAM112には、送信されたPDF帳票が格納される。ROM114は、CPU110の動作を可能にする初期データなどを記憶している。
入力コントローラ118は、キーボード、マウス、タッチパネル、入力タブレット等のポインティングデバイスで構成される入力部128からの入力を制御する。
表示コントローラ120は、CRTや液晶表示装置、EL表示装置等の表示部130への出力を制御する。
印刷コントローラ122は、レーザプリンタやインクジェットプリンタ等の印刷部132への出力を制御する。
外部メモリコントローラ124は、ハードディスク(HD)やスマートメディア等から構成される外部メモリ134と接続されている。そして、外部メモリコントローラ124は、外部メモリ134へのアクセスを制御し、且つ外部メモリ134への各種データの書き込みと外部メモリ134からの各種データの読み出しを制御する。
通信I/Fコントローラ126は、図示せぬネットワーク103を介して外部機器との通信制御処理を実行する。このため、印刷コントローラ122を使わずに、通信I/Fコ
ントローラ126が、図示せぬネットワーク103に接続された印刷部(図示せず)を制御してもよい。
クライアントPC102の外部メモリ134は、プログラム136と、後出帳票種別情報データベース(DB)220と、を格納している。
次に、クライアントPC102におけるPDF帳票読取りの主な手順を図3に示す。
帳票によって抽出したいデータが変わってくるため、どの帳票から来たのかを事前に自動的に仕分ける。
図4に例示する如く、発行元企業A及び注文書等の帳票種別Bを取得することで帳票を自動仕分けすることができる。
そこで、帳票を仕分けるため、入力部128等の操作により、ステップS2で、帳票を同定できる帳票種別情報(企業名、帳票種類)を帳票種別(ID)情報としてデータベース(DB)化する。
具体的には、図5に示す如く、帳票の種類に対して、予め帳票種別ID210(図では帳票01、帳票02・・・)を付加し、帳票を同定できる帳票種別情報(企業名、帳票種類)と共にデータベース化して帳票種別情報DB220(図6参照)とする。
そして、ステップS4で、図6に示す如く、帳票種別情報DB220に記憶された帳票種別ID210から、読込まれたPDF帳票200の帳票種別情報と合致する帳票種別IDを検索し、PDF帳票毎に帳票種別IDを特定して、付加し、後出のデータ抽出に備える。
次いでステップS6に進み、キー定義を検索キーとして自動的に作成する。
検索キーには、図7に示す如く、ページ内に単一出現する情報を定義するためのページキー202と、ページ内に複数出現する情報を定義するためのラインキー204がある。ページキー202には、例えば取引先企業名、取引番号、請求合計金額、取引年月日、担当者などが含まれ、ラインキー204には注文番号、品目、数量、単価などの注文明細データが含まれる。
具体的には、図8に示す如く、帳票種別ID210毎に、抽出するデータ項目を定義し、ヘッダ部分(ページに1項目)200Aに適用するページキー202なのか、明細部分(ページ内で繰り返し)200Bに適用するラインキー204なのかを指定する。
そして、例えば図9の情報を抽出することで、ページキー202とラインキー204で構成される検索キーを自動で作成する。この際、例えばプログラミング言語pythonのPDF解析ライブラリの一つである、テキスト取得、表抽出、座標取得、サイズ取得、メタデータ取得などを行う事が可能なcamelotを用いることができる。
例えば図10に示す如く、PDF帳票200から表になっている明細部分を認識し、取得する。次いで、表のヘッダ部分の名称や、各列、行の座標を抽出する。そして得た情報をもとに、データを分析、加工してラインキー204を作成する。
この際、図11に例示する如く、表が2つ以上ある場合は、あらかじめ決めたルールに基づき、例えば大きい方を明細部分と判断する。
又、図12に示す如く、セル内で改行されている場合は、別キーとして扱う。
更に、図13に示す如く、金額などセルのデータが数字の場合は、ヘッダ行ではなくデータ行とみなす。
又、図14に示す如く、複数列を含む列が存在する場合には、座標を修正する。具体的には、例えばcamelotで座標を取り出すと、「品目名称」のX座標の右端は、1列目の座標が抽出されてしまうため、2列目の座標に修正する。
図3のステップS6でキー定義を自動的に作成した後、ステップS8に進み、PDF帳票200を読込む。
次いでステップS10に進み、帳票種別情報から読み込まれた帳票の特徴と合致する帳票種別ID210を検索して、帳票の種別を判定する。
次いでステップS12に進み、図15に示す如く、帳票種別情報DB220より、抽出定義を取得して、帳票種別ID210に対応する検索キーを取得する。
次いでデータ抽出のステップS14に進み、帳票をヘッダ部分と明細部分に分け、取得した検索キー(ページキー202とラインキー204)を用いてデータを抽出する。
具体的には、図16にデータ抽出の一例を示す如く、読み込まれたPDF帳票である注文書のヘッダ部分200Aは、ページに1項目しかないものとして抽出項目をページキー202で定義する。一方、明細部分200Bは、抽出定義を繰返されるものとしてラインキー204を設定することで、表として抽出する。
図16からデータ抽出した結果の一例を図17に示す。ヘッダ部分200Aからは、ページキー202により会社名、担当者名、発行番号、発行日などが抽出される。一方、明細部分200Bからは、ラインキー204により、注文ナンバー、型番、メーカー、数量等が抽出される。
データ抽出の他の例を図18に示す。新規注文書におけるヘッダ部分200Aは、ページに1項目しかないものとして、抽出項目をページキー202で定義する。一方、明細部分200Bについては、図18のように4行1レコードの明細行の場合、抽出項目を、例えば「4行1明細の中の1行目」と定義して、1行1レコードと同様にラインキー204でデータを抽出する。これに対してAI-OCRでは図18のように複数行1明細となっている帳票では、識字率が極端に低下していた。
図18からデータ抽出した結果の一例を図19に示す。ヘッダ部分200Aからは、ページキー202により仕入先コード、会社名、購買担当、発行日などが抽出される。一方、明細部分200Bからは、ラインキー204により注文番号、納期、数量、確定注文予定日などが抽出される。
次に、本発明を適用した具体的な実施例の機能構成を図20に示す。この実施例は、外部システム190からPDF帳票200を読込んで、PDF取得、メール抽出、復号処理、必要に応じてAI-OCRを行う前処理部230と、帳票仕分及び抽出定義を行うAI自動設定部242、帳票変換及びデータ抽出を行う処理ベース244、抽出定義編集及び抽出結果確認を行うための管理画面(Webクライアント)246を含むデータ解析部240と、データ加工、直列化、他システム連携などを行ってデータデリバリ300にデータを送る後処理部250と、を主に備えている。
前記帳票仕分では、発行元企業判定や、適格請求書発行事業者コードによる法人チェックなどを行う。
図20の実施例におけるデータの流れを図21に示す。
まず、ステップS100で、PDF帳票200を取り込む。具体的には、電子メールに添付されたPDFファイルを取り出したり、電子データ交換EDIからPDFファイルを取り出す。
次いでステップS102に進み、PDF帳票200の種類を判別し、イメージ埋込PDFか文字コード埋込PDFか判断する。
次いでステップS104に進み、イメージPDFの場合にはOCR処理を行う。
次いでステップS106に進み、注文書、納品書、請求書など帳票を仕分けする。
次いでステップS108で変換設定し、ステップS110で検索定義、フォーム定義などの抽出定義を行い、次いでステップS112で、抽出、結果チェック、修正を行う。
次いでステップS114に進み、CSV化やデータ加工などの直列化を行う。
そしてステップS116でデータ連携を行う。
実施例のUI(ユーザインタフェース)イメージを図22に示す。データや抽出条件の確認・修正を1画面で行うことができる。
本実施例ではOCR処理を併用しているので、PDFから直接データを取得できる文字コード埋込PDFと異なり、PDFから直接データを取得できないイメージ埋込PDFに対しても高精度のデータ抽出を行うことができる。
前記実施形態では、情報の抽出にpythonのPDF解析ライブラリcamelotを用いていたが、情報の抽出に用いる手段は、これに限定されない。
又、処理対象も電子帳簿保存法に対応するためのものに限定されない。キーの種類もページキーとラインキーに限定されない。UIイメージも図22に限定されない。
1…PDF帳票システム
101…サーバ
102…クライアントPC
103…ネットワーク
104…データファイル
105…ユーザ情報格納部
110…CPU
112…RAM
114…ROM
116…システムバス
118…入力コントローラ
120…表示コントローラ
122…印刷コントローラ
124…外部メモリコントローラ
126…通信I/Fコントローラ
128…入力部
130…表示部
132…印刷部
134…外部メモリ
136…プログラム
190…外部システム
200…PDF帳票
200A…ヘッダ部分
200B…明細部分
202…ページキー(検索キー)
204…ラインキー(検索キー)
210…帳票種別情報(ID)
220…帳票種別情報データベース(DB)
230…前処理部
240…データ解析部
250…後処理部
300…データデリバリ

Claims (15)

  1. 様式不明の様々なPDF帳票から必要なデータを抽出するための、PDF帳票の読取装置であって、
    帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手段と、
    該データベースを参照し、帳票の種類に対して、その帳票種別IDを付加する手段と、
    帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手段と、
    帳票を読込む手段と、
    前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手段と、
    判定した帳票種別IDに対応する検索キーを取得する手段と、
    読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手段と、
    を含むことを特徴とするPDF帳票の読取装置。
  2. 前記検索キーを、キー定義の名称をキー名として、データが出現する位置の明細内の座標と、明細の中の何行目かを示す段落内行指定に関する情報をPDF解析ライブラリを利用して抽出することにより自動的に作成することを特徴とする請求項1に記載のPDF帳票の読取装置。
  3. 前記検索キーが、ページ内に単一出現する情報を定義するためのページキーと、ページ内に複数出現する情報を定義するためのラインキーとを含むことを特徴とする請求項2に記載のPDF帳票の読取装置。
  4. 前記ラインキーの作成を、帳票から表になっている部分を抽出し、表のヘッダ部分の名称や、各列、行の座標を抽出することにより行うことを特徴とする請求項3に記載のPDF帳票の読取装置。
  5. 前記ページキーが、取引先企業名、取引番号、請求合計金額、取引年月日及び担当者の少なくとも一部を含むことを特徴とする請求項3に記載のPDF帳票の読取装置。
  6. 前記ラインキーが、注文番号、品目、数量、単価の少なくとも一部を含む注文明細データを含むことを特徴とする請求項3に記載のPDF帳票の読取装置。
  7. 前記データを抽出する手段が、前記検索キーを用いて、表になっている部分のヘッダ部分の名称や、各列、各行の位置により、各列、各行の数値をデータとして抽出することを特徴とする請求項1に記載のPDF帳票の読取装置。
  8. 前記データの抽出に際して、一枚の帳票中に表が複数存在する場合は、あらかじめ決めたルールに基づき明細部分と判定することを特徴とする請求項1に記載のPDF帳票の読取装置。
  9. 前記データの抽出に際して、表中のセル内で改行されている場合は、別データとして扱い、別キーを用いて抽出することを特徴とする請求項1に記載のPDF帳票の読取装置。
  10. 前記データの抽出に際して、表中のセル内のデータが数字の場合は、ヘッダ行でなくデータ行とみなすことを特徴とする請求項1に記載のPDF帳票の読取装置。
  11. 前記データの抽出に際して、表中に複数列を含む列が存在する場合は、座標を修正することを特徴とする請求項1に記載のPDF帳票の読取装置。
  12. 抽出されたデータをチェックして修正する手段を更に含む、請求項1に記載のPDF帳票の読取装置。
  13. 帳票にイメージが埋込まれているか、文字コードが埋込まれているかを判別し、イメージが埋込まれている時はOCR処理する手段を更に含む、請求項1に記載のPDF帳票の読取装置。
  14. 様式不明の様々なPDF帳票から必要なデータを抽出するための、PDF帳票の読取方法であって、
    帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手順と、
    該データベースを参照し、帳票の種類に対して、その帳票種別IDを付加する手順と、
    帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手順と、
    帳票を読込む手順と、
    前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手順と、
    判定した帳票種別IDに対応する検索キーを取得する手順と、
    読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手順と、
    を含むことを特徴とするPDF帳票の読取方法。
  15. 様式不明の様々なPDF帳票から必要なデータを抽出するための、PDF帳票の読取方法をコンピュータにより実行させるPDF帳票の読取プログラムであって、
    帳票を同定できる特徴情報を帳票種別情報としてデータベース化する工程と、
    該データベースを参照し、帳票の種類に対して、その帳票種別IDを付加する工程と、
    帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する工程と、
    帳票を読込む工程と、
    前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別IDを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する工程と、
    判定した帳票種別IDに対応する検索キーを取得する工程と、
    読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する工程と、
    を含むことを特徴とするPDF帳票の読取プログラム。
JP2022128480A 2022-08-10 2022-08-10 Pdf帳票の読取装置、読取方法及び読取プログラム Pending JP2024025219A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022128480A JP2024025219A (ja) 2022-08-10 2022-08-10 Pdf帳票の読取装置、読取方法及び読取プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022128480A JP2024025219A (ja) 2022-08-10 2022-08-10 Pdf帳票の読取装置、読取方法及び読取プログラム

Publications (1)

Publication Number Publication Date
JP2024025219A true JP2024025219A (ja) 2024-02-26

Family

ID=90011101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022128480A Pending JP2024025219A (ja) 2022-08-10 2022-08-10 Pdf帳票の読取装置、読取方法及び読取プログラム

Country Status (1)

Country Link
JP (1) JP2024025219A (ja)

Similar Documents

Publication Publication Date Title
US10354000B2 (en) Feedback validation of electronically generated forms
US11775744B2 (en) Systems and methods for on-image navigation and direct image-to-data storage table data capture
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US9213893B2 (en) Extracting data from semi-structured electronic documents
US20090049375A1 (en) Selective processing of information from a digital copy of a document for data entry
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US8667410B2 (en) Method, system and computer program product for transmitting data from a document application to a data application
US20080235227A1 (en) Systems and methods to extract data automatically from a composite electronic document
JP6357621B1 (ja) 会計処理装置、会計処理システム、会計処理方法及びプログラム
MXPA04004573A (es) Sistemas y metodos para suministrar informacion multilingue en un dispositivo de salida.
EP1946233A2 (en) Form data extraction without customization
US20180077299A1 (en) Document output processing
US20130063769A1 (en) Information management apparatus and method, information management system, and non-transitory computer readable medium
JP6976763B2 (ja) 仕訳情報処理装置、仕訳情報処理方法、およびプログラム
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN112541498A (zh) 信息处理装置以及记录媒体
US8639709B2 (en) Comparing very large XML data
US20100023517A1 (en) Method and system for extracting data-points from a data file
JP2024025219A (ja) Pdf帳票の読取装置、読取方法及び読取プログラム
JP2010113454A (ja) データ照合システム
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN100442275C (zh) 用于鉴别中文地址数据的方法和***
JP6575207B2 (ja) 伝票検索方法、情報処理装置、および伝票検索プログラム
US10565289B2 (en) Layout reconstruction using spatial and grammatical constraints
JP2001005886A (ja) データ処理装置及び記憶媒体