JP5623079B2 - ハード・コピーの書式からの書式定義の自動発生 - Google Patents

ハード・コピーの書式からの書式定義の自動発生 Download PDF

Info

Publication number
JP5623079B2
JP5623079B2 JP2009536703A JP2009536703A JP5623079B2 JP 5623079 B2 JP5623079 B2 JP 5623079B2 JP 2009536703 A JP2009536703 A JP 2009536703A JP 2009536703 A JP2009536703 A JP 2009536703A JP 5623079 B2 JP5623079 B2 JP 5623079B2
Authority
JP
Japan
Prior art keywords
field
format
definition
name
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009536703A
Other languages
English (en)
Other versions
JP2010510563A (ja
Inventor
ナヴォン、ヤーコヴ
ショットランド、アリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2010510563A publication Critical patent/JP2010510563A/ja
Application granted granted Critical
Publication of JP5623079B2 publication Critical patent/JP5623079B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04HBUILDINGS OR LIKE STRUCTURES FOR PARTICULAR PURPOSES; SWIMMING OR SPLASH BATHS OR POOLS; MASTS; FENCING; TENTS OR CANOPIES, IN GENERAL
    • E04H1/00Buildings or groups of buildings for dwelling or office purposes; General layout, e.g. modular co-ordination or staggered storeys
    • E04H1/02Dwelling houses; Buildings for temporary habitation, e.g. summer houses
    • E04H1/04Apartment houses arranged in two or more levels
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04HBUILDINGS OR LIKE STRUCTURES FOR PARTICULAR PURPOSES; SWIMMING OR SPLASH BATHS OR POOLS; MASTS; FENCING; TENTS OR CANOPIES, IN GENERAL
    • E04H1/00Buildings or groups of buildings for dwelling or office purposes; General layout, e.g. modular co-ordination or staggered storeys
    • E04H1/06Office buildings; Banks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Architecture (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Facsimiles In General (AREA)

Description

本発明は、一般に、書式処理システムに関し、更に具体的には、書式定義の自動発生のための方法およびシステムに関する。
多くの団体および企業では、業務プロセスの一部として書式が利用される。当技術分野において、書式を自動的に処理するための様々な方法およびシステムが知られている。例えば、米国特許第5,228,100号は、書式表示に対する入力データを受け入れるためのシステムを記載している。このシステムは、スキャナを用いて書式文書の画像をスキャンし、書式画像を生成する。プロセッサが、この書式画像における文字および線のパターンを認識し、文書の物理的および論理的な構造データを生成する。プロセッサは、論理的な構造データに基づいて、書式表示にデータを入力するためのプログラムを自動的に生成する。システムは、物理的な構造データによって定義された書式表示を提示するための画面と、データ入力装置と、データが記入された書式表示に基づいてプリントアウト文書を生成するためのプリンタと、を含む。
従って、本発明の1つの態様によって、書式発生のための、コンピュータによって実施される方法が提供される。
この方法は、ハード・コピーの書式の捕捉画像を自動的に処理して、画像内の書式フィールドおよびこの書式フィールドの各々に関連付けられたテキスト文字を識別することを含む。フィールドに情報を入力するための各記入領域を定義する書式フィールドの幾何学的座標を求める。書式フィールド名を識別するために、テキスト文字に光学的文字認識(OCR)を適用する。書式フィールド名と対応するデータ・オブジェクトのオブジェクト名との関連付けを決定する。書式フィールドの記入領域の幾何学的座標を、書式フィールドに対応するデータ・オブジェクトのオブジェクト名と組み合わせて、書式定義を発生する。
本発明の一実施形態によれば、この方法は、書式定義における決定した関連付けに応答してデータ・レポジトリからデータ・オブジェクトの値を自動的に読み取ることと、この値が書式フィールドの記入領域に記入された書式のコピーを出力することと、を更に含む。
本発明の別の実施形態によれば、書式のコピーを出力するステップは、コピーをプリントすること、コピーをファクシミリによって送信すること、およびコピーを電子メールによって送信することの少なくとも1つを含む。
本発明の更に別の実施形態によれば、データ・レポジトリは、エンタープライズ・リソース・プランニング(ERP)・システムのデータベースを含む。
本発明の一実施形態によれば、ハード・コピーの書式は第1のERPシステムによって生成され、書式定義は、第1のERPシステムに取って代わる第2のERPシステムの一部である。
本発明の別の実施形態によれば、画像を自動的に処理するステップは、ハード・コピーの書式のレイアウトに関連した特徴を抽出することと、特徴を書式定義に含ませることと、を含む。
本発明のこの実施形態によれば、レイアウトに関連した特徴は、ロゴ、タイトル、フレーム、コーナー、陰影パターン、および線の少なくとも1つを含む。
本発明の一実施形態によれば、記入領域はテキスト入力領域およびチェック欄の少なくとも1つを含む。
本発明の別の実施形態によれば、関連付けを決定するステップは、書式フィールド名をデータ・オブジェクトの前記オブジェクト名と自動的に照合することを含む。
本発明の第2の態様によって、書式発生システムが提供される。このシステムは、ハード・コピーの書式から捕捉した画像を自動的に処理して、画像における書式フィールドおよび書式フィールドの各々に関連付けられたテキスト文字を識別し、書式フィールドに情報を入力するための各入力領域を定義する書式フィールドの幾何学的座標を求め、書式フィールド名を識別するためにテキスト文字に光学的文字認識(OCR)を適用し、書式フィールド名と対応するデータ・オブジェクトのオブジェクト名との関連付けを決定し、書式フィールドの入力領域の幾何学的座標を書式フィールドに対応するデータ・オブジェクトのオブジェクト名と組み合わせて書式定義を発生するように構成されたプロセッサを含む。また、書式発生システムは、ハード・コピーの書式の画像を捕捉するように構成された画像捕捉デバイスも含むことができる。
本発明の第3の態様によって、書式発生のためのコンピュータ・ソフトウェアが提供される。このソフトウェアは、プログラム命令が記憶されたコンピュータ読み取り可能媒体を含む。この命令は、コンピュータによって実行されると、このコンピュータに、ハード・コピーの書式の捕捉画像を受け入れさせ、この画像を自動的に処理して画像内の書式フィールドおよび書式フィールドの各々に関連付けられたテキスト文字を識別させ、書式フィールドに情報を入力するための各入力領域を定義する書式フィールドの幾何学的座標を求めさせ、書式フィールド名を識別するためにテキスト文字に光学的文字認識(OCR)を適用させ、書式フィールド名と対応するデータ・オブジェクトのオブジェクト名との関連付けを決定させ、書式フィールドの入力領域の幾何学的座標を書式フィールドに対応するデータ・オブジェクトのオブジェクト名と組み合わせて書式定義を発生させる。
以下に示す本発明の実施形態の詳細な説明を図面と共に考慮することによって、本発明は充分に理解されるであろう。
本発明の一実施形態に従った、書式処理システムを概略的に示すブロック図である。 本発明の一実施形態に従った、ハード・コピーの書式から書式定義を発生させるための方法を概略的に示すフロー・チャートである。 本発明の一実施形態に従った、記入済み書式をプリントするための方法を概略的に示すフロー・チャートである。 本発明の一実施形態に従った、ハード・コピーの書式の抜粋を示す図である。 本発明の一実施形態に従った、プリントした記入済み書式の抜粋を示す図である。 本発明の一実施形態に従った、ハード・コピーの書式の別の抜粋を示す図である。 本発明の一実施形態に従った、プリントした記入済み書式の別の抜粋を示す図である。
本発明の実施形態は、既存のハード・コピーの書式に基づいて書式定義を自動発生させるための方法およびシステムを提供する。これらの方法およびシステムは、例えば、ある団体が、あるエンタープライズ・リソース・プランニング(ERP)・システムから別のものに切り換える場合に、または他のデータ処理アプリケーションにおいて、利用可能である。これについては以下で更に説明する。
ERPシステムを変更する場合、新しいERPシステムにおいて、この団体が用いる書式を定義する必要がある。書式の内容およびレイアウトの手作業による定義は、グラフィック・エディタの利用によって助けられることもあるが、通常は退屈で、時間がかかり、誤りを犯しやすいプロセスである。これは、この団体が多数の複雑な書式を用いている場合は特に当てはまる。従って、人の関与を最小限に抑え、定義にかかる時間を短縮するために、書式定義プロセスを自動化することが望ましい。
ほとんどの場合、以前のERPシステムのハード・コピーの書式が利用可能である。本発明の実施形態は、利用可能なハード・コピーの書式を用いて、新しいERPシステムにおいて用いることができる同等の書式を定義する。
いくつかの実施形態においては、まず、既存のハード・コピーの書式をスキャンして、コンピュータ読み取り可能画像を生成する。書式発生装置によって、この画像のレイアウトを分析し、書式のフィールドを識別する。各書式フィールドごとに、通常は光学式文字認識(OCR)プロセスを用いて、フィールド名を抽出する。更に、フィールドの記入領域、すなわち情報が入力されることになる空白領域の幾何学的座標を識別する。いくつかの実施形態においては、ロゴ、フレーム、および他のオブジェクト等、書式のレイアウトに関連する特徴も画像から抽出する。
次いで、書式発生装置は、識別した書式フィールドを、ERPデータベース内のフィールド等の適切なデータ・オブジェクトとリンクさせる。例えば、書式発生装置は、画像から抽出した書式フィールド名と合致するオブジェクト名をデータベース内で見つけようとすることができる。これに加えて、またはこれの代わりに、ユーザが手作業で、書式フィールドとデータ・オブジェクトとの間の関連付けを実行することができる。ユーザは、自動的な関連付けの結果を検証し、または、書式発生装置が合致するオブジェクト名を探し出すことができない場合は関連付けを手作業で実行するように要求され、あるいはその両方とすることができる。関連付けプロセスの最後には、各書式フィールドはERPデータベース内の各データ・オブジェクトに関連付けられる。
書式発生装置は、識別された書式フィールド名および記入領域位置を含む書式定義を生成し、これは更に、各書式フィールドと対応するデータ・オブジェクトとの間に見出された関連付けを含む。また、書式定義は、書式のレイアウトに関連した特徴も含む。ERPシステムは、この書式定義に従って、データベースの適切なデータ・フィールドからデータを検索することによって、これ以降、書式に記入し書式をプリントアウトすることができる。
図1は、本発明の一実施形態に従った書式処理システム20を概略的に示すブロック図である。システム20は、エンタープライズ・リソース・プランニング(ERP)・システム24を含む。これは、とりわけ、情報を処理し、記入済み書式すなわち情報が記入された書式をプリントアウトする。ERPシステム24がプリントした書式は、インボイス、受領書、注文書、見積書、および報告書等、いずれかの適切な記入済み書式を含むことができる。以下の説明では、単一種類の書式の処理に言及するが、システム20は通常、多数の種類の書式をサポートする。
書式に記入することができる情報は、ERPデータベース28等のデータ・レポジトリに記憶される。記入されてプリントされる各書式は、例えば、データベース28において多数のデータ・オブジェクトを保持するレコード、または異なるレコード内に保持されるデータ・オブジェクトの組み合わせに相当するものとすることができる。データ・オブジェクトが含む情報は、書式の異なるフィールド内に現れる。データベース28内の各データ・オブジェクトはオブジェクト名を有し、更にこれは、データ・フィールドを記述する短いテキスト記述または1つ以上のキーワードあるいはその両方を含む場合がある。
ERPシステムは、書式定義またはテンプレートに従って書式を生成しプリントする。いくつかの実施形態においては、書式定義は、書式の物理的レイアウトおよびその内容の双方を規定する。書式定義は、様々な書式フィールドを規定する。定義は通常、各書式フィールドのレイアウトに関連した特性を規定する。この特性は、例えば、書式上のフィールド表題および記入領域の位置座標、または、フィールド表題および内容をプリントするために用いられるフォント、あるいはその両方等である。また、定義は、フレーム、コーナー、陰影パターン、および線等のフィールドに関連したグラフィック・オブジェクト、ならびにロゴおよび書式識別子等の書式全体の特性も規定することができる。特に、書式定義は、書式フィールドに記入される情報を保持するERPデータベース28内の各データ・オブジェクトに書式フィールドをリンクする関連付けまたはリンクを規定する。
従って、記入済み書式をプリントアウトするために、ERPシステム24は、書式定義における関連付けによって規定された、データベース28内の適切なデータ・オブジェクトについて照会することによって、記入する情報を検索する。ERPシステムは、書式定義に定義されたレイアウトに従って記入済み書式を構築する。具体的には、検索したデータベース情報を、書式フィールドの適切な記入領域に挿入する。
システムは、プリンタ等の出力デバイス32を用いて、記入済み書式36をプリントアウトする。あるいは、システムは、画像ファイルとして記入済み書式を生成し、これを電子メールを用いてその宛先に送信することができる。これ以外に、出力デバイス32がファクシミリを含むことも可能である。
書式定義は、既存のハード・コピー書式40から導出される。書式40は、捕捉デバイス44によって、書式画像と称するコンピュータ読み取り可能画像に変換される。捕捉デバイス44は、スキャナ、ファクシミリ、または、ハード・コピーの書式をコンピュータ読み取り可能画像に変換するための他のいずれかの適切なデバイスを含むことができる。
書式画像は、書式発生装置48によって処理される。書式発生装置は、書式画像を処理し、データベース28と相互作用し、更にユーザ・ワークステーション56を介してユーザ52と相互作用する場合もあり、これによって書式定義を生成する。書式定義は、ERPシステム24に供給され、システム24はこれを用いて記入済み書式をプリントアウトする。
通例、書式発生装置48は汎用コンピュータを含む。これは、本発明に記載する機能を実行するようにソフトウェアにおいてプログラムされる。ソフトウェアは、例えばネットワークを介して電子形態でコンピュータにダウンロードすることができ、あるいは、CD−ROM等の有形媒体上でコンピュータに供給することができる。いくつかの実施形態においては、書式発生装置は、ERPシステム24と同じコンピューティング・プラットフォームを共有するソフトウェア・プロセスとして実施される。あるいは、書式発生装置48およびERPシステム24は、別個のコンピューティング・プラットフォームを用いることも可能である。
図2は、本発明の一実施形態に従った、書式定義の自動発生のための方法を概略的に示すフロー・チャートである。この方法は、捕捉ステップ60において、捕捉デバイス44がハード・コピーの書式40をコンピュータ読み取り可能書式画像に変換することから開始する。
レイアウト分析ステップ62において、書式発生装置48は書式画像のレイアウトを分析する。書式発生装置は、ロゴ、タイトル、フレーム、コーナー、および線等、書式の異なるレイアウト関連の特徴を抽出する。更に、書式発生装置は、画像内のテキスト領域すなわちテキスト文字を含む領域を識別し、光学式文字認識(OCR)を用いてテキストを復号する。(以下の説明では、記入されていない書式としてハード・コピーの書式40に言及するが、本発明において記載する方法およびシステムは、ハード・コピーの記入済み書式にも適用可能である。例えば、書式フィールド名と記入された内容とを区別するようにOCRソフトウェアを構成することができる。)
フィールド定義ステップ64において、書式発生装置48は、書式画像から抽出した情報を用いて、異なる書式フィールドを識別し、それらの特性を書式定義に定義する。具体的には、書式発生装置は、識別した各書式フィールドの記入領域の書式フィールド名および座標を識別する。記入領域は、例えば、テキスト情報を入力するための空白領域およびチェック欄を含むことができる。
関連付けステップ66において、書式発生装置は、各書式フィールドをデータベース28内の各データ・オブジェクトに関連付ける。いくつかの実施形態においては、書式発生装置は、上述のステップ62においてOCRを用いて抽出した書式フィールド名を用いる。通常、オブジェクト名は、書式フィールドにある程度似ている。それらは同様のエンティティを記述するからである。従って、書式発生装置は、書式フィールドおよびデータ・オブジェクトの名前を照合することによって、それらを関連付けることができる。先に述べたように、オブジェクト名は追加のテキストまたはキーワードを含む場合があり、これによってうまく合致が見つかる可能性を高めることができる。
あるいは、ユーザ52は、ワークステーション56を用いて手作業で書式フィールドをデータ・オブジェクトに関連付けることができる。これに加えて、またはこれの代わりに、ユーザは、書式発生装置が決定した自動関連付けの結果を検証することができる。ユーザが手作業の関連付けを実行した場合であっても、完全に手作業の書式定義プロセスと比較すると、書式定義にかかる時間が著しく短縮されることに留意すべきである。
定義出力ステップ68において、書式発生装置48は書式定義を生成する。書式定義は、各書式フィールドの定義を含む。具体的には、書式定義は、書式フィールドとデータベース28内のデータ・オブジェクトとの間の関連付けを含む。書式発生装置は、書式定義をERPシステム24に供給する。
図3は、本発明の一実施形態に従った、記入済み書式36をプリントするための方法を概略的に示すフロー・チャートである。この方法は、データベース照会ステップ80において、書式定義に規定された関連付けに従ってERPシステム24が適切なデータ・オブジェクトを検索することから開始する。
書式構築ステップ82において、ERPシステムは、検索した情報を用いて記入済み書式を構築する。ERPシステムは、書式定義に規定されたレイアウト関連フィールド特性に従って、書式をレイアウトする。システムは、適切なデータ・オブジェクトから検索した情報を、各書式フィールドの記入領域に入力する。次いで、出力ステップ84において、ERPシステムは、出力デバイス32を用いて記入済み書式をプリントする。
図4は、本発明の一実施形態に従った、ハード・コピーの書式の抜粋88を示す図である。本例において、抜粋は、健康保険請求書式の一部である。この抜粋は、患者の住所の番地、市、州、郵便番号、および電話番号を入力するための5個の書式フィールドを含む。
抜粋88を分析する場合、書式発生装置48は、この5個のフィールドを識別する。各フィールドにおいて、書式発生装置は、書式フィールド名を含むテキスト領域92および記入領域96を識別する。書式発生装置は、OCRを用いてテキスト領域92内のテキストを抽出し、記入領域96の座標を求める。書式発生装置は、以下の書式フィールド名および座標を生成する。
Figure 0005623079
本例において、ERPデータベース内の特定の患者のレコードは、以下のデータ・オブジェクトおよびオブジェクト名を含む。
Figure 0005623079
書式フィールド名およびオブジェクト名は同一でないことに留意すべきである。それにもかかわらず、書式発生装置は、書式フィールド名「患者の住所(番地)」を、オブジェクト名「番地」に関連付けることができる。なぜなら、双方の名に文字列「番地」が現れるからである。他のフィールドについても、同様の関連付けを求めることができる。
図5は、本発明の一実施形態に従った、プリントした記入済み書式の抜粋100を示す図である。記入済み書式は、上述した方法を用いて、図4のハード・コピーの書式に基づいて生成される。抜粋100を生成するために、ERPシステム24は、データベース28から所望の患者のレコードを検索し、書式定義に従って書式をレイアウトする。具体的には、システムは、規定された関連付けに従って、レコードのデータ・アイテムを適切な記入領域に挿入する。
図6は、本発明の一実施形態に従った、ハード・コピーの書式の抜粋104を示す図である。患者の個人的な現況を入力するためのフィールドの本例においては、書式発生装置によって、単一の書式フィールドが、テキスト領域108および記入領域112を有する6個のサブ・フィールドと見なされる。この場合の記入領域はチェック欄を含む。書式画像を分析した後、書式発生装置48は、以下の書式フィールド名および座標を識別する。
Figure 0005623079
図7は、本発明の一実施形態による、上述の図6のハード・コピーの書式に基づいた、プリントされた記入済み書式の抜粋112を示す図である。抜粋112においては、データベース28から検索した情報に基づいて、適切なチェック欄がERPシステム24によってチェックされている。
本発明において記載した実施形態は、主に書式処理の用途に対応するが、本発明の原理は、喪失または破損した書式定義の回復および新しいレイアウトへの書式のカスタマイズまたは再定義等の用途にも使用可能である。また、本発明において記載した方法およびシステムは、新しい書式の設計または変更あるいはその両方のために使用可能である。例えば、紙の書式をスキャンして、既存のユーザ・プロファイルから自動的に抽出された情報を入力することができる。
従って、上述した実施形態は例示のために引用したに過ぎず、本発明はこれまで具体的に図示し記載したものに限定されないことは認められよう。本発明の範囲は、上述した様々な特徴の組み合わせおよび細分化した組み合わせの双方を含み、更に、これまでの記載を読むことで当業者に想起されるが従来技術には開示されていない変形および変更を含む。

Claims (9)

  1. 書式発生のための、コンピュータによって実施される方法であって、
    ハード・コピーの書式の捕捉画像を自動的に処理して、前記画像におけるテキスト文字領域と記入領域とを備える書式フィールドおよび前記書式フィールドの各々に関連付けられたテキスト文字領域を識別するステップと、
    前記フィールドに情報を入力するための各記入領域を定義する前記書式フィールドの幾何学的座標を求めるステップと、
    書式フィールド名を識別するために、前記テキスト文字領域に光学的文字認識(OCR)を適用するステップと、
    前記書式フィールド名と対応するデータ・オブジェクトのオブジェクト名との関連付けを決定するステップと、
    前記書式フィールドの前記記入領域の前記幾何学的座標を、前記書式フィールドに対応する前記データ・オブジェクトの前記オブジェクト名と組み合わせて、書式定義を発生するステップと、
    前記書式定義における前記決定した関連付けに応答してデータ・レポジトリから前記データ・オブジェクトの値を自動的に読み取るステップと、
    前記値が前記書式フィールドの前記記入領域に記入された前記書式のコピーを出力するステップと、
    を含む、前記方法。
  2. 前記データ・レポジトリがエンタープライズ・リソース・プランニング(ERP)・システムのデータベースを含む、請求項1に記載の方法。
  3. 前記ハード・コピーの書式が第1のERPシステムによって生成され、前記書式定義が、前記第1のERPシステムに取って代わる第2のERPシステムの一部である、請求項1に記載の方法。
  4. 前記画像を自動的に処理するステップが、前記ハード・コピーの書式のレイアウトに関連した特徴を抽出すること、および前記特徴を前記書式定義に含ませることを含む、請求項1に記載の方法。
  5. 前記レイアウトに関連した特徴が、ロゴ、タイトル、フレーム、コーナー、陰影パターン、および線の少なくとも1つを含む、請求項4に記載の方法。
  6. 前記記入領域がテキスト入力領域およびチェック欄の少なくとも1つを含む、請求項1に記載の方法。
  7. 前記関連付けを決定するステップが、前記書式フィールド名を前記データ・オブジェクトの前記オブジェクト名と自動的に照合することを含む、請求項1に記載の方法。
  8. 書式発生システムであって、
    ハード・コピーの書式の捕捉画像を自動的に処理して、前記画像におけるテキスト文字領域と記入領域とを備える書式フィールドおよび前記書式フィールドの各々に関連付けられたテキスト文字領域を識別し、前記書式フィールドに情報を入力するための各記入領域を定義する前記書式フィールドの幾何学的座標を求め、書式フィールド名を識別するために前記テキスト文字領域に光学的文字認識(OCR)を適用し、前記書式フィールド名と対応するデータ・オブジェクトのオブジェクト名との関連付けを決定し、前記書式フィールドの前記入力領域の前記幾何学的座標を前記書式フィールドに対応する前記データ・オブジェクトの前記オブジェクト名と組み合わせて書式定義を発生し、前記書式定義における前記決定した関連付けに応答してデータ・レポジトリから前記データ・オブジェクトの値を自動的に読み取るように構成されたプロセッサを含み、更に、前記値が前記書式フィールドの前記記入領域に記入された前記書式のコピーを出力するように構成された出力デバイスを含む、前記システム。
  9. 書式発生のためのコンピュータ・ソフトウェアであって、プログラム命令が、請求項1から7のいずれかに記載された方法の各ステップを前記コンピュータに実行させる、前記コンピュータ・ソフトウェア。
JP2009536703A 2006-11-16 2007-11-07 ハード・コピーの書式からの書式定義の自動発生 Active JP5623079B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB0622863.9A GB0622863D0 (en) 2006-11-16 2006-11-16 Automated generation of form definitions from hard-copy forms
GB0622863.9 2006-11-16
PCT/EP2007/061965 WO2008058871A1 (en) 2006-11-16 2007-11-07 Automated generation of form definitions from hard-copy forms

Publications (2)

Publication Number Publication Date
JP2010510563A JP2010510563A (ja) 2010-04-02
JP5623079B2 true JP5623079B2 (ja) 2014-11-12

Family

ID=37605400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009536703A Active JP5623079B2 (ja) 2006-11-16 2007-11-07 ハード・コピーの書式からの書式定義の自動発生

Country Status (7)

Country Link
US (1) US8520889B2 (ja)
EP (1) EP2092463A1 (ja)
JP (1) JP5623079B2 (ja)
KR (1) KR20090079226A (ja)
CN (1) CN101523413A (ja)
GB (1) GB0622863D0 (ja)
WO (1) WO2008058871A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740692B2 (en) 2006-08-01 2017-08-22 Abbyy Development Llc Creating flexible structure descriptions of documents with repetitive non-regular structures
JP5115089B2 (ja) * 2007-08-10 2013-01-09 富士通株式会社 キーワード抽出方法
US20090226090A1 (en) * 2008-03-06 2009-09-10 Okita Kunio Information processing system, information processing apparatus, information processing method, and storage medium
CN101661512B (zh) * 2009-09-25 2012-01-11 万斌 一种识别传统表单信息并创建对应Web表单的***及方法
JP2012009005A (ja) * 2010-05-24 2012-01-12 Pfu Ltd 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法
JP2012009000A (ja) * 2010-05-24 2012-01-12 Pfu Ltd 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法
US8977971B2 (en) * 2010-12-24 2015-03-10 General Electric Company Metadata generation systems and methods
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及***
JP2012194879A (ja) * 2011-03-17 2012-10-11 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
US8724931B2 (en) * 2011-05-27 2014-05-13 Ebay Inc. Automated user information provision using images
US8386535B2 (en) * 2011-07-29 2013-02-26 Ricoh Company, Ltd. Form processing cloud service with template repository
CN102915230B (zh) * 2011-08-02 2016-04-27 联想(北京)有限公司 一种用户界面生成方法、装置及电子设备
US9129276B1 (en) * 2011-11-02 2015-09-08 Intuit Inc. Inventory management
US9111140B2 (en) * 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US10346444B1 (en) * 2012-01-12 2019-07-09 OpsDog, Inc. Management of standardized organizational data
US10114800B1 (en) * 2013-12-05 2018-10-30 Intuit Inc. Layout reconstruction using spatial and grammatical constraints
CN105404636B (zh) * 2014-11-18 2017-09-29 国网山东省电力公司 基于sap***的纸质单据电子化平台实现方法及***
US20160253305A1 (en) * 2015-02-27 2016-09-01 Calvin Wiese Filling Forms with a Smartphone
US20170011483A1 (en) * 2015-07-09 2017-01-12 ClearNDA, LLC System and method for electronic signature creation and application
US9935941B2 (en) 2015-09-16 2018-04-03 International Business Machines Corporation Mobile based multi-channel citizen account origination in digital economy
CN105631103B (zh) * 2015-12-24 2018-12-21 北京汽车研究总院有限公司 一种多体模型表单化管控的方法及***
TWI680411B (zh) * 2016-01-07 2019-12-21 葉振忠 電子表單建立系統及方法
CN107330796B (zh) * 2016-04-29 2021-01-29 泰康保险集团股份有限公司 组件化生成表单的数据处理方法及***
CN107145312A (zh) * 2017-04-27 2017-09-08 广州慧扬健康科技有限公司 基于电子病历表单设计器的半自动化打印模版设计器
US10268883B2 (en) * 2017-08-10 2019-04-23 Adobe Inc. Form structure extraction network
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법
TWI682327B (zh) * 2018-01-02 2020-01-11 虹光精密工業股份有限公司 影像整合列印系統以及影像整合列印方法
US10915701B2 (en) * 2018-03-19 2021-02-09 Adobe Inc. Caption association techniques
US11416674B2 (en) 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium
CN109284712B (zh) * 2018-09-20 2021-04-27 浙江口碑网络技术有限公司 商品信息的配置方法及装置
CN110032920A (zh) * 2018-11-27 2019-07-19 阿里巴巴集团控股有限公司 文字识别匹配方法、设备和装置
CN109710907A (zh) * 2018-12-20 2019-05-03 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN109871521A (zh) * 2019-01-08 2019-06-11 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
US11003862B2 (en) 2019-03-20 2021-05-11 Adobe Inc. Classifying structural features of a digital document by feature type using machine learning
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11087079B1 (en) 2020-02-03 2021-08-10 ZenPayroll, Inc. Collision avoidance for document field placement
JP7468004B2 (ja) 2020-03-11 2024-04-16 富士フイルムビジネスイノベーション株式会社 帳票処理装置及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3172006D1 (en) 1980-05-22 1985-10-03 Masayuki Ishikawa Novel quinazoline-dione compounds, process for production thereof and pharmaceutical use thereof
EP0407935B1 (en) * 1989-07-10 1999-10-06 Hitachi, Ltd. Document data processing apparatus using image data
IT1235545B (it) 1989-07-10 1992-09-09 Ausimont Srl Fluoroelastomeri dotati di migliore processabilita' e procedimento di preparazione
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
JPH05216932A (ja) 1992-02-03 1993-08-27 Hitachi Ltd 情報管理システム
US5619708A (en) * 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
SE511242C2 (sv) * 1997-04-01 1999-08-30 Readsoft Ab Förfarande och anordning för automatisk datafångst hos formulär
JP2000003403A (ja) * 1998-06-16 2000-01-07 Hitachi Ltd 帳票入力支援方法
JP2000172770A (ja) * 1998-12-07 2000-06-23 Hitachi Ltd システム間連携装置および方法
JP2000251012A (ja) 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2000268106A (ja) * 1999-03-15 2000-09-29 Casio Comput Co Ltd 帳票処理装置およびそのプログラム記録媒体
US6640009B2 (en) * 2001-02-06 2003-10-28 International Business Machines Corporation Identification, separation and compression of multiple forms with mutants
EP1361524A1 (en) 2002-05-07 2003-11-12 Publigroupe SA Method and system for processing classified advertisements
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2004145736A (ja) * 2002-10-25 2004-05-20 Canon Software Inc 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
US20050210048A1 (en) 2004-03-18 2005-09-22 Zenodata Corporation Automated posting systems and methods
US20050288808A1 (en) * 2004-06-14 2005-12-29 Lopez George A Computer system for efficient design and manufacture of multiple-component devices

Also Published As

Publication number Publication date
KR20090079226A (ko) 2009-07-21
GB0622863D0 (en) 2006-12-27
WO2008058871A1 (en) 2008-05-22
EP2092463A1 (en) 2009-08-26
CN101523413A (zh) 2009-09-02
US20100128922A1 (en) 2010-05-27
US8520889B2 (en) 2013-08-27
JP2010510563A (ja) 2010-04-02

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
US9613267B2 (en) Method and system of extracting label:value data from a document
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US20050289182A1 (en) Document management system with enhanced intelligent document recognition capabilities
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP5121599B2 (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US20060023238A1 (en) Select reprint of records in variable data printing
US20130054595A1 (en) Automated File Name Generation
JP2007042106A (ja) 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム
US8418050B2 (en) Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
JP2009224958A (ja) 業務手順推定システム及びプログラム
JP6357621B1 (ja) 会計処理装置、会計処理システム、会計処理方法及びプログラム
JP5061151B2 (ja) オブジェクト取得装置、オブジェクト管理システム、オブジェクト管理方法
JP2973913B2 (ja) 入力シートシステム
JP5844564B2 (ja) 帳票認識システム
JP7379987B2 (ja) 情報処理装置及びプログラム
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP7439435B2 (ja) 情報処理装置及びプログラム
JP4179977B2 (ja) スタンプ処理装置、電子承認システム、プログラム、及び記録媒体
JP5059529B2 (ja) 情報処理システム,情報処理装置,プログラム,および記録媒体
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
US20030009498A1 (en) Method for digitally reordering and editing business stationery
JP7268764B1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2006134079A (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130321

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130605

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140924

R150 Certificate of patent or registration of utility model

Ref document number: 5623079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150