JPH07160806A - 文書用紙認識システム - Google Patents

文書用紙認識システム

Info

Publication number
JPH07160806A
JPH07160806A JP6229154A JP22915494A JPH07160806A JP H07160806 A JPH07160806 A JP H07160806A JP 6229154 A JP6229154 A JP 6229154A JP 22915494 A JP22915494 A JP 22915494A JP H07160806 A JPH07160806 A JP H07160806A
Authority
JP
Japan
Prior art keywords
paper
group
template
frequent
submission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6229154A
Other languages
English (en)
Other versions
JP2643094B2 (ja
Inventor
E Berger Mark
マーク・イー・バーガー
Hsiao Sun
フシアーオ・サン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH07160806A publication Critical patent/JPH07160806A/ja
Application granted granted Critical
Publication of JP2643094B2 publication Critical patent/JP2643094B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 印刷済み用紙の用紙認識をより優れた方法で
管理する。 【構成】 文書用紙テンプレートは、関連用紙テンプレ
ートからなるグループにグループ分けされる。システム
が特定のテンプレートを使用する回数は、所定の用紙処
理対象期間中に各グループごとにカウントされる。次
に、提出された用紙を処理する際に、本方法は、集合提
出物に含まれる複数の提出用紙を走査により取り込む。
第一の用紙について、用紙認識処理が開始される。本方
法は、最も頻度の高いグループから検索を開始し、第一
の用紙と一致する用紙テンプレートを探し出す。最も頻
度の高い主要用紙テンプレートで第一の用紙が正しく認
識された場合、本方法は、残りの提出用紙群についてそ
のグループを検索する。最も頻度の高いグループで第一
の用紙が正しく認識されなかった場合、本方法は、2番
目に処理頻度の高い主要グループのテンプレートで、第
一の用紙との突合せを試みる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、広くデータ処理に関
し、より具体的には、文書用紙の認識に関する。
【0002】
【従来の技術】本特許出願は、係属米国特許願第07/
870129号に関連するものであり、この米国特許願
は、参照によって本明細書に組み込まれる。
【0003】本特許出願は、係属米国特許願第07/8
70507号にも関連するものであり、この米国特許願
は、参照によって本明細書に組み込まれる。
【0004】本特許出願は、米国特許第5140650
号(特許願第07/305828号)にも関連するもの
であり、この米国特許は、参照によって本明細書に組み
込まれる。
【0005】本特許出願は、係属米国特許願第08/0
51972号にも関連するものであり、この米国特許願
は、参照によって本明細書に組み込まれる。
【0006】本特許出願は、係属米国特許願(IBM整
理番号BT993026)にも関連するものであり、こ
の米国特許願は、参照によって本明細書に組み込まれ
る。
【0007】本特許出願は、係属米国特許願(IBM整
理番号BT993006)にも関連するものであり、こ
の米国特許願は、参照によって本明細書に組み込まれ
る。
【0008】企業や政府機関は、業務用のデータを収集
するために各種用紙を使用している。印刷済みの用紙を
使用すれば、企業は提出者から効率よくデータを収集
し、データ処理システムに入力することができる。上記
の参考文献には、印刷済み用紙のディジタル・イメージ
を走査して、その用紙のイメージ上で文字認識を行い、
必要なデータを収集するためのシステムと方法の例がい
くつか記載されている。
【0009】所与の1年間に1つの企業または政府機関
が使用する用紙は、数十種類に及び、数百種類に及ぶ場
合すらある。たとえば、米国国税庁では、毎年、連邦税
法の変更に対応して新しい版の所得申告用紙を発行して
いかなければならない。つまり、毎年、旧所得申告用紙
の新しい版を数百種類発行する上に、さらにまったく新
しい所得申告用紙も発行しなければならない。しかも、
その用紙の多くは、表だけでなく裏にも事前に印刷が行
われている。
【0010】提出された印刷済み用紙の自動処理では、
その用紙のディジタル・イメージの用紙識別コードを認
識することから始める。これを行うには、その用紙に特
有な外観上の特徴を定義する必要がある(ここではこの
定義を「テンプレート」という)。用紙認識テンプレー
トは、未記入の用紙のマスタ・コピーをディジタル化し
たイメージでもよい。あるいは、用紙番号またはバー・
コードを座標と数値で表したものでもよい。あるいは、
マスタ用紙の一部または全部に対応する、ラン・レング
ス・コード値のマトリックスになっているものでもよ
い。上記の参考文献には、これらのテンプレートの他に
も多くの用紙認識テンプレートの例が記載されている。
【0011】用紙認識に関する従来技術の重大な問題
は、走査によってシステムに取り込んだ各用紙を識別す
るのに、用紙テンプレートのアーカイブ全体を検索しな
ければならない点である。このため、用紙処理の用紙認
識段階の性能が著しく制約を受けることになる。
【0012】
【発明が解決しようとする課題】本発明の一目的は、印
刷済み用紙の用紙認識をより優れた方法で管理すること
にある。
【0013】本発明の他の目的は、テンプレート・アー
カイブから正しい用紙認識テンプレートを見つけるのに
必要な時間が短縮するように、印刷済み用紙の用紙認識
を管理することにある。
【0014】本発明の他の目的は、特定の用紙タイプの
処理頻度に応じてテンプレート・アーカイブの検索順序
を変更するように、印刷済み用紙の用紙認識を適応管理
することにある。
【0015】
【課題を解決するための手段】上記およびそれ以外の目
的、特徴、利点は、本明細書で開示する用紙認識管理シ
ステムおよび方法によって達成される。特に、本発明の
方法は、1つの提出物で相互に関連する複数の用紙を受
け取る企業や機関に対応できるものになっている。この
ような提出物を、集合提出物という。主な例としては、
所得税申告用紙がある。この場合、連邦個人所得税申告
用紙1040が特定の課税年度用の主要用紙であるが、
通常、同一課税年度に関連する、付表Aや付表Bなどの
関連用紙が添付される。もう1つの例は、四半期分連邦
消費税申告用紙720であるが、これには通常、用紙7
20付表Aが添付される。これ以外にも、保険会社、銀
行の融資部門など、各種用紙からなる集合提出物を受け
取る機関や企業は数多くある。
【0016】本発明の方法では、まず、すべての用紙テ
ンプレートをその関連主要用紙テンプレート別にグルー
プ分けすることから始める。たとえば、用紙1040の
表紙が連邦所得税の提出物の主要用紙になる。この用紙
が、取引きのタイプと、その取引きの課税年度の特徴を
表している。次に、1つのグループに含まれるテンプレ
ートを使用する回数を、所定の用紙処理対象期間中にグ
ループごとにカウントする。この対象期間は、前月、前
週、前日、または直前1時間のいずれでもよい。次に、
最も処理頻度の高いグループから最も処理頻度の低いグ
ループへと、テンプレート・グループの検索順序を頻度
別に決定する。次に、本方法では、提出された印刷済み
用紙を処理する際に、集合提出物に含まれる複数の提出
用紙を走査により取り込む。集合提出物の第一の用紙に
ついて用紙認識処理が開始される。本発明の方法では、
最も頻度の高いグループから検索を開始し、第一の用紙
と一致する用紙テンプレートを探し出す。最も頻度の高
いグループで第一の用紙が正しく認識された場合、本方
法は、そのグループを検索して第二の用紙の突合せを行
う。上記2つのステップは、1つの用紙認識プロセッサ
で行ってもよい。あるいは、独自の用紙認識機能を有す
るインテリジェント・スキャナで第一の用紙の検索を行
ってもよい。インテリジェント・スキャナは第一の用紙
と一致する用紙テンプレートを見つけると、第二の用紙
認識プロセッサにそのグループのIDを出力し、この第
二の用紙認識プロセッサが関連用紙テンプレートのグル
ープにアクセスして、第二の用紙を検索する。
【0017】関連テンプレートのグループは、一般に、
比較的大規模なファイルで構成されており、相当な記憶
容量を必要とする。このため、通常、多くの関連用紙テ
ンプレート・グループからなるアーカイブは記憶サーバ
に格納される。用紙認識プロセッサに格納されるのは、
1つまたは数個の頻繁に処理される関連用紙テンプレー
ト・グループだけである。用紙認識を最高速度で行うた
め、用紙認識プロセッサのRAMメモリにテンプレート
を格納する。記憶容量に制約があるため、RAMには一
度に数個のグループしか格納されない。このため、特定
の処理セッション中に処理する用紙の大部分が使用でき
るような正しいグループをプロセッサのRAMメモリに
置いておくことが、性能を上げるためには重要である。
グループのサイズを縮小して最も確率の高いテンプレー
トに限定すると、全体的な性能が向上する。
【0018】第一の用紙が正しく識別されると、本方法
は、集合提出物に含まれる次の提出用紙について用紙認
識プロセスを開始する。本方法では、第一のグループの
用紙テンプレートから検索を開始し、次の提出用紙と一
致する用紙テンプレートを探し出す。第一のグループの
用紙テンプレートで次の提出用紙が正しく認識された場
合、本方法は、集合提出物の残りの提出用紙群について
用紙認識プロセスを続行する。次の提出用紙が第一のグ
ループで正しく認識されなかった場合、本方法は、アー
カイブ内の他のグループに含まれる用紙テンプレートを
検索する。
【0019】最も頻度の高いグループで第一の用紙が正
しく認識されなかった場合、本方法では、2番目に処理
頻度の高いグループを使用して検索し、第一の用紙と一
致する用紙テンプレートを探し出す。2番目に頻度の高
いグループで第一の用紙が正しく認識された場合、本方
法は、第二のグループを検索し、集合提出物中の検索用
紙の突合せを行う。
【0020】この結果、本発明は、印刷済み用紙の用紙
認識をより優れた方法で管理することになり、テンプレ
ート・アーカイブから正しい用紙認識テンプレートを見
つけるのに必要な時間が短縮される。
【0021】本発明は、印刷済み用紙の用紙認識を適応
管理して、特定の用紙タイプの処理頻度に応じてテンプ
レート・アーカイブの検索順序を変更する。
【0022】上記およびその他の目的、特徴、利点は、
添付図面を参照すれば、より完全に理解されるだろう。
【0023】
【実施例】用紙認識管理システムおよび方法は、図1に
示す用紙認識管理プロセッサ100によって実行でき
る。プロセッサ100は、バス104によってCPU1
06、スキャナ108、ディスク・ドライブ414、お
よびLANアダプタ112に接続されたメモリ102を
含む。バス104は、キーボードおよびディスプレイ1
14と、マウス・ポインティング・デバイス116にも
接続されている。LANアダプタ112は、ローカル・
エリア・ネットワーク140を介して文字認識プロセッ
サに接続されている。
【0024】図1のメモリ102はセレクタ・レジスタ
504を含み、このレジスタは区画504内に第一の順
序選択、第二の順序選択、および第三の順序選択を含ん
でいる。グループ・カウンタ・レジスタ502は、グル
ープ93、92、および91を含んでいる。グループ・
テンプレート区画122はテンプレート・グループ41
8を含む。文書イメージ区画124は、スキャナ108
による走査によって取り込んだ文書のディジタル化イメ
ージを格納する。メモリ102には用紙認識プログラム
126が格納されている。用紙認識管理プログラム30
0の流れ図は図3に示すが、このプログラムもメモリ1
02に格納されている。また、メモリ102にはオペレ
ーティング・システム130も含まれている。メモリ1
02に格納されているプログラム群は、それぞれ一連の
実行可能命令で構成され、CPU106で実行される
と、所期の操作を実行する。
【0025】図7はプロセッサ100で実行されるとお
りに用紙認識管理プロセスのプロセス流れ図を示したも
のである。図7には、主要用紙、たとえば、連邦所得税
申告用紙1040の1ページ目400が文書スキャナ1
08で用紙認識プロセス402に取り込まれることが示
されている。用紙認識プロセス402は、次のテンプレ
ート・グループをそのプロセスに入力するよう求める要
求を出力する。図7の例には、3つのテンプレート・グ
ループ405、つまり、1993年度用の用紙1040
グループ416と、1992年度用の用紙1040グル
ープ418と、1991年度用の用紙1040グループ
420がある。セレクタ404は、セレクタ・レジスタ
504に指定した順序に応じて、テンプレート・グルー
プ416、418、420のうちのいずれかを選択す
る。図7に示すように、セレクタ・レジスタ504は、
グループ416を第一のグループとし、グループ418
を第二のグループとし、グループ420を第三のグルー
プとして順序づけし、次のグループを要求するときにこ
れらのグループをこの順序で用紙認識プロセス402に
連続入力する。
【0026】用紙認識プロセス402が、入力用紙イメ
ージ400に最も一致するテンプレートを持つものとし
て、テンプレート・グループ416、418、420の
いずれか1つを正しく識別すると、このプロセスは、こ
のグループを検索し、提出物に含まれる残りの用紙群に
一致するものを見つける。図7の例では、グループ41
6は1993年度用の用紙1040グループであり、1
993年度用の用紙1040のバージョン1の1ページ
目と2ページ目、1993年度用の付表A用紙のバージ
ョン1の1ページ目、1993年度用の付表B用紙のバ
ージョン1の1ページ目、1993年度用の用紙456
2のバージョン1の1ページ目、1993年度用の用紙
4562のバージョン1の2ページ目、1993年度用
の用紙4562のバージョン2の2ページ目という7種
類の関連用紙で構成される。1992年度用の用紙10
40グループについても、同様の用紙群がグループ41
8にグループ分けされる。ただし、グループ418に
は、用紙4562のバージョン2の2ページ目が欠落し
ていることに留意されたい。同様にテンプレート記憶域
414の第三のグループはグループ420で、これは1
991年度用の用紙1040グループである。このグル
ープも、1992年度用と同様の用紙群を含むが、それ
ぞれの用紙は1991課税年度用の用紙独特の外観を呈
している。
【0027】本発明によると、提出された印刷済み用紙
を処理する際に、本方法は、1つの集合提出物に含まれ
る複数の提出用紙を走査により取り込む。たとえば、こ
の集合提出物は、1993年度用連邦用紙1040の1
ページ目の後に用紙1040の2ページ目、付表A、付
表B、用紙4562の表紙と裏表紙の各イメージが続い
ている場合が考えられる。この提出物の第一の用紙につ
いて用紙認識処理が始まる。この用紙は文書スキャナ1
08に最初にセットされるものである。本発明による
と、本方法では、最も頻度の高いグループから検索を開
始して、第一の用紙と一致するテンプレート・グループ
を探し出すことから始める。図7では、セレクタ404
は、レジスタ504に指定された第一のグループ、つま
り、1993年度用の用紙1040であるグループ41
6を第一のグループとして選択する。最初は、最も頻度
の高いグループ416がプロセッサ100のRAMメモ
リに格納される。最も頻度の高いテンプレート・グルー
プ416内のテンプレートで第一の用紙が正しく認識さ
れた場合、本方法は、提出用紙群の残りの用紙について
同じグループを検索する。図7の例では、用紙認識プロ
セス402が、文書スキャナ108から入力した主要用
紙イメージ400を、グループ416の主要テンプレー
トと一致するものであると識別する。次にこのプロセス
は、1993年度用の用紙1040グループの残りの用
紙について、グループ416を検索する。この2つのス
テップは、図1に示す同一の用紙認識プロセッサ100
で実行してもよい。
【0028】上記の方法に代わるものとして、図2に示
す主要用紙認識機能を備えたスキャナ・プロセッサ10
1のように、独自の用紙認識機能を有するインテリジェ
ント・スキャナで用紙検索を実行してもよい。インテリ
ジェント・スキャナ101は、対象用紙と一致する用紙
テンプレートを見つけると、LAN140を介してその
用紙のIDを図2に示す第二の用紙認識プロセッサ10
3に出力する。この第二の用紙認識プロセッサ103
は、テンプレート記憶域414または414'から関連
用紙テンプレートのグループにアクセスする。次に、第
二の用紙認識プロセッサ103は、そのグループ内の残
りの用紙すべてについて用紙認識を実行し、すべての用
紙IDと用紙イメージ400'とを文字認識プロセッサ
に出力する。
【0029】図8に移って説明すると、本発明のもう1
つの特徴は適応管理機構である。図8では、グループ・
カウンタ502が用紙認識プロセス402に接続され、
所定の用紙処理対象期間中にグループごとにそのグルー
プのテンプレートが使用された回数をカウントする。こ
の対象期間は、前月、前週、前日、または直前1時間の
いずれでもよい。たとえば、図8のグループ・カウンタ
502は、1993年度用のグループ416を2500
0回使用し、グループ418を101回使用し、グルー
プ410は5回だけ使用した結果を示している。グルー
プ・カウンタ502は、直前の対象期間に処理したそれ
ぞれのグループごとの発生頻度をセレクタ・レジスタ5
04に加えて、グループ405の検査順序を確立する。
図8に示すように、1993年度用の主要用紙の処理頻
度が最も高いので、文書スキャナ108で集合提出物の
第一の用紙を新たに走査するたびに、テンプレート・グ
ループ416が用紙認識プロセスによって最初に選択さ
れる。第一のテンプレート・グループ416には入力用
紙のイメージと一致するテンプレートが含まれていない
場合、セレクタ404は第二のテンプレート・グループ
418を選択する。このグループにも一致するテンプレ
ートが含まれていないと、セレクタ404は第三のテン
プレート420を選択する。この順序は、グループ・カ
ウンタ502の制御どおりにセレクタ・レジスタ504
によって設定される。
【0030】図9を参照して説明すると、図8の例と異
なるのは、直前の対象期間中に1992年度用のグルー
プが14000回処理されたのに対し、1993年度用
のグループは201回しか処理されていないことがグル
ープ・カウンタ502に示されている点である。この場
合、1991年度分のカウントは5のままである。この
情報はセレクタ404のセレクタ・レジスタ504に加
えられ、テンプレート・グループ405にアクセスする
ための別の順序が設定される。図9では、文書スキャナ
108によって第一の用紙400が新たに走査されるた
びに、セレクタ404は、用紙認識プロセス402での
検索および突合せ用として、まず、グループ418を選
択する。次に、グループ416が検索され、3番目とし
てグループ420が検索される。
【0031】図10では、上記の例を若干変更して示
す。この場合、グループ・カウンタ502のカウント
は、1991年度用グループを13000回使用したの
に対し、1992年度用グループについては301回し
か処理しておらず、1993年度用グループの処理回数
はわずか7回にすぎないことを示している。この情報は
セレクタ・レジスタ504に加えられ、その結果、第一
のグループとしてグループ420、第二のグループとし
てグループ418、第三のグループとしてグループ41
6というように、テンプレート・グループ405の選択
順序が決定される。
【0032】図8のグループ416などの関連テンプレ
ートのグループは、通常、比較的大きいファイルで構成
され、相当な記憶容量を必要とする。多くの関連用紙テ
ンプレート・グループからなるアーカイブは、一般に、
図1のディスク・ドライブ414などの記憶サーバに格
納される。用紙認識プロセッサのメモリ102に格納さ
れるのは、1つまたは数個の頻繁に処理される関連用紙
テンプレート・グループだけである。用紙認識を最高速
度で行うため、用紙認識プロセッサ100のRAMメモ
リ102にテンプレートを格納する。記憶容量に制約が
あるため、RAMには一度に1つのグループしか格納さ
れない。このため、特定の処理セッション中に処理する
用紙の大部分が使用できるような正しいグループ416
または418または420のいずれかをプロセッサ10
0のRAMメモリ102に置いておくことが、用紙認識
のパフォーマンスにとって重要である。
【0033】グループ405を正しく識別すると、本方
法は、集合提出物に含まれる次の提出用紙について用紙
認識プロセスを開始する。本方法では、たとえば、グル
ープ416の関連用紙テンプレートから検索を開始し、
次の提出用紙と一致する用紙テンプレートを探し出す。
グループ416の用紙テンプレートで次の提出用紙が正
しく認識された場合、本方法は、文書スキャナ108に
よる走査で取り込んだ集合提出物の残りの提出用紙群に
ついて用紙認識プロセスを続行する。たとえば、グルー
プ416で次の提出用紙が正しく認識されなかった場
合、本方法は、テンプレート記憶域414に格納されて
いる他のグループ418または420で用紙テンプレー
トを検索する。
【0034】たとえば、図8のテンプレート・グループ
416などの最も頻度の高いテンプレート・グループで
第一の用紙が正しく認識されなかった場合、本方法は、
2番目に処理頻度の高いテンプレート・グループ、たと
えば、図8のテンプレート・グループ418に記憶域4
14からアクセスすることで、第一の用紙と一致する用
紙テンプレートの検索を行う。2番目に頻度の高いテン
プレート・グループ418で第一の用紙が正しく認識さ
れると、本方法は、残りの提出用紙群について第二のグ
ループを検索する。その結果、本発明は、より優れた方
法で印刷済み用紙の用紙認識を管理し、テンプレート・
アーカイブから正しい用紙認識テンプレートを見つける
のに必要な時間を短縮できる。また、本発明は、印刷済
み用紙の用紙認識を適応管理し、特定の用紙タイプの処
理頻度に応じてテンプレート・アーカイブの検索順序を
変更する。図1に戻って説明すると、用紙認識管理プロ
セッサ100は、ローカル・エリア・ネットワーク14
0を介して、前述の関連特許願に記載されているような
文字認識プロセッサに用紙IDと文書用紙イメージとを
出力する。
【0035】図2に示す本発明の他の実施例は、バス1
04によりCPU106、スキャナ108、ディスク・
ドライブ414、およびLANアダプタ112に接続さ
れたメモリ102'を含むスキャナ・プロセッサ101
を示している。このLANアダプタ112は、LAN1
40により第二の用紙認識プロセッサ103のLANア
ダプタ112'に接続されている。バス104は、ディ
スプレイおよびキーボード114と、マウス・ポインテ
ィング・デバイス116にも接続されている。メモリ1
02'は、セレクタ・レジスタ504とカウンタ・レジ
スタ502とを含む。また、文書イメージ区画124と
用紙認識プログラム126がメモリ102'に収められ
ている。用紙認識管理プログラム300とオペレーティ
ング・システム130も同様に収められている。メモリ
102'に格納されているプログラム群は、それぞれ一
連の実行可能命令で構成され、CPU106によって実
行されると、そのプログラムの所期の機能を実行する。
【0036】図2の代替実施例には、第二の用紙認識プ
ロセッサ103も含まれている。このプロセッサ103
はメモリ102"を含み、メモリ102"はバス104'
によりLANアダプタ112'、CPU106'、オプシ
ョナル・スキャナ108'、およびディスク・ドライブ
414'に接続されている。このディスク・ドライブ4
14'はディスク・ドライブ414と同じグループ・テ
ンプレート記憶情報を格納できる。また、バス104'
には、キーボードおよびディスプレイ114'と、マウ
ス・ポインティング・デバイス116'も接続されてい
る。メモリ102"には、グループ・テンプレート区画
122が格納されるが、図には例としてグループ418
が格納されていることが示されている。文書イメージ区
画124'は、スキャナ・プロセッサ101に接続され
たスキャナ108からLAN140を介して受け取った
用紙イメージ400を格納する。用紙認識プログラム1
26と用紙認識管理プログラム300はメモリ102"
に格納される。また、そのメモリにはオペレーティング
・システム130も格納されている。第二の用紙認識プ
ロセッサ103がグループ418で第二の用紙の処理を
完了すると、すべての用紙IDとすべての用紙イメージ
400'が、前述の関連特許願に記載されているような
文字認識プロセッサに出力される。
【0037】図3は、図4、図5、および図6で構成さ
れ、本発明の方法を実行するための一連の実行可能命令
の全体構成を示す図である。用紙認識管理プログラム3
00は、ステップ302から用紙テンプレート・ライブ
ラリの編成および検索を開始する。ステップ304は、
すべての用紙テンプレートを関連の主要用紙テンプレー
トと年度別にグループ分けする。年度以外のその他の一
般的な記述上の特徴、たとえば、バージョン、ページ番
号、特定のビジネス・アプリケーションなども、テンプ
レートのグループ分けに使用できる。次に、ステップ3
06は、所定の用紙処理セッション中に各グループから
受け取った提出物の数をカウントする。次に、ステップ
308は、最も処理頻度の高いグループから最も処理頻
度の低いグループへと、テンプレート・グループの検索
順序を決定する。
【0038】次に、ステップ310は、新しい用紙処理
セッションを開始する。ステップ312は、集合提出物
に含まれる複数の提出用紙を走査により取り込む。ステ
ップ314は、第一の用紙について用紙認識プロセスを
開始する。ステップ316は、最も処理頻度の高いグル
ープから検索を開始し、第一の用紙と一致する用紙テン
プレートを探し出す。このグループは、初めにRAMメ
モリ102に格納されている。
【0039】ステップ318では、最も頻度の高い第一
のグループで第一の用紙が正しく認識されたかどうかを
判断する。正しく認識された場合、本方法は、次の提出
用紙について第一のグループで用紙認識プロセスを開始
する。ステップ322は、第一のグループに含まれる関
連用紙テンプレートから検索を開始し、次の提出用紙と
一致する用紙テンプレートを探し出す。次に、ステップ
324は、第一のグループの用紙テンプレートで次の提
出用紙が正しく認識されたかどうかを判断する。正しく
認識された場合、本方法は、集合提出物に含まれる残り
の提出用紙群について、第一のグループで用紙認識プロ
セスを続行する。その後、本方法はメイン・プログラム
に戻る。
【0040】ステップ326では、本方法は、第一のグ
ループで次の提出用紙が正しく認識されなかったかどう
かを判断する。正しく認識されなかった場合、本方法
は、同一年度の他のグループで用紙テンプレートを検索
する。その後、本方法はメイン・プログラムに戻る。
【0041】ステップ328は、最も使用頻度の高いテ
ンプレート・グループとの突合せを試みたときに、第一
の用紙が正しく認識されなかったかどうかを判断する。
正しく認識されなかった場合、本方法は、記憶域414
から2番目に処理頻度の高いグループにアクセスする。
【0042】図5では、本方法はステップ330へと続
く。このステップでは、2番目に使用頻度の高いテンプ
レート・グループで第一の用紙が正しく認識されたかど
うかを判断する。正しく認識された場合、本方法は、次
の提出用紙について第二のグループで用紙認識プロセス
を開始する。ステップ334は、第二のグループの関連
用紙テンプレートから検索を開始し、次の提出用紙と一
致する用紙テンプレートを探し出す。ステップ336
は、2番目にアクセスしたグループの用紙テンプレート
を使用して、次の提出用紙が正しく認識されたかどうか
を判断する。正しく認識された場合、本方法は、集合提
出物に含まれる残りの提出用紙群について用紙認識処理
を続行する。その後、本方法はメイン・プログラムに戻
る。
【0043】次に、本方法はステップ338へと続く。
このステップでは、2番目にアクセスしたグループで次
の提出用紙が正しく認識されなかったかどうかを判断す
る。正しく認識されなかった場合、本方法は、同一年度
の他のグループで用紙テンプレートを検索する。その
後、本方法はメイン・プログラムに戻る。
【0044】次に、本方法はステップ340へと続く。
このステップでは、2番目に使用頻度の高いテンプレー
ト・グループで第一の用紙が正しく認識されなかったか
どうかを判断する。正しく認識されなかった場合、本方
法は、3番目に使用頻度の高い主要用紙にアクセスす
る。
【0045】次に、本方法は、図6のステップ342へ
と続く。ステップ342では、3番目に使用頻度の高い
テンプレート・グループで第一の用紙が正しく認識され
たかどうかの判断が行われる。正しく認識された場合、
本方法は、次の提出用紙について第三のグループで用紙
認識処理を開始する。ステップ346は、第三のグルー
プの関連用紙テンプレートから検索を開始し、次の提出
用紙と一致する用紙テンプレートを探し出す。次に、ス
テップ348は、3番目にアクセスしたグループの用紙
テンプレートで次の提出用紙が正しく認識されたかどう
かを判断する。正しく認識された場合、本方法は、集合
提出物に含まれる残りの提出用紙群について用紙認識処
理を続行する。その後、本方法はメイン・プログラムに
戻る。
【0046】ステップ350では、3番目にアクセスし
たグループで次の提出用紙が正しく認識されなかった場
合、本方法は、同一年度の他のグループで用紙テンプレ
ートを検索する。その後、本方法はメイン・プログラム
に戻る。
【0047】このビジネス・アプリケーション用として
4つ以上のテンプレート・グループがある場合は、40
5としてさらにグループを追加し、その追加グループに
ついて本方法を続行してもよい。その場合、テンプレー
ト記憶域414には、対応する数のテンプレート・グル
ープ416などが用意される。その後、本方法はメイン
・プログラムに戻る。
【0048】その結果、本発明は、より優れた方法で印
刷済み用紙の用紙認識を管理し、テンプレート・アーカ
イブから正しい用紙認識テンプレートを見つけるのに必
要な時間を短縮できる。また、本発明は、印刷済み用紙
の用紙認識を適応管理し、特定の用紙タイプの処理頻度
に応じてテンプレート・アーカイブの検索順序を変更す
る。システム管理者が、このように選択されたテンプレ
ート・アーカイブの検索順序を手作業で指定変更すると
決定した場合、このような手作業の指定変更も本発明の
範囲に含まれる。
【0049】走査によって取り込んだ提出用紙のイメー
ジを処理するのに使用するテンプレート定義のライブラ
リに含まれる各テンプレート定義には、その用紙のドロ
ップアウト・プロファイルである130キロバイトの部
分が含まれている。このドロップアウト・プロファイル
は、記入済み用紙の情報内容を、その用紙に印刷されて
いる背景グリッドや文字から分離するのに役立つ情報で
ある。処理が必要で、しかもドロップアウト操作の実行
対象となる用紙はいろいろあるので、テンプレート・ド
ロップアウト・プロファイルの格納に必要なRAM記憶
域の容量は相当な量になる可能性がある。
【0050】本発明では、テンプレート・ドロップアウ
ト・プロファイルは、たとえば、50プロファイルずつ
の小さいグループ単位で編成されている。このため、処
理対象の用紙のうち、最も検出頻度の高い用紙について
判断が行われる。通常、各種用紙は業務上の関連ごとに
グループ分けされる。たとえば、1040用紙が認識さ
れると、付表Aと付表Bの用紙も同じ走査セッションで
関連づけられる可能性がある。
【0051】本発明のもう1つの特徴は、系列ごとに区
分したRAMメモリ内のいくつかの区画を割り振り、走
査で取り込んだ提出用紙のイメージを蓄積するための待
ち行列として機能させることである。50種類の用紙タ
イプからなる各系列は、50通りのドロップアウト・プ
ロファイルに対応する。本発明のこの特徴によれば、第
一の系列の用紙タイプ用の第一の待ち行列が走査で取り
込んだ相当な数の提出用紙を蓄積すると、対応するテン
プレート・ドロップアウト・プロファイルがRAMメモ
リに読み込まれ、その系列の用紙がドロップアウト操作
で処理される。このように、ドロップアウト操作は特定
の系列の用紙タイプに集中することができ、別のグルー
プのドロップアウト・プロファイルをページインしなく
ても、対応するグループのテンプレート・ドロップアウ
ト・プロファイルを使用できる。このため、テンプレー
ト・ドロップアウト・プロファイル読込み時の待ち時間
が短縮される。
【0052】本発明のもう1つの特徴は、ライブラリ・
テンプレート記憶域414に新しいテンプレートが追加
される時期である。新しいテンプレートを追加するた
め、新しいテンプレート用の用紙定義と、ライブラリ内
のすべての既存のテンプレート用の用紙定義との比較を
行うことができる。この比較は、特定のテンプレート・
グループ405の処理の発生頻度に基づき、セレクタ4
04が設定した順序で、用紙テンプレート416、41
8、および420の各グループを順に進んでいくことで
行うことができる。これにより、関連テンプレートの識
別が促進され、テンプレート記憶域414にこれ以外に
も同一の用紙テンプレートが存在するかどうかを迅速に
判断できる。この特徴を実行するには、システムに入力
された特定の新規用紙定義に関連する主要テンプレート
のIDもシステムに提供する必要がある。テンプレート
記憶域414で既存のテンプレートが見つかった場合
は、新しいテンプレートに対して明確で示差的な用紙認
識操作を提供するため、既存のテンプレートに特有の外
観と新しいテンプレートに特有の外観との違いをより正
確に示した定義を、テンプレート定義データに含めなけ
ればならない。ライブラリ内の既存の用紙定義すべてに
ついてチェックを行った後、たとえば、グループ416
に関連して、新しい用紙定義テンプレートをテンプレー
ト記憶域414に追加してもよい。
【0053】本発明の方法は、階層記憶構造の連続レベ
ルまで拡張することができる。その場合、テンプレート
記憶域414内の特定のテンプレート・グループを識別
するために、複数クラスの特有の特徴を使用することが
できる。この階層検索手法では、テンプレート・グルー
プ405を使用して、対応するグループ416などから
ポインタにアクセスすることになる。次に、このポイン
タは、実際の第二のテンプレートを検出できる、記憶階
層の第3層グループを指すはずである。
【0054】前述のテンプレート記憶プロセス412
は、416などのグループIDを、そのグループに属す
る第二のテンプレートが記憶媒体414内に占める位置
に関連づける、適正構成のインデックスを含むことがで
きる。この場合、グループ内のテンプレートを、記憶媒
体414内の隣接する位置に格納する必要はない。
【0055】本発明の特定の実施例を開示してきたが、
本発明の精神および範囲を逸脱せずにこの特定の実施例
に変更を加えることができることは、当業者には理解さ
れるであろう。
【0056】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0057】(1)すべての用紙テンプレートを関連用
紙テンプレートからなるグループにグループ分けするス
テップと、用紙処理中に各グループごとに用紙を受け取
った回数をカウントするステップと、最も頻度の高いも
のから最も頻度の低いものへ、テンプレート・グループ
の検索順序を決定するステップと、集合提出物に含まれ
る複数の提出用紙を走査により取り込むステップと、提
出物内の第一の用紙について用紙認識プロセスを開始す
るステップと、最も頻度の高いグループから検索を開始
し、第一の用紙と一致する用紙テンプレートを探し出す
ステップと、前記最も頻度の高いグループで第一の用紙
が正しく認識された場合に、前記最も頻度の高いグルー
プにおいて、提出物内の次の提出用紙について用紙認識
プロセスを開始するステップと、前記最も頻度の高いグ
ループの用紙テンプレートから検索を開始し、次の提出
用紙と一致する用紙テンプレートを探し出すステップ
と、前記最も頻度の高いグループの用紙テンプレートで
次の提出用紙が正しく認識された場合に、集合提出物に
含まれる残りの提出用紙群について用紙認識プロセスを
続行するステップと、前記最も頻度の高いグループで前
記次の提出用紙が正しく認識されなかった場合に、他の
グループで用紙テンプレートを検索するステップと、前
記最も頻度の高いグループで第一の用紙が正しく認識さ
れなかった場合に、関連用紙テンプレートからなる2番
目に頻度の高いグループにアクセスするステップと、前
記最も頻度の高いグループで第一の用紙が正しく認識さ
れなかった場合に、前記2番目に頻度の高いグループを
使用して検索し、第一の用紙と一致する用紙テンプレー
トを探し出すステップと、を含む用紙認識を管理するた
めの方法。 (2)データ処理システム内にあって、関連用紙テンプ
レートからなるグループに文書用紙テンプレートを格納
するためのテンプレート・アーカイブ記憶域と、提出さ
れた文書用紙を受け取るために入力に結合され、用紙処
理時に各グループごとに用紙を受け取った回数をカウン
トするためのプロセッサ手段であって、前記アーカイブ
記憶域に結合され、最も頻度の高いものから最も頻度の
低いものへとテンプレート・グループの検索順序を決定
するためのプロセッサ手段と、前記プロセッサ手段の入
力に結合され、集合提出物に含まれる複数の提出用紙を
走査により取り込むための走査手段とを含み、前記プロ
セッサ手段が、提出物内の第一の用紙について用紙認識
プロセスを開始し、前記プロセッサ手段が、最も頻度の
高いグループから検索を開始して、第一の用紙と一致す
る用紙テンプレートを探し出し、前記プロセッサ手段
が、最も頻度の高いグループで第一の用紙が正しく認識
された場合に、提出物内の次の提出用紙について用紙認
識プロセスを開始し、前記プロセッサ手段が、前記最も
頻度の高いグループの用紙テンプレートから検索を開始
して、次の提出用紙と一致する用紙テンプレートを探し
出し、前記プロセッサ手段が、前記最も頻度の高いグル
ープの用紙テンプレートで次の提出用紙が正しく認識さ
れた場合に、集合提出物の残りの提出用紙群について用
紙認識プロセスを続行し、前記プロセッサ手段が、前記
最も頻度の高いグループで前記次の提出用紙が正しく認
識されなかった場合に、他のグループで用紙テンプレー
トを検索し、前記プロセッサ手段が、前記最も頻度の高
いグループで第一の用紙が正しく認識されなかった場合
に、前記アーカイブ手段から、関連用紙テンプレートか
らなる2番目に頻度の高いグループにアクセスし、前記
プロセッサ手段が、前記最も頻度の高いグループで第一
の用紙が正しく認識されなかった場合に、前記2番目に
頻度の高いグループを使用して検索し、第一の用紙と一
致する用紙テンプレートを探し出すことを特徴とする、
用紙認識を管理するためのデータ処理システム。 (3)データ処理システム内にあって、関連用紙テンプ
レートからなるグループに文書用紙テンプレートを格納
するためのテンプレート・アーカイブ記憶域と、提出さ
れた文書用紙を受け取るために入力に結合され、用紙処
理時に各グループごとに用紙を受け取った回数をカウン
トするための第一のプロセッサ手段であって、前記アー
カイブ記憶域に結合され、最も頻度の高いものから最も
頻度の低いものへとテンプレート・グループの検索順序
を決定するための第一のプロセッサ手段と、前記第一の
プロセッサ手段の入力に結合され、集合提出物に含まれ
る複数の提出用紙を走査により取り込むための走査手段
とを含み、前記プロセッサ手段が、提出物内の第一の用
紙について用紙認識プロセスを開始し、前記第一のプロ
セッサ手段が、最も頻度の高いグループから検索を開始
して、第一の用紙と一致する用紙テンプレートを探し出
し、前記第一のプロセッサ手段が、最も頻度の高いグル
ープで第一の用紙が正しく認識された場合に、前記第一
の用紙のIDをシステム内の第二の処理手段に転送し、
前記第二のプロセッサ手段が、最も頻度の高いグループ
で第一の用紙が正しく認識された場合に、提出物内の次
の提出用紙について用紙認識プロセスを開始し、前記第
二のプロセッサ手段が、前記最も頻度の高いグループの
用紙テンプレートから検索を開始して、次の提出用紙と
一致する用紙テンプレートを探し出し、前記第二のプロ
セッサ手段が、前記最も頻度の高いグループの用紙テン
プレートで次の提出用紙が正しく認識された場合に、集
合提出物の残りの提出用紙群について用紙認識プロセス
を続行し、前記第二のプロセッサ手段が、前記最も頻度
の高いグループで前記次の提出用紙が正しく認識されな
かった場合に、他のグループで用紙テンプレートを検索
し、前記第二のプロセッサ手段が、2番目に頻度の高い
主要用紙テンプレートで第一の用紙が正しく認識された
場合に、前記アーカイブ手段から、関連用紙テンプレー
トからなる2番目に頻度の高いグループにアクセスし、
前記第一のプロセッサ手段が、前記最も頻度の高いグル
ープで第一の用紙が正しく認識されなかった場合に、前
記2番目に頻度の高いグループを使用して検索し、第一
の用紙と一致する用紙テンプレートを探し出すことを特
徴とする、用紙認識を管理するためのデータ処理システ
ム。 (4)データ処理システム内にあって、関連用紙テンプ
レートからなるグループに文書用紙テンプレートを格納
するためのテンプレート・アーカイブ記憶域と、提出さ
れた文書用紙を受け取るために入力に結合され、用紙処
理時に各グループごとに用紙を受け取った回数をカウン
トするための文書カウント手段と、前記アーカイブ記憶
域に結合され、最も頻度の高いものから最も頻度の低い
ものへとテンプレート・グループの検索順序を決定する
ための検索順序づけ手段と、前記カウント手段の入力に
結合され、集合提出物に含まれる複数の提出用紙を走査
により取り込むための走査手段と、前記走査手段に結合
され、提出物内の第一の用紙について用紙認識プロセス
を開始するための用紙認識手段と、前記検索順序づけ手
段に結合され、最も頻度の高いグループから検索を開始
して、第一の用紙と一致する用紙テンプレートを探し出
すための検索手段とを含み、前記用紙認識手段が、最も
頻度の高いグループで第一の用紙が正しく認識された場
合に、提出物内の次の提出用紙について用紙認識プロセ
スを開始し、前記検索手段が、前記最も頻度の高いグル
ープの用紙テンプレートから検索を開始して、次の提出
用紙と一致する用紙テンプレートを探し出し、前記用紙
認識手段が、前記最も頻度の高いグループの用紙テンプ
レートで次の提出用紙が正しく認識された場合に、集合
提出物の残りの提出用紙群について用紙認識プロセスを
続行し、前記検索手段が、前記最も頻度の高いグループ
で前記次の提出用紙が正しく認識されなかった場合に、
他のグループで用紙テンプレートを検索し、アクセス手
段が、2番目に頻度の高いグループで第一の用紙が正し
く認識されなかった場合に、前記アーカイブ手段から、
関連用紙テンプレートからなる2番目に頻度の高いグル
ープにアクセスし、前記検索手段が、前記最も頻度の高
いグループで第一の用紙が正しく認識されなかった場合
に、前記2番目に頻度の高いグループを使用して検索
し、第一の用紙と一致する用紙テンプレートを探し出す
ことを特徴とする、用紙認識を管理するためのデータ処
理システム。
【図面の簡単な説明】
【図1】本発明による用紙認識管理プロセッサの機能ブ
ロック図である。
【図2】用紙認識管理システムのもう1つの実施例の機
能ブロック図である。
【図3】図4、図5、および図6で構成され、用紙テン
プレート・ライブラリを編成して検索するための用紙認
識管理プログラムの一連の操作ステップからなる流れ図
の全体構成を示す図である。
【図4】用紙テンプレート・ライブラリを編成して検索
するための用紙認識管理プログラムの一連の操作ステッ
プからなる流れ図の一部である。
【図5】用紙テンプレート・ライブラリを編成して検索
するための用紙認識管理プログラムの一連の操作ステッ
プからなる流れ図の一部である。
【図6】用紙テンプレート・ライブラリを編成して検索
するための用紙認識管理プログラムの一連の操作ステッ
プからなる流れ図の一部である。
【図7】用紙認識管理プロセッサのプロセス流れ図であ
る。
【図8】用紙認識管理プロセッサのプロセス図で、適応
管理機能の特定の例を示す。
【図9】用紙認識管理プロセッサのプロセス図で、適応
管理機能の特定の例を示す。
【図10】用紙認識管理プロセッサのプロセス図で、適
応管理機能の特定の例を示す。
【符号の説明】
100 用紙認識管理プロセッサ 102 メモリ 104 バス 106 CPU 108 スキャナ 112 LANアダプタ 114 キーボードおよびディスプレイ 116 マウス・ポインティング・デバイス 122 グループ・テンプレート区画 124 文書イメージ区画 126 用紙認識プログラム 130 オペレーティング・システム 140 LAN
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フシアーオ・サン アメリカ合衆国20854 メリーランド州ポ トマック スタービュー・コート 12009

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】すべての用紙テンプレートを関連用紙テン
    プレートからなるグループにグループ分けするステップ
    と、 用紙処理中に各グループごとに用紙を受け取った回数を
    カウントするステップと、 最も頻度の高いものから最も頻度の低いものへ、テンプ
    レート・グループの検索順序を決定するステップと、 集合提出物に含まれる複数の提出用紙を走査により取り
    込むステップと、 提出物内の第一の用紙について用紙認識プロセスを開始
    するステップと、 最も頻度の高いグループから検索を開始し、第一の用紙
    と一致する用紙テンプレートを探し出すステップと、 前記最も頻度の高いグループで第一の用紙が正しく認識
    された場合に、前記最も頻度の高いグループにおいて、
    提出物内の次の提出用紙について用紙認識プロセスを開
    始するステップと、 前記最も頻度の高いグループの用紙テンプレートから検
    索を開始し、次の提出用紙と一致する用紙テンプレート
    を探し出すステップと、 前記最も頻度の高いグループの用紙テンプレートで次の
    提出用紙が正しく認識された場合に、集合提出物に含ま
    れる残りの提出用紙群について用紙認識プロセスを続行
    するステップと、 前記最も頻度の高いグループで前記次の提出用紙が正し
    く認識されなかった場合に、他のグループで用紙テンプ
    レートを検索するステップと、 前記最も頻度の高いグループで第一の用紙が正しく認識
    されなかった場合に、関連用紙テンプレートからなる2
    番目に頻度の高いグループにアクセスするステップと、 前記最も頻度の高いグループで第一の用紙が正しく認識
    されなかった場合に、前記2番目に頻度の高いグループ
    を使用して検索し、第一の用紙と一致する用紙テンプレ
    ートを探し出すステップと、を含む用紙認識を管理する
    ための方法。
  2. 【請求項2】データ処理システム内にあって、関連用紙
    テンプレートからなるグループに文書用紙テンプレート
    を格納するためのテンプレート・アーカイブ記憶域と、 提出された文書用紙を受け取るために入力に結合され、
    用紙処理時に各グループごとに用紙を受け取った回数を
    カウントするためのプロセッサ手段であって、 前記アーカイブ記憶域に結合され、最も頻度の高いもの
    から最も頻度の低いものへとテンプレート・グループの
    検索順序を決定するためのプロセッサ手段と、 前記プロセッサ手段の入力に結合され、集合提出物に含
    まれる複数の提出用紙を走査により取り込むための走査
    手段とを含み、 前記プロセッサ手段が、提出物内の第一の用紙について
    用紙認識プロセスを開始し、 前記プロセッサ手段が、最も頻度の高いグループから検
    索を開始して、第一の用紙と一致する用紙テンプレート
    を探し出し、 前記プロセッサ手段が、最も頻度の高いグループで第一
    の用紙が正しく認識された場合に、提出物内の次の提出
    用紙について用紙認識プロセスを開始し、 前記プロセッサ手段が、前記最も頻度の高いグループの
    用紙テンプレートから検索を開始して、次の提出用紙と
    一致する用紙テンプレートを探し出し、 前記プロセッサ手段が、前記最も頻度の高いグループの
    用紙テンプレートで次の提出用紙が正しく認識された場
    合に、集合提出物の残りの提出用紙群について用紙認識
    プロセスを続行し、 前記プロセッサ手段が、前記最も頻度の高いグループで
    前記次の提出用紙が正しく認識されなかった場合に、他
    のグループで用紙テンプレートを検索し、 前記プロセッサ手段が、前記最も頻度の高いグループで
    第一の用紙が正しく認識されなかった場合に、前記アー
    カイブ手段から、関連用紙テンプレートからなる2番目
    に頻度の高いグループにアクセスし、 前記プロセッサ手段が、前記最も頻度の高いグループで
    第一の用紙が正しく認識されなかった場合に、前記2番
    目に頻度の高いグループを使用して検索し、第一の用紙
    と一致する用紙テンプレートを探し出すことを特徴とす
    る、用紙認識を管理するためのデータ処理システム。
  3. 【請求項3】データ処理システム内にあって、関連用紙
    テンプレートからなるグループに文書用紙テンプレート
    を格納するためのテンプレート・アーカイブ記憶域と、 提出された文書用紙を受け取るために入力に結合され、
    用紙処理時に各グループごとに用紙を受け取った回数を
    カウントするための第一のプロセッサ手段であって、前
    記アーカイブ記憶域に結合され、最も頻度の高いものか
    ら最も頻度の低いものへとテンプレート・グループの検
    索順序を決定するための第一のプロセッサ手段と、 前記第一のプロセッサ手段の入力に結合され、集合提出
    物に含まれる複数の提出用紙を走査により取り込むため
    の走査手段とを含み、 前記プロセッサ手段が、提出物内の第一の用紙について
    用紙認識プロセスを開始し、 前記第一のプロセッサ手段が、最も頻度の高いグループ
    から検索を開始して、第一の用紙と一致する用紙テンプ
    レートを探し出し、 前記第一のプロセッサ手段が、最も頻度の高いグループ
    で第一の用紙が正しく認識された場合に、前記第一の用
    紙のIDをシステム内の第二の処理手段に転送し、 前記第二のプロセッサ手段が、最も頻度の高いグループ
    で第一の用紙が正しく認識された場合に、提出物内の次
    の提出用紙について用紙認識プロセスを開始し、 前記第二のプロセッサ手段が、前記最も頻度の高いグル
    ープの用紙テンプレートから検索を開始して、次の提出
    用紙と一致する用紙テンプレートを探し出し、 前記第二のプロセッサ手段が、前記最も頻度の高いグル
    ープの用紙テンプレートで次の提出用紙が正しく認識さ
    れた場合に、集合提出物の残りの提出用紙群について用
    紙認識プロセスを続行し、 前記第二のプロセッサ手段が、前記最も頻度の高いグル
    ープで前記次の提出用紙が正しく認識されなかった場合
    に、他のグループで用紙テンプレートを検索し、 前記第二のプロセッサ手段が、2番目に頻度の高い主要
    用紙テンプレートで第一の用紙が正しく認識された場合
    に、前記アーカイブ手段から、関連用紙テンプレートか
    らなる2番目に頻度の高いグループにアクセスし、 前記第一のプロセッサ手段が、前記最も頻度の高いグル
    ープで第一の用紙が正しく認識されなかった場合に、前
    記2番目に頻度の高いグループを使用して検索し、第一
    の用紙と一致する用紙テンプレートを探し出すことを特
    徴とする、用紙認識を管理するためのデータ処理システ
    ム。
  4. 【請求項4】データ処理システム内にあって、関連用紙
    テンプレートからなるグループに文書用紙テンプレート
    を格納するためのテンプレート・アーカイブ記憶域と、 提出された文書用紙を受け取るために入力に結合され、
    用紙処理時に各グループごとに用紙を受け取った回数を
    カウントするための文書カウント手段と、 前記アーカイブ記憶域に結合され、最も頻度の高いもの
    から最も頻度の低いものへとテンプレート・グループの
    検索順序を決定するための検索順序づけ手段と、 前記カウント手段の入力に結合され、集合提出物に含ま
    れる複数の提出用紙を走査により取り込むための走査手
    段と、 前記走査手段に結合され、提出物内の第一の用紙につい
    て用紙認識プロセスを開始するための用紙認識手段と、 前記検索順序づけ手段に結合され、最も頻度の高いグル
    ープから検索を開始して、第一の用紙と一致する用紙テ
    ンプレートを探し出すための検索手段とを含み、 前記用紙認識手段が、最も頻度の高いグループで第一の
    用紙が正しく認識された場合に、提出物内の次の提出用
    紙について用紙認識プロセスを開始し、 前記検索手段が、前記最も頻度の高いグループの用紙テ
    ンプレートから検索を開始して、次の提出用紙と一致す
    る用紙テンプレートを探し出し、 前記用紙認識手段が、前記最も頻度の高いグループの用
    紙テンプレートで次の提出用紙が正しく認識された場合
    に、集合提出物の残りの提出用紙群について用紙認識プ
    ロセスを続行し、 前記検索手段が、前記最も頻度の高いグループで前記次
    の提出用紙が正しく認識されなかった場合に、他のグル
    ープで用紙テンプレートを検索し、 アクセス手段が、2番目に頻度の高いグループで第一の
    用紙が正しく認識されなかった場合に、前記アーカイブ
    手段から、関連用紙テンプレートからなる2番目に頻度
    の高いグループにアクセスし、 前記検索手段が、前記最も頻度の高いグループで第一の
    用紙が正しく認識されなかった場合に、前記2番目に頻
    度の高いグループを使用して検索し、第一の用紙と一致
    する用紙テンプレートを探し出すことを特徴とする、用
    紙認識を管理するためのデータ処理システム。
JP6229154A 1993-10-27 1994-09-26 文書用紙認識システム Expired - Lifetime JP2643094B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US141734 1993-10-27
US08/141,734 US5394487A (en) 1993-10-27 1993-10-27 Forms recognition management system and method

Publications (2)

Publication Number Publication Date
JPH07160806A true JPH07160806A (ja) 1995-06-23
JP2643094B2 JP2643094B2 (ja) 1997-08-20

Family

ID=22496985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6229154A Expired - Lifetime JP2643094B2 (ja) 1993-10-27 1994-09-26 文書用紙認識システム

Country Status (3)

Country Link
US (1) US5394487A (ja)
EP (1) EP0651346A3 (ja)
JP (1) JP2643094B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178107A (ja) * 2002-11-25 2004-06-24 Canon Inc 帳票処理装置
JP2008299748A (ja) * 2007-06-01 2008-12-11 Oki Electric Ind Co Ltd Ocr帳票登録システム

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2134255C (en) * 1993-12-09 1999-07-13 Hans Peter Graf Dropped-form document image compression
US5668897A (en) * 1994-03-15 1997-09-16 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression merge/purge techniques for document image databases
US7010507B1 (en) 1995-10-04 2006-03-07 Block Financial Corporation System providing funds to electronic tax filers prior to receipt of refund
US6038351A (en) * 1997-10-28 2000-03-14 Cash Management Solutions Apparatus and method for multi-entity, mixed document environment document identification and processing
US6741743B2 (en) * 1998-07-31 2004-05-25 Prc. Inc. Imaged document optical correlation and conversion system
US6507662B1 (en) * 1998-09-11 2003-01-14 Quid Technologies Llc Method and system for biometric recognition based on electric and/or magnetic properties
US6507671B1 (en) * 1998-12-11 2003-01-14 International Business Machines Corporation Method and system for dropping template from a filled in image
US7177829B1 (en) * 1999-07-16 2007-02-13 H & R Block Tax Services, Inc. Tax refund system
US7072862B1 (en) 2000-01-14 2006-07-04 H&R Block Tax Services, Inc. Spending vehicles for payments
SE517445C2 (sv) 1999-10-01 2002-06-04 Anoto Ab Positionsbestämning på en yta försedd med ett positionskodningsmönster
US6589290B1 (en) * 1999-10-29 2003-07-08 America Online, Inc. Method and apparatus for populating a form with data
US7127425B1 (en) * 2000-01-14 2006-10-24 H & R Block Tax Services, Inc. System and method for providing a loan to a taxpayer based on a pre year-end tax refund
US7249072B1 (en) * 2000-03-17 2007-07-24 Eproperty Tax, Inc. Method and system for managing multi-jurisdictional property tax information
US20060082557A1 (en) * 2000-04-05 2006-04-20 Anoto Ip Lic Hb Combined detection of position-coding pattern and bar codes
US20020050982A1 (en) * 2000-04-05 2002-05-02 Petter Ericson Data form having a position-coding pattern detectable by an optical sensor
US7054509B2 (en) * 2000-10-21 2006-05-30 Cardiff Software, Inc. Determining form identification through the spatial relationship of input data
US6640009B2 (en) * 2001-02-06 2003-10-28 International Business Machines Corporation Identification, separation and compression of multiple forms with mutants
US7133563B2 (en) * 2002-10-31 2006-11-07 Microsoft Corporation Passive embedded interaction code
US7116840B2 (en) 2002-10-31 2006-10-03 Microsoft Corporation Decoding and error correction in 2-D arrays
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
US7583842B2 (en) * 2004-01-06 2009-09-01 Microsoft Corporation Enhanced approach of m-array decoding and error correction
US7263224B2 (en) * 2004-01-16 2007-08-28 Microsoft Corporation Strokes localization by m-array decoding and fast image matching
US7607076B2 (en) * 2005-02-18 2009-10-20 Microsoft Corporation Embedded interaction code document
US7826074B1 (en) 2005-02-25 2010-11-02 Microsoft Corporation Fast embedded interaction code printing with custom postscript commands
US20060215913A1 (en) * 2005-03-24 2006-09-28 Microsoft Corporation Maze pattern analysis with image matching
US20060242562A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Embedded method for embedded interaction code array
US7421439B2 (en) 2005-04-22 2008-09-02 Microsoft Corporation Global metadata embedding and decoding
US7599560B2 (en) 2005-04-22 2009-10-06 Microsoft Corporation Embedded interaction code recognition
US7400777B2 (en) * 2005-05-25 2008-07-15 Microsoft Corporation Preprocessing for information pattern analysis
US7729539B2 (en) * 2005-05-31 2010-06-01 Microsoft Corporation Fast error-correcting of embedded interaction codes
US7580576B2 (en) * 2005-06-02 2009-08-25 Microsoft Corporation Stroke localization and binding to electronic document
US7619607B2 (en) 2005-06-30 2009-11-17 Microsoft Corporation Embedding a pattern design onto a liquid crystal display
US7817816B2 (en) * 2005-08-17 2010-10-19 Microsoft Corporation Embedded interaction code enabled surface type identification
US7622182B2 (en) * 2005-08-17 2009-11-24 Microsoft Corporation Embedded interaction code enabled display
US20130254074A1 (en) * 2012-03-22 2013-09-26 Bank Of America Corporation Gift card exchange marketplace
TWI536798B (zh) * 2014-08-11 2016-06-01 虹光精密工業股份有限公司 影像分檔方法
US10417489B2 (en) * 2015-11-19 2019-09-17 Captricity, Inc. Aligning grid lines of a table in an image of a filled-out paper form with grid lines of a reference table in an image of a template of the filled-out paper form
CN108073925B (zh) * 2016-11-17 2021-09-17 杭州海康威视数字技术股份有限公司 一种车牌识别方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPS5887652A (ja) * 1981-11-19 1983-05-25 Ricoh Co Ltd 画像処理装置
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0750483B2 (ja) * 1985-05-22 1995-05-31 株式会社日立製作所 文書画像追加情報の蓄積方法
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178107A (ja) * 2002-11-25 2004-06-24 Canon Inc 帳票処理装置
JP2008299748A (ja) * 2007-06-01 2008-12-11 Oki Electric Ind Co Ltd Ocr帳票登録システム

Also Published As

Publication number Publication date
EP0651346A2 (en) 1995-05-03
JP2643094B2 (ja) 1997-08-20
US5394487A (en) 1995-02-28
EP0651346A3 (en) 1995-07-26

Similar Documents

Publication Publication Date Title
JP2643094B2 (ja) 文書用紙認識システム
US6917438B1 (en) Information input device
JP4260790B2 (ja) ファイリング・検索装置およびファイリング・検索方法
JP2968145B2 (ja) 高度なデータ収集方法及びデータ処理システム
CN100414549C (zh) 图像搜索***、图像搜索方法和存储介质
US5706365A (en) System and method for portable document indexing using n-gram word decomposition
US7293006B2 (en) Computer program for storing electronic files and associated attachments in a single searchable database
US8285047B2 (en) Automated method and system for naming documents from a scanned source based on manually marked text
US20070206884A1 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
US6476931B1 (en) System and method for efficient printing of variable information documents
US8510312B1 (en) Automatic metadata identification
WO2010048538A1 (en) Fuzzy data operations
GB2417109A (en) Automatic document indexing and classification system
CN104346415A (zh) 图像文档命名的方法
JP2021033325A (ja) 画像処理装置、その制御方法及びプログラム
US8495061B1 (en) Automatic metadata identification
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JPH07239854A (ja) 画像ファイルシステム
US11363162B2 (en) System and method for automated organization of scanned text documents
US11475686B2 (en) Extracting data from tables detected in electronic documents
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2000003403A (ja) 帳票入力支援方法
JP2815707B2 (ja) キーワード検索方法
JP2806340B2 (ja) 帳票管理装置
AU2015249134B2 (en) Fuzzy data operations