JP2002324236A - 帳票識別方法及び帳票登録方法 - Google Patents

帳票識別方法及び帳票登録方法

Info

Publication number
JP2002324236A
JP2002324236A JP2001127639A JP2001127639A JP2002324236A JP 2002324236 A JP2002324236 A JP 2002324236A JP 2001127639 A JP2001127639 A JP 2001127639A JP 2001127639 A JP2001127639 A JP 2001127639A JP 2002324236 A JP2002324236 A JP 2002324236A
Authority
JP
Japan
Prior art keywords
input
registered
dictionary
point
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001127639A
Other languages
English (en)
Other versions
JP2002324236A5 (ja
Inventor
Yoshihiro Shima
好博 嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Computer Peripherals Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Computer Peripherals Co Ltd, Hitachi Ltd filed Critical Hitachi Computer Peripherals Co Ltd
Priority to JP2001127639A priority Critical patent/JP2002324236A/ja
Priority to US10/041,603 priority patent/US7106904B2/en
Priority to CNB021020493A priority patent/CN1215432C/zh
Publication of JP2002324236A publication Critical patent/JP2002324236A/ja
Publication of JP2002324236A5 publication Critical patent/JP2002324236A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 スキャナから入力される帳票の向きが異なっ
ても、また、帳票が伸縮を有するものであっても、誤り
なく帳票識別可能とする。また、予め帳票の種類を登録
する際に、帳票の変更修正を行う構成とを可能とする。 【解決手段】 帳票から特徴となる入力点を抽出し、伸
縮、回転、傾きの補正を入力点に対して行い、予め登録
している辞書点との距離の最小値に基づいて帳票の種類
を識別する。また、帳票種類の登録時、類似帳票に対し
て警告画面表示することを可能にする。システムは、通
信ネットワーク100を介して辞書登録ステーション1
01、帳票識別ステーション106、帳票作成ステーシ
ョン109が接続されて構成される。各ステーション
は、お互いに連携して動作し、入力帳票の識別、辞書へ
の登録を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数種類の帳票を
読み取る場合に、帳票処理に先立って読み取る帳票の種
類を識別する帳票識別方法及び識別した帳票を登録する
帳票登録方法に係り、特に、帳票の向きや伸縮、傾きに
対して安定して帳票の種類を識別ことを可能にした帳票
識別方法及び帳票登録方法に関する。
【0002】
【従来の技術】帳票識別方法に関する従来技術として、
帳票の種類を識別するための特徴量、例えば、帳票中の
文字コード、文字行、罫線、枠等を自動的に抽出し、こ
れらの特徴量を手がかりに予め登録している帳票の特徴
量と照合して帳票の種類を識別するという方法が知られ
ている。
【0003】前述した帳票識別の特徴量として罫線を利
用する従来技術として、例えば、特開昭61−5956
8号公報等に記載された技術が知られている。この従来
技術は、帳票内の横線及び縦線を用いて帳票の構造解析
を行うことにより、帳票の種類を識別するというもので
ある。
【0004】また、帳票識別の特徴を点座標で表現して
照合を行う従来技術として、例えば、特開昭62−18
4585号公報等に記載された技術が知られている。こ
の従来技術は、点集合からなるパターンを照合する方法
であって、2つの点集合の類似性を検出するため照合の
程度を求め、また、横方向及び縦方向の小領域に分割さ
れたブロック単位に照合の程度を高速に求めることによ
り、帳票の種類を識別するというものである。また、例
えば、特開平8−255236号公報には、枠の中心の
点を特徴量として、横方向及び縦方向を基底としたハッ
シュテーブルによって照合する方法が、さらに、特開2
000−339406号公報には、帳票内の最小矩形の
位置関係を行方向及び列方向の接続関係から求めて、最
小矩形の属性を決定する方法が開示されている。
【0005】また、特徴量として文字行の位置を利用す
る従来技術として、例えば、特開平5−262100号
公報等に記載された技術が知られている。この従来技術
は、診療報酬請求明細書の様式を識別するため、抽出し
た文字行の位置に基づいて帳票識別を行うものである。
【0006】さらに、帳票の伸縮や罫線のかすれ等のた
め、帳票内の個々の矩形を抽出することが不安定な帳票
に対する帳票の識別にに関する従来技術として、例え
ば、特開2000−306030号公報に記載された技
術が知られている。この従来技術は、一致した矩形の座
標を次に照合する矩形の基準点として、基準点を順次移
動させて照合するというものである。
【0007】従来、類似した性質をもつ画像を検索する
方法として、例えば、「日本工業出版、画像ラボ、第1
1巻9号5頁から9頁、西暦2000年9月、著者名:
武者義則、広池敦」に開示されている技術が知られてい
る。この従来技術は、画像特徴量ベクトルを画像から抽
出し、そのベクトル同士の距離においてキー画像から近
い画像を収集するというものであり、画像特徴量とし
て、赤緑青の三原色空間における色特徴量と輝度画像の
明暗の移り変わる微分方向特徴量とを用いるというもの
である。しかし、この従来技術は、帳票画像に特有な罫
線や文字行、枠の特徴に関して考慮されていないもので
ある。
【0008】また、従来、個人識別のための指紋照合方
法として、例えば、特開2000−293688号公報
等に記載された技術が知られている。この従来技術は、
入力された指紋画像の特徴情報と予め格納された指紋画
像の特徴情報とを照合すること、及び、特徴情報の何れ
か一方を倒立状態または直交状態に回転させ指紋を照合
するというものである。しかし、この従来技術は、帳票
画像に特有な罫線や文字行、枠の特徴に関しての配慮が
ないものである。
【0009】また、従来、文書の回転角を検出する方法
として、例えば、特開平6−103411号公報等に記
載された技術が知られている。この従来技術は、文書を
0度、90度、180度、270度回転させ、それぞれ
文字認識を行い、その中で最も正しいものの回転角を文
書の向きとして決定するというものである。しかし、こ
の従来技術は、帳票の向きを検出するために、それぞれ
の角度で文字認識を行っており、文字認識に処理時間が
かかるという問題を有しており、しかも、帳票の種類を
識別することについては考慮されていないものである。
【0010】また、従来、帳票の識別と同時に帳票の9
0度単位の回転方向も識別する方法として、例えば、特
開平7−249099号公報に記載された記述が知られ
ている。この従来技術は、入力帳票を90度、180
度、270度回転したものについて、罫線すなわち垂直
線・水平線の分布を求めておき、これらを予め求めてお
いた垂直線・水平線の分布と照合することにより、帳票
の識別と同時に入力された帳票の90度単位の回転方向
も識別するというものである。しかし、この従来技術
は、特徴として使用する罫線のはかすれや太りに対して
不安定であり、接触する文字の並びによっては、文字ス
トロークを結ぶような偽の罫線が発生し、誤った帳票識
別及び回転方向の識別を行ってしまうという問題があっ
た。
【0011】従来、枠線の線種を用いて帳票識別を行う
方法として、例えば、特開平11−66228号公報等
に開示された技術が知られている。この従来技術は、枠
線の線種を判定して帳票読み取りのためのフォーマット
情報を生成するというものである。また、この種の技術
として、特開平11−85900号公報に開示されてい
る従来技術は、実線と点線とを区別して帳票を識別する
というものであり、さらに、識別精度の面で実線と点線
とを区別することなく扱うことにより帳票を識別するこ
とを可能としたものである。しかし、この従来技術は、
帳票の種類毎、帳票の枠毎の罫線の種類を利用するか否
かを有効あるいは無効にするように切り替えることにつ
いて開示していないものである。
【0012】従来、帳票に伸縮があっても帳票識別を可
能にする方法として、例えば、特開2000−3060
0号公報等に記載された技術が知られている。この従来
技術は、基準点を順次移動させて隣接する帳票の枠を照
合することによって、帳票全体の伸縮による位置ずれに
よる照合誤りを防止するというものである。しかし、こ
の従来技術は、枠が欠落していて枠を抽出することがで
きない場合や、偽の矩形が発生している場合に、枠毎の
照合に誤りが発生するという問題点があり、また、基準
位置がずれることについて考慮されていないものであ
る。また、同種の技術として、特開2000−1231
74号公報、特開平8−315068号公報、特開平7
−249099号公報等に記載された技術が知られてい
る。これらの従来技術は、一定領域内に含まれる罫線の
間隔を照合し、その照合結果から帳票画像の伸縮率を推
定する方法に関するものであるが、罫線同士の照合にお
いて、罫線の欠落や偽の罫線の発生がある場合、照合自
体が誤り、そのため、推定した伸縮率の値が誤るという
問題について解決されておらず、罫線の照合に依存して
伸縮に対処する方法であるため、罫線の照合が誤ると伸
縮に誤りが発生するという問題がある。
【0013】
【発明が解決しようとする課題】前述した従来技術のう
ち、帳票識別の対象となる入力帳票の向きを識別する技
術は、予め登録する帳票の隅に特殊なマークや指定の文
字列を印刷しておき、入力帳票に対してそのマークなど
を読み取ることにより、帳票が90度回転した向きにス
キャナに設定された場合や、上下逆すなわち180度回
転した状態の帳票がスキャナで入力された場合に、帳票
の種類を識別することを可能としたもので、帳票に特殊
な指定された印刷領域が必要であり、帳票のスペースを
有効に使用することができないという問題点を有してい
る。
【0014】また、前述した従来技術のうち、帳票の識
別と同時に帳票の90度単位の回転方向も識別する方法
として、前述した特開平7−249099号公報に記載
された技術は、入力帳票を90度、180度、270度
回転したものについて、罫線すなわち垂直線・水平線の
分布を求めておき、これらを予め求めておいた垂直線・
水平線の分布と照合を行うことで帳票の識別と同時に入
力された帳票の90度単位の回転方向も識別するという
技術は、特徴として利用する罫線のかすれや太りがある
場合に、識別が不安定となり、また、接触する文字の並
びによっては、文字ストロークを結ぶような偽の罫線が
発生し、誤った帳票識別及び回転方向の識別を行ってし
まうという問題点を有している。
【0015】また、前述した従来技術のうち、帳票識別
の対象となる入力帳票中の枠線の種類、実線と点線とを
区別して帳票を識別する技術は、帳票の種類毎、帳票の
枠毎の罫線の種類を利用するか否かを有効あるいは無効
にするように切り替えることについて考慮されていな
い。このため、この従来技術は、点線の間隔が狭いよう
な帳票の場合、点線の点が太って隣の点とつながり実線
となった場合、異なった帳票と誤識別されることや、該
当する帳票が検出できないとして拒絶となる恐れがある
という問題点を有し、また、帳票によっては、枠の形が
同じで、実線と点線との区別が不要で、特定部分が実線
であっても点線であっても、同一帳票とみなすべき帳票
であるとするような帳票が混在して入力された場合、点
線と実線とを全種類の帳票に対して同一とみなして帳票
識別を行うか、点線と実線との区別をして異なる帳票と
みなして帳票識別を行うかの、何れかの方法を択一的に
選択する以外に対処することができないものである。す
なわち、この従来技術は、実線と点線との区別が不要
で、特定部分が実線であっても点線であっても、同一帳
票とみなすべき帳票に対しても、帳票識別用の辞書や帳
票読み取りのためのフォーマット情報を予め別々に登録
しておく必要があり、辞書登録の作業が多くかかり、ま
た、辞書を記憶する容量が多くなるという問題点を有し
ている。
【0016】さらに、前述した従来技術のうち、帳票の
伸縮に対応するため基準点を順次移動させて照合すると
いう方法は、罫線の欠落や偽罫線の出現により、照合途
中で新たに設定した基準点を誤ると、帳票識別に誤りが
生じ、るあるいは、拒絶となる恐れがあるという問題点
を有している。
【0017】さらに、前述で説明した従来技術は、いず
れも、登録する帳票の種類が多くなると、新たに登録対
象となった帳票が既に登録済みか、未登録であるかを使
用者が判断することが困難となり、また、登録済みの類
似帳票が同一種類の帳票として識別された場合、その帳
票を類似帳票と区別することができないという問題点を
有している。
【0018】本発明の第1の目的は、前述した従来技術
の問題点を解決し、帳票の向きが任意に設定されて入力
された帳票、例えば、90度回転した状態や、上下逆す
なわち180度回転した状態の帳票がスキャナで入力さ
れた場合であっても、正立した状態の帳票の場合と同様
に、高い信頼性を持って帳票の種類を識別すると同時に
帳票の回転方向を検出することができる帳票識別方法を
提供することにある。
【0019】本発明の第2の目的は、予め登録した帳票
毎あるいは当該帳票の枠毎に制御情報を備え、枠線の種
類、例えば、実線あるいは点線であるということを利用
して、枠の形が同じであっても枠線の種類が異なる帳票
を別の種類の帳票として識別するか、あるいは、枠線の
種類が異なる帳票を同じ種類の帳票として識別するかを
切り替えて帳票の種類を識別することができる帳票識別
方法を提供することにある。
【0020】本発明の第3の目的は、帳票に位置ずれが
あっても、高精度に帳票の種類を識別することができる
帳票識別方法を提供することにある。
【0021】本発明の第4の目的は、罫線のかすれ等に
よる欠落や偽の罫線の出現に対しても、また、帳票に伸
縮があっても、高精度に安定して帳票の種類を識別する
ことのできる帳票識別方法を提供することにある。
【0022】本発明の第5の目的は、新たに登録対象と
なった帳票が既に登録済みか、未登録であるかを使用者
に目視で判断するための画面インタフェースと、対象帳
票を編集して印刷し再度登録試行する機能と、印刷した
帳票に対応した帳票識別用辞書が保管されていることを
保証する機能とを備えた帳票登録方法を提供することに
ある。
【0023】
【課題を解決するための手段】本発明による帳票識別方
法は、入力帳票から特徴として1または複数の枠の中心
点を抽出し、入力帳票の入力特徴あるいは予め登録され
ている登録帳票の特徴のいずれかを90度単位で回転さ
せ、入力特徴と登録特徴と照合し、最も一致した角度を
帳票の向きとして、特徴に対応する帳票種類を帳票識別
結果として出力することを特徴とし、これにより、帳票
が90度回転した向きにスキャナに設定された場合や、
上下逆すなわち180度回転した状態の帳票がスキャナ
に入力された場合であっても、正立の状態の帳票と同様
に帳票識別を行うことが可能である。特徴としての枠の
中心点は、他の特徴、例えば、罫線の投影分布等と比べ
て、安定して抽出することができ、識別誤りを少なくす
ることができる。何故なら、罫線は、文字行の内部にも
偽罫線として抽出されるが、4辺が罫線で構成される枠
を抽出することにより、その枠の罫線を枠線として利用
しているため、誤抽出をすくなくすることができるため
である。
【0024】また、本発明による帳票識別方法は、入力
帳票から枠線の種類を抽出し、予め登録された帳票の枠
線の種類との一致を求め、枠の形が同じであっても枠線
の種類が異なる帳票を別の種類の帳票として識別するこ
とを可能にし、さらに、枠線の種類が異なる帳票であっ
ても枠の形が同じであれば同じ種類の帳票であると識別
することも可能にすることを特徴とする。
【0025】また、本発明による帳票識別方法は、入力
帳票の特徴を有する各位置を予め登録された特徴の基準
位置から、横方向ならびに縦方向に一定幅で平行移動さ
せながら照合し、最も登録特徴と一致した平行移動位置
を入力帳票の位置とし、特徴に対応する帳票種類を帳票
識別結果として出力することにより、帳票に位置ずれが
あっても帳票識別を可能にすることを特徴とする。
【0026】また、本発明による帳票識別方法は、帳票
の特徴の照合と特徴の伸縮とを独立させ、特徴の照合の
誤りに関係なく、特徴を伸縮させることを特徴とする。
ここでは、入力帳票の特徴を有する各位置を一定倍率ず
つ横方向ならびに縦方向に伸縮させ、最も登録特徴と一
致した伸縮倍率を入力帳票の伸縮率として出力し、特徴
に対応する帳票種類を帳票識別結果として出力すること
により、帳票に伸縮があっても、帳票識別を可能にす
る。
【0027】本発明による帳票識別方法は、新たに登録
対象となった帳票画像と帳票識別により類似すると判定
された登録済みの帳票画像を画面に表示し、当該帳票が
既に登録済みか、未登録であるかの使用者の判断情報を
入力させ、新規帳票として対象帳票を登録するため対象
帳票のデータを編集して印刷し再度登録試行することに
より帳票登録を可能にすることを特徴とする。
【0028】本発明による帳票識別方法において、入力
帳票の特徴と登録帳票の特徴を照合する方法は、入力帳
票の特徴に点座標を付与した入力点と、登録帳票の特徴
に点座標を付与した辞書点とを備え、前記入力点と辞書
点との距離を算出し、前記距離が所定値以下であれば入
力点に対応付けられた辞書点が存在すると判定し、対応
付けられた点数、入力点数及び辞書点数を基に照合の一
致の程度を求めることにより高精度な帳票識別を可能に
する点にある。
【0029】
【発明の実施の形態】以下、本発明による帳票識別方法
及び帳票登録方法の実施形態を図面により詳細に説明す
る。
【0030】図1は本発明の一実施形態による帳票識別
及び帳票登録を実行する帳票識別システムの構成例を示
すブロック図である。図1において、100はネットワ
ーク、101は辞書登録ステーション、102、107
はスキャナ、103は登録対象帳票画像ファイル、10
4、108は帳票辞書ファイル、105は表示装置、1
06は帳票識別ステーション、109は帳票作成ステー
ション、110は帳票ファイル、111は帳票プリンタ
である。
【0031】図1に示す帳票識別システムは、通信ネッ
トワーク100を介して辞書登録ステーション101、
帳票識別ステーション106、帳票作成ステーション1
09が接続されて構成されており、これらのステーショ
ンが相互に連携して動作することが可能である。辞書登
録ステーション101は、帳票の種類を識別するために
予め帳票画像の特徴を登録する。辞書登録ステーション
101には、帳票画像を採取するスキャナ102、登録
対象となった帳票画像を保管する登録対象帳票画像ファ
イル103、登録した帳票画像の特徴を保管する帳票辞
書ファイル104が備えられている。また、辞書登録ス
テーション101は、表示装置105を有し、この表示
装置105に、登録済み帳票画像やスキャナで採取した
新たな帳票画像をその画面に表示し、対話的に登録作業
を行う。
【0032】帳票識別ステーション106は、スキャナ
107から入力された帳票画像の種類を、登録した帳票
画像の特徴を保管する帳票辞書ファイル108を用いて
識別する。帳票辞書ファイル108の内容は、辞書登録
ステーション101側の帳票辞書ファイル104を複写
したものであり、通信ネットワークを介して、常に最新
のデータに更新することができる。なお、帳票識別に用
いる帳票辞書ファイルとして、通信ネットワークを介し
て辞書登録ステーション側の帳票辞書ファイル104を
アクセスして用いる構成でもよい。
【0033】帳票作成ステーション109は、帳票ファ
イル110と帳票プリンタ111とを備えており、帳票
ファイル110に保管された帳票データに対して、帳票
プリンタ111を用い帳票を紙に印刷する。帳票作成ス
テーション109は、帳票識別が容易になるよう帳票デ
ータを編集して、印刷し、辞書登録ステーション101
において、スキャナ102で印刷した帳票の画像を採取
し新規登録の試行を行うことができる。
【0034】図2は辞書登録ステーション101での帳
票識別のための辞書登録の処理動作を説明するフローチ
ャートであり、以下、これについて説明する。
【0035】(1)まず、帳票画像を入力し、帳票画像
の特徴として枠を抽出する。この処理は、帳票画像から
横線と縦線とを抽出し、その交点を基に枠を抽出する処
理であり、さらに、枠内の中心点の座標を特徴として抽
出する。一般に、枠は、複数個中種されるので、複数の
枠の中心点の座標が特徴として抽出される(ステップ2
00、201)。
【0036】(2)次に、既に登録している帳票辞書と
入力帳票から抽出した特徴との照合を行い、照合の程度
を求める(ステップ202)。
【0037】(3)ステップ202での照合の程度を基
に、リジェクトかアクセプトかを決定する。ここでは簡
単に、照合の程度が所定値より大きければアクセプト、
所定値より小さければリジェクトとしてもよい(ステッ
プ203)。
【0038】(4)ステップ203で、リジェクトと判
定された場合、入力帳票から抽出した当該特徴を帳票辞
書ファイル104に辞書として追加登録し、該当帳票画
像を登録対象帳票画像ファイル103に保管する(ステ
ップ204、205)。
【0039】(5)ステップ203で、アクセプトと判
定された場合、入力された帳票が登録済あるいは類似帳
票が登録されている可能性があるとして、表示装置10
5に警告を表示すると共に、登録帳票画像を登録対象帳
票画像ファイル103から読み込んで、入力された帳票
画像と登録帳票画像とを画面に表示し、当該帳票の確認
及び帳票作成ステーション109での帳票の変更を行う
(ステップ206、207)。
【0040】前述で説明したように、辞書登録ステーシ
ョン101は、登録対象となった帳票画像と帳票識別に
より類似すると判定された登録済みの帳票画像とを画面
に表示し、当該帳票が既に登録済みか、未登録であるか
を使用者に判断させ、その判断情報を入力させている。
これにより、新規帳票として対象帳票を登録するため対
象帳票のデータを編集して印刷し再度登録試行すること
ができる。
【0041】図3は図2により説明した辞書登録におけ
る対話操作を行うための画面表示例を説明する図であ
る。表示装置105の表示画面300には、入力帳票画
像301と登録済みあるいは類似帳票である登録帳票画
像304とが表示される。また、表示画面300には、
表示画像の説明文303、304が表示され、また、使
用者に確認の必要を指示するため、警告文305が表示
されると共に、対象帳票のデータを編集して印刷する帳
票作成ステーション109の処理に移るためのクリック
ボタン306が表示される。
【0042】図4は帳票識別ステーション106での入
力帳票の特徴抽出処理と帳票識別処理との動作を説明す
るフローチャートである。図4に示すフローにおいて、
ステップ400で入力帳票画像から帳票識別用の特徴を
抽出する。説明している例では、特徴として帳票内にあ
る全ての枠の中心点の座標を抽出する。但し、特徴とし
て枠の中心点の座標に限定するものでなく、例えば、罫
線の中心点の座標や文字行の中心点の座標であってもよ
い。次に、ステップ401で抽出した特徴に基づいて帳
票の種類を識別する。
【0043】図5は図4のステップ401での帳票識別
処理の動作を説明するフローチャートであり、以下、こ
れについて説明する。
【0044】(1)図4のステップ400で抽出した入
力帳票画像の特徴、すなわち、枠の中心点(入力点)の
座標を90度単位で回転する。ここでは、左回り90
度、右回り90度、上下逆転の180度にの3通りの回
転を行う。これらの回転は、特徴としての枠の中心点の
座標を入れ替えることにより行うことができる(ステッ
プ500)。
【0045】(2)ステップ500での3通りの回転の
それぞれ、及び、回転させない場合について、中心座標
を求め、後述するステップ501の探索照合、ステップ
502の類似度登録を繰り返す(ステップ505)。
【0046】(3)探索照合の処理では、基準位置を所
定幅で横方向、次いで、縦方向に平行移動しながら、入
力点と辞書中の点との照合を行う。そして、類似度登録
の処理では、ステップ500で設定した回転角毎に、照
合により得られた類似度を求めて、その類似度とその回
転角を登録する(ステップ501、502)。
【0047】(4)次に、登録した回転角毎の類似度の
中で、最大の類似度を持つ回転角を帳票の方向として決
定し、さらに、その最大の類似度を持つ辞書の種類を対
応する帳票の種類であると決定する(ステップ503、
504)。
【0048】図6は図5のステップ501での探索照合
処理の動作を説明するフローチャートであり、以下、こ
れについて説明する。
【0049】(1)まず、点座標の基準位置を平行移動
するための移動開始位置を設定し、次に、基準位置から
の探索刻み幅、すなわち、基準位置の平行移動の単位を
設定する(ステップ600、601)。
【0050】(2)基準位置のX方向を設定した刻み幅
でずらし、さらに、基準位置のY方向を設定した刻み幅
でずらしながら、ステップ604、605、606の処
理を繰り返す(ステップ602、603)。
【0051】(3)点照合の処理において、入力点と辞
書点との照合を辞書が尽きるまで行う。そして、類似度
登録の処理において、当該点照合の類似度と、そのとき
のX方向、Y方向のずらし量とを登録する(ステップ6
04、605)。
【0052】(4)ステップ604、605の処理にお
いて、回転と、X方向、Y方向のずらし量との複数の組
み合わせ毎の点照合の類似度と、そのときのX方向、Y
方向のずらし量とが登録されるので、その中から最大の
類似度を持つX方向、Y方向のずらし量を持つ辞書の種
類を、X方向、Y方向のずらし量と共に登録する。この
登録されたX方向、Y方向のずらし量は、後に、帳票内
の読み取るべき枠の一を決定し、枠内の文字等の読み取
りに使用される(ステップ606)。
【0053】図7は図5のステップ604での点照合処
理の動作を説明するフローチャートである。図7に示す
フローにおいて、まず、ステップ700で、基準位置か
らの位置ずらし量を設定する。次に、ステップ701
で、辞書が尽きるまでステップ702での類似度の抽出
を繰り返す。そして、ステップ703で抽出された類似
度の大きい順に帳票種類を並べ換える。
【0054】図8は図7のステップ702での類似度抽
出処理の動作を説明するフローチャートであり、以下、
これについて説明する。この処理は、入力帳票に伸縮が
あるとして、伸縮率を複数通りに仮定して類似度を抽出
するものであり、照合処理と特徴に対する伸縮処理を独
立に行っているため、照合処理の誤りに影響を受けない
という利点を有する。
【0055】(1)まず、拡大縮小の倍率を複数設定
し、それらが尽きるまで、ステップ801、802、8
03の処理を繰り返すことを設定する(ステップ80
0)。
【0056】(2)対応する拡大縮小率に従って入力点
座標の拡大縮小を行う。この処理で、伸縮率を複数通り
に仮定して入力点座標の拡大縮小を行っているため、帳
票が伸縮している場合でも類似度を算出でき、また、特
徴として利用する点に欠落や偽の点の発生があっても、
信頼性よく類似度を算出できるという効果がある(ステ
ップ801)。
【0057】(3)次に、入力点と照合した辞書点の個
数を投票数として求めて投票数を抽出し、投票数と入力
点数及び辞書点数をもとに類似の度合いを算出する(ス
テップ802、803)。
【0058】前述の処理において、類似度の算出方法と
しては、例えば、投票数を入力点数と辞書点数の和で割
った百分率を用いてよい。すなわち、類似度は、投票数
/(入力点数+辞書点数)の百分率となる。また、類似
度は、例えば、投票数に対して入力点数と辞書点数の差
を引き算した個数を入力点数と辞書点数の和で割った百
分率を用いてもよい。すなわち、類似度は、(投票数―
絶対値(辞書点数―入力点数))/(入力点数+辞書点
数)の百分率となる。この場合、投票数に対して入力点
数と辞書点数との差を引き算して求めているので、入力
点が多数検出された場合、投票数を減点して類似度を低
下させることができるという効果がある。
【0059】図9は図8のステップ802での投票数抽
出処理の動作を説明するフローチャートである。この処
理は、注目する入力点に対して近傍にある辞書点の内、
最小距離にある辞書点を求め、その最小距離の長さから
照合する辞書点が存在するか否かを判定すると共に、入
力点に対して辞書点が存在する入力点の個数を投票数と
して計数する処理である。
【0060】図9に示すフローにおいて、まず、ステッ
プ900で、投票数を初期化する。そして、ステップ9
01で、入力点が尽きるまで、ステップ902以下の処
理を繰り返すことを設定する。ステップ902、903
の処理で、辞書の点が尽きるまで、入力点と辞書点との
最小距離を算出する。そして、ステップ904で当該距
離が所定値より小さいか否かを判定し、小さければ、ス
テップ905で投票数の値を1個増加させる。以上の処
理を繰り返すことにより、投票数を算出することができ
る。
【0061】図10は図4のステップ400での枠抽出
処理の動作を説明するフローチャートであり、以下、こ
れについて説明する。
【0062】(1)まず、帳票画像から横線と縦線とを
検出する。この処理において、画像を黒線分すなわち黒
ランの集合で表現し、線分長が長い黒ランを横線として
抽出する。また、縦線の抽出は、画像を90度回転し
て、同じく線分長が長い黒ランを抽出することにより行
う。なお、別の方法として、黒画素の塊の輪郭線を抽出
して枠線を取り出す方法を使用してもよい(ステップ1
000)。
【0063】(2)次に枠を検出する。この枠の検出
は、縦線及び横線の交点から枠を取り出すことにより行
うことができる。また、詳細な枠検出方法は、特開平8
−125855号公報に開示された方法であってよい
(ステップ1001)。
【0064】(3)次いで、枠の4隅の座標を検出し、
枠の中心点座標を算出し、この中心点座標を帳票識別の
ための特徴とする(ステップ1002、1003)。
【0065】(4)さらに、枠線の傾きや帳票縁の傾き
より検出された帳票の微小な傾き角を基に、算出した中
心点座標に対して傾き補正を行う。ここでの補正は、微
小な傾き角に対する点座標の補正であり、90度単位の
回転に関しては、すでに説明したステップ505の処理
で行われる。このように、微小な傾きに対して傾き補正
を行った中心点座標が帳票識別のための特徴とされる
(ステップ1004)。
【0066】図11は帳票識別ステーション106での
入力帳票の特徴抽出処理と帳票識別処理との他の動作例
を説明するフローチャートであり、図4により説明した
例とは別の処理例である。この処理は、特徴として文字
行の位置座標を用いて帳票識別を行おうとするものであ
る。
【0067】図11に示すフローにおいて、ステップ1
101の処理で、入力帳票画像から文字行を抽出する。
詳細な文字行抽出の方法は、特開平11−232376
号公報に開示されたバーコード行の抽出処理方法を使用
することができる。そして、文字行の座標、例えば、文
字行内部の中心点の座標を特徴とし、これにより、ステ
ップ1102の処理で帳票識別を行う。なお、ステップ
1102の帳票識別処理は、図4のステップ401の処
理と同様の処理でよい。
【0068】図12は図4のステップ400での枠抽出
処理について説明する図であり、帳票識別の特徴として
の枠の中心点について説明する図である。図12(a)
に入力帳票画像1200の例を示しており、この例で
は、入力帳票画像1200に、枠1201、1202、
1203の3つの枠が存在している。そして、図12
(b)に入力帳票画像1200内の各枠の中心点121
1、1212、1213を抽出した結果を示している。
それぞれの枠内部の中心点は、横方向ならびに縦方向の
座標として表現される。
【0069】図13は帳票辞書ファイル104あるいは
108に格納されている辞書点について説明する図であ
る。図13(a)〜図13(d)に、帳票の種類が登録
済みである辞書の例を1300、1301、1302、
1303として示している。帳票の種類に対応してそれ
ぞれの辞書が具備されている。辞書1300には、辞書
点1310、1311、1312、1313が位置座標
として具備され、また、辞書1301には、辞書点13
1、1315、1316が、辞書1302には、辞書点
1317、1318、1319が、辞書1303には辞
書点1320、1321、1322が、それぞれ位置座
標として具備されている。
【0070】図14は図9のステップ903での入力点
と辞書点との最小距離を算出する方法を説明する図であ
る。図14において、1400で示した横方向X、14
01で示した縦方向Yの帳票平面において、入力帳票画
像から抽出した入力点(黒丸で示す)を1410、14
11、1412とする。また、ある辞書の辞書点(白丸
で示す)を1420、1421、1422、1423と
する。
【0071】いま、任意の入力点1410に対して、近
傍の最短距離に存在する辞書点を求めるため、当該入力
点1410と辞書点1420、1421、1422、1
423との距離を算出し、その最短距離を有する辞書
点、本例では、辞書点1420を求める。それぞれの入
力点に対して、同様な処理を行い、最短距離にある辞書
点を求める。この結果、入力点1411の最短距離にあ
る辞書点として1421が、入力点1412に対して1
422がそれぞれ抽出される。なお、入力点を基準にし
て対応する辞書点を検出しているため、辞書点1423
については、対応する入力点はない。
【0072】図15は図6のステップ602、603で
示した座標値をX、Y方向へずらした点照合について説
明する図である。図15に示す入力帳票画像において、
1500で示した横方向X、1501で示した縦方向Y
の原点の位置を1540とする。また、入力帳票画像か
ら抽出した入力点を1520、1521、1522と
し、ある辞書の辞書点を1530、1531、153
2、1533とする。そして、縦方向の破線1502〜
1507は、原点の位置を横方向に一定間隔でずらすと
きのずらし位置を、また、横方向の破線1508〜15
12は、原点の位置を縦方向に一定間隔でずらすときの
ずらし位置を示している。
【0073】図15において、原点を前述の破線の交点
に平行移動させる。すなわち、入力点の座標の値を所定
量だけ更新する。そして、平行移動した入力点座標に対
して、図6のステップ604の点照合の処理を行う。本
発明の実施形態は、このように、原点を一定間隔で横方
向及び縦方向に平行移動して点同士の照合を行っている
ため、入力帳票に位置ずれがあっても高精度に帳票識別
が可能となる。
【0074】図16は枠の特徴として用いる枠線の種類
について説明する図である。前述で説明した図10のフ
ローにおける線分を抽出するステップ1000におい
て、実線だけでなく、例えば、点線を抽出し、これを枠
の特徴として帳票識別に利用することができる。枠を構
成する線の種類として、実線と点線とがある場合、が1
6に示すように、枠の種類としては、枠1600〜16
15として示す16通りの種類がある。なお、枠線の種
類として、実線と点線とに限定する必要はなく、例え
ば、一点鎖線や破線などの線種を含めてもよい。また、
線の太さを線種に含めてもよい。枠の線種が異なれば、
枠の形や位置が同一であっても、帳票の種類は異なる。
【0075】本発明の実施形態では、枠線の種類が異な
る16種類の枠にそれぞれ属性を与える。属性は、枠線
の種類に対応して、例えば、1から16までの番号であ
ってもよい。例えば、枠1600は4本の枠線が実線で
ある。また、枠1601〜1604は3本の枠線が実線
で、残り1本の枠線が点線である。枠1605〜161
0は2本の枠線が実線で残り2本の枠線が点線である。
枠1611〜1614は3本の枠線が点線で残り1本の
枠線が実線である。枠1615は4本の枠線が点線であ
り、これらは、すべて異なる種類の枠である。なお、ス
テップ1000で罫線のうち点線を抽出する処理には、
例えば、特開平9−319824号公報に開示された点
線抽出方法を使用することができる。
【0076】図17は図8のステップ802での投票数
抽出の処理において、点の属性を利用する場合の処理動
作を説明するフローチャートである。ここでの処理は、
点の属性として枠線の線種を付与している。そして、こ
の処理は、注目する入力点に対して近傍にある辞書点の
内、入力点と辞書点との属性が同じでかつ最小距離にあ
る辞書点を求め、その最小距離の長さから照合する辞書
点が存在するか否かかを判定すると共に、入力点に対し
て辞書点が存在する入力点の個数を投票数として計数す
る処理である。
【0077】図17において、まず、ステップ1700
で投票数を初期化する。そして、ステップ1701で、
入力点が尽きるまで、ステップ1702以下の処理を繰
り返すことを設定する。ステップ1702では、辞書の
点が尽きるまで、ステップ1703で入力点と辞書点の
属性が一致する辞書点を求め、ステップ1704で入力
点と当該辞書点の最小距離を算出する。そして、ステッ
プ1705で当該距離が所定値より小さいか否かを判定
し、小さい場合に、ステップ1706で投票数の値を1
個増加させる。以上の処理を繰り返すことにより、投票
数を算出することができる。
【0078】前述した図17の処理により、枠線の種類
が異なる帳票に対して、帳票の種類が異なると判定する
ことができる。これにより、例えば、枠線の属性が異な
っても同じ種類の帳票とみなせる場合、文字読み取りの
ための書式データを共通化することができ、書式データ
作成の作業を省略できるという利点を得ることができ
る。また、帳票画像において破線が画像2値化の影響に
よりつぶれ、破線が繋がった実線となる場合がある。こ
のような帳票に対しては、枠線の属性を無視することに
より、信頼性よく帳票の種類を識別できる。
【0079】図18は図5のステップ500での枠座標
の90度回転の処理について説明する図である。図18
において、入力帳票画像から抽出した特徴を1800と
して示している。ここでは、枠の中心点の位置座標を特
徴として具備している。この入力特徴1800に対し
て、右に90度回転した特徴が特徴1801であり、ま
た、当該入力特徴1800に対して、上下逆転した特徴
が特徴1802であり、左に90度回転した特徴が特徴
1803である。本発明の実施形態は、入力特徴を前述
のように90度単位で回転させ照合を行っているため、
スキャナに帳票が任意の向きに設定されていても帳票の
識別が可能である。なお、入力点を回転させる方法とは
別に、辞書点を回転させて照合を行ってもよい。
【0080】図19は図8のステップ802での投票数
抽出の処理において、点の属性を有効または無効の何れ
かに切り替えて投票数を求める場合の処理動作を説明す
るフローチャートであり、以下、これについて説明す
る。
【0081】この切り替え処理は、帳票の種類毎に実行
される。但し、帳票の種類毎に切り替え処理が限定され
るのではなく、帳票内の枠毎に切り替え処理が実行され
てもよい。そして、予め登録された帳票毎、あるいは、
帳票内の枠毎に、枠線の種類を有効・無効にする識別制
御情報を具備する。ここでは、一例として、識別制御情
報として属性フラグを備え、ステップ1907で用いる
この属性フラグにより制御を切り替えることとする。ま
た、この例では、点の属性として枠線の線種を付与して
おり、線種を考慮して識別する処理と線種の違いを無視
して識別する処理とを切り替えるものとする。そして、
この処理は、注目する入力点に対して近傍にある辞書点
の内、入力点と辞書点との属性が同じでかつ最小距離に
ある辞書点を求め、その最小距離の長さから照合する辞
書点が存在するか否かを判定すると共に、入力点に対し
て辞書点が存在する入力点の個数を投票数として計数す
る処理である。
【0082】(1)まず、投票数を初期化し、入力点が
尽きるまで、ステップ1902以下の処理を繰り返すこ
とを設定する(ステップ1901)。
【0083】(2)辞書の点が尽きるまで、各枠の属
性、例えば、線種を有効にするか無効にするかを判定す
る。もし、属性を有効にする場合、入力点と辞書点との
属性が一致する辞書点を求め、入力点と当該辞書点と間
の最小距離を算出する(ステップ1902、1907、
1903、1904)。
【0084】ここでは、前述のステップ1907で、属
性を無効にした場合、ステップ1903の処理以下の最
小距離算出を実行しないが、必ずしもこのように限定す
る必要はない。例えば、ステップ1907で属性フラグ
が無効の場合、ステップ1903で入力点と辞書点との
属性が一致しなくても、ステップ1904の処理で最小
距離の算出を実行し、属性を無視する方法でもよい。
【0085】(3)そして、ステップ1904で算出し
た最小距離が所定値より小さいか否かを判定し、小さけ
れば、投票数の値を1個増加させる。以上の処理を繰り
返すことにより、投票数を算出することができる(ステ
ップ1905、1906)。
【0086】前述した図19に示す処理により、枠線の
種類が異なる帳票に対して、帳票の種類が同一と判定す
る、あるいは、異なる種類と判定することを切り替え
て、投票数を算出することができる。
【0087】図20は帳票識別に用いる帳票画像の特徴
例について説明する図である。帳票の特徴として、図2
0に示すように、帳票中の枠2001における枠内部の
中心点2000の座標、帳票中の罫線2003における
罫線の中心点2002の座標、帳票中の文字行に外接す
る矩形2005の中心点2004の座標等があり、これ
らを帳票識別に利用する特徴として使用することができ
る。
【0088】図22は帳票画像の特徴として、図20に
より説明した3種の特徴、すなわち、枠、罫線、文字行
矩形を用いて帳票の識別を行う処理動作の例を説明する
フローチャートである。図22において、ステップ22
00で帳票の特徴として枠を抽出し、ステップ2201
で枠を利用して帳票識別を行う。次いで、ステップ22
02で帳票の特徴として罫線を抽出し、ステップ220
2で罫線を利用した帳票識別を行う。さらに、ステップ
2204で文字行を抽出し、ステップ2205で文字行
を利用した帳票識別を行う。最後に、ステップ2206
でステップ2201、2203、2205での各帳票識
別結果の複合判定を行う。
【0089】図23は図22のステップ2206での帳
票識別結果の複合判定の処理動作を説明するフローチャ
ートであり、以下、これについて説明する。
【0090】まず、ステップ2300で予め登録してい
る帳票の種類が尽きるまで、ステップ2301〜230
5の処理を繰り返すことを指定する。ステップ2301
の処理で、複合判定のための指標値を帳票種類毎に初期
化して備える。次に、ステップ2302の処理で、枠利
用の帳票識別結果を当該指標値、ここでは、初期値に加
算する。そして、ステップ2303の処理で、罫線枠利
用の帳票識別結果を当該指標値、ここでは、初期値+枠
利用の識別結果の指標値に加算する。さらに、ステップ
2304の処理で、文字行利用の帳票識別結果を当該指
標値、ここでは、初期値+枠利用の識別結果+罫線利用
の識別結果の指標値に加算する。次に、ステップ230
5の処理で、ステップ2304で得られている初期値+
枠利用の識別結果+罫線利用の識別結果+文字行利用の
識別結果の指標値を登録する。最後に、ステップ230
6の処理で、指標値の大小に沿って識別結果である帳票
種類を並べ替える。
【0091】前述において、指標値として各帳票識別候
補の順位を用いた場合、指標値が小さい順に帳票種類が
ソートされる。あるいは、指標値として各帳票識別候補
の類似度を用いた場合、指標値が大きい順に帳票種類が
ソートされる。本発明の実施形態は、前述のように、複
数の帳票の特徴を用いて帳票識別結果を出力することが
できるため、高精度な帳票の識別が可能である。例え
ば、枠と下線とが混在するような帳票を高精度に識別す
ることができる。
【0092】図24は3種の帳票の特徴を用いた帳票識
別の処理動作の他の例を説明するフローチャートであ
り、図23入力より説明したフローによる方法とは別の
方法による例である。
【0093】図24において、まず、ステップ2400
で枠を抽出し、ステップ2401で枠利用の帳票識別を
行う。そして、ステップ2402で枠利用の帳票識別が
拒絶か否かを判定し、もし拒絶であれば、ステップ24
03で罫線を抽出し、ステップ2404で罫線利用によ
る帳票識別を行う。そして、ステップ2405で罫線利
用の帳票識別が拒絶か否かを判定し、拒絶と判定された
場合、ステップ2406で文字行を抽出し、ステップ2
407で文字行を利用した帳票識別を行う。
【0094】図24に示す処理は、前述のように、ある
特徴を利用した帳票識別が拒絶された場合、別の特徴を
利用した帳票識別を実行しているため、処理時間を短縮
することができる。
【0095】図26は処理センターと遠隔地にある支店
や事務所とがネットワークに接続されて帳票識別を行う
システムの構成例を示すブロック図である。図26にお
いて、2600はネットワーク、2601はセンター側
ステーション、2602は登録ステーション、260
3、2614は作成ステーション、2610〜2612
は支店ステーション、2613は識別ステーションであ
る。
【0096】図26に示すシステムは、ネットワーク2
600に、全国に数箇所あるセンター側ステーション2
601と、遠隔地にある支店や事務所に設けられる支店
支店ステーション2610〜2612が接続されて構成
されている。センター側ステーション2601には、帳
票登録を行う登録ステーション2602、帳票を作成す
る作成ステーション2603が備えられている。また、
支店ステーション2610〜2612には、帳票画像の
入力、識別を行う識別ステーション2613、支店での
帳票作成を可能にする作成ステーション2614が備え
られている。このように構成されるシステムにおいて、
ネットワーク2600を介して帳票識別用の辞書や印刷
用の帳票ファイルが各支店ステーション2610〜26
12にセンター側ステーション2601から配布される
ので、辞書などの保守を一括管理することができ、保守
作業を軽減することができる。
【0097】図21は本発明の他の実施形態による帳票
画像識別システムの構成例を示すブロック図である。図
21において、2110はセンター側ステーション、2
111は遠隔地側ステーション、2112は帳票作成ス
テーション、2113は帳票ファイル、2114は帳票
プリンタであり、他の符号は図1の場合と同一である。
【0098】図21に示す本発明の他の実施形態による
帳票画像識別システムは、通信ネットワーク100を介
して辞書登録ステーション101、帳票識別ステーショ
ン106、帳票作成ステーション109、2112が接
続されて構成されており、これらのステーションが連携
して動作可能とされている。そして、辞書登録ステーシ
ョン101、帳票作成ステーション109が、一点鎖線
で囲ったセンター側ステーション2110として構成さ
れ、一方、帳票識別ステーション106、帳票作成ステ
ーション2112が一点鎖線で囲った遠隔地にある各事
務所に設置された遠隔地側ステーション2111として
構成されている。
【0099】辞書登録ステーション101は、帳票の種
類を識別するために予め帳票画像の特徴を登録する。辞
書登録ステーション101には、帳票画像を採取するス
キャナ102、登録対象となった帳票画像を保管する登
録対象帳票画像ファイル103、登録した帳票画像の特
徴を保管する帳票辞書ファイル104が備えられてい
る。また、辞書登録ステーション101は、表示装置1
05を有し、この表示装置105に、登録済み帳票画像
やスキャナで採取した新たな帳票画像をその画面に表示
し、対話的に登録作業を行う。
【0100】帳票識別ステーション106は、スキャナ
107から入力された帳票画像の種類を、登録した帳票
画像の特徴を保管する帳票辞書ファイル108を用いて
識別する。帳票辞書ファイル108の内容は、辞書登録
ステーション101側の帳票辞書ファイル104を複写
したものであり、通信ネットワークを介して、常に最新
のデータに更新することができる。なお、帳票識別に用
いる帳票辞書ファイルとして、通信ネットワークを介し
て辞書登録ステーション側の帳票辞書ファイル104を
アクセスして用いる構成でもよい。
【0101】帳票作成ステーション109は、帳票ファ
イル110と帳票プリンタ111とを備えており、帳票
ファイル110に保管された帳票データに対して、帳票
プリンタ111を用い帳票を紙に印刷する。帳票作成ス
テーション109は、帳票識別が容易になるよう帳票デ
ータを編集して、印刷し、辞書登録ステーション101
において、スキャナ102で印刷した帳票の画像を採取
し新規登録の試行を行うことができる。
【0102】帳票作成ステーション2112は、事務所
側である遠隔地側ステーションに備えられており、帳票
ファイル2113、帳票プリンタ2114が接続されて
いる。そして、帳票ファイル2113に保管されている
帳票は、事務所側で帳票プリンタ2114から印刷して
配布する。このとき、帳票辞書ファイル108が更新さ
れ、最新の辞書ファイルが保管されていない場合、帳票
辞書ファイル108と帳票ファイル2113との間の整
合性がなくなり、前述で印刷して配布した帳票に対して
帳票識別が拒絶される恐れがある。このため、帳票辞書
ファイル108と帳票ファイル2113の整合性を検定
する必要がある。
【0103】図25は帳票辞書ファイル108と帳票フ
ァイル2113との間の整合性の検定を行う処理動作を
説明するフローチャートである。
【0104】図25に示すフローにおいて、帳票作成ス
テーション2112は、まず、ステップ2500で印刷
対象の帳票の種類を指定する。そして、ステップ250
1で帳票辞書ファイル108を探索し、当該帳票辞書が
保管されているか否かをステップ2502で判定する。
もし、当該帳票辞書が保管されている場合、ステップ2
503で帳票ファイル2113から該当する帳票データ
を選択して、ステップ2504で帳票データを印刷す
る。一方、ステーション2502の判定で、もし、当該
帳票辞書が保管されていなかった場合、ステップ250
5で帳票辞書の送信要求をセンター側にある辞書登録ス
テーション101に送り、帳票辞書ファイル108を更
新する。これにより、印刷した帳票に対応した帳票識別
用辞書が保管されていることを保証することができる。
【0105】
【発明の効果】以上説明したように本発明によれば、枠
線の傾きや帳票縁の傾きより検出された帳票の傾き角を
基に、枠の中心点座標に対して傾きの補正を行っている
ため、傾きを有する帳票に対しても高精度な帳票識別が
可能である。また、本発明によれば、伸縮率を複数通り
に仮定して入力点座標の拡大縮小を行っているため、特
徴に欠落や偽特徴が発生している帳票が伸縮している場
合にも、類似度を算出することができるという効果を得
ることができる。
【0106】さらに、本発明によれば、原点を一定間隔
で横方向ならびに縦方向に平行移動して点同士の照合を
行っているため、入力帳票に位置ずれがある場合にも、
高精度に帳票識別を行うことができる。また、本発明に
よれば、枠線の種類が異なる帳票に対して、帳票毎ある
いは帳票内の枠毎に枠線の種類の有効、無効を切り替え
て帳票の種類を識別することができるため、帳票識別の
信頼性の向上を図ることができ、かつ、記憶容量を低減
することができるという効果を得ることができる。
【0107】さらに、本発明によれば、入力特徴として
枠の中心点を90度単位で回転させて照合を行っている
ため、スキャナに帳票が任意の向きに設定されていても
帳票の識別が可能となり、また、罫線の分布特徴を利用
する帳票識別と比較して信頼性の高い帳票の識別を行う
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態による帳票識別及び帳票登
録を実行する帳票識別システムの構成例を示すブロック
図である。
【図2】辞書登録ステーションでの帳票識別のための辞
書登録の処理動作を説明するフローチャートである。
【図3】図2により説明した辞書登録における対話操作
を行うための画面表示例を説明する図である。
【図4】帳票識別ステーションでの入力帳票の特徴抽出
処理と帳票識別処理との動作を説明するフローチャート
である。
【図5】図4のステップ401での帳票識別処理の動作
を説明するフローチャートである。
【図6】図5のステップ501での探索照合処理の動作
を説明するフローチャートである。
【図7】図5のステップ604での点照合処理の動作を
説明するフローチャートである。
【図8】図7のステップ702での類似度抽出処理の動
作を説明するフローチャートである。
【図9】図8のステップ802での投票数抽出処理の動
作を説明するフローチャートである。
【図10】図4のステップ400での枠抽出処理の動作
を説明するフローチャートである。
【図11】帳票識別ステーション106での入力帳票の
特徴抽出処理と帳票識別処理との他の動作例を説明する
フローチャートである。
【図12】図4のステップ400での枠抽出処理につい
て説明する帳票識別の特徴としての枠の中心点について
説明する図である。
【図13】帳票辞書ファイルに格納されている辞書点に
ついて説明する図である。
【図14】図9のステップ903での入力点と辞書点と
の最小距離を算出する方法を説明する図である。
【図15】図6のステップ602、603で示した座標
値をX、Y方向へずらした点照合について説明する図で
ある。
【図16】枠の特徴として用いる枠線の種類について説
明する図である。
【図17】図8のステップ802での投票数抽出の処理
において、点の属性を利用する場合の処理動作を説明す
るフローチャートである。
【図18】図5のステップ500での枠座標の90度回
転の処理について説明する図である。
【図19】図8のステップ802での投票数抽出の処理
において、点の属性を有効または無効の何れかに切り替
えて投票数を求める場合の処理動作を説明するフローチ
ャートである。
【図20】帳票識別に用いる帳票画像の特徴例について
説明する図である。
【図21】本発明の他の実施形態による帳票画像識別シ
ステムの構成例を示すブロック図である。
【図22】帳票画像の特徴として、枠、罫線、文字行矩
形を用いて帳票の識別を行う処理動作の例を説明するフ
ローチャートである。
【図23】図22のステップ2206での帳票識別結果
の複合判定の処理動作を説明するフローチャートであ
る。
【図24】3種の帳票の特徴を用いた帳票識別の処理動
作の他の例を説明するフローチャートである。
【図25】帳票辞書ファイル108と帳票ファイル21
13との間の整合性の検定を行う処理動作を説明するフ
ローチャートである。
【図26】処理センターと遠隔地にある支店や事務所と
がネットワークに接続されて帳票識別を行うシステムの
構成例を示すブロック図である。
【符号の説明】
100、2600 ネットワーク 101 辞書登録ステーション 102、107 スキャナ 103 登録対象帳票画像ファイル 104、108 帳票辞書ファイル 105 表示装置 106 帳票識別ステーション 109、2112 帳票作成ステーション 110、2113 帳票ファイル 111、2114 帳票プリンタ 2110、2601 センター側ステーション 2111 遠隔地側ステーション 2602 登録ステーション 2603、2614 作成ステーション 2610〜2612 支店ステーション 2613 識別ステーション
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/60 200 G06T 7/60 200K Fターム(参考) 5B029 AA01 CC18 CC28 EE04 EE06 5L096 AA13 EA03 EA16 EA17 FA16 FA62 FA69 HA09 JA03 JA11

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 予め登録された複数の帳票の特徴と入力
    された帳票の特徴とを、位置座標を基に照合して帳票の
    種類を識別する帳票識別方法であって、入力帳票から、
    帳票内に含まれる1または複数の枠、罫線または文字行
    を抽出し、帳票の特徴として枠、罫線または文字行の中
    心点座標を入力特徴として抽出し、前記入力特徴あるい
    は予め登録されている帳票の登録特徴のいずれかを90
    度単位で回転させ、枠、罫線または文字行から検出した
    微小傾き角に基づいて、前記入力特徴を微小角度補正
    し、入力特徴と登録特徴とを照合し、最も一致した角度
    を入力帳票の向きとし、最も一致した登録特徴を持つ帳
    票種類を帳票識別結果とすることを特徴とする帳票識別
    方法。
  2. 【請求項2】 前記最も一致した角度を持つ入力帳票の
    向きを出力することを特徴とする請求項1記載の帳票識
    別方法。
  3. 【請求項3】 登録された帳票種毎あるいは帳票の枠毎
    に枠の線種を有効・無効にする識別制御情報を備え、入
    力帳票から枠線の種類を抽出し、予め登録されている帳
    票の枠線の種類との一致を求め、枠の形が同一であって
    も枠線の種類が異なる帳票を別の種類の帳票として識別
    する制御、及び、枠の形が同じであれば枠線の種類が異
    なっていても同じ種類の帳票として識別する制御を切り
    替えることを特徴とする帳票識別方法。
  4. 【請求項4】 予め登録された複数の帳票の特徴と入力
    された帳票の特徴とを、位置座標を基に照合して帳票の
    種類を識別する帳票識別方法であって、入力帳票の入力
    特徴として抽出した各位置を、予め登録されている帳票
    の登録特徴の基準位置から、横方向及び縦方向に一定幅
    で平行移動させながら前記基準位置と照合し、最も登録
    特徴と一致した平行移動位置を入力帳票の位置とし、最
    も一致した登録特徴を持つ帳票種類を帳票識別結果とす
    ることを特徴とする帳票識別方法。
  5. 【請求項5】 前記最も登録特徴と一致した平行移動位
    置を入力帳票の位置として出力することを特徴とする請
    求項4記載の帳票識別方法。
  6. 【請求項6】 予め登録された複数の帳票の特徴と入力
    された帳票の特徴とを、位置座標を基に照合して帳票の
    種類を識別する帳票識別方法であって、入力帳票の入力
    特徴として抽出した各位置座標を、一定倍率ずつ横方向
    及び縦方向に、あるいは、横方向または縦方向に複数個
    の伸縮率を仮定し、前記仮定した伸縮率によって入力特
    徴を伸縮させ、予め登録されている帳票の登録特徴に最
    も一致した伸縮率を入力帳票の伸縮率とし、最も一致し
    た登録特徴を持つ帳票種類を帳票識別結果とすることを
    特徴とする帳票識別方法。
  7. 【請求項7】 前記最も一致した伸縮率を入力帳票の伸
    縮率として出力することを特徴とする請求項6記載の帳
    票識別方法。
  8. 【請求項8】 予め登録された複数の帳票の特徴と入力
    された帳票の特徴とを、位置座標を基に照合して帳票の
    種類を識別する帳票識別方法であって、入力帳票の特徴
    に点座標を付与した入力点と、登録帳票の特徴に点座標
    を付与した辞書点とを備え、前記入力点と辞書点との距
    離を算出し、前記距離が所定値以下であれば入力点に対
    応付けられた辞書点が存在すると判定し、対応付けられ
    た点数、入力点数及び辞書点数に基づいて、入力帳票の
    特徴と登録帳票の特徴とを照合して照合の一致の程度を
    求めて、入力帳票の種類を識別することを特徴とする帳
    票識別方法。
  9. 【請求項9】 前記入力点、辞書点は、帳票内に含まれ
    る1または複数の枠、罫線または文字行の中心点である
    ことを特徴とする請求項8記載の帳票識別方法。
  10. 【請求項10】 予め登録された複数の帳票の特徴と入
    力された帳票の特徴とを照合して帳票の種類を識別する
    帳票識別のために、帳票の特徴を予め登録する帳票登録
    方法であって、登録対象となった入力帳票画像と帳票識
    別により類似すると判定された登録済みの帳票画像とを
    画面に表示し、前記入力帳票が既に登録済みか、未登録
    であるかの使用者の判断情報を入力させ、新規帳票とし
    て対象帳票を登録するため対象帳票のデータを編集、印
    刷して再度登録試行を行うことを特徴とする帳票登録方
    法。
JP2001127639A 2001-04-25 2001-04-25 帳票識別方法及び帳票登録方法 Pending JP2002324236A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001127639A JP2002324236A (ja) 2001-04-25 2001-04-25 帳票識別方法及び帳票登録方法
US10/041,603 US7106904B2 (en) 2001-04-25 2002-01-10 Form identification method
CNB021020493A CN1215432C (zh) 2001-04-25 2002-01-18 帐票识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001127639A JP2002324236A (ja) 2001-04-25 2001-04-25 帳票識別方法及び帳票登録方法

Publications (2)

Publication Number Publication Date
JP2002324236A true JP2002324236A (ja) 2002-11-08
JP2002324236A5 JP2002324236A5 (ja) 2005-03-03

Family

ID=18976476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001127639A Pending JP2002324236A (ja) 2001-04-25 2001-04-25 帳票識別方法及び帳票登録方法

Country Status (3)

Country Link
US (1) US7106904B2 (ja)
JP (1) JP2002324236A (ja)
CN (1) CN1215432C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346607A (ja) * 2004-06-07 2005-12-15 Fuji Xerox Co Ltd 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP2006120097A (ja) * 2004-10-25 2006-05-11 Ricoh Co Ltd 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
JP2006163916A (ja) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 直線パターン識別方法及び装置及びプログラム
JP2007148846A (ja) * 2005-11-29 2007-06-14 Nec Corp Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP2007156828A (ja) * 2005-12-05 2007-06-21 Soei Kk 書類登録システム及び書類登録方法
JP2012099089A (ja) * 2010-10-29 2012-05-24 Sharp Corp 画像判定装置、画像抽出装置、画像判定プログラム、および画像判定方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US8010988B2 (en) * 2000-09-14 2011-08-30 Cox Ingemar J Using features extracted from an audio and/or video work to obtain information about the work
US20110188759A1 (en) * 2003-06-26 2011-08-04 Irina Filimonova Method and System of Pre-Analysis and Automated Classification of Documents
RU2003108433A (ru) 2003-03-28 2004-09-27 Аби Софтвер Лтд. (Cy) Способ предварительной обработки изображения машиночитаемой формы
RU2635259C1 (ru) * 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US7787158B2 (en) * 2005-02-01 2010-08-31 Canon Kabushiki Kaisha Data processing apparatus, image processing apparatus, data processing method, image processing method, and programs for implementing the methods
WO2007117334A2 (en) * 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
JP4848221B2 (ja) * 2006-07-31 2011-12-28 富士通株式会社 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法
CN101622632B (zh) * 2007-03-08 2011-12-21 富士通株式会社 账票种类识别程序、账票种类识别方法以及账票种类识别装置
US8108764B2 (en) * 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
JP5402099B2 (ja) * 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
US8600164B2 (en) * 2008-03-28 2013-12-03 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
US8634645B2 (en) * 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
JP5617249B2 (ja) * 2010-01-20 2014-11-05 富士ゼロックス株式会社 帳票識別装置、帳票識別プログラム及び帳票処理システム
JP5462017B2 (ja) * 2010-02-08 2014-04-02 沖電気工業株式会社 帳票処理システム、エントリ端末および帳票データ処理方法
JP2012190410A (ja) * 2011-03-14 2012-10-04 Toshiba Corp 帳票処理システム、方法及びプログラム
CN102509115B (zh) * 2011-11-22 2014-06-25 北京京北方信息技术有限公司 一种分层带回溯查找机制的票据类型识别方法
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
US10114800B1 (en) 2013-12-05 2018-10-30 Intuit Inc. Layout reconstruction using spatial and grammatical constraints
CN103871063B (zh) * 2014-03-19 2017-04-19 中国科学院自动化研究所 一种基于点集匹配的图像配准方法
JP6810892B2 (ja) * 2017-06-05 2021-01-13 京セラドキュメントソリューションズ株式会社 画像処理装置
US11087448B2 (en) * 2019-05-30 2021-08-10 Kyocera Document Solutions Inc. Apparatus, method, and non-transitory recording medium for a document fold determination based on the change point block detection

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107694B2 (ja) 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0727560B2 (ja) 1986-02-10 1995-03-29 株式会社日立製作所 点パタ−ン照合方法
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US5276742A (en) * 1991-11-19 1994-01-04 Xerox Corporation Rapid detection of page orientation
JP3186246B2 (ja) 1992-09-24 2001-07-11 株式会社日立製作所 文書読取装置
JP3483919B2 (ja) 1993-10-20 2004-01-06 株式会社日立製作所 伝票文書情報システム
JPH07249099A (ja) 1994-03-14 1995-09-26 Fujitsu Ltd 帳票識別装置
JP3348224B2 (ja) 1994-10-26 2002-11-20 株式会社日立製作所 表枠線の交点補正装置および表認識装置および光学文字読取装置
JP3469345B2 (ja) 1995-03-16 2003-11-25 株式会社東芝 画像のファイリング装置及びファイリング方法
JP3353215B2 (ja) 1995-05-15 2002-12-03 日本電信電話株式会社 帳票書式識別方法及び装置
JPH09319824A (ja) 1996-05-30 1997-12-12 Hitachi Ltd 帳票認識方法
JP3580670B2 (ja) * 1997-06-10 2004-10-27 富士通株式会社 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
JP3524339B2 (ja) 1997-08-25 2004-05-10 沖電気工業株式会社 光学式文字読取装置用帳票のフォーマット情報生成方法
JPH1185900A (ja) 1997-09-03 1999-03-30 Ricoh Co Ltd 帳票識別方法、機械読み取り可能媒体及び文字認識装置
JP3580115B2 (ja) 1998-02-10 2004-10-20 株式会社日立製作所 カスタマバーコード読取り郵便物等区分装置
US6798905B1 (en) * 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
JP2000123174A (ja) 1998-10-16 2000-04-28 Matsushita Electric Ind Co Ltd 帳票書式識別装置
JP2000293688A (ja) 1999-04-01 2000-10-20 Fujitsu Ltd 指紋照合装置
JP3951502B2 (ja) 1999-04-26 2007-08-01 富士通株式会社 帳票照合装置
JP4450888B2 (ja) 1999-05-28 2010-04-14 富士通株式会社 帳票認識方法
US6785428B1 (en) * 1999-10-05 2004-08-31 Adobe Systems Incorporated Rotated transform of an image using block transfers
US6778703B1 (en) * 2000-04-19 2004-08-17 International Business Machines Corporation Form recognition using reference areas

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346607A (ja) * 2004-06-07 2005-12-15 Fuji Xerox Co Ltd 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP4697387B2 (ja) * 2004-06-07 2011-06-08 富士ゼロックス株式会社 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP2006120097A (ja) * 2004-10-25 2006-05-11 Ricoh Co Ltd 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
JP4614320B2 (ja) * 2004-10-25 2011-01-19 株式会社リコー 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
JP2006163916A (ja) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 直線パターン識別方法及び装置及びプログラム
JP2007148846A (ja) * 2005-11-29 2007-06-14 Nec Corp Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP4635845B2 (ja) * 2005-11-29 2011-02-23 日本電気株式会社 Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP2007156828A (ja) * 2005-12-05 2007-06-21 Soei Kk 書類登録システム及び書類登録方法
JP2012099089A (ja) * 2010-10-29 2012-05-24 Sharp Corp 画像判定装置、画像抽出装置、画像判定プログラム、および画像判定方法

Also Published As

Publication number Publication date
US7106904B2 (en) 2006-09-12
US20020159639A1 (en) 2002-10-31
CN1215432C (zh) 2005-08-17
CN1383094A (zh) 2002-12-04

Similar Documents

Publication Publication Date Title
JP2002324236A (ja) 帳票識別方法及び帳票登録方法
US5799115A (en) Image filing apparatus and method
EP0054439B1 (en) Character segmentation method
US5748809A (en) Active area identification on a machine readable form using form landmarks
JPH0420226B2 (ja)
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
JP2007179395A (ja) 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体
US6947596B2 (en) Character recognition method, program and recording medium
US6549662B1 (en) Method of recognizing characters
JP2000315247A (ja) 文字認識装置
JPH09319824A (ja) 帳票認識方法
JPH11219409A (ja) 文書読取装置
JP3179280B2 (ja) 表を含む帳票処理装置
JP2003030654A (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
JP3689485B2 (ja) 帳票認識方法
JPH0660222A (ja) 文字認識装置
JPS6172374A (ja) 文字認識装置
JP3351062B2 (ja) 文書システム
JPH07182459A (ja) 表構造抽出装置
JP3186712B2 (ja) 文書読取装置
JP3420853B2 (ja) 文字切り出し方法
JPH0433082A (ja) 文書認識装置
JP2001326774A (ja) 帳票読取装置および帳票読取方法並びに記憶媒体
JPH10124610A (ja) 光学式文字読取装置
JPH01277989A (ja) 文字列パターン読み取り装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070220