JP4046941B2 - Document format identification device and identification method - Google Patents

Document format identification device and identification method Download PDF

Info

Publication number
JP4046941B2
JP4046941B2 JP2000367675A JP2000367675A JP4046941B2 JP 4046941 B2 JP4046941 B2 JP 4046941B2 JP 2000367675 A JP2000367675 A JP 2000367675A JP 2000367675 A JP2000367675 A JP 2000367675A JP 4046941 B2 JP4046941 B2 JP 4046941B2
Authority
JP
Japan
Prior art keywords
document image
identified
coordinate
similarity
coordinate value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000367675A
Other languages
Japanese (ja)
Other versions
JP2002170079A5 (en
JP2002170079A (en
Inventor
健一 数見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000367675A priority Critical patent/JP4046941B2/en
Publication of JP2002170079A publication Critical patent/JP2002170079A/en
Publication of JP2002170079A5 publication Critical patent/JP2002170079A5/ja
Application granted granted Critical
Publication of JP4046941B2 publication Critical patent/JP4046941B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、大量の帳票を処理する分野で、帳票の書式ごとに分類する装置を構築する際に、自動分類を可能にする帳票識別に関するものである。
【0002】
【従来の技術】
帳票内に記載された情報をOCR等の光学式文字認識装置で読みとるためには、帳票の書式を識別し、帳票内の情報記載位置を正確に把握する必要がある。帳票の書式を識別する方法として、あらかじめ登録されたマスタ帳票と、識別したい帳票の帳票内のテーブルや文字を比較し、識別したい帳票と一致するマスタ帳票を抽出する方法がある。
【0003】
帳票内のテーブルや文字を比較するには、識別したい帳票のテーブルブロックおよびテキストブロックに、最も近い座標位置にあるマスタ帳票のブロックを検出し、テーブルブロックおよびテキストブロックごとの詳細情報のマッチングを取る手法が一般的である。そのブロック位置の検出には、帳票ページの左上角を原点として、各ブロックの左上角位置の座標値を使用していた。
【0004】
【発明が解決しようとする課題】
しかしながら、識別したい帳票がFAX等により送信された場合、FAX等の給紙制約から、識別したい帳票が拡大または縮小されることがある。そして、図2の(A)、(B)に示すようにマスタ帳票Bに対して、拡大または縮小した識別したい帳票Aを比較すると、識別したい帳票の各ブロックの左上角位置は変倍されているため、識別したい帳票のブロックに対応するマスタ帳票のブロックを正確に検出することができない。また、ブロックごとの詳細構造のマッチングでも、テーブルブロックのサイズ、テーブル内の罫線の位置情報も、前記と同様に変倍されているので、相似形のテーブルブロックでもテーブル構造のマッチング計算では、異なるテーブルだと識別されることになる。その結果、拡大または縮小した帳票は、類似度が非常に低くなり、異なる帳票として判断されることになる。
【0005】
本発明は、上記課題を鑑みてなされたものであり、異なる変倍率で拡大または縮小された複数の文書が混在する環境でも、文書書式を正しく識別することを目的とする。
【0006】
【課題を解決するための手段】
かかる課題を解決するため、例えば本発明の文書書式識別装置は以下の構成を備える。すわなち、
文書画像の文書書式を識別する文書書式識別装置であって、
文書書式を識別すべき文書画像から抽出された複数のブロックそれぞれの位置座標を含む文書書式データを作成する作成手段と、
前記作成手段により作成された前記識別すべき文書画像の文書書式データと、保存手段に保存されているマスター文書画像の文書書式データとを比較することにより、相似関係があるか否かを判断するとともに、当該判断結果と、相似関係があると判断した前記識別すべき文書画像と前記マスター文書画像との間の変倍率と、を含む相似情報を抽出する相似情報抽出手段と、
前記相似情報抽出手段にて抽出した相似情報及び前記文書書式データに基づいて、前記識別すべき文書画像の前記マスター文書画像に対する類似度を計算することにより、前記識別すべき文書画像の文書書式を識別する識別手段と、を備え、
前記相似情報抽出手段は、
前記識別すべき文書画像から抽出されたブロックの個数と前記マスター文書画像のブロックの個数とが所定数以上でかつ互いに等しい場合に、
前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をYiとし、その平均値をYaveとする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をXiとし、その平均値をXaveとする)との間の相関係数を
{Σ(Xi−Xave)(Yi−Yave)}/{((Σ(Xi−Xave)^2)×(Σ(Yi−Yave)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するX座標値列と前記マスター文書画像に関するX座標値列の傾きに基づいてX座標方向の変倍率を求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
更に、前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をYi’とし、その平均値をYave’とする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をXi’とし、その平均値をXave’とする)との間の相関係数を
{Σ(Xi’−Xave’)(Yi’−Yave’)}/{((Σ(Xi’−Xave’)^2)×(Σ(Yi’−Yave’)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するY座標値列と前記マスター文書画像に関するY座標値列の傾きに基づいてY座標方向の変倍率を求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
前記X座標方向の変倍率と前記Y座標方向の変倍率の両方が求められた場合に相似関係があると判断することを特徴とする。
【0007】
【発明実施の形態】
[実施形態1]
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0008】
図1は、本発明の実施の形態に係る帳票書式自動識別装置の概略構成を示すブロック図である。
【0009】
11はスキャナーであり、帳票イメージを光学的に読み取り、帳票イメージデータを出力する。12はプロセッサでありメモリ15に格納された制御プログラム15dを実行することにより、画像特徴量抽出手段12a、書式データ作成手段12b、類似度計算手段12cとして機能する。スキャナー11で読み取った画像は、帳票イメージ15cとしてメモリ15に格納される。帳票イメージ15cは、2値化処理されて画像特徴量抽出手段12aに送られ、黒ドットのヒストグラム法などの手法により、テーブル、テキスト、ピクチャなどブロックごとに属性分類される。テーブルブロックについては、さらに罫線追跡手法などで、テーブルの詳細構造を求める。また、テキストブロックについては、さらに文字コードに変換するなどの処理を行う。
【0010】
このようにして取得した情報から、書式データ作成手段12bにて、図3に示す帳票のページ書式およびテーブル書式を作成し、メモリ15およびディスク14に保存する。図3は、画像特徴量抽出手段12aで抽出した後の帳票サンプル31を示す。テーブル・ブロック3個(311〜313)、ピクチャ・ブロック1個(314)が抽出されている。この帳票の書式データ32は、ページ書式321とテーブル書式322に階層化して保存する。ページ書式321は、ヘッダ部321aに帳票ページ幅、帳票ページ高さを所有する。
【0011】
また、データ部322aにはブロック毎に各種情報が記憶される。例えば、ブロック属性がテーブルの場合には、位置情報としてブロック左端位置、ブロック上端位置、大きさ情報としてブロック幅、ブロック高さの情報を所有する。また、比較帳票をピックアップするのに使用するためのページ原点からの距離および類似度の計算に使用するための当該ブロックの面積を全テーブル・ブロックで割った値も所有する。さらに、テーブル詳細情報とリンクするためにテーブルIDを所有する。このテーブルIDにリンクしたテーブルのセルの詳細構造をテーブル書式322で示す。テーブル内のセル個数、セルの位置、大きさ情報を所有する。
【0012】
帳票書式識別装置は、キーボードから帳票の登録、帳票の識別などの命令が入力されると、各々の命令に対応する処理をプロセッサ12が上記の書式データ32を使用して行う。そして、その識別結果をディスプレイ16に表示する。
【0013】
図4を参照して、本実施形態の帳票書式識別装置、特に図1のプロセッサ12が実行する各種制御処理の動作を説明する。
【0014】
図4は、帳票書式識別装置による書式識別処理の概略フローチャートを示す。ステップS101にて、識別したい帳票をスキャナーで読み取り、ステップS103で、テーブルブロック、テキストブロックの座標値等の特徴量データを抽出する。ステップS105では、これらの特徴量データを類似度を計算するための書式データに変換する。この書式データを元にして、ステップS107にてマスター帳票の中から、当該識別したい帳票の書式データと同じ帳票である可能性のある帳票を絞り込む。ステップS109で絞り込んだ帳票のすべてについて書式の類似度を計算する(ステップS111)。計算の結果、類似度の高い方の所定数のマスター帳票を類似帳票の候補とし、その識別コードと類似度を出力する(ステップS113)。
【0015】
本発明の帳票レイアウトの相似形チェックは、ステップS108にて行う。図5〜図8を使用して、詳細にその処理を説明する。
【0016】
ステップS108で帳票レイアウト相似形チェック処理が開始され、ステップS203で識別したい帳票およびマスタ帳票のフレームおよびテーブルブロックを整列する。本実施形態では、ブロック左上角のX座標の昇順にブロック情報を並べる。但し、図3に示すような、ブロック左上角座標のX成分がほとんど同じ位置にある場合には、X座標の誤差により識別したい帳票とマスタ帳票のブロック情報の並びを必ずしも対応付けることができない。識別したい帳票のブロック情報がテーブル1(311)→テーブル2(312)→ピクチャブロック(314)→テーブルブロック3(313)と整列しても、マスタ帳票のブロック情報がテーブル2(312)→テーブル1(311)→ピクチャブロック(314)→テーブルブロック3(313)のように整列する可能性は十分にある。そこで、X座標の位置が5ピクセル以内の差のブロックに関しては、別途Y成分の昇順に整列させる。この結果、識別したい帳票およびマスタ帳票のブロック情報をテーブル1(311)→テーブル2(312)→ピクチャブロック(314)→テーブルブロック3(313)の順に整列することが保証される。
【0017】
ステップS205では、比較するブロックの個数が同じであるかをチェックしている。ブロックの個数が異なる場合は、相似形でないと判断して、帳票レイアウト相似形チェック処理を終了し、ステップS109へ戻る。
【0018】
ステップS205でブロック個数が同じであった場合には、ステップS207にて、ブロック個数が3個以上かをチェックしている。3個以上の場合と、2個以下の場合では、相似形判定プログラムが異なるからである。
【0019】
3個以上の場合は、ステップS208_1に進み、ブロック左上角X座標の比較処理を行う。ステップS208_1の詳細を図6のフローチャートを用いて説明する。
【0020】
ステップS209では、ブロック情報のX成分の相似形チェック処理をする。すなわち、識別したい帳票の左上角X座標を縦軸に、マスタ帳票の左上角X座標を横軸にして、下式より相関係数を計算する。
【0021】
【数1】

Figure 0004046941
【0022】
ここで、相関係数の算出にあたっては、上式の相関係数の分子の値をチェックし(ステップS211)、相関係数の分子が14以下であれば、別プログラムで変倍率δXを求めている。これは、以下に述べるように相関係数の誤差が大きくなるからである。
【0023】
図3の帳票では、テーブルブロック1(311)、テーブルブロック2(312)、ピクチャブロック314の各左上角のX座標はほとんど同じ位置にあるため、Xi、YiともにXave、 Yaveに近い値となる。従って、Xi、 Yiが誤差の為に変動した場合、相関係数の変動も大きくなる。このため、Xi、Yiの誤差が大きいと考えられる環境では、相関係数の信頼度が落ちる。誤差の要因としては、スキャナで読み取るときに発生する誤差、傾斜補正等の画像処理を行ったときに発生する誤差、マッチング(すべての画像を100dpiに正規化してマッチングを行っている)の為に解像度変換を行ったときに発生する誤差などがあげられる。それらの誤差を考慮して、上式の相関係数の分子が14以下の場合は、信頼できないとして(識別したい帳票のページ幅)/(マスタ帳票のページ幅)=変倍率δXとしている(ステップS211_2)。ただし、帳票をはさみ等で切り取った場合にできるズレによる誤差を考慮して、帳票ページ幅の差分が10ピクセル以内であれば、変倍率δXを1.0とする(ステップS211_1、S211_3)。
【0024】
ステップS211にて相関係数の分子が14以上であり、かつ相関係数が0.9996以上あれば、X成分に関しては相似形と判断する(ステップS213)。
【0025】
一方、ステップS211にて相関係数の分子が14以上であっても、相関係数が0.9996より小さい場合には、相似形でないと判断して相似形チェック処理を終了し、ステップS109へもどる。
【0026】
相関係数が1に近いほど、前記の情報が直線上に並んでいるとみなすことができる。つまり、変倍されている可能性はあるが、X成分の並びは相似形であると考える。
【0027】
次に、これらのデータが直線上に並んでいるので、その傾きを計算する。この傾きがX成分の変倍率δXを示す(ステップS215)。傾き=1の時は、識別したい帳票とマスタ帳票のX成分は同じであり、傾きが1より小さいと、マスタ帳票のX成分の増加率が識別したい帳票の比べて大きいことになり、マスタ帳票の幅が識別したい帳票の幅に比べて拡大しているといえる。つまり、傾き=(識別したい帳票のページ幅)/(マスタ帳票のページ幅)の関係が成り立つ。
【0028】
ステップS217では、前記の誤差を考慮して、変倍率δXが1±0.028以内であれば変倍がないとみなし、変倍率δXを1にリセットする。
【0029】
次に、ステップS219でこの変倍率δXが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS203で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック幅)/(マスタ帳票のブロック幅)<変倍率δX+0.027+1.9/(マスタ帳票のブロック幅)」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δXのテーブルブロックサイズへの適用可と判断し、処理を終了する。
【0030】
ステップS208_1と同様に、ステップS208_2ではブロック左上角Y座標の比較処理を行う。ステップS208_2の詳細フローチャートを図7に示す。
【0031】
ステップS210では、ブロック情報のY成分の相似形チェック開始する。すなわち、識別したい帳票の左上角Y座標を縦軸に、マスタ帳票の左上角Y座標を横軸にして、相関係数を計算する。
【0032】
ここで、相関係数の算出にあたっては、相関係数の分子の値をチェックし(ステップS212)、相関係数の分子が14以下であれば、別プログラムで変倍率δYを求めている。相関係数の分子が14以下の場合は、信頼できないとして(識別したい帳票のページ高さ)/(マスタ帳票のページ高さ)=変倍率δYとしている(ステップS212_2)。ただし、帳票をはさみ等で切り取った場合にできるズレによる誤差を考慮して、帳票ページ幅の差分が10ピクセル以内であれば、変倍率δYを1.0とする(ステップS212_1、S212_3)。
【0033】
ステップS212にて相関係数の分子が14以上であり、かつ相関係数が0.9996以上あれば、Y成分に関しては相似形と判断する(ステップS214)。
【0034】
一方、ステップS212にて相関係数の分子が14以上であっても、相関係数が0.9996より小さい場合には、相似形でないと判断して相似形チェック処理を終了し、ステップS109へもどる。
【0035】
相関係数が1に近いほど、前記の情報が直線上に並んでいるとみなすことができる。つまり、変倍されている可能性はあるが、Y成分の並びは相似形であると考える。
【0036】
次に、これらのデータが直線上に並んでいるので、その傾きを計算する。この傾きがY成分の変倍率δYを示す(ステップS216)。傾き=1の時は、識別したい帳票とマスタ帳票のY成分は同じであり、傾きが1より小さいと、マスタ帳票のY成分の増加率が識別したい帳票の比べて大きいことになり、マスタ帳票の幅が識別したい帳票の幅に比べて拡大しているといえる。つまり、傾き=(識別したい帳票のページ高さ)/(マスタ帳票のページ高さ)の関係が成り立つ。
【0037】
ステップS218では、誤差を考慮して、変倍率δYが1±0.028以内であれば変倍がないとみなし、変倍率δYを1にリセットする。
【0038】
次に、ステップS220でこの変倍率δYが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS203で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック高さ)/(マスタ帳票のブロック高さ)<変倍率δY+0.027+1.9/(マスタ帳票のブロック高さ)」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δYのテーブルブロックサイズへの適用可と判断し、処理を終了する。
【0039】
ステップS221では、X成分、Y成分両方ともに相似形であり、変倍率(δX、δY)を取得できた帳票のみ、レイアウトが相似形であると判断し、それ以外の場合には、相似でないとして当該処理を終了し、ステップS109にもどる。
【0040】
さて、ステップS207でブロックの個数が2個以下の場合は、図8のブロック個数が2個以下の場合の処理を行う(ステップS301)。
【0041】
すなわち、ステップS301でブロック個数が2個以下の場合の処理が開始され、ステップS302にて識別したい帳票のページ幅とマスター帳票のページ幅を比較し、差分が10ピクセルより大きい場合には、変倍率δX=(識別したい帳票のページ幅)/(マスタ帳票のページ幅)とし、差分が10ピクセル以内の場合には変倍率δX=1.0とする(ステップS302、S303、S304)。
【0042】
さらにステップS305にてこの変倍率δXが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS203で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック幅)/(マスタ帳票のブロック幅)<変倍率δX+0.027+1.9/(マスタ帳票のブロック幅)」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δXのテーブルブロックサイズへの適用可と判断する。
【0043】
同様に、ステップS306にて識別したい帳票のページ高さとマスター帳票のページ高さを比較し、差分が10ピクセルより大きい場合には、変倍率δY=(識別したい帳票のページ高さ)/(マスタ帳票のページ高さ)とし、差分が10ピクセル以内の場合には変倍率δY=1.0とする(ステップS306、S307、S308)。
【0044】
さらにステップS309にてこの変倍率δYが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS203で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック高さ)/(マスタ帳票のブロック高さ)<変倍率δY+0.027+1.9/(マスタ帳票のブロック高さ)」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似形でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δYのテーブルブロックサイズへの適用可と判断する。
【0045】
ステップS305およびステップS309にてテーブルブロックサイズへの適用可能と判断された変倍率(δX、δY)について、ステップS310で、ブロックの左上角、「マスタ帳票のX座標×変倍率(δX)≦識別したい帳票のX座標±10、かつマスタ帳票のY座標×変倍率(δY)≦識別したい帳票のY座標±10」の条件式を満たしていれば、識別したい帳票とマスタ帳票のレイアウトは相似形であると判断し、帳票レイアウト相似形チェック処理のステップS223へ進む(ステップS311)。また、条件を満たさない場合には、相似形でないとして当該処理を終了し、ステップS109にもどる。
【0046】
ステップS221またはステップS311にて相似形であると判断された場合には、ステップS223でページレイアウトの変倍によるペナルティを以下の式で決定する。
【0047】
【数2】
Figure 0004046941
【0048】
PX、PYは各成分の変倍によるペナルティ、PXYは、両成分の変形度によるペナルティをあらわす。
【0049】
変倍率δX、δYが1ならば、PX、PYは0である。つまり、変倍していないのでペナルティを課せないことを意味する。
【0050】
PXYは、X、Y成分が均等に変倍したときには0になるし、X成分が1より大きく、Y成分が1より小さく変倍するように、変倍によるレイアウトの変形が大きくなればペナルティが大きくなるように調整する式である。
【0051】
レイアウトが相似形である場合は、以上の計算式でペナルティを与えて、従来のページ書式のマッチングによるペナルティを0とする。逆に、相似形でない場合は、従来通りのページ書式のマッチングによるペナルティを与える。
【0052】
ページ書式のマッチングの次に、テーブルブロックの詳細構造、その次にテキストブロックの文字比較を行うが、これらのブロックを検出する際には、相似形チェックで求めた変倍率を使用した計算式を使用する。
【0053】
例えば、図2の(A)、(B)に示すような識別したい帳票とマスタ帳票について、本実施形態による帳票レイアウト相似形チェック処理で、相似形だと判定され、変倍率(δX、δY)が得られたとする。
【0054】
マスタ帳票の(X1、Y1)のブロックに対応する識別したい帳票のブロックは、(δX×X1、δY×Y1)で正確な位置を求めることができる。
【0055】
この計算式で検出したブロックがテーブルブロックの場合は、テーブルの各罫線情報が帳票ページの変倍率と同様に変倍されているので、マスタ帳票の罫線情報(Lx、Ly)を(Lx×δX、Ly×δy)に変倍して、識別したい帳票の罫線情報と比較することで、正確なテーブルブロックの詳細構造のマッチングを行うことができる。
【0056】
以上、記述した中での数値は、数多くの帳票サンプルを使用した統計値であり、帳票識別の環境によっては、変更してもかまわない。
【0057】
[実施形態2]
原点ずれが生じると、変倍のみでは正しく認識できない恐れがある。
【0058】
以下に図面を参照して本発明の実施形態のうち、識別したい帳票とマスタ帳票の原点位置がずれた場合の識別処理について詳細を説明する。
【0059】
なお、帳票書式識別装置は図1と同様のものを使用し、図3と同様の書式データを作成する。したがって、図1と図3の内容は実施形態1と重複することから説明は省略する。
【0060】
本実施形態の帳票書式識別装置、特に図1のプロセッサ12が実行する各種制御処理のうち、実施形態1と異なる処理を中心に説明する。
【0061】
本実施形態の帳票レイアウトの相似形チェックは、ステップS108にて行う。図10〜図13を使用して、詳細にその処理を説明する。
【0062】
図10のステップS403からS407までは、図5のステップS203からS207までと同じ処理を行う。
【0063】
ステップS408_1ではブロック左上角X座標の比較処理を行う。この処理の詳細を図11を参照して説明する。
【0064】
すなわち、ステップS409では、ブロック情報のX成分の相似形チェックをすべく、識別したい帳票の左上角X座標を縦軸に、マスタ帳票の左上角X座標を横軸にして、相関係数を計算する。
【0065】
ここで、相関係数の算出にあたっては、相関係数の分子の値をチェックし(ステップS411)、相関係数の分子が14以下であれば、別プログラムで変倍率δXを求めている。これは、相関係数の誤差が大きくなるからで、詳細は実施形態1と同じであるため、説明は省略する。
【0066】
相関係数の分子が14以下の場合は、信頼できないとして(識別したい帳票のページ幅)/(マスタ帳票のページ幅)=変倍率δXとしている(ステップS411_2)。ただし、帳票をはさみ等で切り取った場合にできるズレによる誤差を考慮して、帳票ページ幅の差分が10ピクセル以内であれば、変倍率δXを1.0とする(ステップS411_1、S411_3)。
【0067】
上記でもとめた変倍率δXを用いて、ステップS411_4にて、原点ずれ量shiftXを「(識別したい帳票の先頭ブロックの左上角X座標)−(マスタ帳票の先頭ブロックの左上角X座標)×変倍率δX」より算出する。
【0068】
ステップS411にて相関係数の分子が14以上であり、かつ相関係数が0.9996以上あれば、X成分に関しては相似形と判断する(ステップS413)。
【0069】
一方、ステップS411にて相関係数の分子が14以上であっても、相関係数が0.9996より小さい場合には、相似形でないと判断して相似形チェック処理を終了し、ステップS109へもどる。
【0070】
相関係数が1に近いほど、前記の情報が直線上に並んでいるとみなすことができる。つまり、変倍されている可能性はあるが、X成分の並びは相似形であると考える。
【0071】
次に、これらのデータが直線上に並んでいるので、その傾きを計算する(回帰直線の傾き)。この傾きがX成分の変倍率δXを示す(ステップS415)。傾き=1の時は、識別したい帳票とマスタ帳票のX成分は同じであり、傾きが1より小さいと、マスタ帳票のX成分の増加率が識別したい帳票の比べて大きいことになり、マスタ帳票の幅が識別したい帳票の幅に比べて拡大しているといえる。一方、回帰直線の縦軸との切片がX座標の原点ずれ量shiftXになる(ステップS417)。
【0072】
ステップS419でこの変倍率δXが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS203で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック幅)/(マスタ帳票のブロック幅)=変倍率δX」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δXのテーブルブロックサイズへの適用可と判断し、処理を終了する。
【0073】
ステップS408_1と同様に、ステップS408_2では、ブロック左上角Y座標の比較処理を行う。ステップS408_2の詳細フローチャートを図12に示す。
【0074】
すなわち、ステップS410では、ブロック情報のX成分の相似形チェックをすべく、識別したい帳票の左上角Y座標を縦軸に、マスタ帳票の左上角Y座標を横軸にして、相関係数を計算する。
【0075】
ここで、相関係数の算出にあたっては、相関係数の分子の値をチェックし(ステップS412)、相関係数の分子が14以下であれば、別プログラムで変倍率δYを求めている。これは、相関係数の誤差が大きくなるからで、詳細は実施形態1と同じであるため、説明は省略する。
【0076】
相関係数の分子が14以下の場合は、信頼できないとして(識別したい帳票のページ高さ)/(マスタ帳票のページ高さ)=変倍率δYとしている(ステップS412_2)。ただし、帳票をはさみ等で切り取った場合にできるズレによる誤差を考慮して、帳票ページ幅の差分が10ピクセル以内であれば、変倍率δYを1とする(ステップS412_1、S412_3)。
【0077】
上記でもとめた変倍率δYを用いて、ステップS412_4にて、原点ずれ量shiftYを「(識別したい帳票の先頭ブロックの左上角Y座標)−(マスタ帳票の先頭ブロックの左上角Y座標)×変倍率δY」より算出する。
【0078】
ステップS412にて相関係数の分子が14以上であり、かつ相関係数が0.9996以上あれば、Y成分に関しては相似形と判断する(ステップS414)。
【0079】
一方、ステップS412にて相関係数の分子が14以上であっても、相関係数が0.9996より小さい場合には、相似形でないと判断して相似形チェック処理を終了し、ステップS109へもどる。
【0080】
相関係数が1に近いほど、前記の情報が直線上に並んでいるとみなすことができる。つまり、変倍されている可能性はあるが、Y成分の並びは相似形であると考える。
【0081】
次に、これらのデータが直線上に並んでいるので、その傾きを計算する(回帰直線の傾き)。この傾きがY成分の変倍率δYを示す(ステップS416)。傾き=1の時は、識別したい帳票とマスタ帳票のY成分は同じであり、傾きが1より小さいと、マスタ帳票のY成分の増加率が識別したい帳票の比べて大きいことになり、マスタ帳票の高さが識別したい帳票の高さに比べて拡大しているといえる。一方、回帰直線の縦軸との切片がY座標の原点ずれ量shiftYになる(ステップS418)。
【0082】
ステップS420でこの変倍率δYが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS203で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック高さ)/(マスタ帳票のブロック高さ)=変倍率δY」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δYのテーブルブロックサイズへの適用可と判断し、処理を終了する。
【0083】
ステップS421では、X成分、Y成分両方ともに相似形であり、変倍率(δX、δY)を取得できた帳票のみ、レイアウトが相似形であると判断し、それ以外の場合には相似でないとして、当該処理を終了し、ステップS109にもどる。
【0084】
さて、ステップS407でブロックの個数が2個以下の場合は、図13のブロック個数が2個以下の場合の処理を行う(ステップS501)。
【0085】
すなわち、ステップS501でブロック個数が2個以下の場合の処理が開始され、ステップS502にて識別したい帳票のページ幅とマスター帳票のページ幅を比較し、差分が10ピクセルより大きい場合には、変倍率δX=(識別したい帳票のページ幅)/(マスタ帳票のページ幅)とし、差分が10ピクセル以内の場合には変倍率δX=1.0とする(ステップS502、S503、S504)。
【0086】
さらにステップS505にてこの変倍率δXが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS403で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック幅)/(マスタ帳票のブロック幅)=変倍率δX」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δXのテーブルブロックサイズへの適用可と判断する。
【0087】
同様に、ステップS507にて識別したい帳票のページ高さとマスター帳票のページ高さを比較し、差分が10ピクセルより大きい場合には、変倍率δY=(識別したい帳票のページ高さ)/(マスタ帳票のページ高さ)とし、差分が10ピクセル以内の場合には変倍率δY=1.0とする(ステップS507、S508、S509)。
【0088】
さらにステップS510にてこの変倍率δYが、テーブルブロックのサイズまで適用できるかをチェックしている。すなわち、ステップS403で整列した帳票のブロック情報を順に1個ずつ、「(識別したい帳票のブロック高さ)/(マスタ帳票のブロック高さ)=変倍率δY」を満たすかどうかをチェックし、満たさない場合には、ブロックレイアウトは相似形でないとして当該処理を終了し、ステップS109にもどる。また、満たす場合には、変倍率δYのテーブルブロックサイズへの適用可と判断する。
【0089】
ステップS506およびステップS511にてテーブルブロックサイズへの適用可能と判断された変倍率(δX、δY)について、ステップS512で、ブロックの左上角が、「マスタ帳票のX座標×変倍率(δX)+原点ずれ量shiftX≦識別したい帳票のX座標±10、かつマスタ帳票のY座標×変倍率(δY)+原点ずれ量shiftY≦識別したい帳票のY座標±10」の条件式を満たしていれば、識別したい帳票とマスタ帳票のレイアウトは相似形であると判断し、帳票レイアウト相似形チェック処理のステップS422へ進む(ステップS513)。また、条件を満たさない場合には、相似形でないとして当該処理を終了し、ステップS109にもどる。
【0090】
ステップS421またはステップS513にて相似形であると判断された場合には、ステップS422でページレイアウトの変倍によるペナルティを以下の式で決定する。
【0091】
【数3】
Figure 0004046941
PX、PYは各成分の変倍によるペナルティ、PXYは、両成分の変形度によるペナルティをあらわす。
【0092】
変倍率δX、δYが1ならば、PX、PYは0である。つまり、変倍していないのでペナルティを課せないことを意味する。
【0093】
PXYは、X、Y成分が均等に変倍したときには0になるし、X成分が1より大きく、Y成分が1より小さく変倍するように、変倍によるレイアウトの変形が大きくなればペナルティが大きくなるように調整する式である。
【0094】
また、原点ずれ量によるペナルティは、PX1=原点ずれ量(shiftX)×0.22、PY1=原点ずれ量(shiftY)×0.22よりもとめる。
【0095】
レイアウトが相似形である場合は、以上の計算式でペナルティを与えて、従来のページ書式のマッチングによるペナルティを0とする。逆に、相似形でない場合は、従来通りのページ書式のマッチングによるペナルティを与える。
【0096】
ページ書式のマッチングの次に、テーブルブロックの詳細構造、その次にテキスト・ブロックの文字比較を行うが、これらのブロックを検出する際には、相似形チェックで求めた変倍率を使用した計算式を使用する。
【0097】
例えば、図9のような帳票AとBがあり、帳票Aが識別したい帳票、帳票Bがマスタ帳票と仮定する。
【0098】
本実施形態による帳票レイアウト相似形チェック処理で、相似形だと判定され、変倍率(δX、δY)、原点ずれ量(shiftX、shiftY)が得られたとする。
【0099】
帳票Bの(X1、Y1)のブロックに対応する帳票Aのブロックは、(δX×X1+shiftX、δY×Y1+shiftY)で正確な位置を求めることができる。
【0100】
この計算式で検出したブロックがテーブルブロックの場合は、テーブルの各罫線情報が帳票ページの変倍率と同様に変倍されているので、帳票Bの罫線情報(Lx、Ly)を(Lx×δX、Ly×δy)に変倍して、帳票Aの罫線情報と比較することで、正確なテーブルブロックの詳細構造のマッチングを行うことができる。罫線情報は、テーブルブロックの左上角を原点にしているので、帳票ページ原点ずれ量は、テーブルブロックの詳細構造には影響を与えない。
【0101】
なお、上述した中での数値は、数多くの帳票サンプルを使用した統計値であり、帳票識別の環境によっては、変更してもかまわない。
【0102】
[実施形態3]
図14に示すように、レイアウト構造が変倍されている場合には、その帳票内のテーブルの罫線情報も同じ率で変倍されている。従って、テーブルブロックの詳細構造である罫線情報の比較に、この変倍率を使用することで、より正確な詳細構造の比較を行うことができる。
【0103】
罫線情報をLiとすれば、識別したい帳票のテーブルブロックの詳細構造Li = ( マスタ帳票のテーブルの詳細構造Li )×変倍率(δX、δY)の関係が成り立つ。
【0104】
テキストブロックの位置の検出する際に、変倍率(δX、δY)を使用することで、比較すべき文字列を正確に知ることができる。しかし、文字の比較は、単なる文字コードの照合だから、変倍率(δX、δY)は不要ではあるが、ペナルティ要素として、文字の大きさを取り入れている場合には、マスタ帳票の文字の大きさに変倍率をかけることで、より正確なマッチングをおこなえる。
【0105】
[実施形態4]
識別したい帳票の一部分だけ文字認識を行うために、帳票認識を利用する方法がある。図14(A)、(B)に示すように、マスタ帳票に文字認識を行う領域をあらかじめ設定しているとする。図14(A)、(B)では、網掛け部分の銀行口座に登録している氏名欄が文字認識する領域である。
【0106】
まず、識別したい帳票を帳票認識することで、マスタ帳票のIDを取得できる。そのIDには、文字認識する領域が対応づけられている。本実施形態では、帳票のX、Y方向の変倍率と帳票ページ原点ずれ量をIDとともに出力することができるので、識別したい帳票の文字認識する領域は、下記の式から修正することができる。
【0107】
IDに対応つけてマスタに登録している文字認識領域を左上角座標(X、Y)、幅W、高さHとする。
【0108】
受け取った変倍率が(δX、δY)、原点ずれ量(shiftX、shiftY)であれば、識別したい帳票の文字認識領域は、左上角座標(X×δX+shiftX、Y×δY+shiftY)、幅(W×δX)、高さ(H×δY)となる。
【0109】
【他の実施形態】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0110】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0111】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0112】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0113】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0114】
【発明の効果】
以上説明したように、本発明によれば、異なる変倍率で拡大または縮小された複数の文書が混在する環境でも文書書式を正しく識別することができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係わる帳票識別装置の概略構成を示すブロック図である。
【図2】本発明の相似形帳票の一例を示す図である。
【図3】本発明のマッチング対象となる帳票の一例を示す図である。
【図4】本発明の処理の概要を示すフローチャートである。
【図5】本発明の相似形チェック処理を示すフローチャートである。
【図6】本発明の相似形チェック処理で、ブロック左上角X座標の比較処理を示すフローチャートである。
【図7】本発明の相似形チェック処理で、ブロック左上角Y座標の比較処理を示すフローチャートである。
【図8】本発明の相似形チェック処理で、ブロック個数が2個以下の場合の処理を示すフローチャートである。
【図9】本発明の相似形帳票の一例を示す図である。
【図10】本発明の相似形チェック処理を示すフローチャートである。
【図11】本発明の相似形チェック処理で、ブロック左上角X座標の比較処理を示すフローチャートである。
【図12】本発明の相似形チェック処理で、ブロック左上角Y座標の比較処理を示すフローチャートである。
【図13】本発明の相似形チェック処理で、ブロック個数が2個以下の場合の処理を示すフローチャートである。
【図14】本発明の相似形帳票の一例を示す図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to form identification that enables automatic classification when constructing an apparatus for classifying each form in a field for processing a large amount of forms.
[0002]
[Prior art]
In order to read information described in a form with an optical character recognition device such as OCR, it is necessary to identify the form of the form and accurately grasp the information description position in the form. As a method of identifying the form format, there is a method of comparing a master form registered in advance with a table or character in the form of the form to be identified, and extracting a master form that matches the form to be identified.
[0003]
To compare tables and characters in a form, detect the block of the master form at the closest coordinate position to the table block and text block of the form to be identified, and match the detailed information for each table block and text block. The method is common. To detect the block position, the coordinate value of the upper left corner position of each block is used with the upper left corner of the form page as the origin.
[0004]
[Problems to be solved by the invention]
However, when a form to be identified is transmitted by FAX or the like, the form to be identified may be enlarged or reduced due to paper feed restrictions such as FAX. Then, as shown in FIGS. 2A and 2B, when the form A to be identified that is enlarged or reduced is compared with the master form B, the upper left corner position of each block of the form to be identified is scaled. Therefore, the master form block corresponding to the form block to be identified cannot be accurately detected. Also, in the detailed structure matching for each block, the size of the table block and the position information of the ruled line in the table are also scaled in the same manner as described above, so even in the similar table block, the table structure matching calculation is different. It will be identified as a table. As a result, the enlarged or reduced form has a very low similarity and is judged as a different form.
[0005]
The present invention has been made in view of the above problems, and an object of the present invention is to correctly identify a document format even in an environment in which a plurality of documents enlarged or reduced at different scaling factors are mixed.
[0006]
[Means for Solving the Problems]
  In order to solve this problem, for example, a document format identification device of the present invention has the following configuration. That is,
  A document format identification device for identifying a document format of a document image,
  Creating means for creating document format data including the position coordinates of each of a plurality of blocks extracted from a document image whose document format is to be identified;
  By comparing the document format data of the document image to be identified created by the creation unit with the document format data of the master document image stored in the storage unit, it is determined whether there is a similarity relationship. And similar information extracting means for extracting similar information including the determination result and the scaling factor between the document image to be identified that has been determined to have a similar relationship and the master document image,
  The document format of the document image to be identified is calculated by calculating the similarity of the document image to be identified to the master document image based on the similarity information extracted by the similarity information extraction means and the document format data. Identifying means for identifying,
  The similarity information extracting means includes:
  When the number of blocks extracted from the document image to be identified and the number of blocks of the master document image are equal to or greater than a predetermined number,
    X coordinate value sequence obtained by aligning X coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order(This coordinate value sequence is Yi, and its average value is Yave)And an X coordinate value sequence obtained by aligning X coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order(This coordinate value sequence is Xi, and the average value is Xave.)The correlation coefficient between,
{Σ (Xi-Xave) (Yi-Yave)} / {((Σ (Xi-Xave) ^ 2) × (Σ (Yi-Yave) ^ 2)) ^ (1/2)}
UsingSeeking
    When the obtained correlation coefficient is larger than a predetermined value, an X coordinate value sequence relating to the document image to be identified and an X coordinate value sequence relating to the master document imageSlope ofWhile determining the scaling factor in the X-coordinate direction based on the above, if the calculated correlation coefficient is less than a predetermined value, it is determined that there is no similarity relationship,
    Further, a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order.(This coordinate value string is Yi ′, and its average value is Yave ′)And a Y-coordinate value sequence obtained by aligning Y-coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order(This coordinate value sequence is Xi ′, and the average value is Xave ′)The correlation coefficient between,
{Σ (Xi′−Xave ′) (Yi′−Yave ′)} / {((Σ (Xi′−Xave ′) ^ 2) × (Σ (Yi′−Yave ′) ^ 2)) ^ (1 / 2)}
UsingSeeking
    When the obtained correlation coefficient is larger than a predetermined value, the Y coordinate value sequence relating to the document image to be identified and the Y coordinate value sequence relating to the master document imageSlope ofOn the other hand, the scaling factor in the Y-coordinate direction is obtained, and if the obtained correlation coefficient is a predetermined value or less, it is determined that there is no similarity relationship,
    It is characterized in that it is determined that there is a similarity when both the scaling factor in the X coordinate direction and the scaling factor in the Y coordinate direction are obtained.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
[Embodiment 1]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0008]
FIG. 1 is a block diagram showing a schematic configuration of a form format automatic identification apparatus according to an embodiment of the present invention.
[0009]
A scanner 11 optically reads a form image and outputs form image data. A processor 12 executes a control program 15d stored in the memory 15, and functions as an image feature amount extraction unit 12a, a format data creation unit 12b, and a similarity calculation unit 12c. The image read by the scanner 11 is stored in the memory 15 as a form image 15c. The form image 15c is binarized and sent to the image feature amount extraction unit 12a, and is classified into blocks such as a table, text, and picture by a technique such as a black dot histogram method. For the table block, the detailed structure of the table is obtained by a ruled line tracking method. In addition, the text block is further converted into a character code.
[0010]
From the information thus obtained, the form data creation means 12 b creates the page format and table format of the form shown in FIG. 3 and stores them in the memory 15 and the disk 14. FIG. 3 shows the form sample 31 after being extracted by the image feature quantity extraction means 12a. Three table blocks (311 to 313) and one picture block (314) are extracted. The form format data 32 is hierarchically stored in a page format 321 and a table format 322. The page format 321 has a form page width and form page height in the header part 321a.
[0011]
The data portion 322a stores various information for each block. For example, when the block attribute is a table, the block left end position, the block upper end position as position information, and the block width and block height information as size information are owned. It also has a value obtained by dividing the area of the block to be used for calculating the distance and the similarity from the page origin to be used for picking up the comparison form by all table blocks. Furthermore, it owns a table ID to link with the detailed table information. A detailed structure of the cell of the table linked to this table ID is shown in a table format 322. It owns the number of cells in the table, cell position, and size information.
[0012]
In the form format identification device, when instructions such as form registration and form identification are input from the keyboard, the processor 12 performs processing corresponding to each instruction using the format data 32 described above. Then, the identification result is displayed on the display 16.
[0013]
With reference to FIG. 4, operations of various control processes executed by the form format identification device of the present embodiment, in particular, the processor 12 of FIG. 1 will be described.
[0014]
FIG. 4 shows a schematic flowchart of format identification processing by the form format identification device. In step S101, a form to be identified is read by a scanner, and in step S103, feature data such as coordinate values of table blocks and text blocks are extracted. In step S105, these feature data are converted into format data for calculating the similarity. Based on this format data, in step S107, the forms that may be the same form as the format data of the form to be identified are narrowed down from the master forms. The format similarity is calculated for all the forms narrowed down in step S109 (step S111). As a result of the calculation, a predetermined number of master forms with higher similarity are set as candidates for similar forms, and their identification codes and similarities are output (step S113).
[0015]
The similar form check of the form layout of the present invention is performed in step S108. The process will be described in detail with reference to FIGS.
[0016]
In step S108, the form layout similarity check process is started, and in step S203, the frames and table blocks of the form and master form to be identified are aligned. In this embodiment, block information is arranged in ascending order of the X coordinate at the upper left corner of the block. However, when the X component of the upper left corner coordinate of the block is almost at the same position as shown in FIG. 3, it is not always possible to associate the form of the block information of the form to be identified with the block information of the master form due to the error of the X coordinate. Even if the block information of the form to be identified is aligned as Table 1 (311) → Table 2 (312) → Picture block (314) → Table block 3 (313), the block information of the master form is Table 2 (312) → Table. There is a sufficient possibility of alignment such as 1 (311) → picture block (314) → table block 3 (313). Therefore, the difference blocks whose X coordinate positions are within 5 pixels are separately arranged in ascending order of the Y component. As a result, it is guaranteed that the block information of the form to be identified and the master form are arranged in the order of table 1 (311) → table 2 (312) → picture block (314) → table block 3 (313).
[0017]
In step S205, it is checked whether the number of blocks to be compared is the same. If the number of blocks is different, it is determined that the shape is not similar, the form layout similarity check process is terminated, and the process returns to step S109.
[0018]
If the number of blocks is the same in step S205, it is checked in step S207 whether the number of blocks is three or more. This is because the similarity determination program differs between three or more and two or less.
[0019]
If there are three or more, the process proceeds to step S208_1, and the block upper left corner X coordinate comparison process is performed. Details of step S208_1 will be described with reference to the flowchart of FIG.
[0020]
In step S209, the similarity check process of the X component of the block information is performed. That is, the correlation coefficient is calculated from the following equation with the upper left corner X coordinate of the form to be identified as the vertical axis and the upper left corner X coordinate of the master form as the horizontal axis.
[0021]
[Expression 1]
Figure 0004046941
[0022]
Here, when calculating the correlation coefficient, the value of the numerator of the correlation coefficient in the above equation is checked (step S211). If the numerator of the correlation coefficient is 14 or less, the scaling factor δX is obtained by another program. Yes. This is because the error of the correlation coefficient increases as described below.
[0023]
In the form of FIG. 3, since the X coordinates of the upper left corners of the table block 1 (311), the table block 2 (312), and the picture block 314 are almost the same position, both Xi and Yi are values close to Xave and Yave. . Therefore, when Xi and Yi fluctuate due to errors, the fluctuation of the correlation coefficient also increases. For this reason, the reliability of the correlation coefficient decreases in an environment where the errors of Xi and Yi are considered to be large. Error factors include errors that occur when reading with a scanner, errors that occur when image processing such as tilt correction, and matching (matching is performed by normalizing all images to 100 dpi). An error that occurs when resolution conversion is performed. In consideration of these errors, if the numerator of the correlation coefficient in the above equation is 14 or less, it is determined that it is not reliable (page width of the form to be identified) / (page width of the master form) = magnification factor δX (step S211_2). However, in consideration of an error caused by deviation when a form is cut with scissors or the like, if the difference in form page width is within 10 pixels, the scaling factor δX is set to 1.0 (steps S211_1 and S211_3).
[0024]
In step S211, if the numerator of the correlation coefficient is 14 or more and the correlation coefficient is 0.9996 or more, the X component is determined to be similar (step S213).
[0025]
On the other hand, if the numerator of the correlation coefficient is 14 or more in step S211, if the correlation coefficient is smaller than 0.9996, it is determined that it is not a similar shape, and the similar shape check process is terminated, and the process proceeds to step S109. Return.
[0026]
As the correlation coefficient is closer to 1, it can be considered that the information is arranged in a straight line. That is, although there is a possibility of scaling, the arrangement of the X components is considered to be similar.
[0027]
Next, since these data are arranged on a straight line, the inclination is calculated. This inclination indicates the magnification δX of the X component (step S215). When the slope is 1, the X component of the form to be identified and the master form are the same. When the slope is less than 1, the increase rate of the X component of the master form is larger than that of the form to be identified. It can be said that the width of is expanded compared to the width of the form to be identified. That is, the relationship of inclination = (page width of the form to be identified) / (page width of the master form) is established.
[0028]
In step S217, considering the error, if the magnification δX is within 1 ± 0.028, it is considered that there is no magnification, and the magnification δX is reset to 1.
[0029]
In step S219, it is checked whether the scaling factor δX can be applied up to the table block size. That is, the block information of the forms arranged in step S203 is sequentially arranged as follows: “(block width of form to be identified) / (block width of master form) <magnification ratio δX + 0.027 + 1.9 / (block width of master form) "Is satisfied. If not, the block layout is not similar and the process is terminated, and the process returns to step S109. If the condition is satisfied, it is determined that the scaling factor δX can be applied to the table block size, and the process ends.
[0030]
Similar to step S208_1, block left upper corner Y coordinate comparison processing is performed in step S208_2. A detailed flowchart of step S208_2 is shown in FIG.
[0031]
In step S210, the similarity check of the Y component of the block information is started. That is, the correlation coefficient is calculated with the upper left corner Y coordinate of the form to be identified as the vertical axis and the upper left corner Y coordinate of the master form as the horizontal axis.
[0032]
Here, in calculating the correlation coefficient, the value of the numerator of the correlation coefficient is checked (step S212), and if the numerator of the correlation coefficient is 14 or less, the scaling factor δY is obtained by another program. If the numerator of the correlation coefficient is 14 or less, it is determined that it is not reliable (page height of the form to be identified) / (page height of the master form) = variation factor δY (step S212_2). However, in consideration of an error caused by deviation when a form is cut with scissors or the like, if the difference in form page width is within 10 pixels, the scaling factor δY is set to 1.0 (steps S212_1 and S212_3).
[0033]
If the numerator of the correlation coefficient is 14 or more and the correlation coefficient is 0.9996 or more in step S212, the Y component is determined to be similar (step S214).
[0034]
On the other hand, even if the numerator of the correlation coefficient is 14 or more in step S212, if the correlation coefficient is smaller than 0.9996, it is determined that it is not a similar shape, and the similar shape check process is terminated, and the process proceeds to step S109. Return.
[0035]
As the correlation coefficient is closer to 1, it can be considered that the information is arranged in a straight line. That is, although there is a possibility that the magnification has been changed, the arrangement of the Y components is considered to be similar.
[0036]
Next, since these data are arranged on a straight line, the inclination is calculated. This inclination indicates the scaling factor δY of the Y component (step S216). When the slope = 1, the Y component of the form to be identified and the master form are the same. When the slope is smaller than 1, the increase rate of the Y component of the master form is larger than that of the form to be identified. It can be said that the width of is expanded compared to the width of the form to be identified. That is, the relationship of inclination = (page height of the form to be identified) / (page height of the master form) is established.
[0037]
In step S218, considering the error, if the magnification δY is within 1 ± 0.028, it is regarded that there is no magnification, and the magnification δY is reset to 1.
[0038]
Next, in step S220, it is checked whether the scaling factor δY can be applied up to the size of the table block. That is, the block information of the forms arranged in step S203 is sequentially ordered, “(block height of the form to be identified) / (block height of the master form) <magnification δY + 0.027 + 1.9 / (block of master form) It is checked whether or not (height) ”is satisfied. If not, the block layout is not similar and the process is terminated, and the process returns to step S109. If it satisfies, it is determined that the scaling factor δY can be applied to the table block size, and the process is terminated.
[0039]
In step S221, both the X component and the Y component are similar, and it is determined that the layout is similar only for the form for which the scaling factors (δX, δY) can be obtained. The process ends, and the process returns to step S109.
[0040]
If the number of blocks is two or less in step S207, the processing in the case where the number of blocks is two or less in FIG. 8 is performed (step S301).
[0041]
That is, the processing when the number of blocks is 2 or less is started in step S301, and the page width of the form to be identified is compared with the page width of the master form in step S302. The magnification δX = (page width of the form to be identified) / (page width of the master form), and if the difference is within 10 pixels, the magnification δX = 1.0 (steps S302, S303, S304).
[0042]
In step S305, it is checked whether the scaling factor δX can be applied up to the size of the table block. That is, the block information of the forms arranged in step S203 is sequentially arranged as follows: “(block width of form to be identified) / (block width of master form) <magnification ratio δX + 0.027 + 1.9 / (block width of master form) "Is satisfied. If not, the block layout is not similar and the process is terminated, and the process returns to step S109. If it satisfies, it is determined that the scaling factor δX can be applied to the table block size.
[0043]
Similarly, in step S306, the page height of the form to be identified is compared with the page height of the master form. If the difference is larger than 10 pixels, the scaling factor δY = (page height of the form to be identified) / (master If the difference is within 10 pixels, the scaling factor δY is set to 1.0 (steps S306, S307, and S308).
[0044]
In step S309, it is checked whether the scaling factor δY can be applied up to the size of the table block. That is, the block information of the forms arranged in step S203 is sequentially ordered, “(block height of the form to be identified) / (block height of the master form) <magnification δY + 0.027 + 1.9 / (block of master form) (Height) ”is checked. If not, the block layout is not similar and the process is terminated, and the process returns to step S109. If it satisfies, it is determined that the scaling factor δY is applicable to the table block size.
[0045]
For the scaling factors (δX, δY) determined to be applicable to the table block size in step S305 and step S309, in step S310, the upper left corner of the block, “X coordinate of master form × magnification (δX) ≦ identification The layout of the form to be identified and the master form is similar if the X coordinate ± 10 of the form to be satisfied and the conditional expression of the Y coordinate of the master form x scaling factor (δY) ≦ the Y coordinate of the form to be identified ± 10 are satisfied. The process proceeds to step S223 of the form layout similarity check process (step S311). If the condition is not satisfied, it is determined that the shape is not similar and the process is terminated, and the process returns to step S109.
[0046]
If it is determined in step S221 or step S311 that the shape is similar, a penalty due to scaling of the page layout is determined by the following equation in step S223.
[0047]
[Expression 2]
Figure 0004046941
[0048]
PX and PY represent a penalty due to scaling of each component, and PXY represents a penalty due to the degree of deformation of both components.
[0049]
If the magnifications δX and δY are 1, PX and PY are 0. In other words, it means that no penalty is imposed because it has not been scaled.
[0050]
PXY is 0 when the X and Y components are scaled uniformly, and the penalty is increased if the layout deformation due to scaling is large so that the X component is scaled larger than 1 and the Y component scaled smaller than 1. It is a formula that adjusts to increase.
[0051]
When the layout is similar, a penalty is given by the above formula, and the penalty due to matching of the conventional page format is set to zero. On the other hand, if it is not similar, a penalty is imposed by matching the conventional page format.
[0052]
After matching the page format, the detailed structure of the table block is followed by the text comparison of the text block. When these blocks are detected, a calculation formula using the scaling factor obtained by the similarity check is used. use.
[0053]
For example, the forms and master forms to be identified as shown in FIGS. 2A and 2B are determined to be similar in the form layout similarity check process according to this embodiment, and the scaling factors (δX, δY) Is obtained.
[0054]
The exact position of the block of the form to be identified corresponding to the (X1, Y1) block of the master form can be obtained by (δX × X1, δY × Y1).
[0055]
When the block detected by this calculation formula is a table block, each ruled line information of the table is scaled in the same way as the scaling ratio of the form page, so the ruled line information (Lx, Ly) of the master form is expressed as (Lx × δX). , Ly × δy) and comparing with the ruled line information of the form to be identified, it is possible to accurately match the detailed structure of the table block.
[0056]
The numerical values described above are statistical values using a large number of form samples, and may be changed depending on the form identification environment.
[0057]
[Embodiment 2]
If the origin shift occurs, there is a possibility that it cannot be recognized correctly only by zooming.
[0058]
In the following, with reference to the drawings, the details of the identification processing in the embodiment of the present invention when the origin position of the form to be identified and the master form are shifted will be described.
[0059]
It should be noted that the form format identification device uses the same format as in FIG. 1 and creates format data similar to that in FIG. Accordingly, the contents of FIG. 1 and FIG.
[0060]
Of the various control processes executed by the form format identification device of the present embodiment, in particular, the processor 12 of FIG. 1, processes different from those of the first embodiment will be mainly described.
[0061]
The similar form check of the form layout of this embodiment is performed in step S108. The process will be described in detail with reference to FIGS.
[0062]
Steps S403 to S407 in FIG. 10 are the same as steps S203 to S207 in FIG.
[0063]
In step S408_1, the block upper left corner X coordinate comparison process is performed. Details of this processing will be described with reference to FIG.
[0064]
That is, in step S409, in order to check the similarity of the X component of the block information, the correlation coefficient is calculated with the upper left corner X coordinate of the form to be identified as the vertical axis and the upper left corner X coordinate of the master form as the horizontal axis. To do.
[0065]
Here, in calculating the correlation coefficient, the value of the numerator of the correlation coefficient is checked (step S411). If the numerator of the correlation coefficient is 14 or less, the scaling factor δX is obtained by another program. This is because the error of the correlation coefficient becomes large, and the details are the same as those of the first embodiment, and thus the description thereof is omitted.
[0066]
If the numerator of the correlation coefficient is 14 or less, it is determined that it is not reliable (page width of the form to be identified) / (page width of the master form) = variable magnification δX (step S411_2). However, in consideration of an error caused by deviation when a form is cut with scissors or the like, if the difference in form page width is within 10 pixels, the scaling factor δX is set to 1.0 (steps S411_1 and S411_3).
[0067]
In step S411_4, using the scaling factor δX stopped as described above, the origin shift amount shiftX is set to “(upper left corner X coordinate of the first block of the form to be identified) − (upper left corner X coordinate of the first block of the master form) × variable. Calculated from “Magnification δX”.
[0068]
If the numerator of the correlation coefficient is 14 or more and the correlation coefficient is 0.9996 or more in step S411, it is determined that the X component is similar (step S413).
[0069]
On the other hand, if the numerator of the correlation coefficient is 14 or more in step S411, but the correlation coefficient is smaller than 0.9996, it is determined that it is not a similar shape, and the similar shape check process is terminated, and the process proceeds to step S109. Return.
[0070]
As the correlation coefficient is closer to 1, it can be considered that the information is arranged in a straight line. That is, although there is a possibility of scaling, the arrangement of the X components is considered to be similar.
[0071]
Next, since these data are arranged on a straight line, the slope is calculated (the slope of the regression line). This inclination indicates the magnification δX of the X component (step S415). When the slope is 1, the X component of the form to be identified and the master form are the same. When the slope is less than 1, the increase rate of the X component of the master form is larger than that of the form to be identified. It can be said that the width of is expanded compared to the width of the form to be identified. On the other hand, the intercept of the regression line with the vertical axis becomes the origin deviation amount shiftX of the X coordinate (step S417).
[0072]
In step S419, it is checked whether the scaling factor δX can be applied up to the table block size. That is, it is checked whether or not the block information of the forms arranged in step S203 one by one in order is satisfied, “(block width of form to be identified) / (block width of master form) = variation factor δX”. If the block layout is not similar, the process ends, and the process returns to step S109. If the condition is satisfied, it is determined that the scaling factor δX can be applied to the table block size, and the process ends.
[0073]
Similar to step S408_1, in step S408_2, the block upper left corner Y coordinate comparison process is performed. A detailed flowchart of step S408_2 is shown in FIG.
[0074]
That is, in step S410, in order to check the similarity of the X component of the block information, the correlation coefficient is calculated with the upper left corner Y coordinate of the form to be identified as the vertical axis and the upper left corner Y coordinate of the master form as the horizontal axis. To do.
[0075]
Here, in calculating the correlation coefficient, the value of the numerator of the correlation coefficient is checked (step S412). If the numerator of the correlation coefficient is 14 or less, the scaling factor δY is obtained by another program. This is because the error of the correlation coefficient becomes large, and the details are the same as those of the first embodiment, and thus the description thereof is omitted.
[0076]
When the numerator of the correlation coefficient is 14 or less, it is determined that it is not reliable (page height of the form to be identified) / (page height of the master form) = variation factor δY (step S412_2). However, in consideration of an error caused by deviation when the form is cut with scissors or the like, if the difference in form page width is within 10 pixels, the scaling factor δY is set to 1 (steps S412_1 and S412_3).
[0077]
In step S412_4, the origin shift amount shiftY is set to “(the upper left corner Y coordinate of the first block of the form to be identified) − (the upper left corner Y coordinate of the first block of the master form) × variable using the scaling factor δY stopped in the above. It is calculated from “magnification δY”.
[0078]
If the numerator of the correlation coefficient is 14 or more and the correlation coefficient is 0.9996 or more in step S412, it is determined that the Y component is similar (step S414).
[0079]
On the other hand, even if the numerator of the correlation coefficient is 14 or more in step S412, if the correlation coefficient is smaller than 0.9996, it is determined that it is not a similar shape, and the similar shape check process is terminated, and the process proceeds to step S109. Return.
[0080]
As the correlation coefficient is closer to 1, it can be considered that the information is arranged in a straight line. That is, although there is a possibility that the magnification has been changed, the arrangement of the Y components is considered to be similar.
[0081]
Next, since these data are arranged on a straight line, the slope is calculated (the slope of the regression line). This inclination indicates the scaling factor δY of the Y component (step S416). When the slope = 1, the Y component of the form to be identified and the master form are the same. When the slope is smaller than 1, the increase rate of the Y component of the master form is larger than that of the form to be identified. It can be said that the height of the is larger than the height of the form to be identified. On the other hand, the intercept of the regression line with the vertical axis becomes the origin deviation amount shiftY of the Y coordinate (step S418).
[0082]
In step S420, it is checked whether the scaling factor δY can be applied up to the table block size. That is, the block information of the forms arranged in step S203 is checked one by one in order to check whether or not “(block height of form to be identified) / (block height of master form) = variable magnification δY” is satisfied. If not, the block layout is not similar and the process is terminated, and the process returns to step S109. If it satisfies, it is determined that the scaling factor δY can be applied to the table block size, and the process is terminated.
[0083]
In step S421, both the X component and the Y component are similar, and it is determined that the layout is similar only for the form for which the scaling factors (δX, δY) can be obtained. The process ends, and the process returns to step S109.
[0084]
If the number of blocks is two or less in step S407, the process for the case where the number of blocks in FIG. 13 is two or less is performed (step S501).
[0085]
That is, in step S501, the process is started when the number of blocks is 2 or less. In step S502, the page width of the form to be identified is compared with the page width of the master form. The magnification δX = (page width of the form to be identified) / (page width of the master form), and if the difference is within 10 pixels, the magnification δX = 1.0 (steps S502, S503, S504).
[0086]
In step S505, it is checked whether the scaling factor δX can be applied up to the size of the table block. That is, it is checked whether or not the block information of the forms arranged in step S403 one by one in order is satisfied, “(block width of form to be identified) / (block width of master form) = variation factor δX”. If the block layout is not similar, the process ends, and the process returns to step S109. If it satisfies, it is determined that the scaling factor δX can be applied to the table block size.
[0087]
Similarly, in step S507, the page height of the form to be identified is compared with the page height of the master form. If the difference is larger than 10 pixels, the scaling factor δY = (page height of the form to be identified) / (master If the difference is within 10 pixels, the scaling factor δY is set to 1.0 (steps S507, S508, and S509).
[0088]
In step S510, it is checked whether the scaling factor δY can be applied up to the size of the table block. That is, the block information of the forms arranged in step S403 is checked one by one in order to check whether or not “(block height of the form to be identified) / (block height of the master form) = variable magnification δY” is satisfied. If not, the block layout is not similar and the process is terminated, and the process returns to step S109. If it satisfies, it is determined that the scaling factor δY is applicable to the table block size.
[0089]
For the scaling factors (δX, δY) determined to be applicable to the table block size in step S506 and step S511, in step S512, the upper left corner of the block is “master document X coordinate × scaling factor (δX) + If the conditional expression of origin deviation amount shiftX ≦ X coordinate ± 10 of the form to be identified and Y coordinate of master form × magnification (δY) + origin deviation amount shiftY ≦ Y coordinate of the form to be identified ± 10 ”is satisfied, The layout of the form to be identified and the master form is determined to be similar, and the process proceeds to step S422 of the form layout similarity check process (step S513). If the condition is not satisfied, it is determined that the shape is not similar and the process is terminated, and the process returns to step S109.
[0090]
If it is determined in step S421 or step S513 that the shape is similar, a penalty due to scaling of the page layout is determined by the following equation in step S422.
[0091]
[Equation 3]
Figure 0004046941
PX and PY represent a penalty due to scaling of each component, and PXY represents a penalty due to the degree of deformation of both components.
[0092]
If the magnifications δX and δY are 1, PX and PY are 0. In other words, it means that no penalty is imposed because it has not been scaled.
[0093]
PXY is 0 when the X and Y components are scaled uniformly, and the penalty is increased if the layout deformation due to scaling is large so that the X component is scaled larger than 1 and the Y component scaled smaller than 1. It is a formula that adjusts to increase.
[0094]
Further, the penalty due to the origin deviation amount is obtained from PX1 = origin deviation amount (shiftX) × 0.22 and PY1 = origin deviation amount (shiftY) × 0.22.
[0095]
When the layout is similar, a penalty is given by the above formula, and the penalty due to matching of the conventional page format is set to zero. On the other hand, if it is not similar, a penalty is imposed by matching the conventional page format.
[0096]
The page structure matching is followed by the detailed structure of the table block, followed by the character comparison of the text block. When these blocks are detected, a formula using the scaling factor obtained by the similarity check Is used.
[0097]
For example, it is assumed that there are forms A and B as shown in FIG. 9, and form A is desired to be identified, and form B is a master form.
[0098]
In the form layout similarity check process according to the present embodiment, it is determined that the shape is similar, and the scaling factor (δX, δY) and the origin deviation amount (shiftX, shiftY) are obtained.
[0099]
The exact position of the block of form A corresponding to the block (X1, Y1) of form B can be obtained by (δX × X1 + shiftX, δY × Y1 + shiftY).
[0100]
If the block detected by this calculation formula is a table block, the ruled line information (Lx, Ly) of the form B is (Lx × δX) because the ruled line information of the table is scaled in the same way as the scale of the form page. , Ly × δy) and comparing with the ruled line information of the form A, it is possible to accurately match the detailed structure of the table block. Since the ruled line information has the upper left corner of the table block as the origin, the form page origin deviation amount does not affect the detailed structure of the table block.
[0101]
The numerical values in the above are statistical values using a large number of form samples, and may be changed depending on the form identification environment.
[0102]
[Embodiment 3]
As shown in FIG. 14, when the layout structure is scaled, the ruled line information of the table in the form is also scaled at the same rate. Therefore, by using this scaling factor for comparison of ruled line information, which is the detailed structure of the table block, a more accurate detailed structure can be compared.
[0103]
If the ruled line information is Li, the relationship of detailed structure Li = (detailed structure Li of master form table) × magnification (δX, δY) holds.
[0104]
When detecting the position of the text block, the character strings to be compared can be accurately known by using the scaling factors (δX, δY). However, since the comparison of characters is simply a collation of character codes, scaling factors (δX, δY) are not necessary. By applying a scaling factor to, more accurate matching can be performed.
[0105]
[Embodiment 4]
There is a method of using form recognition in order to perform character recognition for only a part of the form to be identified. As shown in FIGS. 14A and 14B, it is assumed that an area for character recognition is set in advance in the master form. In FIGS. 14A and 14B, the name column registered in the shaded bank account is an area for character recognition.
[0106]
First, the ID of the master form can be acquired by recognizing the form to be identified. A character recognition area is associated with the ID. In the present embodiment, since the magnification of the form in the X and Y directions and the form page origin deviation amount can be output together with the ID, the character recognition area of the form to be identified can be corrected from the following equation.
[0107]
A character recognition area associated with the ID and registered in the master is defined as upper left corner coordinates (X, Y), width W, and height H.
[0108]
If the received scaling factor is (δX, δY) and the origin deviation (shiftX, shiftY), the character recognition area of the form to be identified is the upper left corner coordinates (X × δX + shiftX, Y × δY + shiftY), width (W × δX) ) And height (H × δY).
[0109]
[Other Embodiments]
Another object of the present invention is to supply a storage medium storing software program codes for implementing the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in.
[0110]
In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
[0111]
As a storage medium for supplying the program code, for example, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
[0112]
Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
[0113]
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
[0114]
【The invention's effect】
As described above, according to the present invention, it is possible to correctly identify a document format even in an environment in which a plurality of documents enlarged or reduced at different scaling factors are mixed.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of a form identification apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing an example of a similar form according to the present invention.
FIG. 3 is a diagram illustrating an example of a form to be matched according to the present invention.
FIG. 4 is a flowchart showing an outline of processing of the present invention.
FIG. 5 is a flowchart showing similarity check processing according to the present invention.
FIG. 6 is a flowchart showing a block upper-left corner X-coordinate comparison process in the similarity check process of the present invention.
FIG. 7 is a flowchart showing comparison processing of a block upper left corner Y coordinate in the similarity check processing of the present invention.
FIG. 8 is a flowchart showing processing when the number of blocks is two or less in the similarity check processing of the present invention;
FIG. 9 is a diagram showing an example of a similar form according to the present invention.
FIG. 10 is a flowchart showing similarity check processing according to the present invention.
FIG. 11 is a flowchart showing comparison processing of block upper left corner X coordinates in the similarity check processing of the present invention;
FIG. 12 is a flowchart showing a block upper left corner Y coordinate comparison process in the similarity check process of the present invention;
FIG. 13 is a flowchart showing processing when the number of blocks is two or less in the similarity check processing of the present invention;
FIG. 14 is a diagram showing an example of a similar form according to the present invention.

Claims (11)

文書画像の文書書式を識別する文書書式識別装置であって、
文書書式を識別すべき文書画像から抽出された複数のブロックそれぞれの位置座標を含む文書書式データを作成する作成手段と、
前記作成手段により作成された前記識別すべき文書画像の文書書式データと、保存手段に保存されているマスター文書画像の文書書式データとを比較することにより、相似関係があるか否かを判断するとともに、当該判断結果と、相似関係があると判断した前記識別すべき文書画像と前記マスター文書画像との間の変倍率と、を含む相似情報を抽出する相似情報抽出手段と、
前記相似情報抽出手段にて抽出した相似情報及び前記文書書式データに基づいて、前記識別すべき文書画像の前記マスター文書画像に対する類似度を計算することにより、前記識別すべき文書画像の文書書式を識別する識別手段と、を備え、
前記相似情報抽出手段は、
前記識別すべき文書画像から抽出されたブロックの個数と前記マスター文書画像のブロックの個数とが所定数以上でかつ互いに等しい場合に、
前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をYiとし、その平均値をYaveとする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をXiとし、その平均値をXaveとする)との間の相関係数を
{Σ(Xi−Xave)(Yi−Yave)}/{((Σ(Xi−Xave)^2)×(Σ(Yi−Yave)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するX座標値列と前記マスター文書画像に関するX座標値列の傾きに基づいてX座標方向の変倍率を求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
更に、前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をYi’とし、その平均値をYave’とする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をXi’とし、その平均値をXave’とする)との間の相関係数を
{Σ(Xi’−Xave’)(Yi’−Yave’)}/{((Σ(Xi’−Xave’)^2)×(Σ(Yi’−Yave’)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するY座標値列と前記マスター文書画像に関するY座標値列の傾きに基づいてY座標方向の変倍率を求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
前記X座標方向の変倍率と前記Y座標方向の変倍率の両方が求められた場合に相似関係があると判断することを特徴とする文書書式識別装置。
A document format identification device for identifying a document format of a document image,
Creating means for creating document format data including the position coordinates of each of a plurality of blocks extracted from a document image whose document format is to be identified;
By comparing the document format data of the document image to be identified created by the creation unit with the document format data of the master document image stored in the storage unit, it is determined whether there is a similarity relationship. And similar information extracting means for extracting similar information including the determination result and the scaling factor between the document image to be identified that has been determined to have a similar relationship and the master document image,
The document format of the document image to be identified is calculated by calculating the similarity of the document image to be identified to the master document image based on the similarity information extracted by the similarity information extraction means and the document format data. Identifying means for identifying,
The similarity information extracting means includes:
When the number of blocks extracted from the document image to be identified and the number of blocks of the master document image are equal to or greater than a predetermined number,
X coordinate value sequence obtained by aligning X coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order (this coordinate value sequence is defined as Yi, and an average value thereof) And X coordinate value sequence obtained by aligning the X coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order (this coordinate value sequence is defined as Xi). the correlation coefficient between the average value and Xave) and,
{Σ (Xi-Xave) (Yi-Yave)} / {((Σ (Xi-Xave) ^ 2) × (Σ (Yi-Yave) ^ 2)) ^ (1/2)}
Using
When the obtained correlation coefficient is larger than a predetermined value, the scaling factor in the X coordinate direction is obtained based on the inclination of the X coordinate value sequence related to the document image to be identified and the X coordinate value sequence related to the master document image, If the obtained correlation coefficient is less than or equal to a predetermined value, it is determined that there is no similarity,
Further, a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order (this coordinate value sequence is Yi ′, The average value is Yave ') and a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order (this coordinate value) The correlation coefficient between the column is Xi ′ and the average value is Xave ′) ,
{Σ (Xi′−Xave ′) (Yi′−Yave ′)} / {((Σ (Xi′−Xave ′) ^ 2) × (Σ (Yi′−Yave ′) ^ 2)) ^ (1 / 2)}
Using
When the obtained correlation coefficient is larger than a predetermined value, a scaling factor in the Y coordinate direction is obtained based on the inclination of the Y coordinate value sequence related to the document image to be identified and the Y coordinate value sequence related to the master document image, If the obtained correlation coefficient is less than or equal to a predetermined value, it is determined that there is no similarity,
An apparatus for identifying a document format, wherein a similarity relationship is determined when both a scaling factor in the X coordinate direction and a scaling factor in the Y coordinate direction are obtained.
前記識別手段は、
前記相似情報に基づいて、前記類似度の計算に用いる文書書式データを補正し、類似度の計算を行うことを特徴とする請求項1記載の文書書式識別装置。
The identification means includes
2. The document format identification apparatus according to claim 1, wherein the document format data used for calculating the similarity is corrected based on the similarity information, and the similarity is calculated.
前記識別手段は、
前記変倍率を前記類似度の計算に用いる文書書式データに乗算することを特徴とする請求項2記載の文書書式識別装置。
The identification means includes
3. The document format identification apparatus according to claim 2, wherein the scaling factor is multiplied by document format data used for calculating the similarity.
前記相似情報抽出手段は、
前記識別すべき文書画像から抽出されたブロックの個数と前記マスター文書画像のブロックの個数とが所定数以上でかつ互いに等しい場合に、
前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をYiとし、その平均値をYaveとする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をXiとし、その平均値をXaveとする)との間の相関係数を
{Σ(Xi−Xave)(Yi−Yave)}/{((Σ(Xi−Xave)^2)×(Σ(Yi−Yave)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するX座標値列と前記マスター文書画像に関するX座標値列の傾き及びその切片に基づいて、X座標方向の変倍率とX座標方向の原点ずれ量とを求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
更に、前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をYi’とし、その平均値をYave’とする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をXi’とし、その平均値をXave’とする)との間の相関係数を
{Σ(Xi’−Xave’)(Yi’−Yave’)}/{((Σ(Xi’−Xave’)^2)×(Σ(Yi’−Yave’)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するY座標値列と前記マスター文書画像に関するY座標値列の傾き及びその切片に基づいて、Y座標方向の変倍率とY座標方向の原点ずれ量とを求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
前記X座標方向の変倍率と前記Y座標方向の変倍率の両方が求められた場合に相似関係があると判断し、
前記識別手段は、
前記原点ずれ量を前記類似度の計算に用いる文書書式データに加算することを特徴とする請求項3記載の文書書式識別装置。
The similarity information extracting means includes:
When the number of blocks extracted from the document image to be identified and the number of blocks of the master document image are equal to or greater than a predetermined number,
X coordinate value sequence obtained by aligning X coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order (this coordinate value sequence is defined as Yi, and an average value thereof) And X coordinate value sequence obtained by aligning the X coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order (this coordinate value sequence is defined as Xi). the correlation coefficient between the average value and Xave) and,
{Σ (Xi-Xave) (Yi-Yave)} / {((Σ (Xi-Xave) ^ 2) × (Σ (Yi-Yave) ^ 2)) ^ (1/2)}
Using
When the obtained correlation coefficient is larger than a predetermined value, the scaling factor in the X coordinate direction is determined based on the inclination and the intercept of the X coordinate value sequence relating to the document image to be identified and the X coordinate value sequence relating to the master document image. And the origin deviation amount in the X-coordinate direction, if the calculated correlation coefficient is less than or equal to a predetermined value, it is determined that there is no similarity
Further, a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order (this coordinate value sequence is Yi ′, The average value is Yave ') and a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order (this coordinate value) The correlation coefficient between the column is Xi ′ and the average value is Xave ′) ,
{Σ (Xi′−Xave ′) (Yi′−Yave ′)} / {((Σ (Xi′−Xave ′) ^ 2) × (Σ (Yi′−Yave ′) ^ 2)) ^ (1 / 2)}
Using
When the obtained correlation coefficient is larger than a predetermined value, the scaling factor in the Y coordinate direction is determined based on the slope and intercept of the Y coordinate value sequence relating to the document image to be identified and the Y coordinate value sequence relating to the master document image. And the amount of origin deviation in the Y-coordinate direction, when the obtained correlation coefficient is less than a predetermined value, it is determined that there is no similarity relationship,
If both the scaling factor in the X coordinate direction and the scaling factor in the Y coordinate direction are determined, it is determined that there is a similarity relationship;
The identification means includes
4. The document format identification apparatus according to claim 3, wherein the origin deviation amount is added to document format data used for calculating the similarity.
前記相似情報は、前記変倍率に基づいて算出したペナルティを含み、前記識別手段は、該ペナルティを前記類似度の計算に用いることを特徴とする請求項2記載の文書書式識別装置。  3. The document format identification apparatus according to claim 2, wherein the similarity information includes a penalty calculated based on the scaling factor, and the identification unit uses the penalty for the similarity calculation. 前記相似情報抽出手段は、
前記変倍率の適正を判定する判定手段を更に備え、
前記識別手段は、
前記判定手段にて変倍率が不適正であると判定した場合、前記相似情報を用いずに前記類似度計算を行うことを特徴とする請求項1記載の文書書式識別装置。
The similarity information extracting means includes:
A determination unit for determining appropriateness of the scaling ratio;
The identification means includes
2. The document format identification apparatus according to claim 1, wherein, when the scaling unit determines that the scaling factor is inappropriate, the similarity calculation is performed without using the similarity information.
前記相似情報抽出手段は、
前記識別すべき文書画像から抽出されたブロックの個数と前記マスター文書画像から抽出されたブロックの個数とが等しくない場合、相似関係がないと判断することを特徴とする請求項1に記載の文書書式識別装置。
The similarity information extracting means includes:
2. The document according to claim 1, wherein if the number of blocks extracted from the document image to be identified is not equal to the number of blocks extracted from the master document image, it is determined that there is no similarity relationship. Form identification device.
前記相似情報抽出手段は、
前記識別すべき文書画像から抽出されたブロックの個数と前記マスター文書画像から抽出されたブロックの個数とが前記所定数より小さくかつ互いに等しい場合、
前記識別すべき文書画像の幅と高さ、ならびに前記マスター文書画像の幅と高さとに基づいて、X座標方向の変倍率とY座標方向の変倍率とを求め、
前記求めたX座標方向の変倍率とY座標方向の変倍率、前記識別すべき文書画像から抽出されたブロックの幅と高さ、ならびに前記マスター文書画像から抽出されたブロックの幅と高さが、所定の関係式をみたすか否かを判断し、
当該所定の関係式を満たさない場合に相似関係がないと判断し、当該所定の関係式を満たす場合には相似関係があると判断することを特徴とする請求項1記載の文書書式識別装置。
The similarity information extracting means includes:
When the number of blocks extracted from the document image to be identified and the number of blocks extracted from the master document image are smaller than and equal to the predetermined number,
Based on the width and height of the document image to be identified and the width and height of the master document image, a scaling factor in the X coordinate direction and a scaling factor in the Y coordinate direction are obtained,
The obtained scaling factor in the X coordinate direction and scaling factor in the Y coordinate direction, the width and height of the block extracted from the document image to be identified, and the width and height of the block extracted from the master document image To determine whether or not to satisfy the predetermined relational expression,
2. The document format identification apparatus according to claim 1, wherein when the predetermined relational expression is not satisfied, it is determined that there is no similarity relation, and when the predetermined relational expression is satisfied, it is determined that there is a similarity relation.
前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たX座標値は、各ブロックの左上角のX座標値であり、
前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たY座標値は、各ブロックの左上角のY座標値であることを特徴とする請求項1記載の文書書式識別装置。
The X coordinate value obtained from each of the plurality of blocks extracted from the document image to be identified is the X coordinate value of the upper left corner of each block,
2. The document format identification apparatus according to claim 1, wherein the Y coordinate value obtained from each of the plurality of blocks extracted from the document image to be identified is a Y coordinate value of an upper left corner of each block.
文書画像の文書書式を識別する文書書式識別方法であって、
作成手段が、文書書式を識別すべき文書画像から抽出された複数のブロックそれぞれの位置座標を含む文書書式データを作成する作成工程と、
相似情報抽出手段が、前記作成工程で作成された前記識別すべき文書画像の文書書式データと、保存手段に保存されているマスター文書画像の文書書式データとを比較することにより、相似関係があるか否かを判断するととともに、当該判断結果と、相似関係があると判断した前記識別すべき文書画像と前記マスター文書画像との間の変倍率と、を含む相似情報を抽出する相似情報抽出工程と、
識別手段が、前記相似情報抽出工程にて抽出した相似情報及び前記文書書式データに基づいて、前記識別すべき文書画像の前記マスター文書画像に対する類似度を計算することにより、前記識別すべき文書画像の文書書式を識別する識別工程と、を備え、
前記相似情報抽出工程では、
前記識別すべき文書画像から抽出されたブロックの個数と前記マスター文書画像のブロックの個数とが所定数以上でかつ互いに等しい場合に、
前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をYiとし、その平均値をYaveとする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たX座標値を所定の順序に基づいて整列させることにより得たX座標値列(この座標値列をXiとし、その平均値をXaveとする)との間の相関係数を
{Σ(Xi−Xave)(Yi−Yave)}/{((Σ(Xi−Xave)^2)×(Σ(Yi−Yave)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するX座標値列と前記マスター文書画像に関するX座標値列の傾きに基づいてX座標方向の変倍率を求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
更に、前記識別すべき文書画像から抽出された前記複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をYi’とし、その平均値をYave’とする)と、前記マスター文書画像から抽出された複数のブロックそれぞれから得たY座標値を所定の順序に基づいて整列させることにより得たY座標値列(この座標値列をXi’とし、その平均値をXave’とする)との間の相関係数を
{Σ(Xi’−Xave’)(Yi’−Yave’)}/{((Σ(Xi’−Xave’)^2)×(Σ(Yi’−Yave’)^2))^(1/2)}
を用いて求め、
当該求めた相関係数が所定値より大きい場合に、前記識別すべき文書画像に関するY座標値列と前記マスター文書画像に関するY座標値列の傾きに基づいてY座標方向の変倍率を求める一方、当該求めた相関係数が所定値以下の場合には相似関係がないと判断し、
前記X座標方向の変倍率と前記Y座標方向の変倍率の両方が求められた場合に相似関係があると判断することを特徴とする文書書式識別方法。
A document format identification method for identifying a document format of a document image,
A creating step for creating document format data including position coordinates of each of a plurality of blocks extracted from a document image whose document format is to be identified;
The similarity information extraction unit compares the document format data of the document image to be identified created in the creation step with the document format data of the master document image stored in the storage unit, so that there is a similarity relationship. A similarity information extraction step for extracting similarity information including the determination result and a scaling factor between the document image to be identified and the master document image determined to have a similarity relationship When,
The document image to be identified is calculated by calculating a similarity of the document image to be identified to the master document image based on the similarity information extracted in the similarity information extraction step and the document format data. An identification step for identifying the document format of
In the similarity information extraction step,
When the number of blocks extracted from the document image to be identified and the number of blocks of the master document image are equal to or greater than a predetermined number,
X coordinate value sequence obtained by aligning X coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order (this coordinate value sequence is defined as Yi, and an average value thereof) And X coordinate value sequence obtained by aligning the X coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order (this coordinate value sequence is defined as Xi). the correlation coefficient between the average value and Xave) and,
{Σ (Xi-Xave) (Yi-Yave)} / {((Σ (Xi-Xave) ^ 2) × (Σ (Yi-Yave) ^ 2)) ^ (1/2)}
Using
When the obtained correlation coefficient is larger than a predetermined value, the scaling factor in the X coordinate direction is obtained based on the inclination of the X coordinate value sequence related to the document image to be identified and the X coordinate value sequence related to the master document image, If the obtained correlation coefficient is less than or equal to a predetermined value, it is determined that there is no similarity,
Further, a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the document image to be identified based on a predetermined order (this coordinate value sequence is Yi ′, The average value is Yave ') and a Y coordinate value sequence obtained by aligning Y coordinate values obtained from each of the plurality of blocks extracted from the master document image based on a predetermined order (this coordinate value) The correlation coefficient between the column is Xi ′ and the average value is Xave ′) ,
{Σ (Xi′−Xave ′) (Yi′−Yave ′)} / {((Σ (Xi′−Xave ′) ^ 2) × (Σ (Yi′−Yave ′) ^ 2)) ^ (1 / 2)}
Using
When the obtained correlation coefficient is larger than a predetermined value, a scaling factor in the Y coordinate direction is obtained based on the inclination of the Y coordinate value sequence related to the document image to be identified and the Y coordinate value sequence related to the master document image, If the obtained correlation coefficient is less than or equal to a predetermined value, it is determined that there is no similarity,
A document format identification method, wherein when both the scaling factor in the X coordinate direction and the scaling factor in the Y coordinate direction are obtained, it is determined that there is a similarity.
請求項10に記載の文書書式識別方法をコンピュータによって実行させるための制御プログラムを格納する記憶媒体。  A storage medium for storing a control program for causing a computer to execute the document format identification method according to claim 10.
JP2000367675A 2000-12-01 2000-12-01 Document format identification device and identification method Expired - Fee Related JP4046941B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000367675A JP4046941B2 (en) 2000-12-01 2000-12-01 Document format identification device and identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000367675A JP4046941B2 (en) 2000-12-01 2000-12-01 Document format identification device and identification method

Publications (3)

Publication Number Publication Date
JP2002170079A JP2002170079A (en) 2002-06-14
JP2002170079A5 JP2002170079A5 (en) 2007-01-18
JP4046941B2 true JP4046941B2 (en) 2008-02-13

Family

ID=18838061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000367675A Expired - Fee Related JP4046941B2 (en) 2000-12-01 2000-12-01 Document format identification device and identification method

Country Status (1)

Country Link
JP (1) JP4046941B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3896109B2 (en) * 2003-11-21 2007-03-22 日本ユニシス株式会社 Form recognition system and program
TWI339362B (en) * 2007-06-01 2011-03-21 Primax Electronics Ltd Method of image analysis
JP2018036835A (en) * 2016-08-31 2018-03-08 富士ゼロックス株式会社 Form management device and program
JP7435118B2 (en) 2020-03-24 2024-02-21 富士フイルムビジネスイノベーション株式会社 Information processing device and program
KR102211516B1 (en) 2020-08-21 2021-02-04 주식회사 애자일소다 System and method for analyzing document using virtual cell based on ocr
JP2022148909A (en) 2021-03-24 2022-10-06 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Also Published As

Publication number Publication date
JP2002170079A (en) 2002-06-14

Similar Documents

Publication Publication Date Title
KR100390264B1 (en) System and method for automatic page registration and automatic area detection during form processing
US6335986B1 (en) Pattern recognizing apparatus and method
US7437001B2 (en) Method and device for recognition of a handwritten pattern
US7630551B2 (en) Method and system for line extraction in digital ink
US7120318B2 (en) Automatic document reading system for technical drawings
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JPH08255236A (en) Device and method for filing image
WO2021143058A1 (en) Image-based information comparison method, apparatus, electronic device, and computer-readable storage medium
JP4046941B2 (en) Document format identification device and identification method
CN109409180B (en) Image analysis device and image analysis method
KR102282025B1 (en) Method for automatically sorting documents and extracting characters by using computer
EP1202213B1 (en) Document format identification apparatus and method
JP5134383B2 (en) OCR device, trail management device and trail management system
JP2008084105A (en) Character cutout method and character recognition device
JP4810853B2 (en) Character image cutting device, character image cutting method and program
Yamashita et al. A document recognition system and its applications
JPH11328306A (en) Method and device for extracting logical element of document image, and record medium
JP4221960B2 (en) Form identification device and identification method thereof
JP3812719B2 (en) Document search device
CN115131806B (en) Method and system for identifying OCR (optical character recognition) image information of various certificates based on deep learning
JP6941331B2 (en) Image recognition system
JP2021144673A (en) Image processing apparatus, image processing method and program
JP3138665B2 (en) Handwritten character recognition method and recording medium
JP2977244B2 (en) Character recognition method and character recognition device
JP2020119206A (en) Information processor and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040611

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040611

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071010

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4046941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees