JP4159720B2 - 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 - Google Patents

表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 Download PDF

Info

Publication number
JP4159720B2
JP4159720B2 JP2000071399A JP2000071399A JP4159720B2 JP 4159720 B2 JP4159720 B2 JP 4159720B2 JP 2000071399 A JP2000071399 A JP 2000071399A JP 2000071399 A JP2000071399 A JP 2000071399A JP 4159720 B2 JP4159720 B2 JP 4159720B2
Authority
JP
Japan
Prior art keywords
frame
rectangle
candidates
candidate
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000071399A
Other languages
English (en)
Other versions
JP2001266068A (ja
Inventor
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000071399A priority Critical patent/JP4159720B2/ja
Priority to US09/804,241 priority patent/US6785420B2/en
Publication of JP2001266068A publication Critical patent/JP2001266068A/ja
Application granted granted Critical
Publication of JP4159720B2 publication Critical patent/JP4159720B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文字認識装置で手書きや活字の帳票処理など罫線を多く含む文書の罫線を認識して後方処理へわたすための表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体に関するものである。
【0002】
【従来の技術】
例えば手書きや活字の帳票処理のために文字認識装置で罫線を多く含む帳票データや表データのようなものを取り扱う場合、罫線がかすれていると罫線であるか文字であるかの判別が困難になるという問題がある。この問題を解消するために、例えば特開平10−49676号公報に示すように、文書画像から黒ランのヒストグラムを算出し、算出したヒストグラムを基に罫線抽出のためのパラメータである黒ランの閾値を抽出する。この抽出した閾値以上の黒ランの連結成分である矩形を抽出し、近接している矩形を統合して実線罫線を抽出する。また、文書画像の罫線の長さのヒストグラムを算出し、算出したヒストグラムを基に罫線の長さ抽出のための閾値を抽出する。そして抽出した罫線の長さ抽出のための閾値以上の長さを持つ実線罫線を罫線として認識するようにしている。
【0003】
【発明が解決しようとする課題】
しかしながら一続きの黒画素の連続が各閾値以下であったりすると、罫線を接続するための特別な処理が必要になってくる。この特別な処理として、例えばあらかじめ罫線があると考えられる候補領域を選り分けておき、その候補領域が本当に罫線であるかどうかを判定するようにしている。しかしながら、この場合も例えばタイトルとして書かれている大き目の文字の部分を罫線として抽出したり、罫線候補の位置に偶然長いランをもった文字矩形がたくさんある場合に、罫線があると判定してしまう間違いが生じる。また、枠の内部にさらに枠が複数ある場合、罫線候補となる位置が膨大になり、そのための抽出失敗がでたり、メモリのオーバーフローが起きたりするという短所がある。
【0004】
この発明はかかる短所を改善し、罫線を正しく抽出することができる表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体を提供することを目的とするものである。
【0005】
【課題を解決するための手段】
この発明に係る表認識方法は、表領域を含む文書画像の表領域の罫線である枠を認識する表認識方法において、文書画像の黒画素の連結成分の外接矩形を抽出し、抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、文字候補となった矩形の範囲の画像を白で埋め、枠候補と分類された矩形に対して面積の小さい順に並び替え、枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠を抽出した枠候補となった矩形の画像を白で埋めることを繰返すことを特徴とする。
【0007】
この発明に係る第2の表認識方法は、表領域を含む文書画像の表領域の罫線である枠を認識する表認識方法において、文書画像の黒画素の連結成分の外接矩形を抽出し、抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、文字候補となった矩形の範囲の画像を白で埋め、枠候補と分類された矩形に対して面積の小さい順に並び替え、枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にない場合は、枠を抽出した枠候補となった矩形の画像を白で埋め、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にある場合には枠を抽出した枠候補となった矩形の画像を白で埋めることを抑制して次の枠候補の矩形について枠抽出を行うことを特徴とする。
【0008】
この発明に係る表認識装置は、表領域を含む文書画像の表領域の罫線である枠を認識する表認識装置において、外接矩形抽出部と矩形分類部と枠候補抽出部及び罫線抽出部を有し、外接矩形抽出部は文書画像の黒画素の連結成分の外接矩形を抽出し、矩形分類部は抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、枠候補抽出部は文字候補となった矩形の範囲の画像を白で埋め、罫線抽出部は枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠を抽出した枠候補となった矩形の画像を白で埋めることを繰返すことを特徴とする。
【0010】
この発明に係る第2の表認識装置は、表領域を含む文書画像の表領域の罫線である枠を認識する表認識装置において、外接矩形抽出部と矩形分類部と枠候補抽出部及び罫線抽出部を有し、外接矩形抽出部は文書画像の黒画素の連結成分の外接矩形を抽出し、矩形分類部は抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、枠候補抽出部は文字候補となった矩形の範囲の画像を白で埋め、罫線抽出部は枠候補と分類された矩形に対して面積の小さい順に並び替え、枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にない場合は、枠を抽出した枠候補となった矩形の画像を白で埋め、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にある場合には枠を抽出した枠候補となった矩形の画像を白で埋めることを抑制して次の枠候補の矩形について枠抽出を行うことを特徴とする。
【0011】
この発明に係る文字認識装置は上記表認識装置を有することを特徴とする。
また、この発明に係る記憶媒体は上記表認識方法の表認識プログラムを記録したことを特徴とする。
【0012】
【発明の実施の形態】
この発明の文字認識装置は画像入力部と画像メモリと画像圧縮部と表認識部と文字認識部及び表示部を有する。表認識部は文字認識部で入力した画像データから文字を認識するときの前処理を行なうものであり、外接矩形抽出部と矩形分類部と枠候補抽出部及び罫線抽出部を有する。
【0013】
読取ユニットで原稿の画像を読み取って文字認識装置の画像入力部に入力すると、画像圧縮部は入力した画像データを圧縮処理して画像メモリに格納する。表認識部は画像メモリに格納された画像データを読み出す。外接矩形抽出部は読み出した画像データの処理したい領域である画像の全面に対して黒画素の連結成分から外接矩形を抽出する。矩形分類部は抽出した外接矩形から文字候補の矩形か枠候補の矩形かの分類を行う。この分類を行なうときに、矩形分類部は縦横比の大きなものは枠候補とし、内部の黒画素比率が高いものは文字候補としたり、内部の黒ランの長さのヒストグラムの最大をとり、それが罫線の太さに相当するはずであるので、その太さの罫線が矩形の外側にあると仮定した場合の黒画素の数より、実際の黒画素の数が小さい場合は文字候補とする。枠候補抽出部は文字候補に分類された矩形に対しては、その矩形の座標値内部を白画素で埋める。罫線抽出部は枠候補として残った矩形から罫線である枠を認識して抽出する。
【0014】
【実施例】
図1はこの発明の一実施例の構成を示すブロック図である。図に示すように、文字認識装置1は画像入力部2と画像メモリ3と画像圧縮部4と表認識部5と文字認識部6及び表示部7を有する。画像入力部2は例えばスキャナや電子スチールカメラ等の読取ユニット8で読み取った画像を入力する。画像メモリ3は入力した画像データや各種処理を行なった画像データを記憶する。画像圧縮部4は画像入力部2から入力した画像データを圧縮して画像メモリ3に格納する。表認識部5は文字認識部6で入力した画像データから文字を認識するときの前処理を行なうものであり、外接矩形抽出部51と矩形分類部52と枠候補抽出部53及び罫線抽出部54を有する。外接矩形抽出部51は入力した画像データの処理したい領域に対して黒画素の連結成分から外接矩形を抽出する。矩形分類部52は抽出した外接矩形について文字候補の矩形か枠候補の矩形かの分類を行う。枠候補抽出部53は文字候補に分類された矩形に対して、その矩形の位置を元画像上で白で埋め、枠候補として残った矩形の枠を抽出する。罫線抽出部54は抽出した枠から罫線を抽出する。
【0015】
上記のように構成された文字認識装置1に入力された画像データから表認識部5で枠を抽出して罫線を抽出するときの動作を図2のフローチャートを参照して説明する。
【0016】
読取ユニット8で、例えば図3に示す原稿の画像11を読み取って文字認識装置1の画像入力部2に入力すると(ステップS1)、画像圧縮部4は使用メモリや処理時間の低減のため、入力した画像データを圧縮処理して画像メモリ3に格納する(ステップS2)。この画像圧縮部4で画像データを圧縮するときに例えばOR方式で圧縮を行うと罫線のかすれはより強くなる。表認識部5は画像メモリ3に格納された画像データを読み出す。読み出した画像データの処理したい領域である画像11の全面に対して外接矩形抽出部51は読黒画素の連結成分から外接矩形を抽出する(ステップS3)。この抽出した外接矩形から矩形分類部52で文字候補の矩形か枠候補の矩形かの分類を行う。この矩形分類部52で矩形を分類する方法として、例えば縦横比の大きなものは枠候補とし、内部の黒画素比率が高いものは文字候補としたり、内部の黒ランの長さのヒストグラムの最大をとり、それが罫線の太さに相当するはずであるので、その太さの罫線が矩形の外側にあると仮定した場合の黒画素の数より、実際の黒画素の数が小さい場合は文字候補とする。このようにして文字候補の矩形か枠候補の矩形かを分類する。そして小さくて細長い矩形などは罫線のかすれによって生じた可能性もあるので、そのようなものは文字候補でないと分類しておく(ステップS4)。この分類の結果、文字候補に分類された矩形に対して枠候補抽出部53で、図4に示すように、その矩形の座標値内部を白画素で埋める(ステップS5)。このように文字候補に分類された矩形の座標値内部を白画素で埋めることにより、画像12のその位置には画素がなかったことと等しくなり、文字上の長いランなどの影響が枠抽出に悪影響を与えないようにできる。次ぎに、枠候補として残った矩形A〜Dから罫線抽出部54で罫線である枠を認識して抽出する(ステップS6)。
【0017】
このように文字候補の矩形か枠候補の矩形かを分類し、文字候補に分類された矩形の座標値内部を白画素で埋めるようにしたから、文字の位置に必要のない罫線を抽出することを防ぐことができる。
【0018】
次ぎに第2の実施例の処理について、図5のフローチャートを参照して説明する。読取ユニット8で、図3に示す原稿の画像11を読み取って文字認識装置1の画像入力部2に入力すると(ステップS11)、画像圧縮部4は使用メモリや処理時間の低減のため、入力した画像データを圧縮処理して画像メモリ3に格納する(ステップS12)。この画像圧縮部4で画像データを圧縮するときに例えばOR方式で圧縮を行うと、罫線のかすれはより強くなる。表認識部5は画像メモリ3に格納された画像データを読み出す。読み出した画像データの処理したい領域である画像11の全面に対して外接矩形抽出部51は読黒画素の連結成分から外接矩形を抽出する(ステップS13)。この抽出した外接矩形から矩形分類部52で文字候補の矩形か枠候補の矩形かの分類を行う。この矩形分類部52で矩形を分類する方法として、例えば縦横比の大きなものは枠候補とし、内部の黒画素比率が高いものは文字候補としたり、内部の黒ランの長さのヒストグラムの最大をとり、それが罫線の太さに相当するはずであるので、その太さの罫線が矩形の外側にあると仮定した場合の黒画素の数より、実際の黒画素の数が小さい場合は文字候補とする。このようにして文字候補の矩形か枠候補の矩形かを分類する。そして小さくて細長い矩形などは罫線のかすれによって生じた可能性もあるので、そのようなものは文字候補でないと分類しておく(ステップS14)。この分類の結果、文字候補に分類された矩形に対して枠候補抽出部53で、図6(a)に示すように、画像12のなかのその矩形の座標値内部を白画素で埋める(ステップS15)。このように文字候補に分類された矩形の座標値内部を白画素で埋めることにより、その位置には画素がなかったことと等しくなり、文字上の長いランなどの影響が枠抽出に悪影響を与えないようにできる。次ぎに、罫線抽出部54で枠候補として残った矩形の全てを、面積の小さい枠候補の矩形から矩形A,矩形B,矩形C,矩形Dのように昇順にソートする(ステップS16)。そして面積の小さい枠候補の矩形Aから罫線である枠を抽出する(ステップS17)。一つの枠候補の矩形Aに対して枠の抽出が完了したら、図6(b)に示すように、その枠候補の矩形Aの位置を白画素で埋める(ステップS18)。このように枠候補の矩形Aの位置を白画素で埋めることにより、その矩形Aの位置には黒画素がなかったことと等しくなり、次の枠候補に対して枠抽出をする場合、一つ前以上の枠候補の矩形の位置には黒画素がなかったものとして処理することができる。この処理を全ての枠候補の矩形B,C,Dに対して順次繰返す(ステップS19)。
【0019】
このように面積の小さい枠候補の矩形Aから罫線である枠を抽出するようにしたから、枠の内部に枠がある場合でも正しく罫線を抽出することができる。
【0020】
次ぎに、第3の実施例の処理について、図7のフローチャートを参照して説明する。読取ユニット8で、図3に示す原稿の画像11を読み取って文字認識装置1の画像入力部2に入力すると(ステップS21)、画像圧縮部4は使用メモリや処理時間の低減のため、入力した画像データを圧縮処理して画像メモリ3に格納する(ステップS22)。この画像圧縮部4で画像データを圧縮するときに例えばOR方式で圧縮を行うと、罫線のかすれはより強くなる。表認識部5は画像メモリ3に格納された画像データを読み出す。読み出した画像データの処理したい領域である画像11の全面に対して外接矩形抽出部51は読黒画素の連結成分から外接矩形を抽出する(ステップS23)。この抽出した外接矩形から矩形分類部52で文字候補の矩形か枠候補の矩形かの分類を行う。この矩形分類部52で矩形を分類する方法として、例えば縦横比の大きなものは枠候補とし、内部の黒画素比率が高いものは文字候補としたり、内部の黒ランの長さのヒストグラムの最大をとり、それが罫線の太さに相当するはずであるので、その太さの罫線が矩形の外側にあると仮定した場合の黒画素の数より、実際の黒画素の数が小さい場合は文字候補とする。このようにして文字候補の矩形か枠候補の矩形かを分類する。そして小さくて細長い矩形などは罫線のかすれによって生じた可能性もあるので、そのようなものは文字候補でないと分類しておく(ステップS24)。この分類の結果、文字候補に分類された矩形に対して枠候補抽出部53でその矩形の座標値内部を白画素で埋める(ステップS25)。このように文字候補に分類された矩形の座標値内部を白画素で埋めることにより、その位置には画素がなかったことと等しくなり、文字上の長いランなどの影響が枠抽出に悪影響を与えないようにできる。次ぎに、罫線抽出部54で枠候補として残った矩形の全てを、面積の小さい矩形からソートする(ステップS26)。そして枠候補として残った矩形の相互の位置関係を調べ、包括関係でなく一部分が重なっている状態の矩形のペアを探索して、見つかった場合にフラグを立てておく(ステップS27)。そして面積の小さい矩形Aから罫線である枠を抽出する(ステップS28)。一つの枠候補の矩形に対して枠の抽出が完了した後、その外接矩形に部分的な重なりを持つ矩形が存在することを示すフラグが立っている場合は、そのまま処理を処理を終了して次の枠候補の矩形について枠抽出を行う(ステップS29,S28)。また外接矩形に部分的な重なりを持つ矩形が存在することを示すフラグが立っていない場合は、その枠候補の矩形の位置を白画素で埋める(ステップS30)。この処理を全ての枠候補の矩形に対して順次繰返す(ステップS31)。
【0021】
このように部分的に重なりのない矩形の場合は、その枠候補の矩形の位置を白画素で埋めることにより、あとの処理に悪影響を与えることを防ぐことができる。また、部分的に重なりのある矩形の場合は、その枠候補の矩形の位置を白画素で埋めることを抑制して先に処理する矩形のために本来必要な部分の画素を白で消されることを防ぐことができる。
【0022】
上記実施例は表認識部5の外接矩形抽出部51と矩形分類部52と枠抽出部53及び罫線抽出部54で文字候補と枠候補の矩形を分類し、枠候補の矩形から罫線である枠を抽出する場合について説明したが、図8のブロック図に示すように、上記各処理プログラムをハードディスク等の外部メモリ9に格納しておき、前処理部5で外部メモリ9に格納した各処理プログラムをメモリインタフェース10を介して読み込み、読み込んだ処理プログラムにより文字候補と枠候補の矩形を分類し、枠候補の矩形から罫線である枠を抽出するようにしても良い。
【0023】
【発明の効果】
この発明は以上説明したように、文書画像の表領域を文字候補の矩形か枠候補の矩形かに分類し、文字候補に分類された矩形の座標値内部を白画素で埋めるようにして枠候補に分類された矩形から罫線である枠を抽出するようにしたから、文字の位置に必要のない罫線を抽出することを防ぐことができる。
【0024】
また、枠候補に分類された矩形から罫線である枠を抽出するときに、面積の小さい枠候補の矩形から罫線である枠を抽出するようにしたから、枠の内部に枠がある場合でも正しく罫線を抽出することができる。さらに、多くの枠がある場合でも面積の小さい枠候補の矩形から罫線である枠を抽出するから、メモリがオーバーフローすることを防ぐことができる。
【0025】
また、枠候補に分類された矩形から罫線である枠を抽出するときに、部分的に重なりのある矩形の場合は、その枠候補の矩形の位置を白画素で埋めることを抑制して先に処理する矩形のために本来必要な部分の画素を白で消されることを防ぐことができる。
【0026】
この表認識を行なう表認識装置を文字認識装置に有することにより、文字を認識する前に表の位置を抽出することができ、文字の認識精度を高めることができる。
【0027】
また、この表認識を行なう表認識プログラムを記憶媒体に格納しておくことにより、文字を認識する前に表の位置を容易に抽出することができる。
【図面の簡単な説明】
【図1】この発明の実施例の文字認識装置の構成を示すブロック図である。
【図2】上記実施例の処理を示すフローチャートである。
【図3】入力した文書画像の一例を示す表示図である。
【図4】枠候補に分類された矩形を示す表示図である。
【図5】第2の実施例の処理を示すフローチャートである。
【図6】第2の実施例の処理を示す表示図である。
【図7】第3の実施例の処理を示すフローチャートである。
【図8】他の実施例の構成を示すブロック図である。
【符号の説明】
1;文字認識装置、2;画像入力部、3;画像メモリ、4;画像圧縮部、
5;表認識部、6;文字認識部、7;表示部、8;読取ユニット,
9;外部メモリ、51;外接矩形抽出部、52;矩形分類部、
53;枠候補抽出部、54;罫線抽出部。

Claims (6)

  1. 表領域を含む文書画像の表領域の罫線である枠を認識する表認識方法において、
    文書画像の黒画素の連結成分の外接矩形を抽出し、抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、文字候補となった矩形の範囲の画像を白で埋め、枠候補と分類された矩形に対して面積の小さい順に並び替え、枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠を抽出した枠候補となった矩形の画像を白で埋めることを繰返すことを特徴とする表認識方法。
  2. 表領域を含む文書画像の表領域の罫線である枠を認識する表認識方法において、
    文書画像の黒画素の連結成分の外接矩形を抽出し、抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、文字候補となった矩形の範囲の画像を白で埋め、枠候補と分類された矩形に対して面積の小さい順に並び替え、枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にない場合は、枠を抽出した枠候補となった矩形の画像を白で埋め、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にある場合には枠を抽出した枠候補となった矩形の画像を白で埋めることを抑制して次の枠候補の矩形について枠抽出を行うことを特徴とする表認識方法。
  3. 表領域を含む文書画像の表領域の罫線である枠を認識する表認識装置において、
    外接矩形抽出部と矩形分類部と枠候補抽出部及び罫線抽出部を有し、
    外接矩形抽出部は文書画像の黒画素の連結成分の外接矩形を抽出し、矩形分類部は抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、枠候補抽出部は文字候補となった矩形の範囲の画像を白で埋め、罫線抽出部は枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠を抽出した枠候補となった矩形の画像を白で埋めることを繰返すことを特徴とする表認識装置。
  4. 表領域を含む文書画像の表領域の罫線である枠を認識する表認識装置において、
    外接矩形抽出部と矩形分類部と枠候補抽出部及び罫線抽出部を有し、
    外接矩形抽出部は文書画像の黒画素の連結成分の外接矩形を抽出し、矩形分類部は抽出した外接矩形の縦横比や黒画素数や黒ランの数などの情報から抽出した外接矩形を文字候補と枠候補に分類し、枠候補抽出部は文字候補となった矩形の範囲の画像を白で埋め、罫線抽出部は枠候補と分類された矩形に対して面積の小さい順に並び替え、枠候補と分類された矩形の面積の小さい矩形から順に枠を抽出し、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にない場合は、枠を抽出した枠候補となった矩形の画像を白で埋め、枠候補と分類された矩形が2つ以上包含でなく、互いに一部が重なっている位置関係にある場合には枠を抽出した枠候補となった矩形の画像を白で埋めることを抑制して次の枠候補の矩形について枠抽出を行うことを特徴とする表認識装置。
  5. 請求項3又は4の表認識装置を有することを特徴とする文字認識装置。
  6. 請求項1又は2の表認識方法の表認識プログラムを記録したことを特徴とする記録媒体。
JP2000071399A 2000-03-15 2000-03-15 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 Expired - Fee Related JP4159720B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000071399A JP4159720B2 (ja) 2000-03-15 2000-03-15 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体
US09/804,241 US6785420B2 (en) 2000-03-15 2001-03-13 Method and apparatus for table recognition, apparatus for character recognition, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000071399A JP4159720B2 (ja) 2000-03-15 2000-03-15 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体

Publications (2)

Publication Number Publication Date
JP2001266068A JP2001266068A (ja) 2001-09-28
JP4159720B2 true JP4159720B2 (ja) 2008-10-01

Family

ID=18589989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000071399A Expired - Fee Related JP4159720B2 (ja) 2000-03-15 2000-03-15 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体

Country Status (2)

Country Link
US (1) US6785420B2 (ja)
JP (1) JP4159720B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3995185B2 (ja) * 2000-07-28 2007-10-24 株式会社リコー 枠認識装置及び記録媒体
JP4461769B2 (ja) * 2003-10-29 2010-05-12 株式会社日立製作所 文書検索・閲覧手法及び文書検索・閲覧装置
JP2006253842A (ja) 2005-03-08 2006-09-21 Ricoh Co Ltd 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法
US7557963B2 (en) * 2005-08-12 2009-07-07 Seiko Epson Corporation Label aided copy enhancement
US7583841B2 (en) 2005-12-21 2009-09-01 Microsoft Corporation Table detection in ink notes
US7664325B2 (en) * 2005-12-21 2010-02-16 Microsoft Corporation Framework for detecting a structured handwritten object
JP4329764B2 (ja) 2006-01-17 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および罫線抽出プログラム
JP4424309B2 (ja) 2006-01-23 2010-03-03 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、文字判定プログラム、および文字判定方法
JP4869841B2 (ja) * 2006-03-14 2012-02-08 株式会社リコー 画像処理装置、画像方向判別方法、および画像方向判別プログラム
US7752538B2 (en) * 2006-07-26 2010-07-06 Xerox Corporation Graphical syntax analysis of tables through tree rewriting
US7873215B2 (en) * 2007-06-27 2011-01-18 Seiko Epson Corporation Precise identification of text pixels from scanned document images
US8634645B2 (en) * 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
WO2013038570A1 (ja) * 2011-09-16 2013-03-21 富士通株式会社 表示制御プログラム、表示制御装置、および表示制御方法
US9008443B2 (en) * 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages
US8812870B2 (en) 2012-10-10 2014-08-19 Xerox Corporation Confidentiality preserving document analysis system and method
US9008425B2 (en) 2013-01-29 2015-04-14 Xerox Corporation Detection of numbered captions
CN107688789B (zh) * 2017-08-31 2021-05-18 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN113221778B (zh) * 2021-05-19 2022-05-10 北京航空航天大学杭州创新研究院 手写表格的检测与识别方法及装置
CN113485705B (zh) * 2021-06-30 2023-11-21 深圳软牛科技有限公司 基于QML Rectangle组件的选框方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2713622B2 (ja) * 1989-11-20 1998-02-16 富士通株式会社 表形式文書読取装置
US5991440A (en) * 1991-06-21 1999-11-23 Canon Kabushiki Kaisha Method and apparatus for recognizing input handwritten characters associated with title information
JPH1049676A (ja) 1996-08-06 1998-02-20 Ricoh Co Ltd 罫線認識方法
US6226402B1 (en) * 1996-12-20 2001-05-01 Fujitsu Limited Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3411472B2 (ja) * 1997-05-30 2003-06-03 富士通株式会社 パターン抽出装置
US6636631B2 (en) * 1998-06-04 2003-10-21 Matsushita Electric Industrial Co., Ltd. Optical character reading method and system for a document with ruled lines and its application

Also Published As

Publication number Publication date
US6785420B2 (en) 2004-08-31
US20010024520A1 (en) 2001-09-27
JP2001266068A (ja) 2001-09-28

Similar Documents

Publication Publication Date Title
JP4159720B2 (ja) 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体
JP4626886B2 (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
JP3338537B2 (ja) 画像傾き検出装置
TWI235343B (en) Estimating text color and segmentation of images
JP2940936B2 (ja) 表領域識別方法
JP4261005B2 (ja) 領域ベースのイメージ2値化システム
US20070237394A1 (en) Image processor for character recognition
JP3995185B2 (ja) 枠認識装置及び記録媒体
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
US8306335B2 (en) Method of analyzing digital document images
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
US9076225B2 (en) Image processing device, an image processing method and a program to be used to implement the image processing
MXPA02008494A (es) Correccion de distorsiones en el proceso de formas.
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JP7013341B2 (ja) 帳票認識装置、帳票認識方法、及び帳票認識プログラム
JP3090070B2 (ja) 帳票識別方法及び装置
JP3881455B2 (ja) 画像補正装置及び画像補正方法並びに画像補正方法を記録した媒体
JP2000082110A (ja) 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
JP3391987B2 (ja) 帳票認識装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
US20220406083A1 (en) Image processing apparatus, control method thereof, and storage medium
US20030002062A1 (en) Image processing apparatus, method and program, and storage medium
Elmore et al. A morphological image preprocessing suite for ocr on natural scene images
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080716

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130725

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees