JP4235286B2 - 表認識方法及び装置 - Google Patents
表認識方法及び装置 Download PDFInfo
- Publication number
- JP4235286B2 JP4235286B2 JP25868198A JP25868198A JP4235286B2 JP 4235286 B2 JP4235286 B2 JP 4235286B2 JP 25868198 A JP25868198 A JP 25868198A JP 25868198 A JP25868198 A JP 25868198A JP 4235286 B2 JP4235286 B2 JP 4235286B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- image
- rectangular
- instruction
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明はOCR(光学的文字認識)を用いて表形式の紙面文書を電子的な表形式データに変換する表認識装置及び方法に関するものである。
【0002】
【従来の技術】
OCR(光学的文字認識)を用いて表形式の紙面文書を電子的なデータにするという表認識処理は、それまで紙面上に存在していた表の情報をデータベース化することを可能とするものであり、表等の利用の域を大きく広げるために重要な技術である。
【0003】
ここで表認識とは、表の構造の解析、および表の要素である項の文字認識の2つからなる処理である。文字の意味的な集合であり表の要素をなす「項」の、行・列の連なりからなる2次元の構造でなりたっているものが「表」であると考えると、表構造の解析とは、表が何行・何列で構成されているのかということ、および表中の文字がそれぞれどの項に属し、その項は表の行列でどの範囲に存在するかを求める作業に等しい。
【0004】
従来の表認識装置では、表構造の解析を自動的に行っているが、対象とする表の形式は限定されていた。例えば、項が全て罫線で区切られており、罫線抽出をするだけで表の構造が直ちに解るようになっている表、或いは、項間の罫線が省略されていても、各項は格子状に規則正しく並んでおり、文字の並びから構造が類推できる表など、いずれも構造を得るのが容易な表に限られていた。
【0005】
【発明が解決しようとする課題】
しかし、表のレイアウトは作成者の好み、意図によって様々である。特に項間の罫線に省略のある表において、複数行及び複数列にまたがる項、空欄の項、および複数の行からなる一つの項などが混在する場合、文字の配置のみからその構造を常に正確に得ることは非常に困難である。雛型を利用したり、文字認識結果を考慮するなどして、人間の思考プロセスに近い構造解析を実現しようという試みもあるが、それでもすべての表に対し100%正しい構造を自動的に解析することは不可能と言える。
【0006】
従って、表認識装置のユーザは、自動解析された表の構造に対し必要に応じてその修正を行うことで、意図通りの表データを得ている。この修正作業がいかに効率よく行えるかによって表認識装置の価値は大きく左右される。
【0007】
本発明は上記の問題に鑑みてなされたものであり、自動解析の結果として得られた表構造に対して、「項」の修正を容易に行うことを可能とし、効率良く表構造の修正作業を行うことができる環境を提供することを目的とする。
【0008】
また、本発明の他の目的は、ユーザが行った修正作業に基づく表構造の変化をリアルタイムに表示することにより、さらに効率良く表構造の修正作業を行うことができる環境を提供することにある。
【0009】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による表認識装置は例えば以下の構成を備える。すなわち、
表の画像に含まれる罫線を抽出する罫線抽出手段と、
前記表の画像に含まれる文字列を囲む矩形領域を、項の矩形領域として抽出する項領域抽出手段と、
前記罫線抽出手段で抽出された罫線と、前記項領域抽出手段で抽出された項の矩形領域間の空白部とに基づいて、当該表の列及び行の境界位置を決定する解析手段と、
前記表の画像に重ねて、前記解析手段で得られた項の矩形領域を示す枠と、前記解析手段で決定した前記表の列及び行の境界位置を表す境界線とを、同時に表示する表構造表示手段と、
前記表構造表示手段によって表示された前記項の矩形領域を示す枠に対する、ユーザからの修正指示を受け付ける指示手段とを備える表認識装置であって、
前記指示手段で受け付けた修正指示に基づいて前記項の矩形領域を示す枠が修正されるたびに、前記解析手段は、当該修正された項の矩形領域の空白部と前記罫線抽出手段で抽出された罫線とに基づいて、当該表の列及び行の境界位置を再度決定し、更に、前記表構造表示手段は、前記表の画像に重ねて、当該修正された項の矩形領域を示す枠と、前記解析手段で再度決定された当該表の列及び行の境界位置を表す境界線とを、同時に再度表示するものであり、
前記表認識装置は、前記修正指示に基づいて修正した後の前記項の矩形領域内に含まれる文字について文字認識を行い、当該文字認識結果と前記解析手段で再度決定された境界位置とに基づいて表形式データを生成する生成手段を更に備える。
【0010】
また、上記の目的を達成するための本発明の他の態様による表認識方法は例えば以下の工程を備える。すなわち、
情報処理装置による表認識方法であって、
罫線抽出手段が、表の画像に含まれる罫線を抽出する罫線抽出工程と、
項領域抽出手段が、前記表の画像に含まれる文字列を囲む矩形領域を、項の矩形領域として抽出する項領域抽出工程と、
解析手段が、前記罫線抽出工程で抽出された罫線と、前記項領域抽出工程で抽出された項の矩形領域間の空白部とに基づいて、当該表の列及び行の境界位置を決定する解析工程と、
表構造表示手段が、前記表の画像に重ねて、前記解析手段で得られた項の矩形領域を示す枠と、前記解析手段で決定した前記表の列及び行の境界位置を表す境界線とを、同時に表示する表構造表示工程と、
指示手段が、前記表構造表示工程によって表示された前記項の矩形領域を示す枠に対する、ユーザからの修正指示を受け付ける指示工程とを有する表認識方法であって、
前記指示工程で受け付けた修正指示に基づいて前記項の矩形領域を示す枠が修正されるたびに、前記解析工程では、当該修正された項の矩形領域の空白部と前記罫線抽出工程で抽出された罫線とに基づいて、当該表の列及び行の境界位置を再度決定し、更に、前記表構造表示工程では、前記表の画像に重ねて、当該修正された項の矩形領域を示す枠と、前記解析工程で再度決定された当該表の列及び行の境界位置を表す境界線とを、同時に再度表示し、
前記表認識方法は、生成手段が、前記修正指示に基づいて修正した後の前記項の矩形領域内に含まれる文字について文字認識を行い、当該文字認識結果と前記解析工程で再度決定された境界位置とに基づいて表形式データを生成する生成工程を更に有する。
【0011】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【0012】
図1は本実施形態における表認識装置の概略の構成を示すブロック図である。図1に示されるように、本実施形態では、パーソナルコンピュータを用いて表認識装置を実現する場合を説明する。
【0013】
図1において、11はCPUであり、ROM12或いはRAM13に格納された制御プログラムに従って、本装置ににおける各種制御を実現する。12はROMであり、本装置の立ち上げ時のブートプログラムや各種データを格納する。13はRAMであり、CPU11によって実行される制御プログラムを格納するための領域や、CPU11が各種制御を実行する際の作業領域を提供する。14は外部記憶装置であり、ハードディスクやフロッピーディスクで構成される。外部記憶装置14に格納された制御プログラムは、必要に応じてRAM13にロードされ、CPU11によって実行される。
【0014】
15はディスプレイであり、CPU11の制御により各種表示を行う。16は入力装置であり、キーボードや、マウス等のポインティングデバイス(以下、マウスという)により構成される。17は周辺装置用のインターフェースであり、本実施形態では画像読み込みのためのスキャナ18が接続される。19は上述の各構成を相互に通信可能に接続するバスである。
【0015】
図2は本実施形態による表認識装置の機能構成を示すブロック図である。図2において、101は画像の表領域を設定する表領域設定部、102は表画像から罫線を抽出する罫線抽出部、103は表画像から文字列の矩形を抽出する文字列抽出部、104は表の項の矩形と罫線から表の構造を解析する表構造解析部、105は文字認識を行う文字認識部、106は解析された表構造と文字認識結果を表データとして出力する表データ出力部である。107はディスプレイ部であり、表画像および表構造解析結果の情報をディスプレイ15上に表示する。108は操作部であり、ユーザが表領域の設定や表の項のエディットするのにマウス、キーボードなどの入力装置16を介して指示された操作入力を処理する。
【0016】
なお、図2に示される上記の機能は、外部記憶装置14からRAM13にロードされた、後述の図3のフローチャートで示される制御を実現するための制御プログラムをCPU11が実行することで構成されるものである。
【0017】
次に、図3を用いて本実施形態の表認識装置の動作を説明する。図3は本実施形態の表認識処理を説明するフローチャートである。
【0018】
まず、ステップS201において、表領域設定部101により、入力された画像に対して表領域を設定する。例えば、スキャナ18より読み取った文書画像から表部分を抽出する。本例では、ユーザがディスプレイに表示された文書画像上で、マウスを用いて表を囲む矩形を指定することで表領域の設定を行うものとする。なお、公知の自動文書領域分割技術を用いた領域分割結果を用いて自動的に表領域の設定を行ってもよい。またあらかじめ表に限定された画像であれば画像全体を表領域とすればよい。
【0019】
次に、ステップS202では、罫線抽出部102が設定された表領域中から表の罫線を抽出する。表罫線は画像上に連続する黒画素を検出して求めることができる。なお、このような罫線の抽出技術は公知であるので、詳細な説明は省略する。
【0020】
次に、ステップS203では、文字列抽出部103が表中の文字列を抽出する。具体的には、画像上で文字列を囲む矩形の座標を抽出する。これは、連結する黒画素の外接矩形を文字または文字の一部とし、それぞれ近傍に存在する矩形どうしを結合した矩形を文字列と看倣して得られる。一般に項となる文字列をなす文字どうしは左右に接近していることが多いので、1文字の予想される平均文字高さに相当する距離以内にある左右に並んだ矩形を統合していき、1つの項とする。ここで文字高さを用いるのは、「文字幅」が文字種により大きく異なるのに対して「文字高さ」は比較的安定しているためであるのと、隣り合う文字はくっつきやすいが文字行同士がくっつくケースは少なく、「文字高さ」のほうが基準値として安定に抽出できるからである。
【0021】
図4は表画像の一例を示す図である。また、図5は図4に示した表画像に対する文字列の抽出結果を図示す図である。図4に示した表画像に対して上述の文字列抽出部103による文字列抽出を行った結果、図5に示される如く矩形領域が得られる。なお、ここで抽出された文字列は、意味的なまとまりである表の項とは必ずしも一対一に対応しない可能性があるが、これに続く以下の処理は、この文字列の矩形の集合を項の矩形の集合の初期値として看倣して行われる。
【0022】
ステップS204では、表構造解析部104が、上述の処理で得られた罫線と項の集合を用いて、表の構造解析を行う。表の構造解析とは、表が何行、何列の項で構成されているか、および各項がその行列上でどの位置を示すか(何行何列目か)を決定することである。
【0023】
以下に、本実施形態で採用する行、列の求め方を説明する。表は罫線および項の間の空白によって縦方向の列、横方向の行にそれぞれ分けられる。すなわち表の行や列を求めることは、罫線および項の間の空白からなる境界の位置の集合を求めることに等しい。以下、表の境界を求める手順について図6及び図7を参照して説明する。
【0024】
まず、列境界の集合Xを求める手順を説明する。図6は、図5に示した文字列抽出結果に関して、列境界位置の候補抽出を行った状態を示す図である。列境界を求めるには、まず、表中の縦罫線の位置のx座標を抽出し、L=l1,…,ljとする。また、左右に隣りあう2つの項の矩形の端間の中点(以下、項間位置という)を境界とし、すべての隣りあう2矩形間に対してそのx座標を求めたものの集合をW=w1,…,wkとする。図6では3つの縦罫線位置(l1、l2、l3)と、4つの項間位置(w1〜w4)が検出されており、これらが列境界の候補となる。
【0025】
次に、L,Wの和集合をソートした集合をBとする。このBの中で、隣りあう座標値で近傍のものは統合し、その中間の座標値一つにする。ただし、罫線の座標は移動しない、すなわちlpとwqを統合するときは必ずlpの座標値を残し、かつ罫線同士での統合は行わない。
【0026】
以上により求めた境界座標の集合を、列境界の集合X=X0,…,Xmとする。同様にして横罫線と上下に隣りあう矩形間の境界から求めた、行境界の集合Y=Y0,…,Ynとする。これらより、表の行数をm、列数をnとする。図7は、以上のようにして列境界及び行境界を求めた結果を示す図である。
【0027】
次に、図5において抽出された各項が、図7のごとく決定された表の行、列上でどの範囲を占めるかについて、以下のようにして求める。
【0028】
実座標上で、その矩形の4つの頂点が(x0,y0)、(x1,y0)、(x1,y1)、(x0,y1)である(以下、このような矩形を(x0,y0)〜(x1,y1)の矩形という)項に対し、行、列境界の座標値がつくる4点のうち、その項を囲んでかつ最小となる4点が、
(Xi,Yj)〜(Xk,Yl)
となるとき、その項の行列上での位置は
(i+1,j+1)〜(k,l)
となる。
【0029】
以上のようにして、表構造の解析を終えると、ステップS205において、ディスプレイ部107がその構造解析結果をディスプレイ15に表示する。ディスプレイ15上には、表の原画像に重ねて、上記処理で抽出した項の矩形、および行、列の境界線が描画される。
【0030】
ただし、このとき複数の行あるいは列にまたがる項があった場合、その内部の境界線分は表示しないことにする。すなわち、境界の座標(Xp,Yq)と(Xp,Yr)の間の縦線をVpq-pr、境界の座標(Xp,Yq)と(Xs,Yq)の間の横線をVpq-sqと書くとき
(i,j)〜(k,l)の項に対して、
i<kのとき、Vpj-pl(p=i,…,k−1)
j<lのとき、Hiq-kq(p=j,…,l−1)
にあたる線分は描画しない。
【0031】
図8は上記アルゴリズムによる境界線の表示結果の一例を示す図である。図8に示されるように,境界を跨ぐ項があった場合でも、各項の行列内で占める範囲が境界によって囲まれた矩形で示されるので、表の構造が容易に把握できる。
【0032】
さて、表の項とは表の要素をなす意味的なまとまった文字の集合である。一方、ステップS203で抽出された文字列の矩形は単に隣りあう文字の集合であるので、両者は一対一には対応しないことがある。そこで、以下のステップS206、S207では、その修正のための手段をユーザに提供する。
【0033】
ステップS206にて、ユーザはディスプレイに表示される項および境界線で示された表の構造が、ユーザの意図する表構造と合致しているかどうかを判断する。例えば、図9のような表に対し、正しい構造が解析されていれば、ディスプレイへの表示は図10のようになる。これに対して、図11は、項と看做された矩形が不正であった等の理由によって表構造の解析結果が誤っている場合の表示例を示す図である。
【0034】
解析結果の表構造がユーザの意図している表構造と合致していないと判断された場合は、ステップS207にてユーザによる項の修正を可能とする。修正はディスプレイ画面上にて、表の画像に重ねて表示されている項の矩形枠に対し、マウスやキーボードを用いて行われる。それぞれの矩形枠は矩形枠上でマウスをクリックすることにより選択状態になり、選択状態になった枠は変形、移動、削除ができる、また新規に矩形枠を作成することもできる。以下に、表の構造を修正する主な作業を3つ挙げて説明する。
【0035】
▲1▼項の統合
これは、図12の(a)で示されるように、本来は一つの項をなすべき2つ以上の文字列がそれぞれ別の項になってしまっている状態の修正である。これらをマウス操作によって統合して一つにする操作をユーザに提供する。例えば、それらの分離された項の枠を選択状態にし、統合を指示するキーを押すことで、2つの矩形を内包する一つの矩形が生成されて元の矩形は消滅させる(図12の(b))という操作である。もしくは、そのような統合指示はマウス操作によるプルダウンメニューの項目として実現されてもよいことは明らかである。
【0036】
▲2▼項の分離
これは、図13の(a)で示されるように、本来は2つ以上の別の項が一つの項になってしまっている状態の修正である。この場合ユーザは項を変形して本来2つの項の片方の矩形に一致させ、その後枠の新規作成によりもう一つの項を作成する(図13の(b))。
【0037】
▲3▼項の範囲の修正
これは、図14の(a)で示されるように、項と文字列の対応は正しいが項の表の構造の行列中で占める位置が正しくない状態の修正である。ユーザは現在引かれている境界線を越えて、本来項が占める範囲いっぱいまで項の枠を広げることで修正が行われる(図14の(b))。
【0038】
以上のような枠の更新作業の1手順ごと、すなわち、ユーザが枠を操作するマウスのドラッグを離したり、削除を行ったりする度に、ステップS204へ戻り、更新が行われた項に対して表構造の解析が行われる。そして、ステップS205において、直ちにその解析結果である構造の表示が行われる。このため、ユーザは自身が行う項の枠の修正により表構造がどのように解析されたかを直ちに知ることができる。
【0039】
以上のようにして表構造の修正を行った結果、ディスプレイに表示された表の構造がユーザの意図する構造と合致したとユーザによって判断されると、その旨の操作入力により表の構造が確定され、ステップS208、S209によるデータ出力の処理に移る。
【0040】
まず、ステップS208では、文字認識部105が表の各項に対応する表画像中の文字について公知の文字認識技術を実行し、それらを文字コードに変換する。そして、ステップS209において、上述の処理によって確定された表の構造と、表の項の文字コードから、表形式のデータが作成されて出力される。表形式のデータの例として、図9に示した表に対するHTML形式データの出力例を図15に示す。
【0041】
以上述べたように、本実施形態によれば、表の構造を解析して表データを出力する表認識装置において、自動処理では解析が困難或いは不可能な表に対してユーザが修正を効率的に行うことができ、ユーザの意図通りの表データを容易に得ることができる。
【0042】
[他の実施形態]
上述した実施形態においては、表画像から文字列抽出により得られた矩形を項の初期値としてディスプレイに表示し、表示された項の矩形に対してユーザが変形、移動、削除を行うことで表構造の修正を行った。しかしながら、ユーザによる修正の方法はこれに限られるものではない。その変形の一例として、例えば、文字列抽出で得られた文字列矩形とは別に、項を指定するための矩形をディスプレイに表示し、ユーザがこれを修正するようにしてもよい。
【0043】
図16は、他の実施形態による表構造の修正を説明する図であり、文字列の矩形と項の矩形を併せてディスプレイに表示した例で得ある。1の太線の矩形が文字列の矩形を示し、2の点線の矩形が項の矩形を示す。マウス操作により、両者をそれぞれに変形、移動、削除を行うことができる。このようにすることで、第一の実施形態で説明した図14のような項の変形を行う場合、項の矩形(図16の点線で示された矩形)だけを広げればよく、文字認識すべき文字列の矩形はそのままの形で保たれる。このため、拡大した部分にノイズが含まれていても文字認識には影響を与えずに済む。
【0044】
以上のように、他の実施形態によれば、ユーザが表構造の修正を効率よく行え、ユーザの意図した通りの表データが容易に得られる効果を奏するとともに、項の変形による文字認識への影響が低減される。
【0045】
なお、本発明は、複数の機器(例えばホストコンピュータ,インタフェイス機器,リーダ,プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機,ファクシミリ装置など)に適用してもよい。
【0046】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0047】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0048】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0049】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0050】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0051】
【発明の効果】
以上説明したように、本発明によれば、自動解析の結果として得られた表構造に対して、「項」の修正を容易に行うことが可能となり、効率良く表構造の修正作業を行うことができる。そして、その結果ユーザは意図した通りの表データを容易に得ることができる。
【0052】
また、本発明によれば、ユーザが行った修正作業に基づく表構造の変化をリアルタイムに表示することにより、さらに効率良く修正作業を行うことができる。
【0053】
【図面の簡単な説明】
【図1】本実施形態における表認識装置の概略の構成を示すブロック図である。
【図2】本実施形態による表認識装置の機能構成を示すブロック図である。
【図3】本実施形態の表認識処理を説明するフローチャートである。
【図4】表画像の一例を示す図である。
【図5】図4に示した表画像に対する文字列の抽出結果を図示す図である。
【図6】図5に示した文字列抽出結果に関して、列境界位置の候補抽出を行った状態を示す図である。
【図7】列境界及び行境界を求めた結果を示す図である。
【図8】境界線の表示結果の一例を示す図である。
【図9】表画像の他の例を示す図である。
【図10】図9に示された表画像について項が正しく認識された場合の解析結果の表示例を示す図である。
【図11】図9に示された表画像について、表構造の解析結果が誤っている場合の表示例を示す図である。
【図12】表構造の修正の一例としての項の統合を説明する図である。
【図13】表構造の修正の一例としての項の分離を説明する図である。
【図14】表構造の修正の一例としての項の範囲の変更を説明する図である。
【図15】図9に示した表に対応する表形式データの出力例を示す図である。
【図16】他の実施形態による表構造の修正を説明する図である。
Claims (9)
- 表の画像に含まれる罫線を抽出する罫線抽出手段と、
前記表の画像に含まれる文字列を囲む矩形領域を、項の矩形領域として抽出する項領域抽出手段と、
前記罫線抽出手段で抽出された罫線と、前記項領域抽出手段で抽出された項の矩形領域間の空白部とに基づいて、当該表の列及び行の境界位置を決定する解析手段と、
前記表の画像に重ねて、前記解析手段で得られた項の矩形領域を示す枠と、前記解析手段で決定した前記表の列及び行の境界位置を表す境界線とを、同時に表示する表構造表示手段と、
前記表構造表示手段によって表示された前記項の矩形領域を示す枠に対する、ユーザからの修正指示を受け付ける指示手段とを備える表認識装置であって、
前記指示手段で受け付けた修正指示に基づいて前記項の矩形領域を示す枠が修正されるたびに、前記解析手段は、当該修正された項の矩形領域の空白部と前記罫線抽出手段で抽出された罫線とに基づいて、当該表の列及び行の境界位置を再度決定し、更に、前記表構造表示手段は、前記表の画像に重ねて、当該修正された項の矩形領域を示す枠と、前記解析手段で再度決定された当該表の列及び行の境界位置を表す境界線とを、同時に再度表示するものであり、
前記表認識装置は、前記修正指示に基づいて修正した後の前記項の矩形領域内に含まれる文字について文字認識を行い、当該文字認識結果と前記解析手段で再度決定された境界位置とに基づいて表形式データを生成する生成手段を更に備えることを特徴とする表認識装置。 - 前記項領域抽出手段は、前記表の画像に含まれる黒画素の外接矩形を文字又は文字の一部として検出し、所定値以下の距離にある前記外接矩形同士を統合していくことにより、前記項の矩形領域を抽出することを特徴とする請求項1に記載の表認識装置。
- 前記指示手段で受け付ける修正指示は、前記項の矩形領域を示す枠に対する、統合指示と分離指示と範囲の修正指示とのうちの少なくともいずれかであることを特徴とする請求項1または2に記載の表認識装置。
- 前記範囲の修正指示は、前記項の矩形領域を示す枠を、当該表示されている境界線を越えて広げることにより行われることを特徴とする請求項3に記載の表認識装置。
- 情報処理装置による表認識方法であって、
罫線抽出手段が、表の画像に含まれる罫線を抽出する罫線抽出工程と、
項領域抽出手段が、前記表の画像に含まれる文字列を囲む矩形領域を、項の矩形領域として抽出する項領域抽出工程と、
解析手段が、前記罫線抽出工程で抽出された罫線と、前記項領域抽出工程で抽出された項の矩形領域間の空白部とに基づいて、当該表の列及び行の境界位置を決定する解析工程と、
表構造表示手段が、前記表の画像に重ねて、前記解析手段で得られた項の矩形領域を示す枠と、前記解析手段で決定した前記表の列及び行の境界位置を表す境界線とを、同時に表示する表構造表示工程と、
指示手段が、前記表構造表示工程によって表示された前記項の矩形領域を示す枠に対する、ユーザからの修正指示を受け付ける指示工程とを有する表認識方法であって、
前記指示工程で受け付けた修正指示に基づいて前記項の矩形領域を示す枠が修正されるたびに、前記解析工程では、当該修正された項の矩形領域の空白部と前記罫線抽出工程で抽出された罫線とに基づいて、当該表の列及び行の境界位置を再度決定し、更に、前記表構造表示工程では、前記表の画像に重ねて、当該修正された項の矩形領域を示す枠と、前記解析工程で再度決定された当該表の列及び行の境界位置を表す境界線とを、同時に再度表示し、
前記表認識方法は、生成手段が、前記修正指示に基づいて修正した後の前記項の矩形領 域内に含まれる文字について文字認識を行い、当該文字認識結果と前記解析工程で再度決定された境界位置とに基づいて表形式データを生成する生成工程を更に有することを特徴とする表認識方法。 - 前記項領域抽出工程では、前記表の画像に含まれる黒画素の外接矩形を文字又は文字の一部として検出し、所定値以下の距離にある前記外接矩形同士を統合していくことにより、前記項の矩形領域を抽出することを特徴とする請求項5に記載の表認識方法。
- 前記指示工程で受け付ける修正指示は、前記項の矩形領域を示す枠に対する、統合指示と分離指示と範囲の修正指示とのうちの少なくともいずれかであることを特徴とする請求項5または6に記載の表認識方法。
- 前記範囲の修正指示は、前記項の矩形領域を示す枠を、当該表示されている境界線を越えて広げることにより行われることを特徴とする請求項7に記載の表認識方法。
- コンピュータに、表の画像情報に基づいて表形式のデータを生成させるための制御プログラムを格納した記憶媒体であって、前記コンピュータを、
表の画像に含まれる罫線を抽出する罫線抽出手段と、
前記表の画像に含まれる文字列を囲む矩形領域を、項の矩形領域として抽出する項領域抽出手段と、
前記罫線抽出手段で抽出された罫線と、前記項領域抽出手段で抽出された項の矩形領域間の空白部とに基づいて、当該表の列及び行の境界位置を決定する解析手段と、
前記表の画像に重ねて、前記解析手段で得られた項の矩形領域を示す枠と、前記解析手段で決定した前記表の列及び行の境界位置を表す境界線とを、同時に表示する表構造表示手段と、
前記表構造表示手段によって表示された前記項の矩形領域を示す枠に対する、ユーザからの修正指示を受け付ける指示手段とを備える表認識装置であって、
前記指示手段による修正指示に基づいて前記項の矩形領域を示す枠が修正されるたびに、前記解析手段は、当該修正された項の矩形領域の空白部と前記罫線抽出手段で抽出された罫線とに基づいて、当該表の列及び行の境界位置を再度決定し、更に、前記表構造表示手段は、前記表の画像に重ねて、当該修正された項の矩形領域を示す枠と、前記解析手段で再度決定された当該表の列及び行の境界位置を表す境界線とを、同時に再度表示するものであり、
前記表認識装置は、前記修正指示に基づいて修正した後の前記項の矩形領域内に含まれる文字について文字認識を行い、当該文字認識結果と前記解析手段で再度決定された境界位置とに基づいて表形式データを生成する生成手段を更に備える表認識装置として機能させるための制御プログラムを記憶したことを特徴とするコンピュータ可読記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25868198A JP4235286B2 (ja) | 1998-09-11 | 1998-09-11 | 表認識方法及び装置 |
US09/390,208 US6628832B2 (en) | 1998-09-11 | 1999-09-08 | Table recognition method and apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25868198A JP4235286B2 (ja) | 1998-09-11 | 1998-09-11 | 表認識方法及び装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000090195A JP2000090195A (ja) | 2000-03-31 |
JP2000090195A5 JP2000090195A5 (ja) | 2007-03-15 |
JP4235286B2 true JP4235286B2 (ja) | 2009-03-11 |
Family
ID=17323632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25868198A Expired - Fee Related JP4235286B2 (ja) | 1998-09-11 | 1998-09-11 | 表認識方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6628832B2 (ja) |
JP (1) | JP4235286B2 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3842006B2 (ja) * | 2000-03-30 | 2006-11-08 | グローリー工業株式会社 | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7499602B2 (en) * | 2001-07-12 | 2009-03-03 | International Business Machines Corporation | Efficiency and speed in verification of recognition results |
JP4977368B2 (ja) * | 2005-12-28 | 2012-07-18 | 富士通株式会社 | 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体 |
JP4329764B2 (ja) * | 2006-01-17 | 2009-09-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および罫線抽出プログラム |
JP4424309B2 (ja) * | 2006-01-23 | 2010-03-03 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、文字判定プログラム、および文字判定方法 |
JP4973063B2 (ja) * | 2006-08-14 | 2012-07-11 | 富士通株式会社 | 表データ処理方法及び装置 |
AU2006252019B2 (en) * | 2006-12-13 | 2012-06-28 | Canon Kabushiki Kaisha | Method and Apparatus for Dynamic Connector Analysis |
TWI339362B (en) * | 2007-06-01 | 2011-03-21 | Primax Electronics Ltd | Method of image analysis |
JP4402138B2 (ja) * | 2007-06-29 | 2010-01-20 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP4590433B2 (ja) * | 2007-06-29 | 2010-12-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP5376795B2 (ja) * | 2007-12-12 | 2013-12-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、そのプログラム及び記憶媒体 |
US8438472B2 (en) | 2009-01-02 | 2013-05-07 | Apple Inc. | Efficient data structures for parsing and analyzing a document |
US8335981B2 (en) | 2009-08-03 | 2012-12-18 | Business Objects Software Ltd. | Metadata creation |
JP2011159179A (ja) * | 2010-02-02 | 2011-08-18 | Canon Inc | 画像処理装置及びその処理方法 |
US8433714B2 (en) * | 2010-05-27 | 2013-04-30 | Business Objects Software Ltd. | Data cell cluster identification and table transformation |
JP5249387B2 (ja) | 2010-07-06 | 2013-07-31 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP5676942B2 (ja) | 2010-07-06 | 2015-02-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US8549399B2 (en) | 2011-01-18 | 2013-10-01 | Apple Inc. | Identifying a selection of content in a structured document |
US9898523B2 (en) * | 2013-04-22 | 2018-02-20 | Abb Research Ltd. | Tabular data parsing in document(s) |
JP6202997B2 (ja) * | 2013-11-07 | 2017-09-27 | 株式会社東芝 | 電子機器、方法及びプログラム |
US10607381B2 (en) | 2014-07-07 | 2020-03-31 | Canon Kabushiki Kaisha | Information processing apparatus |
JP6452329B2 (ja) * | 2014-07-07 | 2019-01-16 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP6399872B2 (ja) * | 2014-07-07 | 2018-10-03 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP6489768B2 (ja) * | 2014-07-07 | 2019-03-27 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP6430197B2 (ja) * | 2014-09-30 | 2018-11-28 | 株式会社東芝 | 電子機器および方法 |
JP6614914B2 (ja) * | 2015-10-27 | 2019-12-04 | 株式会社東芝 | 画像処理装置、画像処理方法及び画像処理プログラム |
JP6430919B2 (ja) * | 2015-11-27 | 2018-11-28 | 日本電信電話株式会社 | 罫線枠補正方法、罫線枠補正装置および罫線枠補正プログラム |
JP6856321B2 (ja) | 2016-03-29 | 2021-04-07 | 株式会社東芝 | 画像処理システム、画像処理装置、および画像処理プログラム |
JP6680052B2 (ja) * | 2016-04-06 | 2020-04-15 | コニカミノルタ株式会社 | 表データ変換方法、プログラム、画像読取装置 |
CN111079756B (zh) * | 2018-10-19 | 2023-09-19 | 杭州萤石软件有限公司 | 一种单据图像中的表格提取与重建方法和设备 |
CN110956087B (zh) * | 2019-10-25 | 2024-04-19 | 北京懿医云科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
JP2021114211A (ja) | 2020-01-21 | 2021-08-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN111325110B (zh) * | 2020-01-22 | 2024-04-05 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
CN112712014B (zh) * | 2020-12-29 | 2024-04-30 | 平安健康保险股份有限公司 | 表格图片结构解析方法、***、设备和可读存储介质 |
CN114359938B (zh) * | 2022-01-07 | 2023-09-29 | 北京有竹居网络技术有限公司 | 一种表格识别方法及装置 |
WO2023188362A1 (ja) * | 2022-03-31 | 2023-10-05 | 三菱電機株式会社 | 表画像認識装置、プログラム及び表画像認識方法 |
CN114724154B (zh) * | 2022-04-18 | 2024-03-29 | 中国科学技术大学 | 表格识别方法及装置、存储介质及电子设备 |
CN116071771A (zh) * | 2023-03-24 | 2023-05-05 | 南京燧坤智能科技有限公司 | 表格重构方法、装置、非易失性存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5191612A (en) * | 1990-03-13 | 1993-03-02 | Fujitsu Limited | Character recognition system |
JP2789971B2 (ja) * | 1992-10-27 | 1998-08-27 | 富士ゼロックス株式会社 | 表認識装置 |
-
1998
- 1998-09-11 JP JP25868198A patent/JP4235286B2/ja not_active Expired - Fee Related
-
1999
- 1999-09-08 US US09/390,208 patent/US6628832B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20030123727A1 (en) | 2003-07-03 |
US6628832B2 (en) | 2003-09-30 |
JP2000090195A (ja) | 2000-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4235286B2 (ja) | 表認識方法及び装置 | |
JP3469345B2 (ja) | 画像のファイリング装置及びファイリング方法 | |
JP5123588B2 (ja) | 表示制御装置および表示制御方法 | |
JP5439455B2 (ja) | 電子コミック編集装置、方法及びプログラム | |
JP5211193B2 (ja) | 翻訳表示装置 | |
JPH05151254A (ja) | 文書処理方法およびシステム | |
JP2996933B2 (ja) | 図面表示装置 | |
JP4935459B2 (ja) | 文字認識方法、文字認識プログラムおよび文字認識装置 | |
JPH0612540B2 (ja) | 文書作成支援装置 | |
JP2001094760A (ja) | 情報処理装置 | |
JPH0660222A (ja) | 文字認識装置 | |
JP5361315B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2763042B2 (ja) | 画像処理方法 | |
JP4297815B2 (ja) | 情報処理装置および処理方法およびプログラムおよび記録媒体 | |
JP3163577B2 (ja) | ベクトル・フォント生成方法 | |
JP3150468B2 (ja) | オンライン文字認識装置 | |
JPS60167059A (ja) | 表および文書内デ−タ利用方式 | |
JPH11187231A (ja) | 画像検索装置及び画像検索方法 | |
JP3182694B2 (ja) | 図形編集方法および装置 | |
JP2007058819A (ja) | 索引情報生成装置 | |
JP2937607B2 (ja) | レイアウト作成装置 | |
JP2800205B2 (ja) | 画像処理装置 | |
JP2821002B2 (ja) | 文字処理装置及び文字処理方法 | |
JP2682873B2 (ja) | 表形式文書の認識装置 | |
JP4515108B2 (ja) | 作図装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050912 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20050912 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070119 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080808 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081128 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081215 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |