JP2001143018A - 文字読取装置および文字読取方法 - Google Patents

文字読取装置および文字読取方法

Info

Publication number
JP2001143018A
JP2001143018A JP32187299A JP32187299A JP2001143018A JP 2001143018 A JP2001143018 A JP 2001143018A JP 32187299 A JP32187299 A JP 32187299A JP 32187299 A JP32187299 A JP 32187299A JP 2001143018 A JP2001143018 A JP 2001143018A
Authority
JP
Japan
Prior art keywords
row
line
item
cell
cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP32187299A
Other languages
English (en)
Inventor
Katsuhiko Aoki
勝彦 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP32187299A priority Critical patent/JP2001143018A/ja
Publication of JP2001143018A publication Critical patent/JP2001143018A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 ヘッダやフッタを含む表形式文書から項目欄
のセルを的確に検出して、そのセルに対応するデータ欄
のセルの文字読取を正確にする。 【解決手段】 セル座標検出部14は画像メモリ12に読み
込んだ表形式文書の画像データから罫線を抽出して、そ
れぞれのセルの座標位置を求める。表整列部18はそれぞ
れの行および列に含まれるセルを整列させて、それぞれ
のセルにて形成される表の構造を表わす表構造データを
生成する。行分類部20は表構造データに基づいて同じセ
ル数の行が列方向に最も長く連続する区間を検出して、
その先頭行とその上の行を行の幅の差および行間隔など
を用いて比較して、項目行となる行を検出する。これに
より、文字認識部22は項目行のセルの文字を読み取り、
その文字に基づいて対応のデータ行のセル内の文字の属
性を認識して、適切な文字コードに変換する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、表形式文書から文
字を読み取る文字読取装置に係り、特に、たとえば、帳
票等の書面に記入された所望の文字を電子的に読み取る
好適な文字読取装置および文字読取方法に関するもので
ある。
【0002】
【従来の技術】従来、表形式文書から罫線を抽出して、
罫線で囲まれたセル内の文字を読み取る文字読取装置と
して、たとえば、特許公報第2740335 号に記載されたも
のが提案されている。
【0003】この文字読取装置は、表形式文書をイメー
ジデータとして入力する入力部と、そのイメージデータ
を記憶する記憶部と、記憶したイメージデータから罫線
を抽出して罫線で囲まれたセルを認識するセル抽出部
と、セルの中で項目欄に相当するセルのセル内文字を認
識する項目欄文字認識部と、セル属性を判定するための
判定基準を記憶するセル属性判定基準記憶部と、判定基
準に基づいて項目欄の文字から項目欄以外のセル属性を
判定するセル属性判定部と、判定したセル属性に従って
各セル内文字を認識する文字認識部とを有するものであ
った。
【0004】この装置によれば、上記特許公報に記載の
ように、数表や名簿等などの表形式文書であって、単一
の表の第1行目に項目欄を有する表形式文書を対象とし
て、その項目欄に続くデータ欄の文字を項目欄のそれぞ
れの項目文字に基づいて読み取るものであった。
【0005】すなわち、上記文字読取装置は、表形式文
書を入力部にて走査して、その結果の画像を表わすイメ
ージデータを読み込む。読み込んだイメージデータは、
記憶部に順次蓄積される。イメージデータが蓄積される
と、セル抽出部では、横罫線および縦罫線をそれぞれ抽
出して、それら罫線で囲まれるセルの座標位置を求め
る。セル抽出部にてそれぞれのセルを抽出すると、項目
欄文字認識部にて第1行目のそれぞれのセルの座標位置
から、そのセル内文字のイメージデータを記憶部から読
み出して、それぞれの文字を認識する。
【0006】次に、項目欄のそれぞれのセルの文字を認
識すると、セル属性判定部では、セル属性判定基準部の
判定基準に基づいて項目欄の文字のセル属性を判定し
て、これに続くデータ欄のセル属性を決定する。その判
定結果は、文字認識部に設定され、項目欄に続くデータ
欄にて対応のセル内の文字を読み取り、それぞれの文字
を文字コードに変換するものであった。
【0007】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術では、セル抽出部にて抽出した表の第1行
目のセルに書かれた文字を項目欄認識部にてそれぞれ項
目欄の文字として読み取るので、表形式文書に、対象と
する表以外の罫線にて囲まれたヘッダやフッタ等が存在
する場合は、項目欄を正しく認識することができず、デ
ータ欄の文字認識に支障をきたす場合があるという問題
があった。
【0008】また、項目欄がたとえば2行のセルにわた
って区画されている場合など、項目欄がデータ欄と異な
る複数行のセルで表わされている場合には、データ欄を
読み取るための正しい項目欄を認識することができない
場合があり、上記と同様にデータ欄の文字認識に支障を
きたす場合があるという問題があった。
【0009】したがって、表形式文書にヘッダやフッタ
がある場合、または項目欄が複数行にわたる場合などに
は、オペレータ等によって読取領域を指定しなければな
らず手間がかかるという問題があった。
【0010】本発明は、上述の課題を解消して、人手を
介することなく項目欄を的確に検出して、必要とするデ
ータ欄の文字を正確に読み取ることができる文字読取装
置を提供することを目的とする。
【0011】
【課題を解決するための手段】本発明による文字読取装
置は上記課題を解決するために、表形式文書から罫線で
囲まれた所定のセル内に書かれた文字を読み取る文字読
取装置において、表形式文書の画像を表わす画像データ
を入力する画像入力手段と、画像入力手段からの画像デ
ータを記憶する画像データ記憶手段と、画像データ記憶
手段の画像データから罫線の画像データを抽出して、そ
れら罫線で囲まれたそれぞれのセルの座標情報を表わす
罫線領域データを求めるセル座標検出手段と、セル座標
検出手段にて求めた罫線領域データに基づいてそれぞれ
のセルを行方向および列方向に整列させて、それぞれの
行および列のセルにて形成される表構造を表わす表構造
データを生成する表整列手段と、表整列手段にて生成し
た表構造データに基づいて項目行のセルおよびデータ行
のセルならびにそれら以外のセルにそれぞれの行を分類
する行分類手段と、行分類手段にて分類した少なくとも
データ行のそれぞれのセル内に書かれた文字を画像デー
タ記憶手段から読み取って文字コードに変換し、項目行
に書かれたセル内の文字属性に基づいて、各項目に対応
するデータ欄のセルの文字を認識する文字認識手段とを
含むことを特徴とする。
【0012】この場合、行分類手段は、表整列手段にて
生成した表構造データに基づいて各行に含まれるセルの
個数を求めるセル数検出手段と、同じセル数の行が最も
長く列方向に連続する区間を検出する連続区間検出手段
と、その区間の先頭行を仮の項目行として、その仮の項
目行とさらに上の行とを比較した結果から真の項目行を
検出する項目行検出手段とを含むとよい。
【0013】また、項目行検出手段では、仮の項目行と
その上の行とが比較され、行の幅の差、行の間隔または
それらの両方が、それぞれ所定の値以内である場合は、
上の行は新たな仮の項目行とされてさらにその上の行と
比較され、それぞれ所定の値を越える場合は、仮の項目
行は真の項目行とされると有利である。
【0014】また、項目行検出手段では、仮の項目行と
その上の行とが比較され、行に含まれるセルの面積の差
または行の面積に対するセルの面積の割合の差、および
行の間隔が、それぞれ所定の値以内である場合は、上の
行は新たな仮の項目行とされてさらにその上の行と比較
され、それぞれ所定の値を越える場合は、仮の項目行は
真の項目行とされることとして、項目行を検出してもよ
い。
【0015】これらの場合、表整列手段では、行方向の
セルは、それぞれのセルの座標位置およびその高さに基
づいて、いずれの行に属するかが決定され、それぞれの
行のセルが整列されるとよい。
【0016】
【発明の実施の形態】次に、添付図面を参照して本発明
による文字読取装置の一実施例を詳細に説明する。図1
には、本発明による文字読取装置の一実施例が示されて
いる。本実施例による文字読取装置は、図3に示す帳票
K等の表形式文書から罫線を抽出して、罫線で囲まれた
所定のセル内の文字を読み取る文字読取装置であって、
読取対象の表本体Aの他に罫線で囲まれたヘッダBやフ
ッタCを含む表形式文書から、表本体Aのデータ欄のセ
ル内に記入されたそれぞれの文字を読み取り、それぞれ
所定の文字コードに変換するデータ変換装置である。
【0017】特に、本実施例では、罫線で囲まれたセル
を行方向および列方向に整列させてそれぞれのセルにて
形成される表の構造を表わす表構造データを生成する、
図1の表整列部18と、その結果に基づいて表本体Aから
項目行およびデータ行を分類する行分類部20とを含み、
分類した項目行のセルに書かれた文字に基づいて、対応
のデータセルの文字を有効に文字コードに変換する点が
主な特徴点である。
【0018】詳細には、本実施例の文字読取装置は、図
1に示すように、画像入力部10と、画像メモリ12と、セ
ル座標検出部14と、表セル情報メモリ16と、表整列部18
と、行分類部20と、文字認識部22と、認識結果メモリ24
と、データ処理部26と、表示部28と、操作入力部30と、
制御部32とを含む。
【0019】画像入力部10は、表形式文書上のイメージ
画像を表わす画像データを入力する入力装置であり、本
実施例では、対象とする表形式文書を走査してその画像
信号を2値の画像データとして読み取るイメージスキャ
ナなどが有利に適用される。入力した画像データは、画
像データメモリ12に順次書き込まれる。画像データメモ
リ12は、画像入力手段10からの画像データを順次蓄積す
る記憶回路であり、たとえば、入力したイメージデータ
をビットマップに展開して記憶するフレームメモリなど
の記憶装置である。記憶した画像データは、セル座標検
出部14に供給される。
【0020】セル座標検出部14は、画像データ記憶部12
に蓄積した画像データに基づいて、罫線で囲まれたそれ
ぞれのセルの座標位置を検出するセル抽出回路であり、
たとえば、画像データ"1" が行方向または列方向に所定
の長さ以上連続する実線および間欠的に連続する破線に
て表わされる罫線をそれぞれ検出して、その交点位置か
らそれぞれのセルの座標を求める座標検出回路である。
それぞれのセルの座標位置を表わす情報は、罫線領域デ
ータとして表セル情報メモリ16に順次書き込まれて表整
列部18に供給される。
【0021】表整列部18は、セル座標検出部14にて求め
た罫線領域データに基づいて、それぞれのセルにて形成
される表構造を求める表構造検出回路であり、本実施例
では、いずれのセルがいずれの行および列に含まれるか
を決定し、それぞれのセルを行方向および列方向に整列
させて、その表構造を表わす表構造データを生成する。
特に、本実施例では、セルを行方向に整列させる際に、
それぞれのセルの座標位置およびその高さに基づいて、
いずれの行に属するかを決定して、それぞれの行のセル
を整列させる。生成した表構造データは、表セル情報メ
モリ16に順次書き込まれて行分類部20に供給される。
【0022】行分類部20は、表整列部18にて生成した表
構造データに基づいてそれぞれの行のセルを項目行のセ
ルおよびデータ行のセルならびにそれら以外のセルに分
類するセル分類回路であり、本実施例では、同じセル数
の行が列方向に最も長く連続する区間を検出して、その
区間の先頭行とさらに上の行を比較して項目行を求め
て、その項目行およびこれに続く同セル数区間のデータ
行ならびにそれら以外のヘッダおよびフッタの行に分類
する。
【0023】より具体的には、本実施例の行分類部20
は、表構造データから各行に含まれるセルの個数をそれ
ぞれ求めるセル数検出部と、その結果から同じセル数の
行が最も長く列方向に連続する区間を検出する連続区間
検出部と、その区間の先頭行を仮の項目行として、その
仮の項目行とさらに上の行とを比較した結果から真の項
目行を検出する項目行検出部とを含む。特に、本実施例
の項目行検出部は、仮の項目行とその上の行とを比較す
る際に、それらの行の幅の差が所定の値以内であるか否
かを求め、さらに行の間隔が所定の値以内であるか否か
を求めて、それぞれ所定の値以内となった場合に、上の
行を仮の項目行として、さらにその上の行と比較して、
それぞれ所定の値を越える場合に、仮の項目行を真の項
目行として項目行を検出する部位である。項目行を検出
すると、その下の同じセル数が連続する区間のそれぞれ
の行をデータ行とし、項目行の上の行をヘッダの行およ
びデータ行の区間の下の行をフッタの行として、それぞ
れ分類した結果を表セル情報メモリ16に書き込む。表セ
ル情報メモリ16に書き込まれた行分類の結果は、罫線領
域データおよび表構造データとともに文字認識部22に供
給される。
【0024】文字認識部22は、行分類部20にて分類した
データ行のそれぞれのセル内に書かれた文字の画像デー
タを画像メモリ12から読み出して所定の文字コードに変
換する文字コード変換回路であり、本実施例では、行分
類部20にて分類した項目行のセル内の文字属性に基づい
て、それぞれ対応するデータ行のセル内の文字を認識す
る。より具体的には、項目行のそれぞれのセル内の文字
の画像データを画像メモリ12から読み出して文字コード
に変換する項目行文字認識部と、セル属性を判定するた
めの判定基準を記憶するセル属性判定基準記憶部と、判
定基準に基づいて項目行の文字からデータ行のセル属性
を判定するセル属性判定部と、判定したセル属性に従っ
てそれぞれのデータ行のセル内文字を表わす画像データ
を画像メモリ12から読み出して文字コードに変換するデ
ータ行文字認識部とを含む。変換した文字コードは、そ
れぞれ認識結果メモリ24に書き込まれる。
【0025】認識結果メモリ24は、文字コードに変換さ
れたそれぞれのセルの文字をデータ行毎に蓄積する記憶
回路であり、その結果は文字コードに対応した文字に変
換されて表示部28に表示される。有利には、データ処理
部26にて並べ替えあるいは数値計算などの処理が施され
て表示される。表示部28は、認識結果メモリ24からの文
字コードで表わされる文字を表示するCRT(cathode ray
tube) などの表示装置であり、本実施例では、文字読取
の認識結果の表示およびそのデータ処理の結果を表示す
る。その表示切替などの操作は、操作入力部30からの指
示に従って実行される。
【0026】操作入力部30は、キーボードあるいはポイ
ンティングデバイスなどに接続されて、表示切替あるい
はデータ処理の指示または所望のデータの入力などに用
いられる操作回路である。その操作指示は制御部32に供
給される。制御部32は、文字読取のシーケンス制御およ
びデータ処理などを制御する中央処理装置であり、特
に、本実施例では画像入力部10の画像データ入力に応動
して、それぞれセル座標検出部14、表整列部18、行分類
部20および文字認識部22を順次制御するシーケンス制御
回路である。
【0027】次に、本実施例による文字読取装置の動作
を図2ないし図10を参照して説明する。まず、図2のフ
ローチャートに示すように、ステップS10 にて画像入力
部10は、表形式文書を走査して、その画像を2値の画像
データとして読み込んで画像メモリ12に順次蓄積する。
たとえば、本実施例では、表形式文書として図3に示す
ように、読取対象のデータが記入された表本体Aの他に
罫線で囲まれたヘッダBおよびフッタCを含む帳票Kの
文書画像が読み込まれる。
【0028】次に画像メモリ12に画像データが蓄積され
ると、ステップS12 に進み、セル座標検出部14にて画像
メモリ12から画像データを読み出して、それぞれの罫線
の画像データを抽出して、その罫線で囲まれたそれぞれ
のセルの座標位置を求める。この結果、求めたセルの座
標情報は、罫線領域データとして表セル情報メモリ16に
順次書き込まれる。
【0029】次にセルの座標位置が求められると、ステ
ップS14 に進み、表整列部18にて表セル情報メモリ16か
ら罫線領域データを読み出して、その座標情報からそれ
ぞれ各行のセルを行方向に整列させて、いずれのセルが
いずれの行に含まれるかを求める。この際、1行目から
順次セルの行方向の位置座標に基づいてそれぞれの行を
整列させると、たとえば、図4に示すように、3行目で
は、6個のセル100 〜110 が整列されて、その2列目の
下のセルに相当するセル112 が4行目となって検出され
る。そこで本実施例では、セルの位置座標とともに高さ
を基準にしてそれぞれのセルを行方向に整列させる。そ
の結果、図5に示すように、セル112 は3行目に含まれ
る第7のセルとして求められる。
【0030】以下同様に、各行のセルをそれぞれ位置座
標と高さに基づいて行方向に整列させる。行方向の整列
が終了すると、ステップS16 にてそれぞれの行の間隔な
どを求めて、セルを列方向に整列する。このようにして
求めたそれぞれの行および列のセルにて形成される表構
造を表わす表構造データは、表セル情報メモリ16に書き
込まれる。
【0031】次いで、ステップS18 に進み、行分類部20
にて表セル情報メモリ16から表構造データを読み出し
て、各行に含まれるセルの個数をそれぞれ図6に示すよ
うに求める。各行のセルの個数を求めると、ステップS2
0 に進んで、ステップS18 の結果から同じセル数の行が
最も長く列方向に連続する、たとえば図6に示すように
4行目から11行目のセル数"10"の区間Dを検出する。
【0032】次に、ステップS22 に進み、ステップS20
にて検出した区間Dの先頭行を図7に示すように仮の項
目行Eとして、ステップS24 に進む。ステップS24 で
は、図8に示すように、仮の項目行Eとその上の行Fの
幅の差を求め、その値が所定の値以内であるか否かを判
定して、さらに行の間隔が所定の値以内であるか否かを
判定する。それらの結果がそれぞれ所定の値以内であれ
ば、ステップS26 に移って、図9に示すように上の行F
を仮の項目行として、ステップS24 に戻り、仮の項目行
とした上の行Fとさらにその上の行Gとを比較する。そ
の結果、それぞれ所定の値を越える場合には、ステップ
S28 に進んで、仮の項目行Fを真の項目行として図10に
示すように項目行Fを検出する。
【0033】次いで、項目行Fを検出すると、ステップ
S30 にて項目行の下の同じセル数が連続する区間Dのそ
れぞれの行をデータ行として、項目行の上の各行をヘッ
ダの行およびデータ行の区間Dのさらに下の各行をフッ
タの行として分類する。それぞれ分類した結果は、表セ
ル情報メモリ16に書き込まれる。表セル情報メモリ16に
書き込まれた行分類の結果は罫線領域データおよび表構
造データとともに文字認識部22に供給される。
【0034】次に、行分類が終了すると、ステップS32
に進み、文字認識部22にて項目行として分類された行の
それぞれのセルの座標位置から、それらのセル内の文字
に相当する画像データを画像メモリ12から読み出してそ
れぞれの文字を認識する。次いで、ステップS34 にて、
あらかじめ記憶した判定基準に基づいて項目行の文字か
らデータ行のセル属性を判定する。その結果、ステップ
S36 にて、項目行のセルに対応するそれぞれのデータ行
のセル内文字を表わす画像データを画像メモリ12から読
み出して、それぞれの文字をステップS34 にて判定した
セル属性に従って文字コードに変換する。変換した文字
コードは、それぞれ認識結果メモリ24に書き込まれる。
【0035】次にステップS38 にて認識結果メモリ24に
書き込まれたそれぞれのデータ行の文字が表示部28に表
示されて、それぞれの文字が正確に読み取られたか否か
が確認される。それぞれの文字が正当であれば、ステッ
プS40 に移り、操作入力部30の操作に応動してデータ処
理部26が起動されて、並べ替えあるいは数値計算などの
所望のデータ処理が施されて、処理が終了する。
【0036】以下同様に、それぞれの表形式文書の文書
画像を表わす画像データを読み込んで、その中から罫線
を抽出して、それぞれの罫線にて囲まれたセルの座標位
置を求める。次いで、それぞれのセルの座標位置および
高さに基づいてセルを行方向および列方向に整列して、
その結果から項目行のセルおよびデータ行のセルならび
にそれら以外のセルを分類する。特に、項目行を検出す
る際に、同じセル数が最も長く列方向に連続する区間を
求めて、その先頭行と上の行さらに上の行を比較した結
果から項目行を検出する。項目行を検出すると、そのセ
ル内文字を認識して、その結果に基づいてデータ行の文
字を認識して、それぞれ文字コードに変換する。この結
果、表形式文書の表本体Aに記入された、必要とするそ
れぞれのデータ行のセルに記入された文字を的確に読み
取って、それぞれ所望のデータ処理を実行する。
【0037】以上のように本実施例の文字読取装置によ
れば、表整列部18にてそれぞれのセルを行方向および列
方向に整列して、それぞれのセルにて形成される表構造
を表わす表構造データを生成し、その表構造データに基
づいて行分類部20にて同じセル数の行が列方向に連続す
る区間を検出して、その先頭行と上の行さらに上の行と
を比較して項目行を検出するので、表形式文書に罫線で
囲まれたヘッダやフッタがある場合であっても項目行を
的確に検出することができ、その結果、項目行の文字に
基づいてデータ行に書かれた文字を正確に文字コードに
変換して読み取ることができる。
【0038】また、表整列部18にて行方向のセルを整列
する際に、それぞれのセルの行方向の位置座標およびそ
の高さを基準として、セルがいずれの行に属するかを決
定して行を整列するので、項目行が複数段のセルにわた
って区画されている場合であっても、的確に項目行のそ
れぞれのセルを検出することができ、その結果、項目行
の文字に基づいてデータ行に書かれた文字を、正確に文
字コードに変換して読み取ることができる。
【0039】したがって、表形式文書にヘッダやフッタ
がある場合あるいは項目行が複数段にわたる場合などで
あっても、オペレータ等によって読取領域を指定するこ
となく、必要とするデータ欄の文字を的確に読み取るこ
とができる。
【0040】なお、上記実施例では、行分類部20は、仮
の項目行とその上の行とを比較する際に、行の幅の差お
よび行の間隔に基づいて項目行を検出するようにした
が、本発明においては、仮の項目行とその上の行とを比
較する際に、それらの行に含まれるセルの面積または行
の面積に対するセルの面積の割合および行の間隔を比較
して、それらの差が、それぞれ所定の値以内であるか否
かに基づいて項目行を検出するようにしてもよい。
【0041】また、上記実施例では、画像入力部10とし
て表形式文書を走査してその2値画像データを形成する
イメージスキャナを適用した場合を例に挙げて説明した
が、本発明においては、これに限定されることなく、た
とえば、ファクシミリなどの伝送装置からの画像信号を
受けて入力する回路であってもよい。さらに、本発明に
おいては、2値の画像データに限定されることなく、罫
線および文字を的確に読み取ることができる画像データ
であれば、たとえば、諧調を含む画像データあるいはカ
ラー画像データを入力する回路であってもよい。
【0042】また、上記実施例では、説明を簡単にする
ため表形式文書を1枚づつ読み取ってそれぞれ文字読取
を実行する場合を例に挙げて説明したが、本発明におい
ては複数枚連続的に読み取ってそれぞれ処理してもよ
い。
【0043】
【発明の効果】以上説明したように本発明によれば、罫
線で囲まれたセルの座標情報を表わす罫線領域データに
基づいてそれぞれのセルを行方向および列方向に整列さ
せて、それぞれの行および列のセルにて形成される表構
造を表わす表構造データを生成する表整列手段と、表整
列手段にて生成した表構造データに基づいて項目行のセ
ルおよびデータ行のセルならびにそれら以外のセルにそ
れぞれの行を分類する行分類手段とを有するので、表形
式文書に対象とする表以外に罫線にて囲まれたヘッダや
フッタ等が存在する場合であっても項目行を的確に検出
することができ、その項目行の文字に基づいてデータ行
の文字を正確に文字コードに変換することができる。し
たがって、オペレータ等によって読取領域を指定するな
どの手間を省くことができ、処理を短時間に効率よく実
行することができるなどの優れた効果を奏する。
【図面の簡単な説明】
【図1】本発明による文字読取装置の一実施例を示すブ
ロック図である。
【図2】図1の実施例による文字読取装置の動作を説明
するためのフローチャートである。
【図3】図1の実施例による文字読取装置にて読み取る
表形式文書の一例を示す図である。
【図4】図1の実施例による文字読取装置の表整列部18
の処理過程を示す図である。
【図5】図1の実施例による文字読取装置の表整列部18
の処理結果を示す図である。
【図6】図1の実施例による文字読取装置の行分類部20
による連続区間の検出を示す図である。
【図7】図1の実施例による文字読取装置の行分類部20
による仮の項目行の決定を示す図である。
【図8】図1の実施例による文字読取装置の行分類部20
による、仮の項目行の比較工程の一例を示す図である。
【図9】図1の実施例による文字読取装置の行分類部20
による、仮の項目行の比較工程の一例を示す図である。
【図10】図1の実施例による文字読取装置の行分類部
20により決定された、真の項目行を示す図である。
【符号の説明】
10 画像入力部 12 画像メモリ 14 セル座標検出部 16 表セル情報メモリ 18 表整列部 20 行分類部 22 文字認識部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 表形式文書から罫線で囲まれた所定のセ
    ル内に書かれた文字を読み取る文字読取装置において、
    該装置は、 表形式文書の画像を表わす画像データを入力する画像入
    力手段と、 該画像入力手段からの画像データを記憶する画像データ
    記憶手段と、 該画像データ記憶手段に記憶した画像データから罫線の
    画像データを抽出して該罫線で囲まれたそれぞれのセル
    の座標情報を表わす罫線領域データを求めるセル座標検
    出手段と、 該セル座標検出手段にて求めた罫線領域データに基づい
    てそれぞれのセルを行方向および列方向に整列させて、
    それぞれの行および列のセルにて形成される表構造を表
    わす表構造データを生成する表整列手段と、 該表整列手段にて生成した表構造データに基づいて項目
    行のセルおよびデータ行のセルならびにそれら以外のセ
    ルにそれぞれの行を分類する行分類手段と、 該行分類手段にて分類した少なくともデータ行のそれぞ
    れのセル内に書かれた文字を前記画像データ記憶手段か
    ら読み取って文字コードに変換し、項目行に書かれたセ
    ル内の文字の属性に基づいて、各項目に対応するデータ
    行のセルの文字を認識する文字認識手段とを含むことを
    特徴とする文字読取装置。
  2. 【請求項2】 請求項1に記載の文字読取装置におい
    て、前記行分類手段は前記表整列手段にて生成した表構
    造データに基づいて各行に含まれるセルの個数を求める
    セル数検出手段と、同じセル数の行が最も長く列方向に
    連続する区間を検出する連続区間検出手段と、該区間の
    先頭行を仮の項目行として、該仮の項目行とさらに上の
    行とを比較した結果から真の項目行を検出する項目行検
    出手段とを含むことを特徴とする文字読取装置。
  3. 【請求項3】 請求項2に記載の文字読取装置におい
    て、前記項目行検出手段では、前記仮の項目行とその上
    の行とが比較され、行の幅の差、行の間隔またはそれら
    の両方が、それぞれ所定の値以内である場合は、前記上
    の行は新たな仮の項目行とされてさらにその上の行と比
    較され、それぞれ所定の値を越える場合は、仮の項目行
    は真の項目行とされることを特徴とする文字読取装置。
  4. 【請求項4】 請求項2に記載の文字読取装置におい
    て、前記項目行検出手段では、前記仮の項目行とその上
    の行とが比較され、行に含まれるセルの面積の差または
    行の面積に対するセルの面積の割合の差、および行の間
    隔が、それぞれ所定の値以内である場合は、前記上の行
    は新たな仮の項目行とされてさらにその上の行と比較さ
    れ、それぞれ所定の値を越える場合は、仮の項目行は真
    の項目行とされることを特徴とする文字読取装置。
  5. 【請求項5】 請求項1ないし請求項4のいずれかに記
    載の文字読取装置において、前記表整列手段では、行方
    向のセルは、それぞれのセルの座標位置およびその高さ
    に基づいて、いずれの行に属するかが決定され、それぞ
    れの行のセルが整列されることを特徴とする文字読取装
    置。
  6. 【請求項6】 表形式文書から罫線で囲まれた所定のセ
    ル内に書かれた文字を読み取る文字読取方法において、
    該方法は、 表形式文書の画像を表わす画像データを画像入力手段に
    より入力する入力工程と、 該画像入力手段からの画像データを画像データ記憶手段
    に記憶する記憶工程と、 該画像データ記憶手段に記憶した画像データから罫線の
    画像データを抽出して該罫線で囲まれたそれぞれのセル
    の座標情報を表わす罫線領域データを求める抽出工程
    と、 該罫線領域データに基づいてそれぞれのセルを行方向お
    よび列方向に整列させて、それぞれの行および列のセル
    にて形成される表構造を表わす表構造データを生成する
    整列工程と、 該表構造データに基づいて項目行のセルおよびデータ行
    のセルならびにそれら以外のセルにそれぞれの行を分類
    する分類工程と、 該分類したセルのうち少なくともデータ行のそれぞれの
    セル内に書かれた文字を前記画像データ記憶手段から読
    み取って文字コードに変換し、前記項目行に書かれたセ
    ル内の文字の属性に基づいて、各項目に対応するデータ
    行のセルの文字を認識する認識工程とを含むことを特徴
    とする文字読取方法。
  7. 【請求項7】 請求項6に記載の文字読取方法におい
    て、前記分類工程はさらに、 前記表構造データに基づいて各行に含まれるセルの個数
    を求めて、同じセル数の行が最も長く列方向に連続する
    区間を検出するデータ行検出工程と、 該区間の先頭行を仮の項目行として、該仮の項目行とさ
    らに上の行とを比較した結果から真の項目行を検出する
    項目行検出工程とを含むことを特徴とする文字読取方
    法。
  8. 【請求項8】 請求項7に記載の文字読取方法におい
    て、前記項目行検出工程はさらに、前記仮の項目行とそ
    の上の行とを比較し、行の幅の差、行の間隔またはそれ
    らの両方が、それぞれ所定の値以内である場合は、前記
    上の行を新たな仮の項目行としてさらにその上の行と比
    較し、それぞれ所定の値を越える場合は、仮の項目行を
    真の項目行とする比較工程を含むことを特徴とする文字
    読取方法。
  9. 【請求項9】 請求項7に記載の文字読取方法におい
    て、前記項目行検出工程はさらに、前記仮の項目行とそ
    の上の行とを比較し、行に含まれるセルの面積の差また
    は行の面積に対するセルの面積の割合の差、および行の
    間隔が、それぞれ所定の値以内である場合は、前記上の
    行を新たな仮の項目行としてさらにその上の行と比較
    し、それぞれ所定の値を越える場合は、仮の項目行を真
    の項目行とする比較工程を含むことを特徴とする文字読
    取方法。
  10. 【請求項10】 請求項6ないし請求項9のいずれかに
    記載の文字読取方法において、前記表構造データを生成
    する整列工程はさらに、行方向のセルについて、それぞ
    れのセルの座標位置およびその高さに基づいて、いずれ
    の行に属するかを決定することにより、それぞれの行の
    セルを整列させる位置決定工程を含むことを特徴とする
    文字読取方法。
JP32187299A 1999-11-12 1999-11-12 文字読取装置および文字読取方法 Withdrawn JP2001143018A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32187299A JP2001143018A (ja) 1999-11-12 1999-11-12 文字読取装置および文字読取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32187299A JP2001143018A (ja) 1999-11-12 1999-11-12 文字読取装置および文字読取方法

Publications (1)

Publication Number Publication Date
JP2001143018A true JP2001143018A (ja) 2001-05-25

Family

ID=18137355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32187299A Withdrawn JP2001143018A (ja) 1999-11-12 1999-11-12 文字読取装置および文字読取方法

Country Status (1)

Country Link
JP (1) JP2001143018A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190993A (ja) * 2012-03-14 2013-09-26 Hitachi Ltd 表構造解析装置及び表構造解析方法
JP2014010795A (ja) * 2012-07-03 2014-01-20 Fujitsu Ltd 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190993A (ja) * 2012-03-14 2013-09-26 Hitachi Ltd 表構造解析装置及び表構造解析方法
JP2014010795A (ja) * 2012-07-03 2014-01-20 Fujitsu Ltd 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム

Similar Documents

Publication Publication Date Title
US6081620A (en) System and method for pattern recognition
US4926492A (en) Optical character reading apparatus and method
US6687401B2 (en) Pattern recognizing apparatus and method
US5025484A (en) Character reader device
US4903312A (en) Character recognition with variable subdivisions of a character region
US4813078A (en) Character recognition apparatus
EP0680005B1 (en) Speed and recognition enhancement for OCR using normalized height/width position
US5233672A (en) Character reader and recognizer with a specialized editing function
JP2001143018A (ja) 文字読取装置および文字読取方法
US5119441A (en) Optical character recognition apparatus and method using masks operation
JP3319203B2 (ja) 文書ファイリング方法及び装置
JP4853313B2 (ja) 文字認識装置
JPH1049623A (ja) 文字読取装置
CN109409370B (zh) 一种远程桌面字符识别方法和装置
KR19980058361A (ko) 한글 문자 인식 방법 및 시스템
JP5145862B2 (ja) 画像処理プログラムおよび画像処理装置
JPH07160810A (ja) 文字認識装置
JP3100825B2 (ja) 線認識方法
JPH09114918A (ja) 光学式文字読取装置
JPS6343788B2 (ja)
JPH06187450A (ja) パターン認識方法と認識装置
JPH0628520A (ja) 文字認識装置
JPH11224310A (ja) 文字認識装置
JPH05307644A (ja) 文字認識装置
JPS58182791A (ja) 文字パタ−ンの特徴抽出法および分類法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070206