JP2740335B2 - 自動セル属性判定機能を有する表読取装置 - Google Patents

自動セル属性判定機能を有する表読取装置

Info

Publication number
JP2740335B2
JP2740335B2 JP2128920A JP12892090A JP2740335B2 JP 2740335 B2 JP2740335 B2 JP 2740335B2 JP 2128920 A JP2128920 A JP 2128920A JP 12892090 A JP12892090 A JP 12892090A JP 2740335 B2 JP2740335 B2 JP 2740335B2
Authority
JP
Japan
Prior art keywords
cell
character
cell attribute
attribute
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2128920A
Other languages
English (en)
Other versions
JPH0423185A (ja
Inventor
保夫 本郷
博史 来見田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP2128920A priority Critical patent/JP2740335B2/ja
Publication of JPH0423185A publication Critical patent/JPH0423185A/ja
Application granted granted Critical
Publication of JP2740335B2 publication Critical patent/JP2740335B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、表形式の文書画像から自動的に罫線を抽
出し、罫線で囲まれたセル内の文字を読取る表読取装置
に係り、特にセル属性を自動的に判定する機能を有する
表読取装置に関する。
〔従来の技術〕
従来の表読取装置は、第4図に示すように構成されて
いる。
この従来装置は、表形式文書を光学的に操作して光電
変換するイメージ入力部1と、このイメージ入力部から
出力される2値化画像データをイメージデータとして記
憶するイメージデータ記憶部2と、このイメージデータ
記憶部2に記憶されているイメージデータから罫線を抽
出し、抽出した罫線情報から表の構造及びセルの位置座
標を算出するセル抽出部3と、このセル抽出部3で算出
されたセルの位置座標に基づいてセル内の文字を認識し
てこれを文字コードに変換する文字認識部4とで構成さ
れている。
ここで、文字認識部4は、認識対象となる文字の文字
種とか桁数等の属性を指定することができ、属性を細か
く指定して認識対象となる文字を限定することにより、
認識性能を向上することができる。例えば、認識対象と
なる文字が数字だけであることが予め分かっていたとき
には、属性として数字を指定して認識を行うことで、数
字以外で類似字形の文字(漢字、アルファベットなど)
に誤読することを回避して文字認識率を向上させること
ができる。
〔発明が解決しようとする課題〕
しかしながら、上記従来の表読取装置にあっては、オ
ペレータがセル内文字の属性(以下、セル属性と称す)
をセル毎に指定することにより、認識性能を向上させる
ことができるが、セル属性を指定するにはオペレータが
原稿の内容を見て各セル属性を判断し、表読取装置に指
定する必要があり、全セルの属性を指定するには膨大な
労力と時間が掛かるという未解決の課題があった。例え
ば、10行10列の表では100セル存在するので、100セルに
対して夫々の属性を設定する必要がある。この場合、セ
ル属性の設定を行一括、列一括、全指定などで簡便に行
う方法も提案されているが、行又は列のセル属性が異な
る場合には、セル属性の指定が煩雑となる。
また、オペレータがセル属性を指定するようにしてい
るので、誤指定を生じるおそれがあるという未解決の課
題もあった。
そこで、この発明は、上記従来例の未解決の課題に着
目してなされたものであり、セル属性を自動的に判断し
て表形式文書の効率良く読取ることができる表読取装置
を提供することを目的としている。
〔課題を解決するための手段〕
上記目的を達成するために、この発明に係る自動セル
属性判定機能を有する表読取装置は、表形式文書をイメ
ージデータとして入力するイメージ入力手段と、該イメ
ージ入力手段で入力したイメージデータを保存するイメ
ージデータ記憶手段と、該イメージデータ記憶手段で保
存したイメージデータから罫線を抽出し、罫線で囲まれ
たセルを認識するセル抽出手段と、該セル抽出手段で抽
出したセルの中で項目欄に相当するセルのセル内文字を
認識する項目欄文字認識手段と、セル属性を判定するた
めの判定基準を記憶するセル属性判定基準記憶手段と、
該セル属性判定基準記憶手段の判定基準に基づいて前記
項目欄文字認識手段で認識した項目欄文字から項目欄以
外のセル属性を判定するセル属性判定手段と、該セル属
性判定手段で判定したセル属性に従って各セル内文字を
認識する文字認識手段とを備えている。ここで、セル属
性としては、文字種の外、桁数や単位等を含む書式情報
も包含する。
〔作用〕
この発明においては、表形式文書のイメージデータか
らセル抽出手段で抽出したセルの中から項目欄に相当す
るセル内の文字を項目欄文字認識手段で認識し、認識結
果として得られた項目名称からセル属性基準記憶手段に
記憶されているセル属性を判定する判定基準に基づいて
項目欄に対応するデータ欄のセル属性を自動的に判定
し、判定したセル属性を用いてデータ欄の文字を認識す
る。このようにして、セル属性を自動的且つ正確に判定
することによって、セル属性を指定する手間を省くと共
に、認識率を向上させる。
〔実施例〕
以下、この発明の実施例を図面に基づいて説明する。
第1図はこの発明の一実施例を示すブロック図であ
る。
図中、1はイメージ入力部、2はイメージデータ記憶
部、3はセル抽出部、4は文字認識部であって、これら
の構成は前述した従来例と同様の構成を有する。この発
明においては、罫線抽出部3及び文字認識部4との間
に、セル抽出部3から出力される表の構造及びセルの位
置座標を基に表の項目欄に相当するセル内文字の認識を
行う項目欄文字認識部5と、この項目欄文字認識部5で
認識した項目名称を基に、その項目名称に対応するデー
タ欄のセル属性を判定するセル属性判定部6とが介挿さ
れていると共に、セル属性判定部6でデータ欄の属性を
判定するための判定基準を参照するセル属性判定基準記
憶部7が設けられている。
ここで、項目欄文字認識部5は、普通、数表や名簿の
ような表形式文書では、第3図に示すように、項目欄41
とこれに続くデータ欄42とがあり、一般的には表の第1
行目に項目欄41が形成されているので、この第1行目の
横罫線lX0及びlX1と縦罫線lY0〜lY3とで囲まれるセル40
1〜403内に印刷されているセル内文字を認識し、その認
識結果として、項目名称「氏名」、「住所」及び「電話
番号」を得る。
また、セル属性判定基準記憶部7は、項目名称に対応
するセル属性情報を属性テーブルとして予め記憶してお
り、このセル属性情報は例えば“氏名=人名漢字・か
な”、“住所=漢字・かな・数字”、“金額=数字”、
“年令=3桁の数字”などの情報の外、例えば住所の
「4丁目2番79号」は略式表示の「4−2−79」も許容
する書式情報も含まれている。このセル属性情報は、学
習的に後から追加・変更を行うようにしてもよい。
さらに、セル属性判定部6では、項目欄文字認識部5
から出力される項目名称をもとにセル属性判定基準記憶
部7の属性テーブルを参照して、項目欄41に対応したデ
ータ欄42の属性判定を行う。したがって、項目名称が例
えば「氏名」であるときには、これに対応するデータ欄
404の属性として、人名漢字・かなと判断し、この判定
結果のセル属性を文字認識部4に指定する。
次に、上記実施例の動作を第2図の処理手順を示すフ
ローチャートを伴って説明する。
先ず、ステップでイメージ入力部1を作動させて、
例えば第3図に示す表形式文書を光学的に走査してイメ
ージデータとして読込み、このイメージデータをイメー
ジデータ記憶部2に保存する。
次いで、ステップで、セル抽出部3を作動させて、
イメージデータ記憶部2に保存されているイメージデー
タから横罫線lX0〜lX2及び縦罫線lY0〜lY3を抽出し、抽
出した罫線の交点を算出して表の構造(行数及び列数)
と各罫線で囲まれるセルの位置座標とを求める。
次いで、ステップで、項目欄文字認識部5を作動さ
せて、抽出したセルの位置座標から項目欄41を抽出し、
この項目欄41の各セル401〜403内の文字「氏名」、「住
所」及び「電話番号」を認識する。
次いで、ステップで項目欄文字認識部5の認識結果
をもとにセル属性判定基準記憶部7に記憶されている属
性テーブルを参照して、各項目欄セル401〜403に対応す
るデータ欄404〜406のセル属性の判定を行う。ここで、
項目欄セル401の文字は「氏名」であるので、データ欄4
04のセル属性として、人名漢字及びかなと判定され、項
目欄セル402の文字は「住所」であるので、データ欄405
のセル属性としては、漢字、かな並びに数字及び書式情
報と判定され、項目欄セル403の文字は「電話番号」で
あるので、データ欄406のセル属性としては、数字・記
号と判断される。
次いで、ステップで文字認識部4を作動状態とし
て、セル属性判定部6で判定されるセル属性を文字認識
部4に指定して、データ欄42の各セル404〜406内の文字
を認識し、これを文字コードに変換して出力する。
このように、上記実施例によると、項目欄のセル内文
字を認識して、その項目欄に対応するデータ欄のセル属
性をセル属性判定部6で判定し、その判定結果のセル属
性を文字認識部4に指定するようにしたので、セル内文
字のセル属性を人手を煩わすことなく自動的に指定する
ことができ、セル属性の誤指定による文字認識率の低下
を伴うことがなく、類似字形の誤判定や書式の間違いな
どを少なくして高精度の表読取機能を実現することがで
きる。
なお、上記実施例においては、項目欄文字認識部5で
項目欄セル内文字の認識を通常の文字認識によって行う
場合について説明したが、これに限定されるものではな
く、項目欄で使用される項目名称は、単語の数が限定さ
れるので、単語照合することで認識するようにしてもよ
く、この場合にはセル内文字の認識率を向上させること
ができる。
また、表形式文書としては、実線の罫線によって囲ま
れる表に限らず空白部による仮想罫線によって囲まれる
表についてもこの発明を適用することができる。
〔発明の効果〕
以上説明したように、この発明によれば、セル抽出手
段で抽出したセルの中で項目欄に相当するセルのセル内
文字を項目欄文字認識手段で認識し、その認識結果をも
とにセル属性判定手段でセル属性判定基準記憶手段に記
憶されている判定基準を参照して項目欄以外のデータ欄
のセル属性を判定し、その判定結果を文字認識手段に指
定し、この文字認識手段でセル属性に従って各セル内文
字を認識するように構成したので、セル内文字のセル属
性を人手を煩わすことなく自動的に指定することがで
き、セル属性の誤指定による文字認識率の低下を伴うこ
とがなく、したがって類似字形の誤判定や書式の間違い
などを少なくして高精度の表読取機能を実現することが
できるという効果が得られる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図、第2図
はこの発明の処理手順の一例を示すフローチャート、第
3図は表形式文書を示す説明図、第4図は従来例を示す
ブロック図である。 図中、1はイメージ入力部、2はイメージデータ記憶
部、3はセル抽出部、4は文字認識部、5は項目欄文字
認識部、6はセル属性判定部、7はセル属性判定基準記
憶部である。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】表形式文書をイメージデータとして入力す
    るイメージ入力手段と、該イメージ入力手段で入力した
    イメージデータを保存するイメージデータ記憶手段と、
    該イメージデータ記憶手段で保存したイメージデータか
    ら罫線を抽出し、罫線で囲まれたセルを認識するセル抽
    出手段と、該セル抽出手段で抽出したセルの中で項目欄
    に相当するセルのセル内文字を認識する項目欄文字認識
    手段と、セル属性を判定するための判定基準を記憶する
    セル属性判定基準記憶手段と、該セル属性判定基準記憶
    手段の判定基準に基づいて前記項目欄文字認識手段で認
    識した項目欄文字から項目欄以外のセル属性を判定する
    セル属性判定手段と、該セル属性判定手段で判定したセ
    ル属性に従って各セル内文字を認識する文字認識手段と
    を備えたことを特徴とする自動セル属性判定機能を有す
    る表読取装置。
JP2128920A 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置 Expired - Lifetime JP2740335B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2128920A JP2740335B2 (ja) 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2128920A JP2740335B2 (ja) 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置

Publications (2)

Publication Number Publication Date
JPH0423185A JPH0423185A (ja) 1992-01-27
JP2740335B2 true JP2740335B2 (ja) 1998-04-15

Family

ID=14996647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2128920A Expired - Lifetime JP2740335B2 (ja) 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置

Country Status (1)

Country Link
JP (1) JP2740335B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69638207D1 (de) 1995-07-31 2010-08-05 Fujitsu Ltd Prozessor und Verarbeitungsverfahren für Dokumente
JPH11102416A (ja) * 1997-09-26 1999-04-13 Fujitsu Ltd 帳票読取方向判定装置および帳票読取方向判定方法
US6510238B2 (en) * 1999-05-13 2003-01-21 Currency Systems International, Inc. Partial OCR note confirmation methods
JP4996940B2 (ja) * 2007-02-21 2012-08-08 日立コンピュータ機器株式会社 帳票認識装置およびそのプログラム
JP4856235B2 (ja) * 2009-12-15 2012-01-18 富士通株式会社 帳票認識方法及び帳票認識装置
JP2012203784A (ja) 2011-03-28 2012-10-22 Fuji Xerox Co Ltd 画像処理装置およびプログラム
JP5769131B2 (ja) 2011-07-12 2015-08-26 富士ゼロックス株式会社 画像処理装置およびプログラム
WO2014061081A1 (ja) * 2012-10-15 2014-04-24 富士通株式会社 帳票作成支援装置、帳票作成支援方法、及び帳票作成支援プログラム
JP6939790B2 (ja) * 2016-07-21 2021-09-22 日本電気株式会社 画像処理装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
JPH0423185A (ja) 1992-01-27

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2713622B2 (ja) 表形式文書読取装置
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
JP2740335B2 (ja) 自動セル属性判定機能を有する表読取装置
US6504540B1 (en) Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH0388062A (ja) 文書作成装置
JPH0384681A (ja) 名刺情報の入力処理方法
JPH0247788B2 (ja)
JP7180076B2 (ja) 外字検索用プログラムおよび外字検索装置
JP2918579B2 (ja) 画像処理装置
JPH11282965A (ja) 文字認識装置及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2931485B2 (ja) 文字切出し装置及び方法
JPS61206087A (ja) 文書読取装置
JP2933178B2 (ja) 光学文字読取り装置における文字認識方法
JP2682873B2 (ja) 表形式文書の認識装置
JPH11232381A (ja) 文字読取装置
JP3022790B2 (ja) 手書き文字入力装置
JPH04123262A (ja) 表形式データ処理装置
JP2972443B2 (ja) 文字認識装置
JPH0520300A (ja) 文書処理装置
JPS63282787A (ja) 文書編集装置
JP2000105796A (ja) 文字読み取りシステムおよび同システムにおける読み取り結果訂正処理方法
JPS63204486A (ja) 文字入力装置
JPS58140880A (ja) 画像修正方式