JPH0737035A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0737035A
JPH0737035A JP5201187A JP20118793A JPH0737035A JP H0737035 A JPH0737035 A JP H0737035A JP 5201187 A JP5201187 A JP 5201187A JP 20118793 A JP20118793 A JP 20118793A JP H0737035 A JPH0737035 A JP H0737035A
Authority
JP
Japan
Prior art keywords
line
cutout
lines
unit
standard value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5201187A
Other languages
English (en)
Inventor
Yoshitaka Hamaguchi
佳孝 濱口
Sadamasa Hirogaki
節正 広垣
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5201187A priority Critical patent/JPH0737035A/ja
Publication of JPH0737035A publication Critical patent/JPH0737035A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【構成】 読取部1は文書Aのイメージデータを読取
り、領域切出し部2はこのイメージデータから文字領域
を抽出する。行切出し部3は、文字領域のイメージデー
タから行を切出し、各切出し行の座標情報を出力する。
標準値算出部4は、各切出し行の座標情報から標準行幅
や標準行間の値を算出する。判定部5は、標準行幅や標
準行間と、行切出し部3で抽出された各行を比較し、標
準値と一定値以上異なっている場合は、行切出し誤りの
疑いがあると判定する。表示制御部6は、行切出し誤り
の疑いがあると判定された行については、例えば他の行
と表示色を変える等、その表示形態を変えて表示部7に
表示させる。 【効果】 効率よく行の切出し誤りの検出および修正を
行うことができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
特に文字列の切出し結果の表示に関する。
【0002】
【従来の技術】一般に、文字認識装置では、文書画像を
光学的に読取り、その読取ったデータから各行を文字列
として切出す処理を行う。しかしながら、このような切
出し処理は、まだ完成された技術ではなく、オペレータ
による確認、修正作業を必要とすることが多い。例え
ば、文書をスキャナ等から読取るときに、その文書が傾
いていたり、あるいは行方向と垂直の方向に長い文字が
含まれている場合等では、2行分を1行として切出して
しまうことがある。また、これとは逆に、二つの部分に
分離している文字で構成される行や、装置における読取
り素子の異常等で読取れなかった部分がある場合等では
1行を2行として分離してしまうことがあった。
【0003】一方、このような誤りの修正作業を行うた
め、例えば特開昭64−79871号公報に示されてい
るように、切出した単位文字列の外接矩形を原画像に重
畳して表示することが行われていた。
【0004】
【発明が解決しようとする課題】しかしながら、一般の
文書には、多数の行を含むものが多く、従って、全ての
行の外接矩形を確認することは非常に多くの時間と手間
を要し、オペレータの負担が大きいものであった。ま
た、通常、文書中で同じ段落内の行は互いに同じ長さで
あり、また、近接しているためにオペレータの見落とし
も発生し易いといった問題点を有していた。
【0005】本発明は、上記従来の問題点を解決するた
めになされたもので、オペレータの確認、修正作業の能
率向上を図ることのできる文字認識装置を提供すること
を目的とする。
【0006】
【課題を解決するための手段】第1発明の文字認識装置
は、文字を含むイメージデータから文字認識のための行
を切出し、当該切出し行の座標情報を出力する行切出し
部と、前記切出し行の座標情報から、複数の切出し行に
おける行幅の標準値を求める標準値算出部と、前記行切
出し部で切出された複数の切出し行の行幅を、それぞれ
前記行幅の標準値と比較し、予め設定された値とは異な
る場合は、行切出し誤りの疑いがあると判定する判定部
と、前記判定部で行切出し誤りの疑いがあると判定され
た切出し行を、他の切出し行と区別できる表示形態で、
前記文書画像と同一画面上に表示させる表示制御部とを
備えたことを特徴とするものである。
【0007】第2発明の文字認識装置は、文字を含むイ
メージデータから文字認識のための行を切出し、当該切
出し行の座標情報を出力する行切出し部と、前記切出し
行の座標情報から、複数の切出し行における行間の標準
値を求める標準値算出部と、前記行切出し部で切出され
た複数の切出し行における行間を、それぞれ前記行間の
標準値と比較し、予め設定された値とは異なる場合は、
行切出し誤りの疑いがあると判断する判定部と、前記判
定部で行切出し誤りの疑いがあると判定された切出し行
を、他の切出し行と区別できる表示形態で、前記文書画
像と同一画面上に表示させる表示制御部とを備えたこと
を特徴とするものである。
【0008】第3発明の文字認識装置は、第1発明にお
いて、標準値算出部は、複数の切出し行の座標情報で最
も頻度の高い切出し行の行幅を、行幅の標準値とするよ
う構成されていることを特徴とするものである。
【0009】第4発明の文字認識装置は、第2発明にお
いて、標準値算出部は、複数の切出し行の座標情報で最
も頻度の高い切出し行の行間を、行間の標準値とするよ
う構成されていることを特徴とするものである。
【0010】
【作用】第1、第2発明の文字認識装置においては、先
ず、文書のイメージデータを読取部で読取り、このイメ
ージデータから領域切出し部は、文字領域を抽出する。
そして、行切出し部は、文字領域のイメージデータから
行を切出し、各切出し行の座標情報を出力する。標準値
算出部は、各切出し行の座標情報から標準行幅や標準行
間の値を算出し、判定部は算出された標準行幅や標準行
間の値と、各切出し行の行幅や行間の値とを比較し、標
準行幅や標準行間の値と一定値以上異なっている場合
は、行切出し誤りの疑いがあると判定する。表示制御部
は、行切出し誤りの疑いのあると判定された切出し行に
ついては、例えば、他の切出し行と異なる表示色とする
等、その表示形態を変えて表示部に表示させる。
【0011】また、第3、第4発明の文字認識装置にお
いて、標準値算出部は、各切出し行の行幅や行間の頻度
を求め、最も頻度の高い行幅や行間の値を標準行幅や標
準行間の値とする。
【0012】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図1は本発明の文字認識装置の実施例を示す
ブロック図である。図の装置は、読取部1、領域切出し
部2、行切出し部3、標準値算出部4、判定部5、表示
制御部6、表示部7からなる。
【0013】読取部1は、文書Aを光学的に読取り、文
字を含むイメージデータを出力する機能を有している。
領域切出し部2は、読取部1から出力されたイメージデ
ータから、文字領域、例えば文章の段落等の抽出を行う
ものである。行切出し部3は、領域切出し部2で抽出さ
れた文字領域から行単位に画像を切出す機能を有してい
る。標準値算出部4は、行切出し部3で切出された行の
座標情報に基づき、同一文書あるいは領域切出し部2で
切出された同一領域内での行幅または行間の標準値を、
最も頻度の高い切出し行の行幅または行間から算出する
機能を有している。
【0014】判定部5は、行切出し部3で切出された任
意の切出し行の行幅または行間あるいはその双方を、標
準値算出部4で算出された標準行幅あるいは標準行間と
比較し、標準値から一定値以上異なる場合は、行切出し
の疑いがあると判定する機能を有している。表示制御部
6は、判定部5で行切出しの疑いがあると判定された切
出し行を、例えばその外接矩形の線種や色を変える等、
他の切出し行と区別できる表示形態で、領域切出し部2
によって抽出された文字データと共に表示させる機能を
有している。また、表示部7はCRT等からなり、表示
制御部6で出力された文字データや表示形態の異なる切
出し行のデータ等を表示する機能を有している。
【0015】次に、上記構成の文字認識装置の動作につ
いて説明する。図2は、その動作フローチャートであ
る。先ず、読取部1によって、文書Aのイメージデータ
が読取られる(ステップS1)。尚、この読取方法は光
学的に行われるが、磁気的な読取等であってもよく、読
取方法には特に限定はない。次に、読取った文書Aのイ
メージデータから領域切出し部2によって、文章の段落
等の文字領域を抽出する(ステップS2)。そして、行
切出し部3は、文字領域に対して行単位に切分け(ステ
ップS3)、切出し行を含む矩形の座標情報を出力す
る。
【0016】図3は行切出しの一例である。図におい
て、破線で示した行の矩形が切出し行を示しており、こ
の例では、2行を1行として切出す誤りが行2で、ま
た、1行を2行として切出す誤りが行6、7で起きてい
る。また、この場合の行幅および行間は以下の通りであ
る。
【0017】図4は、この行幅および行間の値であり、
ここでの単位はポイント数となっている。そして、標準
値算出部4は、このような各行の座標情報(行幅や行間
の値)に基づき標準行幅あるいは標準行間の値を算出す
る(ステップS4)。即ち、ある範囲の値毎に頻度をと
り、最も頻度の高い値を標準の行幅、行間とする。例え
ば、図3の例ではその頻度は以下の通りとなっている。
【0018】図5は、行幅、行間の頻度を示すものであ
る。この例では、行幅は3種類、行間は2種類の頻度を
とっており、行幅では「9.5〜10.5」が、また、
行間では「2.5〜3.5」が最も頻度の高い値となっ
ている。従って、標準値算出部4では、行幅の標準値を
10ポイント、行間の標準値を3ポイントとする。
【0019】次に、判定部5は、行切出し部3抽出され
た切出し行を、標準値算出部4で求めた標準値と比較
し、切出しが正しく行われたかを判定する(ステップS
5)。例えば、複数行を1行として切出した場合の行幅
は、他の正常な切出し行の2倍以上の行幅となるため、
標準行幅の一定値倍以上の行幅を持つものは切出し誤り
と判定する。一方、1行を複数行として切出した場合
は、切出された行のいずれかの行幅は標準行幅の半分以
下になる。また、その行間は他の行間より狭くなること
が多い。従って、切出し行の行幅、行間と、標準行幅、
行間とが一定値以上異なっていた場合は、その切出し行
を切出し誤りと判定する。
【0020】図3の例では、行幅が標準行幅の1.8倍
以上のもの、または0.6倍以下のもの、行間が標準行
間の0.3倍以下のものを行切出しの誤りの疑いのある
ものと判定する(図2におけるステップS6)。例え
ば、行2の行幅は標準行幅の2.27倍、行6が0.4
7倍、行7が0.48倍である。また、行間では、行
6、7の行間は標準行間の0.2倍である。従って、行
2、行6、行7が行切出し誤りの疑いがあるものとして
判定される。
【0021】表示制御部6は、図3に示したような行切
出し結果を表示部7に表示させるが、その場合、行切出
し誤りの疑いのあると判定されたものについては、その
矩形の線種や色等の表示形態を変えるよう制御する(ス
テップS7)。また、ステップS5において、切出し行
は正常であると判定されたものについては、通常の表示
形態とする(ステップS8)。そして、このような切出
し誤りの判定処理を最終行まで行ったか否かを判定し
(ステップS9)、判定対象の切出し行が残っている場
合は、ステップS5に戻って判定処理を繰り返す。ま
た、ステップS9において、最終行であった場合表示制
御部6は、表示部7に対して行切出し誤りの疑いのある
行に関して表示形態を変えた状態で表示させる(ステッ
プS10)。
【0022】図6に、表示状態の一例を示す。この例で
は、行2、行6、行7の矩形は実線となっており、オペ
レータに対して注意を促すようになっている。従って、
オペレータは、行の切出し結果を確認する場合に、全て
の行の矩形幅等を確認する必要がなく、多数の行が含ま
れる文書においても、効率よく、誤りの検出、修正を行
うことができる。
【0023】尚、上記実施例では、横書きの場合を説明
したが、縦書きであっても同様に適用可能である。ま
た、行幅や行間の単位をポイント数で示したが、これ以
外の単位であってもよいことはもちろんである。更に、
本実施例では、標準値の算出を頻度に基づき行ったが、
標準行幅や標準行間が算出できるものであれば、他の算
出方法であってもよい。
【0024】
【発明の効果】以上説明したように、第1、第2発明の
文字認識装置によれば、切出し行の座標情報から標準行
幅や標準行間の値を求め、この標準値と各切出し行とを
比較して行切出しの疑いがあるかを判定し、行切出しの
疑いのあるものについては、表示形態を変えて表示させ
るようにしたので、行切出しの確認作業でオペレータが
効率よく誤りの検出、修正を行うことができる。
【0025】また、第3、第4発明の文字認識装置によ
れば、標準値を、最も発生頻度の高い行幅や行間の値と
したので、上記第1、第2発明の効果に加えて、正確な
標準値を求めることができ、その結果、行切出し誤りが
あるか否かの判定をより正確に行うことができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置のブロック図である。
【図2】本発明の文字認識装置の動作フローチャートで
ある。
【図3】本発明の文字認識装置における行切出し結果の
一例を示す図である。
【図4】図3の切出し結果における行幅と行間の値を示
す図である。
【図5】図3の切出し結果における行幅と行間の頻度を
示す図である。
【図6】本発明の文字認識装置における表示例を示す図
である。
【符号の説明】
3 行切出し部 4 標準値算出部 5 判定部 6 表示制御部 7 表示部 A 文書

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字を含むイメージデータから文字認識
    のための行を切出し、当該切出し行の座標情報を出力す
    る行切出し部と、 前記切出し行の座標情報から、複数の切出し行における
    行幅の標準値を求める標準値算出部と、 前記行切出し部で切出された複数の切出し行の行幅を、
    それぞれ前記行幅の標準値と比較し、予め設定された値
    とは異なる場合は、行切出し誤りの疑いがあると判定す
    る判定部と、 前記判定部で行切出し誤りの疑いがあると判定された切
    出し行を、他の切出し行と区別できる表示形態で、前記
    文書画像と同一画面上に表示させる表示制御部とを備え
    たことを特徴とする文字認識装置。
  2. 【請求項2】 文字を含むイメージデータから文字認識
    のための行を切出し、当該切出し行の座標情報を出力す
    る行切出し部と、 前記切出し行の座標情報から、複数の切出し行における
    行間の標準値を求める標準値算出部と、 前記行切出し部で切出された複数の切出し行における行
    間を、それぞれ前記行間の標準値と比較し、予め設定さ
    れた値とは異なる場合は、行切出し誤りの疑いがあると
    判断する判定部と、 前記判定部で行切出し誤りの疑いがあると判定された切
    出し行を、他の切出し行と区別できる表示形態で、前記
    文書画像と同一画面上に表示させる表示制御部とを備え
    たことを特徴とする文字認識装置。
  3. 【請求項3】 標準値算出部は、複数の切出し行の座標
    情報で最も頻度の高い切出し行の行幅を、行幅の標準値
    とするよう構成されていることを特徴とする請求項1記
    載の文字認識装置。
  4. 【請求項4】 標準値算出部は、複数の切出し行の座標
    情報で最も頻度の高い切出し行の行間を、行間の標準値
    とするよう構成されていることを特徴とする請求項2記
    載の文字認識装置。
JP5201187A 1993-07-21 1993-07-21 文字認識装置 Pending JPH0737035A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5201187A JPH0737035A (ja) 1993-07-21 1993-07-21 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5201187A JPH0737035A (ja) 1993-07-21 1993-07-21 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0737035A true JPH0737035A (ja) 1995-02-07

Family

ID=16436796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5201187A Pending JPH0737035A (ja) 1993-07-21 1993-07-21 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0737035A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050045291A (ko) * 2003-11-11 2005-05-17 김대희 문서의 영역 선별 인식 및 색상 비교를 통한 전산처리 방법
JP6810303B1 (ja) * 2020-08-04 2021-01-06 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びデータ処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050045291A (ko) * 2003-11-11 2005-05-17 김대희 문서의 영역 선별 인식 및 색상 비교를 통한 전산처리 방법
JP6810303B1 (ja) * 2020-08-04 2021-01-06 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びデータ処理プログラム
WO2022029874A1 (ja) * 2020-08-04 2022-02-10 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びデータ処理プログラム

Similar Documents

Publication Publication Date Title
US6226407B1 (en) Method and apparatus for analyzing computer screens
JP4000488B2 (ja) 文書画像の外形を評価するシステムおよびその方法
JP3805005B2 (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
USRE36581E (en) Character reader and recognizer with a specialized editing function
JPH03144863A (ja) 画像の傾き検出方法および補正方法ならびに画像情報処理装置
JP3278471B2 (ja) 領域分割方法
US20050281464A1 (en) Particular image area partitioning apparatus and method, and program for causing computer to perform particular image area partitioning processing
JPH0519753B2 (ja)
US7680329B2 (en) Character recognition apparatus and character recognition method
US6496600B1 (en) Font type identification
JPH096914A (ja) 画像処理方法及び装置
US5233672A (en) Character reader and recognizer with a specialized editing function
JPH0737035A (ja) 文字認識装置
US7688988B2 (en) Particular image area partitioning apparatus and method, and program for causing computer to perform particular image area partitioning processing
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2000353233A (ja) 地図データ印刷システムと方法およびその処理プログラムを記録した記録媒体
US11295452B1 (en) Automated method and apparatus for detecting black borders in an image frame
JPH09288714A (ja) 表認識方法および装置
JPH0490083A (ja) 文字認識装置
US7373015B2 (en) Image processing device and method
JPH04276885A (ja) 文字切出し装置
JPH10243322A (ja) 映像信号表示装置
JPH1153467A (ja) 文書画像領域分割装置並びにこれを用いた文書画像の領域分割方法及び文書画像の領域属性の指定方法
JPH0679348B2 (ja) 行切り出し方法
CA2186611A1 (en) Automatic determination of landscape scan in binary images

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees