JP2000207490A - 文字切出装置、および文字切出方法 - Google Patents
文字切出装置、および文字切出方法Info
- Publication number
- JP2000207490A JP2000207490A JP11002940A JP294099A JP2000207490A JP 2000207490 A JP2000207490 A JP 2000207490A JP 11002940 A JP11002940 A JP 11002940A JP 294099 A JP294099 A JP 294099A JP 2000207490 A JP2000207490 A JP 2000207490A
- Authority
- JP
- Japan
- Prior art keywords
- character
- frame
- information
- character frame
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
文字枠の近傍に文字が記入された場合、その部分のヒス
トグラムの値が大きな値となり、文字枠と文字との区別
が困難であった。 【解決手段】 RAM102に矩形情報、枠交点情報が
記憶され、これら情報に基づいて、ROM101に記憶
されるプログラムに基づいて、帳票処理、概略切出、角
領域抽出等を行う。その際文字枠を抽出するため、文字
枠のヒストグラムをとり、さらにこのヒストグラムの隣
接同士の差分を算出し、さらに差分値の隣接同士を加算
し、この加算された値に基づいて文字枠を認識し、抽出
するようにする。
Description
認識装置における文字切出装置に関するものである。
−7031号に示されるように、文字枠画像のヒストグ
ラムを求め、あらかじめ文字枠が存在すると推定される
位置の近傍のヒストグラムのピーク位置を枠線位置と推
定する(図17参照)。そして、推定した位置に基づい
て、文字枠を消去し、文字を切り出し、文字認識してい
た。
術の構成では、文字枠の近傍に文字が記入された場合、
その部分のヒストグラムの値が大きな値となり、文字枠
線と文字の区別が困難であった。
れたとき、文字枠も傾いた状態で読み取られることにな
る。このとき、ヒストグラムのみから文字枠を判断する
と、図18に示すようにヒストグラムは、低い値を算出
することになり、文字が枠線近傍に書かれていた場合、
文字が書かれた位置を文字枠として誤認することがあ
る。
ので、確実に文字を切り出すことにより文字認識を行う
ことができる文字切出装置を実現することを目的とす
る。
解決するため、以下の構成をとる。
字枠領域のヒストグラムを算出するヒストグラム算出手
段と、X座標またはY座標における隣接するヒストグラ
ムの差分値をそれぞれ算出する差分値算出手段と、X座
標またはY座標における隣接する差分値の隣同士をそれ
ぞれ加算する加算手段と、前記加算手段により算出され
た値に基づいて文字枠を認識し、文字枠を切り出す切出
手段とを備える。
に影響されにくい、精度のよい文字認識をすることが可
能となる。
字切出装置において、前記差分値算出手段は、D(X)
=H(X)−H(X−1)(H(X)はヒストグラム
値、Xは座標値)を演算し、前記加算手段は、D2
(X)=D(X)+D(X−1)を演算することを特徴
とする。
出装置において、前記加算手段が算出した複数の候補の
うち所定範囲内の値を持つ候補のみを抽出し、文字枠の
輪郭情報の候補情報として記憶する候補情報記憶手段と
を備え、この候補情報のうち一つを選択することによ
り、文字枠を認識することを特徴とする。
し、この中から一つを選択し、文字枠として認識するこ
とにより、精度のよい文字切出を実現することが可能と
なる。
字切出装置において、候補情報として所定範囲の値を持
つ候補が存在しないときには、代わりに予め帳票毎に記
憶されている文字枠情報の輪郭情報を使用して文字枠の
認識を行うことを特徴とする。
などにより検出されなかった文字枠線の位置を推定し、
文字枠線の消えやかすれに影響されにくい文字切出を実
現することができる。
字切出装置において、N×Mフィルタを用いて角領域の
文字枠の形状を認識する形状認識手段とを備え、認識し
た形状を形状情報として前記輪郭情報と対応づけて候補
情報記憶手段に記憶することを特徴とする。
字切出装置において、使用する帳票に対応した文字枠の
形状情報を記憶する文字枠情報記憶手段と、この文字枠
情報記憶手段に記憶された形状情報と前記候補情報記憶
手段に記憶されている形状情報とを比較する比較手段と
を備え、この比較手段により形状の一致した候補情報の
みを正当な文字枠情報とすることを特徴とする。
枠の形状と抽出した文字枠の形状とを比較することが可
能となり、文字枠の形状を認識することにより、近接す
る角点との誤判別を防ぎ、正確な文字枠の認識を行うこ
とができ、確実な文字切出を実現することができる。
字切出装置において、前記比較手段により正当な文字枠
情報として抽出できないときには、文字枠推定のための
評価値に基づいて候補情報の中から一つを選択する選択
手段とを備えることを特徴とする。
情報の中から一つを選択することにより、より精度のよ
い文字枠の認識をすることができる。
字切出装置において、前記評価値は、前記文字枠情報記
憶手段に記憶されている交点情報による値が代入された
とき、最小値を示す演算式からなることを特徴とする。
優劣の評価を行う事が可能となる。請求項9記載の発明
は、請求項7、または請求項8記載の文字切出装置にお
いて、正当な文字枠情報として選択された候補情報から
なる文字枠の正当性を判定する判定手段とを備える。
ることができ、誤判別による文字認識での誤読をこの段
階で防ぐ事が可能となり、確実な文字枠の切り出しを実
現することができる。具体的な、文字枠の正当性の判定
は、請求項10記載のとおり、文字枠情報に基づいた文
字枠の高さ、及び幅から判定することである。
の文字切出装置において、文字枠の縦枠、横枠の位置か
ら推定枠領域を推定する文字枠推定手段とを備え、前記
角領域と前記推定枠領域とを認識されるべき文字の配置
により枠線消去方法を分別することを特徴とする。
枠線の消去方法を変えることにより、文字画像の全体を
効率よく切出す事が可能となり、精度の良い文字認識を
行うことができる。
ように、前記枠線消去方法は、認識されるべき文字が文
字枠の内外の位置により分別されることである。また、
請求項13に記載されているように、文字枠の外側に文
字が位置しているときには、文字枠より大きい領域をと
って消去することである。
3のいずれかに記載の文字切出装置において、文字枠に
関する情報は帳票毎に記憶する記憶手段と、使用する帳
票により前記記憶手段から読み出す文字枠情報を変える
ことを特徴とする。
しを変えることで、確実な文字枠の切り出しを実現する
ことができる。
4のいずれかに記載の文字切出装置において、文字が記
入される文字枠である文字枠領域を抽出する文字枠領域
抽出手段と、この抽出手段により抽出された文字枠領域
の4角の角領域を抽出する角領域抽出手段と、この角領
域抽出手段により抽出した角領域から認識した文字枠の
輪郭に基づいて文字枠を消去し、文字のみを切り出す文
字切出手段とを備えることを特徴とする。
これら情報に基づいて文字切出を行うことにより、効率
的な文字枠の切り出しを実現することができる。
方法の発明であり、文字枠の4角を角領域として抽出
し、この角領域のヒストグラム、およびヒストグラムか
ら算出される差分値、およびこの差分値から算出される
補正情報に基づいて文字枠を推定し、文字枠として切出
すものである。
を実現することができる。
いて図面を参照して説明する。図1は、本発明の一実施
例による文字切出装置のブロック構成図を示す。図1に
おいて、101はROMであり、文字切出を行うための
処理プログラム、文字認識のための制御プログラムが格
納されている。ROM101には、切出実行プログラム
である帳票処理補正機能1011、概略切出機能101
2、角領域1013、輪郭検出機能1014、文字枠角
点検出機能1015、枠幅・枠高さ判定機能1016、
枠線検出機能1017、枠線消去機能1018、OCR
制御プログラム1019のそれぞれが格納されている。
21、矩形情報記憶領域1022、候補情報記憶領域1
023を有するものである。なお、RAMの代わりに不
揮発性のメモリでもよい。
帳票に対応した文字枠を構成する枠の交点番号、交点
(角)の位置、後述する評価値、枠線の輪郭の位置を示
す輪郭情報、文字枠形状を表す形状情報から構成される
枠交点情報を記憶するものである(図3、図4参照)。
であり、1帳票の文字すべてに対する枠交点情報を予め
持っておく。
を構成する4つの枠交点座標を示す矩形情報を記憶する
ものである(図5参照)。
No、右下点No、左下点Noから構成される。左上点No、右
上点No、右下点No、左下点Noは、前記枠交点情報と対応
させる。
帳票に対する交点情報である。(図13参照)。交点情
報は各交点に対して複数の候補を算出し、この複数記憶
されている情報の中から一つを選択して、文字切出に使
用する。詳細は後述する。
行い、文字枠情報記憶領域に記憶されている交点情報を
補正する。枠交点情報記憶領域1021に記憶されてい
る情報は、予め設定されている基準値であり、原稿の斜
行等により、枠交点情報を補正する必要がある。帳票処
理補正機能1011は周知の帳票処理方法を用い、帳票
の枠交点を求め、枠交点情報記憶領域1021とのずれ
を計算し、これを用いて枠交点情報を補正する。
対し、枠からはみ出た文字に対しても、文字全体が含ま
れるように、文字枠よりも少し大きく画像を切出す。
の角点それぞれの周辺画像を抽出する。
1015によって抽出された領域画像に含まれている枠
線のX方向、Y方向の輪郭位置の候補を計算する。
機能1016によって計算された輪郭位置候補の情報か
ら、文字枠の4角の座標を計算する。
角点検出機能1017により計算された4角の角点位置
から、その4角点が構成する枠幅・枠高さが、枠交点情
報記憶領域に記憶されている内容と合致するかを判定す
る。
定機能1016により得られた4角の角点位置をもと
に、文字枠の枠線位置を計算する。枠線消去機能101
8は、抽出された枠線を消去する。
た切出しプログラムにより切出された文字画像を文字認
識し、認識結果を文字カテゴリ毎に対応したコードに直
して出力する。
で読み取った原稿を一旦記憶する。イメージメモリ10
3に記憶したイメージデータを切出実行プログラム、O
CR制御プログラムのプログラム処理により、文字は切
り出され、認識される。
ている切出実行プログラム、OCR制御プログラムに基
づいて動作するものである。
の処理動作を図2に基づいて説明する。
す。)では、CPU106は、帳票処理補正機能101
1の帳票処理により、枠交点情報記憶領域1021に記
憶されている枠交点情報を補正し、枠交点情報記憶領域
1021に記憶する。
より、枠交点情報記憶領域1021、矩形情報記憶領域
1022に記憶されている交点情報、矩形情報に定めら
れる情報に基づいて所定の領域を切り出し、イメージメ
モリ103に記憶する。この所定の領域は、文字枠から
はみ出した文字でも文字全体が入るように文字枠より少
し大きい領域を設定する。
により、抽出された文字枠の角領域を抽出し、イメージ
メモリ103にS0003で抽出した文字枠と別に角領
域として記憶する。
情報のX座標におけるヒストグラム、X座標における隣
同士の差分値、この差分値のX座標における隣同士の加
算値をそれぞれ算出する。この加算値に基づいて、文字
枠における複数の輪郭座標を複数抽出する。
て、ある輪郭座標を始点に上下左右のいずれの方向に画
素が連続しているかを検出し、これにより文字枠の形状
を認識する。
角全てを行ったかを判断する。S0007では、全ての
角に対して処理したときの処理であり、文字枠の枠幅、
高さに基づいて、適当な情報が得られたかどうか、つま
り適当な文字枠を抽出したかどうかを判定する。
領域に、認識されるべき文字がどの位置にあるかを検出
し、その位置に応じて文字枠消去のための分別を行う。
する。具体的には、文字枠の外側に文字が位置している
ときには、大き目の領域を持って文字枠を消去する。そ
うでなければ、ほぼ文字枠と同じ大きさをもって文字枠
を消去する。
定で、否の判定を行ったときのステップであり、他に候
補があるかを判断し、あればその候補に基づいて再度判
定を行い、なければ、リジェクト処理(エラー処理)を
行う。
枠と文字とが重なり、文字枠が認識しづらい場合でも、
文字枠を認識し、切出すことができる。
る。図3は、読み取られる帳票の概要図である。
を記入する領域である。文字枠領域201に記入された
文字を認識することができるように、切出し処理が行わ
れる。切出処理は、図4、図5に示されている枠交点情
報、矩形情報から交点番号P1〜P4の4点で示される
領域を切出すように概略切出機能プログラム1013に
基づいて処理される。
201を示し、文字枠番号A2、文字枠番号A3は、そ
れぞれ文字枠領域202、文字枠領域203を示す。
ている交点の交点情報、後述する評価値、文字枠の輪郭
の立ち上がり、立ち下がりを示す位置座標を示す輪郭情
報、文字枠の角領域における形状情報から構成されてい
る。
号を用いて文字枠を指定する情報である。
している。帳票の枠線には太さがあるが、ここで表す
X,Yは枠線の中心位置の座標とする。なお、帳票中の
文字枠全てについて、この情報は格納されている。
情報記憶領域1022に記憶されている情報に基づい
て、文字切り出し処理を行う。以下文字切出処理につい
て説明する。
を行う。帳票処理においては、予め記憶している帳票フ
ォーマットデータと読み取った画像データとのずれを計
算する処理を行う。帳票処理は公知の技術であり、ここ
ではその説明を省略する。
おいて、画像の傾きや伸縮によって枠点のずれが検出さ
れた場合は、それをこの情報に反映し、補正する。
枠交点が、(x1,y1)に移動していることが、帳票
処理によって検出された場合、これに基づいて図4のP
1欄のXR,XF,YR,YFの情報を計算し直す。こ
の場合は,XR=x1−1,XF=x1+1,YR=y
1−1,YF=y1+1になる補正を行う。ここに登録
されているすべての点(P2〜P4)についてこの計算
を行い、処理する帳票画像に合わせて、枠交点情報を補
正する。
む領域よりもW(>0)の幅だけ外側に大きな領域を切
出す。具体的には、図6に示す通り、文字枠領域より上
下左右に幅Wの分だけ大き目の領域を概略領域とし、こ
の領域に対して切出処理を行う。この概略切出しはこれ
から切出そうとしている文字とその文字に対する文字枠
のみを含むようにするのが望ましい。Wの値は、それを
考慮して適当な値に設定する。
れている文字枠A1、A2等それぞれ4つの角領域の画
像を取り出す(図6参照)。取り出す画像の中心座標
(交点情報)は、上述した帳票処理で求められ補正され
た交点情報である。
トに基づいて説明する。このフローチャートは図2にお
けるS0003の詳細な処理を示すものである。ステッ
プ701(以下、S701と略する)では、枠交点情報
記憶領域1021から交点P1を読み出す。前述したと
おり、交点P1の値は帳票処理において補正が施されて
いる。
交点番号P1の座標(X1,Y1)に対して、加算、ま
たは減算処理し、所定の大きさの領域(2a×2a)を
とるための演算を行う。具体的には、角領域は、(x1
−a、y1−a)(x1+a、y1−a)(x1+a、
y1+a)(x1−a、y1+a)を4点とする領域で
ある。なお、値aは、文字枠の角部分のみを含むように
設定する。
られた角領域の切出処理を行う。S704では、切出処
理を行ったデータをイメージデータとして、イメージメ
モリ103に記憶する。
015は、4つの角領域を得ることができる。
1015が抽出したそれぞれの領域に対して、以下の手
順で枠線の立ち上がり座標、立ち下がり座標を求める。
x軸方向からy座標への輪郭の立ち上がり、立ち下がり
をXR、XFとし、y軸方向からx軸方向への立ち上がり
立ち下がりをYR、YFとする。以下、これら情報を輪
郭情報と総称する。文字枠は、図8に示すように所定の
幅を有するものであり、それぞれの立ち上がり、立ち下
がりの部分の座標を求めることができる。
に示すフローチャート、及び図10の説明図に基づいて
説明する。なお、本フローチャートは図1におけるS0
004の詳細を示すフローチャートである。
憶されているそれぞれの角領域のX座標におけるヒスト
グラム(H(X))を演算する。具体的には図10
(a)の角領域では、図10(b)に示すようなヒスト
グラムを算出する。
る。D(X)はH(X)−H(X−1)の差分値であ
る。
いて行われたかどうかを判断する。S904では、X座
標をインクリメントし、X座標全てに対する差分値を算
出するまで、S902〜S903を繰り返す。ここで
は、図10(c)に示すようなグラフ値が算出される。
る。D2(X)は、D(X)とD(X−1)の符号が等
しいとき、つまり、D(X)、D(X−1)とがともに
正の場合は、 D2(X)=D(X)+D(X−1) D(X)とD(X−1)の符号が異なるとき、つまり、
D(X)、D(X−1)のいずれか一方が正の数で、も
う一方が負の数のときは、 D2(X)=D(X)−D(X−1) である。
いて行われたかどうかを判断する。S907では、X座
標をインクリメントし、X座標全てに対する加算値を算
出するまで、S905〜S906を繰り返す。ここでは
図10(d)に示すようなグラフ値が算出される。
いて、枠位置推定のための評価値E(X)を算出する。
E(X)=(D(X)+D2(X))×S(X)を演算
する。
理によりX1を補正した値であり、補正がなかった場合
はX1のとき)において最大になる関数であれば良く、
推定枠位置の精度により選択する。例えば、S(X)
は、1/FLOOR(ABS(X−x1)/ALLOW
W+1)を使用する。
の絶対値をとる関数であり、関数FLOOR(W)はWの小数点
以下を切り捨てする関数を表す。ALLOWWは正の値
で文字枠推定位置の精度に合わせて調整する。
いて行われたかどうかを判断する。S907では、X座
標をインクリメントし、X座標全てに対するE(X)を
算出するまで、S908〜S909を繰り返す。
(X)を算出する。この評価値E(X)に基づいて、輪
郭情報の立ち上がり位置座標XRの候補として登録し、
輪郭情報の立ち下がり位置座標XFの候補として登録す
る。
フローチャートに基づいて説明する。図11は立ち上が
りXRの候補、図12は立ち下がりXFの候補を求める
ためのフローチャートである。
1102では、E(1)>TH1を満たすか、否かを判
断する。なお、TH1は任意の数である。
すと、E(1)の値をメモリに登録する。満たさない
と、記憶しない。
し、S1105では、X座標の全てのXについて、処理
を行ったかを判断する。そして、これらS1102〜S
1104を繰り返す。
1を設定し、S1202では、E(1)<TH2を満た
すか、否かを判断する。なお、TH2は任意の数であ
る。
すと、E(1)の値をメモリに登録する。満たさない
と、記憶しない。
し、S1205では、X座標の全てのXについて、処理
を行ったかを判断する。そして、これらS1202〜S
1204を繰り返す。
り点の矛盾のない組み合わせを求めるため、立ち上がり
点のX座標XR、立ち下がり点のX座標XFにおいて以
下の条件を満たす必要がある。
はスキャナ105の精度により異なる値となり、適切な
値を設定する。
する。例えば、X方向の枠線幅は、(XF−XR+1)
である。この情報は予め登録しておいても良い。
(XR,XF)の候補について、評価値E2(A)を求
める。
ABS(E(XF)) 以上の処理をY方向にも同様にこれを行い、Y方向の枠
立ち上がり点YR、YF候補の組み合わせ、B(YR、
YF)についてE2(B)を求める。
下がり点の候補が、各角点毎に複数求められることがあ
るが、その場合は複数の候補について同様にこの評価を
行い、それぞれの優劣を付ける。
ては、枠交点情報表1の値を代わりに使用する文字枠角
点検出機能1017は、角形状を求める処理を行う。角
形状とは、文字枠線の角部分の形状を示し、角形状情報
は、枠線の角位置を正確に求めるための補助情報として
使用される。
移動させ、フィルタ内の黒画素の並び方がある条件を満
たすか否かにより判別を行う。
素の座標値を示す。1つの升目が1画素に対応してい
る。
る画素の値を示す。(α,β)以外の点についても同様で
ある。
ているかどうかを調べる。 黒画素=1 白画素=0 と定義した場合 条件1: [P(α,β‐2)|P(α,β‐1) |P(α,β) |P(α,β+1) |P
(α,β+2)]&[P(α+1,β‐2)|P(α+1,β‐1) |P(α+1,
β) |P(α+1,β+1) |P(α+1,β+2)]&[P(α+2,β‐2)|P
(α+2,β‐1) |P(α+2,β) |P(α+2,β+1) |P(α+2,β+
2)] が1となる。
す。中心点の(α,β)を(XF,YF)と(XF,Y
F‐b)を結ぶ直線上(b>0)の各点に移動しながら、
この条件が1度でも成り立てば、(XF,YF)からX
の正の方向に枠線が存在すると判断する。 条件2: [P(α‐2,β)|P(α‐1,β) |P(α,β) |P(α+1,β) |P
(α+2,β)]&[P(α‐2,β+1)|P(α‐1,β+1) |P(α,β+
1) |P(α+1,β+1) |P(α+2,β+1)]&[P(α‐2,β+2)|P
(α‐1,β+2) |P(α,β+2) |P(α+1,β+2) |P(α+2,β+
2)]が1となる。ただし、|は論理和を示し、&は論理積
を示す。
(XF−a,YF)を結ぶ直線上(a>0)の各点に移
動しながらこの条件が1度でも成り立てば、(XF,Y
F)からYの正の方向に枠線が存在すると判断する。
(α,β+2)]&[P(α‐1,β‐2)|P(α‐1,β‐1) |P(α‐
1,β) |P(α‐1,β+1) |P(α‐1,β+2)]&[P(α‐2,β‐
2)|P(α‐2,β‐1) |P(α‐2,β) |P(α‐2,β+1) |P
(α‐2,β+2)]が1となる。ただし、|は論理和を示し、&
は論理積を示す。
(XR,YR+a)を結ぶ直線上(a>0)の各点に移
動しながら、この条件が1度でも成り立てば、(XR,
YR)からXの負の方向に枠線が存在すると判断する。 条件4: [P(α‐2,β)|P(α‐1,β) |P(α,β) |P(α+1,β) |P
(α+2,β)]&[P(α‐2,β‐1)|P(α‐1,β‐1) |P(α,β
‐1) |P(α+1,β‐1) |P(α+2,β‐1)]&[P(α‐2,β‐
2)|P(α‐1,β‐2) |P(α,β‐2) |P(α+1,β‐2) |P
(α+2,β‐2)]が1となる。ただし、|は論理和を示し、
&は論理積を示す。
(XR+a,YR)を結ぶ直線上(a>0)の各点に移
動しながら、この条件が1度でも成り立てば、(XR,
YR)からYの負の方向に枠線が存在すると判断する。
F,YF)近傍の枠線が、Xの正方向とYの正方向に枠
線を持ちそれらが90度に交わっていると判断する。条
件3と条件4が成り立てば、(XR,YR)近傍の枠線
が、Xの負の方向とYの負の方向に枠線を持ちそれらが
90度に交わっていると判断する。このように、角領域
における輪郭情報からなる座標(XF,YF)、座標
(XR,YR)近傍の枠線形状を知ることができる。
の形状情報欄に記憶する。(XF,YF)に対して、X
の正側の枠線をR、(XF,YF)に対して、Yの正側
の枠線をBとし(XR,YR)に対して、Xの負側の枠
線をL、(XR,YR)に対して、Yの負側の枠線をA
とし、枠線が存在する場合をTRUE、存在しない場合をFA
LSEとして登録する。
図13に示す登録された情報とを角形状情報A、B、
R、Lに着目して比較する。一致している数に基づいて
候補C1〜C3の中から一つを選択する。一致している
数が同じ場合は、E2(X)に基づき、その値の大きい
ものを選択する。さらに、図4に示す予め登録されてい
る枠交点情報の評価値と図13に示す候補情報の評価値
とを比較、判定することにより、その情報でよいかを判
断することにより、正確な文字切出を実現することがで
きる。
づいて複数の候補情報の中から適切な輪郭情報、形状情
報等を得ることができる。
繰返し行われる。枠幅・枠高さ検出機能1018は、文
字枠角点検出機能1017で選択された4つの候補情報
XR、XF、YR、YFの座標から、枠幅、枠高さを求
め、予め記憶している枠幅、枠高さの情報と比較するこ
とにより、角点座標候補の正当性を判別する。
F,YR,YFの座標を、P1 =(xr1,xf1,yr1,yf1),
P2 =(xr2,xf2,yr2,yf2), P3 =(xr3,xf3,yr3,yf
3), P4=(xr4,xf4,yr4,yf4)とし、説明する。
する。枠幅の検査は以下の演算式により求められる。
yr1)×(yr2‐yr1)−(xr3‐xr4)×(xr3‐xr4)+
(yr3‐yr4)×(yr3‐yr4))<ε ただし、関数ABS(X)はXの絶対値を取る関数であ
り、ε(ε>0)は、この処理の精度に基づき定める数
である。
D間の距離の差を演算したものであり、この差が所定値
(ε)以下であるなら、正当な値と判断している。差が
所定値以上であるときは、上辺、または底辺が極端に長
く、文字枠としては不適切なことを示す。
て求められる。 ABS((xr4‐xr1)×(xr4‐xr1)+(yr4‐yr1)×(yr4
‐yr1)−(xr3‐xr2)×(xr3‐xr2)+(yr3‐yr2)×
(yr3‐yr2))<ε ただし、関数ABS(X)はXの絶対値を取る関数であ
り、ε(ε>0)は、この処理の精度に基づき適当な定
数を設定する。
C間の距離の差を演算したものであり、この差が所定値
(ε)以下であるなら、正当な値と判断している。差が
所定値以上であるときは、右辺、または左辺が極端に長
く、文字枠としては不適切なことを示す。
成り立ったら、P1〜P4の情報を採用する。成り立たない
場合は、要素を入れ替え、上記の条件が成立するものを
探す。さらに、条件の成立する組み合わせが得られなか
った場合は、リジェクトする。
う。これにより誤った情報に基づいて文字枠の切出を行
う事を防止することができる。
機能、枠幅・枠高さ検出機能の処理により決定された立
ち上がり情報、立ち下がり情報に基づいて枠線を検出す
る。
様の部分を推定枠領域とし、それぞれ推定枠領域1〜4
を示し、推定枠領域の幅はbとする。
(xf1+b,yf1+a)(xf4+b,yr4‐a)(xr4‐b,yr4‐a) (b>
1)で囲まれる矩形であり、この領域に対し、黒画素追
跡処理(ラベリング処理)を行い黒画素の固まりごとに
画像を分類(ラベル付け)する。なお、ラベリング処理
は公知の技術であり、ここでは説明を省略する。
行う。推定枠領域において、ラベリングを行った結果に
ついて、以下のように分類する。 A.推定枠領域の長辺に接触していないラベルを持つも
の。 B.推定枠領域に文字枠の内側だけ接触しているラベル
を持つもの。 C.推定枠領域に文字枠の外側だけ接触しているラベル
を持つもの。 D.推定枠領域に両方接触しているラベルを持つもの。
分類する。 E.XR−α<X<XF+α (α>0) で示されるX
座標を持つ領域。 F.YR−β<Y<YF+β (β>0) で示されるY
座標を持つ領域。 G.E,F以外の領域。
り、適当に定める。図15では、この分類を行うと以下
のようになる。
され、推定枠領域3はBに、推定枠領域4はDに、角領
域は、E,Fに分類される。
去機能1020は分類に対応した枠線消去を行う。
に対しては、黒画素を白画素に変換する。また、分類
B、C、Dに分類された領域に対しては、推定枠領域の
枠線が存在すると考えられる領域を白画素に置き換え
る。この領域は推定枠領域により小さい領域で十分であ
り、具体的には、推定領域4の場合では、(xr1‐c,yf1+
a)(xf1+c,yf1+a)(xf4+c,yr4‐a)(xr4‐c,yr4‐a) (b
>c>0)で表される領域である。
換処理等は行わない。図15に示されるように角領域、
推定枠領域に分類され、さらに、この領域内で黒画素と
の関係を調べ、適切な文字枠消去処理を行うことによ
り、図16に示す通りの文字を切出すことができる。
は、文字枠とこの文字枠内に記入されている文字とが判
別しにくい場合でも、確実に文字枠のみを認識して、消
去するこることにより、精度のよい文字認識をすること
ができる。
構成を示すブロック図
図
帳票の概要図
記憶領域に記憶される情報を示す概要図
憶領域に記憶される情報を示す概要図
概念図
機能1013の動作フロー図
能1014の動作フロー図
ラム図 (c) 図10(b)のヒストグラム図のX座標におけ
る差分値を算出するグラフ図 (d) 図10(c)のグラフ図に基づいて、X座標に
おいて隣接するもの同士を加算したことを示すグラフ図
フロー図
フロー図
記憶領域に記憶される情報を示す概要図
図
方法を示す説明図
認識誤りの例を示す説明図
Claims (17)
- 【請求項1】 文字枠領域のヒストグラムを算出するヒ
ストグラム算出手段と、X座標及びY座標における隣接
するヒストグラムの差分値をそれぞれ算出する差分値算
出手段と、X座標及びY座標における隣接するヒストグ
ラムの差分値の隣同士をそれぞれ加算する加算手段と、
前記加算手段により算出された加算値に基づいて文字枠
線の位置を計算し、文字切出を行う切出手段を備える文
字切出装置。 - 【請求項2】 前記差分値算出手段は、D(X)=H
(X)−H(X−1)(H(X)はヒストグラム値、X
はX座標値)を演算し、前記加算手段は、D2(X)=
D(X)+D(X−1)を演算することを特徴とする請
求項1記載の文字切出装置。 - 【請求項3】 前記加算手段が算出した複数の加算値の
うち、その値が所定範囲内にある値の候補を選択し、文
字枠の輪郭情報の候補情報として記憶する候補情報記憶
手段とを備え、所定の評価式を用いた評価値により、こ
の候補情報のうち一つを選択し、文字枠線位置を求める
ことを特徴とする請求項2の文字切出装置。 - 【請求項4】 上記候補情報として所定範囲の値の候補
が存在しない場合には、予め帳票毎に登録されている文
字枠情報の輪郭情報をその代わりに使用して文字枠の認
識を行うことを特徴とする請求項3記載の文字切出装
置。 - 【請求項5】 N×M画素のフィルタを用いて角領域の
文字枠の形状を算出する形状認識手段を備え、算出した
形状を形状情報として前記輪郭情報と対応づけて候補情
報記憶手段に記憶することを特徴とする請求項4記載の
文字切出装置。 - 【請求項6】 使用する帳票に対応した文字枠の形状情
報を記憶する文字枠情報記憶手段と、この文字枠情報記
憶手段に記憶された形状情報と前記候補情報記憶手段に
記憶されている形状情報とを比較する形状比較手段とを
備え、この形状比較手段により形状の一致した候補情報
のみを最終的な文字枠情報とすることを特徴とする請求
項5記載の文字切出装置。 - 【請求項7】 前記比較手段により形状の一致した候補
情報が存在しない場合、所定の手順で候補情報の中から
一つを選択する選択手段とを備えることを特徴とする請
求項6記載の文字切出装置。 - 【請求項8】 請求項3の評価値は、E(X)=(D
(X)+D2(X))×S(X)(但し、Xは座標値、
S(X)は、X=X0において極大となる関数、X0
は、文字枠情報記憶手段に記憶された枠交点位置)を用
いる事を特徴とした文字切り出し装置。 - 【請求項9】 文字枠情報の候補情報の正当性を判定す
る判定手段を備える請求項7、または請求項8記載の文
字切出装置。 - 【請求項10】 前記判定手段は、文字枠情報に記憶さ
れた文字枠の高さ、及び幅との比較により判定すること
を特徴とする請求項9記載の文字切出装置。 - 【請求項11】 文字枠の縦枠、横枠の位置から枠領域
を推定する文字枠推定手段とを備え、前記角領域と前記
推定枠領域とを認識されるべき文字の配置により枠線消
去方法を分別することを特徴とする請求項10記載の文
字切出装置。 - 【請求項12】 前記枠線消去方法は、認識されるべき
文字が文字枠の内外の位置により分別されることを特徴
とする請求項11記載の文字切出装置。 - 【請求項13】 文字枠の外側に文字が位置していると
きには、文字枠より大きい領域をとって消去することを
特徴とする請求項12記載の文字切出装置。 - 【請求項14】 推定した枠領域内における、画素の塊
の位置により、文字枠と文字との接触を判定する請求項
11記載の文字切出し装置。 - 【請求項15】 文字枠に関する情報を帳票毎に記憶す
る記憶手段と、使用帳票により前記記憶手段から読み出
す文字枠情報を変えることを特徴とする請求項1から1
4のいずれかに記載の文字切出装置。 - 【請求項16】 文字が記入される文字枠の文字枠領域
を抽出する文字枠領域抽出手段と、この抽出手段により
抽出された文字枠領域の4角の角領域を抽出する角領域
抽出手段と、この角領域抽出手段により抽出した角領域
から認識した文字枠の輪郭位置に基づいて文字枠を消去
し、文字のみを切り出す文字切出手段とを備えることを
特徴とする請求項1から15のいずれかに記載の文字切
出装置。 - 【請求項17】 文字枠の4角を角領域として抽出し、
この角領域のヒストグラム、およびヒストグラムから算
出される差分値、およびこの差分値から算出される補正
情報に基づいて文字枠を推定し、文字枠として切出すこ
とを特徴とする文字切出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00294099A JP4242962B2 (ja) | 1999-01-08 | 1999-01-08 | 文字切出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00294099A JP4242962B2 (ja) | 1999-01-08 | 1999-01-08 | 文字切出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000207490A true JP2000207490A (ja) | 2000-07-28 |
JP4242962B2 JP4242962B2 (ja) | 2009-03-25 |
Family
ID=11543367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00294099A Expired - Fee Related JP4242962B2 (ja) | 1999-01-08 | 1999-01-08 | 文字切出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4242962B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1237116A2 (en) * | 2001-02-28 | 2002-09-04 | Nec Corporation | Method and apparatus for detecting character frames using voting process |
US6983071B2 (en) | 2001-05-16 | 2006-01-03 | Nec Corporation | Character segmentation device, character segmentation method used thereby, and program therefor |
US8189921B2 (en) | 2008-03-31 | 2012-05-29 | Fujitsu Frontech Limited | Character recognition device |
-
1999
- 1999-01-08 JP JP00294099A patent/JP4242962B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1237116A2 (en) * | 2001-02-28 | 2002-09-04 | Nec Corporation | Method and apparatus for detecting character frames using voting process |
EP1237116A3 (en) * | 2001-02-28 | 2004-12-15 | Nec Corporation | Method and apparatus for detecting character frames using voting process |
US6983071B2 (en) | 2001-05-16 | 2006-01-03 | Nec Corporation | Character segmentation device, character segmentation method used thereby, and program therefor |
US8189921B2 (en) | 2008-03-31 | 2012-05-29 | Fujitsu Frontech Limited | Character recognition device |
Also Published As
Publication number | Publication date |
---|---|
JP4242962B2 (ja) | 2009-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5572602A (en) | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions | |
US5907631A (en) | Document image processing method and system having function of determining body text region reading order | |
US20160092745A1 (en) | Image processing apparatus and image processing method | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JPH0420226B2 (ja) | ||
JP3636809B2 (ja) | 画像処理方法 | |
JPH0467234B2 (ja) | ||
US6005976A (en) | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions | |
JPH08287184A (ja) | 画像切り出し装置及び文字認識装置 | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
JP4242962B2 (ja) | 文字切出装置 | |
JPH06208625A (ja) | 画像処理方法及び装置 | |
CN102682308B (zh) | 图像处理方法和图像处理设备 | |
JPH08190690A (ja) | ナンバープレート決定方法 | |
JP2827960B2 (ja) | 宛名行抽出装置 | |
JPH07168910A (ja) | 文書レイアウト解析装置及び文書フォ−マット識別装置 | |
JP2861860B2 (ja) | 宛名行抽出装置 | |
JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
JPH07182459A (ja) | 表構造抽出装置 | |
JP4731748B2 (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
JP2715930B2 (ja) | 線分検出方法 | |
JP3039427B2 (ja) | 文字切り出し方式及び方法 | |
JPH07160810A (ja) | 文字認識装置 | |
JP2859307B2 (ja) | 文字切出し装置 | |
JP2925303B2 (ja) | 画像処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20051221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051222 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081226 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |