JP3190794B2 - 文字切り出し装置 - Google Patents

文字切り出し装置

Info

Publication number
JP3190794B2
JP3190794B2 JP28603794A JP28603794A JP3190794B2 JP 3190794 B2 JP3190794 B2 JP 3190794B2 JP 28603794 A JP28603794 A JP 28603794A JP 28603794 A JP28603794 A JP 28603794A JP 3190794 B2 JP3190794 B2 JP 3190794B2
Authority
JP
Japan
Prior art keywords
processing unit
black pixel
black
line
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28603794A
Other languages
English (en)
Other versions
JPH08123902A (ja
Inventor
佳孝 濱口
節正 広垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP28603794A priority Critical patent/JP3190794B2/ja
Publication of JPH08123902A publication Critical patent/JPH08123902A/ja
Application granted granted Critical
Publication of JP3190794B2 publication Critical patent/JP3190794B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、アンダーラインや文字
枠等の線図形で装飾された文字列から各文字を切り出す
文字切り出し装置に関するものである。
【0002】
【従来の技術】文字認識を行なう場合には、文字列から
各文字を切り出す必要があるが、文字列にアンダーライ
ン(縦書きではサイドライン)が引かれている場合に
は、アンダーラインにより各文字がつながってしまって
いて切り出しが困難である。このため、従来、例えば文
字内に記述された文字列から各文字を切り出す場合、横
方向及び縦方向に黒画素のヒストグラムをとり、最も黒
画素の頻度が高い部分を除去する方法があった(例え
ば、特開平3−111982号公報参照)。また、文字
枠のない文書でも、文書中の文字列の一部にアンダーラ
インが付加されている場合があるが、その場合も上述し
たヒストグラムをとる方法により、アンダーラインを除
去していた。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た黒画素のヒストグラムを用いた従来の技術には、次の
ような各種の課題があった。 即ち、ヒストグラムを用いて、文字枠やアンダーライ
ン等の線図形を除去しているために、図8に示すように
「左右」という文字列がにじみ・かすれなどで1つの領
域となると、アンダーラインでつながった可能性がある
ものとして処理される。この場合、実際はアンダーライ
ンのような長い黒ランは無いにもかかわらず、図示のよ
うにヒストグラムが大きくなり、ヒストグラムが極大と
なるすぐ上の部分の図8のjの位置以下の部分がアンダ
ーラインであると判定される。これにより、本来文字で
ある部分がアンダーラインであるとして除去されてしま
う。
【0004】 また、アンダーラインと文字とが近接
し、かつ画像が傾いている場合は、アンダーラインの端
の部分が除去できずに残ってしまった。例えば、図15
に示すように、「元旦」という文字列にアンダーライン
が付加されているものが傾いて読み込まれた場合、ヒス
トグラムの極大値のすぐ上の谷の部分のe1よりも下の
画像が消去される。その場合、図16に示すようにf1
の位置にアンダーラインの一部が残ってしまう。
【0005】 更に、アンダーラインが文字と交差して
いる場合は、アンダーラインの除去と同時に文字の一部
も除去されてしまった。例えば、図22に示すように、
「gym」という文字列に重なるようにアンダーライン
が付加されている場合、横方向に投影したヒストグラム
の極大値のすぐ上の極小値はc2の位置である。その場
合、c2の位置より下の部分を消去した画像は、図23
に示すようになってしまう。そして、この画像に対して
文字認識を行なうと、例えば図23の1文字目はリジェ
クトされ、2文字目は誤認識されるなどの弊害が生じ
る。
【0006】
【課題を解決するための手段】本発明の文字切り出し装
置は、上述した課題を解決するため、以下の点を特徴と
するものである。 (1) 文字の書かれている行方向の所定値より長く連続した
黒画素である黒ランを消去する黒ラン消去処理部を備え
る。当該黒ラン消去処理部で消去されずに残留してい
る線図形の一部である黒画素を検出する残留黒画素検出
処理部を備える。当該残留黒画素検出処理部で検出さ
れた黒画素の座標から残留黒画素検出処理部では検出さ
れなかった線図形の一部である黒画素が残留していると
推定される座標を算出する残留黒画素推定処理部を備え
る。当該残留黒画素推定処理部で推定された座標の黒
画素あるいは残留黒画素推定処理部で推定された座標の
黒画素及び残留黒画素検出処理部で検出された黒画素の
双方を消去する残留黒画素消去処理部を備える。
【0007】(2) (1) において、以下を特徴とする。残留黒画素検出
処理部は、線図形を境界として文字の反対側にある黒画
素を線図形の一部が残留したものとして検出する。残
留黒画素推定処理部は、残留黒画素検出処理部で検出さ
れた黒画素と線図形の中心点に関し点対称の位置にある
黒画素を線図形の一部が残留したものと推定する。残
留黒画素消去処理部は、残留黒画素推定処理部で推定さ
れた黒画素及び残留黒画素検出処理部で検出された黒画
素の双方を消去する。
【0008】(3) (1) において、以下の特徴とする。残留黒画素検出
処理部は、線図形を境界として文字の反対側にある黒画
素を線図形の一部が残留したものとして一応検出する。
残留黒画素推定処理部は、残留黒画素検出処理部で検
出された黒画素と線図形の中心点に関し点対称の位置に
黒画素がないときは、残留黒画素検出処理部で検出され
た黒画素は線図形の一部が残留したものではなかったと
推定し、その検出結果を修正する。残留黒画素消去処
理部は、残留黒画素推定処理部で線図形の一部でないと
推定された黒画素を消去しない。
【0009】(4)処理対象の文字画像から 文字の書かれている行方向の
所定値より長く連続した黒画素である黒ランを線図形と
して検出する線図形検出処理部を備える。当該線図形
検出処理部で検出された線図形を除去した画像を処理対
象の文字画像から生成する線図形消去処理部を備える。
線図形検出処理部で検出された線図形に対し単数又は
複数の走査方向で交差する黒ランから成る画像を処理対
象の文字画像から生成する線素抽出処理部を備える。
線図形消去処理部で生成された画像と、線素抽出処理部
で生成された画像とを合成する画像合成処理部を備え
る。
【0010】
【作用】(1) 黒ラン消去処理部では、所定の長さ以上の黒ランを消去
することによりアンダーラインを消去する。ここで、ア
ンダーラインは黒画素で塗りつぶされた細長い長方形で
あり、読取画像が斜行している場合には、アンダーライ
ンの角の一部が上下に残る。残留黒画素検出処理部で
は、消去されたアンダーラインの付近に残留している黒
画素を検出する。残留黒画素推定処理部では、残留黒画
素検出処理部で検出された黒画素のうち一定のものをア
ンダーラインの一部であると推定する。
【0011】 そして、残留黒画素消去処理部では、アン
ダーラインの一部として推定された残留黒画素を消去す
る。この場合、残留黒画素検出処理部で検出された残留
黒画素のすべてをアンダーラインの一部であると推定し
て消去してしまってもよい。この結果、読取画像が斜行
している場合にもアンダーラインをきれいに消去するこ
とができる。
【0012】(2) (1)において、残留黒画素検出処理部では、黒ラン消
去処理部で消去されたアンダーラインより下側の黒画素
はアンダーラインの一部が消去されずに残留したもので
あるとみなす。残留黒画素推定処理部では、アンダーラ
インが斜行している場合はアンダーラインの消去された
部分に対しその角の一部が上下に点対称に残留すること
から、下側の角の残留部分に対して点対称の位置にある
黒画素をアンダーラインの一部であると推定する。そし
て、残留黒画素消去処理部では、アンダーラインの一部
として検出された残留黒画素及び推定された残留黒画素
を消去する。この結果、読取画像が斜行している場合に
もアンダーラインをきれいに消去することができる。
【0013】(3) (1)において、画像の斜行によりアンダーラインの角
の一部が残留する場合には必ず点対称の位置に残留する
はずである。従って、残留黒画素検出処理部でアンダー
ラインの一部として検出された残留黒画素に対して点対
称の位置に黒画素が存在しない場合には、残留黒画素検
出処理部で検出された黒画素が実はアンダーラインの一
部ではなく、アンダーラインの近くの句読点等であると
推定される。このため、その部分の黒画素は消去せずに
残す。この結果、句読点等がアンダーラインの下に付加
された場合にそれをアンダーラインの一部として消去し
てしまうことが防止される。
【0014】(4) 線図形 検出処理部では、例えば、行の高さの1.5倍以
上の長さで行の下1/3の範囲の黒ランをアンダーライ
ンとして検出する。線図形消去処理部では、検出された
黒ランをアンダーラインとみなして消去する。一方、線
素抽出処理部では、例えば、アンダーラインの太さの2
倍以上の行と垂直な方向又は所定角の斜め方向の黒ラン
を抽出する。そして、画像合成処理部では、アンダーラ
インを消去した画像と、線素抽出処理部で抽出された黒
ランとを論理和により合成する。この結果、アンダーラ
インの消去により文字の一部が削除されても、線素抽出
処理部で抽出された黒ランが重ねられることにより、文
字のとぎれた部分がつなげられる。
【0015】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明の文字切り出し装置の一実
施例のブロック図である。図示の装置は、行抽出処理部
1、外接矩形抽出処理部2、外接矩形判別処理部3、黒
ラン探索処理部4、間隙探索処理部5、線図形消去処理
部6、外接矩形再抽出処理部7、文字切り出し処理部8
から成る。文書画像10は、処理対象であり、画像ファ
イルや、紙に印刷された文書を光学的に電気信号に変換
したものである。行抽出処理部1は、文書画像から文字
行を抽出する処理を行なう。この処理は、例えば、以下
のような既存の手法により行なわれる。まず、文字から
成る段落を文書画像から抽出する。そして、その抽出画
像から行方向に投射した黒画素数のヒストグラムを取
り、黒画素数が一定値以下の部分で切り出す。
【0016】外接矩形抽出処理部2は、行抽出処理部1
によって切り出された行を、行方向と垂直方向の走査線
上に画素がない座標を区切りとし、黒画素塊を切り出
す。そして、各黒画素塊の外接矩形を抽出する。外接矩
形判別処理部3は、外接矩形抽出処理部2で抽出された
矩形内のうち、アンダーラインなどの除去すべき線図形
が存在する可能性があるものを判別する。例えば、強調
したい単語にアンダーラインを付加しているような場合
は外接矩形が1文字より長くなる。従って、行幅などか
ら文字の大きさを推定し、外接矩形の行方向の長さを比
較して一定の割合以上の長さであればアンダーラインな
どの線図形が付加されている可能性があると判定する。
ここで、アンダーラインなどの線図形が付加されている
可能性があると判別された外接矩形のみについて、以下
の各処理部による処理が行なわれる。
【0017】黒ラン探索処理部4は、外接矩形判別処理
部3でアンダーラインなどの除去すべき線図形が存在す
る可能性があると判別された外接矩形内に含まれる画像
から、特定の方向の長い黒ランを探索して最も外接矩形
の内側の黒ランの座標を記憶する。例えば、アンダーラ
インを除去することを目的とする場合、行幅などから推
定される文字の大きさより一定値以上長い行方向の黒ラ
ンを探索する。この場合、アンダーラインが付加される
方向、即ち、横書きの文書であれば下側、縦書きの文書
であれば右側から外接矩形の中心の方向に向かって探索
する。このとき、黒ランを探索する範囲を外接矩形の端
から、行幅の一定の割合までの範囲に限定するなどして
もよい。この処理を黒画素数ではなく、黒ランの検索に
よって行なうのが本手法の特徴の1つである。一方、上
述した条件に合った黒ランが検出されなかった場合は除
去すべき線図形はないものとし、その外接矩形について
はこの後の各処理部の処理を行なわない。
【0018】間隙探索処理部5は、黒ラン探索処理部4
で記憶された黒ランの座標から外接矩形の内側へ一定距
離内の行方向に平行な走査線のうち、黒ランを含まない
ものを探索し、その座標を記憶する。例えば、アンダー
ラインが文字と接触していない場合、この処理におい
て、アンダーラインと文字との間の間隙が検出できる。
これにより、文字と接触していないアンダーラインを正
確に除去できることが本発明の特徴の1つである。線図
形消去処理部6は、間隙探索処理部5で間隙となる座標
が検出された場合は、その座標から外側の黒画素をアン
ダーラインとして除去する。また、間隙探索処理部5で
間隙が検出されなかった場合は、黒ラン探索処理部4で
記憶された黒ランの座標より外側の黒画素をアンダーラ
インとして除去する。この場合、外側とは、外接矩形に
対してアンダーラインが付加されている方向で、通常横
書きでは下側、縦書きでは右側である。尚、アンダーラ
インの除去は、画像上から黒画素を消去する方法の他、
外接矩形を除去対象となる座標の内側まで狭める方法も
ある。
【0019】外接矩形再抽出処理部7は、線図形消去処
理部6でアンダーラインを除去した文書画像に対して、
再度外接矩形の抽出をしなおす。この場合、1つの外接
矩形となった原因であるアンダーラインが除去されてい
るため、2つ以上の文字が1つの外接矩形に含まれるこ
となく、正確に外接矩形が抽出される。文字切り出し処
理部8は、外接矩形抽出処理部2及び外接矩形再抽出処
理部7で抽出された外接矩形を、必要であれば文字単位
に統合あるいは分割し、最終的な文字切り出し結果とす
る。これは、行幅あるいは外接矩形の長さの頻度分布な
どから推定される文字の大きさを基準に小さい矩形は統
合し、大きい矩形は分割するような手法や、認識して文
字らしくなる組み合わせを探すような既存の手法で実現
できる。
【0020】次に、実例を用いて具体的な処理の例につ
いて説明する。図2は、文書画像から、行抽出処理部1
により切り出された文字行の例である。この例では、
「左右いっぱいに」という文字列のうち、文字のにじ
み、あるいはノイズにより「左右」が接触しており、
「いっぱい」の下にアンダーラインが付加されている。
点線の矩形は行の座標情報を示したもので、この後の説
明はこの矩形の左上の座標を原点として説明する。外接
矩形抽出処理部2では、図2の1行分の画像に対し、こ
の例は横書きであるので、縦方向の走査線について黒画
素を含まない座標を検出する。従って、その部分で行を
分割する。図2の例では、図2に示すaからbの間、及
びcからdの間において縦方向に黒画素がない。このた
め、X軸が行の左端からaまでの部分と、bからcまで
の部分と、dから右端までの部分の3つの部分に分割す
る。ここに、a、b、c、dのX座標は、それぞれ“1
08”、“115”、“330”、“336”であると
する。即ち、X=108〜115の部分と、X=330
〜336の部分が空白になっているものとする。
【0021】この後、分割された各部分の黒画素の外接
矩形を求める。即ち、図2の例では、X=0〜107の
部分と、X=116〜329の部分と、X=337〜3
80の部分に黒画素が分布している。そして、その各部
分についてY座標の方向での黒画素の分布の範囲を検出
する。その結果、図2の例では、X=0〜107の部分
ではY=0〜53の範囲、X=116〜329の部分で
はY=1〜61の範囲、X=337〜380の部分では
Y=8〜48の範囲に黒画素が分布していることが検出
される。以上の結果、図2に破線で示すような外接矩形
が抽出される。これらの外接矩形は、イメージとして表
現すると図2のようになるが、データとしては左上端の
座標値及び右下端の座標値の組み合わせである。それら
の座標値を図3に示す。
【0022】図3に示すように、1番目の外接矩形の左
上端の座標は(0,0)であり、右下端の座標は(10
7,53)である。また、2番目の外接矩形の左上端の
座標は(116,1)であり、右下端の座標は(32
9,61)である。そして、3番目の外接矩形の左上端
の座標は(337,8)であり、右下端の座標は(38
0,48)である。尚、座標値はドット単位で表わして
いるが、文書画像上の位置を示し得るものであれば他の
単位を用いても差し支えない。
【0023】外接矩形判別処理部3では、外接矩形に2
つ以上の文字が含まれていないかどうかを判別する。よ
り具体的には、適当な文字サイズを推定し、外接矩形の
幅がその推定した文字サイズよりも1文字としては異常
に長すぎるようなことがないかを調べる。例えば、文字
はほぼ正方形の外接矩形内に分布しているとみなし、縦
横の文字サイズはだいたい行の幅に等しいと推定する。
即ち、図2の例では、行の幅は62ドットであるので、
推定文字サイズを62ドットとする。そして、外接矩形
との判別の際は、推定文字サイズに対して予め定められ
た割合、例えば1.5倍の判別値を用いる。例えば1.
5倍としたのは、1.0倍であれば1文字であり、2.
0倍であれば2文字であると推定されるので、その中点
をとったためであるが、1.0を超え、2.0未満の他
の割合を用いてもよい。
【0024】1番目の「左右」を含む外接矩形は長さは
108ドットであり、推定文字サイズの1.75倍であ
る。従って、アンダーラインが付加されている可能性が
あるとして判別する。2番目の「いっぱい」を含む外接
矩形は長さが214ドットであり、推定文字サイズの
3.45倍である。従って、これもアンダーラインが付
加されている可能性があるとして判別する。3番目の
「の」を含む外接矩形は長さが44ドットであり、推定
文字サイズの0.71倍である。従って、アンダーライ
ンを除去するための処理は行なわれない。尚、上述した
手法以外でも、アンダーラインのある可能性がある矩形
を判別できれば、どのような手法でもかまわない。ま
た、この処理を行なわず、すべての外接矩形について処
理を行ない、処理の結果をもって外接矩形判別処理を兼
ねることも可能である。
【0025】黒ラン探索処理部4で、アンダーラインが
付加されている可能性があると判定された1個目、2個
目の外接矩形について、その外接矩形の下から推定文字
サイズ62ドットの一定の割合の範囲、例えば1/4の
16ドットの範囲から、推定文字サイズの一定値倍の長
さ、例えば、1.5倍の93ドットの長さの黒ランを検
出する。1個目の「左右」の外接矩形では、図4(a)
に示すように点線で示す下16ドットの範囲内で最も長
い黒ランは図4(a)のe(X座標が7)からf(X座
標が51)で長さは44ドットなので、93ドットより
短い。このため、除去すべきアンダーライン等の線図形
はないものとして間隙探索処理部5、線図形消去処理部
6、外接矩形再抽出処理部7の処理を行なわない。一
方、2個目の「いっぱい」の外接矩形では、矩形の左端
から右端まで214ドットであり、93ドット以上の長
さの黒ランが複数存在する。そして、その最も上にある
ものは図4(b)のg(X座標が58)の位置であるの
で、この座標を記憶する。
【0026】「いっぱい」の外接矩形に対し、間隙探索
処理部5では、黒ラン探索処理部4で記憶されたY座標
=58より上で且つ一定の距離内、例えば3ドット以内
にある黒画素を含まないX方向の走査線を探索する。画
像の傾き、あるいはにじみなどの原因でアンダーライン
である長い黒ランの上に93ドット未満の長さの黒ラン
が残っている。そして、その黒ランが3ドット以内であ
り、アンダーラインと文字が分離していればこの処理に
よりその分離している座標を検索することができる。こ
の場合、図5のようにh(X座標が57)の位置には少
々の短い黒ランが乗っているが、更に上のi(Y座標が
56)の位置のX方向の走査線上には黒画素がないた
め、この位置を文字とアンダーラインとが分離している
座標として記憶する。文字とアンダーラインが接触して
いる場合は3ドット以内ではその接触している文字の黒
画素がX方向走査線上に含まれるために間隙探索処理部
5では間隙が探索できず、記憶された座標がそのままア
ンダーラインの最上部として記憶される。
【0027】線図形消去処理部6では、「いっぱい」の
外接矩形で、間隙探索処理部5で探索されたY座標=5
6より下の部分の黒画素を白画素に置き換えることによ
りアンダーラインを消去する。図6に消去した後の画像
を示す。アンダーラインと文字が接触していて間隙探索
処理部5で間隙が探索できなかった場合は黒ラン探索処
理部で記憶された長い黒ランの座標から下の部分の黒画
素を白画素に置き換えてアンダーラインの部分を消去す
る。外接矩形再抽出処理部7では、線図形消去処理部6
でアンダーラインが消去された「いっぱい」の外接矩形
内の画像に対して再度、縦方向の走査線で黒画素を含ま
ないものを探索してその部分で分割し、分割された各部
分について外接矩形を求める。この結果、図6に示すよ
うに6つの外接矩形が抽出される。
【0028】最終的に、図2の1番目、3番目の外接矩
形は、そのままにされ、2番目の外接矩形は外接矩形再
抽出処理部7で抽出された図6の外接矩形に置き換えら
れ、図7に破線で示すように、アンダーラインが無い場
合と同様な外接矩形が文字切り出し処理部8に出力され
る。文字切り出し処理部8では、図7に破線で示すよう
な外接矩形を必要に応じて分割、統合し、最終的な文字
切り出し結果とする。文字切り出し処理部8に渡される
外接矩形は、アンダーラインが付加されない場合と同様
なものであるので、既存の手法で文字切り出し処理が行
なえる。
【0029】このようにして、黒ランの長さが長い部分
をアンダーライン等の線図形とみなして除去することに
より、文字部分を誤って除去することなく、正確に線図
形の除去を行なうことができる。また、長い黒ランのあ
るところより数ドット前から文字とアンダーラインが分
離している部分を探索することにより、アンダーライン
と文字とが接触していない場合はより正確にアンダーラ
インを除去することができる。尚、上述した実施例で
は、アンダーラインを消去した後に文字認識する場合に
ついて説明したが、本発明はこれに限らず、アンダーラ
インが付加された部分のみを取り出して要約文書を作成
する場合にも適用することができる。
【0030】(第2実施例)図9は、本発明の文字切り
出し装置の第2実施例のブロック図である。図示の装置
は、黒ラン検出処理部11、黒ラン消去処理部12、残
留黒画素検出処理部13、残留黒画素推定処理部14、
残留黒画素消去処理部15を備えている。黒ラン検出処
理部11は、アンダーライン消去の処理対象範囲から予
め算出された閾値以上の長さの行方向の黒ランを検出
し、その座標を記憶する。アンダーライン消去の処理対
象範囲は、例えば横書きであればアンダーラインは文字
列の下部にあるので、除去処理対象となる文字列の下部
1/4の範囲に設定する。黒ランの長さの閾値は、複数
文字から成る文字列にアンダーラインが付加されている
場合はアンダーラインの長さは1文字以上になるので、
例えば横書きであれば文字列の高さの1.5倍に設定す
る。
【0031】黒ラン消去処理部12は、黒ラン検出処理
部11で検出された黒ランを消去する。この黒ラン消去
処理は、黒ラン検出処理と別々に行なう必要はなく、黒
ラン検出処理部11で黒ランが検出されるごとに黒ラン
を消去するようにしてもよい。残留黒画素検出処理部1
3は、画像の傾きなどの原因により黒ラン消去処理部1
2で消去されなかったアンダーラインの一部である黒画
素を、黒ラン検出処理部11で検出された黒ランより下
側の位置から検出する。例えば、横書きで右下がりに傾
いていれば、黒ラン検出処理部11で検出された黒ラン
のすぐ下の右端に黒画素が残るが、これは黒ラン検出処
理部11で検出された最も下の黒ランのすぐ下側の走査
線上の画素を走査するだけですぐに検出される。
【0032】残留黒画素推定処理部14は、アンダーラ
インの一部でありながら、黒ラン消去処理部12で消去
されなかった黒画素を残留黒画素検出処理部13で検出
された残留黒ランの座標から推定する。例えば、右下が
りに傾いている場合は黒ラン検出処理部11で検出され
た黒ランのすぐ下の右端近傍に残留黒画素検出処理部1
3により黒画素が検出される。その場合、当該検出され
た黒画素の他に黒ラン検出処理部11で検出された黒ラ
ンの上部左端近傍にも黒ラン消去処理部12で消去され
ずに残留した黒画素があることが推定される。残留黒画
素消去処理部15は、残留黒画素検出処理部13で検出
された残留黒画素と、残留黒画素推定処理部14で推定
された座標にある黒画素とを消去する。このように、明
確にアンダーラインの一部が消去されずに残留したもの
と判定できる黒画素の座標から、他の残留黒画素の存在
する可能性のある範囲を推定して消去することにより、
より正確にアンダーラインの消去を行なう。
【0033】次に、上述した実施例の動作を説明する。
図11に示す「元旦」という文字列にアンダーラインが
付加された画像が傾いて読み込まれた場合の例について
具体的に説明する。尚、原点は画像の外接矩形の左上に
取ることとする。黒ラン検出処理部11では、例えば処
理対象となっている部分の下1/4の範囲から、処理対
象の高さの1.5倍以上の長さの横方向の黒ランを検出
する。図11の例では、アンダーラインを含む文字列の
高さは31ドットなので、下から8ドット以内、即ちY
座標が23〜30の間から47ドット以上の長さの横向
きの黒ランを検出する。その結果、座標(0,28)〜
(63,28)に条件を満たす黒ランが検出される。
【0034】黒ラン消去処理部12では、黒ラン検出処
理部11で検出された図11のa1の位置の黒ランを消
去する。その結果、図12に示すような画像が得られ
る。この場合、画像が傾いているため、アンダーライン
の一部が残留している。残留黒画素検出処理部13で
は、黒ラン検出処理部11で検出された黒ランより下
で、例えば検出された黒ランと黒画素で連続している黒
画素を検出する。その結果、図12にb1の破線で囲っ
て示す黒画素が検出される。この残留黒画素検出処理部
13の処理は、黒ラン消去処理部12で消去されなかっ
たアンダーラインの一部を検出し得る手法であればその
他の手法を用いてもかまわない。
【0035】ここで、図10を参照して残留黒画素推定
処理部14の動作を説明する。まず、中心算出処理部2
1で、アンダーラインの中心を黒ラン検出処理部11で
検出された黒ランの座標をもとに算出する。中心として
は、例えば、黒ランの重心を用いる。図11の例では、
黒ラン検出処理部11で検出された黒ランは座標(0,
28)〜(63,28)であったので、その重心の(3
1.5,28)の位置をアンダーラインの中心とする。
この処理では、アンダーラインの中心を推定できればよ
く、黒ラン検出処理部11で検出された黒ランの外接矩
形の中心を用いるなど、その他の手法を用いてもかまわ
ない。
【0036】次に、残留範囲算出処理部22では、残留
黒画素検出処理部13で検出された残留黒画素の存在す
る範囲を算出する。ここでは、検出された残留黒画素分
布に対する外接矩形を残留黒画素の存在範囲とする。そ
の結果、図13のc1の座標(29,29)〜(62,
30)が残留範囲となる。本実施例では、説明を単純に
するために残留範囲を外接矩形としたが、他の多角形、
複数の多角形、あるいは残留黒画素検出処理部13で検
出された残留黒画素の座標そのものを残留範囲としても
かまわない。
【0037】次に、残留範囲回転処理部23では、中心
算出処理部21で算出された中心点を軸に、残留範囲算
出処理部22で算出された残留範囲を180度回転す
る。その結果、図13のd1の座標(1,26)〜(3
4,27)が得られる。この処理は、画像の傾きにより
アンダーラインの一部が残る場合は点対象に残ることを
考慮した推定方法である。例えば、右下に画像が傾いて
いる場合はアンダーラインの右下の一部と左上の一部が
残るため、残留範囲算出処理部22で右下に残っている
黒画素が検出され、その座標から残留範囲回転処理部2
3で左上の黒画素の位置を推定できる。
【0038】連続黒画素検出処理部24では、残留範囲
回転処理部23により得られた範囲内から黒ラン検出処
理部11で検出された黒ランと、黒画素で連続した黒画
素を検出し、これを残留黒画素推定処理部14による処
理結果とする。本実施例の場合、図13のd1の破線の
矩形内部の黒画素はすべて黒ラン検出処理部11で検出
された図11のa1の黒ランと黒画素で連続しているの
で残留黒画素と推定される。以上のように、アンダーラ
インである長い黒ランよりも下にあるような、容易にア
ンダーラインの一部と判定できる黒画素の座標をもと
に、その他のアンダーラインの部分を推定する。
【0039】その後、残留黒画素検出処理部13で得ら
れた図12のb1の破線の矩形内の黒画素及び、残留黒
画素推定処理部14で推定された図13のd1の破線の
矩形内の黒画素を、残留黒画素消去処理部15で消去す
る。その結果、図14に示すように、アンダーラインが
残らず消去され、文字を構成する黒画素の一部が消去さ
れない美しい画像が得られる。
【0040】(第3実施例)第3実施例の装置構成は、
図9に示す第2実施例と同様であるが、処理内容が若干
異なる。残留黒画素推定処理部14では、アンダーライ
ンの一部でありながら、黒ラン消去処理部12で消去さ
れなかった黒画素を、残留黒画素検出処理部13で検出
された残留黒ランの座標から推定する。そして、推定さ
れた位置に黒画素が検出された場合は残留黒画素検出処
理部13で検出された黒画素も推定された黒画素として
処理結果に加える。残留黒画素消去処理部15では、残
留黒画素推定処理部14で得られた黒画素を消去する。
【0041】以上の処理で第2実施例と異なる点は、残
留黒画素推定処理部14では、残留黒画素検出処理部1
3で得られた黒画素の座標から推定された座標に黒画素
が検出されない場合は、残留黒画素検出処理部13で得
られた黒画素は残留黒画素推定処理部14の処理結果と
してあげられず、残留黒画素消去処理部15は残留黒画
素推定処理部14から得られた黒画素のみを消去する。
従って、残留黒画素推定処理部14で推定した位置に黒
画素がない場合は残留黒画素検出処理部13で検出され
た黒画素も消去されないことになる。残留黒画素検出処
理部13で検出された黒画素がアンダーラインの一部で
あれば、その座標から他の位置に残っている黒画素を推
定できるが、その推定される位置に黒画素が検出されな
いのであればもともと残留黒画素検出処理部13で得ら
れた黒画素がアンダーラインの一部ではない可能性が大
きい。そのような黒画素を消去しないことにより、アン
ダーライン以外のものを誤って消去することを防止した
ものである。
【0042】次に、上述した第3実施例の動作を説明す
る。最初の黒ラン検出処理部11、黒ラン消去処理部1
2、残留黒画素検出処理部13における処理は、第2実
施例と同じである。また、残留黒画素推定処理部14の
処理例のうち、中心算出処理部21、残留範囲算出処理
部22、残留範囲回転処理部23における処理も第2実
施例と同じである。連続黒画素検出処理部24では、残
留範囲回転処理部23により得られた範囲内から、黒ラ
ン検出処理部11で検出された黒ランと黒画素で連続し
た黒画素を検出し、これを残留黒画素推定処理部14の
処理結果とする。本実施例の場合、図13のd1の破線
の矩形内部の黒画素はすべて黒ラン検出処理部11で検
出された図11のaの黒ランと黒画素で連続しているの
で、残留黒画素と推定される。そして、その推定される
位置に黒画素が存在しているので、残留黒画素検出処理
部13で検出された図12のb1の破線の矩形内の黒画
素も推定された黒画素として処理結果に加える。
【0043】そして、残留黒画素推定処理部14で推定
された図13のd1の破線の矩形内の黒画素及び図12
のb1の破線の矩形内の黒画素を、残留黒画素消去処理
部15で消去する。その結果、図14に示すようにアン
ダーラインが消去された画像が得られる。このように、
一度残留黒画素検出処理部13でアンダーラインの一部
として検出された黒画素を、その黒画素の座標をもとに
他にアンダーラインの一部が残っていると推定される座
標にも残留黒画素推定処理部14で黒画素が検出された
場合のみ消去する。従って、句点や読点等のアンダーラ
イン以外の画素が誤って消去されることを防止できる。
【0044】尚、上述した実施例では、横書きの文書に
付加されたアンダーラインについて説明したが、これに
限らず、黒ラン検出処理部11で検出する黒ランの範囲
を文字の右側として縦の黒ランを検出し、残留黒画素検
出処理部13で黒ランより右側から残留黒画素を検出す
るようにすれば、縦書きの文書にも適用することができ
る。また、黒画素と白画素、黒ランと白ランを置き換
え、消去する代わりに黒画素で塗りつぶすことにより反
転画像にも適用できる。
【0045】(第4実施例)図17は、本発明の文字切
り出し装置の第4実施例のブロック図である。図示の装
置は、線図形検出処理部31、線図形消去処理部32、
線素抽出処理部33、画像合成処理部34を備える。線
図形検出処理部31は、画像上からアンダーラインを検
出し、その座標を記憶する。例えば、行の方向にある程
度以上の長さの黒ランを探索し、アンダーラインとして
検出する。具体的には、横書きであれば、行の高さより
一定値倍以上の長さで、行の下部1/3にある横向きの
黒ランをアンダーラインとして検出する。線図形消去処
理部32は、線図形検出処理部31で検出されたアンダ
ーラインを処理対象の画像から消去した画像を生成す
る。
【0046】線素抽出処理部33は、画像上から文字を
構成する線素のうちの所定のものを抽出する。抽出する
線素は、予め定められた長さ以上のものであり、アンダ
ーラインと交差するものである。また、そのような線素
の方向は、単数又は複数の方向である。即ち、アンダー
ラインと交差し得るような線素はアンダーラインの一部
ではなく、文字の一部である可能性が高いので、線素抽
出処理部33でそのような画素を抽出する。線素抽出処
理部33では、必ずしも文字を構成する線素すべてが抽
出される必要はなく、線図形消去処理部32でアンダー
ラインとともに消去される可能性がある画素が含まれて
いれば十分である。画像合成処理部34は、線図形消去
処理部32で得られたアンダーラインを消去した画像
と、線素抽出処理部33で得られた文字を構成する線素
から成る画像とを、オア演算をして合成する。この処理
では、線図形消去処理部32でアンダーラインとともに
消去された文字の一部を、線素抽出処理部33で得られ
た画像を用いて補完する。
【0047】次に、上述した第4実施例の装置の動作を
説明する。図18に示す「gym」という文字列に、ア
ンダーラインが文字と重なるように付加された例につい
て処理過程を具体的に説明する。尚、説明中の座標の原
点は、画像の外接矩形の左上に取ることとする。線図形
検出処理部31では、行の高さの1.5倍以上の長さの
横方向の黒ランを、行の下1/3から探索する。行の高
さは17ドットなので、下から6ドット以内にある16
ドット以上の長さの黒ランを探索する。その結果、図1
8のa2の座標(0,13)〜(40,13)及び、図
18のb2の座標(0,14)〜(40,14)の2つ
の黒ランがアンダーラインとして検出される。
【0048】線図形消去処理部32では、線図形検出処
理部31で検出された図18のa2の座標(0,13)
〜(40,13)及び、図18のb2の座標(0,1
4)〜(40,14)の2つの黒ランを消去する。その
結果、図19のような画像が得られる。この処理の結
果、文字の一部がアンダーラインとともに消去され、欠
落しているが、これを線素抽出処理部33及び画像合成
処理部34で補完する。
【0049】線素抽出処理部33では、まず、線図形検
出処理部31で得られた図18のa2の黒ランの座標
(0,13)〜(40,13)及び、図18のb2の座
標(0,14)〜(40,14)のY座標が“13〜1
4”であるので、アンダーラインの太さは2ドットとす
る。そして、図18の画像から、例えば、図中縦方向に
アンダーラインの太さの2倍以上、即ち4ドット以上の
太さの黒ランを探索する。この場合、縦方向、及び左下
から右上に向かう斜め方向の2方向の黒ランを探索す
る。そして、その結果得られた黒画素から成る画像を生
成する。その結果を図20に示す。尚、処理を簡略にす
るために上記のような手法を用いたが、下端が線図形検
出処理部31で得られたアンダーラインの座標より下で
上端がアンダーラインより上になる黒ランを抽出するな
どの手法を用いてもかまわない。
【0050】画像合成処理部34では、線図形消去処理
部32で得られた図19に示す画像と、線素抽出処理部
33で得られた図20に示す画像とのオア演算を行なっ
た画像を合成する。その結果を図21に示す。このよう
にして、アンダーラインを消去した画像と、アンダーラ
インと交差する線素とを合成するようにしたため、アン
ダーラインの消去により欠如した文字の一部が補完され
る。そのため、アンダーラインの除去後に行なわれる文
字切り出し、文字認識などの処理を正常に行なうために
十分な画像が得られる。
【0051】尚、本発明は上述した実施例に限定される
ものではなく、種々の変形が可能であることはもちろん
である。例えば、以上の説明は横書きの文書について行
なったが、縦書きであっても、黒ランの方向などを変え
ることにより同様の処理が可能である。
【0052】
【発明の効果】以上説明したように、本発明の文字切り
出し装置によれば、ヒストグラムを用いずに所定の長さ
以上の黒ランをアンダーラインとして検出するようにし
たので、次のような効果がある。 即ち、2文字以上の文字列がにじみ、かすれなどで1
つの領域となった場合には、アンダーラインでつながっ
たものとみなされるようなことはなく、本来文字である
部分がアンダーラインであるとして除去されることを防
止することができる。 また、アンダーラインと文字とが近接し、かつ画像が
傾いている場合も、アンダーラインを確実に検出し、そ
のアンダーラインの端の部分が除去できずに残っている
場合には、その部分を適切に処理することができる。 更に、アンダーラインが文字と交差している場合は、
アンダーラインの除去と同時に文字の一部が除去されて
も、アンダーラインと交差する方向の黒ランを検出して
アンダーラインを除去した後の文書画像と合成すること
により、文字が欠けることを防止することができる。
【図面の簡単な説明】
【図1】本発明の文字切り出し装置の第1実施例のブロ
ック図である。
【図2】外接矩形の抽出例の説明図である。
【図3】外接矩形の座標例の説明図である。
【図4】黒ラン探索処理例の説明図である。
【図5】間隙探索処理例の説明図である。
【図6】外接矩形再抽出例の説明図である。
【図7】外接矩形の最終処理結果の説明図である。
【図8】ヒストグラムによる画像処理例の説明図であ
る。
【図9】本発明の文字切り出し装置の第2及び第3実施
例のブロック図である。
【図10】残留黒画素推定処理部の詳細な構成のブロッ
ク図である。
【図11】黒ラン検出処理例の説明図である。
【図12】残留黒画素検出処理例の説明図である。
【図13】残留黒画素推定処理例の説明図である。
【図14】残留黒画素消去処理例の説明図である。
【図15】ヒストグラムによる斜行した線図形の検出例
の説明図である。
【図16】ヒストグラムによる斜行した線図形の処理結
果例の説明図である。
【図17】本発明の文字切り出し装置の第4実施例のブ
ロック図である。
【図18】アンダーライン検出処理例の説明図である。
【図19】アンダーライン消去処理例の説明図である。
【図20】線素抽出処理例の説明図である。
【図21】画像合成処理例の説明図である。
【図22】ヒストグラムによる交差した線図形の検出例
の説明図である。
【図23】ヒストグラムによる交差した線図形の処理結
果例の説明図である。
【符号の説明】
1 行抽出処理部 2 外接矩形抽出処理部 3 外接矩形判別処理部 4 黒ラン探索処理部 5 間隙探索処理部 6 線図形消去処理部 7 外接矩形再抽出処理部 8 文字切り出し処理部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−37082(JP,A) 特開 平6−231304(JP,A) 特開 昭63−157287(JP,A) 特開 昭61−15284(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/20 G06K 9/34

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字の書かれている行方向の所定値より
    長く連続した黒画素である黒ランを消去する黒ラン消去
    処理部と、 当該黒ラン消去処理部で消去されずに残留している線図
    形の一部である黒画素を検出する残留黒画素検出処理部
    と、 当該残留黒画素検出処理部で検出された黒画素の座標か
    ら前記残留黒画素検出処理部では検出されなかった線図
    形の一部である黒画素が残留していると推定される座標
    を算出する残留黒画素推定処理部と、 当該残留黒画素推定処理部で推定された座標の黒画素あ
    るいは前記残留黒画素推定処理部で推定された座標の黒
    画素及び前記残留黒画素検出処理部で検出された黒画素
    の双方を消去する残留黒画素消去処理部とを備えたこと
    を特徴とする文字切り出し装置。
  2. 【請求項2】 前記残留黒画素検出処理部は、前記線図
    形を境界として文字の反対側にある黒画素を前記線図形
    の一部が残留したものとして検出し、 前記残留黒画素推定処理部は、前記残留黒画素検出処理
    部で検出された黒画素と前記線図形の中心点に関し点対
    称の位置にある黒画素を前記線図形の一部が残留したも
    のと推定し、 前記残留黒画素消去処理部は、前記残留黒画素推定処理
    部で推定された黒画素及び前記残留黒画素検出処理部で
    検出された黒画素の双方を消去することを特徴とする請
    求項1記載の文字切り出し装置。
  3. 【請求項3】 前記残留黒画素検出処理部は、前記線図
    形を境界として文字の反対側にある黒画素を前記線図形
    の一部が残留したものとして一応検出し、 前記残留黒画素推定処理部は、前記残留黒画素検出処理
    部で検出された黒画素と前記線図形の中心点に関し点対
    称の位置に黒画素がないときは、前記残留黒画素検出処
    理部で検出された黒画素は前記線図形の一部が残留した
    ものではなかったと推定し、その検出結果を修正し、 前記残留黒画素消去処理部は、前記残留黒画素推定処理
    部で前記線図形の一部でないと推定された黒画素を消去
    しないことを特徴とする請求項1記載の文字切り出し装
    置。
  4. 【請求項4】 処理対象の文字画像から文字の書かれて
    いる行方向の所定値より長く連続した黒画素である黒ラ
    ンを線図形として検出する線図形検出処理部と、 当該線図形検出処理部で検出された線図形を除去した画
    像を前記処理対象の文字画像から生成する線図形消去処
    理部と、 前記線図形検出処理部で検出された線図形に対し単数又
    は複数の走査方向で交差する黒ランから成る画像を前記
    処理対象の文字画像から生成する線素抽出処理部と、 前記線図形消去処理部で生成された画像と、前記線素抽
    出処理部で生成された画像とを合成する画像合成処理部
    とを備えたことを特徴とする文字切り出し装置。
JP28603794A 1994-10-26 1994-10-26 文字切り出し装置 Expired - Fee Related JP3190794B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28603794A JP3190794B2 (ja) 1994-10-26 1994-10-26 文字切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28603794A JP3190794B2 (ja) 1994-10-26 1994-10-26 文字切り出し装置

Publications (2)

Publication Number Publication Date
JPH08123902A JPH08123902A (ja) 1996-05-17
JP3190794B2 true JP3190794B2 (ja) 2001-07-23

Family

ID=17699162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28603794A Expired - Fee Related JP3190794B2 (ja) 1994-10-26 1994-10-26 文字切り出し装置

Country Status (1)

Country Link
JP (1) JP3190794B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7039882B2 (ja) * 2017-08-16 2022-03-23 富士フイルムビジネスイノベーション株式会社 画像解析装置及び画像解析プログラム

Also Published As

Publication number Publication date
JPH08123902A (ja) 1996-05-17

Similar Documents

Publication Publication Date Title
Antonacopoulos Page segmentation using the description of the background
US5452374A (en) Skew detection and correction of a document image representation
US5465304A (en) Segmentation of text, picture and lines of a document image
JP3278471B2 (ja) 領域分割方法
JPH05242292A (ja) 分離方法
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
JPH08287184A (ja) 画像切り出し装置及び文字認識装置
JP3615333B2 (ja) 罫線消去装置
JP2554187B2 (ja) 基本ライン抽出方法
JP3190794B2 (ja) 文字切り出し装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP3406942B2 (ja) 画像処理装置及び方法
JP3133797B2 (ja) 文字認識方法及びその装置
JP3000480B2 (ja) 文字領域区切り検出方法
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JP3343305B2 (ja) 文字切り出し装置、及び文字切り出し方法
JPH07160810A (ja) 文字認識装置
JP3039427B2 (ja) 文字切り出し方式及び方法
JP2003016385A (ja) 画像処理装置、方法、プログラム、及び記憶媒体
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH11242716A (ja) 画像処理方法および記録媒体
JP3024234B2 (ja) 文書画像の罫線抽出装置
JPH10507014A (ja) 2進イメージにおけるランドスケープ・スキャンの自動決定
JPH09288714A (ja) 表認識方法および装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees