JP3343305B2 - 文字切り出し装置、及び文字切り出し方法 - Google Patents

文字切り出し装置、及び文字切り出し方法

Info

Publication number
JP3343305B2
JP3343305B2 JP01085195A JP1085195A JP3343305B2 JP 3343305 B2 JP3343305 B2 JP 3343305B2 JP 01085195 A JP01085195 A JP 01085195A JP 1085195 A JP1085195 A JP 1085195A JP 3343305 B2 JP3343305 B2 JP 3343305B2
Authority
JP
Japan
Prior art keywords
character
line
pattern
separation
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01085195A
Other languages
English (en)
Other versions
JPH08202822A (ja
Inventor
敦子 浅川
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP01085195A priority Critical patent/JP3343305B2/ja
Publication of JPH08202822A publication Critical patent/JPH08202822A/ja
Application granted granted Critical
Publication of JP3343305B2 publication Critical patent/JP3343305B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、OCRの手書き文字認
識装置等に利用される文字切り出し装置、及び文字切り
出し方法に関する。
【0002】近年、手書き文字の入力周辺機器として、
手書き文字認識装置を有するOCRの需要が急増してい
る。個々の文字の高い認識率を実現する為には、文字認
識の前段階である文字切り出し処理がその正確さの点で
重要になる。
【0003】これまで、帳票等の文書に対して一文字ず
つ分離されて書かれていれば、かなりの率で文字の認識
ができたが、少しでも互いに接触している文字、または
続け字が入ると著しく認識率が低下する。このような事
情から、前記続き文字を一文字ずつ正確に認識する方法
が手書き文字認識装置において求められており、特に、
文字切り出し装置における文字切り出し処理の精度向上
が求められている。
【0004】なお、本発明は、手書き文字の認識だけで
なく、印刷文字の認識、図面認識における文字切り出し
等、広い意味での文字切り出し処理に適応可能な技術で
ある。
【0005】
【従来の技術】図18〜図25は従来例を示した図であ
り、図18〜図25中、1は文字切り出し装置、2は連
結パターン抽出部、3は横長パターン抽出部、4は続き
線抽出部、5は文字分離線決定部、6はゼロ判定部、7
は文字分離部を示す。
【0006】 §1:文字切り出し装置の構成の説明・・・図18参照 図18は従来の文字切り出し装置構成図である。従来、
文字認識装置において文字認識を行う場合、文字認識の
前段階の処理として、手書き文字の切り出し処理を行う
必要があった。そのため、文字切り出し装置が使用され
ていた。
【0007】図示のように文字切り出し装置1には、連
結パターン抽出部2、横長パターン抽出部3、続き線抽
出部4、文字分離線決定部5、ゼロ判定部6、文字分離
部7が設けてある。前記各部の機能は次の通りである。
【0008】(1) :連結パターン抽出部2は、入力パタ
ーンから連結パターンを抽出するものである。すなわ
ち、文字切り出しを行う場合、先ず、文字が配置されて
いる位置の相対的な関係に依存することなく、各文字パ
ターンを安定にピックアップするために、連結パターン
抽出部2では、例えば、8連結で繋がっているパターン
をラベリング処理で抽出する。
【0009】(2) :横長パターン抽出部3は、続き文字
の候補として、前記ラベリング処理で得られた連結パタ
ーン毎に、外接矩形の縦横の比率を算出し、或る一定以
上の横長の比率を持つパターンを抽出するものである。
【0010】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平続き線、或いは斜め続き線
を抽出するものである。
【0011】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。
【0012】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線を
消去し、数字のゼロ以外の文字は、前記文字分離線で分
離するものである。
【0013】 §2:文字切り出し方法の概要説明・・・図18参照 前記構成の文字切り出し装置による文字切り出し方法は
次の通りである。連結パターン抽出部2では入力パター
ンを入力すると、前記入力パターンの連結情報に基づい
て、入力パターンから画素と画素とが繋がっている連結
パターンを抽出する。
【0014】次に、横長パターン抽出部3では、前記抽
出された連結パターンの内、複数の文字が繋がっている
続き文字の候補として、横に長いパターンだけを抽出す
る。そして、続き線抽出部4では、水平、或いは斜めの
文字と文字の繋がっている部分の続き線を見つけること
によって、前記抽出された連結パターンが続き文字であ
るか否かを判断し、水平、或いは斜め続き線を抽出す
る。
【0015】その後、文字分離線決定部5では、前記抽
出された続き線を基にパターンの輪郭探索を用いて、文
字数、及び一文字毎の文字の存在する領域を求め、文字
と文字の間に垂直分離線、或いは斜め分離線等の文字分
離線を決定する。
【0016】前記文字分離線が決定すると、ゼロ判定部
6では、前記文字分離線で分離された1文字毎の文字領
域について、1文字毎に、数字のゼロ(0)であるか否
かを判定する。
【0017】この処理が終了すると、文字分離部7で
は、前記数字のゼロ(0)と判定された文字について
は、左右に出ている不必要な続き線を消去し、数字のゼ
ロ以外の文字は、前記文字分離線で分離する。このよう
にして文字の切り出しを行う。以下、前記各部の詳細な
処理を説明する。
【0018】§3:連結パターン抽出部、横長パターン
抽出部、及び続き線抽出部の詳細な処理説明・・・図1
9参照 図19は連結パターン抽出部、横長パターン抽出部、続
き線抽出部の処理説明図である。
【0019】(1) :通常、自由に書かれた文字列、例え
ば、数字の文字列から続き文字を抽出、分離する際、文
字に関しては、単独の文字と続き文字が混在しており、
文字の大きさとか、続けて書かれている文字数にも、特
に規定がない。そのため、入力された文字パターンに関
して極端な傾き補正を行い、雑音を除去し、かすれの穴
埋め等の前処理を行った後の2値画像を文字切り出しの
対象とする。
【0020】文字と文字が続けて書かれていると、横線
で文字同士が繋がっていることが多いことに着目して、
その横方向の続き線(以下「水平続き線」と記す)、或
いは斜め方向の続き線(以下「斜め続き線」と記す)を
抽出することにより、続き文字を判別し、文字の分離を
行うようにしている。
【0021】(2) :文字切り出しを行う場合、先ず、文
字が配置されている位置の相対的な関係に依存すること
なく、各文字パターンを安定にピックアップするため
に、連結パターン抽出部2では、例えば、8連結で繋が
っているパターンをラベリング処理により抽出する。
【0022】具体的には、8連結のウインドウパターン
で文字パターンを走査して、該ウインドウで走査できた
画素に、所定の論理に基づいて、同じラベルを与える。
以下、これらのラベルを判別して、続き文字の分離を行
う。
【0023】また、該ラベリング処理で得られた連結パ
ターンのサイズが、後で必要となるので、連結パターン
を矩形近似して得られる矩形の角の座標を、該ラベリン
グの処理で算出しておくようにする。
【0024】前記ラベリング処理については、例えば
「画像処理の基本技法(技法入門編)、(Image Proces
sing on Personal Computer )、第1部画像処理の基
礎、第3章、画像処理の基本アルゴリズム、2)連結成
分処理,ラベリング,長谷川純一,興水大和,中山
晶,横中茂樹著,技術評論社,昭和61年8月10日
刊」に詳しい。
【0025】(3) :次の横長パターン抽出部3では、続
き文字の候補として、前記ラベリング処理で得られた連
結パターン毎に、外接矩形の縦横の比率を算出し、或る
一定の値以上の横長の比率を持つパターンを抽出する。
【0026】また、この処理では、例えば、連結パター
ンを矩形近似して抽出した文字領域の平均サイズを算出
し、この算出した平均サイズと比較することにより、前
記続き文字の候補パターンを抽出する。
【0027】(4) :続き線抽出部4では、水平続き線、
及び斜め続き線の抽出を行うが、水平続き線抽出処理で
は、初めに、(パターン面積)/(外接矩形の面積)を
算出し、その値に従って、抽出する直線の長さを決定す
る。
【0028】前記の値が、大きい時には、図19のA図
に示したように長い直線を抽出し、前記値が小さい時
には、図19のB図に示したように短い直線を抽出す
る。抽出する直線の長さを一定としない理由を以下に説
明する。
【0029】(5) :図19のA図、B図に示したよう
に、前記(パターン面積)/(外接矩形の面積)=大の
場合、図19のA図に示したように短い直線を抽出す
ると文字部分にも多数の直線が抽出されるため、続き部
分に限って直線を抽出するには、図19のA図で示し
たように比較的長い直線の抽出を行う必要がある。
【0030】これに対して、前記(パターン面積)/
(外接矩形の面積)=小の場合には、図19のB図に
示したように長い直線を抽出しようとしても直線が抽出
されない場合が存在するため、図19のB図に示した
ように、短い直線を抽出して、それらを統合することに
より、長い続き線を求める方法が必要となるためであ
る。
【0031】(6) :次に、横方向の投影を行って直線の
抽出を行う。この時、投影値に周囲の行の投影値を足し
合わせたものをその行の投影値とする、所謂隣接投影の
方法を用いる。この隣接投影の方法を用いることによ
り、斜めに繋がっている続き線を検出することができ
る。
【0032】図19のC図は、前記隣接投影を行う際の
投影範囲を説明する図である。前記隣接投影を行う際の
投影範囲は、前記抽出する直線の長さに従って、文字パ
ターンを縦方向に分割を行い、その分割された範囲内で
隣接投影の処理を行う。
【0033】そして、該投影値が或る一定値以上である
と、その部分に直線があると認識し、抽出された直線の
存在する範囲を図19のD図に示したように、矩形近似
して、矩形直線を形成する。
【0034】その後、図19のD図に示したように、接
触、または近隣の矩形直線を統合して長い直線を抽出
し、その中で一番長い直線を水平続き線とする。この水
平続き線も、矩形近似を行った矩形直線を用いる。
【0035】前記のようにして水平続き線が抽出された
ら、続き文字を判別して文字の分離を行うが、続き線が
斜めの場合、前記水平続き線抽出処理では水平続き線が
抽出できないことがある。このような場合、前記水平続
き線抽出処理に加えて、斜め方向に隣接投影を行うこと
により斜め続き線抽出処理を行う。
【0036】§4:続き線抽出部による斜め続き線抽出
処理の詳細な説明・・・図20〜図22参照 図20は続き線抽出部の処理説明図(その1)であり、
A図は斜めの投影値算出方法説明図、B図は斜めの隣接
投影法説明図である。図21は続き線抽出部の処理説明
図(その2)であり、A図は原画像の説明図、B図は直
線抽出(傾き45度)の説明図、C図は斜め投影値の算
出の説明図である。図22は続き線抽出部の処理説明図
(その3)であり、A図はパターンの分割、B図は抽出
された矩形直線、C図は統合して抽出した長い直線を示
す。
【0037】前記のように、続き線抽出部4の水平続き
線抽出処理で水平続き線の抽出ができなかった場合、以
下に説明する斜め方向の隣接投影法の処理を行うことに
より、斜め続き線を抽出する。
【0038】(1) :斜め方向の隣接投影法説明・・・図
20、図21参照 斜め方向の隣接投影法は、或る一定の斜め方向に投影を
行い、注目している斜め線の投影値に、その周囲の投影
値を足し合わせた結果を、斜め線の投影値とする方法で
ある。図20のA図は、n×nの領域を、45度の角度
で斜めに投影を行った場合の投影値の算出方法を示して
いる。
【0039】この例では、縦方向の投影値をP1(i)
(i=1〜n)、横方向の投影値をP2(j)(j=1
〜n)とし、P1(n)=P2(1)とする。また、以
下に説明する式で、I(x,y)を画素値としている。
この場合、前記投影値P1(i)、及びP2(j)の算
出式は、次の通りである。
【0040】
【数1】
【0041】斜め投影値の算出は、図20のB図に示し
たように、i番目の投影値をP(i)とすると、斜め隣
接投影値P(i)は、次の式で表現できる。なお、zは
足し合わせる周囲の投影値の数を示す。
【0042】先ず、図の左上の領域の場合は、P(i)
=p1(i−z)+p1(i−z+1)+・・・+p1
(i)+・・・+p1(i+z)となる。また、右上の
領域の場合は、P(j)=p2(j−z)+p2(j−
z+1)+・・・+p2(j)+・・・+p2(j+
z)となる。
【0043】ここで、i=zの場合は、P(i)=p1
(i−z)+p1(i−z+1)+・・・+p1(i)
・・・+p1(z)となる。なお、図20のB図の場
合、斜めの隣接投影値は、P(i)=p(i−1)+p
(i)+p(i+1)である。
【0044】具体例を図21について説明する。例え
ば、図21のA図に示したような原画像があるとする。
この図では、各画素を四角印で示してある。直線抽出を
行う場合、図21のB図に示したように、X−Y座標で
傾きが45度の場合は、X方向に1進んだら、Y方向に
1進む。同様に、45度以外の場合にも、XとYとの整
数比を算出し、その比に従って、投影値を算出する。
【0045】例えば、前記の式において、z=1、閾値
=10とすると、図21のA図の場合、10番目が直線
として抽出される。また、図21のC図では、X方向の
増加数と、Y方向の増加数の比は、1対2となってい
る。
【0046】(2) :斜め隣接投影値算出から、斜め続き
線の検出までの具体例による処理説明・・・図22参照 斜め隣接投影値算出処理では、図22のA図のように、
パターンを横複数に分割し、それぞれの分割範囲内で、
斜めの隣接投影を行う。この場合、隣接投影値と分割長
との比が、或る一定値以上になった行に直線が存在する
ものとする。
【0047】斜め直線抽出処理では、図22のB図に示
したように、抽出された直線の存在する範囲を矩形近似
して矩形直線を抽出する。その後、斜め直線統合処理を
行い、図22のC図に示したように、接触、または近隣
の矩形直線を統合することにより、長い直線を抽出し、
統合された直線の中で最も長い直線を斜め続き線とす
る。そして、前記斜め続き線を矩形近似して出力する。
【0048】 §5:文字分離決定部の処理説明・・・図23参照 図23は文字分離線決定部の処理説明図であり、A図は
パターンの傾き算出、B図はパターンの傾き算出、C図
は文字分離線決定の説明図である。
【0049】文字分離線決定部5では、続き線抽出部4
で抽出した続き線を基に文字分離線を決定する。この処
理では、水平続き線が抽出された場合は、矩形近似され
た水平続き線の下辺を端から辿っていき、パターンと交
差したところを輪郭探索の開始点として輪郭探索を行
う。
【0050】そして、再び下辺と交差したら、探索を終
了し、再びパターンと交差するまで、下辺を辿り、同様
の処理を繰り返す。最終的に探索を行った回数を文字数
とし、探索の開始点から終了点までを、一文字が存在し
ている領域とする。探索終了点と開始点との間で、且つ
縦方向の線密度が1である部分を、文字と文字を分離す
る垂直分離線とする。
【0051】また、縦方向の線密度1の部分が無い場合
には、斜め線で文字分離を行う。この場合、分離線の傾
きは、パターンの傾きを用いる。パターンの傾きの算出
は、例えば、以下に説明する式を用いて算出するが、こ
の処理の詳細は、例えば、次の文献を参照されたい。
【0052】「F.Kimura, M.Shridhar and Z.Chen "Imp
rovement of Lexicon Directed Algorithm Recognition
of Unconstrained Handwritten Words" Proceeding of
Second International Conference on Document Analy
sis and Recognition,Tsukuba Science City, Japan 19
93,IEEE Computer Society Press, P.18〜 P.22」。
【0053】前記のように、一文字領域間で、前記の傾
きに従って、線密度を求め、線密度1のところで前記の
傾きを持つ分離線(斜め分離線)を引く。前記パターン
の傾きを算出する場合、例えば、図23のA図、B図に
示したように、隣接画素n1、n2、n3の方向が図示
矢印方向にあるものとする。このような隣接画素n1、
n2、n3に対し、n1の総数をN1、n2の総数をN
2、n3の総数をN3とし、パターンの傾き角をθとす
ると、tanθ=(N1+N2+N3)/(N3−N
1)の式が成立する。
【0054】すなわち、図23のC図に示したように、
水平軸に対する斜め分離線の角度θは、tanθ=(N
1+N2+N3)/(N3−N1)の式で与えられる。 §6:ゼロ判定部の詳細な処理説明・・・図24参照 図24はゼロ判定部の処理説明図であり、A図は線密度
の算出処理、B図は線密度の算出処理を示す。
【0055】ゼロ判定部6は、続き線(水平続き線、及
び斜め続き線)と、分離線(垂直分離線、斜め分離線)
に囲まれた一文字領域内において、図24に示したよう
に、続き線とパターンに囲まれた空白部分から、複数方
向放射状に線密度を算出し、全ての方向について線密度
が1であれば、ループ構造をしたゼロであると判定す
る。
【0056】 §7:文字分離部の詳細な処理説明・・・図25参照 図25は文字分離部の処理説明図である。文字分離部7
では、ゼロ判定部6でゼロであると判定された文字に関
しては、左右に出ている不必要な続き線の消去を行い、
それ以外の文字は文字分離線で分離する。
【0057】この場合、分離線から線の傾きが急激に変
化する部分までを消去範囲とする。図25のA図に示し
たように、一定範囲内に傾きの変化が殆ど無い場合は、
続き線の消去は行わない。すなわち、a部分は傾きに急
激な変化がないため消去しない部分であり、b部分は傾
きに急激な変化がある所まで消去する部分である。
【0058】また、ゼロと判定されたパターンの内部
に、図25のB図に示したように、ループがあった場
合、後の認識処理において、誤認識等の悪影響を少なく
するために、内部の線の消去も行う。ゼロでないと判定
された文字に関しては、分離線で他の文字と分離を行
い、水平続き線の消去は行わない。
【0059】
【発明が解決しようとする課題】前記のような従来のも
のにおいては、次のような課題があった。 (1) :帳票等の文書に対して1文字ずつ分離して書かれ
た文字についてはかなりの高い認識率で文字認識を行う
ことができた。しかし、接触文字や、続け字が入ると文
字と文字の分離ができない場合が多くなり、文字の認識
率が低下する。
【0060】(2) :続き線のある数字のゼロの続け字の
場合は正確に文字の分離処理を行うことができる。しか
し、続き線があっても数字のゼロでない場合は、正確に
文字と文字の分離線を見つけることができないことが多
かった。このような場合、所定の位置で強制分離を行う
ことで文字と文字を分離していた。
【0061】そのため、前記強制分離を行ったことによ
り、余分な「ヒゲ」が残ってしまい認識処理が困難にな
る等の悪影響が発生していた。 (3) :従来の装置では斜め続き線を抽出する際に、或る
一定の角度を持った方向に投影処理を行い続き線を抽出
していた。この処理では、始めの角度設定を誤ると精度
よく続き線が抽出できない。
【0062】(4) :続け字を分離する場合、2文字を直
線で分離できるかどうかを見ているため、文字間の空白
が少しでも複雑な形状になると対処できなかった。ま
た、文字の訂正線を間違えて続き線として抽出すること
があった。
【0063】本発明は、このような従来の課題を解決
し、数字のゼロを含まない文字の場合であっても、常に
正確に文字と文字の分離が行えるようにして高精度の認
識処理を可能とすることを目的とする。
【0064】また、本発明は、文字の訂正線の抽出を行
うことにより続き線の抽出精度を向上させると共に、変
化点の抽出処理を高精度で実現し、文字の分離精度を向
上させることを目的とする。
【0065】
【課題を解決するための手段】図1は本発明の原理説明
図であり、A図は文字切り出し装置イ、B図は文字切り
出し装置ロを示す。本発明は前記の目的を達成するた
め、文字切り出し装置を次のように構成した。
【0066】(1) :図1のA図に示した文字切り出し装
置イにおいて、入力パターンの連結情報に基づいて、入
力パターンから連結パターンを抽出する連結パターン抽
出部2と、連結パターン抽出部が抽出した連結パターン
の内、複数の文字が繋がっている続き文字の候補とし
て、横に長い横長パターンだけを抽出する横長パターン
抽出部3と、横長パターン抽出部が抽出した横長パター
ンから文字と文字を繋いでいる続き線を見つけることに
よって、前記抽出された連結パターンが続き文字である
か否かを判断し、文字の続き線を抽出する続き線抽出部
4と、続き線抽出部で続き線が抽出できなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出部10と、変化点抽出部が抽出した変
化点を基に、それぞれの分離点候補で分離した場合の分
離後の文字の大きさを求め、前記文字の大きさの比較に
より文字の分離点を決定する分離点決定部11と、分離
点決定部で決定した文字の分離点で文字を分離する文字
分離部12を設けた。
【0067】(2) :図1のB図に示した文字切り出し装
置ロにおいて、入力パターンの連結情報に基づいて、入
力パターンから連結パターンを抽出する連結パターン抽
出部2と、連結パターン抽出部が抽出した連結パターン
の内、複数の文字が繋がっている続き文字の候補として
横に長い横長パターンだけを抽出する横長パターン抽出
処理、及び前記横長パターンから文字と文字を繋いでい
る続き線を抽出して、文字上に書かれた訂正線を抽出す
る訂正線抽出処理を行う続け字抽出部23と、続け字抽
出部が抽出した横長パターンから文字と文字を繋いでい
る続き線を見つけることによって、前記抽出された連結
パターンが続き文字であるか否かを判断し、文字の続き
線を抽出する続き線抽出部4と、続き線抽出部4で続き
線が抽出された場合、その続き線の位置情報を基に、文
字分離線を決定する文字分離線決定部5と、文字分離線
決定部が決定した文字分離線で分けられた一文字毎の文
字領域について、一文字毎に、数字のゼロであるか否か
を判定するゼロ判定部6と、数字のゼロと判定された文
字について、文字領域を残し不必要な続き部分を消去す
る文字分離部7と、続き線抽出部4で続き線が抽出でき
なかった場合、及び前記ゼロ判定部で数字のゼロと判定
されなかった場合に、パターンの輪郭探索を行ってパタ
ーン輪郭の傾きの変化点を抽出し、前記変化点を文字と
文字の分離点候補とする変化点抽出部10と、変化点抽
出部が抽出した変化点を基に、それぞれの分離点候補で
分離した場合の分離後の文字の大きさを求め、前記文字
の大きさの比較により文字の分離点を決定する分離点決
定部11と、分離点決定部11で決定した文字の分離点
で文字を分離し、文字領域を残し不必要な続き部分を消
去する文字分離部12を設けた。
【0068】
【作用】前記構成に基づく本発明の作用を、図1に基づ
いて説明する。 (1) :前記文字切り出し装置イでは、先ず、連結パター
ン抽出部2が、入力パターンの連結情報に基づいて、入
力パターンから、画素と画素とが繋がっている連結パタ
ーンを抽出する。
【0069】次に、横長パターン抽出部3では、前記抽
出された連結パターンの内、複数の文字が繋がっている
続き文字の候補として、横に長い横長パターンだけを抽
出する。そして、続き線抽出部4では、文字と文字を繋
いでいる続き線を見つけることによって、前記抽出され
た連結パターンが続き文字であるか否かを判断し、水
平、或いは斜め続き線を抽出する。
【0070】その後、続き線が抽出できた場合は、別の
処理部(図示省略)により前記続き線を基に文字分離点
を決定して文字の分離を行う。しかし、続き線が抽出で
きなかった場合には、変化点抽出部10でパターンの輪
郭探索を行ってパターン輪郭の傾きの変化点を抽出し、
前記変化点を文字と文字の分離点候補とする。
【0071】その後、分離点決定部11は、変化点抽出
部10が抽出した変化点を基に、それぞれの分離点候補
で分離した場合の分離後の文字の大きさを求め、前記文
字の大きさの比較により文字の分離点を決定する。次
に、文字分離部12は、分離点決定部11で決定した文
字分離点で文字を分離する。
【0072】(2) :文字切り出し装置ロでは、連結パタ
ーン抽出部2が、先ず、入力パターンの連結情報に基づ
いて、入力パターンから、画素と画素とが繋がっている
連結パターンを抽出する。
【0073】次に、続け字抽出部23は、連結パターン
抽出部2が抽出した連結パターンの内、複数の文字が繋
がっている続け字候補として横に長い横長パターンだけ
を抽出する。この時、続け字抽出部23は、前記横長パ
ターンから文字と文字を繋いでいる続き線を抽出するこ
とで、文字上に書かれた訂正線を抽出する。
【0074】その後、続き線抽出部4は、続け字抽出部
23で抽出した横長パターンから文字と文字を繋いでい
る続き線を見つけることによって、前記抽出された連結
パターンが続き文字であるか否かを判断し、文字の続き
線を抽出する。
【0075】そして、続き線抽出部4で続き線が抽出さ
れた場合、文字分離線決定部5は、その続き線の位置情
報を基に文字分離線を決定する。続いてゼロ判定部6
は、文字分離線決定部5が決定した文字分離線で分けら
れた一文字毎の文字領域について、一文字毎に数字のゼ
ロであるか否かを判定する。その結果、ゼロと判定され
た場合は、文字分離部7は数字のゼロと判定された文字
について、文字領域を残し不必要な続き部分を消去す
る。
【0076】しかし、続き線抽出部4で続き線が抽出で
きなかった場合、及びゼロ判定部6で数字のゼロと判定
されなかった場合は、変化点抽出部10は、パターンの
輪郭探索を行ってパターン輪郭の傾きの変化点を抽出
し、前記変化点を文字と文字の分離点候補とする。
【0077】次に分離点決定部11は、変化点抽出部1
0が抽出した変化点を基に、それぞれの分離点候補で分
離した場合の分離後の文字の大きさを求め、前記文字の
大きさの比較により文字の分離点を決定する。
【0078】そして、文字分離部12は、分離点決定部
11で決定した文字の分離点で文字を分離し、文字領域
を残し不必要な続き部分を消去する。以上の処理により
文字の切り出しを行う。
【0079】(3) :前記A図に示した文字切り出し装置
イにおいては、更に次のような作用がある。 a)前記変化点抽出部10の処理において、注目パター
ンの縦の長さ、他のパターンの平均サイズ等より仮の探
索開始基準線を決定した後、仮の探索開始基準線の周辺
部分において線密度1の部分を探索して正式の探索開始
基準線を求め、探索開始基準線から探索開始点を決定し
てパターンの輪郭探索を行う。
【0080】b)変化点抽出部10の処理において、パ
ターンの輪郭探索を行う場合の探索開始点を、線密度1
の部分のパターンの上端、下端の2点とする。 c)変化点抽出部10の処理において、パターンの輪郭
探索を開始する探索開始点を決定した後、前記探索開始
点からそれぞれパターンの左右方向に輪郭探索を行うこ
とにより、パターンの傾きの変化点を抽出する。
【0081】d)変化点抽出部10の処理において、パ
ターンの輪郭探索を行ってパターンの輪郭の傾きの変化
点を抽出する際、パターン上の探索開始点と輪郭上の或
る点とを結ぶ直線と、検出された輪郭との重なりを算出
し、前記算出した重なりの度合いにより、探索開始点か
ら輪郭上の或る点までが直線であるか否かを判断するこ
とで変化点の抽出を行う。
【0082】e)変化点抽出部10の処理において、パ
ターンの輪郭探索を行ってパターンの輪郭の傾きの変化
点を抽出する際、パターン上の探索開始点と輪郭上の或
る点とを結ぶ直線と、輪郭との重なりを算出し、前記重
なりの変化量から輪郭の傾きの変化点を抽出する。
【0083】f)分離点決定部11の処理において、パ
ターンの上下2点の変化点間の距離が、或る一定のしき
い値以下であれば、前記2点を変化点として選択し、前
記距離が或る一定のしきい値を超えていた場合は、探索
開始点に近い方の1点を変化点として選択する。
【0084】g)前記f)の処理において、上下2点間
の距離のしきい値を、周囲の投影値を足し合わせた結果
を注目行、または列の投影値とする隣接投影法によって
抽出された線分の太さの平均値を基準にして設定する。
【0085】h)前記f)の処理において、上下2点間
の距離のしきい値を、注目パターンの高さを基準にして
設定する。 i)文字分離部12の処理において、分離点決定部11
で決定した文字の分離点で文字を分離する際、分離点と
分離点とを結ぶ直線とその両隣の画素を消去する。
【0086】j)分離点決定部11の処理において、変
化点抽出部10が抽出した変化点を基に、それぞれの分
離点候補で分離したと仮定し、ラベリング、輪郭探索、
投影法等により、分離後の文字の大きさを求めることに
より、分離点を決定する。
【0087】k)分離点決定部11の処理において、変
化点抽出部10が抽出した変化点を基に、それぞれの分
離点候補で分離したと仮定し、分離後の文字の大きさを
求め、前記分離後の大きさが均等になるように分離点を
決定する。
【0088】(4) :前記B図に示した文字切り出し装置
ロにおいては、更に次のような作用がある。 a)続け字抽出部23の処理において、続け字候補から
続け字を抽出する際に、水平方向の投影処理を行って続
き線が2本抽出されたら前記2本の続き線を訂正線と判
断し、その文字を訂正文字として扱う。
【0089】b)続き線抽出部4の処理において、続け
字抽出部23の処理で抽出した横長パターンから文字と
文字を繋いでいる続き線を抽出する際、複数の傾きに対
して続き線の抽出処理を行う。
【0090】c)文字分離線決定部5の処理において、
続き線抽出部4で続き線が抽出され、その続き線の位置
情報を基に文字分離線を決定する際、2文字を折れ線で
分離できるか否かにより分離可否を決定する。
【0091】d)変化点抽出部10の処理において、文
字と文字の接触した点として変化点を抽出する際、始め
に縦方向に線密度1となる輪郭線上の点を見つけ、次に
変化点の探索開始点を輪郭線上に複数設定し、各点から
前記複数の変化点候補を算出する。
【0092】e)前記d)の処理において、変化点の探
索開始点を輪郭線上に複数設定する際、パターンに対す
る探索範囲を限定して探索開始点を見つける。 f)前記d)の処理において、複数の変化点候補を算出
する際、パターンに対する探索範囲を限定して変化点候
補を算出する。
【0093】g)前記e)の処理において、探索開始点
の探索範囲を限定する際、パターンの高さの定数倍を探
索範囲とする。 h)前記e)の処理において、探索開始点の探索範囲を
限定する際、その文字が属する文字列の平均文字サイズ
の定数倍を探索範囲とする。
【0094】i)前記f)の処理において、変化点の探
索範囲を限定する際、パターンの高さの定数倍を探索範
囲とする。 j)前記f)の処理において、変化点の探索範囲を限定
する際、その文字が属する文字列の平均文字サイズの定
数倍を探索範囲とする。
【0095】k)文字分離部7、12の処理において、
続け字の分離に伴って生じる文字のヒゲを除去すると共
に、その際、パターンの上側の輪郭線と続き線の位置情
報から文字内に含まれるヒゲ部分を除去する。
【0096】(5) :以上のようにすれば、数字のゼロを
含まない文字の場合であっても、常に正確に文字と文字
の分離が行えるようにして高精度の認識処理を可能とす
ることができる。
【0097】また、文字の訂正線の抽出を行うことによ
り続き線の抽出精度を向上させると共に、変化点の抽出
処理を高精度で実現し、文字の分離精度を向上させるこ
とが可能になる。
【0098】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図2〜図17は、本発明の実施例を示した図であ
り、図2〜図17中、図1、図18〜図25と同じもの
は、同一符号で示してある。また、14は探索開始基準
線決定部、15は探索開始点決定部、16は輪郭探索
部、17は変化点抽出処理部、19は分離点候補抽出
部、20は大きさ比較部、21は分離線決定部を示す。
【0099】(実施例1の説明) §1:文字切り出し装置基本構成の説明・・・図2参照 図2は実施例1の文字切り出し装置基本構成図である。
図示のように、文字切り出し装置1は、連結パターン抽
出部2、横長パターン抽出部3、続き線抽出部4、文字
分離線決定部5、ゼロ判定部6、文字分離部7、変化点
抽出部10、分離点決定部11、文字分離部12で構成
する。
【0100】前記各部の内、変化点抽出部10、分離点
決定部11、文字分離部12以外の構成は前記従来例の
構成と同じである。前記各部の機能は次の通りである。 (1) :連結パターン抽出部2は、入力パターンから連結
パターンを抽出するものである。すなわち、文字切り出
しを行う場合、先ず、文字が配置されている位置の相対
的な関係に依存することなく、各文字パターンを安定に
ピックアップするために、連結パターン抽出部2では、
例えば、8連結で繋がっているパターンをラベリング処
理で抽出する。
【0101】(2) :横長パターン抽出部3は、続き文字
の候補として、前記ラベリング処理で得られた連結パタ
ーン毎に、外接矩形の縦横の比率を算出し、或る一定以
上の横長の比率を持つパターンを抽出するものである。
【0102】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平続き線、或いは斜め続き線
を抽出するものである。
【0103】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。
【0104】なお、この文字分離線決定部5は、続き線
抽出部4で水平続き線、或いは斜め続き線が抽出された
場合(続き線有りの場合)にのみ文字分離線の決定処理
を行うものである。
【0105】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線や
ヒゲ等を消去し、前記文字分離線で分離することにより
文字の分離を行うものである。
【0106】(7) :変化点抽出部10は、続き線抽出部
4の処理で続き線(水平続き線、或いは斜め続き線)が
抽出できなかった場合(続き線無しの場合)に、処理対
象としているパターンに対して、傾きの変化点の抽出を
行うものである。
【0107】(8) :分離点決定部11は、変化点抽出部
10で抽出した変化点を基に、文字の分離点を決定する
ものである。 (9) :文字分離部12は、分離点決定部11で決定した
文字の分離点を基に、文字の分離を行うものである。
【0108】§2:実施例1の文字切り出し装置構成の
説明・・・図3参照 図3は実施例1の文字切り出し装置構成図である。図示
のように、文字切り出し装置は、連結パターン抽出部
2、横長パターン抽出部3、続き線抽出部4、文字分離
線決定部5、ゼロ判定部6、文字分離部7、変化点抽出
部10、分離点決定部11、文字分離部12で構成す
る。
【0109】そして、前記変化点抽出部10は、探索開
始基準線決定部14、探索開始点決定部15、輪郭探索
部16、変化点抽出処理部17で構成し、前記分離点決
定部11は、分離点候補抽出部19、大きさ比較部2
0、分離線決定部21で構成する。前記各部の機能等は
次の通りである。
【0110】(1) :探索開始基準線決定部14は、続き
線が抽出されなかった場合に、続き文字、接触文字等の
変化点の探索を行うための探索開始の基準線の決定を行
うものである。
【0111】(2) :探索開始点決定部15は、前記探索
開始基準線決定部14が決定した探索開始の基準線を基
に、探索開始点を決定するものである。 (3) :輪郭探索部16は、前記探索開始点決定部15が
決定した探索開始点から順番にパターンの輪郭を探索す
るものである。
【0112】(4) :変化点抽出処理部17は、前記輪郭
探索により得られた情報から変化点の抽出を行うもので
ある。 (5) :分離点候補抽出部19は、前記変化点抽出処理部
17が抽出した変化点を基に、文字と文字を分離するた
めの分離点候補を抽出するものである。
【0113】(6) :大きさ比較部20は、前記分離点候
補抽出部19が抽出した分離点候補を基に、文字の分離
を行った場合の分離文字の外接矩形を求めてその大きさ
を比較するものである。
【0114】(7) :分離線決定部21は、大きさ比較部
20での大きさの比較結果により、文字と文字の分離線
を決定するものである。 §3:文字切り出し方法の説明・・・図2、図3参照 以下、図2、図3に基づいて文字切り出し方法を説明す
る。文字切り出し処理において、続き線が抽出される場
合は、連結パターン抽出部2、横長パターン抽出部3、
続き線抽出部4、文字分離線決定部5、ゼロ判定部6、
文字分離部7により前記従来例と同じようにして文字切
り出し処理を行う。
【0115】また、続き線が抽出されない場合は、前記
続き線抽出部4での続き線抽出処理終了後、変化点抽出
部10、分離点決定部11、文字分離部12により文字
切り出し処理を行う。
【0116】前記構成の文字切り出し装置では、自由に
書かれた文字列から、続き文字を抽出し、分離する処理
を行う。文字に関しては、字の大きさや、続けて書かれ
た文字数に規定はないものとする。入力パターンに関し
ては、極端な傾きは傾きの補正を行い、雑音を除去し、
かすれた部分の穴埋め等の前処理後の2値画像を用い
る。
【0117】先ず、文字が配列される位置の相対的な関
係に依存することなく、各パターンを安定にピックアッ
プするために、連結パターン抽出部2では、例えば、8
連結で繋がっているパターンをラベリングにより抽出す
る。以下、これらを判別して続け字、接触文字の分離を
行う。また、前記ラベリングで得られた部分パターンを
矩形近似して得られる矩形の角の座標をラベリング処理
中に算出しておく。
【0118】横長パターン抽出部3では、続き文字、接
触文字の候補として、前記ラベリングで得られた部分パ
ターン毎に、外接矩形の縦横比を算出し、或る一定の値
以上の横長パターンを抽出する。
【0119】続き線抽出部4では、横方向の隣接投影
(或る行の投影値に周囲の行の投影値を足し合わせたも
のをその行の投影値とする)によって直線を抽出し、そ
の中で一定以上の長さのものを続き線として抽出する。
【0120】前記処理により続き線が抽出された場合
(水平続き線、或いは斜め続き線有りの場合)は、文字
分離線決定部5、ゼロ判定部6、及び文字分離部7によ
る数字のゼロの続け字分離処理を行い、続き線が抽出さ
れない場合(水平続き線、及び斜め続き線無しの場合)
は、変化点抽出部10、分離点決定部11、及び文字分
離部12による接触文字の分離処理を行う。
【0121】前記続き線抽出部4の処理で続き線が抽出
されなかった場合は、変化点抽出部10が処理対象とし
ているパターンに対して、変化点の抽出を行い、分離点
決定部11が前記変化点を基に文字の分離点を決定した
後、文字分離部12が文字の分離を行う。
【0122】この場合、先ず、探索開始基準線決定部1
4は、続き線が抽出されなかった場合に続き文字、接触
文字等の変化点の探索を行うための探索開始の基準線の
決定を行う。次に、探索開始点決定部15は、前記探索
開始基準線決定部14が決定した探索開始の基準線を基
に探索開始点を決定する。
【0123】探索開始点が決定すると、輪郭探索部16
は、探索開始点から順番にパターンの輪郭を探索する。
そして、変化点抽出処理部17は、前記輪郭探索により
得られた情報から変化点の抽出を行う。
【0124】その後、分離点候補抽出部19は、前記変
化点抽出処理部17が抽出した変化点を基に、文字と文
字を分離するための分離点候補を抽出し、大きさ比較部
20は、前記分離点候補抽出部19が抽出した分離点候
補を基に、文字の分離を行った場合(仮の分離を行った
場合)の分離文字の外接矩形を求めてその大きさを比較
する。
【0125】前記処理が終了すると、分離線決定部21
は、大きさ比較部20での大きさの比較結果により、文
字と文字の分離線を決定する。このようにして文字の分
離線が決定すると、文字分離部12は、文字の分離を行
う。以下、前記各部の処理を具体例に基づいて説明す
る。
【0126】§4:続き線が抽出されなかった場合の処
理説明・・・図4〜図6参照 図4は実施例1の処理説明図1であり、A図は輪郭探索
開始点、B図は輪郭探索の説明図、C図は傾き変化点検
出処理を示した図である。図5は実施例1の処理説明図
2であり、A図は文字パターンの傾き変化点、B図は文
字分離後の文字外接矩形(その1)、C図は文字分離後
の文字外接矩形(その2)である。図6は実施例1の処
理説明図3であり、A図は分離点決定、B図は文字分
離、C図は文字分離説明図である。
【0127】以下、図4〜図6に基づいて、続き線が抽
出されなかった場合の処理を説明する。なお、この処理
は変化点抽出部10、分離点決定部11、文字分離部1
2の各処理である。また、処理対象のパターンは、例え
ば、数字の2、3の続け字であったとする。
【0128】(1) :変化点抽出部の処理説明 先ず、続き線抽出部4の処理で続き線が抽出されなかっ
た場合、変化点抽出部10では変化点の抽出処理を行
う。この場合、先ず、探索開始基準線決定部14は、注
目パターンの縦の長さ、或いは他のパターンの平均サイ
ズより、仮の1文字の横幅を算出し、それに伴いだいた
いの探索開始基準線L1を決定する(図4のA図参
照)。
【0129】そして、探索開始基準線決定部14は、前
記探索開始基準線L1を基にその周辺部分において縦方
向に線密度を算出し、線密度1の部分を正式な探索開始
基準線L2とする。
【0130】その後、探索開始点決定部15は、前記探
索開始基準線L2の上端、下端を探索開始点(点1、点
2)として決定する(図4のA図参照)。この場合、輪
郭の探索開始点は、パターンの上下両側を探索するた
め、探索開始点も上下2点(点1、点2)を設定する。
【0131】次に、輪郭探索部16は、前記処理で求め
た探索開始点(点1、点2)からそれぞれパターンの左
右方向に輪郭探索を行い(図4のB図に示した点線矢印
参照)、輪郭のXY座標を内部のメモリに記憶してお
く。
【0132】そして、前記変化点抽出処理部17は、前
記輪郭探索で得られた輪郭のXY座標を基に、輪郭の傾
きの変化する点を検出して変化点の抽出を行う(図4の
C図参照)。この処理は次のようにして行う。
【0133】すなわち、既に検出した輪郭の座標値を用
いて、探索開始点(例えば、点1)と、該探索開始点か
ら離れて行く輪郭上の各点P1、P2、P3、P4、P
5、P6、P7・・・とを順番に直線で結ぶ。
【0134】例えば、点1とP1を結ぶ直線、点1とP
2を結ぶ直線、点1とP3を結ぶ直線、点1とP4を結
ぶ直線、点1とP5を結ぶ直線、点1とP6を結ぶ直
線、点1とP7を結ぶ直線・・・のように順番に2点間
を直線で結ぶ。
【0135】この場合、点1から或る点P5までのパタ
ーンの輪郭が直線であったとすると、点1とP1を結ぶ
直線、点1とP2を結ぶ直線、点1とP3を結ぶ直線、
点1とP4を結ぶ直線、点1とP5を結ぶ直線は全てパ
ターンの輪郭と重なる。
【0136】しかし、点P6以降のように、途中に傾き
の変化する点があった場合には、探索開始点と点P6以
降の各点を結んだ直線はパターンの輪郭と重ならない。
すなわち、点P5以降にパターンの傾きがあると、点1
と点P5以降の各点を結ぶ直線は、輪郭上から外れる。
従って、点1とP6を結ぶ直線、点1とP7を結ぶ直線
・・・は、いずれもパターンの輪郭と重ならない。
【0137】前記の処理を行うことにより、2点間の輪
郭と2点間を結ぶ直線との重なりの割合が少なくなった
時に、傾きの変化のある点を過ぎたとして、直前の点を
変化点として決定する。この例では点P5が変化点とな
る。
【0138】(2) :分離点決定部の処理説明 分離点決定部11は、前記変化点抽出部10で抽出した
変化点を基に次のようにして分離点の決定処理を行う。
先ず、分離点候補抽出部19は、前記の処理で検出され
た変化点で仮想的に分離を行い分離点候補を抽出する。
【0139】その後、大きさ比較部20は、ラベリング
処理によって分離後の文字の外接矩形の大きさを算出
し、それぞれの大きさがなるべく均等になるように前記
外接矩形の大きさを比較する。次に、分離線決定部21
は、外接矩形の大きさが均等になるようにして分離線を
決定する。具体的には次のようにして処理を行う。
【0140】例えば、図5のA図のように、変化点とし
て、、、、の各点が抽出されたとする。この場
合、変化点として、を採用し各分離後の外接矩形を
求めると図5のB図の外接矩形が得られる。また、変化
点として、を採用し各分離後の外接矩形を求めると
図5のC図の外接矩形が得られる。
【0141】そこで、前記各外接矩形の大きさを比較す
ると、、で分離した場合の方が、点、点で分離
した場合に比べて分離後の文字の外接矩形の大きさが均
等である。このため、分離点を点、点と決定する。
前記の変化点、のように、上下の変化点が近くにあ
る場合は、上下の変化点同士を結んだ直線で文字の分離
を行うように分離線を決定する。
【0142】しかし、図6のA図において、変化点P
5、P6のように、探索開始点(点1、点2)と変化点
間の距離が一定のしきい値以上異なっていた場合(点1
−P6間の距離と点2−P5間の距離が異なる)には、
探索開始点(●印で示した点1、点2)に近い方の変化
点である点P5を選択し、前記点P5の位置で垂直にパ
ターンを分離するように仮想的な変化点Q5を作る。そ
して、前記点P5、Q5を結ぶ線を分離線として決定す
る。
【0143】具体的な変化点の距離のしきい値を決定す
るのは、処理の一番始めに行う隣接投影によって抽出さ
れた線分の太さである。抽出された線分の太さの平均値
を算出し、その値を文字ストロークの太さの平均値と見
なし、上下2点の変化点の距離が平均太さより長い場合
は、仮想的に変化点を作り、平均太さ以下であれば、上
下2点の変化点間で分離を行うように文字の分離線を決
定する。
【0144】 (3) :文字分離部の処理説明・・・図6参照 文字分離部12では、前記の処理で決定した文字の分離
線で分離を行う。この処理では、図6のB図のように、
2点、間で分離を行う場合、1ドットラインで消し
込みを行うと、8連結で繋がってしまう部分が出てく
る。
【0145】そのため、図6のC図に示したように、消
し込み画素の両側を同時に消し込み(黒印は画素消
去)、8連結で繋がることを防ぐ。 §5:フローチャートによる変化点抽出部の処理説明・
・・図7参照 図7は変化点抽出部の処理フローチャートである。以
下、図7に基づいて変化点抽出部の処理を説明する。な
お、S1〜S8は各処理ステップを示す。
【0146】先ず、探索開始基準線決定部14は、パタ
ーンの縦横比から文字数を概算し、だいたいの探索開始
基準線L1を決定する(S1)。その後、前記探索開始
基準線L1を基にその周辺部分において縦方向に線密度
を算出し、線密度1の部分を正式な探索開始基準線L2
として決定する(S2)。
【0147】次に、探索開始点決定部15は、前記探索
開始基準線L2の上端、下端を探索開始点(点1、点
2)として決定する(S3)。その後、輪郭探索部16
は、前記処理で求めた探索開始点(点1、点2)からそ
れぞれパターンの左右方向に輪郭探索を行い、輪郭のX
Y座標を内部のメモリに記憶しておく(S4)。
【0148】そして、前記変化点抽出処理部17は、前
記輪郭探索で得られた輪郭のXY座標を基に、輪郭の傾
きの変化する点を検出して変化点の抽出を行う。この処
理では、前記探索開始点と注目地点との間の輪郭線と2
点間の間に引いた直線との重なりを算出する(S5)。
【0149】その結果、算出された重なりが一定しきい
値以下でなければ(2点間の直線と輪郭が略重なった場
合)前記S5の処理を行うが、算出された重なりが一定
しきい値以下となった場合(2点間の直線と輪郭が重な
らなくなった場合)には、変化点を検出する(S7)。
【0150】前記変化点が抽出された場合、探索開始点
に一番近い変化点を文字の分離候補点とする(S8)。 §6:フローチャートによる分離点決定部、及び文字分
離部の処理説明・・・図8参照 図8は分離点決定部、及び文字分離部の処理フローチャ
ートである、以下、図8に基づいて分離点決定部、及び
文字分離部の処理を説明する。なお、S11〜S20は
各処理ステップを示す。
【0151】分離点候補抽出部19は、変化点抽出部1
0で抽出した変化点で仮想的に分離を行い、分離点候補
を抽出する。この場合、先ず、分離点候補抽出部19
は、分離候補点と同じ側(左、または右)にあるもう1
つの変化点との距離を算出する(S11)。
【0152】そして、文字線分の平均太さを基準に算出
したしきい値が前記算出距離より大きいか否かを判断す
る(S12)。その結果、文字線分の平均太さを基準に
算出したしきい値>算出距離であれば、分離候補点から
垂直に分離するように分離点候補を抽出する(S19)
が、それ以外の場合は2候補点を結んだ線で文字分離を
行うように分離点候補を抽出する(S13)。
【0153】そして、前記S13、S19の処理終了
後、大きさ比較部20は、前記分離点候補で仮想的に分
離した場合の分離後の文字の外接矩形を算出し(S1
4)、左右の文字の大きさを比較する(S15)。
【0154】次に、分離線決定部21は、前記文字の大
きさ比較の結果により外接矩形の大きさが均等になるよ
うにして分離線を決定する。この場合、左右の文字の大
きさが異なっていたら、分離線として決定しない(S2
0)が、左右の文字の大きさが略等しい場合は、前記分
離候補点を分離点として決定する(S16)。そして、
前記分離点として決定した上下2点の変化点間で分離を
行うように文字の分離線を決定する。
【0155】文字分離部12は、前記処理で分離点2点
間を結ぶ文字の分離線(直線)が決定すると、前記分離
線で文字の分離を行う(S17)。その後、分離線(直
線)の両側の画素も消去する(S18)。
【0156】§7:処理結果の説明・・・図9参照 図9は実施例1の処理結果説明図である。前記文字切り
出し装置により処理した結果は図示のとおりである。
【0157】図9において、例1〜例13はそれぞれ前
記実施例1の文字切り出し装置により分離して切り出し
た文字パターンの例である。例えば、例1は数字の2と
数字の4の続け字を分離した例であり、2と4が良好に
分離されている。また、例2は英字のBと英字のEの続
け字を分離した例であり、良好に分離されている。
【0158】(実施例2の説明) §1:文字切り出し装置構成の説明・・・図10参照 図10は実施例2の文字切り出し装置構成図である。図
示のように、文字切り出し装置には、連結パターン抽出
部2、続け字抽出部23、続き線抽出部4、文字分離線
決定部5、ゼロ判定部6、文字分離部7、変化点抽出部
10、分離点決定部11、文字分離部12が設けてあ
る。
【0159】なお、前記構成の内、連結パターン抽出部
2、ゼロ判定部6、文字分離部12は実施例1と同じで
ある。前記各部の機能は次の通りである。 (1) :連結パターン抽出部2は、入力パターンから連結
パターンを抽出するものである。すなわち、文字切り出
しを行う場合、先ず、文字が配置されている位置の相対
的な関係に依存することなく、各文字パターンを安定に
ピックアップするために、連結パターン抽出部2では、
例えば、8連結で繋がっているパターンをラベリング処
理で抽出する。
【0160】(2) :続け字抽出部23は、横長パターン
抽出処理と訂正線抽出処理を行うものである。前記横長
パターン抽出処理では、実施例1と同様に、続き文字の
候補として、前記ラベリング処理で得られた連結パター
ン毎に、外接矩形の縦横の比率を算出し、或る一定以上
の横長の比率を持つパターンを抽出する。
【0161】また、前記訂正線抽出処理では、続き線が
2本以上抽出された場合は文字上に書かれた訂正線であ
ると判定して訂正線の抽出処理を行う。すなわち、続け
字抽出部23では、続け字候補に対して水平方向の投影
処理を行う。投影値がパターンの横幅に対して定まる一
定のしきい値を超える部分があれば、それをパターン間
の続き線と見なして抽出する。この時、続き線が2本以
上抽出されたものについては、文字上に書かれた訂正線
を抽出したものとして以降の続け字分離処理から除外す
る。
【0162】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平、或いは斜め続き線を抽出
するものである。
【0163】この場合、複数の角度方向に対してパター
ンの投影処理を行う。そして、投影値の中に所定のしき
い値以上をとったものがあれば、それを続き線として改
めて抽出する。
【0164】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。
【0165】この場合、続き線抽出部4で求めた続き線
の位置情報を基に、文字間の空白部を折れ線で探索す
る。そして、パターンの最下部まで折れ線が到達した
ら、そのパターンを分離可能と判定するものである。
【0166】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線を
消去し、数字のゼロ以外の文字は、前記文字分離線で分
離するものである。また、続け字より抽出された続き線
より上部の画像だけを用いて、続け字の分離に伴って生
じる文字中の不要な「ヒゲ」部分を除去するものであ
る。
【0167】(7) :変化点抽出部10は、続き線抽出部
4の処理で続き線(水平続き線、或いは斜め続き線)が
抽出できなかった場合(続き線無しの場合)に処理対象
としているパターンに対して変化点の検出を行うもので
ある。
【0168】(8) :分離点決定部11は、変化点抽出部
10で抽出した変化点を基に文字の分離点を決定するも
のである。 (9) :文字分離部12は、分離点決定部11で決定した
文字の分離点を基に、文字の分離を行うものである。
【0169】 §2:訂正線判定処理の説明・・・図11参照 図11は訂正線判定処理説明図であり、A図は通常の続
け字の例、B図、C図は訂正文字の例である。以下、図
11に基づいて続け字抽出部23が行う訂正線抽出処理
を説明する。
【0170】前記のように、続け字抽出部23では、続
け字候補に対して水平方向の投影処理を行い、その投影
値がパターンの横幅に対して定まる一定のしきい値を超
える部分があれば、それをパターン間の続き線と見なし
て抽出する。
【0171】前記のように、続き線を抽出する場合、続
け字内の続き線(A図参照)の外に、間違えて訂正線
(B図、C図参照)を抽出することがある。訂正線は殆
どの場合、2本以上書かれるので、続き線の抽出処理に
おいて2本以上の続き線が抽出されたら訂正線であると
判断する。そして、前記訂正線を抽出した文字は訂正文
字であるとして続け字処理から除外する。
【0172】具体的には、A図のように1本の続き線が
抽出されたら続け字の続き線であると判断するが、B
図、C図のように2本の続き線が抽出されたら、続き線
ではなく訂正線であると判断する。そして、B図、C図
の文字は訂正文字であると判断し、以降の処理から除外
する。
【0173】 §3:続き線抽出処理の説明・・・図12、図13参照 図12は実施例2の続き線抽出処理説明図であり、A図
は続き線が抽出される場合の例、B図は続き線が抽出さ
れない場合の例、C図は投影方向の変化を示した図であ
る。また、図13は斜め投影値算出方法説明図である。
【0174】前記のように、続き線抽出部4は水平、或
いは斜めの文字と文字の繋がっている部分の続き線を見
つけることによって、前記抽出された連結パターンが続
き文字であるか否かを判断し、水平、或いは斜め続き線
を抽出する。
【0175】この場合、図12のC図に示したように、
複数の角度方向に対してパターンの斜め投影処理を行
う。そして、投影値の中に所定のしきい値以上をとった
ものがあれば、それを続き線として改めて抽出する。
【0176】前記続き線抽出部4は、続け字の候補文字
に対して、それが続け字かどうかを判断するために、文
字と文字を繋ぐ続き線であるかどうか、すなわち、文字
内に長い直線状成分が有るかどうかを評価する。具体的
には、或る角度方向に文字を構成する黒画素の投影をと
っていく。
【0177】続き線が存在すれば、投影値が大きくなる
ので、投影値が所定のしきい値を超えたかどうかによ
り、続き線の有無を評価する。その際、一方だけでな
く、複数の方向に対して投影処理を行うことにより、続
き線の傾きによらない処理が可能となる。
【0178】図12のA図は投影方向と続き線の傾きが
一致し、続き線が抽出される場合の例である。また、図
12のB図は、投影方向と続き線の傾きが異なるために
続き線が抽出されない例である。このように、複数の方
向の投影を評価することにより、正確な続き線の抽出が
可能になる。
【0179】前記のように続き線抽出部4では、複数の
角度に対してパターンの斜め投影を取り、投影値が或る
しきい値を超えたものがあれば、それを続き線として抽
出する。この場合に用いる斜め方向の隣接投影法を図1
3に示す。
【0180】この斜め方向の隣接投影法は、或る一定の
斜め方向に投影を行い、注目している斜め線の投影値
に、その周囲の投影値を足し合わせた結果をその斜め線
の投影値とする。斜め線の角度は、(Y方向の変化量)
/(X方向の変化量)の値が整数分の1となるような値
とする。
【0181】図13では、n×nの領域を(Y方向の変
化量)/(X方向の変化量)の値が1/2となるような
角度で斜めに投影を行った場合の斜め投影値の算出方法
を示してある。
【0182】この例では、縦方向の投影値をp1(i)
(i=1〜n)、横方向の投影値をp2(j)(j=1
〜n)とし、p1(n)=p2(1)とする。この場
合、前記投影値p1(i)、p2(j)の算出式は次の
通りである。
【0183】
【数2】
【0184】なお、前記算出式において、I(x,y)
は画素値である。斜め隣接投影値の算出は、水平の場合
と同様に、注目している投影値の周囲の投影値を足し合
わせた結果の値を隣接投影値とする。
【0185】 §4:文字分離線決定部の処理説明・・・図14参照 図14は文字分離線決定部の処理説明図であり、A図は
折れ線による分離判定処理、B図は従来の手法による分
離判定結果、C図は実施例2の手法による分離判定結果
を示す。
【0186】文字分離線決定部5は、続き線抽出部4の
処理で抽出された続き線を基に、輪郭探索を用いて文字
数、及び一文字毎の文字の存在する領域を求め、文字と
文字の間に垂直分離線、或いは斜め分離線等の文字分離
線を引くものである。この場合、続き線抽出部4で求め
た続き線の位置情報を基に、文字間の空白部を折れ線で
探索する。
【0187】この処理では、例えば、図14のA図に示
したように、続き線領域下部を開始点として、文字と文
字の空白領域を縦方向に黒画素が見つかるまで垂直に探
索する(線番号1)。次に、前記開始点と黒画素の中点
のY座標に対して、水平方向に左右の黒画素を見つける
(線番号2)。
【0188】更に、左右の黒画素の中点を開始点とし
て、縦方向に黒画素が見つかるまで垂直に探索する(線
番号3)。以下同様の手法により処理を繰り返すことに
より、探索位置がパターンの最下部まで到達すれば、そ
のパターンを分離可能と判定する。
【0189】なお、従来方法では直線による分離判定で
あるため、分離不可能となっていたもの(B図参照)が
実施例2の手法を用いることにより、折れ線により正し
く分離判定ができるようになった(C図参照)。
【0190】 §5:変化点抽出部の処理説明・・・図15参照 図15は変化点抽出部の処理説明図であり、A図は実施
例1の変化点処理、B図は実施例2の変化点処理を示
す。なお、比較のため実施例1と実施例2の処理を図示
してある。また、以下の説明では、「変化点」は輪郭線
上で曲率の変化する点であり、「接触点」は文字と文字
が接触した点のことをいう。
【0191】続き線抽出部4の処理で続き線が抽出され
なかった場合、及びゼロ判定部6の処理で数字のゼロと
判定されなかった場合に、変化点抽出部10では変化点
の抽出処理を行う。
【0192】この変化点抽出処理では、図15のB図に
示したように、処理対象のパターンに対し、縦方向の線
密度が1となる点を指定範囲内の輪郭線上から見つけ
る。次に前記指定範囲をn等分し、n等分された各点を
探索開始点として、それぞれ左右方向に変化点の探索を
行い、極率の大きく変化する点があれば、それを変化点
として抽出する。
【0193】図15のA図に示したように、実施例1で
は、変化点が最大でも左右1つずつ抽出されるだけであ
った(図5参照)。そのため、抽出された変化点の中に
文字と文字の接触した点(接触点)が含まれない場合が
あった。
【0194】しかし、実施例2では、図15のB図に示
したように、複数の探索開始点を基に変化点を抽出する
ため、より多くの変化点が抽出され、接触点が抽出され
る確率が上がる。
【0195】認識する際には、各変化点で続け字を分離
したパターンに対して認識処理を行い、その評価値の高
かった変化点の地点で分離するので、接触点が変化点に
含まれている必要がある。なお、前記以外の処理は、実
施例1と同じである。
【0196】§6:探索範囲(探索開始点、変化点)の
限定の説明・・・図16参照 図16は探索範囲の限定の説明図である。前記のよう
に、変化点抽出部10では処理対象のパターンに対し、
縦方向の線密度が1となる点を指定範囲内の輪郭線上か
ら見つける。この場合の指定範囲は、以下に説明する探
索範囲(探索開始点、変化点)の限定処理により行う。
【0197】一般的に前記接触点は続け字の中心付近に
存在し易く、端に行くに従ってその存在確率が減少す
る。そこで、予め、探索開始点、及び変化点の探索範囲
を限定することにより、探索処理の高速化を図ると同時
に、端の方に位置する接触点らしさの低い変化点の抽出
を減らすことで、認識処理に掛かる時間の増加を防ぐこ
とが可能になる。
【0198】探索範囲の限定処理では、続け字の高さ、
若しくは続け字が属する文字列の平均文字サイズを基
に、探索開始点、及び変化点の探索範囲を限定する。例
えば、実施例1では、文字の全範囲を探索範囲としてい
たために、文字の端に位置する変化点までも抽出してし
まう。しかし、実施例2の処理では、前記のように探索
範囲を限定することで、不要な変化点の抽出を防ぐこと
ができる。
【0199】具体的には次の通りである。 :第1の探索範囲限定処理は、図16のA図に示した
ように、続け字の高さを基に探索開始点、及び探索範囲
を限定する処理である。例えば、図示のように、続け字
の高さをht、探索範囲をW、しきい値をAとした場
合、W=ht×Aとして探索範囲を求める。
【0200】:第2の探索範囲限定処理は、図16の
B図、C図に示したように、続け字が属する文字列の平
均文字サイズを基に探索開始点、及び変化点の探索範囲
を限定する処理である。
【0201】例えば、図16のB図に示したような文字
列があった場合、前記文字列の平均サイズを求める。そ
して、前記図16のC図に示したように、前記平均サイ
ズから文字の高さhtを求める。この時、該平均サイズ
の続け字の高さをht、探索範囲をW、しきい値をAと
した場合、W=ht×Aとして探索範囲を求める。
【0202】ところで、実施例1では、図16のD図に
示したように、文字の全範囲を探索範囲Wとしていたた
めに、文字の端に位置する変化点(例えば、数字の2の
下端)までも抽出していた。
【0203】しかし、実施例2の処理では探索範囲Wを
限定しているので、図16のE図に示したように、不要
な変化点の抽出を防ぐことができる(例えば、数字の2
の下端を変化点として抽出しない)。
【0204】 §7:ひげ消し処理等の説明・・・図17参照 図17はひげ消し処理説明図である。文字分離部7、1
2では、続け字を分離する際に生じる文字のヒゲ等を除
去するが、この処理では続け字の上部の画像のみをメモ
リに格納して処理を行う。
【0205】すなわち、続け字中に含まれる文字のヒゲ
部分、及び文字と文字を繋ぐ続き線を除去するために、
パターンの上端から続き線の下部までの画像を基に消し
込み処理を行う。具体的には、パターンの上側の輪郭線
と続き線下部に含まれる文字線分の内、下側に位置する
ものを除去する。
【0206】例えば、図17のA図に示したような数字
のゼロの続け字があったとする。この場合、図17のB
図に示したように画像の上側部分のみをメモリに格納
し、ひげ消し等の処理を行う。このようにすれば、パタ
ーン全体をメモリに格納して処理するのに比べてメモリ
容量が少なくて済む。
【0207】(他の実施例)以上実施例について説明し
たが、本発明は次のようにしても実施可能である。 (1) :手書き文字認識装置に限らず、印刷文字認識装
置、図面認識装置等、各種の認識装置の文字切り出し処
理に適用可能である。
【0208】(2) :切り出し対象文字は、数字のゼロに
限らず、ゼロ以外の全数字、英字、その他の各種文字に
ついて全て適用可能である。
【0209】
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 (1) :水平続き線、或いは斜め続き線が抽出されない場
合、従来の文字切り出し装置では文字の切り出しが不可
能であったが、本発明では、変化点抽出部の処理で文字
線分の傾きの変化点を抽出して文字を分離するので、続
き線が抽出されない場合でも文字の切り出しが確実にで
きる。
【0210】従って、文字と文字の接触点を正確に見つ
けられるので、文字認識への悪影響を減らすことができ
る・・・(請求項1〜4対応の効果)。 (2) :文字と文字が連続して書かれた続け字から、文字
同士が接触した続け字まで同一アルコリズムで文字切り
出し処理が確実にできる。また、従来の処理では、二重
線で訂正された文字が誤って続け字処理される場合があ
った。しかし、本発明では、続き線と訂正線を区別する
ことができるので、より正確な続け字の分離処理ができ
る・・・(請求項2、4対応の効果)。
【0211】(3) :縦方向線密度が1の部分から輪郭探
索を行うことで、確実に文字と文字の繋がりを見つける
ことができる・・・(請求項5対応の効果)。 (4) :パターン輪郭の探索開始点をパターンの上側、下
側の2点とすることで、上側左右2点、下側左右2点の
合計4点の傾きの変化点を見つけることができるため、
接触点が左右どちらかにずれていた場合であっても、正
解の分離点を含む候補点を正確に抽出することができる
・・・(請求項6対応の効果)。
【0212】(5) :探索開始点からそれぞれ左右に輪郭
探索を行い、傾きの変化点を抽出することによって、垂
直に文字を分離するだけでなく、分離線が斜めであって
も、正確に分離することができる・・・(請求項7対応
の効果)。
【0213】(6) :輪郭探索の開始点と輪郭上の或る点
とを結ぶ直線と、検出された輪郭、または輪郭とその近
隣の画素との重なりの度合いにより、探索開始点から或
る点までの輪郭が直線となっているか否かを判断する処
理により、パターンに多少の凹凸がある場合であって
も、輪郭の傾きの変化点を正確に抽出することが可能で
ある・・・(請求項8対応の効果)。
【0214】(7) :輪郭探索の開始点と輪郭上の或る点
とを結ぶ直線と、検出された輪郭、または輪郭とその近
隣の画素との重なりを算出し、或る点の位置を動かした
時に、その変化量の変化により、弧を描いている輪郭の
傾きの急激な変化点を正確に抽出することができる・・
・(請求項9対応の効果)。
【0215】(8) :上下2点の変化点間の距離が或る一
定のしきい値以下であれば、2点を変化点として選択
し、しきい値以上であれば、探索開始点に近い1点を選
択することにより、T字型の変化点部分であっても正確
に抽出することができる・・・(請求項10対応の効
果)。
【0216】(9) :上下2点の変化点間の距離の基準
を、周囲の足し合わせた結果を注目行、または列の投影
値とする隣接投影法によって抽出された線分の太さの平
均値を基準にして設定することにより、文字を構成する
線の太さが変化しても対応することが可能である・・
(請求項11対応の効果)。
【0217】(10):文字の高さは接続文字数に関係な
く、文字の大きさによって略一定であるため、上下2点
の変化点間距離の基準を、注目パターンの高さを基に算
出した値とすることで、接続文字数に影響されず、しき
い値を求めることが可能である・・・(請求項12対応
の効果)。
【0218】(11):分離点と分離点とを結ぶ直線と、そ
の両隣の画素を消去することにより、8連結で画素が繋
がり、文字と文字が分離されないことを防ぐことができ
る・・・(請求項13対応の効果)。
【0219】(12):分離点候補で分離したと仮定し、ラ
ベリング、輪郭探索、または投影処理によって分離後の
文字の大きさを求めることにより、分離位置だけでは求
められない分離後の文字の大きさを算出することが可能
である・・・(請求項14対応の効果)。
【0220】(13):算出された分離後の大きさが均等に
なるように分離点を決定することで、複数の分離点候補
から分離点を決定することが可能である・・・(請求項
15対応の効果)。
【0221】(14):従来の処理では、二重線で訂正され
た文字が誤って続け字処理される場合があった。しか
し、本発明では、続き線と訂正線を区別することができ
るので、より正確な続け字抽出処理ができる・・・(請
求項16対応の効果)。
【0222】(15):続け字候補文字から続き線を抽出す
る際に、一方向の投影処理しか行わない場合、その方向
と続き線の傾きの方向がずれた場合は、正確に続き線を
抽出することができなかった。しかし、本発明によれ
ば、複数方向に対して投影処理を行うので、続き線の傾
きによらず、正確な続き線の抽出が可能となる・・・
(請求項17対応の効果)。
【0223】(16):続け字の分離可否を判定する際に、
文字間に直線が引けるかどうかで判断すると、接触した
文字間の空白領域が複雑になった場合、分離不可能とす
るしかなかった。
【0224】しかし、本発明によれば、接触した文字間
に折れ線がひけるか否かで判定を行うため、従来の処理
で不可能と間違って判定されていた続け字を正確に分離
判定することができる・・・(請求項18対応の効
果)。
【0225】(17):変化点抽出処理において、文字と文
字の接触した点が抽出されていないと、続け字を正確に
分離することができない、しかし、本発明によれば、変
化点の探索を複数の開始点から行うことで、より広範囲
に変化点の抽出を行うことができる・・・(請求項19
対応の効果)。
【0226】(18):文字と文字の接触した点は続け字の
中心近傍に位置し易く、端に行くに従って存在確率が減
少する。続け字全体を探索範囲として開始点を設定する
と、開始点の数が増えてしまう。本発明によれば、接触
点の存在確率の低い領域は変化点探索の際の開始点範囲
から除外されるので、設定される開始点の数を少なくす
ることができる。その結果処理の高速化が可能になる・
・・(請求項20対応の効果)。
【0227】(19):変化点を抽出した場合、文字と文字
の接触点以外にも変化点が抽出される。各変化点に対す
る認識処理を行って切り出しを評価する場合、変化点が
多いほど認識処理に時間がかかる。
【0228】本発明によれば、接触点の存在確率の低い
領域は探索範囲から除外されるので、候補として抽出さ
れる変化点の数が減少し、処理の高速化が可能である。
また同時に探索時間も短縮することができる・・・(請
求項21対応の効果)。
【0229】(20):変化点の探索開始範囲を決定する際
に、文字枠の高さといった固定値を用いると文字サイズ
が変動した場合に処理結果が安定しない。本発明によれ
ば、注目パターンの文字サイズに応じた探索開始範囲を
設定することができる・・・(請求項22対応の効
果)。
【0230】(21):変化点の探索開始範囲を決定する際
に、文字の高さといった固定値を用いると、文字サイズ
が変動した場合に処理結果が安定しない。本発明によれ
ば、文字列全体の文字サイズの傾向、例えば、横長の文
字が多い、などに応じて探索範囲を設定することが可能
である・・・(請求項23対応の効果)。
【0231】(22):変化点の探索範囲を決定する際に、
文字の高さといった固定値を用いると文字サイズが変動
した場合に処理結果が安定しない。本発明によれば、文
字サイズに応じた探索範囲を設定することができる・・
・(請求項24対応の効果)。
【0232】(23):変化点の探索範囲を文字の高さとい
った固定値を用いると文字サイズが変動した場合に処理
結果が安定しない。本発明によれば、文字列全体の文字
サイズの傾向、例えば、横長の文字が多い、などに応じ
て探索範囲を設定することが可能である・・・(請求項
25対応の効果)。
【0233】(24):ハードウェアのメモリ容量が限定さ
れている場合、1文字を全てメモリに取り込むことがで
きない場合がある。このような場合、本発明によれば、
文字の部分画像だけで処理を行うことができ、小容量の
メモリで処理が可能である・・・(請求項26対応の効
果)。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】実施例1の文字切り出し装置基本構成図であ
る。
【図3】実施例1の文字切り出し装置構成図である。
【図4】実施例1の処理説明図1である。
【図5】実施例1の処理説明図2である。
【図6】実施例1の処理説明図3である。
【図7】実施例1における変化点抽出部の処理フローチ
ャートである。
【図8】実施例1における分離点決定部、及び文字分離
部の処理フローチャートである。
【図9】実施例1の処理結果説明図である。
【図10】実施例2の文字切り出し装置構成図である。
【図11】実施例2における訂正線判定処理説明図であ
る。
【図12】実施例2の続き線抽出処理説明図である。
【図13】実施例2における斜め投影値算出方法説明図
である。
【図14】実施例2における文字分離線決定部の処理説
明図である。
【図15】実施例2における変化点抽出部の処理説明図
である。
【図16】実施例2における探索範囲の限定の説明図で
ある。
【図17】実施例2におけるヒゲ消し処理説明図であ
る。
【図18】従来の文字切り出し装置構成図である。
【図19】従来の連結パターン抽出部、横長パターン抽
出部、続き線抽出部の処理説明図である。
【図20】従来の続き線抽出部の処理説明図(その1)
である。
【図21】従来の続き線抽出部の処理説明図(その2)
である。
【図22】従来の続き線抽出部の処理説明図(その3)
である。
【図23】従来の文字分離線決定部の処理説明図であ
る。
【図24】従来のゼロ判定部の処理説明図である。
【図25】従来の文字分離部の処理説明図である。
【符号の説明】
2 連結パターン抽出部 3 横長パターン抽出部 4 続き線抽出部 5 文字分離線決定部 6 ゼロ判定部 7 文字分離部 10 変化点抽出部 11 分離点決定部 12 文字分離部 23 続け字抽出部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−192094(JP,A) 特開 平7−28937(JP,A) 特開 平1−271891(JP,A) 特開 平2−217978(JP,A) 特開 平2−128293(JP,A) 特開 昭54−49034(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82

Claims (26)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字の認識処理を行うための文字切り出
    し装置において、 入力パターンの連結情報に基づいて、入力パターンから
    連結パターンを抽出する連結パターン抽出部と、 前記連結パターン抽出部が抽出した連結パターンの内、
    複数の文字が繋がっている続き文字の候補として、横に
    長い横長パターンだけを抽出する横長パターン抽出部
    と、 前記横長パターン抽出部が抽出した横長パターンから文
    字と文字を繋いでいる続き線を見つけることによって、
    前記抽出された連結パターンが続き文字であるか否かを
    判断し、文字の続き線を抽出する続き線抽出部と、 前記続き線抽出部で続き線が抽出できなかった場合に、
    パターンの輪郭探索を行ってパターン輪郭の傾きの変化
    点を抽出し、前記変化点を文字と文字の分離点候補とす
    る変化点抽出部と、 前記変化点抽出部が抽出した変化点を基に、それぞれの
    分離点候補で分離した場合の分離後の文字の大きさを求
    め、前記文字の大きさの比較により文字の分離点を決定
    する分離点決定部と、 前記分離点決定部で決定した文字の分離点で文字を分離
    する文字分離部を設けたことを特徴とする文字切り出し
    装置。
  2. 【請求項2】 文字の認識処理を行うための文字切り出
    し装置において、 入力パターンの連結情報に基づいて、入力パターンから
    連結パターンを抽出する連結パターン抽出部と、 前記連結パターン抽出部が抽出した連結パターンの内、
    複数の文字が繋がっている続き文字の候補として横に長
    い横長パターンだけを抽出する横長パターン抽出処理、
    及び前記横長パターンから文字と文字を繋いでいる続き
    線を抽出して、文字上に書かれた訂正線を抽出する訂正
    線抽出処理を行う続け字抽出部と、 前記続け字抽出部が抽出した横長パターンから文字と文
    字を繋いでいる続き線を見つけることによって、前記抽
    出された連結パターンが続き文字であるか否かを判断
    し、文字の続き線を抽出する続き線抽出部と、 前記続き線抽出部で続き線が抽出された場合、その続き
    線の位置情報を基に、文字分離線を決定する文字分離線
    決定部と、 前記文字分離線決定部が決定した文字分離線で分けられ
    た一文字毎の文字領域について、一文字毎に、数字のゼ
    ロであるか否かを判定するゼロ判定部と、 前記数字のゼロと判定された文字について、文字領域を
    残し不必要な続き部分を消去する文字分離部と、 前記続き線抽出部で続き線が抽出できなかった場合、及
    び前記ゼロ判定部で数字のゼロと判定されなかった場合
    に、パターンの輪郭探索を行ってパターン輪郭の傾きの
    変化点を抽出し、前記変化点を文字と文字の分離点候補
    とする変化点抽出部と、 前記変化点抽出部が抽出した変化点を基に、それぞれの
    分離点候補で分離した場合の分離後の文字の大きさを求
    め、前記文字の大きさの比較により文字の分離点を決定
    する分離点決定部と、 前記分離点決定部で決定した文字の分離点で文字を分離
    し、文字領域を残し不必要な続き部分を消去する文字分
    離部を設けたことを特徴とする文字切り出し装置。
  3. 【請求項3】 文字の認識処理を行うための文字切り出
    し方法において、 入力パターンの連結情報に基づいて、入力パターンから
    連結パターンを抽出する連結パターン抽出処理と、 前記連結パターン抽出部が抽出した連結パターンの内、
    複数の文字が繋がっている続き文字の候補として、横に
    長い横長パターンだけを抽出する横長パターン抽出処理
    と、 前記横長パターン抽出部が抽出した横長パターンから文
    字と文字を繋いでいる続き線を見つけることによって、
    前記抽出された連結パターンが続き文字であるか否かを
    判断し、文字の続き線を抽出する続き線抽出処理と、 前記続き線抽出処理で続き線が抽出できなかった場合
    に、パターンの輪郭探索を行ってパターン輪郭の傾きの
    変化点を抽出し、前記変化点を文字と文字の分離点候補
    とする変化点抽出処理と、 前記変化点抽出処理で抽出した変化点を基に、それぞれ
    の分離点候補で分離した場合の分離後の文字の大きさを
    求め、前記文字の大きさの比較により文字の分離点を決
    定する分離点決定処理と、 前記分離点決定処理で決定した文字の分離点で文字を分
    離する文字分離処理とを有することを特徴とした文字切
    り出し方法。
  4. 【請求項4】 文字の認識処理を行うための文字切り出
    し方法において、 入力パターンの連結情報に基づいて、入力パターンから
    連結パターンを抽出する連結パターン抽出処理と、 前記連結パターン抽出部が抽出した連結パターンの内、
    複数の文字が繋がっている続け字候補として横に長い横
    長パターンだけを抽出する横長パターン抽出処理、及び
    前記横長パターンから文字と文字を繋いでいる続き線を
    抽出することで、文字上に書かれた訂正線を抽出する訂
    正線抽出処理からなる続け字抽出処理と、 前記続け字抽出処理で抽出した横長パターンから文字と
    文字を繋いでいる続き線を見つけることによって、前記
    抽出された連結パターンが続き文字であるか否かを判断
    し、文字の続き線を抽出する続き線抽出処理と、 前記続き線抽出処理で続き線が抽出された場合、その続
    き線の位置情報を基に、文字分離線を決定する文字分離
    線決定処理と、 前記文字分離線決定処理で決定した文字分離線で分けら
    れた一文字毎の文字領域について、一文字毎に、数字の
    ゼロであるか否かを判定するゼロ判定処理と、 前記数字のゼロと判定された文字について、文字領域を
    残し不必要な続き部分を消去する第1の文字分離処理
    と、 前記続き線抽出処理で続き線が抽出できなかった場合、
    及び前記ゼロ判定処理で数字のゼロと判定されなかった
    場合に、パターンの輪郭探索を行ってパターン輪郭の傾
    きの変化点を抽出し、前記変化点を文字と文字の分離点
    候補とする変化点抽出処理と、 前記変化点抽出処理で抽出した変化点を基に、それぞれ
    の分離点候補で分離した場合の分離後の文字の大きさを
    求め、前記文字の大きさの比較により文字の分離点を決
    定する分離点決定処理と、 前記分離点決定処理で決定した文字の分離点で文字を分
    離し、文字領域を残し不必要な続き部分を消去する第2
    の文字分離処理を有することを特徴とした文字切り出し
    方法。
  5. 【請求項5】 前記変化点抽出処理において、 注目パターンの縦の長さ、他のパターンの平均サイズ等
    より仮の探索開始基準線を決定した後、前記仮の探索開
    始基準線の周辺部分において線密度1の部分を探索して
    正式の探索開始基準線を求め、前記探索開始基準線から
    探索開始点を決定してパターンの輪郭探索を行うことを
    特徴とした請求項3記載の文字切り出し方法。
  6. 【請求項6】 前記変化点抽出処理において、 パターンの輪郭探索を行う場合の探索開始点を、線密度
    1の部分のパターンの上端、下端の2点とすることを特
    徴とした請求項3記載の文字切り出し方法。
  7. 【請求項7】 前記変化点抽出処理において、 パターンの輪郭探索を開始する探索開始点を決定した
    後、前記探索開始点からそれぞれパターンの左右方向に
    輪郭探索を行うことにより、パターンの傾きの変化点を
    抽出することを特徴とした請求項3記載の文字切り出し
    方法。
  8. 【請求項8】 前記変化点抽出処理において、 パターンの輪郭探索を行ってパターンの輪郭の傾きの変
    化点を抽出する際、パターン上の探索開始点と輪郭上の
    或る点とを結ぶ直線と、検出された輪郭との重なりを算
    出し、前記算出した重なりの度合いにより、探索開始点
    から輪郭上の或る点までが直線であるか否かを判断する
    ことで変化点の抽出を行うことを特徴とした請求項3記
    載の文字切り出し方法。
  9. 【請求項9】 前記変化点抽出処理において、 パターンの輪郭探索を行ってパターンの輪郭の傾きの変
    化点を抽出する際、パターン上の探索開始点と輪郭上の
    或る点とを結ぶ直線と、輪郭との重なりを算出し、前記
    重なりの変化量から輪郭の傾きの変化点を抽出すること
    を特徴とした請求項3記載の文字切り出し方法。
  10. 【請求項10】 前記分離点決定処理において、 パターンの上下2点の変化点間の距離が、或る一定のし
    きい値以下であれば、前記2点を変化点として選択し、
    前記距離が或る一定のしきい値を超えていた場合は、探
    索開始点に近い方の1点を変化点として選択することを
    特徴とした請求項3記載の文字切り出し方法。
  11. 【請求項11】 前記上下2点間の距離のしきい値を、
    周囲の投影値を足し合わせた結果を注目行、または列の
    投影値とする隣接投影法によって抽出された線分の太さ
    の平均値を基準にして設定することを特徴とした請求項
    10記載の文字切り出し方法。
  12. 【請求項12】 前記上下2点間の距離のしきい値を、
    注目パターンの高さを基準にして設定することを特徴と
    した請求項10記載の文字切り出し方法。
  13. 【請求項13】 前記文字分離処理において、 前記分離点決定部で決定した文字の分離点で文字を分離
    する際、分離点と分離点とを結ぶ直線とその両隣の画素
    を消去することを特徴とした請求項3記載の文字切り出
    し方法。
  14. 【請求項14】 前記分離点決定処理において、 前記変化点抽出部が抽出した変化点を基に、それぞれの
    分離点候補で分離したと仮定し、ラベリング、輪郭探
    索、投影法等により、分離後の文字の大きさを求めるこ
    とにより、分離点を決定することを特徴とした請求項3
    記載の文字切り出し方法。
  15. 【請求項15】 前記分離点決定処理において、 前記変化点抽出部が抽出した変化点を基に、それぞれの
    分離点候補で分離したと仮定し、分離後の文字の大きさ
    を求め、前記分離後の大きさが均等になるように分離点
    を決定することを特徴とした請求項3記載の文字切り出
    し方法。
  16. 【請求項16】 前記続け字抽出処理において、 続け字候補から続け字を抽出する際に、水平方向の投影
    処理を行って続き線が2本抽出されたら前記2本の続き
    線を訂正線と判断し、その文字を訂正文字として扱うこ
    とを特徴とした請求項4記載の文字切り出し方法。
  17. 【請求項17】 前記続き線抽出処理において、 前記続け字抽出処理で抽出した横長パターンから文字と
    文字を繋いでいる続き線を抽出する際、複数の傾きに対
    して続き線の抽出処理を行うことを特徴とした請求項4
    記載の文字切り出し方法。
  18. 【請求項18】 前記文字分離線決定処理において、 前記続き線抽出部で続き線が抽出され、その続き線の位
    置情報を基に文字分離線を決定する際、2文字を折れ線
    で分離できるか否かにより分離可否を決定することを特
    徴とした請求項4記載の文字切り出し方法。
  19. 【請求項19】 前記変化点抽出処理において、 文字と文字の接触した点として変化点を抽出する際、始
    めに縦方向に線密度1となる輪郭線上の点を見つけ、次
    に変化点の探索開始点を輪郭線上に複数設定し、各点か
    ら前記複数の変化点候補を算出することを特徴とした請
    求項4記載の文字切り出し方法。
  20. 【請求項20】 前記変化点の探索開始点を輪郭線上に
    複数設定する際、 パターンに対する探索範囲を限定して探索開始点を見つ
    けることを特徴とした請求項19記載の文字切り出し方
    法。
  21. 【請求項21】 前記複数の変化点候補を算出する際、
    パターンに対する探索範囲を限定して変化点候補を算出
    することを特徴とした請求項19記載の文字切り出し方
    法。
  22. 【請求項22】 前記探索開始点の探索範囲を限定する
    際、パターンの高さの定数倍を探索範囲とすることを特
    徴とした請求項20記載の文字切り出し方法。
  23. 【請求項23】 前記探索開始点の探索範囲を限定する
    際、その文字が属する文字列の平均文字サイズの定数倍
    を探索範囲とすることを特徴とした請求項20記載の文
    字切り出し方法。
  24. 【請求項24】 前記変化点の探索範囲を限定する際、
    パターンの高さの定数倍を探索範囲とすることを特徴と
    した請求項21記載の文字切り出し方法。
  25. 【請求項25】 前記変化点の探索範囲を限定する際、
    その文字が属する文字列の平均文字サイズの定数倍を探
    索範囲とすることを特徴とした請求項21記載の文字切
    り出し方法。
  26. 【請求項26】 前記第1、第2の文字分離処理におい
    て、 続き線を囲む矩形の中の画像のみを用いて、続け字の分
    離に伴って生じる文字のヒゲを除去すると共に、その
    際、パターンの上側の輪郭線と続き線の位置情報から文
    字内に含まれるヒゲ部分を除去することを特徴とした請
    求項4記載の文字切り出し方法。
JP01085195A 1995-01-26 1995-01-26 文字切り出し装置、及び文字切り出し方法 Expired - Fee Related JP3343305B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01085195A JP3343305B2 (ja) 1995-01-26 1995-01-26 文字切り出し装置、及び文字切り出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01085195A JP3343305B2 (ja) 1995-01-26 1995-01-26 文字切り出し装置、及び文字切り出し方法

Publications (2)

Publication Number Publication Date
JPH08202822A JPH08202822A (ja) 1996-08-09
JP3343305B2 true JP3343305B2 (ja) 2002-11-11

Family

ID=11761865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01085195A Expired - Fee Related JP3343305B2 (ja) 1995-01-26 1995-01-26 文字切り出し装置、及び文字切り出し方法

Country Status (1)

Country Link
JP (1) JP3343305B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341429A (zh) * 2016-04-28 2017-11-10 富士通株式会社 手写粘连字符串的切分方法、切分装置和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4834351B2 (ja) * 2005-08-22 2011-12-14 株式会社東芝 文字認識装置及び文字認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341429A (zh) * 2016-04-28 2017-11-10 富士通株式会社 手写粘连字符串的切分方法、切分装置和电子设备

Also Published As

Publication number Publication date
JPH08202822A (ja) 1996-08-09

Similar Documents

Publication Publication Date Title
JP2933801B2 (ja) 文字の切り出し方法及びその装置
JPH06309498A (ja) 画像抽出方式
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
CN108154151B (zh) 一种快速多方向文本行检测方法
JP3411472B2 (ja) パターン抽出装置
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
JP3837193B2 (ja) 文字行抽出方法および装置
JP3343305B2 (ja) 文字切り出し装置、及び文字切り出し方法
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JP3188580B2 (ja) 文字切り出し回路、及び文字切り出し方法
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP4244692B2 (ja) 文字認識装置及び文字認識プログラム
JP3077929B2 (ja) 文字切出し方式
JP3466899B2 (ja) 文字認識装置及び方法並びにプログラム記憶媒体
JPH09305707A (ja) 画像抽出方式
Fadeel An efficient segmentation algorithm for arabic handwritten characters recognition system
JP3344069B2 (ja) 文字切り出し装置
JP3848792B2 (ja) 文字列認識方法及び記録媒体
JP3190794B2 (ja) 文字切り出し装置
JP3402755B2 (ja) 領域分割方法
JP3428504B2 (ja) 文字認識装置
JP2002074264A (ja) 画像処理装置、画像処理方法および記録媒体
JPH1021332A (ja) 非線形正規化方法
JP4878057B2 (ja) 文字認識方法,プログラム及び記録媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080823

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090823

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090823

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100823

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110823

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120823

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120823

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130823

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees