JPH1027214A - 光学式文字認識コンピュータにおける接触文字の分離方法及び装置 - Google Patents

光学式文字認識コンピュータにおける接触文字の分離方法及び装置

Info

Publication number
JPH1027214A
JPH1027214A JP8354733A JP35473396A JPH1027214A JP H1027214 A JPH1027214 A JP H1027214A JP 8354733 A JP8354733 A JP 8354733A JP 35473396 A JP35473396 A JP 35473396A JP H1027214 A JPH1027214 A JP H1027214A
Authority
JP
Japan
Prior art keywords
module
function
separation threshold
separation
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8354733A
Other languages
English (en)
Inventor
Hamadi Jamali
ジャマリ ハムディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH1027214A publication Critical patent/JPH1027214A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 OCRにおいて、2値とグレイスケールの両
形式で分割イメージボックスを生成できるようにし、接
触している文字を正確に分離する。 【解決手段】 分類モジュール6は2進化あるいはグレ
イスケール画像に対して動作し、分割モジュール4の描
いた分割イメージボックス5内でモデルライブラリ7に
基づき分類を行う。分類できた文字は符号化されてAS
CIIなどにコード化される。分類できなかった部分に
ついては、解析モジュール12が画素ブリッジを生成し
たスプレッドファンクション効果を解消しようとグレイ
スケールイメージにフィルタを施し、これに対して、こ
れを2進化したイメージに基づき分割モジュール4が新
しいボックスを描く。それでも接触している文字が残っ
ている場合は、隣接走査線検査モジュール14や分離し
きい値決定モジュール10が再処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学式文字認識コ
ンピュータにおいて接触している文字を分離するための
方法及び装置、並びに光学式文字認識コンピュータに関
する。
【0002】
【従来の技術】光学式文字認識 (OCR) の過程には、ス
キャナにより光学的に走査された入力文書のコンピュー
タ解析が、その入力文書に表われている文字を判別する
上で是非とも必要である。入力文書が印刷によって作り
出される場合もある。印刷や走査のステップでは歪みが
生じることもあって、結果として解析される文字の中に
は接触して見える文字が存在することがある。このよう
な場合、OCRコンピュータがこのような文字を正確に識
別することは困難である。
【0003】文字が接触する原因としては、多種多様の
原因がある。プリンタに起因した接触している文字の原
因には、プリンタのスプレッドファンクション、インク
の飛散、プリンタノイズ、機械的な妨害、ほこりの汚
点、プリンタの低解像度などがある。スキャナに起因し
た接触している文字の原因には、スキャナのスプレッド
ファンクション、スキャナの動作によるノイズ、低解像
度などがある。接触している文字の他の例は、フォント
のデザインによっても生じる可能性がある。たとえば、
相互に接触させるとか、あるいは非常に接近させてデザ
インしてある文字による場合である。以上に述べた要因
の一部または全部が相互に関連して接触している文字を
高率で生じさせるとも考えられる。たとえば、600dp
i (dot perinchインチあたりのドット数) のテキストを
400dpiで走査すると、接触している文字の発生率が
20%になることも珍しくはない。これでは、読み易い
OCRを行おうとする折角の試みも台無しとなる。
【0004】
【発明が解決しようとする課題】接触している文字を補
正する従来技術の方法は粗雑なものであり、接触してい
ることを無視するか、十分な部分的分離しきい値を求め
るか、接触しそうな文字の組合せから成るテンプレート
をデザインするか、そのいずれかに集中していた。これ
らの方法は試行錯誤に基づく方法であって、通常、多く
は次のような特徴を有する普通のフォントの場合にさえ
失敗が生じている。すなわち、細い文字ストロークに起
因する明暗度のレベルが、2個の文字が接触している領
域ゆえに生じる明暗度のレベルよりも低いようなフォン
トの場合である。更にその上、公知の方法は分類モジュ
ールを有していても、このモジュールが作動するのは2
進イメージに対してだけである。従って、達成できる精
度水準に限界があった。
【0005】本発明は、上述の問題点を解消するため
に、2進フォーマット及びグレイスケールフォーマット
の両形式で分割イメージボックスの生成を可能にし、こ
れによって、光学式文字認識(OCR)コンピュータ内で
の接触している文字を正確に分離することができる方法
及び装置並びにOCRコンピュータを提供することを目的
とする。
【0006】
【問題を解決するための手段】上記目的を達成するため
に、本発明は、入力文書を光学式に走査して一組の走査
線を生成するステップと、前記一組の走査線に対して分
割過程を実行して一組の分割イメージボックスを生成す
るステップと、各走査線について分離しきい値を決定す
るステップと、解析関数を用いて各走査線を解析するス
テップと、各走査線をその分離しきい値を使用して2進
化して一組の処理された走査線を生成するステップと、
前記一組の処理された走査線に対して分割過程を実行し
て新しい一組の分割イメージボックスを生成するステッ
プと、前記新しい一組の分割イメージボックスに対して
分類操作を実行して前記入力文書の2進化表示を生成す
るステップとから成る、光学式文字認識コンピュータに
おける接触文字の分離方法を提供する。
【0007】好ましくは、前記光学式走査ステップはグ
レイスケールスキャナにより実行される。
【0008】また好ましくは、前記分離しきい値決定ス
テップの後に、その分離しきい値に関して各走査線を正
規化するステップを更に含む。
【0009】前記分離しきい値決定ステップは前記解析
ステップの前または、後に実行される。
【0010】好ましくは、前記解析関数は積算−加算移
動平均関数、積算−加算自己回帰関数、積算−加算自己
回帰移動平均関数、2次積算−加算移動平均関数、2次
積算−加算自己回帰関数、または2次積算−加算自己回
帰移動平均関数のいずれか1つである。
【0011】好ましくは、前記分離しきい値は各走査線
について同一であるか、または、各走査線は自己の分離
しきい値を有する。
【0012】また、前記分類操作実行ステップの後で、
接触している文字が残存するか否かを判定するステップ
を実行することが好ましい。この場合、接触している文
字が残存している場合には、再分類ステップを実行する
とよい。更に、前記再分類ステップは、接触部分を分割
するか否かを判別するために、隣接走査線を同一の水平
方向の(画素)位置で検査するのが好ましい。
【0013】更に好ましくは、前記再分類ステップは、
接触部分を分割するために分離しきい値を移動させるこ
とを含む。また前記再分類ステップは、前記解析関数に
異なるパラメータを用いて前記解析ステップを繰返し実
施することを含む。
【0014】また、上記目的を達成するために、本発明
は、入力文書を光学式に走査して一組の走査線を生成す
る手段と、前記一組の走査線に対して分割過程を実行し
て一組の分割イメージボックスを生成する手段と、各走
査線について分離しきい値を決定する手段と、解析関数
を用いて各走査線を解析する手段と、各走査線をその分
離しきい値を使用して2進化して一組の処理された走査
線を生成する手段と、前記一組の処理された走査線に対
して分割過程を実行して新しい一組の分割イメージボッ
クスを生成する手段と、前記新しい一組の分割イメージ
ボックスに対して分類操作を実行して前記入力文書の2
進化表示を生成する手段とから成る光学式文字認識コン
ピュータにおける接触文字を分離する装置を提供する。
【0015】更に、上記目的を達成するために、本発明
は、光学式に入力文書を走査して一組の走査線を生成す
るための手段と、前記一組の走査線に接続された入力を
有する分割モジュールと、前記分割モジュールの出力に
接続された分類モジュールと、前記分割モジュールの入
力に接続された2進化モジュールと、前記2進化モジュ
ールの入力に接続された解析モジュールと、前記解析モ
ジュールに接続された分離しきい値決定モジュールとを
備えた光学式文字認識コンピュータを提供する。
【0016】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳細に説明する。
【0017】図1は、本発明を使用したOCRコンピュー
タのブロックダイアグラムである。スキャナ(2)は入
力文書(20)を走査して数値の配列を作り出す。この配
列の数値の各行は、走査線(3)と呼ばれる。該一組の
走査線 (3) に対して分割モジュール(4)が作動し
て、一組の相互に接続した成分のイメージボックス(5)
を生成する。このボックス(5)中の各走査線(3)に
ついて分離しきい値(T)が決定される(10)。各走
査線(3)に解析モジュール(12)による解析ステッ
プが適用される。各走査線(3)は、自己の分離しきい
値(T)を使用して2進化モジュール(13)により2
進化されて一組の処理された走査線を生成する。該一組
の処理された走査線に対して前記分割モジュール(4)
による分割処理が行われて、新しい一組の分割イメージ
ボックス(5)を生成する。該新しい一組の分割イメー
ジボックス(5)に対して分類モジュール(6)による
分離操作が実行されて、前記入力文書(20)の2進化
表示(8)を生成する。
【0018】入力文書20は、場合によっては、英数文
字が印刷してある紙1頁のこともあるがいずれにして
も、光学式スキャナ2により走査される。スキャナ2
は、図示したようにグレイスケールスキャナである。し
かし、フルカラースキャナなど他のスキャナを使用する
ことも可能である。スキャナ2は、光学式文字認識 (OC
R)コンピュータ1の一部を成することもでき、あるいは
物理的に分離した単体でもよい。このように2通りの可
能性があるゆえ、図1ではスキャナ2の部分だけを点線
で囲んで示してある。
【0019】スキャナ2の出力は数値の配列であるが、
これを一組の走査線3として視ることができる。各走査
線3は、入力文書20の頁上に水平方向の位置の関数と
してグレイスケールレベルを描いている。入力文書20
の頁の1文字あたりの走査線3の数は、文字サイズ、ス
キャナ2の解像度等によって一様ではないが、サイズ1
2の書体の場合には1文字あたり約60個の走査線が一
般的である。
【0020】グレイスケールのレベル数は、スキャナ2
の特性に基づいて異なり、一般的には256である。こ
のようなグレイスケールの解像度の場合は、一般的に
は、レベル255で純然たる黒を、レベルゼロで純白を
表わすものと想定できる。
【0021】図2(a)、(b)、及び(c)に、走査線3
の具体例を3例示す。図2(a)は、弱い結合部40及び
分離しきい値Tを有する走査線3を表わす。図2(b)
は、中程度の結合部40及び分離しきい値Tを有する走
査線3を表わす。図2(c)は、強度の結合部40及び分
離しきい値Tを有する走査線3を表わす。
【0022】図2(a)、(b)、及び(c)の横軸は、入
力文書20の頁の横軸に一致し、スキャナ2の解像度に
従って個別の画素数に区切られている。図2(a)、
(b)、及び(c)の各走査線3は、一対の接触している
文字から採ってある。四角で囲った範囲41は、文字内
の細いストロークの領域を表わす。丸で囲った範囲40
は、該2つの文字が接触している領域を表わす。この範
囲40は、結合部、つまり「画素ブリッジ」と呼ばれる
こともあり、文字間にあってグレイスケールのレベル
が、たとえ画素が1つの場合でも決してゼロにならない
範囲と定義されている。
【0023】図2(a)、(b)、及び(c)の走査線3に
対応する元の鮮明な画素マトリックスイメージの行は、
通常入手不可能であるが、図2(a)、(b)、及び(c)
に一連の点線5で表わされている。図2(a)、(b)、
及び(c)に示した(分割イメージボックス5にあた
る)点線のグレイスケール255の台地状形は、文字中
の異なるストロークを表わす。もっとも、他の走査線の
場合にはこうした台地状形が1文字全体を表わすことが
あることは後で明らかになる。元の画素は0か255の
どちらか一方のグレイスケール値を有していたのだが、
「従来の技術」の項で述べた1つあるいはそれ以上の過
程によって歪められたのである。たとえば、元の画素マ
トリックスは、コンピュータ上にも作り出せたはずであ
るが、その場合は、該コンピュータが文字を印刷し、文
書20として作りだすと、最初の一組の歪みが表われ
た。二番目の一組の歪みは、文書20をスキャナ2によ
って走査した際に表われたのである。
【0024】図2(a)に示された画素ブリッジ40は、
弱いブリッジと考えられる。ブリッジ40中のグレイス
ケールの最高レベルが、どの文字ストロークのグレイス
ケールの最低レベルの内の最高レベルと比較しても低い
ためである。図2(b)に示された画素ブリッジ40は中
程度のブリッジと考えられるが、それはブリッジ40中
のグレイスケールの最高レベルが、文字の幾つかの部分
のグレイスケールの最低レベルの内の最高レベルと同程
度であるからである。図2(c)の画素ブリッジ40は、
強度のブリッジ40と考えられる。ブリッジ40中のグ
レイスケールのレベルが、イメージ中のグレイスケール
の最高レベルに非常に接近していて、文字の幾つかの細
いストロークのグレイスケールのレベルよりも目立って
高いからである。図2(a)から注目すべきことは、(弱
い結合部40としても知られている)弱いブリッジ40
が、走査線分離しきい値Tにより解像できる点である。
中程度の結合部40も値が対応する走査線3の分離しき
い値Tの値よりも少々高めのしきい値を使用して解像可
能である。但し、この場合のイメージは、グレイスケー
ルレベルが中程度のブリッジ40のグレイスケールレベ
ルより低い細いストロークを含まない場合である。たと
えば、図2(a)及び(b)の走査線3が同一イメージを
元にしているならば、これは不可能である。強度の結合
部40は、単にしきい値を操作するだけでは上手く解像
できない。各走査線3について異なった分離しきい値T
を有することが、この走査線3を処理する独特な基準を
提供してくれる。このことによって異なった大きさのブ
リッジ40は、それらが同一イメージ中に存在する場合
でも解像可能になる。そして、こうした場合は、往々に
して起こりうるケースなのである。
【0025】従来のOCRの過程と同様に、走査線3は、
入力として分割モジュール4に送られる。分割モジュー
ル4は、その一組の走査線3を分割して一組の分割イメ
ージボックス5に変えるが、このイメージボックス5
は、文字に分類される候補である部分を取り囲んでい
る。ユーザの必要に応じて、このイメージボックスには
2進イメージか、あるいはグレイスケールイメージのど
ちらか一方が入っている。スキャナ2が内蔵の2進化装
置を備えていない場合は、スキャナ2が出力した走査線
3はグローバル2進化モジュール15を通過させられ、
2進化される。この場合は、分割モジュールは、グレイ
スケール走査線3か、あるいは2進化された走査線3の
いずれか一方に対して作動することができる。しかし、
文字が接触している場合は、分割イメージボックス5は
個々の文字を取り囲むのではなくて、接触している文字
群を取り囲むのである。図2(c)のケースでは、単一の
ボックス5が2つの文字を取り囲んでいる。
【0026】OCR過程における次のステップは分類のス
テップである。このステップは分類モジュール6が実行
する。分類モジュール6は、分割イメージボックス5を
検査し、それを実際の文字に対応する予め設定されたモ
デルライブラリ7と比較する。分類モジュール6は、認
識可能な文字の特徴ならどれでも基にすることができ
る。たとえば、分類モジュール6はテンプレートマッチ
ングモジュールでもよい。この場合、モデルライブラリ
7は、実際の文字のテンプレートイメージから成る。ま
た別の例では、分類モジュール6は、イメージから選択
された値の幾分減少されたベクトルを基にすることも可
能である。この場合、モデルライブラリ7は実際の文字
を表わす類似のベクトルから成る。また、他の方法を選
択することも可能である。加えて、分類モジュール6
は、ボックス5に含まれる2進イメージか、あるいはグ
レイスケールイメージのいずれか一方に対して作動する
ことができる。各分類方法には、近似もしくは類似度が
あって、その度数に基づいてマッチング(一致度)に関
する判定が下される。これは、分類方法の信頼度と呼ば
れる。
【0027】分類モジュール6は、ボックス5が囲んだ
候補文字の一つが既知の文字であるか否かの判定を、該
候補文字とライブラリ7内に格納してあるモデルの一つ
との間の近似(類似)度に基づいて行う。たとえば、テ
ンプレートマッチングの場合、類似度は、往々相関係数
として表わされる。係数1は完全な一致を、係数0は全
くの不一致を示す。0.94よりも大きい相関係数は良
好と見做されて、その結果、大方のOCRシステムにおい
ては、候補文字はライブラリのテンプレートのセットか
ら出た文字であるという肯定的判定が下される。通常
は、かかる肯定的判定の結果として、記憶領域8に記憶
されている文字が2進化表示される。2進表示8を生成
するのに使用される2進コードは、いかなる2進コード
でもよいのだが、たとえば、ASCIIがある。2進化表示
8は、OCRコンピュータ1のユーザが操作することも可
能であるし、コンピュータ1からの出力として幾つかの
可能な出力装置の内のいずれか1つ、またはそれ以上に
送ることも可能である。出力装置には制限がなく、ディ
スプレイ30、ローカルエリアネットワーク(LAN)3
1、ワイドエリアネットワーク(WAN)32、プリンタ
33、ファクシミリ34などが含まれる。
【0028】非常に低い信頼度を示すような候補文字に
関しては、分類モジュール6は、接触文字判定モジュー
ル9に管理を委ねる。モジュール9は、一連のステップ
を実用して、低い類似度が確かに2つまたはそれ以上の
接触している文字を表わすものであって、それが何か他
の理由により、たとえば単一の文字でライブラリ7中に
一致するモデルが存在しないような文字により生じてい
るのではない旨を確認するのが好ましい。
【0029】モジュール9が実行する確認ステップは、
モジュール4、6、及び9−14が実行する全てのステ
ップと同様に、ソフトウェア、ハードウェア、ファーム
ウェア、またはそれらの幾つかの組合せにより実施する
ことができる。ハードウェアにより実施する場合には、
モジュール4、6、及び9−14はコンピュータ1内の
単一のプロセッサにより実行可能である。代替方法とし
ては、モジュール4、6、及び9−14のうちの1つま
たはそれ以上が、専用のプロセッサを有することも可能
である。
【0030】確認ステップは、概して、ボックス5全体
の大きさ、走査線3内のボックス5の水平方向の位置、
及びボックス5内の画素数のチェックを含む。(このチ
ェックは、上述のパラメータとモジュール9内に格納さ
れた一組の基本線パラメータとを比較することにより行
われるのであるが、)このチェックにより2つ以上の接
触している文字の存在が示されれば、管理は次に実行さ
れるモジュールに委ねられる。このモジュールは、通
常、分離しきい値決定モジュール10であるが、解析(d
econvolution)モジュール12でもよい。
【0031】一方、もし確認ステップで、候補文字が未
知の文字であって、2つ以上の接触している文字ではな
いことが示されれば、その未知の文字の2進表示が2進
表示記憶領域8に送られる。
【0032】記憶領域8は、走査線3、分割イメージボ
ックス5、及びモデルライブラリ7を格納している記憶
領域と同様に、コンピュータで使用する記憶領域ならば
どれであっても可能であり、たとえば、フロッピーディ
スク、ハードディスク、磁気メモリ、光学メモリ、バブ
ルメモリなどがある。
【0033】分離しきい値決定モジュール10は通常は
解析モジュール12に先立って実行されるが、解析モジ
ュール12の後に実行しても構わない。オプションの正
規化モジュール11を呼び出す場合は、モジュール10
及び11は両方ともモジュール12に先立ち実行され
る。
【0034】モジュール10の目的は、各走査線3につ
いてグレイスケールレベルで表わされた分離しきい値T
を決定することである。Tよりも上のグレイスケールレ
ベルは、文字、文字の一部(ストローク)、または接触
している文字間の画素ブリッジ40を表わすものと見做
される。これに対して、Tよりも下のグレイスケールレ
ベルは、文字間の、または同じ文字の部分間の間隔領域
と見做される。
【0035】各走査線3には、それ独自のTを割り当て
ることができる。この方式は、動的しきい値決定として
知られている。これには、走査線3を個々に処理する独
特な基準を提供するという利点があって、それによっ
て、同一のイメージ中で異なる厳密度を用いて結合部を
扱う際にその処理が更に柔軟になるという結果が得られ
る。一方、同一のT値を文書20内の走査線3の全てに
使用することもできる。この方式は、静的しきい値決定
として知られている。
【0036】しきい値レベルTは、何らかの任意の数、
たとえばグレイスケールレベル100でもよい。代替方
法としては、Tを走査線3の平均グレイスケールレベル
として算出することもできる。この平均レベルは「重
心」と呼ばれることがある。フォントあるいは関連する
フォントセットに従ってTを決定するには、重心に予め
選択した係数、たとえば0.9を乗じることも可能であ
る。
【0037】各走査線3についてしきい値Tがモジュー
ル10によって決められた後、(必ずしも必要ではない
が)通常は、正規化モジュール11が呼び出される。正
規化モジュール11の目的は、解析モジュール12が実
行する計算の簡略化にある。正規化ステップにおいて
は、各走査線3に対する縦(グレイスケール)軸の目盛
りの位置が変更されて、レベルTがグレイスケールレベ
ルの0になるように再設定される。この結果、グレイス
ケールレベルの位置関係は、Tより上にある画素の目盛
りがプラスに、Tより下にある画素の目盛りがマイナス
に変化している。モジュール11の出力は、図3(a)、
(b)、及び(c)に示してあり、それぞれ、図2(a)、
(b)、及び(c)に示した走査線3に対応している。
【0038】解析モジュール12は各走査線3に対して
解析関数fを適用する。この目的は、まず第一に、画素
ブリッジを生成したスプレッドファンクション効果を、
まず可能な限り反転しようとする試みである。モジュー
ル12の出力は、図4(a)、(b)、及び(c)に示して
あリ、それぞれ、図3(a)、(b)、及び(c)に対応し
ている。関数fは、一般には積算−加算解析関数(mult
iply-add deconvolution function)である。関数fは、
移動平均関数、自己回帰関数、もしくは自己回帰移動平
均関数でもよい。関数fは、上記いずれのフィルタ構造
の二次元バージョンであってもよく、そのバージョンは
幾つかの走査線3に同時に適用できる。このような関数
fは、フォントに対する感度が高い。たとえば、単純な
移動平均関数では、僅か2つの画素、つまり、画素p及
び画素p−1(図3(a)及び4(a)を参照)が使用され
るのみである。このような画素の各対については、各画
素pに対するグレイスケールの新しい値が、関数fによ
って、画素p及び画素p−1の元のグレイスケールレベ
ルの加重平均として算出される。たとえば、画素pに対
する新しい値は、pの値からp−1の値の0.6倍を差
し引いたものである。かかる移動平均関数は、比較的暗
い画素のグレイスケール値を増加させかつ比較的明るい
画素のグレイスケール値を減少させることにより走査線
3のコントラストを高める。注目すべきは、かかる基本
的積算−加算フィルタに対してさえも中程度のブリッジ
40のグレイスケールレベルは0以下に下がり、図4bに
示すような分離の成功を示すという点である。
【0039】上述の構造のいずれかを有する最適な関数
fは、適応的方法でデータから算出できる。それにはフ
ィルタ係数を最新のものにする最適化のメカニズムを設
定する必要がある。この最適化のメカニズムは、標準最
小平均2乗誤差基準か、あるいはその非線形ヴァリエー
ションのどれか、たとえば一定の係数誤差基準(consta
nt modulus error criterion)か、そのいずれか一つに
基づくことができる。また、現在市場に出回っているプ
リンタやスキャナのタイプに関しては、上で概説した構
造の族から得られる名目的で一定なパラメータ関数fで
十分である。簡易さ、実行速度、及び性能の点で特に好
ましい実施の形態は、積算−加算フィルタ解析関数が下
記式で表されるものである。
【0040】Yp = f(yp) = yp + ayp-1 ここで、Ypは、走査線3の画素位置pにおけるグレイス
ケールの算出されたレベル、ypは、走査線3の画素位置
pにおけるグレイスケールの実際のレベル、yp-1は、位
置pの左の画素位置におけるグレイスケールの実際のレ
ベル、a は、通常は−0.06であり、プリンタかスキャナ
2が変われば異なる可能性がある。
【0041】2進化モジュール13の目的は、画素全て
に純然たる黒か白の状態になるような特性を与えること
である。2進化過程においては、しきい値Tよりも上に
存在する解析関数fを施された画素は、最大グレイスケ
ール値をとるように設定され、この場合、その値は25
5である。レベルTよりも下に存在する解析された画素
は、グレイスケールレベル0をとるように設定される。
【0042】2進化モジュール13の出力は、図5
(a)、(b)、及び(c)に示してあり、それぞれ、図4
(a)、(b)、及び(c)に対応する。図5(a)及び
(b)にあるように、基本的一次解析モジュール12の
移動平均積算−加算過程の後に2進化モジュール13を
適用することにより、弱い画素ブリッジ40及び中程度
の画素ブリッジ40を、(グレイスケールレベルがゼロ
に設定されて)分離することに成功した。一方、強度の
画素ブリッジ40の場合も同様の手順で255に設定さ
れるが、図5cにあるように接触している文字が相変わら
ず残存していることが分る。
【0043】2進化モジュール13の出力は分割モジュ
ール4に送られ、分割モジュール4は新しい一組の分割
イメージボックス5を生成する。分類モジュール6が2
進イメージ5に対して作動するタイプであれば、イメー
ジボックス5は、図5(d)のタイプの走査線3で作られ
る。一方、分類モジュール6がグレイスケールイメージ
5を処理の対象とする場合は、イメージボックス5は,
図5(e)のタイプの走査線3で作られる。図示例では、
分割モジュール4は、図5(a)及び(b)のそれぞれに
ある走査線3のイメージに対応するグレイスケール文字
の回りに、結果として得られた2進イメージから抽出さ
れる寸法を使用して、2つのボックス5を描く。これら
のボックス5はいずれも、1個の文字イメージを含んで
いる。一方、図5(c)の走査線3の2進イメージから抽
出されたパラメータからは、2つの接触している文字を
取り囲むボックス5が1つだけ生成される結果となる。
分類モジュール6は、次に、これらの新しい分割イメー
ジボックス5をモデルライブラリ7と比較する。図示例
では、最初の2つの候補文字は、既知の文字として分類
されて2進化され、2進化表示記憶領域8に送られる。
しかし、分類モジュール6が接触文字判定モジュール9
を調べて確かめた結果、一対の接触している文字は相変
わらず残っている場合には、この時点で、分類モジュー
ル6は何らかの再処理が必要であると判断する。再処理
の実施の形態は、以下に述べるように3つある。
【0044】第1の再処理の実施の形態は好ましい形態
であって、この実施形態においては、分類モジュール6
は隣接走査線検査モジュール14に管理を委ねる。モジ
ュール14は、図4(a)、(b)、及び(c)に示した種
類の走査線の、予め2進化された組に対して作動する。
モジュール14は、走査線3に沿った同一の水平方向の
(画素)位置p*(図4(c)を参照)近傍の隣接走査線3
のグループを検査する。この水平方向の位置は、画素ブ
リッジ40であると思われる位置ならどの位置でもよ
い。図示した例では、モジュール14は、走査線3が同
一イメージから採ってあり、かつ隣接していると想定し
て14から18及び31から33の位置(それぞれ、四
角で囲まれた範囲41及び丸で囲まれた範囲40)近傍
の走査線3の一部または全部を検査する。
【0045】モジュール14を実行する一つの方法は、
モジュール14を次のような内容のプログラムに組むこ
とである。すなわち、検査した全ての走査線3について
画素p*のグレイスケールレベルのパーセンテージがほん
の少々(たとえば10%以下)でも結合部(画素ブリッ
ジ)の存在を示す場合は、位置p*のグレイスケールレベ
ル全体を0に設定すると判定するようにプログラムを組
むのである。そうでない場合は、位置p*のグレイスケー
ルレベル全体が255に設定される。図示例の場合、図
4(a)、(b)、及び(c)は、14から18の画素位置
近傍のグレイスケールレベルが3つの走査線3の全てに
おいてゼロまたはそれよりも低いことを示しており、こ
の位置が正当な白の領域であることが分る。しかし、画
素位置31から33の近傍ではグレイスケールレベルが
ゼロより低下している(図4(a)及び4(b))のは3つ
の走査線3の内の2つだけである。図示例では、図4
(c)の31から33の位置のグレイスケールレベルを
ゼロに設定する方を選択して、この位置もブリッジ40
であると考えられることを示すようにしてもよい。実際
の状況では、両方の位置の走査線3を全て処理して初め
て、そのような結論に至るのである。
【0046】この方法を改良した実施の形態としては、
モジュール14のプログラムを、モジュール14が画素
p*のレベルを0に設定するか255に設定するか判定す
る際に、隣接の画素を検査するように組む。たとえば、
位置p*+1及びp*−1も検査する。その際は加重平均が
採られる。たとえば、位置p*には、位置p*+1及びp*−
1の各々の2倍の加重を与えることができる。次に、検
査した全ての走査線3について、3つの位置の全てに対
する全体的なグレイスケールレベルが計算される。この
平均グレイスケールレベルが或る予め選択したレベル
(レベルTか、あるいはTの関数でもよい)よりも低け
れば、位置p*のグレイスケールレベルは0に設定され
る。さもなければ、それは最大レベルの255に設定さ
れる。図5(d)は、モジュール14が本発明の例を用い
てこれを実行した結果を示している。図5(e)は、分類
モジュール6がグレイスケールイメージ5を必要とする
際に、分割モジュール4により出力され、ボックス5と
して描かれた走査線3のタイプを示している。
【0047】モジュール14が再処理を実行した後、管
理は分割モジュール4に戻されて、処理は前と同様に続
行される。
【0048】第2の再処理の実施の形態においては、分
類モジュール6は、分離しきい値決定モジュール10に
管理を委ねる。分離しきい値決定モジュール10は(図
2(a)、(b)、及び(c)における)Tの位置を変更し
て、 Tに最も接近しているがTの上にあるような画素
ブリッジ40の最低グレイスケールレベルよりも少し上
に、Tがくるようにする。これは、図4(a)、(b)、
及び(c)においてゼロレベルの位置を変更するのと同
じことである。図4(a)、(b)、及び(c)に示した例
では、そのような「最低の下降部分」が画素p*に表われ
ている。かくして、モジュール10は、Tの位置を画素
p*の元のグレイスケールレベルよりも少し上に変更す
るか、あるいは同じことであるが、図4(a)、(b)、
及び(c)におけるゼロレベルの位置をp*のレベルより
も少し上に変更する。再処理がモジュール10によって
実行された後は、管理は前と同様に正規化モジュール1
1か、あるいは解析モジュール12に委ねられる。
【0049】第3の再処理の実施の形態においては、分
類モジュール6は、解析モジュール12に管理を委ね
る。モジュール12は、(位置p*の)最低の下降部分が
レベルTよりも(モジュール12の出力ではゼロより
も)下がるまで繰返し実行される。これは、解析関数f
内の重みを変更したり、関数f内の計算に更に多くの画
素を採り入れたりすること等によって実施可能である。
再処理がモジュール12によって実行された後は、管理
は前と同様に2進化モジュール13に委ねられる。
【0050】再処理ステップの後、分割モジュール4
は、もう一組の分割イメージボックス5を生成し、分類
モジュール6はそれをモデルライブラリ7と比較する。
再処理ステップは、一回または予め選択した任意の回数
実行できる。あるいは、所望通り、接触している文字を
全て分離し終えるまで実行することも可能である。
【0051】図6(a)は、イメージを従来の光学式文字
認識方法で処理した後のその印刷出力を表現したもので
ある。文字「a」及び「r」が強度の結合のために上手
く分離できていない点に注意する必要がある。図6(b)
は、図6(a)と同一の入力文書20を本発明のOCRコン
ピュータ1により処理した後でプリンタ33に出力した
ものを示している。本発明が「a」及び「r」の文字を
見事に分離していて、しかも、文字「a」では更に完全
なる状態が得られていることに注目されたい。
【0052】以上、好ましい実施の形態の作用をも含め
て説明したが、上記の説明は本発明の範囲を限定するも
のではない。本発明の範囲は冒頭の特許請求の範囲によ
ってのみ限定されるべきである。上記の説明から、様々
な変更や修正が可能であり、しかも、本発明の精神及び
範囲から逸脱することなくそれを達成し得ることは、当
業者には明白であろう。たとえば、好ましい実施の形態
は、グレイスケールスキャナ2との関連で示したが、本
発明は同様にカラースキャナでも使用できる。ただし、
処理は全て3次元で行われるものであって、1次元で行
われるものではない。
【0053】
【発明の効果】以上説明したように、本発明によれば、
2進フォーマット及びグレイスケールフォーマットの両
形式で分割イメージボックスの生成を可能にし、これに
よって、光学式文字認識(OCR)コンピュータ内での接
触している文字を正確に分離することができるという効
果を奏する。
【図面の簡単な説明】
【図1】本発明を使用したOCRコンピュータのブロック
ダイアグラムである。
【図2】(a)グレイスケールを画素位置の関数として
示し、本発明のモジュール10により拡大された弱い結
合部40を有する典型的走査線3を示す図である。
(b)グレイスケールを画素位置の関数として示し、本
発明のモジュール10により中程度の結合部40を有す
る拡大された典型的走査線3を示す図である。(c)グ
レイスケールを画素位置の関数として示し、本発明のモ
ジュール10により拡大された強い結合部40を有する
典型的走査線3を示す図である。
【図3】(a)モジュール11により処理された後の図2
aの走査線3を示す図である。(b)モジュール11によ
り処理された後の図2bの走査線3を示す図である。
(c)モジュール11 により処理された後の図2cの走査
線3を示す図である。
【図4】(a)基本的一次移動平均積算−加算解析モジ
ュール12によって処理された後の図3(a)の走査線を
示す図である。(b)基本的一次移動平均積算−加算解
析モジュール12によって処理された後の図3(b)の走
査線を示す図である。(c)基本的一次移動平均積算−
加算解析モジュール12によって処理された後の図3
(c)の走査線を示す図である。
【図5】(a)2進化モジュール13によって処理され
た後の図4(a)の走査線を示す図である。(b)2進化
モジュール13によって処理された後の図4(b)の走査
線を示す図である。(c)2進化モジュール13によっ
て処理された後の図4(c)の走査線を示す図である。
(d)隣接走査線検査モジュール14及び2進化モジュ
ール13によって処理された後の図3(c)の走査線3を
示す図である。(e)図2(c)から画素ブリッジ40を
取り除いた元の走査線3を示す図である。
【図6】(a)従来の明暗度に基づく方法が失敗した典
型的なケースを示す図である。(b)図6(a)を得たと
同じ例に対して、本発明が接触している文字を正しく分
割する結果を得ていること示す図である。
【符号の説明】
1 OCRコンピュータ 2 スキャナ 3 走査線 4 分割モジュール 5 分割イメージボックス 6 分類モジュール 7 モデルライブラリ 8 2進化表示 9 接触文字判定モジュール 10 分離しきい値決定モジュール 11 正規化モジュール 12 解析モジュール 13 2進化モジュール 14 隣接走査線検査モジュール 15 包括2進化モジュール 20 入力文書 33 プリンタ 34 ファクシミリ

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 入力文書を光学式に走査して一組の走査
    線を生成するステップと、 前記一組の走査線に対して分割過程を実行して一組の分
    割イメージボックスを生成するステップと、 各走査線について分離しきい値を決定するステップと、 解析関数を用いて各走査線を解析するステップと、 各走査線をその分離しきい値を使用して2進化して一組
    の処理された走査線を生成するステップと、 前記一組の処理された走査線に対して分割過程を実行し
    て新しい一組の分割イメージボックスを生成するステッ
    プと、 前記新しい一組の分割イメージボックスに対して分類操
    作を実行して前記入力文書の2進化表示を生成するステ
    ップとから成る、光学式文字認識コンピュータにおける
    接触文字の分離方法。
  2. 【請求項2】 前記光学式走査ステップはグレイスケー
    ルスキャナにより実行されることを特徴とする請求項1
    記載の接触文字の分離方法。
  3. 【請求項3】 前記分離しきい値決定ステップの後に、
    その分離しきい値に関して各走査線を正規化するステッ
    プを更に含むことを特徴とする請求項1記載の接触文字
    の分離方法。
  4. 【請求項4】 前記分離しきい値決定ステップは前記解
    析ステップの前に実行されることを特徴とする請求項1
    記載の接触文字の分離方法。
  5. 【請求項5】 前記分離しきい値決定ステップは前記解
    析ステップの後に実行されることを特徴とする請求項1
    記載の接触文字の分離方法。
  6. 【請求項6】 前記解析関数は積算−加算移動平均関数
    であることを特徴とする請求項1記載の接触文字の分離
    方法。
  7. 【請求項7】 前記解析関数は積算−加算自己回帰関数
    であることを特徴とする請求項1記載の接触文字の分離
    方法。
  8. 【請求項8】 前記解析関数は積算−加算自己回帰移動
    平均関数であることを特徴とする請求項1記載の接触文
    字の分離方法。
  9. 【請求項9】 前記解析関数は2次積算−加算移動平均
    関数であることを特徴とする請求項1記載の接触文字の
    分離方法。
  10. 【請求項10】 前記解析関数は2次積算−加算自己回
    帰関数であることを特徴とする請求項1記載の接触文字
    の分離方法。
  11. 【請求項11】 前記解析関数は2次積算−加算自己回
    帰移動平均関数であることを特徴とする請求項1記載の
    接触文字の分離方法。
  12. 【請求項12】 前記分離しきい値は各走査線について
    同一であることを特徴とする請求項1記載の接触文字の
    分離方法。
  13. 【請求項13】 各走査線は自己の分離しきい値を有す
    ることを特徴とする請求項1記載の接触文字の分離方
    法。
  14. 【請求項14】 前記分類操作実行ステップの後で、接
    触している文字が残存するか否かを判定するステップを
    実行することを特徴とする請求項1記載の接触文字の分
    離方法。
  15. 【請求項15】 接触している文字が残存している場合
    には、再分類ステップを実行することを特徴とする請求
    項14記載の接触文字の分離方法。
  16. 【請求項16】 前記再分類ステップは、接触部分を分
    割するか否かを判別するために、隣接走査線を同一の水
    平方向の(画素)位置で検査することを含むことを特徴
    とする請求項15記載の接触文字の分離方法。
  17. 【請求項17】 前記再分類ステップは、接触部分を分
    割するために分離しきい値を移動させることを含むこと
    を特徴とする請求項15記載の接触文字の分離方法。
  18. 【請求項18】 前記再分類ステップは、前記解析関数
    に異なるパラメータを用いて前記解析ステップを繰返し
    実施することを含むことを特徴とする請求項15記載の
    接触文字の分離方法。
  19. 【請求項19】 入力文書を光学式に走査して一組の走
    査線を生成する手段と、 前記一組の走査線に対して分割過程を実行して一組の分
    割イメージボックスを生成する手段と、 各走査線について分離しきい値を決定する手段と、 解析関数を用いて各走査線を解析する手段と、 各走査線をその分離しきい値を使用して2進化して一組
    の処理された走査線を生成する手段と、 前記一組の処理された走査線に対して分割過程を実行し
    て新しい一組の分割イメージボックスを生成する手段
    と、 前記新しい一組の分割イメージボックスに対して分類操
    作を実行して前記入力文書の2進化表示を生成する手段
    とから成る、光学式文字認識コンピュータにおける接触
    文字を分離する装置。
  20. 【請求項20】 光学式に入力文書を走査して一組の走
    査線を生成するための手段と、 前記一組の走査線に接続された入力を有する分割モジュ
    ールと、 前記分割モジュールの出力に接続された分類モジュール
    と、 前記分割モジュールの入力に接続された2進化モジュー
    ルと、 前記2進化モジュールの入力に接続された解析モジュー
    ルと、 前記解析モジュールに接続された分離しきい値決定モジ
    ュールとを備えた光学式文字認識コンピュータ。
JP8354733A 1995-12-22 1996-12-20 光学式文字認識コンピュータにおける接触文字の分離方法及び装置 Pending JPH1027214A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/577,727 1995-12-22
US08/577,727 US5768414A (en) 1995-12-22 1995-12-22 Separation of touching characters in optical character recognition

Publications (1)

Publication Number Publication Date
JPH1027214A true JPH1027214A (ja) 1998-01-27

Family

ID=24309920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8354733A Pending JPH1027214A (ja) 1995-12-22 1996-12-20 光学式文字認識コンピュータにおける接触文字の分離方法及び装置

Country Status (5)

Country Link
US (1) US5768414A (ja)
EP (1) EP0780782B1 (ja)
JP (1) JPH1027214A (ja)
CA (1) CA2192023C (ja)
DE (1) DE69626182T2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6055336A (en) * 1996-11-18 2000-04-25 Canon Kabushiki Kaisha Image processing system which converts multi-value image data into binary image data
US6487311B1 (en) * 1999-05-04 2002-11-26 International Business Machines Corporation OCR-based image compression
US7400768B1 (en) 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US7283669B2 (en) * 2003-01-29 2007-10-16 Lockheed Martin Corporation Fine segmentation refinement for an optical character recognition system
JP4834351B2 (ja) * 2005-08-22 2011-12-14 株式会社東芝 文字認識装置及び文字認識方法
US7454063B1 (en) 2005-09-22 2008-11-18 The United States Of America As Represented By The Director National Security Agency Method of optical character recognition using feature recognition and baseline estimation
US7856142B2 (en) * 2007-01-26 2010-12-21 Sharp Laboratories Of America, Inc. Methods and systems for detecting character content in a digital image
CN101354746B (zh) * 2007-07-23 2011-08-31 夏普株式会社 文字图像抽出装置及文字图像抽出方法
WO2009070033A1 (en) * 2007-11-30 2009-06-04 Lumex A/S A method for processing optical character recognition (ocr) output data, wherein the output data comprises double printed character images
US8761511B2 (en) * 2009-09-30 2014-06-24 F. Scott Deaver Preprocessing of grayscale images for optical character recognition
US8345978B2 (en) 2010-03-30 2013-01-01 Microsoft Corporation Detecting position of word breaks in a textual line image
WO2013164849A2 (en) * 2012-04-12 2013-11-07 Tata Consultancy Services Limited A system and method for detection and segmentation of touching characters for ocr
CN106874906B (zh) * 2017-01-17 2023-02-28 腾讯科技(上海)有限公司 一种图片的二值化方法、装置及终端

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4562594A (en) * 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
US5048100A (en) * 1988-12-15 1991-09-10 Michael Kuperstein Self organizing neural network method and system for general classification of patterns
US5040229A (en) * 1990-02-02 1991-08-13 Eastman Kodak Company Contour feature-based method for identification and segmentation of touching characters
US5440651A (en) * 1991-06-12 1995-08-08 Microelectronics And Computer Technology Corp. Pattern recognition neural network
US5500905A (en) * 1991-06-12 1996-03-19 Microelectronics And Computer Technology Corporation Pattern recognition neural network with saccade-like operation
US5542006A (en) * 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition

Also Published As

Publication number Publication date
CA2192023C (en) 2000-04-04
DE69626182D1 (de) 2003-03-20
EP0780782A3 (en) 1998-07-08
DE69626182T2 (de) 2003-11-13
CA2192023A1 (en) 1997-06-23
EP0780782A2 (en) 1997-06-25
US5768414A (en) 1998-06-16
EP0780782B1 (en) 2003-02-12

Similar Documents

Publication Publication Date Title
US6807304B2 (en) Feature recognition using loose gray scale template matching
EP2275974A2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US6335986B1 (en) Pattern recognizing apparatus and method
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
JP4006224B2 (ja) 画像品質判定方法、判定装置、判定プログラム
US6014450A (en) Method and apparatus for address block location
US7233697B2 (en) Character recognition device and a method therefor
US20050271275A1 (en) Text character identification system and method thereof
US5915039A (en) Method and means for extracting fixed-pitch characters on noisy images with complex background prior to character recognition
US20110134458A1 (en) Printed matter examination apparatus, printed matter examination method, and printed matter examination system
JPH0721319A (ja) 自動アジア言語決定装置
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP2000132690A (ja) ト―クン化によるイメ―ジ分割を用いたイメ―ジ処理方法および装置
JPH1027214A (ja) 光学式文字認識コンピュータにおける接触文字の分離方法及び装置
US20030012438A1 (en) Multiple size reductions for image segmentation
EP0676891A2 (en) Method of thresholding document images
US6272238B1 (en) Character recognizing method and apparatus
US7149352B2 (en) Image processing device, program product and system
EP0949580B1 (en) Classification-driven thresholding of a normalized grayscale image
US8229214B2 (en) Image processing apparatus and image processing method
US8787660B1 (en) System and method for performing automatic font definition
JP2700131B2 (ja) パターン認識方法
Chakraborty et al. Marginal Noise Reduction in Historical Handwritten Documents--A Survey
Sherkat et al. Use of colour for hand-filled form analysis and recognition
JPH08272902A (ja) 異字体異品質文字の認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20031216

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060912