JPH02116987A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH02116987A
JPH02116987A JP63269365A JP26936588A JPH02116987A JP H02116987 A JPH02116987 A JP H02116987A JP 63269365 A JP63269365 A JP 63269365A JP 26936588 A JP26936588 A JP 26936588A JP H02116987 A JPH02116987 A JP H02116987A
Authority
JP
Japan
Prior art keywords
character
line
reference line
characters
inclination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63269365A
Other languages
English (en)
Inventor
Kaoru Suzuki
薫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63269365A priority Critical patent/JPH02116987A/ja
Priority to US07/321,268 priority patent/US4998285A/en
Priority to EP19890302416 priority patent/EP0332471A3/en
Publication of JPH02116987A publication Critical patent/JPH02116987A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) この発明は文字行を含む文書などから文字行を切出し、
その文字行の傾きを検出する操作を行なう文字認識装置
に関する。
(従来の技術) 各種文書に記載された文字を自動読取りする文字読取装
置では、文書中から各文字を切出してパターン認識技術
に基づいて各文字を認識する文字認識装置が使用される
その種の文字認識装置は、人カバターンと予め用意され
た辞書との間のパターン照合処理を基本とするものであ
った。
しかしながら、人カバターンが傾いていると、正しいカ
テゴリの辞書パターンをあてはめても類偏度が十分大き
くならないため、誤ったカテゴリと対応付けられること
があり、このために認識率が低下するという問題点があ
った。
また、自由書式の文書を読取るためには、縦書き、横書
き、斜め書きなどに対処することが必要となるが、この
際にも文字行の回転を検出する必要があった。
さらに、文字パターンだけでは識別できない文字、例え
ばrsJとrsJ、「、」と「°」、「つ」と「っ」の
ような文字については、その大きさや位置についての評
価が必要であるが、この際にも文字行の傾きが補正され
ていれば、評価の基準を文字パターンの上端、下端位置
に基づいて設定できるため、便利である。
従って、高度の文字認識装置を実現するためには、文字
行の傾きを検出することが重要な課題となる。
そこで、例えば、特開昭61−160180号に示され
るように、文字列を構成するパターン列を複数方向から
投影して得られる複数の1次元ヒストグラムより当該文
字列の傾きを求める方式も提案されている。
しかしながら、この方式では、パターン列を構成する全
ての画素を対象としなければならないこと、傾き検出の
精度を向上させるためには、多くの方向についてヒスト
グラムを作成、分析しなければならないことなどにより
、精度の向上を図ろうとすると処理コストが著しく増加
する傾向があった。
また、例えば、特公昭61−2995号に示されるよう
に、文字列ブロックのぼかしパターンを最小2乗近似し
て得られる直線の傾きを文字列の傾きとする方式も提案
されている。
しかしながら、この方式では、ぼかしパターンを使用す
ることにより文字列を構成する文字の大きさのばらつき
の影響を除くことには成功するが、ぼかしパターンを用
いるため、傾き検出の精度が上がらないという問題点が
あった。
(発明が解決しようとする課題) このように、従来の文字行の傾き検出が可能な文字認識
装置では、傾き検出の処理コスト低減と高精度との両立
が図れないという問題点があった。
この発明は、このような従来の問題点に鑑みてなされた
もので、文字行の傾き検出に十分な精度があり、かつそ
のための処理コストも低いものとすることのできる文字
認識装置を提供することを「1的とする。
[発明の構成] (課題を解決するための手段) この発明の文字認識装置は、文字行を含む画像データの
入力手段と、この入力手段の画像データから文字行を抽
出する文字行抽出手段と、この文字行抽出手段の抽出し
た文字行から各文字を切出す文字切出し手段と、この文
字切出し手段が切出す各文字についてその特定の位置を
通る任意の直線を想定し、この直線を規定するパラメー
タの組についてパラメータ空間上のヒストグラムを求め
、ヒストグラムの最開度を与えるパラメータの組が規定
する直線を基準線として抽出すると共に−その基準線の
傾きを文字行の傾きとする基準線抽出手段とを備えたも
のである。
また、前記基準線抽出手段として、Hough変換によ
り文字行の基準線を抽出するものを用いることができる
さらに、前記基準線抽出手段として、各文字の下端部を
代表する点を用いて基準線を抽出し、それをベースライ
ンとするものを用いることができる。
(作用) この発明の文字認識装置では、文字行抽出手段により文
字行を含む画像データから文字行を切出し、文字切出、
し手段により切出された文字行から各文字を切出し、さ
らに基準線抽出手段により、切出された各文字に関連す
る特定の位置を通る直線を想定し、この直線の取り得る
パラメータについてパラメータ空間上のヒストグラムを
求め、このヒストグラムに基づいて当該文字行の傾きを
抽出することができる。
また、この発明の文字認識装置では、基■線抽出手段に
Hough変換手段を利用し、各文字の特定の位置を代
表する点を通る任意の直線についてこのHo u gh
変換によりパラメータの組を求め、パラメータ空間上で
各文字の代表点ごとにその点を通る直線についてのパラ
メータの組のヒストグラムを求め、このパラメータ空間
上のヒストグラムの最頻度を与えるパラメータの組を基
準線として抽出し、その傾きを求めることができる。
さらに、この発明の文字認識装置では、基準線抽出手段
により各文字ごとの下端部の位置について基準線を抽出
し、それをベースラインとすることができる。
(実施例) 以下、この発明の実施例を図に基づいて詳説する。
第1図はこの発明の一実施例を示しており、入力手段1
と、この入力手段1からの画(象データをもとに文字行
を抽出する文字行抽出部2と、抽出された文字行から各
文字を切出す文字切出し部3と、文字行の基準線とその
傾きを抽出する基準線抽出部4と、この基準線抽出部4
において得られた基準線をもとに各文字の種類を分類す
る分類部5と、文字パターンの認識部6と、この文字パ
ターン認識部6におけるパターン認識のための文字分類
区分別パターン照合用辞書7と、出力手段8とで構成さ
れている。
上記の構成の文字認識装置の動作について、次に説明す
る。
前記入力手段]は、例えばラインイメージセンサを備え
たスキャナにより構成され、読取るべき文書を読取って
、文書画像データを出力する。
前記文字行抽出部2は、入力手段1から与えられた文書
画1象データから、例えば黒画素を横方向へ延長してつ
ながる部分は1つの文字行であるとラベリングし、その
文字行を抽出する。
前記文字切出し部3は、上記の文字行抽出部2で抽出さ
れた文字行から各文字を、黒画素の連続している部分を
1文字としてラベリングして切出し、各文字についてそ
の文字パターンとその外接矩形とを別々に出力する。
前記基準線抽出部4では、後に詳説するように一連の文
字外接矩形から、文字行の傾きと基準線を抽出する。
分類部5は、基準線抽出部4により抽出された基準線に
対する各外接矩形の°位置と大きさとに基づいて文字を
分類する。
パターン認識部6は、必要な場合には文字の傾きを補正
した後、各文字の上記分類部5による分類結果に基づき
、文字分類区分別パターン照合用辞書7のうちパターン
照合に使用すべき辞書パターンを選択して、文字切出し
部3で切出された文字パターンとの間でパターン照合処
理を行ない、この照合処理により得られた認識結果を出
力手段8を介して出力する。
次に、基準線抽出部4と分類部5との動作について、さ
らに詳細に説明する。
これらの各部4.5において、入力文字が第2図に示す
ように10個のカテゴリに分類される。
すなわち、基帛文字11、アセンダ文字12、デイセン
ダ文字13、上下突出文字14、上付き微小文字15、
下付き微小文字16、中央付近微小文字17、巨大文字
18、上付き文字19、下付き文字20010個に分類
されるのである。
そのために、基準線抽出部4は、1文字行分の文字外接
矩形を入力として、第3図に示す処理に従って各文字を
前記10個のカテゴリに分類するのに必要な大きさの基
準と基弗線とを求める。
まず下端ボーティングステップ31では、各文字の特定
位置としてのF端位置を代表する点をその外接矩形の左
下端とし、この点を通る全ての直線を各々定義するパラ
メータを求める。
つまり、第4図に示すように任意の直線りを定義するパ
ラメータの組(θ、ρ)は、次式で与えられる。
ρ−x”cosθ+y*sinθ (θ : 0 ≦ θ ≦ 2 π) そこで、θとρとの組によって張られるパラメータ空間
を定義し、各代表点についてθに応じたρを11算し、
このθとρとの組により指定されるパラメータ空間上の
点の値を1増やすこと、つまリHoughボーティング
を行なう。尚、このとき、θの値がある狭い範囲に限定
されるならば、計算量を大幅に削減できる。例えば、文
字行がほとんど水平に近い場合には、θの値の範囲はπ
/2付近に限定できる。
1文字行中の全ての文字について、以上の操作を行なう
と、ある直線についてそのパラメータにより指定される
パラメータ空間上の点の持つ度数は、その直線の通過す
る代表点の数に等しくなる。
すなわち、多くの代表点を通過する直線はどその直線に
対応したパラメータ空間上の点の度数が高くなるのであ
る。
Houghボーティング後のパラメータ空間の例を第5
図に示すと、同図(b)の曲線Q+、Q2、Q3.Q4
それぞれは同図(a)における代表点R+  (x+ 
、)’l )、R2(X2.V2)。
R3(X3.y3)、R4(X4.Y4)それぞれにお
ける直線を規定するパラメータ(θ、ρ)の組の描く軌
跡である。そこで、xy空間中の代表点R,,R2、R
3、R4についてこの曲線、を求めると、パラメータ空
間上で互いに交差する点P I 、R2+  R3が現
れるが、これらはxy空間で複数の代表点を通る共通の
直線があることを示しており、パラメータ空間上で2本
の曲線が交差する場合にはxy空間上で2つの代表点の
間に共通の直線があることを示し、パラメータ空間上で
3本の曲線が同一点で交差する場合にはxy空間上で3
つの代表点の間に共通する直線があることを示している
従って、第5図の場合、パラメータ空間上の交点P1は
、曲線Q+ 、Q2 、Q:]の3本の曲線が交差して
いる点てあり、xy空間上で3つの代表点R,,R2、
R3を通る共通の直線り、が存在することを示している
。またパラメータ空間上の交点p2.p3.p4はそれ
ぞれ曲線Q3とQ4、曲線Q2とQ4、曲線Q+ とQ
4がそれぞれ交差する点であり、xy空間上の代表点R
3とR4、代表点R2とR4、代表点R1とR4それぞ
れを通る共通の直線L2.L3.L4が存在することを
示している。
従って、xy空間上で多くの代表点を通過する共通の直
線が存在する場合、パラメータ空間上では多くの曲線が
同時に交差する1点が存在することになる。
そこで、乗用推定ステップ32では、座標系に対する文
字行の傾き角(重色)の値とベースラインを推定する。
一般に文字行の傾きに一致した重色をもつ直線が最も多
くの代表点を通過すると考えられるので、パラメータ空
間上で最大度数を持つ点を発見し、その点のθの値を求
めることにより文字行の傾きを推定するのである。
特に英文の場合には、最も出現頻度の高いアセンダ文字
と基準文字とがその下端を共有するので、最大度数を持
つ点により与えられる直線はこれらの文字種の下端をな
ぞるベースラインであると考えることができる。このこ
とにより、まず下端に関するHoughボーティングを
行なうのである。
例えば、第5図に示した例の場合には、3つの曲線が交
差する点P1が最も度数の高い点であり、その座標(θ
ず、ρI)から文字行の傾きとベースラインの式を得る
ことができる。このベースラインと文字行の傾きとの関
係は第6図に示すようになる。
次に傾き補正ステップ33を行なうが、これは文字外接
矩形の高さ位置を文字行の傾きと矩形の横位置によって
決まる量だけ高さ方向にシフトさせる補iEであり、こ
の操作により文字行は水(1悄こ補正される。そして、
以後の処理は傾き補IE文字行について行なわれる。
文字クラスタリングステップ34では、入力文字外接矩
形の上下幅、上端高さ位置、下端高さ位置それぞれの傾
き補正後の値について、同様の性質を持つ文字同士をま
とめて1つのクラスとする。
続いて、各クラスをその構成文字の下端がベースライン
より上方に位置するグループ1、ベースライン上に位置
するグループ2、ベースラインより下方に位置するグル
ープ3の3つに分類する。
この結果、グループ1には上付き微小文字、中央付近微
小文字、上付き文字が含まれ、グループ2には基僧文字
、アセンダ文字、下付き微小文字の一部、巨大文字が含
まれ、グループ3にはデイセンダ文字、上下突出文字、
下付き微小文字の一部、巨大文字、下付き文字が含まれ
ることになる。
第8図を参照して、次のLMIN推定ステップ35では
、前記グループ2に属する文字の上下幅の平均を求めて
、この値のa%(a>100%)の大きさLMINを巨
大文字の上下幅を最小値とする。従って、入力文字中に
このLMIN以上の上下幅を持つ文字があれば、それを
巨大文字と決定する。
SMAX推定ステップ36では、前記グループ2に属す
る文字のうち巨大文字を除く文字の上下幅の平均を求め
て、この値のb%(b、100%)の大きさSMAXを
微小文字の上下幅の最大値とする。従って、入力文字行
中に上下幅がこの値以下のものがあれば、それを微小文
字と決定する。
ANライン推定ステップ37では、巨大文字と微小文字
を除くグループ2の文字クラスを基僧文字とアセンダ文
字に分解する。巨大文字と微小文字を除くグループ2の
文字の上端高さ位置の平均を求め、この値を基準文字と
アセンダ文字とを分ける水平な基準線ANの高さとする
。もし、巨大文字と微小文字を除くグループ2の文字が
唯1つのクラスから成る場合には、ANを文字行の最上
端の高さ位置と定義する。
DNライン推定ステップ38では、巨大文字と微小文字
とを除くグループ3の文字の下端高さ位置のうち最も上
にあるものの値とベースラインBの高さ位置との平均を
求め、この値を基中文字とデイセンダ文字とを分ける水
平な基準線DNの高さとする。もし、巨大文字と微小文
字を除くグループ3の文字が存在しない場合には、DN
を文字行の最下端の高さ位置に定義する。
Nライン推定ステップ39では、巨大文字と微小文字と
を除くグループ2の文字のうち、その上端がANライン
以下に位置する文字を選択し、その上端高さ位置のうち
最も度数の多いものを基準文字ラインNの値とし、この
NとベースラインBとの間の距離をTMAXとする。
上付き・下付き判定ライン推定ステップ40では、TM
AXの0%(C<100%)の値をXとして、YUをN
から下方にXだけ下がった位置に、またYLをベースラ
インから上方にXだけ上がった位置に各々定義する。さ
らに基準文字ラインNとベースラインBとの中間の線を
文字行の中心線Cとし、YMUを中心線Cから下方にX
だけ下がった位置に、またYMLを中心線から上方にX
だけ上がった位置に各々定義する。
このようにして基準線抽出部4は種々の基準線を定義す
るのである。
次に分類部5の動作について説明する。
この分類部5は基準線抽出部4で求めたLMIN、SM
AX、TMAX、及び9本の基準線、つまりベースライ
ンB、AN、DN、N、YU、YL1中心線CSYMU
1YMLのうちのLM I N。
SMAXSAN、DN、YUSYL、YMUSYMLを
用いて1文字ごとに文字を分類する。
第7図に分類部5のフローチャートが示されているが、
このフローチャートと第8図とを参照して、巨大文字分
類ステップ51ては、入力文字外接矩形の上下幅がLM
IN以上の場合には入力文字を巨大文字と判定する。
微小文字分類ステップ52では、上記巨大文字分類51
に該当しなかった文字について、その外接矩形の上下幅
がSMAX以下の場合には、この文字を微小文字として
上付き、下付き、中央付近のいずれであるかを判定する
。この判定は、以下による。
i、入力文字の上端がYUより上方に、かつ下端がYM
Uより上方にある場合には、入力文字を上付き微小文字
と判定する。
li1入力文字の上端がYMLより下方に、かつ下端が
YLより果報にある場合には、入力文字をした付き微小
文字と判定する。
i i *、上記2つのいずれかにも該当しない場合に
は、入力文字を中央付近微小文字と判定する。
基皇文字分類ステップ53では、上記各分類ステップ5
1.52に該当しない文字について、その上端がAN以
下に位置し、かつ下端がDN以上に位置する場合には、
入力文字を基準文字と判定する。ただし、ANが入力文
字行の最上端に定義されている場合には、このカテゴリ
が基準文字であるのか、アセンダ文字であるのか識別で
きないので、この後に続くパターン認識部6において、
基準文字とアセンダ文字との両方のパターン照合用辞書
7を用いてパターン照合を行なうようにする。
上端突出文字分類ステップ54では、上記分類ステップ
51〜53に該当しない文字について、その上端がAN
より上方に位置し、かつ下端がDN以上に位置する場合
には、この文字を上端が突出している文字であるとして
、アセンダ文字、上付き文字の判別を行なう。この判別
は、以Fに条件により行なう。
i0入力文字の下端がYMU以上に位置する場合には、
入力文字を上付き文字と判定する。
11、上記に該当しない場合には、入力文字をアセンダ
文字と判定する。
下端突出文字分類ステップ55では、上記分類51〜5
4に該当しなかった文字について、そ°の上端がAN以
下に位置し、かつ下端がDNより下に位置する場合には
、この文字を下端が突出している文字であるとしてデイ
センダ文字、下付き文字の判別を行なう。この判別は、
以下による。
1、入力文字の上端がYML以下に位置する場合には、
入力文字を下付き文字と判定する。
11、上記に該当しない場合には、入力文字をデイセン
ダ文字と判定する。
上下突出文字分類ステップ56では、上記分類ステップ
51〜55に該当しなかった文字について、その上端が
ANより上に位置し、かつ下端がDNより下方に位置す
る場合には、この文字を上下突出文字と判定する。
以上の処理により、文字行を構成する各文字はその位置
と大きさに関して上述の10種のカテゴリに分類される
以上で求めた文字分類結果と文字行の傾き情報とは、第
1図のパターン照合部6に与えられる。
パターン照合部6では、必要ならば入カバターンの傾き
を補正した後、文字分類区分別パターン照合用辞書7の
うち、与えられた文字分類結果で示されるカテゴリに対
応した分類区分のパターン照合辞書だけを用いてパター
ン照合を行なう。尚、各分類区分に属する文字の例を以
下に示す。
[基準文字]・・・    raJ、rcJ、reJな
どの背の低い小文字、英記号の一部。
[アセンダ文字]・・・  rAJ、rBJ、rCJな
どの大文字、rbJ、rdJ、rfJなどの背の高い小
文字、数字、記号の一部。
[デイセンダ文字]・・・ rgJ、rpJ、rqJな
どの下に突き出した小文字、英記号の一部。
[上下突出文字]・・・  小文字「j」、及びr/J
、r (J、rl Jなどの英記号の一部。
[上付き微小文字]・・・ 「″」、「”」などの英記
号の一部。
[下付き微小文字]・・・ r、J、r、Jなどの英記
号の一部。
[中央付近微小文字]・・・r−J、r・」などの英記
号の一部。
[巨大文字]・・・    特に大きい文字で、数行に
跨がっているものもある。主に大文字である。
[上付き文字]・・・   通常の位置より上にずれて
印字されている文字。アルファベット、数字、記号を含
む。
[下付き文字]・・・   通常の位置より下にずれて
印字されている文字。アルファベット、数字、記号を含
む。
この結果、当該文字に比べて大きさ、位置の異なる文字
についてのパターン照合処理を省くことができ、形だけ
では難しい文字の区別とパターン照合の省力化を実現す
ることができる。このとき、同じ文字であってもフォン
トの違いなどにより複数の分類カテゴリに属する文字は
、その属する全てのカテゴリのパターン照合用辞書に登
録しておくことが必要である。
尚、この発明は上記の実施例に限定されるものではなく
、次のような実施例も可能である。
例えば、パラメータ空間上のヒストグラムを行の傾きを
検出するためだけに用いてもよく、特、に文字の分類に
のみに利用するのではなく、様々に応用することができ
る。
また、文字行から抽出されたベースラインに基づいて、
行ピッチの検出、行の比較、統合、分類などの処理を行
なうようにしてもよい。すなわち、隣接した2つの文字
行のベースライン同士の距離を求めれば隣接行間の距離
、つまり行ピッチが得られる。一定の行ピッチで連続し
ている箇所については、同一内容が記述されたいると判
断して、その内容を統合することが可能である。また、
行方向に隣接した行のベースライン同士の位置の差やピ
ッチの差が同程度の行についても同一の行に統合するこ
とができる。
さらに、この発明は1行分の情報のみならず、複数行の
情報を用いて同様の処理を行なってもよい。例えば、初
めに1行ないし数行に関して求めた文字行の傾きから、
次回のHough変換のための平角の値の範囲を大幅に
限定できるので、処理時間を節減することができる。
加えて、ベースライン抽出後、傾きを補正しないまま、
外接矩形上端に関するHoughボーティングを行なう
ことによって直接的に残りの基準線を抽出してもよい。
さらに上記実施例ではHough変換により各文字の代
表点における任意の直線を規定するパラメータの組につ
いてパラメータ空間上でヒストグラムを取るようにした
が、他のパラメータ変換法を用いてもよく、数学的な処
理手順は限定されることはない。例えば、第9図(a)
のように各文字の代表点としての外接矩形の左下端点R
IR2、R3、・・・、Rnのn個の点について、各々
2点を結ぶ線分R,R2、R,R3、R,R4。
−、Rn−I Rnの(n−1)/2本をすべて求め、
これらについてそのパラメータ(θ、ρ)を計算する。
そして1、このパラメータの組を同図(b)のようにパ
ラメータ空間上にp、、p2.p3゜・・・、とボーデ
ィングし、パラメータ空間上で最大度数の得られるパラ
メータの組、実施例の場合に1;iP、(θ丁、ρ1)
を見出すことによりベースラインを決定することができ
る。
またさらに、各文字についてその代表点とじて外接矩形
の左下端を用いたのは英字の場合には右上がりの文字が
多く見られるためであるが、この代表点の選び方も特に
限定されることはなく、外接矩形に限らず外接円の最下
端位置や各文字自体の最下端位置などを代表点とするこ
ともできる。
[発明の効果] 以上のようにこの発明によれば、文字画像データから文
字行を抽出し、抽出された文字行から各文字を切出し、
基準線抽出手段により文字行の各文字の特定点における
任意の直線を表わすパラメータの組についてそのパラメ
ータ空間上でヒストグラムを取り、ヒストグラム上の最
頻度を与えるパラメータの組が規定する直線を基皇線と
し、その基準線の傾きを求めるようにしているため、文
字行を含む画像データの収集のために高度な画像入力手
段を用いる必要がなく、比較的少ない画像データから文
字行の傾きを割り出すことができ、処理コストを低く抑
えることがてき、しがちパラメータ空間上でヒストグラ
ムを取って基準線の傾きを最頻度点のパラメータの組か
ら決定するために精度高く文字行の傾きを求めることが
できる。
【図面の簡単な説明】
第1図はこの発明の一実施例のブロック図、第2図は上
記実施例により分類される文字の種類を示す説明図、第
3図は上記実施例における基準線抽出部の処理動作を示
すフローチャート、第4図は上記実施例におけるHou
gh変換のxy座標、θρ座標間の関係を示す説明図、
第5図(a)。 (b)は上記実施例におけるxy座標空間上の直線群と
Hough変換したθρ空間上の曲線群それぞれを示す
説明図、第6図は上記実施例における文字行の傾き抽出
動作を示す説明図、第7図は上記実施例における分類部
の動作を示すフローチャート、第8図は上記実施例にお
ける文字種の分類のための基準線と各文字カテゴリとの
関係を示す説明図、第9図はこの発明の他のパラメータ
変換方法を説明する説明図である。 1・・・入力部     2・・・文字行抽出部3・・
・文字切出し部  4・・・基準線抽出部5・・・分類
部     6・・・パターン認識部・・文字分類区分
別パターン照合用辞書8・・・出力手段

Claims (3)

    【特許請求の範囲】
  1. (1)文字行を含む画像データの入力手段と、この入力
    手段の画像データから文字行を抽出する文字行抽出手段
    と、この文字行抽出手段の抽出した文字行から各文字を
    切出す文字切出し手段と、この文字切出し手段が切出す
    各文字についてその特定の位置を通る任意の直線を想定
    し、この直線を規定するパラメータの組についてパラメ
    ータ空間上のヒストグラムを求め、ヒストグラムの最頻
    度を与えるパラメータの組が規定する直線を基準線とし
    て抽出すると共にその基準線の傾きを文字行の傾きとす
    る基準線抽出手段とを備えて成る文字認識装置。
  2. (2)前記基準線抽出手段は、Hough(ハフ)変換
    により文字行の基準線を抽出することを特徴とする請求
    項1に記載の文字認識装置。
  3. (3)前記基準線抽出手段は、各文字の特定の位置とし
    て各文字の下端部を代表する点を用いて基準線を抽出し
    、これをベースラインとすることを特徴とする請求項1
    または2に記載の文字認識装置。
JP63269365A 1988-03-11 1988-10-27 文字認識装置 Pending JPH02116987A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63269365A JPH02116987A (ja) 1988-10-27 1988-10-27 文字認識装置
US07/321,268 US4998285A (en) 1988-03-11 1989-03-09 Character recognition apparatus
EP19890302416 EP0332471A3 (en) 1988-03-11 1989-03-10 Character recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63269365A JPH02116987A (ja) 1988-10-27 1988-10-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPH02116987A true JPH02116987A (ja) 1990-05-01

Family

ID=17471370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63269365A Pending JPH02116987A (ja) 1988-03-11 1988-10-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPH02116987A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105308A (ja) * 1990-03-12 1995-04-21 Internatl Business Mach Corp <Ibm> 書類上の金額フィールドの位置特定方法および識別方法
US5982952A (en) * 1995-09-28 1999-11-09 Nec Corporation Optical character reader with tangent detection for detecting tilt of image data
JP2009003936A (ja) * 2007-06-21 2009-01-08 Sharp Corp デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JP2009087087A (ja) * 2007-09-28 2009-04-23 Toshiba Corp ナンバープレート情報処理装置及びナンバープレート情報処理方法
US8144989B2 (en) 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
JP2017500662A (ja) * 2013-12-20 2017-01-05 イ.エル.イ.エス. 投影ひずみを補正するための方法及びシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105308A (ja) * 1990-03-12 1995-04-21 Internatl Business Mach Corp <Ibm> 書類上の金額フィールドの位置特定方法および識別方法
JP2575539B2 (ja) * 1990-03-12 1997-01-29 インターナショナル・ビジネス・マシーンズ・コーポレイション 書類上の金額フィールドの位置特定方法および識別方法
US5982952A (en) * 1995-09-28 1999-11-09 Nec Corporation Optical character reader with tangent detection for detecting tilt of image data
JP2009003936A (ja) * 2007-06-21 2009-01-08 Sharp Corp デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
US8144989B2 (en) 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8208725B2 (en) 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
JP2009087087A (ja) * 2007-09-28 2009-04-23 Toshiba Corp ナンバープレート情報処理装置及びナンバープレート情報処理方法
JP2017500662A (ja) * 2013-12-20 2017-01-05 イ.エル.イ.エス. 投影ひずみを補正するための方法及びシステム

Similar Documents

Publication Publication Date Title
KR100658119B1 (ko) 문자 인식 장치 및 방법
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
Antonacopoulos Page segmentation using the description of the background
dos Santos et al. Text line segmentation based on morphology and histogram projection
US5212739A (en) Noise tolerant optical character recognition system
EP0543593B1 (en) Method for determining boundaries of words in text
Boukharouba A new algorithm for skew correction and baseline detection based on the randomized Hough Transform
Shi et al. Text extraction from gray scale historical document images using adaptive local connectivity map
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
CN103034848A (zh) 一种表单类型的识别方法
Shafii Optical character recognition of printed persian/arabic documents
JP3411472B2 (ja) パターン抽出装置
Boukerma et al. A novel Arabic baseline estimation algorithm based on sub-words treatment
Bukhari et al. Layout analysis of Arabic script documents
Le et al. Automated borders detection and adaptive segmentation for binary document images
JPH02116987A (ja) 文字認識装置
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JP2554187B2 (ja) 基本ライン抽出方法
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP2917427B2 (ja) 図面読取装置
JPH06180771A (ja) 英文字認識装置
JP3372005B2 (ja) 文字認識装置
JP3457094B2 (ja) 文字認識装置及び文字認識方法
Fan et al. Italic detection and rectification
Martyshkin et al. Research of the Handwriting Recognition Methods