JPS5880781A - フオント識別方法 - Google Patents

フオント識別方法

Info

Publication number
JPS5880781A
JPS5880781A JP56179225A JP17922581A JPS5880781A JP S5880781 A JPS5880781 A JP S5880781A JP 56179225 A JP56179225 A JP 56179225A JP 17922581 A JP17922581 A JP 17922581A JP S5880781 A JPS5880781 A JP S5880781A
Authority
JP
Japan
Prior art keywords
pattern
italic
character pattern
font
target character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56179225A
Other languages
English (en)
Inventor
Koichi Ejiri
公一 江尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP56179225A priority Critical patent/JPS5880781A/ja
Publication of JPS5880781A publication Critical patent/JPS5880781A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の分野 本発明は光学文字読取(OCR)に関し、特に対抜文字
パターンのフォントが斜体であるか否かを認識するため
の特徴抽出をおこなうフオレト識別方法に関する。
(2)発明の背景 従来より光学文字読取においては文字の認識処理に長い
時間を必要とし、捷だ対象となる文字が傾いているよう
な場合には、隣接する文字との区別(切出し)をおこな
うのが細しい。後者の識別をおこなうための方法として
は特開昭55−41512号に開示された「文字切出し
方式」が知られている。その方法は、簡単に説明すれは
、ある文字パターンの切出しをするためのパターン投影
方向を、文字パターン列の方向に垂直な方向から回転さ
せて、対象文字パターンと隣接する文字パターンとの投
影パターンの切れ目を捜して対象文字パターンを切出す
ようにしたものである。この方法と同様にして、対象文
字パターンの投影方向を回転させて投影パターン長が短
くなる方向を捜すことにより、文字パターンの傾きを判
定し文字パターンのフォントがイタリック(斜体)であ
るか否かを判別できる。す々わち第1図に示すように斜
体で々いフォントの投影長lは投影方向がパターン列方
向に垂直の場合に最短ωm1n)となり、フォントが斜
体の場合には投影方向をある角度に傾けたときに最短と
なるので、投影方向を少しずつ変化させてその毎に投影
長沼を求め、−6−gmlnとなる投影方向からフォン
トを判別できる。しかしながらこのような方法は、投影
方向を変化させて投影長沼を求める、という処理を繰り
返し行なう必要があり、処理時間が長くかかつてしまう
(3)発明の目的 文字のフォントが斜体か否かを短時間で判別し、斜体文
字の認識処理を高速化すること。
(4)発明の要約 上記目的を達成するため本発明においては、対象文字パ
ターンの輪郭画素のうち左下!ll(又は右上9)に連
続する画素の情報について、対象パターンの縦列の各列
毎の画素数に対応する値を求め、それらの値の出現頻度
を参照して対象パターンのフォントが斜体か否かを判別
する。これによれば繰り返し処理を行々わずに済むので
短時間でフォントを判別しうる。
第2a図および第2b図はイタリック体の文字(アルフ
ァベット)Cを、第2c図および第2d図はイタリック
体でない文字Cをそねそれ画素単位(図面中の破線で分
割された大きさ)で黒・白の情報により示した図であり
、そねそれ実線(輪郭の線)の内側が黒を示す。第2a
図〜第2d図に示される黒画素のうち輪郭画素でありし
かも左下りに連続するものに着目し、縦列の番号mと同
一縦列内の行の番号nで画素Cmnを定義すると、イタ
リック体の輪郭左側の画素は第2a図のハツチングを施
した部分のC1l〜C61で表わされる。
同様にイタリック体の輪郭右側の画素は第2b図のC1
1−Cstで表わされ、イタリック体でない文字の輪郭
左側および輪郭右側の画素はそれぞれ第20図のC1z
 −C7+および第2d図のC1l〜C61で表わされ
る。ここで第2a図と第2b図のハラチングを施した画
素Cmnのうちnが°2以上の画素について数値n毎の
画素数Nnを数えてNnと数値nの積Na (第2a図
)およびNb (第2b図)とし、N = Na 十N
bとすると第1表が得られ、同様に第2c図と第2d図
のハツチングを施した画素について第2表が得られる。
第  1  表 □※n=3.4のみのNトータノ岬N−13第  2 
 表 ※n=3.4のみのNトータルTN=6第1表および第
2表から、このようにして得らわるNの値は2≦1]≦
4においてはイタリック体とそうでないものとで大きく
異なることが明らかであり、この数値Nをフォント識別
のための特徴データとしうる。
(5)  発明の実施例 以下、図面を参照して本発明の詳細な説明する。
第3a図に示すパターンを認識する場合について説明す
ると、捷ず第3b図に示すように画素4つに対応する大
きさの正方形の窓Wを想定し、この窓Wをパターンの右
−I一方から走査して窓W内の各部Wl、 W2. W
3およびW4に現わ才する画素の黒・白の情報を読取っ
て処理をおこなう。パターンの輪郭左側の特徴を抽出す
る場合、第3C図に示すようにWl、 W2. W3お
よびW4がそJlそね白、白、白および黒となる寸で窓
Wを走査する。すると寸ず第3d図の位置P】が検知さ
れる。ここでカウントする(nとする)画素は窓WのW
4部分に現われる画素(黒)であり、Plの位置では第
3a図に示すC1lである。Plの位置からCI+の属
する列について窓Wを下に移動させ々から所定画素のカ
ウントをすることに々るが、輪郭左側の画素を切出すた
め次の2つの条件を与える。その1つは窓WのW3が黒
でないこと、もう1つはW3とW4の両者が白でないこ
とである。窓Wを下げて2つの条件が満たされていれば
nをインクリメント(+1)してn≧2の場合に第1表
に示したようなテーブルのそのnの欄のNnをインクリ
メントシ、いずれかまたは両方の条件が渦ださねでいな
い場合にはその列のカウントを終了しnを1にリセット
し、画像の境界に沿って再び窓を走査させる。第3d図
の位置PIから窓Wを一画素分だけ下げると、黒の画素
Celが窓WのW3に現われ1つの条件が満たされなく
なるので窓Wを走査させて次の位置P2を検知する。位
置P2から窓を一画素分だけ下げた場合、W3に現われ
る画素Ce2は白々ので条件が満たされ、nを1から2
にカウントアツプしてテーブルのn二2のNnをインク
リメントする。同様にして窓Wを走査すると第3a図に
示す画素C+ 1% C71がカウントさね、結果的に
前記第1表の輪郭左側の欄と同一の特徴データが得ら牙
する。パターン輪郭右側の特徴を抽出する場合、第4a
図に示すようにWl。
W2. W3およびw4がそれぞれ黒、黒、黒および白
となる位置に窓Wを移動させ、窓WのW3に対応する画
素をカウントする。この場合に輪郭右側の画素を切出す
ため、W4が黒でないことおよびw3とw4の両者が白
でないことの2つの条件を与える。このようにして前記
輪郭左側の特徴を抽出する場合と同様にして処理を行な
うと第4b図に示す画素011〜C61がカウントされ
、結果的に第1表の輪郭右側の欄と同一の特徴データが
得らJする。第5a図および第5b図はそれぞれ上記の
輪郭左側および輪郭右側の特徴抽出処理フローを示すフ
ローチャートである。
このようにして得らねた輪郭左側および輪郭右側の欄の
Nnのそれぞわと数値nの積を求めてNaおよびNl)
とし、そわらの和をNとする(第1表参照)。
次に、特徴データNを使用してフォントの識別を行なう
が、ここではn = 3と4のみのNを加算したトータ
ルの値TNを参照値と比較する。第1表および第2表に
よねばイタリック体のTNは13、そうで々いもののT
Nは6なので参照値TR,をたとえば10に定めて、 
TN≧Tnの場合に対象パターンを斜体文字の候補とし
て、レジスタR1をインクリメントする。ここで、斜体
文字の候補となったパターンをそのt−を斜体文字とし
て判定してもよいが、認識率を高めるため更に次の処理
を行なう。
1ず、対象パターンの上部および下部の重心となるX座
標(横方向) XIおよびX2を求める。これらの処理
はパターン上部3行(3画素)の黒欄およびパターン下
部3行の黒欄を2分する画素単位のX座標を算出するも
のである。第6a図および第6b図はそねそれ斜体文字
のCおよび非斜体文字のCについて座標Xi、 X2を
示したものであり、これらの図を参照すると座標間の差
Xi −X2は斜体文字の場合に2(画素)、非斜体文
字の場合に0である。そこで、次にXl−X2を参照値
2と比較してXl−X2≧2であればレジスタR1をイ
ンクリメントする。更に、対象文字パターンの属する単
語内において対象文字パターンと隣接する文字パタ−ン
のフォントが斜体候補か否かを調べ、斜体であればレジ
スタR1をインクリメントする。以上の処理を行なった
後レジスタR・1の値を調べ、R+1≧2すなわちTN
≧TR,Xl−X2≧2および隣接文字が斜体候補、の
うち少なくとも2つの条件が満たされていれば対象文字
パターンを斜体文字と判定しそうでなけわば非斜体文字
と判定する。第7図はこれら一連の処理フローの概略を
示すフローチャートである。
なお、以上の実施例においてはn、TN等を特定の値に
定めて説明したが、とわらの値は対象文字パターン読取
画素構成、パターンの種類等に応じて任意に変更される
。捷だ、パターン走査は右上シとしてもよい。
(6)発明の効果 以上のとおり本発明によれば、対象パターンの輪郭の情
報から短時間で正確にフォントの斜体・非斜体を識別で
きる。
影方向と投影長の関係を示す平面図、第2a図。
第2b図、第3a図、第3d図、第4b図および第6a
図は斜体文字のアルファベットCをある画素区分で読取
った情報のパターンを二次元平面上に表わした説明図、
第2C図、第2d図および第6b図は非斜体文字のアル
ファベットCを斜体文字の場合と同等の画素区分で読取
った情報のパターンを二次元平面上に表わした説明図、
第3b図。
第3C図および第4a図は実施例において想定する窓W
の概念を示す説明図、第5a図および第5b図はそれぞ
れパターン輪郭の左側および右側から特徴を抽出する処
理フローを示すフローチャート、第7図は1つの実施例
におけるフォント判定の概略の処理フローを示すフロー
チャートである。
W:窓        cel:画素(黒)ce2:画
素(白)Xl:パターン上部重心位置のX座標X2:パ
ターン下部重心位置のX座標 味1図 第2C図     兜2d図 第5a図 崩5b図

Claims (5)

    【特許請求の範囲】
  1. (1)  対象文字パターンの情報を光学的に読取り、
    その情報から文字を判別する光学文字認識において、対
    象文字パターンの輪郭画素であって左下り又は右上りに
    連続する画素に、対象文字パターンの縦列方向で連続す
    る輪郭画素の各縦列において対応位置にあるものの数を
    求め、そわらの数を対象パターンのフォントが斜体であ
    るか否かを判別するための特徴情報とする、フォント識
    別方法。
  2. (2)対象文字パターンの上部の任意数の画素情報より
    パターン上部の横方向重心座標X1を求め、パターン下
    部の任意数の画素情報よりパターン下部の横方向重心座
    標x2を求め、座標X1と座標X2の差の情報を対象パ
    ターンのフォントが斜体であるか否かを判別するための
    もう1つの特徴情報とする、前記特許請求の範囲第(1
    )項記載のフォント識別方法。
  3. (3)  対象文字パターンが属する単語内で対象文字
    パターンに隣接する文字パターンの特徴情報を対象文字
    パターンの7オント識別のために参照する前記特許請求
    の範囲第(1)項又は第(2)項記載のフォント識別方
    法。
  4. (4)対象文字パターンの輪郭画素であって左下り又は
    右上りに連続する画素に、対象文字パターンの縦列方向
    で連続する輪郭画素の各縦列において、輪郭画素に所定
    順に番号nを定め、nのうち特定の番号のものにつき、
    各縦列で同じ番号である画素の数Nnに該画素の番号を
    乗じた値Nを特徴情報とする前記特許請求の範囲第(1
    )項記載のフォント識別方法。
  5. (5)特定の番号を複数個とし、それぞれの番号の画素
    について求めたNの値を加算し、和を特徴情報とする前
    記特許請求の範囲第(4)項記載のフォント識別方法。
JP56179225A 1981-11-09 1981-11-09 フオント識別方法 Pending JPS5880781A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56179225A JPS5880781A (ja) 1981-11-09 1981-11-09 フオント識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56179225A JPS5880781A (ja) 1981-11-09 1981-11-09 フオント識別方法

Publications (1)

Publication Number Publication Date
JPS5880781A true JPS5880781A (ja) 1983-05-14

Family

ID=16062118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56179225A Pending JPS5880781A (ja) 1981-11-09 1981-11-09 フオント識別方法

Country Status (1)

Country Link
JP (1) JPS5880781A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0134997A2 (de) * 1983-07-15 1985-03-27 Siemens Aktiengesellschaft Verfahren zur automatischen Schriftarterkennung ohne Vorwissen über den Textinhalt mit Hilfe einer Beschreibung der Textvorlage durch Deskriptoren
US10706337B2 (en) 2017-02-27 2020-07-07 Kyocera Document Solutions Inc. Character recognition device, character recognition method, and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0134997A2 (de) * 1983-07-15 1985-03-27 Siemens Aktiengesellschaft Verfahren zur automatischen Schriftarterkennung ohne Vorwissen über den Textinhalt mit Hilfe einer Beschreibung der Textvorlage durch Deskriptoren
US10706337B2 (en) 2017-02-27 2020-07-07 Kyocera Document Solutions Inc. Character recognition device, character recognition method, and recording medium

Similar Documents

Publication Publication Date Title
KR910007751B1 (ko) 문자인식방식
US7519226B2 (en) Form search apparatus and method
KR900007009B1 (ko) 문자인식장치
US20120219220A1 (en) Method and system for preprocessing an image for optical character recognition
JPH0420226B2 (ja)
CN106875546A (zh) 一种增值税***的识别方法
JPH02165392A (ja) 多ホント用万能文字区分方法
JPH05242292A (ja) 分離方法
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
DE69813416T2 (de) Vorrichtungen zur Linienrichtungsbestimmung, Bildschrägeerfassung und Bildschrägekorrektur.
JPH0256707B2 (ja)
US4596038A (en) Method and apparatus for character recognition
JPS5880781A (ja) フオント識別方法
CN113408532A (zh) 一种基于多特征提取的药品标签数字识别方法
JP2832928B2 (ja) 文字認識方法
JPH06187489A (ja) 文字認識装置
JP2917427B2 (ja) 図面読取装置
JP3009237B2 (ja) 特徴抽出方法
JPH0252313B2 (ja)
JPH03126188A (ja) 文字認識装置
JPS63131287A (ja) 文字認識方式
JPH06139407A (ja) 文字切出し方法
KR20190087092A (ko) 단계별 윤곽선 특성 분석을 이용한 숫자 인식 방법 및 장치
JPH0262682A (ja) 文字認識方法
Lee et al. Performance improvement techniques for Chinese character recognition