JP2643294B2 - 辞書作成方法 - Google Patents

辞書作成方法

Info

Publication number
JP2643294B2
JP2643294B2 JP63121116A JP12111688A JP2643294B2 JP 2643294 B2 JP2643294 B2 JP 2643294B2 JP 63121116 A JP63121116 A JP 63121116A JP 12111688 A JP12111688 A JP 12111688A JP 2643294 B2 JP2643294 B2 JP 2643294B2
Authority
JP
Japan
Prior art keywords
dictionary
pattern
frequency
feature point
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63121116A
Other languages
English (en)
Other versions
JPH01291390A (ja
Inventor
啓介 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Original Assignee
Meidensha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp filed Critical Meidensha Corp
Priority to JP63121116A priority Critical patent/JP2643294B2/ja
Publication of JPH01291390A publication Critical patent/JPH01291390A/ja
Application granted granted Critical
Publication of JP2643294B2 publication Critical patent/JP2643294B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明は文字や図形等のパターンを認識するために用
いられる辞書を作成する方法に関するものである。
B.発明の概要 本発明は、文字や図形等のパターンを認識するために
用いられ、前記パターンの照合の対象となる辞書を作成
する方法において、 パターンの特徴点の位置関係を表現するためにあいま
い集合(ファジイ集合)の概念を取り入れ、メッシュ領
域を割り当てて各メッシュ毎に特徴点の出現頻度を求め
ると共に、これを正規化して2次元のファジイ集合のメ
ンバーシップ値として辞書に登録することによって、 辞書を自動的に生成することができ、しかも辞書登録
のためのマニュアル作業時間を短縮することができ、更
に記憶容量の低減化を図ることができるようにしたもの
である。
C.従来の技術 文字や図形等のパターンを認識する場合、例えば、書
類や図面等をイメージスキャナ等の入力装置で操作して
得られる黒と白の2値画像データ(入力パターン)に基
づいて、予め記憶されている文字や図形の標準パターン
(辞書パターン)と位置等を照合し、辞書パターンの中
から最も重なり合うものを最終的に認識結果として求め
ている。
認識方法の具体例として、例えば、入力パターンと辞
書パターンをそれぞれ小さな正方格子状(メッシュ)に
区切り、格子点が文字や図形である場合には黒(1)、
そうでないときは白(0)と表す場合において、入力と
辞書の2つのパターンの重なりの程度をハミング距離を
用いて求めることができる。これは、入力と辞書が黒と
黒または白と白の場合には0、黒と白または白と黒の場
合には1とおき、その総和を求めるものである。つま
り、黒と黒、白と白のように重なり合っていればいるほ
ど、その総和(ハミング距離)が小さくなる。この性質
により、多数の辞書パターンの中から入力パターンと最
も重なり合っているもの、すなわち、ハミング距離が最
も小さいものを認識結果とするものである。
D.発明が解決しようとする課題 この方法だと入力パターンの位置が辞書パターンの位
置とずれていたり、大きさが異なっていたり、傾きが異
なっていたりすると、重なりの程度が変わってしまい、
認識の誤りが生じやすい欠点がある。
また、記憶容量の点でも問題がある。1文字あるいは
1図形パターンの必要空間は表示のための文字フォント
のように8×8画素(英数字)や24×24画素(漢字)の
空間では済まず、線の切れやつぶれを極力避けるため少
なくともその3〜5倍の空間を必要とする。特に、漢字
や複雑な図形の場合128×128画素程度以上確保しないと
安定な処理が望めないことになる。
文字や図形パターンの辞書種別は漢字の場合第二水準
を含めると6000字種以上に及び、図形の場合でも多いと
きには1000字種以上になる。
このような膨大な辞書種別に対して、1辞書毎に128
×128画素を確保するとすれば、メモリとして2Kバイト
が必要となる。つまり、先の漢字では12Mバイト以上、
図形で2Mバイト以上もの記憶領域が必要となる。
ハードウエア構成上この容量は無視できないほど大き
く、また、辞書の探索や整合処理にも処理時間などで影
響を与えることになる。
更に、辞書種別の点からいえば、上述の膨大な種別に
ついてひとつひとつ辞書をマニュアルで登録する作業が
必要とされており、そのための作業時間も膨大となる問
題点がある。
以上まとめると、従来技術には以下の大きな3つの課
題が残されている。
認識精度の高い認識手法の確立 記憶容量低減のための辞書構成方法の確立 辞書の自動生成方法の確立 本発明は、このうち特にの問題点の解決に主眼をお
いたものである。
E.課題を解決するための手段 文字や図形パターンは人間の歴史的または経験的規則
に従って記述された位置関係にあるが、パターンを特徴
づける点(特徴点)そのものはあいまい性を有してい
る。
例えば、第3図aの○印で示す文字“A"の代表的な特
徴点の場合(これを頂点と呼ぶものとする)、頂点の位
置そのものは他の特徴点からみて左に振れたり(同図
b)、右に振れたり(同図c)する。また、頂点のとこ
ろで切れたり(同図d)もする。
しかし、同図eのように、頂点の部分だけが他の特徴
点より下の方に位置することはありえない。
結局、文字“A"の頂点というものは、他の特徴点より
位置関係でいうと上の方でかつまん中付近にある、とい
う極めてあいまいな尺度で規則性を持っているというこ
とになる。
本発明は、このように文字や図形パターンの特徴点の
位置関係にあいまい性があることを考慮して、その位置
関係をあいまい集合(ファジイ集合)の概念を取り入れ
て表現し、これを辞書に登録しようとするものである。
第1図に本発明方法のフローを示すと、先ずあるパタ
ーンに対して多数のサンプルを作成しノイズ処理等の前
処理を行った後、各サンプルにおけるパターンの特徴点
を抽出する。そしてパターンが描かれる平面領域にm×
n個(m,nは整数)のメッシュ領域を割り当てると共
に、このメッシュ領域内の各メッシュ毎に前記特徴点の
出現回数である出現頻度を求めて、メッシュ領域に対応
する出現頻度分布を作成する。次いで前記出現頻度分布
上の各頻度を基準頻度を用いて正規化し、この正規化し
た値を2次元のファジィ集合のメンバーシップ値として
辞書に登録する。
F.実施例 本発明方法の具体的手順を以下に説明する。
(1)辞書作成準備 辞書を作成するため、同一の文字、または、図形に対
して複数のサンプルを準備する。
それらはあるひとつの辞書を作成するときの辞書作成
用パターンとなる。
(2)特徴点出現頻度分布(2次元ヒストグラム)の作
成 サンプルを繰り返し入力して、それぞれ特徴点を抽出
する。
辞書空間と同じm×n(m,nは整数)のメッシュ空間
をとり、第2図に示すようにそれらの特徴点が出現する
頻度を分布させる。
例えば、辞書空間が10×10のメッシュ空間であると
き、ヒストグラムも10×10のメッシュ空間を取る。この
とき、ある特徴点の位置がz(x,y)=(5,3)と得られ
た場合には、ヒストグラム上の位置Z(5,3)の頻度に
1を加えたものとなる。
特徴点位置をz(x,y)とすれば、2次元ヒストグラ
ム上で対応する位置Z(x,y)における頻度P(x,y)
は、次式で示される。
P(x,y)=P(x,y)+1 (P(x,y)の初期値0) (3)2次元ファジイ集合におけるメンバーシップ値の
定義と辞書の作成 上で求めた特徴点出現頻度分布は、特徴点がどの様な
位置に出現しやすいかという傾向を示している。つま
り、同一の文字、または、図形に対して、複数のサンプ
ルによる頻度分布を取ると、似通った位置に特徴点が出
現しやすく、その付近にピークが存在することが多いこ
とを示している。
このことから逆に、ピーク位置を抽出することで特徴
点位置を推定することができる。
本発明は、この考え方をファジイ集合におけるメンバ
ーシップ値の設定に応用したものである。
さて、頻度分布は、ひとつのパターンに対するサンプ
ル数が多ければ多いほど、全体の頻度が高くなり、客観
的な判断をすることがむずかしくなるため、頻度分布の
正規化が必要である。
一方、ファジイ集合におけるメンバーシップ値は、あ
いまいな尺度のものを[0,1]区間の実数領域における
主観的な量として表現したものである。
メンバーシップ値の定義は、[0,1]区間の実数領域
をヒントに、また、特徴点が頻度分布のピークに対応す
る場合が多いことをヒントにしている。
つまり、頻度分布のピーク値は特徴点位置というあい
まいな尺度を示す指標となりうるため、0〜1の実数区
間で正規化すればそのまま2次元のファジイ集合に関す
るメンバーシップ値として用いることができることにな
る。
そこで、特徴点出現頻度の正規化と辞書への登録を次
のように行う。
特徴点出現頻度を横軸に取り、その頻度が現れる回数
(頻度)を縦軸に取った1次元ヒストグラム(頻度分
布)を考えるものとする。
この1次元ヒストグラムにおいて基準点を設け、基準
点の右側に占める割合がほぼ一定となるようにとれば、
右側に分布する特徴点出現頻度は特徴点として期待の高
いものである。すなわち、基準点以上の頻度を取るもの
はメンバーシップ値を1.0としてさしつかえないと考え
る。
但し、実際には、こうしたヒストグラムは取らず、次
のようにして簡単に基準点を求めている。
全サンプルの特徴点数をKとしたとき、ある一定の割
合Ckを乗じたものを基準点までのピーク数kとして求め
る。
k=Ck・K 次に、特徴点出現頻度分布において、頻度の大きいも
のから順に捜していき、k番目の頻度の値を取るものを
求め、これを基準点の頻度Pkとする。
Pkをもとに、特徴点頻度分布を次式により正規化を行
う。
分布上の頻度をP、正規化後の頻度をMとすれば、 M=1.0…P≧Pkのとき P/Pk…P<Pkのとき 分布上の全ての頻度について行うことで、正規化した
結果が得られる。この結果は、0〜1区間にあり、2次
元のファジイ集合におけるメンバーシップ値として辞書
に登録する。
以上で、ひとつのパターンに対する辞書作成手続きが
終了する。
このようにして得られたデータの一例を図示すると、
第4図は文字「A」の特徴点頻度分布を示す図、第5図
は第4図に示す分布を正規化したものを示す図であり、
この例ではある領域に9×9のメッシュ空間をとり、文
字「A」の最上端の位置を特徴点としたものである。な
お図中i,jは夫々x方向,y方向のメッシュ位置を示す。
(4)複数パターン辞書作成 複数のパターンを取り扱う場合は、(1)〜(3)を
繰り返せばよい。
次に本発明方法を実行するための回路について述べる
と、第6図に示すように文字や図形等のサンプルパター
ン1に対して走査回路2により走査が行われ、次いでそ
の走査結果に対してノイズ処理や大きさの正規化といっ
た前処理が前処理回路3により施される。なお走査回路
2はコントローラ6の制御の下に多数のサンプルについ
て走査を行う。前処理回路3から出力されたデータは特
徴点抽出回路4に入力され、特徴点抽出回路4は特徴点
を抽出し、その位置を正規化して特徴点出現頻度分布作
成器5に出力すると共に、特徴点数を特徴点数カウンタ
回路7に渡す。特徴点出現頻度分布作成器5では、特徴
点抽出回路4によって得られる特徴点出現位置にもとづ
き、一時記憶メモリ50に記憶された頻度をカウントアッ
プして特徴点出現頻度分布を作成する。コントローラ6
は、辞書のサンプル数によって走査回路2への入力を繰
り返し、特徴点出現頻度分布の作成処理をコントロール
すると共に、作成処理終了後基準頻度検出回路8に処理
を進める。基準頻度検出回路8では、特徴点数カウンタ
回路7から得られる全特徴点数とコントローラ6から与
えられる設定値により、基準頻度を求めるためのピーク
数を決定し、そのピーク数をもとに一時記憶メモリ50に
記憶されている特徴点出現頻度分布からピーク頻度を順
次大きいものから読み出すとともに、与えられたピーク
数に達した頻度を基準頻度として検出する。続いて基準
頻度検出回路8における処理が終了した後、特徴点出現
頻度分布正規化回路9により、一時記憶メモリ50に記憶
されている特徴点出現頻度分布に対して、基準頻度検出
回路8で検出された基準頻度を用いて頻度分布の正規化
処理を行うとともに、正規化された頻度分布をメンバー
シップ値として2次元ファジイ辞書51に記憶する。
G.発明の効果 本発明によれば、文字や図形等のパターンの特徴点の
出現頻度分布を、多数のサンプルを用意することにより
作成し、この出現頻度分布の各頻度を正規化して、その
値をメンバーシップ値として登録するようにしているた
め、辞書を自動的に作成することができると共に辞書登
録のためのマニュアル作業が大幅に低減し、また入力パ
ターンの位置や傾きにばらつきがあっても認識の誤りが
生じにくい。
更に辞書空間としては、表示のための文字フォントの
1.2倍〜1.5倍程度のメッシュ空間があれば十分認識でき
る。例えば英数字の場合9×9程度、複雑な漢字の場合
32×32程度のメッシュ空間で済む。そして例えばメンバ
ーシップ値を、0〜1までを0.1で刻んだ値により表現
した場合、データ表現としては0〜10の整数で持てばよ
いから4ビットで構成することができる。従ってメモリ
量としては漢字1文字当たり32×32×4ビット=512バ
イトとなり、従来必要であった2Kバイトと比較して1/4
程度で済み、記憶容量の低減化を図ることができる。
【図面の簡単な説明】
第1図は本発明方法のフローを示すフローチャート、第
2図は特徴点出現頻度分布を示す分布図、第3図は特徴
点のあいまい性を示す説明図、第4図は特徴点出現頻度
分布を示すデータ図、第5図は正規化後の特徴点出現頻
度分布を示すデータ図、第6図は辞書作成回路を示すブ
ロック図である。 1……入力パターン、2……走査回路、3……前処理回
路、4……特徴点抽出回路、5……特徴点出現頻度分布
作成器、6……コントローラ、7……特徴点数カウンタ
回路、8……基準頻度検出回路、9……特徴点出現頻度
分布正規化回路。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文字や図形等のパターンを認識するために
    用いられ、前記パターンの照合の対象となる辞書を作成
    する方法において、 あるパターンに対して多数のサンプルを作成し、各サン
    プルにおけるパターンの特徴点を抽出し、 パターンが描かれる平面領域にm×n個(m,nは整数)
    のメッシュ領域を割り当てると共に、このメッシュ領域
    内の各メッシュ毎に前記特徴点の出現回数である出現頻
    度を求めて、メッシュ領域に対応する出現頻度分布を作
    成し、 前記出現頻度分布上の各頻度を基準頻度を用いて正規化
    し、この正規化した値を2次元のファジィ集合のメンバ
    ーシップ値として辞書に登録することを特徴とする辞書
    作成方法。
  2. 【請求項2】各メッシュの出現頻度の合計値に設定値を
    乗じて整数値kを求め、前記出現頻度分布において出現
    頻度の大きいものから順に数えて前記k番目の出現頻度
    を基準頻度として求め、この基準頻度を用いて出現頻度
    分布上の各頻度を正規化する請求項1記載の辞書作成方
    法。
JP63121116A 1988-05-18 1988-05-18 辞書作成方法 Expired - Lifetime JP2643294B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63121116A JP2643294B2 (ja) 1988-05-18 1988-05-18 辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63121116A JP2643294B2 (ja) 1988-05-18 1988-05-18 辞書作成方法

Publications (2)

Publication Number Publication Date
JPH01291390A JPH01291390A (ja) 1989-11-22
JP2643294B2 true JP2643294B2 (ja) 1997-08-20

Family

ID=14803281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63121116A Expired - Lifetime JP2643294B2 (ja) 1988-05-18 1988-05-18 辞書作成方法

Country Status (1)

Country Link
JP (1) JP2643294B2 (ja)

Also Published As

Publication number Publication date
JPH01291390A (ja) 1989-11-22

Similar Documents

Publication Publication Date Title
Munson Experiments in the recognition of hand-printed text, part I: character recognition
Pavlidis A vectorizer and feature extractor for document recognition
US5048099A (en) Polygon-based method for automatic extraction of selected text in a digitized document
JP3027321B2 (ja) 拘束のない手書き英数字のオンライン認識の方法及び装置
JP3618796B2 (ja) パターン認識方法および装置
CN114529925B (zh) 一种全线表表格结构识别方法
JPH0772905B2 (ja) 記号列の認識方法
JPH05500284A (ja) ディジタル化紙準拠式書式からの本文及び図形成分の自動分類のための多角形準拠式技法
EP0279156A2 (en) Apparatus and method for vectorization of incoming scanned image data
O***llah et al. Structural feature based approach for script identification from printed Indian document
JP2853168B2 (ja) パターン認識装置
JP2643294B2 (ja) 辞書作成方法
Anami et al. Combined Hu moments, orientation knowledge, and grid intersections feature based identification of Bharatanatyam mudra images
JP2643293B2 (ja) 辞書作成方法
JP2853169B2 (ja) パターン認識装置
JP2853167B2 (ja) パターン認識用辞書作成装置
Frischknecht et al. A raster-based approach for the automatic interpretation of topographic maps
CN117095423B (zh) 一种银行单据字符的识别方法及装置
Dhanikonda et al. Research Article An Efficient Deep Learning Model with Interrelated Tagging Prototype with Segmentation for Telugu Optical Character Recognition
JPS5814709B2 (ja) 閉図形の形状認識方式
Chaudhuri et al. A Novel Rough Set based Technique for Character Spotting on Inscription Images
CN114299526A (zh) 手写棋谱录入方法及设备
JP2918363B2 (ja) 文字分類方法及び文字認識装置
Sarfraz et al. Towards automatic recognition of fonts using genetic approach
Ahmed et al. A novel intelligent system for defining similar symbols