JPH0676061A - パターン認識用辞書作成方法 - Google Patents

パターン認識用辞書作成方法

Info

Publication number
JPH0676061A
JPH0676061A JP4225698A JP22569892A JPH0676061A JP H0676061 A JPH0676061 A JP H0676061A JP 4225698 A JP4225698 A JP 4225698A JP 22569892 A JP22569892 A JP 22569892A JP H0676061 A JPH0676061 A JP H0676061A
Authority
JP
Japan
Prior art keywords
reference patterns
category
pattern
categories
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4225698A
Other languages
English (en)
Inventor
Masayuki Takahashi
雅行 高橋
Kimihiro Sano
公博 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP4225698A priority Critical patent/JPH0676061A/ja
Publication of JPH0676061A publication Critical patent/JPH0676061A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 同一のカテゴリ内だけでなく異なるカテゴリ
間の関係を考慮しながら参照パターンを減少させる手法
と、各カテゴリ毎の参照パターン数の設定を自動で行な
う手法を用いて、認識精度が高く容量の少ない認識辞書
を効率よく作成する。 【構成】 初期辞書作成部1により、予め学習パターン
からカテゴリ内に参照パターンを作成し、参照パターン
がカテゴリ内に複数ある場合、カテゴリ内の参照パター
ンと、異なるカテゴリの参照パターンとの類似性を比較
しながら階層型クラスタリングを行なう。さらに、参照
パターンの減少による認識能力の低下を少なくするた
め、異なるカテゴリが近傍にある参照パターンは併合せ
ず、誤認識に影響の無い参照パターンから逐次併合す
る。また、全てのカテゴリから最も類似した参照パター
ンを選択するので、クラスタリングの停止条件として全
てのカテゴリの参照パターン数の和を設定するのみで、
各カテゴリ毎の参照パターンの個数が自動的に与えられ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、同じカテゴリでも異な
る形状が数多く存在する文字や図形等のパターン認識処
理用の辞書作成方法に関し、特に認識精度が高くかつ容
量の少ない認識辞書を効率よく作成することが可能なパ
ターン認識用辞書作成方法に関する。
【0002】
【従来の技術】従来の文字等のパターン認識方法は、予
め各カテゴリの標準的なパターン(参照パターン)を認
識辞書として用意しておき、認識させたいパターンと各
カテゴリの参照パターンとの類似性をユークリッド距
離、重み付きユークリッド距離等の評価関数を用いて計
算した上で、最も類似性の高いカテゴリを認識結果とし
て出力するものである。また、参照パターンで構成され
る認識辞書には、参照パターンの数がカテゴリ毎に一つ
であるシングルテンプレート辞書と、カテゴリ毎の参照
パターン数が複数であるマルチテンプレート辞書の2種
類がある。このシングルテンプレート辞書は、カテゴリ
毎にいくつかのパターンの相加平均を求め、それを参照
パターンとする。一方、マルチテンプレート辞書は、同
じカテゴリでも異なる形状が数多く存在する場合に用い
られる。例えば、複数フォントの印刷文字の認識辞書の
作成方法としては、各カテゴリ毎にそれぞれのフォント
について参照パターンを作成し、全てのフォントの参照
パターンを用意して認識辞書とする方法があり、この作
成方法による認識辞書により高精度な認識能力が得られ
る。また、手書き文字の認識辞書の場合では、クラスタ
リング手法を用いてマルチテンプレート辞書を作成する
方法が、大倉らの「カテゴリー内クラスタリングによる
多重辞書類似度法の辞書パターン作成の一検討」(信学
論D-11、Vol.J72-D-11、No.4、pp.499-509(1989))にて
提案されている。ここで用いられているクラスタリング
手法は、特徴空間上における距離等の評価基準による二
つの類似したクラスタの選択と、選択したクラスタを新
たな一つのクラスタとする併合を繰返し行なう階層的ク
ラスタリング手法であり、詳細は柳井等による「多変量
解析ハンドブック」(現代数学者1986年刊)に記載
されている。この手法による辞書作成は、予めカテゴリ
毎に設定した参照パターン数になるまで学習パターンの
併合を繰返し、マルチテンプレート辞書を作成する。階
層的クラスタリングは評価基準の相違により数種類ある
が、前記の文献によればWard法が最も優れているこ
とが知られている。
【0003】
【発明が解決しようとする課題】上記従来技術のうちの
シングルテンプレート辞書では、同じカテゴリでも異な
る形状が数多く存在する場合、高い認識精度を得るのは
困難である。一方、参照パターンを数多く用意するマル
チテンプレート辞書では、辞書容量が大きくなり高速に
認識処理を行なうことが難しい。また、辞書容量を減少
させるには階層型クラスタリングが有効であるが、従来
の階層型クラスタリングでは、異なるカテゴリとの関係
を考慮せず単一のカテゴリ内のみで最も類似性の高いク
ラスタを併合するのみであるため、必ずしも認識に適し
た辞書にはならない。つまり、併合を繰り返す度に認識
精度の低下が大きくなるという問題がある。従って、ク
ラスタリングは、カテゴリ内の参照パターンの分布と、
異なるカテゴリの参照パターンとの関係を共に考慮しな
がら行なうベきであると考えられる。さらに、上記階層
型クラスタリングを用いて、参照パターン数を減少させ
る場合では、予めカテゴリ毎に参照パターン数を設定し
ておかなければならず、全てのカテゴリ毎に適切なテン
プレート数を設定するには、数多く実験を行ない試行錯
誤的に決定するしかないため、辞書作成に膨大な時間が
かかるという問題がある。本発明の目的は、このような
問題点を改善し、同一のカテゴリ内だけでなく異なるカ
テゴリ間の関係を考慮しながら参照パターンを減少させ
る手法と、各カテゴリ毎の参照パターン数の設定を自動
で行なう手法を用いて、認識精度が高く容量の少ない認
識辞書を効率よく作成するパターン認識用辞書作成方法
を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明のパターン認識用辞書作成方法は、予めカテ
ゴリ毎に1種類または複数の参照パターンを有する初期
の認識辞書を作成する過程(図1の初期辞書作成部1)
と、距離関数や類似度等で定義される評価基準(例え
ば、(1)式)により、最も類似性の高い参照パターン
の組を任意の同一カテゴリの中から選択する過程(図1
の同一カテゴリ参照パターン選択部2)と、前記評価基
準により、前記で選ばれた参照パターンに最も類似性が
高い参照パターンを異なるカテゴリから選択する過程
(図1の類似カテゴリ参照パターン選択部3)と、同一
カテゴリから選択された参照パターンと、異なるカテゴ
リから選択された参照パターンとの類似性を比較し、類
似性を表わす値の関係(例えば、(2)〜(4)式の距
離値の差、比、あるいは関数)が、予め決められている
評価基準(例えば、θ1〜θ3)を満たすか否かによっ
て、同一カテゴリから選択された参照パターンを併合す
るか否かを決定する参照パターン併合判定過程(図1の
参照パターン併合判定部5)と、「同一カテゴリ内の前
記併合条件を満たす参照パターンがなくなるか」あるい
は「前記の方法により同一カテゴリ内で選択された参照
パターンの類似性を示す値(例えば、(1)式)が予め
設定した最大値に達するか」あるいは「全カテゴリ合計
の参照パターン数が予め設定した個数まで減少したか」
を停止判断基準とし、前記の選択と併合の繰返しを制御
する過程(図1の制御部6)とを備えたことに特徴があ
る。
【0005】
【作用】本発明においては、予め学習パターンからカテ
ゴリ内に一つまたは複数の参照パターンを作成し、参照
パターンがカテゴリ内に複数ある場合、カテゴリ内の参
照パターンと、異なるカテゴリの参照パターンとの類似
性を比較しながら階層型クラスタリングを行なう。この
際、参照パターンの減少による認識能力の低下を少なく
するため、異なるカテゴリが近傍にある参照パターンは
併合せず、誤認識に影響の無い参照パターンから逐次併
合する。また、前記の作用に加えて、全てのカテゴリか
ら最も類似した参照パターンを選択するため、各カテゴ
リ毎の適度な参照パターンの個数を予め設定する必要は
なく、クラスタリングの停止条件として全てのカテゴリ
の参照パターン数の和を設定するのみで、各カテゴリ毎
の参照パターンの個数が自動的に与えられる。
【0006】
【実施例】以下、本発明の一実施例を図面により説明す
る。図1は、本発明のパターン認識用辞書作成方法を適
用した装置の機能構成を示すブロック図、図2は本発明
の一実施施例におけるパターン認識処理装置の機能構成
を示すブロック図である。本実施例のパターン認識処理
装置は、図2に示すように、スキャナ等によるパターン
入力部201、入力パターンの切り出し、ノイズ除去、
正規化等を行なう前処理部202、前処理部202を経
た入力パターンを数値化する特徴抽出部203、参照パ
ターンの集合である認識辞書204、入力パターンと参
照パターンを照合する識別照合部205、プリンタやデ
ィスプレイによる認識処理結果の出力部206で構成さ
れている。この認識辞書204を作成する装置は、図1
に示すように、初期辞書作成部1、同一カテゴリ内参照
パターン選択部2、類似カテゴリ参照パターン選択部
3、参照パターン併合判定部4、参照パターン併合実行
部5、制御部6等の機能を備え、CPU、入出力装置、
外部記憶装置等から構成される。
【0007】次に、本実施例のパターン認識用辞書作成
方法を、文字認識用の辞書設計を例にとり、図1を参照
して説明する。まず、初期状態辞書作成部1では、カテ
ゴリに複数の参照パターンを有する初期の認識辞書を作
成する。本実施例では、この初期辞書をもとに、以下で
述べるクラスタリング手法により認識性能を維持したま
ま参照パターンを減少させる。なお、初期辞書の作成方
法としては、手書き文字の場合は従来のクラスタリング
手法等を用い、複数フォントの印刷文字の場合はフォン
ト毎に専用辞書を作成する等の手法を用いる。本実施例
で利用する階層型クラスタリング手法は、類似性の評価
基準により幾つか考えられるが、ここではWard法と
する。Ward法は、クラタスタp,qを併合してでき
る新たなクラスタをtとすると、1クラスタ内の偏差2
乗和で定義される情報損失量Eの増加量、 ΔEpq=Et−Ep−Eq……(1) を距離とし、増加量が最小となる二つのクラスタを選択
し併合していく手法である。本実施例の認識辞書の場
合、1クラスタの平均値である参照パターンを併合す
る。
【0008】次に、同一カテゴリ内参照パターン選択部
2では、認識辞書から任意の同一カテゴリ内で上記
(1)式で定義される距離の最も近い二つの参照パター
ンを選択する。ここで、二つの参照パターンは全てのカ
テゴリの中から選択されるため、予め終了時の参照パタ
ーン数の合計数を与えておけば、カテゴリ毎の参照パタ
ーン数を設定する必要はない。次に、類似カテゴリ参照
パターン選択部3では、同一カテゴリ内参照パターン選
択部2で選ばれた二つの参照パターンに上記(1)式で
定義される距離の最も近い、異なるカテゴリの参照パタ
ーンを選択する。次に、参照パターン併合判定部4で
は、同一カテゴリ内での参照パターンの距離値と類似カ
テゴリ参照パターンとの距離値を比較し、併合可能か否
かの判定を行なう。併合判定条件は、クラスタp,qを
同一カテゴリ、クラスタrをクラスタpに最も近い、異
なるカテゴリとすると、二つの距離値の差、 ΔEpr−ΔEpq>θ1……(2) あるいは距離値の比、 ΔEpr/ΔEpq>θ2……(3) または以下に示す関数、 ΔEpr/(ΔEpq+ΔEpr)>θ3……(4) で定義する。また、θ1,θ2,θ3は実験により適切な
値を求める。但し、距離値ΔEpqが負の場合は例外処理
を行なう。これらの条件の全てまたは何れか一つを満た
した場合、参照パターン併合実行部5において同一カテ
ゴリ内参照パターンを併合する。
【0009】本実施例の併合方法では、併合する二つの
参照パターンの各特徴値の平均値をとる。こうして併合
された参照パターンは、併合前の二つの参照パターンを
消去した後に認識辞書に新たに登録される。一方、併合
条件を満たさない場合は同一カテゴリ内参照パターン選
択部2に戻り、認識辞書から任意の同一カテゴリ内で、
前記(1)式で定義される距離が、前に選択した参照パ
ターンの距離の次に近い参照パターンの組を選択し、類
似カテゴリ参照パターン選択部3に進む。次に、制御部
6では、全ての参照ベクトルが併合条件を満たさない場
合、あるいは、予め設定しておいた参照ベクトル数まで
減少したか、同一カテゴリ内の参照パターン間の距離
が、予め設定しておいた最大値に達したかを判断し、何
れかの条件が満たされた場合にはクラスタリングを終了
させる。なお、本実施例の他にも、例えば最近隣法等の
他クラスタリング手法を用いてもよい。また、併合条件
を距離値の差、比等で定義しているが、平方差等の異な
る関数でもよい。
【0010】
【発明の効果】本発明によれば、カテゴリ内の参照パタ
ーン間のみならず、異なるカテゴリの参照パターンとの
関係をともに考慮しながらクラスタリングを行なうた
め、参照パターンの併合を数多く繰返し、辞書容量を減
少させた場合であっても、従来の階層型クラスタリング
による辞書と比較した場合、同じ辞書容量でも認識性能
の高い辞書となり、より認識に適した辞書の作成が可能
である。また、前記の効果に加えて、全てのカテゴリの
参照パターン数の和、または同一カテゴリ内で選択され
る参照パターンの類似性を示す値の最大値を設定するの
みで各カテゴリ毎の適度な参照パターンの個数を自動で
設定することができる。これにより、何度も実験を行な
って参照パターン数を求める必要はなく、効率よく認識
辞書を作成できる。
【0011】
【図面の簡単な説明】
【図1】本発明のパターン認識用辞書作成方法を適用し
た装置の機能構成を示すブロック図である。
【図2】本発明の一実施施例におけるパターン認識処理
装置の機能構成を示すブロック図である。
【符号の説明】
1 初期辞書作成部 2 同一カテゴリ内参照パターン選択部 3 類似カテゴリ参照パターン選択部 4 参照パターン併合判定部 5 参照パターン併合実行部 6 制御部 201 パターン入力部 202 前処理部 203 特徴抽出部 204 認識辞書 205 識別照合部 206 出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 複数のカテゴリの参照パターンの集合で
    あって、同じカテゴリに異なる形状が存在する入力パタ
    ーンを認識する処理に用いる、認識用辞書の作成方法に
    おいて、予めカテゴリ毎に参照パターンを有する初期の
    認識辞書を作成する過程と、距離関数や類似度を含む値
    で定義される評価基準により、最も類似性の高い参照パ
    ターンの組を任意の同一カテゴリから選択する過程と、
    該評価基準を用い、選択された参照パターンとの類似性
    が最も高い参照パターンを異なるカテゴリから選択する
    過程と、前記同一カテゴリから選択された参照パターン
    と、異なるカテゴリから選択された参照パターンとの類
    似性を比較し、該同一カテゴリから選択された参照パタ
    ーンを併合するか否かを決定する参照パターン併合判定
    過程と、該判定過程で、併合すると判断された場合、当
    該参照パターンに対して特徴毎の併合を実行する過程
    と、同一カテゴリで併合条件を満たす参照パターンがな
    くなるか、同一カテゴリで選択された参照パターンの類
    似性を示す値が予め設定した値に達するか、全カテゴリ
    の参照パターン数の合計が予め設定した個数まで減少し
    たかの何れかを停止判断基準とし、前記参照パターンの
    選択および併合を制御する過程とを有することを特徴と
    するパターン認識用辞書作成方法。
JP4225698A 1992-08-25 1992-08-25 パターン認識用辞書作成方法 Pending JPH0676061A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4225698A JPH0676061A (ja) 1992-08-25 1992-08-25 パターン認識用辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4225698A JPH0676061A (ja) 1992-08-25 1992-08-25 パターン認識用辞書作成方法

Publications (1)

Publication Number Publication Date
JPH0676061A true JPH0676061A (ja) 1994-03-18

Family

ID=16833398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4225698A Pending JPH0676061A (ja) 1992-08-25 1992-08-25 パターン認識用辞書作成方法

Country Status (1)

Country Link
JP (1) JPH0676061A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243849A (ja) * 2005-02-28 2006-09-14 Toshiba Corp 機器制御装置及びその方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243849A (ja) * 2005-02-28 2006-09-14 Toshiba Corp 機器制御装置及びその方法

Similar Documents

Publication Publication Date Title
US6956969B2 (en) Methods and apparatuses for handwriting recognition
US5675665A (en) System and method for word recognition using size and placement models
KR100247969B1 (ko) 대용량패턴정합장치및방법
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
WO1997044758A9 (en) Methods and apparatuses for handwriting recognition
JP2000181993A (ja) 文字認識方法および装置
US6219633B1 (en) Apparatus and method for producing analogically similar word based on pseudo-distances between words
US5621818A (en) Document recognition apparatus
JPH0676061A (ja) パターン認識用辞書作成方法
JPH0749926A (ja) 文字認識装置
JPH05114051A (ja) フアジイパターン認識方法
JP3017325B2 (ja) パターン認識用辞書作成方法
JP3754118B2 (ja) パターン認識装置及びパターン認識方法
JPH06195508A (ja) 文字切り出し方法
JPS62281082A (ja) 文字認識装置
JPS5922178A (ja) 図形認識装置
JPH0812684B2 (ja) パターン認識装置
JP2792063B2 (ja) 文字認識辞書作成方式
Takahashi et al. A clustering method and radius tuning by end users
JPH07111732B2 (ja) 文字図形認識用辞書作成装置
JP2875678B2 (ja) 文字認識結果の後処理方法
JPH1139432A (ja) 文字認識方法及び装置
JPH01180083A (ja) 複数フォント文字認識装置
AU5196701A (en) Method and apparatuses for handwriting recognition
JP2001143020A (ja) 文字認識装置、文字認識方法、および記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040512