JPH0836557A - クラスタ分類装置 - Google Patents

クラスタ分類装置

Info

Publication number
JPH0836557A
JPH0836557A JP6172442A JP17244294A JPH0836557A JP H0836557 A JPH0836557 A JP H0836557A JP 6172442 A JP6172442 A JP 6172442A JP 17244294 A JP17244294 A JP 17244294A JP H0836557 A JPH0836557 A JP H0836557A
Authority
JP
Japan
Prior art keywords
map
hierarchical structure
clusters
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6172442A
Other languages
English (en)
Inventor
Mikihiko Terajima
寺島幹彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP6172442A priority Critical patent/JPH0836557A/ja
Publication of JPH0836557A publication Critical patent/JPH0836557A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 クラスタの数、位置、分布の形等の前知識な
しに、適正に、処理手順に依存しないでクラスタ分類で
き、処理の経過や結果を視覚的に見ることができ、計算
的に処理することが容易で、クラスタの階層構造を得る
ことができる。 【構成】 1次元の自己組織化特徴マッピングを用い
て、入力データに対するプロトタイプ群からなるマップ
を作成するマップ作成部11と、そのマップからクラス
タの階層構造を作成する階層構造作成部12と、得られ
たマップと階層構造に従って入力データを分類するラベ
ル付け部13とからなり、階層構造作成部12が、得ら
れたマップからクラスタの集積度を表す量を計算し、デ
ータ列を作成するマップ解析部121と、得られたデー
タ列からクラスタの階層構造を作成するデータ列融合部
122とからなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、クラスタ分類装置に関
し、特に、複数個のデータをその類似性によってクラス
タとしてまとめることにより複数個のクラスタに分類す
る装置に関する。
【0002】
【従来の技術】複数個のデータをその類似性により複数
個のクラスタに分類する方法としては、代表的には最尤
推定法がある。この方法は、クラスタ数が既知で、それ
ぞれのクラスタの大まかな位置が分かっている場合に用
いることができる。まず、それぞれのクラスタ内のデー
タの分布を例えば正規分布等と仮定し、平均、分散等の
パラメータを近似的に計算する。次に、あるデータがそ
のクラスタに所属する確率(この場合は正規分布)から
識別関数を定義する。そして、パラメータから求められ
る識別関数の大小によりデータをクラスタに割り当てる
ことによってクラスタ分類を行う。
【0003】クラスタ数が既知で、分布の形を仮定しな
い方法としては、K−means法、LBG法がある。
これは、分類の良さに関する評価基準を定義し、1)各
クラスタの代表点の選出、2)その代表点を基にしたク
ラスタ分類、という操作を逐次繰り返すことにより評価
基準を最適化し、クラスタ分類を行う方法であり、非階
層的方法と呼ばれる。
【0004】クラスタ数が未知で、分布の形も仮定でき
ない場合、すなわち、データに関する前知識が全然ない
場合は、階層的方法がある。これは、データ間及びクラ
スタ間に何らかの距離を定義して、それを基にデータを
逐次的に統合・分割し、クラスタ分類を行うものであ
る。
【0005】また、データを自己組織化特徴マッピング
ニューラルネットワークに入力し、2次元のマップ上の
素子にデータを割り当て、その素子に対応するデータの
数からクラスタ分けをする手法が提案されている(Xueg
ong Zhang,Yanda Li,"SELF-ORGANIZING MAP AS A NEW M
ETHOD FOR CLUSTERING AND DATA ANALYSIS",Proceeding
s of the International Joint Conference on Neural
Networks,vol.3,pp.2448-2451,1993) 。
【0006】
【発明が解決しようとする課題】上記のように、データ
をクラスタリングする従来の方法は、クラスタの数や位
置、分布の形を仮定しているものがほとんどである。と
ころが、一般的にクラスタ分類を行う場合、分類前はク
ラスタの数や分布の形は未知であることが多い。例え
ば、画像の領域分割を行うために特徴ベクトルをクラス
タ分類しようとした場合、分類前にクラスタの数や分布
の形状は未知である。
【0007】前述の、最尤推定法やK−means法、
LBG法は、クラスタの数、位置、分布の形状を仮定し
て行う方法であり、この場合、その仮定を間違えたり、
初期値としての与え方が不適当な場合、本来クラスタを
構成しているのにクラスタ分類されなかったり(過統
合)、1つのクラスタとされるべきものが複数のクラス
タに分類されたり(過分割)、本来所属すべきクラスタ
に分類されなかったり(誤分類)して、適正な結果は得
られなくなる。クラスタの数を順次変化させてそれぞれ
の場合を調べる方法が、特開平5−205058号に開
示されているが、分類処理をクラスタの数だけ繰り返さ
なければならず、アルゴリズムが複雑になる。かつ、そ
の場合、クラスタの数を正しく推定したとしても、その
位置、分布の仮定を間違えると、誤分類を生じ、適正な
分類はできない。
【0008】また、従来のクラスタの数や分布の形状を
仮定しない階層的手法には、以下の問題点がある。 A−1)分割・統合処理の手順、及び、アルゴリズムの
初期状態の設定によって結果が大きく変化する。 A−2)統合されない(すなわち、クラスタ分類されな
い)データが残ってしまうことがある。 A−3)処理の経過、結果を表すことが難しく、何時処
理を終了するかを明確に判断できないため、過統合、過
分割が起こりやすい。
【0009】前述のデータを自己組織化特徴マッピング
ニューラルネットワークに入力し、2次元のマップ上の
素子にデータを割り当て、その素子に対応するデータの
数からクラスタ分けをする方法では、処理の経過、結果
を表示することができる。しかし、この方法は2次元の
マップを用いており、視覚的には表示できるが、その結
果から、視覚的にではなく、計算的にクラスタを見つけ
る処理をするのは、大きな工数と複雑なアルゴリズムを
必要とする。
【0010】以上の課題を整理すると、本発明のクラス
タ分類装置に求められる条件は、以下の通りである。 B−1)クラスタの数、位置、分布の形等の前知識なし
に、過統合や過分割のない適正なクラスタ分類ができ
る。 B−2)処理の手順に依存しないクラスタ分類ができ
る。 B−3)処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。
【0011】また、クラスタ分類においては、その応用
目的によって、分類後、さらに特定のデータに関して分
割したり統合すべき場合がある。このとき、クラスタの
階層構造が得られていれば、再統合、再分割は容易であ
る。よって、上記のB−1)、B−2)、B−3)の条
件に次のB−4)を加える。B−4)クラスタの階層構
造を得ることができる。
【0012】本発明はこのような状況に鑑みてなされた
ものであり、その目的は、上記のB−1)、B−2)、
B−3)、B−4)の条件を満たして、クラスタの数、
位置、分布の形等の前知識なしに、過統合や過分割のな
い適正なクラスタ分類ができ、処理の手順に依存しない
で分類でき、処理の経過や結果を視覚的に見ることがで
き、しかもその結果を計算的に処理することが容易で、
かつ、クラスタの階層構造を得ることができるクラスタ
分類装置を提供することにある。
【0013】
【課題を解決するための手段】上記の目的を達成する本
発明のクラスタ分類装置は、1次元の自己組織化特徴マ
ッピングを用いて、入力データに対するプロトタイプ群
からなるマップを作成するマップ作成部と、そのマップ
からクラスタの階層構造を作成する階層構造作成部と、
得られたマップと階層構造に従って入力データを分類す
るラベル付け部とからなることを特徴とするものであ
る。
【0014】この場合、階層構造作成部は、得られたマ
ップからクラスタの集積度を表す量を計算し、データ列
を作成するマップ解析部と、得られたデータ列からクラ
スタの階層構造を作成するデータ列融合部とからなる場
合と、得られたマップからクラスタの集積度を表す量を
計算する集積度計算部と、クラスタの階層構造を作成す
るプロトタイプ融合部とからなる場合と、得られたマッ
プからクラスタの階層構造を作成するプロトタイプ融合
部のみからなる場合とが考えられる。
【0015】
【作用】以下、上記のような構成を採用する理由と作用
について説明する。まず、本発明の構成の概略とその作
用を、図1のブロック図と、クラスタ分類の過程を簡単
に示す図2〜図6を参照にして説明する。まず、本発明
の構成の概略を示すと、図1に示したように、入力デー
タを入力してマップを作成するマップ作成部11と、ク
ラスタの階層構造を作成する階層構造作成部12と、階
層構造によってラベル付けされたマップと入力データか
ら入力データのラベル付けを行うラベル付け部13から
なっている。
【0016】階層構造作成部12は、その一例として、
マップからクラスタの集積度に関係する量を計算し、デ
ータ列を作成するマップ解析部121と、そのデータ列
に基づいてクラスタの階層構造を作成するデータ列融合
部122から構成する。階層構造作成部12についての
他の例は後述する。
【0017】この構成のクラスタ分類装置の作用を示す
一例として、2次元のデータを3つのクラスタに分類す
ることを考える。その中の1つのクラスタは、さらに2
つのサブクラスタからなっているとする。ここでは、そ
の階層構造も得ることを考える。もちろん、クラスタ分
類前は、クラスタ数や分布の形状は未知である。
【0018】まず、マップ作成部11について説明す
る。マップ作成部11は、データ入力部111とマップ
部112から構成される。データ入力部111におい
て、入力データ群21を入力する。入力データ群21
は、図2に示すような2次元ベクトルであり、大きく分
けて3つのクラスタ21A、21B、21Cを形成し、
その1つの21Aは2つのサブクラスタ21A1、21
A2からなっている。ただし、階層構造作成部12の説
明までは、21Aが2つのサブクラスタ21A1、21
A2からなることは考慮しないこととする。
【0019】次に、マップ部112で、入力データ群2
1を用いて、図3のマップ31を作成する。マップ31
は、複数個(k個と置く。)の素子群32によって構成
される。入力データ群21のそれぞれのデータは、素子
群32の何れかの素子に対応するようにする。具体的な
対応方法を述べる。まず、入力データ群21に対するプ
ロトタイプ群33を素子数個(k個)だけ作成する。そ
して、各素子にそれぞれプロトタイプ群33の1つを割
り当てる。そして、入力データ群21の各々に対しその
入力データと最も類似しているプロトタイプを持つ素子
を対応させればよい。そのとき、入力データ群21の
中、類似しているデータはそれぞれマップ31上で近い
素子に対応し、類似していないデータはそれぞれマップ
31上で遠い素子に対応するように、素子にプロトタイ
プを割り当てる。つまり、入力データ群21の各データ
の位相情報をマップ31に反映させるのである。
【0020】このようにして、入力データ群21から、
クラスタ21A〜Cに属するベクトルにそれぞれ対応す
る素子群32A〜Cからなるマップ31を作成する。
【0021】ここで注意しなくてはならないのは、クラ
スタ21A〜Cの記号は説明の便宜上付けたものであ
り、入力データ群21は、クラスタ分類前に全くラベル
付けされていないことである。もし、クラスタ分類前に
いくつかの入力データがラベル付けされている場合は、
ラベル付けされていないデータに対して、マップ作成後
に簡単にクラスタ分類ができる。この方法を述べてお
く。1)あるラベル(例えばA)のクラスタ21Aに属
するデータに対応するマップ31上の素子を選び、その
素子にラベルAを与える。2)1)の操作を21B、2
1Cのクラスタに属するデータに対しても行い、マップ
31上の素子群にそれぞれA〜Cのラベルの何れかを与
える。3)ラベル付けしていない入力データ群21に対
応するマップ上の素子を見つけ、その素子のラベルをそ
のデータのラベルとする。1)から3)の操作を行うこ
とにより、全ての入力データをラベル付けでき、クラス
タ分類が終了する。マップ31をみると、上記の2)の
操作が終了しているようにも思われるが、入力データ群
21は全くラベル付けされていないので、マップ31の
どこにクラスタが存在しているかはまだ不明である。よ
って、マップ31上のどこにクラスタが存在するかを見
つけるために、マップを解析しなくてはならない。
【0022】そこで、マップ上のどこにクラスタが存在
するかを見つけるために、マップ作成部11で作成され
たマップ31をマップ解析部121で解析する。以下、
マップ解析部121について説明する。マップ解析部1
21は、各素子に対しクラスタの集積度に関する量を計
算する集積度計算部121Aと、その結果に従ってデー
タ列を作成するデータ列作成部121Bからなる。クラ
スタの集積度を示す量としては、以下のような量が挙げ
られる。
【0023】C−1)マップ31上の素子群32の各素
子に対応する入力データ群の数。
【0024】C−2)マップ31上のある1つの素子に
割り当てられたプロトタイプと、その素子とマップ31
上で隣接する素子に割り当てられたプロトタイプとの類
似性。クラスタは、データ群の空間において類似してい
るデータが集まったものである。この性質を用いて、上
記のC−1)、C−2)の量がクラスタの集積度を示す
理由を説明する。
【0025】クラスタ内のデータは、クラスタ外に比べ
て多いという性質から、素子に対応する入力データの数
を比較すれば、クラスタ中心付近のデータに対応する素
子の場合は、対応するデータ数は多くなり、クラスタ中
心から外れたデータに対応する素子の場合は対応するデ
ータ数は少なくなるはずである。よって、C−1)の量
を用いれば、図4(a)のように、山の部分がクラスタ
を示すヒストグラムが作成される。以下、この量を勝利
数Vとも表記する。
【0026】次に、C−2)の量について説明する。前
述のように、マップ上で隣接する素子のそれぞれのプロ
トタイプは、入力データ空間でも類似している。また、
クラスタ内のデータは類似しているという類似性から、
そのプロトタイプの類似度は、クラスタ内では高く、ク
ラスタ外では低いといえる。この2つのことから、マッ
プ上で隣接するそれぞれの素子のプロトタイプ同志を比
較することにより、その類似度からその素子の対応する
入力データがクラスタ中心かクラスタ外かを区別できる
ことが分かる。具体的に述べると、マップ上で隣接する
それぞれの素子のプロトタイプ同志の類似度が高けれ
ば、その素子はクラスタ中心付近のデータに対応する素
子であり、逆に、マップ上で隣接するそれぞれの素子の
プロトタイプ同志の類似度が低ければ、その素子はクラ
スタ中心から外れたデータに対応する素子である。類似
度として、例えば2次元ベクトルデータの場合、そのユ
ークリッド距離を選べば、距離が大きければ類似度は低
く、距離が小さければ類似度は高くなる。このとき、C
−2)の量を用いてヒトスグラムを作成すれば、図4
(b)のように、山から山までがクラスタを表すように
なる。以下、この量を隣接素子間の類似度dMとも表記
する。
【0027】なお、勝利数Vと隣接素子間の類似度dM
の定義から、V/dMの量もクラスタの集積度を表すこ
とが分かる。このときは、谷から谷までの山がクラスタ
を表す。
【0028】このようなヒストグラムの性質から、図4
(a)の場合は山、図4(b)の場合は谷を分割するこ
とがマップをクラスタ毎に分割することに相当する。よ
って、このヒストグラムの山あるいは谷の数がクラスタ
数に対応する。各山あるいは谷に相当するマップ上の素
子がクラスタのプロトタイプに相当するので、この時点
で適当な数のクラスタ分類ができたことになる(この場
合は、3つ)が、階層構造を求めるために、次の操作を
行う。
【0029】まず、ヒストグラムの諸量から、データ列
作成部121Bでデータ列を作成する。このデータ列に
ついて説明する。素子iに対応する勝利数、隣接素子間
の類似度をそれぞれVi 、dMi とする。そして、式
(1)のようなデータ列{Xk }を作成する。
【0030】 図4のようなヒストグラムの場合、データ列{Xk }を
数直線上にプロットしたのが図5である。このように、
データ列{Xk }は、図4(a)では山、図4(b)で
は谷に相当する部分に、数直線上でクラスタを形成して
いることが分かる。{Xk }を定性的に説明する。ま
ず、素子kの重みベクトルの座標をn次元空間上で折れ
線でつなぐ。そして、Xk は、折れ線を一直線に伸ばし
たときの線上での素子kの座標であるといえる。このと
き、データ列{Xk }のi番目の点は、マップ31のi
番目の素子に対応していることになる。つまり、複数の
クラスタからなるn次元ベクトル入力データを、クラス
タが抽出しやすいように、1次元データ集合に変換した
と考えることができる。
【0031】また、Vi はマップ31上のi素子に対応
する入力データ群の数であることから、図5のデータ列
{Xk }において、各点の個数がVk であるという情報
を付加すれば、さらにクラスタを抽出しやすくすること
ができる。
【0032】次に、データ列作成部121Bで作成した
データ列{Xk }を用いて、データ列融合部122で階
層構造を作成する。この階層構造は、データ列{Xk
において近い値は逐次融合しながら最終的に一つになる
まで融合し、その過程を表示することによって作成す
る。例えば、この場合、階層構造は図5のようになる。
融合過程については、詳しく後述する。
【0033】前述のように、ヒストグラムの分割によっ
て、大きく分けてクラスタの数は3であることは判明し
ていたが、その階層構造は図5のようになっていること
が分かる。
【0034】以上のデータ列融合部122で作成された
階層構造に基づいて、ラベル付け部13で入力データに
ラベル付けする。ラベル付け部13は、階層構造に基づ
いてマップにラベルを付けるマップラベル部131と、
ラベル付けするデータを入力するデータ入力部132
と、その入力データにラベルを付けるデータラベル部1
33によって構成される。
【0035】マップラベル部131では、階層構造に基
づいてマップにラベル付けを行う。階層構造に基づい
て、例えば図6に示すように、マップにA、B、Cとい
うラベルを与えて、マップ61とする。次に、入力デー
タ群21を再びデータ入力部132によって入力し、そ
の入力データ群21のラベル付けを行う。ラベル付けに
は、その入力データ群21と、ラベル付けをしたマップ
61を用いる。具体的には、入力データ群21に対応す
るマップ61上の素子を見つけ、その素子のラベルをそ
のデータのラベルとすればよい。全てのデータ群21に
対し、ラベル付けが終了すれば、図6に示すように、入
力データ群21がA、B、Cの3つのクラスタに分類さ
れたことになる。図6では、A、B、Cそれぞれのクラ
スタに所属するデータを丸で囲んである。ここで、この
丸は、説明の便宜上、データのあるところを囲むために
つけたもので、厳密な分離境界線を示している訳ではな
い。なお、前述のように、図2の入力データは予めラベ
ル付けされていない。ラベル付け部13で初めてラベル
付けされることに注意する。ここで、便宜上、図2のラ
ベルと図6のラベルは一致させてある。
【0036】なお、さらに特定の部分だけ再分割、統合
する場合は、階層構造に基づいて行えばよい。図5の階
層構造から、マップ61a)のように、A、Bは1つの
クラスタとして再統合させてもよいことが分かるし、さ
らに、Aを再分類するには、マップ61b)のように、
A1、A2として分類することが可能である。このこと
は、後の実施例で示す。
【0037】以上が本発明のクラスタ分類装置の作用の
概略であり、図2のデータ群21が、図6のように大き
く分けてA、B、Cの3つのクラスタに分類され、階層
構造が図5のように求められたことになる。本作用は、
クラスタの数、位置、分布の形等の前知識を必要として
いないことは明らかであり、本発明のクラスタ分類装置
に求められる条件のB−1)を満たしている。
【0038】続いて、B−2)…処理の手順に依存しな
いクラスタ分類ができる…ことと、B−3)…処理の経
過や結果を視覚的に見ることができ、しかもその結果を
計算的に処理することが容易である…という条件を本発
明が満たすことを示す。そのために、マップ作成部11
についてさらに詳しく説明する。
【0039】前述のように、マップ作成部11では、デ
ータ群のプロトタイプを作成し、入力データの位相を反
映するように、そのプロトタイプをマップの素子に割り
当てることを行う。プロトタイプの作成は、ベクトル量
子化法を用いれば可能だが、入力データの位相を反映す
るようにそのプロトタイプをマップの素子に割り当てる
ことはできない。プロトタイプの作成と入力データの位
相を反映するためのプロトタイプの割り当てを同時に行
う方法は、コホーネンによる自己組織化特徴マッピング
(以下、SOMと表記する。)のアルゴリズムがある
(T.Kohonen,"Self-Organization and Associative Mem
ory",Third Edition,Springer-Verlag,Berlin,1989) 。
以下、このSOMについて説明する。
【0040】SOMは、図7に模式的に示すように、2
次元に並ぶ素子群の層ML(以下、マップ層MLと表記
する。)と、データを入力する入力層IPから構成され
る。このマップ層MLは、図7では2次元に並ぶ素子を
示したが、1次元に並ぶ素子を用いてもよい。入力層I
Pは、マップ層MLの全ての素子と結合しており、入力
データをマップ層MLの全ての素子に与えることができ
る。入力データは、スカラーでもベクトルでもかまわな
いが、ここでは一般的に、ベクトルx(n次元)とお
く。マップ層MLの素子i(iはマップ上の順番とし、
全素子数をk個とする。)は、全て重みベクトルmi
(n次元)を持つことにする。SOMのアルゴリズム
は、入力ベクトルxと各素子の重みベクトルmi との類
似性から更新すべき重みベクトルを決定する<類似性マ
ッチング>と、その重みベクトルmi を入力ベクトルx
の方に近付ける<更新>とに分けられる。そして、両者
の作用を繰り返すことにより、入力ベクトルxの分布を
反映する重みベクトルmi (1≦i≦k)が生成する。
<類似性マッチング>と<更新>の具体的な表式を以下
に示す。
【0041】<類似性マッチング> <更新> mi (t+1)=mi (t)+α(t){x(t)−mi (t)}i∈Nc i (t+1)=mi (t) その他 ・・・(3) ここで、|x−mi |はxとmi のユークリッド距離、
Cはその距離が最も小さかった素子(勝利素子)、Nc
はその勝利素子Cのマップ層MLでの近傍、α(t)は
正の定数、tは時刻を示す。更新を繰り返しながら、N
c とα(t)の大きさは徐々に小さくする。また、α
(t)は勝利素子Cから離れるに従い、小さくなるよう
に選ぶこともできる。
【0042】入力ベクトルxの集合からランダムにxを
選んで逐次入力し、重みベクトルmi の更新を繰り返す
ことにより、入力ベクトルxの分布を反映する重みベク
トルmi (1≦i≦k)が生成する。すなわち、重みベ
クトルmi (1≦i≦k)が入力ベクトルxの分布のプ
ロトタイプになっている。そして、ある素子の重みベク
トルを入力ベクトルに近付けるように更新するとき、マ
ップ上のその素子の近傍の素子も同様に更新するので、
マップ上で隣接する素子同志は、それぞれ、入力ベクト
ルの空間上でも近いベクトルに対応するようになる。よ
って、SOMアルゴリズムは、入力データ空間の位相を
反映したプロトタイプの集合を作成することができる。
SOMアルゴリズムには、次のような特長がある。
【0043】D−1)重みベクトルmi (1≦i≦k)
の初期状態によらず、適正なマップが作成できる。 D−2)入力ベクトルxの入力順によらず、適正なマッ
プが作成できる。 D−3)マップが1次元か2次元であるので、入力デー
タの位相を視覚的に見ることができる。 D−4)<類似性マッチング>と<更新>という単純な
操作の繰り返しなので、アルゴリズムが簡単である。
【0044】ここで、適正なマップとは、プロトタイプ
の集合が入力データの位相をよく反映しているものをい
う。D−1)、D−2)の特長は、本発明のクラスタ分
類装置に求められる、B−2)…処理の手順に依存しな
いクラスタ分類ができる…という条件を満たすものであ
る。D−3)の特長は、B−3)…処理の経過や結果を
視覚的に見ることができ、しかもその結果を計算的に処
理することが容易である…という条件に寄与する。
【0045】しかし、マップが2次元の場合は、視覚的
に見ることができるが、その結果を計算的に処理するこ
とは容易ではない。マップを1次元にすると、1次元の
ヒストグラムは2次元以上のヒストグラムに比べ、計算
処理がかなり容易になる。よって、B−3)の条件を満
たすことができる。
【0046】SOMアルゴリズムのこのような有効性よ
り、マップ作成部11では、この1次元のSOMアルゴ
リズムを採用する。すなわち、マップ作成部11のデー
タ入力部111をSOMの入力層IP、マップ部112
をSOMのマップ層MLとする。この構成により、入力
データの位相を反映するプロトタイプの集合を作成し、
そのプロトタイプを持つ素子からなる1次元マップを作
成する。このマップ作成部11を具備した本発明のクラ
スタ分類装置は、前述のように、B−2)、B−3)の
条件を満たすことが可能である。
【0047】なお、マップ作成部11で行うSOMアル
ゴリズムにおいては、ヒストグラムの山と谷がはっきり
した時点でマップ31の作成が終了となる。このとき、
入力データ群21の全てのデータを入力していなくて
も、作成を終了してよい。もし、入力データ群21の全
てのデータを入力した時点でヒストグラムの山と谷がは
っきりしていない場合は、再び入力データ群21を入力
して、山と谷がはっきりしたときにマップ作成を終了す
ればよい。ヒストグラムの山と谷がはっきりしたかどう
かの判断は、視覚的に容易にできるが、ヒストグラムの
山と谷がはっきりしたかどうかを表す評価基準(グラフ
の平滑度、最大値と最小値の相対比等)を用意すれば、
自動的に判断することも可能である。この場合も、明ら
かに1次元のヒストグラムの方が2次元のヒストグラム
より処理が容易である。なお、ヒストグラムを用いなく
ても、SOMアルゴリズムが進むにつれて入力データ群
21とそれに対応するプロトタイプの差が次第に小さく
なることを利用し、その値またはその変化率があるしき
い値より小さくなったときにマップ31の作成を終了し
てもよい。
【0048】続いて、B−4)…クラスタの階層構造を
得ることができる…という条件を本発明が満たすことを
示す。そのために、階層構造作成部12について、さら
に詳しく説明する。階層構造作成部12では、前述のよ
うに、複数のクラスタからなるn次元ベクトル入力デー
タをクラスタが抽出しやすいように、図5のような1次
元データ集合に変換してから、そのデータの階層構造を
得る。
【0049】このような階層構造を得る手法として、メ
ルティングアルゴリズムがある(Kenneth Rose et a
l.,"Statistical Mechanics and Phase Transition in
Clustering",Phys.Rev.Lett.65,pp.945-948(1990))。
このアルゴリズムは、あるベクトルデータとそれに対す
るプロトタイプの集合からエネルギー関数を定義し、そ
のエネルギーの局所極小解(ここでは、プロトタイプの
集合を解とする。)が、クラスタを表すことを利用す
る。エネルギー関数の形は、温度パラメータによって変
更され、一般に温度が上昇するにつれて滑らかになり、
かつ、局所解の数は少なくなる。つまり、温度が上昇す
るにつれて、プロトタイプの数が減少する。プロトタイ
プはクラスタを代表するものと考えてよいので、プロト
タイプの座標と温度の関係を表示すれば、階層構造が分
かる。
【0050】メルティングアルゴリズムの更新則につい
て、式を用いて説明する。データをx、プロトタイプを
yとし、分配関数Z、フリーエネルギーFを次式で表
す。ここで、Σ、Πの下の添字はそれぞれその記号によ
る和、及び、積を示す。 FにZを代入し、Fの極小値を求めるために、∂F/∂
y=0を解く。この結果、プロトタイプyは次式のよう
になる。
【0051】 この式がメルティングアルゴリズムのプロトタイプyの
更新則である。ある温度Tにおいて、この更新則を行
い、yを求める。そして、温度Tを上昇させ、再びこの
更新則を行い、yを求める。温度Tが上昇するにつれ
て、Fの局所極小値の数は次第に減少し、最終的には1
つになる。Fの局所極小値は、クラスタのプロトタイプ
に相当している。温度Tを低温から高温に上昇させるに
つれて、クラスタのプロトタイプは近いもの同志が融合
する。そこで、温度Tとクラスタのプロトタイプyの関
係をグラフに表せば、クラスタの階層構造が得られるこ
とになる。プロトタイプの表示は、y座標をそのまま表
示してもよいし、1次元に並んだSOMのプロトタイプ
と対応付けて表してもよい。
【0052】メルティングアルゴリズムは、データxが
2次元以上になると、プロトタイプの表示が困難にな
る、孤立点が融合し難い、等の欠点がある。しかし、マ
ップ解析部121で作成されたデータ集合は1次元であ
り、また、マップ作成部11で作成されたn次元ベクト
ルデータのプロトタイプ群から生成されているので、孤
立点は生成され難い。また、メルティングアルゴリズム
は、入力データの次元が大きくなると計算量が増すが、
この場合のデータ列は、本クラスタ分類装置が分類すべ
き入力データの次元にかかわらず、1次元なので、計算
量は一定である。以上のことから、メルティングアルゴ
リズムの欠点は解決できる。
【0053】よって、階層構造作成部12では、このメ
ルティングアルゴリズムを用いて、1次元データ集合か
らそのデータの階層構造を得る。階層構造作成部12に
このメルティングアルゴリズムを用いた本発明は、B−
4)…クラスタの階層構造を得ることができる…という
条件を満たしている。
【0054】なお、適当なクラスタ数は、集積度計算部
121Aでヒストグラムを解析することによって分かる
が、データ列融合部122においても求めることができ
る。適当なクラスタ程、メルティングアルゴリズムにお
いて、そのプロトタイプが生じている温度範囲が長いと
いえる。よって、プロトタイプが融合されずに残ってい
る温度範囲が長いときのクラスタの数を適当なクラスタ
の数とすればよい。ノイズ等でヒストグラムの山谷が微
妙になり解析困難な場合、データ列融合部122でクラ
スタ数を求めればよい。
【0055】以上、本発明のクラスタ分類装置の構成と
作用を説明した。本発明のクラスタ分類装置は、次のB
−1)、B−2)、B−3)、B−4)の条件を満た
す、以下のようなクラスタ分類装置である。
【0056】すなわち、1次元の自己組織化特徴マッピ
ングを用いて、入力データに対するプロトタイプ群から
なるマップを作成するマップ作成部と、そのマップから
クラスタの階層構造を作成する階層構造作成部と、得ら
れたマップと階層構造に従って入力データを分類するラ
ベル付け部とからなることを特徴とするクラスタ分類装
置である。
【0057】この場合、階層構造作成部は、図1のよう
に、得られたマップからクラスタの集積度を表す量を計
算し、データ列を作成するマップ解析部と、得られたデ
ータ列からクラスタの階層構造を作成するデータ列融合
部とからなる場合と、後記する図11(b)のように、
得られたマップからクラスタの集積度を表す量を計算す
る集積度計算部と、クラスタの階層構造を作成するプロ
トタイプ融合部とからなる場合と、後記の図11(a)
のように、得られたマップからクラスタの階層構造を作
成するプロトタイプ融合部のみからなる場合とが考えら
れる。
【0058】B−1)クラスタの数、位置、分布の形等
の前知識なしに、過統合や過分割のない適正なクラスタ
分類ができる。 B−2)処理の手順に依存しないクラスタ分類ができ
る。 B−3)処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。
【0059】B−4)クラスタの階層構造を得ることが
できる。
【0060】
【実施例】以下、本発明のクラスタ分類装置の実施例に
ついて説明する。クラスタ分類の表示を簡単にするため
に、再び、図2のような2次元ベクトルデータをクラス
タに分け、かつ、階層構造を求める場合の実施例を示
す。まず、本発明の第1実施例として、図2と同じ2次
元ベクトルデータを入力する場合を示す。本実施例は、
マップ部112のマップ31の素子の数を30にしてい
る。
【0061】まず、図4(a)に相当するヒストグラム
を図8に示す。図8によると、3つの山が形成されてお
り、入力データ群21が3つのクラスタからなることが
視覚的に明確である。次に、階層構造作成部12で求め
た階層構造を図9に示す。この図から、分類(a)、
(b)、(c)の3種類でプロトタイプを分け、マップ
61a)、61、61b)により、入力データ群21を
分割した結果を図10に示す。
【0062】なお、マップ部112の1次元マップは、
マップの素子が両側でつながるリング状にしても、切り
離した紐状にしてもよい。両者は、素子の重みの更新の
際の近傍の概念が異なる。リング状の場合は、マップの
両側を近傍としてつなぐことに相当し、紐状の場合はマ
ップの両側を近傍としないことに相当する。リング状の
場合は、マップの両側で、入力データの位相関係の反映
が歪む<BorderEffects>(T.Kohonen,"Th
ings You Haven't Heard about the Self-Organizing M
ap",Proc. IEEE Int. Conf. on Neural Network,vol.3,
pp.1147-1156,1993)を除くことができる。紐状の場合
は、両側が必ず切れているので、ヒストグラムで表した
り、階層構造を表す際、便利である。この場合、境界効
果を除くためには、両側の素子は、メルティングアルゴ
リズムの入力データとしない、ヒストグラムの横軸から
除く、等をすればよい。
【0063】メルティングアルゴリズムにおいて、デー
タ{Xk }を(6)式のxに代入することによりyを求
めた。ここで、k番目のデータの個数がVk である、と
いう付加情報を更新式に入れることができる。このと
き、更新式は(7)式のようになる。
【0064】 更新式を、(6)式の代わりに(7)式のようにした場
合、Vのヒストグラムの山谷の大小がクラスタの階層構
造の決定に寄与することになる。したがって、Vの小さ
な孤立点はプロトタイプになり難くなり、前述のような
メルティングアルゴリズムの欠点である、孤立点がクラ
スタになりやすいという問題を解決できる。ただし、デ
ータ列は、その作成過程より、孤立点が生じ難くなって
いるので、特に、入力データの分布がノイズが少ない滑
らかな場合は、(6)式、(7)式の何れを用いてもよ
いが、入力データの分布にノイズが多く、データ列に孤
立点が生じやすいときは(7)式を用いると効果があ
る。本実施例では(7)式を使った。
【0065】また、(6)式において、P(x∈y)を
yに代入し、xの依存性を無視して、P(x∈y)の分
母をはらうと、(8)式のようになる(Yui-fai Wong,"
Clustering Data by Melting",Nural Computation,5,89
-104(1993))。
【0066】 (8)式は(6)式に比べて、指数関数の和の回数が少
ないので、計算量が少なくなり、アルゴリズムを高速化
することができる。よって、階層構造作成部12では、
(8)式のメルティングアルゴリズムを用いてもよい。
また、(8)式に(7)式と同様にVの項を加えてもよ
い。上記の実施例の階層構造作成部12は、図1のよう
に、まず、データ列を作成して、そのデータの融合によ
り階層構造を作成した。
【0067】階層構造作成部12では、この他に、図1
1(a)のように、マップ部112で作成したSOMの
プロトタイプが1次元で配列していることを利用して、
そのn次元ベクトルのプロトタイプから、直接、階層構
造を作成してもよい。この場合は、マップ層のn次元プ
ロトタイプのベクトルを、直接プロトタイプ融合部15
1のメルティングアルゴリズムの入力とし、融合して得
られたプロトタイプを表示すればよい。プロトタイプの
表示は、1次元に並んだSOMのプロトタイプと対応づ
けることにする。図11(a)は、メルティングアルゴ
リズムの更新として(6)式あるいは(8)式を用いた
場合であり、Vを用いた(7)式を使う場合は、図11
(b)のように、階層構造作成部12でプロトタイプ融
合部151の前に集積度計算部152を備えればよい。
【0068】なお、図1と図11(a)、(b)の何れ
の構成にしても、メルティングアルゴリズムの次元が異
なるが、そのアルゴリズムの本質は同様であるので、融
合過程は同様の結果を得ることができる。よって、本実
施例の結果は、図1の構成の場合のみを示した。図1の
場合は、本クラスタ分類装置が分類すべき入力データの
次元にかかわらず、メルティングアルゴリズムの次元数
を1次元とすることができ、また、図11(a)、
(b)では、プロトタイプをそのまま融合するので、デ
ータ列作成部121Bを省略することができる。
【0069】上記の実施例の入力データは、全て2次元
のベクトルであったが、データ入力部111、132と
マップ部112のプロトタイプ33の次元数を変えるこ
とにより、多次元ベクトルにもスカラーにもすることが
できる。
【0070】次元を変えた場合の例として、図12に3
次元ベクトル5クラスタの場合のヒストグラムと得られ
た階層構造を示す。また、次元とヒストグラムの量を変
えた場合として、図13に4次元4クラスタの場合の
V、dM、V/dMのヒストグラムと得られた階層構造
の例を示す。図13のヒストグラムによると、適当なク
ラスタ数を見つける場合は、dMあるいはV/dMを用
いると、解析しやすいことが分かる。これは、前記の境
界効果と、SOMのもう1つの性質である、アルゴリズ
ムが進むにつれて勝つ数が均等化する等確率性によるも
のである。
【0071】多次元ベクトルの場合、データをそのまま
座標軸上に表すことが困難であるため、本発明のよう
に、視覚的にクラスタが発見でき、かつ、階層構造が分
かることは有効である。
【0072】本発明の入力データとしては、任意の大き
さのスカラー、ベクトルを選んでよい。すなわち、SO
Mアルゴリズムは、D−1)…重みベクトルmi (1≦
i≦k)の初期状態によらず、適正なマップが作成でき
る…という特長があるので、データを予め規格化した
り、データの特徴(クラスタ数、クラスタ位置等)を知
る必要がない。よって、画像情報、音声情報、通信記
号、時系列データ等、あらゆる入力データに対し、クラ
スタ分類が可能である。
【0073】
【発明の効果】以上述べたように、本発明によると、以
下の条件を満たすクラスタ分類装置を提供することがで
きる。
【0074】B−1)クラスタの数、位置、分布の形等
の前知識なしに、過統合や過分割のない適正なクラスタ
分類ができる。 B−2)処理の手順に依存しないクラスタ分類ができ
る。 B−3)処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。
【0075】B−4)クラスタの階層構造を得ることが
できる。
【図面の簡単な説明】
【図1】本発明の基本的な構成の概略を示す図である。
【図2】本発明によりクラスタ分類するデータの例を示
す図である。
【図3】図1のマップ作成部で作成するマップを示す図
である。
【図4】図1の集積度計算部で計算する勝利数と隣接素
子間の類似度の分布図である。
【図5】図1のデータ列作成部で作成したデータ列とデ
ータ列融合部で作成したクラスタの階層構造を示す図で
ある。
【図6】ラベル付け部でラベル付けしたマップとデータ
を示す図である。
【図7】自己組織化特徴マッピングの構造を示す図であ
る。
【図8】本発明の1実施例の勝利数のヒストグラムを示
す図である。
【図9】本発明の1実施例のクラスタの階層構造を示す
図である。
【図10】本発明の1実施例でラベル付けしたデータを
示す図である。
【図11】本発明の階層構造作成部の別の構成例を示す
図である。
【図12】3次元ベクトル5クラスタの場合の勝利数の
ヒストグラムとクラスタの階層構造を示す図である。
【図13】4次元ベクトル4クラスタの場合の勝利数と
隣接素子間の類似度とそれらの比のヒストグラムとクラ
スタの階層構造を示す図である。
【符号の説明】
11…マップ作成部 12…階層構造作成部 13…ラベル付け部 21…入力データ群 21A、21B、21C…クラスタ 21A1、21A2…サブクラスタ 31…マップ 32…素子群 32A、32B、32C…素子群 33…プロトタイプ群 61、61a)、61b)…マップ 111…データ入力部 112…マップ部 121…マップ解析部 122…データ列融合部 121A…集積度計算部 121B…データ列作成部 122…データ列融合部 131…マップラベル部 132…データ入力部 133…データラベル部 151…プロトタイプ融合部 152…集積度計算部 V…勝利数 dM…隣接素子間の類似度 ML…マップ層 IP…入力層

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 1次元の自己組織化特徴マッピングを用
    いて、入力データに対するプロトタイプ群からなるマッ
    プを作成するマップ作成部と、そのマップからクラスタ
    の階層構造を作成する階層構造作成部と、得られたマッ
    プと階層構造に従って入力データを分類するラベル付け
    部とからなることを特徴とするクラスタ分類装置。
  2. 【請求項2】 請求項1において、階層構造作成部が、
    得られたマップからクラスタの集積度を表す量を計算
    し、データ列を作成するマップ解析部と、得られたデー
    タ列からクラスタの階層構造を作成するデータ列融合部
    とからなることを特徴とするクラスタ分類装置。
  3. 【請求項3】 請求項1において、階層構造作成部が、
    得られたマップからクラスタの集積度を表す量を計算す
    る集積度計算部と、クラスタの階層構造を作成するプロ
    トタイプ融合部とからなることを特徴とするクラスタ分
    類装置。
  4. 【請求項4】 請求項1において、階層構造作成部が、
    得られたマップからクラスタの階層構造を作成するプロ
    トタイプ融合部のみからなることを特徴とするクラスタ
    分類装置。
JP6172442A 1994-07-25 1994-07-25 クラスタ分類装置 Pending JPH0836557A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6172442A JPH0836557A (ja) 1994-07-25 1994-07-25 クラスタ分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6172442A JPH0836557A (ja) 1994-07-25 1994-07-25 クラスタ分類装置

Publications (1)

Publication Number Publication Date
JPH0836557A true JPH0836557A (ja) 1996-02-06

Family

ID=15942066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6172442A Pending JPH0836557A (ja) 1994-07-25 1994-07-25 クラスタ分類装置

Country Status (1)

Country Link
JP (1) JPH0836557A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120614B2 (en) 2002-02-05 2006-10-10 Fuji Xerox Co., Ltd. Data classifier using learning-formed and clustered map
US7227985B2 (en) 2002-03-05 2007-06-05 Fuji Xerox Co., Ltd. Data classifier for classifying pattern data into clusters
US7664715B2 (en) 2004-06-25 2010-02-16 Caterpillar Japan Ltd. Apparatus and method for compressing data, apparatus and method for analyzing data, and data management system
CN101833553A (zh) * 2009-03-09 2010-09-15 夏普株式会社 对数据进行聚类的方法、设备和***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120614B2 (en) 2002-02-05 2006-10-10 Fuji Xerox Co., Ltd. Data classifier using learning-formed and clustered map
US7227985B2 (en) 2002-03-05 2007-06-05 Fuji Xerox Co., Ltd. Data classifier for classifying pattern data into clusters
US7664715B2 (en) 2004-06-25 2010-02-16 Caterpillar Japan Ltd. Apparatus and method for compressing data, apparatus and method for analyzing data, and data management system
CN101833553A (zh) * 2009-03-09 2010-09-15 夏普株式会社 对数据进行聚类的方法、设备和***

Similar Documents

Publication Publication Date Title
US9348877B2 (en) Methods, systems, and data structures for performing searches on three dimensional objects
Liang et al. Accurate face alignment using shape constrained Markov network
Sanfeliu et al. Second-order random graphs for modeling sets of attributed graphs and their application to object learning and recognition
Yang Distance-preserving projection of high-dimensional data for nonlinear dimensionality reduction
Cai et al. A new partitioning process for geometrical product specifications and verification
Luqman et al. Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images
JP3903613B2 (ja) 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0836557A (ja) クラスタ分類装置
Kumar et al. Development of a novel algorithm for SVMBDT fingerprint classifier based on clustering approach
JPH0934861A (ja) クラスタ分類装置
Luqman et al. A content spotting system for line drawing graphic document images
Bischof et al. Visual learning of patterns and objects
Saglam et al. An efficient object extraction with graph-based image segmentation
Sikora et al. CHIRA—Convex hull based iterative algorithm of rules aggregation
Cai et al. Level learning set: A novel classifier based on active contour models
Lethikim et al. Fuzzy cluster analysis for interval data based on the overlap distance
KR20220125422A (ko) 이미지 분류 기반 유명인 식별 방법 및 장치
JP3712582B2 (ja) 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
JPH07234854A (ja) クラスタ分類装置
Alam et al. A bayesian network-based tunable image segmentation algorithm for object recognition
JPH07234853A (ja) クラスタ分類装置
JP2001229362A (ja) 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
Tung et al. Deep multiview learning from sequentially unaligned data
Caelli et al. The role of machine learning in building image interpretation systems
Conradi et al. Fast Approximations and Coresets for (k, l)-Median under Dynamic Time Warping

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040303