JPH0836557A

JPH0836557A - クラスタ分類装置

Info

Publication number: JPH0836557A
Application number: JP6172442A
Authority: JP
Inventors: Mikihiko Terajima; 寺島幹彦
Original assignee: Olympus Optical Co Ltd
Current assignee: Olympus Corp
Priority date: 1994-07-25
Filing date: 1994-07-25
Publication date: 1996-02-06

Abstract

(57)【要約】【目的】クラスタの数、位置、分布の形等の前知識な
しに、適正に、処理手順に依存しないでクラスタ分類で
き、処理の経過や結果を視覚的に見ることができ、計算
的に処理することが容易で、クラスタの階層構造を得る
ことができる。【構成】１次元の自己組織化特徴マッピングを用い
て、入力データに対するプロトタイプ群からなるマップ
を作成するマップ作成部１１と、そのマップからクラス
タの階層構造を作成する階層構造作成部１２と、得られ
たマップと階層構造に従って入力データを分類するラベ
ル付け部１３とからなり、階層構造作成部１２が、得ら
れたマップからクラスタの集積度を表す量を計算し、デ
ータ列を作成するマップ解析部１２１と、得られたデー
タ列からクラスタの階層構造を作成するデータ列融合部
１２２とからなる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、クラスタ分類装置に関
し、特に、複数個のデータをその類似性によってクラス
タとしてまとめることにより複数個のクラスタに分類す
る装置に関する。

【０００２】

【従来の技術】複数個のデータをその類似性により複数
個のクラスタに分類する方法としては、代表的には最尤
推定法がある。この方法は、クラスタ数が既知で、それ
ぞれのクラスタの大まかな位置が分かっている場合に用
いることができる。まず、それぞれのクラスタ内のデー
タの分布を例えば正規分布等と仮定し、平均、分散等の
パラメータを近似的に計算する。次に、あるデータがそ
のクラスタに所属する確率（この場合は正規分布）から
識別関数を定義する。そして、パラメータから求められ
る識別関数の大小によりデータをクラスタに割り当てる
ことによってクラスタ分類を行う。

【０００３】クラスタ数が既知で、分布の形を仮定しな
い方法としては、Ｋ−ｍｅａｎｓ法、ＬＢＧ法がある。
これは、分類の良さに関する評価基準を定義し、１）各
クラスタの代表点の選出、２）その代表点を基にしたク
ラスタ分類、という操作を逐次繰り返すことにより評価
基準を最適化し、クラスタ分類を行う方法であり、非階
層的方法と呼ばれる。

【０００４】クラスタ数が未知で、分布の形も仮定でき
ない場合、すなわち、データに関する前知識が全然ない
場合は、階層的方法がある。これは、データ間及びクラ
スタ間に何らかの距離を定義して、それを基にデータを
逐次的に統合・分割し、クラスタ分類を行うものであ
る。

【０００５】また、データを自己組織化特徴マッピング
ニューラルネットワークに入力し、２次元のマップ上の
素子にデータを割り当て、その素子に対応するデータの
数からクラスタ分けをする手法が提案されている（Xueg
ong Zhang,Yanda Li,"SELF-ORGANIZING MAP AS A NEW M
ETHOD FOR CLUSTERING AND DATA ANALYSIS",Proceeding
s of the International Joint Conference on Neural
Networks,vol.3,pp.2448-2451,1993) 。

【０００６】

【発明が解決しようとする課題】上記のように、データ
をクラスタリングする従来の方法は、クラスタの数や位
置、分布の形を仮定しているものがほとんどである。と
ころが、一般的にクラスタ分類を行う場合、分類前はク
ラスタの数や分布の形は未知であることが多い。例え
ば、画像の領域分割を行うために特徴ベクトルをクラス
タ分類しようとした場合、分類前にクラスタの数や分布
の形状は未知である。

【０００７】前述の、最尤推定法やＫ−ｍｅａｎｓ法、
ＬＢＧ法は、クラスタの数、位置、分布の形状を仮定し
て行う方法であり、この場合、その仮定を間違えたり、
初期値としての与え方が不適当な場合、本来クラスタを
構成しているのにクラスタ分類されなかったり（過統
合）、１つのクラスタとされるべきものが複数のクラス
タに分類されたり（過分割）、本来所属すべきクラスタ
に分類されなかったり（誤分類）して、適正な結果は得
られなくなる。クラスタの数を順次変化させてそれぞれ
の場合を調べる方法が、特開平５−２０５０５８号に開
示されているが、分類処理をクラスタの数だけ繰り返さ
なければならず、アルゴリズムが複雑になる。かつ、そ
の場合、クラスタの数を正しく推定したとしても、その
位置、分布の仮定を間違えると、誤分類を生じ、適正な
分類はできない。

【０００８】また、従来のクラスタの数や分布の形状を
仮定しない階層的手法には、以下の問題点がある。Ａ−１）分割・統合処理の手順、及び、アルゴリズムの
初期状態の設定によって結果が大きく変化する。Ａ−２）統合されない（すなわち、クラスタ分類されな
い）データが残ってしまうことがある。Ａ−３）処理の経過、結果を表すことが難しく、何時処
理を終了するかを明確に判断できないため、過統合、過
分割が起こりやすい。

【０００９】前述のデータを自己組織化特徴マッピング
ニューラルネットワークに入力し、２次元のマップ上の
素子にデータを割り当て、その素子に対応するデータの
数からクラスタ分けをする方法では、処理の経過、結果
を表示することができる。しかし、この方法は２次元の
マップを用いており、視覚的には表示できるが、その結
果から、視覚的にではなく、計算的にクラスタを見つけ
る処理をするのは、大きな工数と複雑なアルゴリズムを
必要とする。

【００１０】以上の課題を整理すると、本発明のクラス
タ分類装置に求められる条件は、以下の通りである。Ｂ−１）クラスタの数、位置、分布の形等の前知識なし
に、過統合や過分割のない適正なクラスタ分類ができ
る。Ｂ−２）処理の手順に依存しないクラスタ分類ができ
る。Ｂ−３）処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。

【００１１】また、クラスタ分類においては、その応用
目的によって、分類後、さらに特定のデータに関して分
割したり統合すべき場合がある。このとき、クラスタの
階層構造が得られていれば、再統合、再分割は容易であ
る。よって、上記のＢ−１）、Ｂ−２）、Ｂ−３）の条
件に次のＢ−４）を加える。Ｂ−４）クラスタの階層構
造を得ることができる。

【００１２】本発明はこのような状況に鑑みてなされた
ものであり、その目的は、上記のＢ−１）、Ｂ−２）、
Ｂ−３）、Ｂ−４）の条件を満たして、クラスタの数、
位置、分布の形等の前知識なしに、過統合や過分割のな
い適正なクラスタ分類ができ、処理の手順に依存しない
で分類でき、処理の経過や結果を視覚的に見ることがで
き、しかもその結果を計算的に処理することが容易で、
かつ、クラスタの階層構造を得ることができるクラスタ
分類装置を提供することにある。

【００１３】

【課題を解決するための手段】上記の目的を達成する本
発明のクラスタ分類装置は、１次元の自己組織化特徴マ
ッピングを用いて、入力データに対するプロトタイプ群
からなるマップを作成するマップ作成部と、そのマップ
からクラスタの階層構造を作成する階層構造作成部と、
得られたマップと階層構造に従って入力データを分類す
るラベル付け部とからなることを特徴とするものであ
る。

【００１４】この場合、階層構造作成部は、得られたマ
ップからクラスタの集積度を表す量を計算し、データ列
を作成するマップ解析部と、得られたデータ列からクラ
スタの階層構造を作成するデータ列融合部とからなる場
合と、得られたマップからクラスタの集積度を表す量を
計算する集積度計算部と、クラスタの階層構造を作成す
るプロトタイプ融合部とからなる場合と、得られたマッ
プからクラスタの階層構造を作成するプロトタイプ融合
部のみからなる場合とが考えられる。

【００１５】

【作用】以下、上記のような構成を採用する理由と作用
について説明する。まず、本発明の構成の概略とその作
用を、図１のブロック図と、クラスタ分類の過程を簡単
に示す図２〜図６を参照にして説明する。まず、本発明
の構成の概略を示すと、図１に示したように、入力デー
タを入力してマップを作成するマップ作成部１１と、ク
ラスタの階層構造を作成する階層構造作成部１２と、階
層構造によってラベル付けされたマップと入力データか
ら入力データのラベル付けを行うラベル付け部１３から
なっている。

【００１６】階層構造作成部１２は、その一例として、
マップからクラスタの集積度に関係する量を計算し、デ
ータ列を作成するマップ解析部１２１と、そのデータ列
に基づいてクラスタの階層構造を作成するデータ列融合
部１２２から構成する。階層構造作成部１２についての
他の例は後述する。

【００１７】この構成のクラスタ分類装置の作用を示す
一例として、２次元のデータを３つのクラスタに分類す
ることを考える。その中の１つのクラスタは、さらに２
つのサブクラスタからなっているとする。ここでは、そ
の階層構造も得ることを考える。もちろん、クラスタ分
類前は、クラスタ数や分布の形状は未知である。

【００１８】まず、マップ作成部１１について説明す
る。マップ作成部１１は、データ入力部１１１とマップ
部１１２から構成される。データ入力部１１１におい
て、入力データ群２１を入力する。入力データ群２１
は、図２に示すような２次元ベクトルであり、大きく分
けて３つのクラスタ２１Ａ、２１Ｂ、２１Ｃを形成し、
その１つの２１Ａは２つのサブクラスタ２１Ａ１、２１
Ａ２からなっている。ただし、階層構造作成部１２の説
明までは、２１Ａが２つのサブクラスタ２１Ａ１、２１
Ａ２からなることは考慮しないこととする。

【００１９】次に、マップ部１１２で、入力データ群２
１を用いて、図３のマップ３１を作成する。マップ３１
は、複数個（ｋ個と置く。）の素子群３２によって構成
される。入力データ群２１のそれぞれのデータは、素子
群３２の何れかの素子に対応するようにする。具体的な
対応方法を述べる。まず、入力データ群２１に対するプ
ロトタイプ群３３を素子数個（ｋ個）だけ作成する。そ
して、各素子にそれぞれプロトタイプ群３３の１つを割
り当てる。そして、入力データ群２１の各々に対しその
入力データと最も類似しているプロトタイプを持つ素子
を対応させればよい。そのとき、入力データ群２１の
中、類似しているデータはそれぞれマップ３１上で近い
素子に対応し、類似していないデータはそれぞれマップ
３１上で遠い素子に対応するように、素子にプロトタイ
プを割り当てる。つまり、入力データ群２１の各データ
の位相情報をマップ３１に反映させるのである。

【００２０】このようにして、入力データ群２１から、
クラスタ２１Ａ〜Ｃに属するベクトルにそれぞれ対応す
る素子群３２Ａ〜Ｃからなるマップ３１を作成する。

【００２１】ここで注意しなくてはならないのは、クラ
スタ２１Ａ〜Ｃの記号は説明の便宜上付けたものであ
り、入力データ群２１は、クラスタ分類前に全くラベル
付けされていないことである。もし、クラスタ分類前に
いくつかの入力データがラベル付けされている場合は、
ラベル付けされていないデータに対して、マップ作成後
に簡単にクラスタ分類ができる。この方法を述べてお
く。１）あるラベル（例えばＡ）のクラスタ２１Ａに属
するデータに対応するマップ３１上の素子を選び、その
素子にラベルＡを与える。２）１）の操作を２１Ｂ、２
１Ｃのクラスタに属するデータに対しても行い、マップ
３１上の素子群にそれぞれＡ〜Ｃのラベルの何れかを与
える。３）ラベル付けしていない入力データ群２１に対
応するマップ上の素子を見つけ、その素子のラベルをそ
のデータのラベルとする。１）から３）の操作を行うこ
とにより、全ての入力データをラベル付けでき、クラス
タ分類が終了する。マップ３１をみると、上記の２）の
操作が終了しているようにも思われるが、入力データ群
２１は全くラベル付けされていないので、マップ３１の
どこにクラスタが存在しているかはまだ不明である。よ
って、マップ３１上のどこにクラスタが存在するかを見
つけるために、マップを解析しなくてはならない。

【００２２】そこで、マップ上のどこにクラスタが存在
するかを見つけるために、マップ作成部１１で作成され
たマップ３１をマップ解析部１２１で解析する。以下、
マップ解析部１２１について説明する。マップ解析部１
２１は、各素子に対しクラスタの集積度に関する量を計
算する集積度計算部１２１Ａと、その結果に従ってデー
タ列を作成するデータ列作成部１２１Ｂからなる。クラ
スタの集積度を示す量としては、以下のような量が挙げ
られる。

【００２３】Ｃ−１）マップ３１上の素子群３２の各素
子に対応する入力データ群の数。

【００２４】Ｃ−２）マップ３１上のある１つの素子に
割り当てられたプロトタイプと、その素子とマップ３１
上で隣接する素子に割り当てられたプロトタイプとの類
似性。クラスタは、データ群の空間において類似してい
るデータが集まったものである。この性質を用いて、上
記のＣ−１）、Ｃ−２）の量がクラスタの集積度を示す
理由を説明する。

【００２５】クラスタ内のデータは、クラスタ外に比べ
て多いという性質から、素子に対応する入力データの数
を比較すれば、クラスタ中心付近のデータに対応する素
子の場合は、対応するデータ数は多くなり、クラスタ中
心から外れたデータに対応する素子の場合は対応するデ
ータ数は少なくなるはずである。よって、Ｃ−１）の量
を用いれば、図４（ａ）のように、山の部分がクラスタ
を示すヒストグラムが作成される。以下、この量を勝利
数Ｖとも表記する。

【００２６】次に、Ｃ−２）の量について説明する。前
述のように、マップ上で隣接する素子のそれぞれのプロ
トタイプは、入力データ空間でも類似している。また、
クラスタ内のデータは類似しているという類似性から、
そのプロトタイプの類似度は、クラスタ内では高く、ク
ラスタ外では低いといえる。この２つのことから、マッ
プ上で隣接するそれぞれの素子のプロトタイプ同志を比
較することにより、その類似度からその素子の対応する
入力データがクラスタ中心かクラスタ外かを区別できる
ことが分かる。具体的に述べると、マップ上で隣接する
それぞれの素子のプロトタイプ同志の類似度が高けれ
ば、その素子はクラスタ中心付近のデータに対応する素
子であり、逆に、マップ上で隣接するそれぞれの素子の
プロトタイプ同志の類似度が低ければ、その素子はクラ
スタ中心から外れたデータに対応する素子である。類似
度として、例えば２次元ベクトルデータの場合、そのユ
ークリッド距離を選べば、距離が大きければ類似度は低
く、距離が小さければ類似度は高くなる。このとき、Ｃ
−２）の量を用いてヒトスグラムを作成すれば、図４
（ｂ）のように、山から山までがクラスタを表すように
なる。以下、この量を隣接素子間の類似度ｄＭとも表記
する。

【００２７】なお、勝利数Ｖと隣接素子間の類似度ｄＭ
の定義から、Ｖ／ｄＭの量もクラスタの集積度を表すこ
とが分かる。このときは、谷から谷までの山がクラスタ
を表す。

【００２８】このようなヒストグラムの性質から、図４
（ａ）の場合は山、図４（ｂ）の場合は谷を分割するこ
とがマップをクラスタ毎に分割することに相当する。よ
って、このヒストグラムの山あるいは谷の数がクラスタ
数に対応する。各山あるいは谷に相当するマップ上の素
子がクラスタのプロトタイプに相当するので、この時点
で適当な数のクラスタ分類ができたことになる（この場
合は、３つ）が、階層構造を求めるために、次の操作を
行う。

【００２９】まず、ヒストグラムの諸量から、データ列
作成部１２１Ｂでデータ列を作成する。このデータ列に
ついて説明する。素子ｉに対応する勝利数、隣接素子間
の類似度をそれぞれＶ_i、ｄＭ_iとする。そして、式
（１）のようなデータ列｛Ｘ_k｝を作成する。

【００３０】図４のようなヒストグラムの場合、データ列｛Ｘ_k｝を
数直線上にプロットしたのが図５である。このように、
データ列｛Ｘ_k｝は、図４（ａ）では山、図４（ｂ）で
は谷に相当する部分に、数直線上でクラスタを形成して
いることが分かる。｛Ｘ_k｝を定性的に説明する。ま
ず、素子ｋの重みベクトルの座標をｎ次元空間上で折れ
線でつなぐ。そして、Ｘ_kは、折れ線を一直線に伸ばし
たときの線上での素子ｋの座標であるといえる。このと
き、データ列｛Ｘ_k｝のｉ番目の点は、マップ３１のｉ
番目の素子に対応していることになる。つまり、複数の
クラスタからなるｎ次元ベクトル入力データを、クラス
タが抽出しやすいように、１次元データ集合に変換した
と考えることができる。

【００３１】また、Ｖ_iはマップ３１上のｉ素子に対応
する入力データ群の数であることから、図５のデータ列
｛Ｘ_k｝において、各点の個数がＶ_kであるという情報
を付加すれば、さらにクラスタを抽出しやすくすること
ができる。

【００３２】次に、データ列作成部１２１Ｂで作成した
データ列｛Ｘ_k｝を用いて、データ列融合部１２２で階
層構造を作成する。この階層構造は、データ列｛Ｘ_k｝
において近い値は逐次融合しながら最終的に一つになる
まで融合し、その過程を表示することによって作成す
る。例えば、この場合、階層構造は図５のようになる。
融合過程については、詳しく後述する。

【００３３】前述のように、ヒストグラムの分割によっ
て、大きく分けてクラスタの数は３であることは判明し
ていたが、その階層構造は図５のようになっていること
が分かる。

【００３４】以上のデータ列融合部１２２で作成された
階層構造に基づいて、ラベル付け部１３で入力データに
ラベル付けする。ラベル付け部１３は、階層構造に基づ
いてマップにラベルを付けるマップラベル部１３１と、
ラベル付けするデータを入力するデータ入力部１３２
と、その入力データにラベルを付けるデータラベル部１
３３によって構成される。

【００３５】マップラベル部１３１では、階層構造に基
づいてマップにラベル付けを行う。階層構造に基づい
て、例えば図６に示すように、マップにＡ、Ｂ、Ｃとい
うラベルを与えて、マップ６１とする。次に、入力デー
タ群２１を再びデータ入力部１３２によって入力し、そ
の入力データ群２１のラベル付けを行う。ラベル付けに
は、その入力データ群２１と、ラベル付けをしたマップ
６１を用いる。具体的には、入力データ群２１に対応す
るマップ６１上の素子を見つけ、その素子のラベルをそ
のデータのラベルとすればよい。全てのデータ群２１に
対し、ラベル付けが終了すれば、図６に示すように、入
力データ群２１がＡ、Ｂ、Ｃの３つのクラスタに分類さ
れたことになる。図６では、Ａ、Ｂ、Ｃそれぞれのクラ
スタに所属するデータを丸で囲んである。ここで、この
丸は、説明の便宜上、データのあるところを囲むために
つけたもので、厳密な分離境界線を示している訳ではな
い。なお、前述のように、図２の入力データは予めラベ
ル付けされていない。ラベル付け部１３で初めてラベル
付けされることに注意する。ここで、便宜上、図２のラ
ベルと図６のラベルは一致させてある。

【００３６】なお、さらに特定の部分だけ再分割、統合
する場合は、階層構造に基づいて行えばよい。図５の階
層構造から、マップ６１ａ）のように、Ａ、Ｂは１つの
クラスタとして再統合させてもよいことが分かるし、さ
らに、Ａを再分類するには、マップ６１ｂ）のように、
Ａ１、Ａ２として分類することが可能である。このこと
は、後の実施例で示す。

【００３７】以上が本発明のクラスタ分類装置の作用の
概略であり、図２のデータ群２１が、図６のように大き
く分けてＡ、Ｂ、Ｃの３つのクラスタに分類され、階層
構造が図５のように求められたことになる。本作用は、
クラスタの数、位置、分布の形等の前知識を必要として
いないことは明らかであり、本発明のクラスタ分類装置
に求められる条件のＢ−１）を満たしている。

【００３８】続いて、Ｂ−２）…処理の手順に依存しな
いクラスタ分類ができる…ことと、Ｂ−３）…処理の経
過や結果を視覚的に見ることができ、しかもその結果を
計算的に処理することが容易である…という条件を本発
明が満たすことを示す。そのために、マップ作成部１１
についてさらに詳しく説明する。

【００３９】前述のように、マップ作成部１１では、デ
ータ群のプロトタイプを作成し、入力データの位相を反
映するように、そのプロトタイプをマップの素子に割り
当てることを行う。プロトタイプの作成は、ベクトル量
子化法を用いれば可能だが、入力データの位相を反映す
るようにそのプロトタイプをマップの素子に割り当てる
ことはできない。プロトタイプの作成と入力データの位
相を反映するためのプロトタイプの割り当てを同時に行
う方法は、コホーネンによる自己組織化特徴マッピング
（以下、ＳＯＭと表記する。）のアルゴリズムがある
（T.Kohonen,"Self-Organization and Associative Mem
ory",Third Edition,Springer-Verlag,Berlin,1989) 。
以下、このＳＯＭについて説明する。

【００４０】ＳＯＭは、図７に模式的に示すように、２
次元に並ぶ素子群の層ＭＬ（以下、マップ層ＭＬと表記
する。）と、データを入力する入力層ＩＰから構成され
る。このマップ層ＭＬは、図７では２次元に並ぶ素子を
示したが、１次元に並ぶ素子を用いてもよい。入力層Ｉ
Ｐは、マップ層ＭＬの全ての素子と結合しており、入力
データをマップ層ＭＬの全ての素子に与えることができ
る。入力データは、スカラーでもベクトルでもかまわな
いが、ここでは一般的に、ベクトルｘ（ｎ次元）とお
く。マップ層ＭＬの素子ｉ（ｉはマップ上の順番とし、
全素子数をｋ個とする。）は、全て重みベクトルｍ_i
(ｎ次元）を持つことにする。ＳＯＭのアルゴリズム
は、入力ベクトルｘと各素子の重みベクトルｍ_iとの類
似性から更新すべき重みベクトルを決定する＜類似性マ
ッチング＞と、その重みベクトルｍ_iを入力ベクトルｘ
の方に近付ける＜更新＞とに分けられる。そして、両者
の作用を繰り返すことにより、入力ベクトルｘの分布を
反映する重みベクトルｍ_i（１≦ｉ≦ｋ）が生成する。
＜類似性マッチング＞と＜更新＞の具体的な表式を以下
に示す。

【００４１】＜類似性マッチング＞＜更新＞ｍ_i（ｔ＋１）＝ｍ_i（ｔ）＋α（ｔ）｛ｘ（ｔ）−ｍ_i（ｔ）｝ｉ∈Ｎ_c ｍ_i（ｔ＋１）＝ｍ_i（ｔ）その他・・・（３）ここで、｜ｘ−ｍ_i｜はｘとｍ_iのユークリッド距離、
Ｃはその距離が最も小さかった素子（勝利素子）、Ｎ_c
はその勝利素子Ｃのマップ層ＭＬでの近傍、α（ｔ）は
正の定数、ｔは時刻を示す。更新を繰り返しながら、Ｎ
_cとα（ｔ）の大きさは徐々に小さくする。また、α
（ｔ）は勝利素子Ｃから離れるに従い、小さくなるよう
に選ぶこともできる。

【００４２】入力ベクトルｘの集合からランダムにｘを
選んで逐次入力し、重みベクトルｍ_iの更新を繰り返す
ことにより、入力ベクトルｘの分布を反映する重みベク
トルｍ_i（１≦ｉ≦ｋ）が生成する。すなわち、重みベ
クトルｍ_i（１≦ｉ≦ｋ）が入力ベクトルｘの分布のプ
ロトタイプになっている。そして、ある素子の重みベク
トルを入力ベクトルに近付けるように更新するとき、マ
ップ上のその素子の近傍の素子も同様に更新するので、
マップ上で隣接する素子同志は、それぞれ、入力ベクト
ルの空間上でも近いベクトルに対応するようになる。よ
って、ＳＯＭアルゴリズムは、入力データ空間の位相を
反映したプロトタイプの集合を作成することができる。
ＳＯＭアルゴリズムには、次のような特長がある。

【００４３】Ｄ−１）重みベクトルｍ_i（１≦ｉ≦ｋ）
の初期状態によらず、適正なマップが作成できる。Ｄ−２）入力ベクトルｘの入力順によらず、適正なマッ
プが作成できる。Ｄ−３）マップが１次元か２次元であるので、入力デー
タの位相を視覚的に見ることができる。Ｄ−４）＜類似性マッチング＞と＜更新＞という単純な
操作の繰り返しなので、アルゴリズムが簡単である。

【００４４】ここで、適正なマップとは、プロトタイプ
の集合が入力データの位相をよく反映しているものをい
う。Ｄ−１）、Ｄ−２）の特長は、本発明のクラスタ分
類装置に求められる、Ｂ−２）…処理の手順に依存しな
いクラスタ分類ができる…という条件を満たすものであ
る。Ｄ−３）の特長は、Ｂ−３）…処理の経過や結果を
視覚的に見ることができ、しかもその結果を計算的に処
理することが容易である…という条件に寄与する。

【００４５】しかし、マップが２次元の場合は、視覚的
に見ることができるが、その結果を計算的に処理するこ
とは容易ではない。マップを１次元にすると、１次元の
ヒストグラムは２次元以上のヒストグラムに比べ、計算
処理がかなり容易になる。よって、Ｂ−３）の条件を満
たすことができる。

【００４６】ＳＯＭアルゴリズムのこのような有効性よ
り、マップ作成部１１では、この１次元のＳＯＭアルゴ
リズムを採用する。すなわち、マップ作成部１１のデー
タ入力部１１１をＳＯＭの入力層ＩＰ、マップ部１１２
をＳＯＭのマップ層ＭＬとする。この構成により、入力
データの位相を反映するプロトタイプの集合を作成し、
そのプロトタイプを持つ素子からなる１次元マップを作
成する。このマップ作成部１１を具備した本発明のクラ
スタ分類装置は、前述のように、Ｂ−２）、Ｂ−３）の
条件を満たすことが可能である。

【００４７】なお、マップ作成部１１で行うＳＯＭアル
ゴリズムにおいては、ヒストグラムの山と谷がはっきり
した時点でマップ３１の作成が終了となる。このとき、
入力データ群２１の全てのデータを入力していなくて
も、作成を終了してよい。もし、入力データ群２１の全
てのデータを入力した時点でヒストグラムの山と谷がは
っきりしていない場合は、再び入力データ群２１を入力
して、山と谷がはっきりしたときにマップ作成を終了す
ればよい。ヒストグラムの山と谷がはっきりしたかどう
かの判断は、視覚的に容易にできるが、ヒストグラムの
山と谷がはっきりしたかどうかを表す評価基準（グラフ
の平滑度、最大値と最小値の相対比等）を用意すれば、
自動的に判断することも可能である。この場合も、明ら
かに１次元のヒストグラムの方が２次元のヒストグラム
より処理が容易である。なお、ヒストグラムを用いなく
ても、ＳＯＭアルゴリズムが進むにつれて入力データ群
２１とそれに対応するプロトタイプの差が次第に小さく
なることを利用し、その値またはその変化率があるしき
い値より小さくなったときにマップ３１の作成を終了し
てもよい。

【００４８】続いて、Ｂ−４）…クラスタの階層構造を
得ることができる…という条件を本発明が満たすことを
示す。そのために、階層構造作成部１２について、さら
に詳しく説明する。階層構造作成部１２では、前述のよ
うに、複数のクラスタからなるｎ次元ベクトル入力デー
タをクラスタが抽出しやすいように、図５のような１次
元データ集合に変換してから、そのデータの階層構造を
得る。

【００４９】このような階層構造を得る手法として、メ
ルティングアルゴリズムがある（Kenneth Rose et a
l.,"Statistical Mechanics and Phase Transition in
Clustering",Phys.Rev.Lett.65,pp.945-948(1990)）。
このアルゴリズムは、あるベクトルデータとそれに対す
るプロトタイプの集合からエネルギー関数を定義し、そ
のエネルギーの局所極小解（ここでは、プロトタイプの
集合を解とする。）が、クラスタを表すことを利用す
る。エネルギー関数の形は、温度パラメータによって変
更され、一般に温度が上昇するにつれて滑らかになり、
かつ、局所解の数は少なくなる。つまり、温度が上昇す
るにつれて、プロトタイプの数が減少する。プロトタイ
プはクラスタを代表するものと考えてよいので、プロト
タイプの座標と温度の関係を表示すれば、階層構造が分
かる。

【００５０】メルティングアルゴリズムの更新則につい
て、式を用いて説明する。データをｘ、プロトタイプを
ｙとし、分配関数Ｚ、フリーエネルギーＦを次式で表
す。ここで、Σ、Πの下の添字はそれぞれその記号によ
る和、及び、積を示す。ＦにＺを代入し、Ｆの極小値を求めるために、∂Ｆ／∂
ｙ＝０を解く。この結果、プロトタイプｙは次式のよう
になる。

【００５１】この式がメルティングアルゴリズムのプロトタイプｙの
更新則である。ある温度Ｔにおいて、この更新則を行
い、ｙを求める。そして、温度Ｔを上昇させ、再びこの
更新則を行い、ｙを求める。温度Ｔが上昇するにつれ
て、Ｆの局所極小値の数は次第に減少し、最終的には１
つになる。Ｆの局所極小値は、クラスタのプロトタイプ
に相当している。温度Ｔを低温から高温に上昇させるに
つれて、クラスタのプロトタイプは近いもの同志が融合
する。そこで、温度Ｔとクラスタのプロトタイプｙの関
係をグラフに表せば、クラスタの階層構造が得られるこ
とになる。プロトタイプの表示は、ｙ座標をそのまま表
示してもよいし、１次元に並んだＳＯＭのプロトタイプ
と対応付けて表してもよい。

【００５２】メルティングアルゴリズムは、データｘが
２次元以上になると、プロトタイプの表示が困難にな
る、孤立点が融合し難い、等の欠点がある。しかし、マ
ップ解析部１２１で作成されたデータ集合は１次元であ
り、また、マップ作成部１１で作成されたｎ次元ベクト
ルデータのプロトタイプ群から生成されているので、孤
立点は生成され難い。また、メルティングアルゴリズム
は、入力データの次元が大きくなると計算量が増すが、
この場合のデータ列は、本クラスタ分類装置が分類すべ
き入力データの次元にかかわらず、１次元なので、計算
量は一定である。以上のことから、メルティングアルゴ
リズムの欠点は解決できる。

【００５３】よって、階層構造作成部１２では、このメ
ルティングアルゴリズムを用いて、１次元データ集合か
らそのデータの階層構造を得る。階層構造作成部１２に
このメルティングアルゴリズムを用いた本発明は、Ｂ−
４）…クラスタの階層構造を得ることができる…という
条件を満たしている。

【００５４】なお、適当なクラスタ数は、集積度計算部
１２１Ａでヒストグラムを解析することによって分かる
が、データ列融合部１２２においても求めることができ
る。適当なクラスタ程、メルティングアルゴリズムにお
いて、そのプロトタイプが生じている温度範囲が長いと
いえる。よって、プロトタイプが融合されずに残ってい
る温度範囲が長いときのクラスタの数を適当なクラスタ
の数とすればよい。ノイズ等でヒストグラムの山谷が微
妙になり解析困難な場合、データ列融合部１２２でクラ
スタ数を求めればよい。

【００５５】以上、本発明のクラスタ分類装置の構成と
作用を説明した。本発明のクラスタ分類装置は、次のＢ
−１）、Ｂ−２）、Ｂ−３）、Ｂ−４）の条件を満た
す、以下のようなクラスタ分類装置である。

【００５６】すなわち、１次元の自己組織化特徴マッピ
ングを用いて、入力データに対するプロトタイプ群から
なるマップを作成するマップ作成部と、そのマップから
クラスタの階層構造を作成する階層構造作成部と、得ら
れたマップと階層構造に従って入力データを分類するラ
ベル付け部とからなることを特徴とするクラスタ分類装
置である。

【００５７】この場合、階層構造作成部は、図１のよう
に、得られたマップからクラスタの集積度を表す量を計
算し、データ列を作成するマップ解析部と、得られたデ
ータ列からクラスタの階層構造を作成するデータ列融合
部とからなる場合と、後記する図１１（ｂ）のように、
得られたマップからクラスタの集積度を表す量を計算す
る集積度計算部と、クラスタの階層構造を作成するプロ
トタイプ融合部とからなる場合と、後記の図１１（ａ）
のように、得られたマップからクラスタの階層構造を作
成するプロトタイプ融合部のみからなる場合とが考えら
れる。

【００５８】Ｂ−１）クラスタの数、位置、分布の形等
の前知識なしに、過統合や過分割のない適正なクラスタ
分類ができる。Ｂ−２）処理の手順に依存しないクラスタ分類ができ
る。Ｂ−３）処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。

【００５９】Ｂ−４）クラスタの階層構造を得ることが
できる。

【００６０】

【実施例】以下、本発明のクラスタ分類装置の実施例に
ついて説明する。クラスタ分類の表示を簡単にするため
に、再び、図２のような２次元ベクトルデータをクラス
タに分け、かつ、階層構造を求める場合の実施例を示
す。まず、本発明の第１実施例として、図２と同じ２次
元ベクトルデータを入力する場合を示す。本実施例は、
マップ部１１２のマップ３１の素子の数を３０にしてい
る。

【００６１】まず、図４（ａ）に相当するヒストグラム
を図８に示す。図８によると、３つの山が形成されてお
り、入力データ群２１が３つのクラスタからなることが
視覚的に明確である。次に、階層構造作成部１２で求め
た階層構造を図９に示す。この図から、分類（ａ）、
（ｂ）、（ｃ）の３種類でプロトタイプを分け、マップ
６１ａ）、６１、６１ｂ）により、入力データ群２１を
分割した結果を図１０に示す。

【００６２】なお、マップ部１１２の１次元マップは、
マップの素子が両側でつながるリング状にしても、切り
離した紐状にしてもよい。両者は、素子の重みの更新の
際の近傍の概念が異なる。リング状の場合は、マップの
両側を近傍としてつなぐことに相当し、紐状の場合はマ
ップの両側を近傍としないことに相当する。リング状の
場合は、マップの両側で、入力データの位相関係の反映
が歪む＜ＢｏｒｄｅｒＥｆｆｅｃｔｓ＞(T.Kohonen,"Th
ings You Haven't Heard about the Self-Organizing M
ap",Proc. IEEE Int. Conf. on Neural Network,vol.3,
pp.1147-1156,1993)を除くことができる。紐状の場合
は、両側が必ず切れているので、ヒストグラムで表した
り、階層構造を表す際、便利である。この場合、境界効
果を除くためには、両側の素子は、メルティングアルゴ
リズムの入力データとしない、ヒストグラムの横軸から
除く、等をすればよい。

【００６３】メルティングアルゴリズムにおいて、デー
タ｛Ｘ_k｝を（６）式のｘに代入することによりｙを求
めた。ここで、ｋ番目のデータの個数がＶ_kである、と
いう付加情報を更新式に入れることができる。このと
き、更新式は（７）式のようになる。

【００６４】更新式を、（６）式の代わりに（７）式のようにした場
合、Ｖのヒストグラムの山谷の大小がクラスタの階層構
造の決定に寄与することになる。したがって、Ｖの小さ
な孤立点はプロトタイプになり難くなり、前述のような
メルティングアルゴリズムの欠点である、孤立点がクラ
スタになりやすいという問題を解決できる。ただし、デ
ータ列は、その作成過程より、孤立点が生じ難くなって
いるので、特に、入力データの分布がノイズが少ない滑
らかな場合は、（６）式、（７）式の何れを用いてもよ
いが、入力データの分布にノイズが多く、データ列に孤
立点が生じやすいときは（７）式を用いると効果があ
る。本実施例では（７）式を使った。

【００６５】また、（６）式において、Ｐ（ｘ∈ｙ）を
ｙに代入し、ｘの依存性を無視して、Ｐ（ｘ∈ｙ）の分
母をはらうと、（８）式のようになる（Yui-fai Wong,"
Clustering Data by Melting",Nural Computation,5,89
-104(1993)）。

【００６６】（８）式は（６）式に比べて、指数関数の和の回数が少
ないので、計算量が少なくなり、アルゴリズムを高速化
することができる。よって、階層構造作成部１２では、
（８）式のメルティングアルゴリズムを用いてもよい。
また、（８）式に（７）式と同様にＶの項を加えてもよ
い。上記の実施例の階層構造作成部１２は、図１のよう
に、まず、データ列を作成して、そのデータの融合によ
り階層構造を作成した。

【００６７】階層構造作成部１２では、この他に、図１
１（ａ）のように、マップ部１１２で作成したＳＯＭの
プロトタイプが１次元で配列していることを利用して、
そのｎ次元ベクトルのプロトタイプから、直接、階層構
造を作成してもよい。この場合は、マップ層のｎ次元プ
ロトタイプのベクトルを、直接プロトタイプ融合部１５
１のメルティングアルゴリズムの入力とし、融合して得
られたプロトタイプを表示すればよい。プロトタイプの
表示は、１次元に並んだＳＯＭのプロトタイプと対応づ
けることにする。図１１（ａ）は、メルティングアルゴ
リズムの更新として（６）式あるいは（８）式を用いた
場合であり、Ｖを用いた（７）式を使う場合は、図１１
（ｂ）のように、階層構造作成部１２でプロトタイプ融
合部１５１の前に集積度計算部１５２を備えればよい。

【００６８】なお、図１と図１１（ａ）、（ｂ）の何れ
の構成にしても、メルティングアルゴリズムの次元が異
なるが、そのアルゴリズムの本質は同様であるので、融
合過程は同様の結果を得ることができる。よって、本実
施例の結果は、図１の構成の場合のみを示した。図１の
場合は、本クラスタ分類装置が分類すべき入力データの
次元にかかわらず、メルティングアルゴリズムの次元数
を１次元とすることができ、また、図１１（ａ）、
（ｂ）では、プロトタイプをそのまま融合するので、デ
ータ列作成部１２１Ｂを省略することができる。

【００６９】上記の実施例の入力データは、全て２次元
のベクトルであったが、データ入力部１１１、１３２と
マップ部１１２のプロトタイプ３３の次元数を変えるこ
とにより、多次元ベクトルにもスカラーにもすることが
できる。

【００７０】次元を変えた場合の例として、図１２に３
次元ベクトル５クラスタの場合のヒストグラムと得られ
た階層構造を示す。また、次元とヒストグラムの量を変
えた場合として、図１３に４次元４クラスタの場合の
Ｖ、ｄＭ、Ｖ／ｄＭのヒストグラムと得られた階層構造
の例を示す。図１３のヒストグラムによると、適当なク
ラスタ数を見つける場合は、ｄＭあるいはＶ／ｄＭを用
いると、解析しやすいことが分かる。これは、前記の境
界効果と、ＳＯＭのもう１つの性質である、アルゴリズ
ムが進むにつれて勝つ数が均等化する等確率性によるも
のである。

【００７１】多次元ベクトルの場合、データをそのまま
座標軸上に表すことが困難であるため、本発明のよう
に、視覚的にクラスタが発見でき、かつ、階層構造が分
かることは有効である。

【００７２】本発明の入力データとしては、任意の大き
さのスカラー、ベクトルを選んでよい。すなわち、ＳＯ
Ｍアルゴリズムは、Ｄ−１）…重みベクトルｍ_i（１≦
ｉ≦ｋ）の初期状態によらず、適正なマップが作成でき
る…という特長があるので、データを予め規格化した
り、データの特徴（クラスタ数、クラスタ位置等）を知
る必要がない。よって、画像情報、音声情報、通信記
号、時系列データ等、あらゆる入力データに対し、クラ
スタ分類が可能である。

【００７３】

【発明の効果】以上述べたように、本発明によると、以
下の条件を満たすクラスタ分類装置を提供することがで
きる。

【００７４】Ｂ−１）クラスタの数、位置、分布の形等
の前知識なしに、過統合や過分割のない適正なクラスタ
分類ができる。Ｂ−２）処理の手順に依存しないクラスタ分類ができ
る。Ｂ−３）処理の経過や結果を視覚的に見ることができ、
しかもその結果を計算的に処理することが容易である。

【００７５】Ｂ−４）クラスタの階層構造を得ることが
できる。

【図面の簡単な説明】

【図１】本発明の基本的な構成の概略を示す図である。

【図２】本発明によりクラスタ分類するデータの例を示
す図である。

【図３】図１のマップ作成部で作成するマップを示す図
である。

【図４】図１の集積度計算部で計算する勝利数と隣接素
子間の類似度の分布図である。

【図５】図１のデータ列作成部で作成したデータ列とデ
ータ列融合部で作成したクラスタの階層構造を示す図で
ある。

【図６】ラベル付け部でラベル付けしたマップとデータ
を示す図である。

【図７】自己組織化特徴マッピングの構造を示す図であ
る。

【図８】本発明の１実施例の勝利数のヒストグラムを示
す図である。

【図９】本発明の１実施例のクラスタの階層構造を示す
図である。

【図１０】本発明の１実施例でラベル付けしたデータを
示す図である。

【図１１】本発明の階層構造作成部の別の構成例を示す
図である。

【図１２】３次元ベクトル５クラスタの場合の勝利数の
ヒストグラムとクラスタの階層構造を示す図である。

【図１３】４次元ベクトル４クラスタの場合の勝利数と
隣接素子間の類似度とそれらの比のヒストグラムとクラ
スタの階層構造を示す図である。

【符号の説明】

１１…マップ作成部１２…階層構造作成部１３…ラベル付け部２１…入力データ群２１Ａ、２１Ｂ、２１Ｃ…クラスタ２１Ａ１、２１Ａ２…サブクラスタ３１…マップ３２…素子群３２Ａ、３２Ｂ、３２Ｃ…素子群３３…プロトタイプ群６１、６１ａ）、６１ｂ）…マップ１１１…データ入力部１１２…マップ部１２１…マップ解析部１２２…データ列融合部１２１Ａ…集積度計算部１２１Ｂ…データ列作成部１２２…データ列融合部１３１…マップラベル部１３２…データ入力部１３３…データラベル部１５１…プロトタイプ融合部１５２…集積度計算部Ｖ…勝利数ｄＭ…隣接素子間の類似度ＭＬ…マップ層ＩＰ…入力層

Claims

【特許請求の範囲】

【請求項１】１次元の自己組織化特徴マッピングを用
いて、入力データに対するプロトタイプ群からなるマッ
プを作成するマップ作成部と、そのマップからクラスタ
の階層構造を作成する階層構造作成部と、得られたマッ
プと階層構造に従って入力データを分類するラベル付け
部とからなることを特徴とするクラスタ分類装置。
【請求項２】請求項１において、階層構造作成部が、
得られたマップからクラスタの集積度を表す量を計算
し、データ列を作成するマップ解析部と、得られたデー
タ列からクラスタの階層構造を作成するデータ列融合部
とからなることを特徴とするクラスタ分類装置。
【請求項３】請求項１において、階層構造作成部が、
得られたマップからクラスタの集積度を表す量を計算す
る集積度計算部と、クラスタの階層構造を作成するプロ
トタイプ融合部とからなることを特徴とするクラスタ分
類装置。
【請求項４】請求項１において、階層構造作成部が、
得られたマップからクラスタの階層構造を作成するプロ
トタイプ融合部のみからなることを特徴とするクラスタ
分類装置。