JP2010205043A

JP2010205043A - パターン学習方法、装置、およびプログラム

Info

Publication number: JP2010205043A
Application number: JP2009050718A
Authority: JP
Inventors: Seiji Yoshimoto; 誠司吉本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2010-09-16

Abstract

【課題】パターン間の類似度を良好に反映したパターン学習を実現するための技術を提供する。
【解決手段】非類似度計算手段は、入力パターンの定義域内において所定の分布に従って発生するパターンの各成分の値が、パターンＸ（１）の成分の値とパターンＸ（２）の成分の値の間の範囲に入る確率を算出し、その確率を基にして、パターンＸ（１）とパターンＸ（２）との非類似度を算出する。学習手段は、非類似度計算手段で算出された非類似度を利用した評価により、パターンが属するカテゴリーのパラメータ値を決定する。
【選択図】図１

Description

本発明は、複数のパターンからパターンが属するカテゴリーのパラメータ値を決定するパターン学習技術に関する。

与えられた複数の学習パターンを基にした学習によって、カテゴリーを代表する代表点のような、カテゴリーに関するパラメータ値を求めるパターン学習という技術がある。パターン学習は、画像認識、音声認識、データマイニングなど幅広い分野に応用される技術である。

これらの応用分野では、必ずしも、容易に比較できるようなパターンが入力されるとは限らない。例えば、パターンの次元が高く、また入力されるパターンの一部が欠けている場合や、データに外れ値が含まれる場合が多い。そのためパターン学習では、学習や学習結果に基づいた識別において、データ欠損や外れ値に対してロバスト性を高め、また高次元のパターンにも対応できるようにすることが求められる。

上述したように、パターン学習におけるひとつの課題はデータ欠損や外れ値などのノイズである。良好なパターン学習を行うために、通常、前処理として入力パターンに対してノイズ除去が施される。しかし、比較すべき特徴の一部のデータが欠けている場合や、データに外れ値が含まれている場合、それらのノイズを除去することは容易では無い。

例えば、指紋分類では、比較すべき部分に対応する特徴量が必ずしも検出できるとは限らない。そのような場合には一部の特徴量が欠損した状態でパターンの分類を行うことが必要となる。また、画像認識においてオクルージョンがあれば、本来比較すべき対象ではない部分画像が混入した画像パターンを比較に用いなければならなくなる。また、音声認識において、突発的な短時間ノイズが重畳された音声パターンを比較に用いなければならない場合がある。

ノイズを含むパターンに対するパターン学習のロバスト性を高める方法の１つとして、順序尺度を使うというアプローチがある。特許文献１には、順序尺度を使うことによって照明強度の変化などに対するロバスト性を高める方法が記載されている。また、特許文献２には、同じカテゴリー間の類似度として距離の逆数を用いる投票法によって、外れ値に対処する方法が示されている。

パターン学習におけるもうひとつの課題は、パターンの次元が高くなるに従ってパターンの識別精度が低下するということである。この原因は、高次元空間における球面集中現象によって近傍判定が不安定になることである。これは「次元の呪い」として知られている（非特許文献１参照）。

この問題を回避する１つの方法は、次元を削減することである。次元を削減する手法としては主成分分析や多次元尺度法などがよく使われるが、それらの他にも数多くの次元削減手法が提案されている。非特許文献２には効率的に次元を削減するための代表的な方法が解説されている。

しかしながら、次元を削減する際に、必ずしもパターンの識別に適した特徴が選ばれるとは限らない。そのため、パターンの類似度あるいは非類似度を変えることによって学習性能の向上を図る方法も提案されている。

非特許文献３には、Ｄ次元空間における距離尺度として、Ｌ₂ノルムの代わりにＬ_1/kノルム（ｋは２以上の整数）を用いることによって、近傍判定精度が改善することが示されている。また、非特許文献３には、このＬ_1/kノルムを用いることによってノイズに対するロバスト性も向上することが報告されている。

特開２００６−３９６５８号公報特開２００４−３４１９３０号公報

Ｋ．Ｓ．Ｂｅｙｅｒ，Ｊ．Ｇｏｌｄｓｔｅｉｎ，Ｒ．Ｒａｍａｋｒｉｓｈｎａｎ，Ｕ．Ｓｈａｆｔ：ＷｈｅｎＩｓ "ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ" Ｍｅａｎｉｎｇｆｕｌ？，ｉｎＰｒｏｃｅｅｄｉｎｇｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａｂａｓｅＴｈｅｏｒｙ，ＬｅｃｔｕｒｅＮｏｔｅｓＩｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｖｏｌ．１５４０，ｐｐ．２１７−２３５，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，Ｌｏｎｄｏｎ，１９９９．神嶌：データマイニング分野のクラスタリング手法（２）−大規模データへの挑戦と次元の呪いの克服−，人工知能学会誌，１８，Ｎｏ．２，ｐｐ．１７０−１７６，２００３．Ｃ．Ｃ．Ａｇｇａｒｗａｌ，Ａ．Ｈｉｎｎｅｂｕｒｇ，Ｄ．Ａ．Ｋｅｉｍ：ＯｎｔｈｅＳｕｒｐｒｉｓｉｎｇＢｅｈａｖｉｏｒｏｆＤｉｓｔａｎｃｅＭｅｔｒｉｃｓｉｎＨｉｇｈＤｉｍｅｎｓｉｏｎａｌＳｐａｃｅ，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｖｏｌ．１９７３，Ｓｐｒｉｎｇｅｒ，２００１．

特許文献１の方法は、非類似度を順序尺度に変換することにより照明強度の変化などに対するロバスト性を得ている。しかし、外れ値を含む高次元パターンでは、球面集中現象によって距離の大小関係による順序関係が不安定になるため、この方法は高次元パターンに適さない。

特許文献２に示されている方法は、距離の逆数を用いることによって、あらかじめ外れ値を含むデータを検出しておくアプローチである。この方法は、学習パターンのカテゴリーが予め与えられている、教師あり学習に適用される方法である。しかしながら、距離の逆数は同一カテゴリーに属するパターンを比較するための評価基準としては使えるが、異なるカテゴリーに属するパターンの比較には使えない。そのため、パターンの識別を行う段階で、この評価基準を使うことができない。その結果、学習と識別で異なる評価基準を使わざるを得なくなってしまう問題がある。

非特許文献３に示されている方法では、Ｄ次元パターンＸ⁽¹⁾＝（ｘ⁽¹⁾ ₁，・・・，ｘ⁽¹⁾ _D）と、Ｘ⁽²⁾＝（ｘ⁽²⁾ ₁，・・・，ｘ⁽²⁾ _D）との距離として、Ｌ₂ノルム

の代わりに、Ｌ_1/kノルム（ｋは２以上の整数）

を用いている。そのことにより、高次元パターンの近傍判定精度およびノイズに対するロバスト性を改善する方法が示されている。

外れ値に対するロバスト性を高めるためによく使われるのは、Ｌ₁ノルムを用いる方法であるが、一般にＬαノルム（αは正の実数）ではαが小さいほどロバスト性が高くなる。これは、αが小さくなるに従って距離が大きいデータの寄与が小さくなり、外れ値の影響が相対的に小さくなるという性質のためである。

この性質は、Ｌ_1/kノルムによって高次元における近傍判定精度が改善する理由でもあると考えられる。

Ｌ₂ノルムの近傍判定が不安定になる原因は、Ｄ次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さくなることである。このため、距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の微小変化の影響の方が大きくなり、近傍判定の不安定性を引き起こしている。次元Ｄが大きくなると距離が大きい成分が現れる確率が高くなる。そのため、高次元パターンでは近傍判定の不安定性が生じる確率が高くなる。

Ｌ_1/kノルムによって近傍判定の精度が改善する理由は、距離が大きい成分のノルムへの寄与を低減しているためであると考えられる。

しかしながら、この方法は欠損値を含むパターンのクラスタリングには適さないという問題がある。この方法で同じカテゴリーに属するＤ次元パターンＸ⁽¹⁾＝（ｘ⁽¹⁾ ₁，・・・，ｘ⁽¹⁾ _D）とＸ⁽²⁾＝（ｘ⁽²⁾ ₁，・・・，ｘ⁽²⁾ _D）の距離ｄ_1/k ^(D)（Ｘ⁽¹⁾，Ｘ⁽²⁾）と、これらの成分のうちｄ個の成分を欠損値として除いたＤ−ｄ次元パターンＸ⁽¹⁾’とＸ⁽²⁾’の距離ｄ_1/k ^(D-d)（Ｘ⁽¹⁾’，Ｘ⁽²⁾’）と、を比較すると、ｄ_1/k ^(D-d)（Ｘ⁽¹⁾’，Ｘ⁽²⁾’）≦ｄ_1/k ^(D)（Ｘ⁽¹⁾，Ｘ⁽²⁾）となる。つまり、データ欠損がある場合のほうが距離が小さくなる。

欠損値が含まれるデータにも適用可能な距離尺度あるいは非類似度であるためには、距離尺度あるいは非類似度は、欠損値を含まないデータよりも、欠損値を含むデータの方が類似度が小さいと判定されるものであることが望ましい。しかしながら、この評価基準では、欠損値を含むデータの方が、欠損値を含まないデータよりも類似度が高いと判定されてしまう。

上述のように、パターン間の類似度の判定においては、良好な学習結果を得ることを阻害する様々な課題がある。

本発明の目的は、パターン間の類似度を良好に反映したパターン学習を実現するための技術を提供することである。

上記目的を達成するために、本発明のパターン学習装置は、
入力パターンの定義域内において所定の分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率を算出し、該確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を算出する非類似度計算手段と、
前記非類似度計算手段で算出された前記非類似度を利用した評価により、前記パターンが属するカテゴリーのパラメータ値を決定する学習手段と、
を有する。

本発明のパターン学習方法は、
入力パターンの定義域内において所定の分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率を算出し、該確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を算出し、
算出した前記非類似度を利用した評価により、前記パターンが属するカテゴリーのパラメータ値を決定するものである。

本発明のパターン学習プログラムは、
入力パターンの定義域内において所定の分布に従って発生するパターンの所定成分の値が、パターンＸ（１）の前記所定成分の値とパターンＸ（２）の前記所定成分の値の間の範囲に入る確率を算出し、該確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を算出する手順と、
算出した前記非類似度を利用した評価により、前記パターンが属するカテゴリーのパラメータ値を決定する手順と、
をコンピュータに実行させるためのものである。

本発明によれば、パターン間の類似度を良好に反映したパターン学習を実現することができる。

本実施形態によるパターン学習装置の構成を示すブロック図である。本実施形態によるパターン学習装置の動作を示すフローチャートである。本実施例によるパターン学習装置の構成を示すブロック図である。

本発明を実施するための形態について図面を参照して詳細に説明する。

本発明は、非類似度に基づくパターン学習一般に広く適用することができるが、ここでは一例として、与えられた教師ありデータから、各カテゴリーの代表点を求める学習方式の実施形態を示す。本実施形態のパターン学習装置は、カテゴリーに属する複数のＤ次元パターンから、カテゴリーの性質を表すパラメータ値として代表点を求めるものである。カテゴリーは複数であってもよく、１つであってもよい。

図１は、本実施形態によるパターン学習装置の構成を示すブロック図である。図１を参照すると、本パターン学習装置は学習部２００および非類似度計算部３００を有している。また、図１において、本パターン学習装置は、一例としてパターン入力部１００および更新部４００を有している。

パターン入力部１００は、複数のＤ次元パターンを入力する。Ｄ次元パターンが属するカテゴリーの情報もパターン入力部１００から入力されてもよい。

学習部２００は、非類似度計算部３００に依頼することにより、パターン入力部１００から入力されたＤ次元パターン同士の非類似度を取得し、その非類似度を用いてＤ次元パターンが属するカテゴリーの代表点を決定する。本実施形態では、学習部２００はまず代表点の初期値を設定し、更新部４００を用いて代表点を更新しながら非類似度に基づいて代表点を評価し、最終的な代表点を決定する。例えば、非類似度を確率の対数の形で表し、学習部２００は、カテゴリーに属する全てのパターンと代表点との非類似度の総和を評価関数として、その評価関数が最小となる代表点を探索し、最終的に得られた点をカテゴリーの代表点とすればよい。

非類似度計算部３００は、学習部２００からの依頼により、２つのＤ次元パターンの非類似度を算出する。

ここでは、非類似度を算出する対象となる２つのＤ次元パターンを、Ｘ⁽¹⁾＝（ｘ⁽¹⁾ ₁，・・・，ｘ⁽¹⁾ _D）と、Ｘ⁽²⁾＝（ｘ⁽²⁾ ₁，・・・，ｘ⁽²⁾ _D）とし、それらの非類似度をＥ（Ｘ⁽¹⁾，Ｘ⁽²⁾）とする。

非類似度計算部３００は、入力パターンの定義域内において確率密度分布ｑ（Ｘ）に従って発生するパターンＸ＝（ｘ₁，・・・，ｘ_D）の各成分が、一方のＤ次元パターンＸ⁽¹⁾の各成分の値と、他方のＤ次元パターンＸ⁽²⁾＝（ｘ⁽²⁾ ₁，・・・，ｘ⁽²⁾ _D）の各成分の値の間の範囲に入る確率ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）を算出する。そして、非類似度計算部３００は、その確率ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）の対数ｌｎｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）を２つのＤ次元パターンの非類似度Ｅ（Ｘ⁽¹⁾，Ｘ⁽²⁾）とする。

その際、非類似度計算部３００は、Ｄ次元パターンＸ⁽¹⁾、Ｘ⁽²⁾のある成分であるｘ⁽¹⁾ _iあるいはｘ⁽²⁾ _iが欠損値である場合、その成分を所定値とする。例えば、所定値は負の無限大あるいは正の無限大としてもよい。すなわち、非類似度計算部３００は、ｘ⁽¹⁾ _iまたはｘ⁽²⁾ _iが欠損値であれば、ｘ_iが−∞＜ｘ_i＜∞の範囲内に入る確率をｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）としてもよい。また、所定値は入力パターンの定義域における、その成分の最小値あるいは最大値であってもよい。

更新部４００は、学習部２００からの依頼によりカテゴリーの代表点を更新し、それを次の代表点の候補として学習部２００に通知する。更新の具体的な方法については後述する。

以下で、本パターン学習装置による学習方法をさらに詳しく説明する。

まず、２つのＤ次元パターンＸ⁽¹⁾とＸ⁽²⁾に対して、パターンＸの確率密度分布ｑ（Ｘ）に従って発生させたパターンの各成分ｘ_i：ｉ＝１，・・・，Ｄがｘ⁽¹⁾ _i≦ｘ_i≦ｘ⁽²⁾ _iの範囲に入る確率Ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）を式（３）に従って計算する。

次に、この確率Ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）に基づいてＸ⁽¹⁾とＸ⁽²⁾の非類似度を定める。上述したように、Ｘ⁽¹⁾とＸ⁽²⁾の非類似度Ｅ（Ｘ⁽¹⁾，Ｘ⁽²⁾）は、確率Ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）の対数なので式（４）により定まる。

その際、ｘ⁽¹⁾ _iまたはｘ⁽²⁾ _iが欠損値であれば、式（３）におけるｍｉｎ（ｘ_i ⁽¹⁾，ｘ_i ⁽²⁾）と、ｍａｘ（ｘ_i ⁽¹⁾，ｘ_i ⁽²⁾）を式（５）のように設定し、全域にわたって積分を行う。

これにより、欠損値は極端な外れ値と同じように扱われることとなる。

式（３）は、入力データの定義域内にランダムに与えたパターンが、偶然Ｘ⁽¹⁾とＸ⁽²⁾の間に入る確率Ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）を表している。この確率が小さいほど、Ｘ⁽¹⁾とＸ⁽²⁾との相違が小さいと考えられるので、Ｘ⁽¹⁾とＸ⁽²⁾が類似していると言える。また逆に、式（３）の確率Ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）が大きければ、Ｘ⁽¹⁾とＸ⁽²⁾の類似度は小さいと言える。

そこで、本実施形態では、式（３）で得られる確率Ｐ（Ｘ⁽¹⁾，Ｘ⁽²⁾）の対数（式（４））の値を２つのパターンＸ⁽¹⁾とＸ⁽²⁾の非類似度としている。

そして、式（４）で定義される非類似度を用いてカテゴリーｃ∈Ｃ＝｛ｃ₁，・・・，ｃ_K｝から成る教師ありデータを学習する。その学習で用いる評価関数は式（６）のように定められる。この評価関数を最小化することにより、カテゴリーの代表点Ｍ^(c)を決定する。

ここで、Ｐ（ｃ）はカテゴリーｃの出現確率であり、ｑ^(c)（Ｘ；Ｍ^(c)）はカテゴリーｃに属するデータＸの確率密度分布であるとすると、式（３）における全データの確率分布ｑ（Ｘ）は、Ｐ（ｃ）とｑ^(c)（Ｘ）によって、式（７）のように表すことができる。

各カテゴリーｃ∈Ｃに属するＮ^(c)個のデータ｛Ｘ^(c) _n；ｎ＝１，・・・，Ｎ^(c)｝から、カテゴリーｃの代表点Ｍ^(c)の推定値を得るには、式（６）を離散化した式（８）で表される評価関数を最小化する点Ｍ^(c)を学習によって求めればよい。

式（８）は式（６）を離散化した式であり、この式によって評価関数を計算することは、確率分布ｑ（Ｘ）に従ってランダムに発生させたデータが偶然各カテゴリーｃの代表点Ｍ^(c)の近くにある確率の積を計算していることに等しい。

この確率が小さければ、「各Ｘ^(c) _nがカテゴリーｃの代表点Ｍ^(c)の近くに偶然発生した」という帰無仮説を棄却して「各Ｘ^(c) _nがカテゴリーｃに属する」という結論が得られる。すなわち、式（８）を最小化するようなＭ^(c)の値が、ｃの代表点として最も確からしい値であるということになる。

極小点を探索するものとすれば、代表点Ｍ^(c)の推定値は式（９）の解となる。

例えば、勾配法を用い、式（１０）で表される更新量によって逐次的に代表点代表点Ｍ^(c)の推定値を求めることができる。

次に、本実施形態のパターン学習装置の動作について説明する。

まず、概略の動作について説明する。図１に示されているパターン入力部１００は、入力データであるＤ次元パターンが無くなるまで、そのデータとデータが属するカテゴリーを読み込み、学習部２００に引き渡す。

学習部２００は、パターン入力部１００から得たデータから、各カテゴリーに属するデータの例えば重心を代表点の初期値として設定する。そして、学習部２００は、各カテゴリーについて、非類似度計算部３００を利用して、代表点と各データの非類似度の和を計算する。続いて、学習部２００は、更新部４００を用いて、各カテゴリーについて新たな代表点の位置を計算する。そして、学習部２００は、新たな代表点における評価関数の値の減少量を計算する。

学習部２００は、この減少量が予め与えられた閾値より小さくなるまで、代表点を更新しながら上記操作を繰り返す。減少量が与えられた閾値より小さくなったら、学習部２００は、最終的に得られた各カテゴリーの代表点を出力する。

この動作の中で、非類似度計算部３００は、学習部２００から渡されたデータＸ^(c)と代表点Ｍ^(c)から、式（４）に従って非類似度Ｅ（Ｍ^(c)，Ｘ^(c)）を計算し、学習部２００に返す。

学習部２００は、非類似度計算部３００から返された各データのＥ（Ｍ^(c)，Ｘ^(c)）から、式（８）に従って評価関数の値を計算する。

更新部４００は、式（１０）に従って、学習部２００から渡されたデータＸ^(c)と代表点Ｍ^(c)から、新たな代表点Ｍ´^(c)＝Ｍ^(c)＋ΔＭ^(c)を計算し、；学習部２００に返す。

図２は、本実施形態によるパターン学習装置の動作を示すフローチャートである。図２を参照しながら、本実施形態によるパターン学習装置の動作について詳細に説明する。

図２を参照すると、まず、パターン入力部１００は、入力データであるＤ次元パターンが無くなるまで、Ｄ次元パターンを読み込み、学習部２００に引き渡す（ステップ１）。

Ｄ次元パターンを受けた学習部２００は、各カテゴリーｃ∈Ｃ＝｛ｃ₁，・・・，ｃ_K｝に属するＤ次元パターンＸ_n：ｎ＝１，・・・，Ｎ^(c)を用いて、各カテゴリーの代表点の初期値Ｍ^(c)（以下、初期代表点という）を計算する（ステップ２）。この初期値として、例えば、そのカテゴリーに属するＤ次元パターンの平均Ｍ^(c)＝Σ_n=1 ^N(c)Ｘ^(c) _nを使ってもよい。

続いて、学習部２００は、非類似度計算部３００を利用して、各カテゴリーについて、初期代表点に対する評価関数の値（評価値）を計算する（ステップ３）。

その際、学習部２００は、まず、Ｄ次元パターンＸ^(c) _nと、初期代表点Ｍ^(c)の対を非類似度計算部３００に引き渡す。非類似度計算部３００は、式（４）を用いて、学習部２００から渡されたデータＸ^(c) _nと初期代表点Ｍ^(c)から非類似度Ｅ（Ｍ^(c)，Ｘ^(c) _n）を計算し、学習部２００に返す。学習部２００は、非類似度計算部３００から返された、各データＸ^(c) _nとＭ^(c)の非類似度Ｅ（Ｍ^(c)，Ｘ^(c) _n）から、初期代表点Ｍ^(c)に対する評価値を式（８）に従って計算する。

次に、学習部２００は、更新部４００を利用して代表点Ｍ^(c)を更新して評価値の減少量を求め、その減少量を所定の閾値と比較する（ステップ４）。

その際、学習部２００は、まず、現在のＭ^(c)と、Ｄ次元パターンＸ^(c) _n：ｎ＝１，・・・，Ｎ^(c)を更新部４００に引き渡す。更新部４００は、式（１０）によって、代表点の位置の更新量ΔＭ^(c)を計算し、その更新量に基づいて新たな代表点Ｍ´^(c)＝Ｍ^(c)＋ΔＭ^(c)を求め、学習部２００に返す。

学習部２００は、Ｘ^(c) _n：ｎ＝１，・・・，Ｎ^(c)と、Ｍ´^(c)とを非類似度計算部３００に引渡して得られる非類似度を基に、新たな代表点Ｍ´^(c)に対する評価値を取得し、式（１１）に示されている評価値の変化量を計算する。

そして、学習部２００は、評価値の減少量が閾値より大きければ、学習部２００は、代表点を更新して新たな代表点を求めて処理を繰り返す。

評価値の減少量が閾値より小さくなったら、学習部２００は、その時点の代表点の値を出力して処理を終了する（ステップ５）。

以上説明した本実施形態によれば、パターン間の類似度を良好に判定することが可能となり、またパターン学習において、欠損値や外れ値に対してロバストとなり、また高次元パターンにも対応可能となる。

以下、本実施形態によればパターン学習が欠損値や外れ値に対してロバストとなり、また高次元パターンにも対応可能となることについて説明する。

本実施形態によれば、欠損値があるパターンを含むパターン学習を良好に行うことができる。本実施形態では、ある成分に欠損値がある場合に、その成分を式（５）に示したように扱うため、式（４）で得られる非類似度Ｅが欠損値がない場合より常に大きな値となる。その結果、極端な外れ値の非類似度と欠損値の非類似度とを同様に扱い、類似度に対する寄与を小さく抑え、所望の性質に近づけることができる。そして、この性質によって、例えば指紋分類のように、一部の特徴量が欠損した状態でパターンの分類を行う場合でも、データ欠損がない方が類似度が高くなるというような正しい判定が可能となる。

また、本実施形態によれば、外れ値に対してロバストなパターン学習を行うことができる。

式（４）で表される非類似度は、２つのＤ次元パターンの類似度が高いほど小さい値をとる。この点では、本実施形態は非特許文献３に記載されたＬ_1/kノルムｄ_1/k（Ｍ^(c)，Ｘ）と同じである。しかし、Ｌ_1/kノルムが非負の値をとるのに対して、本実施形態の非類似度Ｅ（Ｍ^(c)，Ｘ）は非正の値をとるという違いがある。

非特許文献３のＬ_1/kは、値が遠い成分に対してペナルティを課すことによって２つのパターンの類似度を評価しているのに対して、本実施形態では、式（４）の非類似度は、値が近い成分に対して加点することによって類似度を評価している。

その結果、本実施形態の非類似度は、式（８）に示した学習の評価関数に対する外れ値の寄与が小さくなる。一方、Ｌ_1/kノルム（式（２））では外れ値の寄与が大きくなる。

本実施形態の非類似度を用いることによって、パターン学習において外れ値の影響を小さくすることができる。例えば、オクルージョンがある場合の画像認識において、本来比較すべき対象ではないオクルージョン部分の寄与を小さくすることが可能となる。

また、本実施形態によれば、高次元パターンに対して良好なパターン学習を実現できる。

高次元における近傍判定精度の低下は、距離が小さい成分の類似度評価に対する寄与が、距離が大きい成分の寄与よりはるかに小さいことに起因する。本実施形態の非類似度（式（４））では、距離が小さい成分ほど非類似度への寄与が大きくなるため、球面集中現象による近傍判定の不安定性を回避できる。

従って、本実施形態の非類似度を用いることにより、例えばスペクトルパターンのような高次元パターンのパターン学習も可能である。

なお、本実施形態では、カテゴリーｃの確率分布ｑ^(c)（Ｘ；Ｍ^(c)）のパラメータが、カテゴリーの代表点Ｍ^(c)だけであるとして説明したが、本発明がこれに限定されるものではなく、例えば分布の広がりのようなパラメータが含まれていてもよい。

また、本実施形態では、式（３）によりＰ（Ｘ⁽¹⁾，Ｘ⁽²⁾）を計算するとき、所定の確率密度分布ｑ（Ｘ）の代わりに、Ｄ次元パターンＸの定義域上の一様分布を用いてもよい。これは、パターンを識別するときに、どのカテゴリーにも属さないデータが入力されることがあり、実質的に全ての入力データの確率密度分布が不明であるような用途に好適である。

（実施例）
次に、本発明のより具体的な実施例について説明する。

本実施例では、Ｄ次元ベクトルとして与えられたデータ｛Ｘ^(c) _n：ｎ＝１，・・・，Ｎ^(c)，ｃ＝ｃ₁，・・・，ｃ_K｝から各カテゴリーｃの代表点Ｍ^(c)を学習する計算機に本発明を適用する。本実施例では、Ｍ^(c)の学習に、式（１０）で示した勾配法を用いた一例を示す。

図３は、本実施例によるパターン学習装置の構成を示すブロック図である。図３を参照すると、本実施例のパターン学習装置は計算機１０によって構成されており、計算機１０は、入力装置１０１、学習装置２０１、非類似度計算装置３０１、および更新装置４０１を有している。

入力装置１０１は、図１に示したパターン入力部１００に相当する装置であり、外部記憶装置６０１からデータを読み込む。学習装置２０１は、図１に示した学習部２００に相当する装置である。非類似度計算装置３０１は、図１に示した非類似度計算部３００に相当する装置である。更新装置４０１は、図１に示した更新部４００に相当する装置である。

外部記憶装置６０１にＤ次元ベクトルとして格納されているデータ｛Ｘ^(c) _n：ｎ＝１，・・・，Ｎ^(c)，ｃ＝ｃ₁，・・・，ｃ_K｝が入力装置１０１によって学習装置２０１に読み込まれる。データには複数のカテゴリーがあり、各データはいずれかのカテゴリーに属している。学習装置２０１は、各カテゴリーについて、そのカテゴリーｃ∈Ｃ＝｛ｃ₁，・・・，ｃ_K｝に属するデータＸ_n：ｎ＝１，・・・，Ｎ^(c)の初期代表点Ｍ^(c)を計算する。次に、学習装置２０１は、各データＸ^(c) _nと初期代表点Ｍ^(c)の対を非類似度計算装置３０１に引き渡す。

非類似度計算装置３０１は、学習装置２０１から渡された各データＸ^(c) _nと初期代表点Ｍ^(c)から、それらの非類似度Ｅ（Ｍ^(c)，Ｘ^(c) _n）を式（４）に従って計算し、学習装置２０１に返す。

学習装置２０１は、非類似度計算装置３０１から返された各データＸ^(c) _nとＭ^(c)の非類似度Ｅ（Ｍ^(c)，Ｘ^(c) _n）から、Ｍ^(c)に対する評価値

を式（８）に従って計算する。

次に、学習装置２０１は、現在のＭ^(c)とデータＸ^(c) _n：ｎ＝１，・・・，Ｎ^(c)とを更新装置４０１に引き渡す。

更新装置４０１は、代表点の位置の更新量ΔＭ^(c)を式（１０）を用いて計算し、新たな代表点Ｍ´^(c)＝Ｍ^(c)＋ΔＭ^(c)を求め、学習装置２０１に新たな代表点Ｍ´^(c)を返す。

学習装置２０１は、Ｘ^(c) _n：ｎ＝１，・・・，Ｎ^(c)とＭ´^(c)を非類似度計算装置３０１に引渡し、新たな代表点Ｍ´^(c)に対する評価値

を取得し、評価値の変化量を式（１１）により計算する。

評価値の減少量

が所定の閾値より大きければ、学習装置２０１は新たな代表点Ｍ´^(c)を初期値Ｍ^(c)として再度新たな代表点を求める。

評価値の減少量が閾値より小さければ、学習装置２０１は、そのときの代表点の値を表示装置５０１に出力して処理を終了する。

なお、以上説明した本実施例において、式（３）のｘ⁽¹⁾ _iまたはｘ⁽²⁾ _iが欠損値の場合に、式（５）に従ってｘ_i全域にわたって積分することにしてもよい。

また、本実施例において、式（３）のＰ（Ｘ⁽¹⁾，Ｘ⁽²⁾）を計算するときに、確率密度分布ｑ（Ｘ）の代わりに、Ｘの定義域上の一様分布を用いてもよい。

なお、上述した実施形態および実施例の装置は各部の処理手順を規定したソフトウェアプログラムをコンピュータに実行させることにより実現することもできる。

また、本発明の実施形態および実施例について述べてきたが、本発明は、これらの実施形態や実施例だけに限定されるものではなく、本発明の技術思想の範囲内において、これらを組み合わせて使用したり、一部の構成を変更したりしてもよい。

１０計算機
１００パターン入力部
１０１入力装置
２００学習部
２０１学習装置
３００非類似度計算部
３０１非類似度計算装置
４００更新部
４０１更新装置
５０１表示装置
６０１外部記憶装置

Claims

入力パターンの定義域内において所定の分布に従って発生するパターンの各成分の値が、パターンＸ（１）の前記成分の値とパターンＸ（２）の前記成分の値の間の範囲に入る確率を算出し、該確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を算出する非類似度計算手段と、
前記非類似度計算手段で算出された前記非類似度を利用した評価により、前記パターンが属するカテゴリーのパラメータ値を決定する学習手段と、
を有するパターン学習装置。
前記非類似度計算手段は、前記確率の対数を前記非類似度とする、請求項１に記載のパターン学習装置。
前記パラメータ値は前記カテゴリーの代表点である、請求項２に記載のパターン学習装置。
前記学習手段は、前記カテゴリーに属する全てのパターンと代表点との非類似度の総和から評価関数を求め、該評価関数が最小となる代表点を探索する、請求項３に記載のパターン学習装置。
前記非類似度計算手段は、前記パターンＸ（１）または前記パターンＸ（２）のある成分が欠損値である場合、該成分については、前記所定の分布に従って発生するパターンの該成分の値が所定の範囲に入る確率を用いる、請求項１〜４のいずれか１項に記載のパターン学習装置。
前記非類似度計算手段は、前記所定の範囲として負の無限大から正の無限大までの範囲を用いる、請求項５に記載のパターン学習装置。
前記非類似度計算手段は、前記所定の分布として一様分布を用いる、請求項１〜６のいずれか１項に記載のパターン学習装置。
入力パターンの定義域内において所定の分布に従って発生するパターンの各成分の値が、パターンＸ（１）の前記成分の値とパターンＸ（２）の前記成分の値の間の範囲に入る確率を算出し、該確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を算出し、
算出した前記非類似度を利用した評価により、前記パターンが属するカテゴリーのパラメータ値を決定する、
パターン学習方法。
前記確率の対数を前記非類似度とする、請求項８に記載のパターン学習方法。
前記パラメータ値は前記カテゴリーの代表点である、請求項９に記載のパターン学習方法。
前記カテゴリーに属する全てのパターンと代表点との非類似度の総和から評価関数を求め、該評価関数が最小となる代表点を探索する、請求項１０に記載のパターン学習方法。
前記パターンＸ（１）または前記パターンＸ（２）のある成分が欠損値である場合、該成分については、前記所定の分布に従って発生するパターンの該成分の値が所定の範囲に入る確率を用いる、請求項８〜１１のいずれか１項に記載のパターン学習方法。
前記所定の範囲として負の無限大から正の無限大までの範囲を用いる、請求項１２に記載のパターン学習方法。
前記所定の分布として一様分布を用いる、請求項８〜１３のいずれか１項に記載のパターン学習方法。
入力パターンの定義域内において所定の分布に従って発生するパターンの各成分の値が、パターンＸ（１）の前記成分の値とパターンＸ（２）の前記成分の値の間の範囲に入る確率を算出し、該確率を基にして、前記パターンＸ（１）と前記パターンＸ（２）との非類似度を算出する手順と、
算出した前記非類似度を利用した評価により、前記パターンが属するカテゴリーのパラメータ値を決定する手順と、
をコンピュータに実行させるためのパターン学習プログラム。