WO2006087854A1

WO2006087854A1 - 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Info

Publication number: WO2006087854A1
Application number: PCT/JP2005/021095
Authority: WO
Inventors: Masayoshi Ihara
Original assignee: Sharp Kabushiki Kaisha
Priority date: 2004-11-25
Filing date: 2005-11-17
Publication date: 2006-08-24
Also published as: JPWO2006087854A1; JP4550882B2; US7693683B2; US20080114564A1

Abstract

　情報分類装置は、標本情報を含む複数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報（対象標本）との評価距離を算出し（Ｓ１１，１２）、評価距離についての母集団ごとの平均、分散、標準偏差などの統計情報を算出し（Ｓ１３）、評価距離および統計情報に基づいて、母集団に対する標本情報の評価距離を評価して、対象標本の母集団への帰属度合を評価し（Ｓ２１，２５）、帰属度合に応じて、対象標本をいずれの母集団に帰属させるかを決定し、その母集団に対象標本を帰属させる（Ｓ２２，２３，２６，２７）。更新母集団ごとの重心と、更新母集団のそれぞれに帰属する対象標本との評価距離を算出する（Ｓ３３）。いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たな母集団を生成し、その母集団に対象標本を帰属させる（Ｓ２６，２７）。これにより、母集団への標本情報の自律的かつ安定的な分類ができる。

Description

明細書

情報分類装置、情報分類方法、情報分類プログラム、情報分類システム技術分野

[0001] 本発明は、情報分類装置、情報分類方法、情報分類プログラム、情報分類システム、情報分類システムを用いた情報提供サービス、情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類システムを用いて分類対象標本情報が帰属する母集団を検索するための任意数の母集団を記憶するデータベースに関し、特に、統計的に情報を分類するのに適した情報分類装置、情報分類方法、情報分類プログラム、情報分類システム、情報分類システムを用いた情報提供サービス、情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類システムを用いて分類対象標本情報が帰属する母集団を検索するための任意数の母集団を記憶するデータベースに関する。

背景技術

[0002] 情報の認識や分類においての分類方法は、一般的には最行列情報群を直交分解し複数の行列情報群によって最適解を求めたり、尤度推定法であるバウムウェルチアルゴリズムや最小誤差分類などの最適解を算術的に求めたりするアルゴリズムが用いられている。

[0003] また、ニューラルネットワークにおける中間層の最適値を求める際に、マハラノビス距離が任意の一定距離になるようにニューラルネットワークを補正する方法がある（たとえば、特開 2003— 76976号公報 (以下「特許文献 1」という）参照）。

[0004] また、ベクトノレ量子化方法として、 Kミーンズ手法と呼ばれる母集団に任意の重心を与え、その重心が最適な位置に移動するまで再帰的に分類する方法がある。 [0005] また、特許文献 1におレ、ては、マハラノビス距離を一定にすることで境界条件を最適化する方法が開示されている。

[0006] また、混合分布分割手法として、 EMアルゴリズムと呼ばれる母集団の混合分布内における標本の出現頻度分布や尤度分布に基づいて局所解を継続的に変化させ、帰納的に局所最適解を求める期待値最大化法がある。

[0007] また、他の混合分布分割手法として、サポートベクターマシン（SVM)と呼ばれる手法があるが、この手法は、任意の関数によって母集団の非線形写像を別次元空間に変換し境界条件と境界の幅を決める手法である。

[0008] また、古城玄、和久屋寛、「ニューラルネットワークで実現したベイズ的推論に基づくデータ分布の推定法」、電気学会計測研究会資料、 2003年 10月、 IM— 03— 55 、 p. 13— 18 (以下「非特許文献 1」という）によれば、母集団の平均と分散、標準偏差を推定するための評価をベイズ法により母集団全体の重心からみてそれぞれの標本の位置が標準偏差の特定範囲か否力を評価している。また、中村匡伸、岩野公司、古井貞熙、「マハラノビス距離を用いた日本語話し言葉音声の音響的特徴の分析」、日本音響学会 2005年春季研究発表会講演論文集、 2005年 3月、 vol. 1、 2— 1 14、 p. 231— 232 (以下「非特許文献 2」という）によれば、マハラノビス距離を用いた音素評価における精度の高さが記載されてレ、る。

[0009] このような、混合分布分解やベクトル量子化を実施するといつた方法が一般的であつた。

特許文献 1 :特開 2003— 76976号公報

非特許文献 1 :古城玄、和久屋寛、「ニューラルネットワークで実現したベイズ的推論に基づくデータ分布の推定法」、電気学会計測研究会資料、 2003年 10月、 IM— 0 3— 55、 p. 13 - 18

非特許文献 2 :中村匡伸、岩野公司、古井貞熙、「マハラノビス距離を用いた日本語話し言葉音声の音響的特徴の分析」、日本音響学会 2005年春季研究発表会講演論文集、 2005年 3月、 vol. 1、 2— 1— 14、 p. 231— 232

発明の開示

発明が解決しょうとする課題 [0010] 図 7は、正規分布の例を示す図である。図 8は、非正規分布の例を示す図である。一般的に、前述の背景となる技術では、人が指定した母集団では人が情報を解釈する状況によって境界がぁレ、まいにならざるを得ないので混合分布と呼ばれる図 8に示すような非正規分布が形成されていた。このため、図 7に示すような正規分布を前提とした最適解による母集団境界が算術的に得られないという課題があった。

[0011] カロえて、混合分布が必ずしも混合正規分布ではないために、正規分布の最適解として解釈可能な尤度の高い局所解が数多く出現していた。このため、無制限もしくは必要以上に算術解としての最適解が生成されてしまい、実用的な最適解としての要を成さないばかりか、分類のための母集団が無制限に増えるため、必ずしも母集団の安定的な分類を実現できないという課題が一般的にあった。

[0012] また、 Kミーンズ手法では、初期に指定した任意の重心が適切でない場合、初期の母集団数が最適化後の母集団数になるため、自律的に母集団の増減が実施されず、必ずしも母集団への安定的な分類が実現できないという課題がある。

[0013] また、特許文献 1においては、マハラノビス距離を一定にすることでニューラルネットワークが最適に機能することを説明しているに留まっている。このため、仮にクラスタリングに利用することを想定しても、母集団を構成する標本の距離平均値の内側と外側という分類になり、無制限もしくは必要以上に母集団を増やすという課題を解決しない。

[0014] また、 EMアルゴリズムは、局所解を無制限もしくは必要以上に構成することが知られており、必ずしも母集団の安定的な分類ができないという課題がある。

[0015] また、 SVMは、任意の関数によって母集団の非線形写像を別次元空間に変換し境界条件と境界の幅を決める方法である。 SVMでは、必ずしも母集団の安定的な分類ができないとレ、う課題がある。

[0016] また、非特許文献 1のベイズ的推論に基づくデータ分布の推定法は、母集団重心を平均とする分散及び標準偏差に基づいた帰属評価であるとともに、多層二ユーラルネットワークでの出力層を評価したものであり、本発明のように帰属する母集団における評価距離の平均とその標準偏差を用いての標本の距離を評価することにより、情報分類に関する課題の提示や課題解決の実証をしてはレ、なレ、。 [0017] また、非特許文献 2は、マハラノビス距離を用いた音声分析に高い相関性が見られるという分析結果と考察であり、具体的な課題や課題の解決方法と実証を提示しているわけではない。

[0018] また、このような情報分類システムにおレ、て、特徴構成要素の順序や項目が異なるベクトル及び/若しくはマトリクス及び/若しくはテンソル同士や評価関数は互いに評価できないとレ、う課題があった。

[0019] この発明は上述の課題を解決するためになされたもので、この発明の目的の 1つは、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類装置、情報分類方法、情報分類プログラム、および、情報分類システムを提供することである。

[0020] この発明の他の目的は、構成要素態様が異なる標本情報同士を互いに評価することが可能な情報分類装置、情報分類方法、情報分類プログラム、および、情報分類システムを提供することである。

課題を解決するための手段

[0021] 上述した課題を解決するために、この発明のある局面によれば、情報分類装置は、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、標本情報帰属部とを備える。

[0022] 距離算出部は、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。統計情報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの統計情報を算出する。

[0023] 帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価する。帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属決定部によって決定された母集団に分類対象標本情報を帰属させる。

[0024] この発明に従えば、情報分類装置によって、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離が算出され、算出された統計的距離についての母集団ごとの統計情報が算出され、算出された統計的距離と統計情報とに基づいて、分類対象標本情報の母集団への帰属度合が評価され、評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかが決定され、決定された母集団に分類対象標本情報が帰属される。

[0025] このため、情報分類装置によって、分類対象標本情報が母集団への帰属度合に応じたいずれかの母集団に帰属される。その結果、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類装置を提供することができる。

[0026] 好ましくは、統計情報は、距離算出部によって算出された統計的距離の母集団ごとの平均値および標準偏差値である。

[0027] 好ましくは、距離算出部は、標本情報帰属部によって分類対象標本情報が帰属された更新母集団ごとの重心と、更新母集団のそれぞれに帰属する分類対象標本情報との統計的距離をさらに算出する。

[0028] この発明に従えば、情報分類装置によって、分類対象標本情報が帰属された更新母集団ごとの重心と、更新母集団のそれぞれに帰属する分類対象標本情報との統計的距離がさらに算出され、算出された統計的距離に基づいて、さらに、分類対象標本情報が帰属度合に応じたいずれかの母集団に帰属される。

[0029] このため、情報分類装置によって、さらに、母集団へ標本情報を再帰的に分類すること力 Sできる。

[0030] 好ましくは、帰属決定部は、いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たに母集団を生成する母集団生成部を含み、生成した母集団に分類対象標本情報を帰属させることを決定する。

[0031] この発明に従えば、情報分類装置によって、いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たに母集団が生成され、生成された母集団に分類対象標本情報が帰属される。

[0032] このため、母集団に帰属する標本情報は、帰属度合が所定の度合で範囲内の標本情報となる。その結果、情報分類装置によって、母集団に対して所定の度合の範圏内に標本情報を分類することができる。 [0033] さらに好ましくは、統計情報は、距離算出部によって算出された統計的距離の母集団ごとの平均値および標準偏差値であり、帰属度合は、その母集団に対する統計的距離の平均値力の偏差値であり、所定の度合は、偏差値が平均値から所定倍の標準偏差値の範囲である。

[0034] この発明に従えば、情報分類装置によって、いずれの母集団への統計的距離の平均値からの偏差値も、所定倍の標準偏差値の範囲外であるときに、新たに母集団が生成され、生成された母集団に分類対象標本情報が帰属される。

[0035] このため、情報分類装置によって、母集団に対して統計的距離の平均値からの偏差値が所定倍の標準偏差値の範囲内に標本情報を分類することができる。その結果、母集団に帰属する標本情報のうちの一定割合が平均値力所定倍の標準偏差値の範囲内に分布する正規分布に近くなるように、標本情報を母集団に分類することができる。

[0036] また、好ましくは、情報分類装置は、所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる母集団削除部をさらに備える。

[0037] この発明に従えば、情報分類装置によって、所定数の標本情報が帰属されない母集団が削除され、削除された母集団に帰属する標本情報が他の母集団に帰属される。このため、妥当でない母集団は淘汰される。

[0038] 好ましくは、帰属決定部は、帰属度合評価部によって評価された帰属度合が最も良い母集団に分類対象標本情報を帰属させることを決定する。

[0039] この発明に従えば、情報分類装置によって、評価された帰属度合が最も良い母集団に分類対象標本情報を帰属させることが決定され、決定された母集団に分類対象標本情報が帰属される。

[0040] このため、情報分類装置によって、分類対象標本情報にとって帰属度合が最も良い母集団に帰属される。その結果、母集団へ標本情報を最適に分類することができる。

[0041] 好ましくは、距離算出部は、共分散構造分析に基づいて、統計的距離を算出する。

好ましくは、距離算出部は、固有値および固有べ外ルに基づいて、統計的距離を算出する。

[0042] 好ましくは、距離算出部は、統計的距離としてマハラノビス距離を算出する。

好ましくは、距離算出部は、統計的距離としてベイズ識別関数による距離を算出する。

[0043] 好ましくは、距離算出部は、算出した統計的距離を正規化する距離正規化部を含む。

この発明に従えば、情報分類装置によって、統計的距離が正規化される。その結果、情報分類装置によって、統計的距離を容易に取扱うことができるようになる。

[0044] この発明の他の局面によれば、情報分類方法は、コンピュータによって実行され、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出するステップと、算出された統計的距離についての母集団ごとの統計情報を算出するステップと、算出された統計的距離と統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価するステップと、評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定するステップと、決定された母集団に分類対象標本情報を帰属させるステップとを含む。

[0045] この発明に従えば、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類方法を提供することができる。

[0046] この発明のさらに他の局面によれば、情報分類プログラムは、コンピュータで実行され、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出するステップと、算出された統計的距離についての母集団ごとの統計情報を算出するステップと、算出された統計的距離と統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価するステップと、評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定するステップと、決定された母集団に分類対象標本情報を帰属させるステップとをコンピュータに実行させる。

[0047] この発明に従えば、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類プログラムを提供することができる。 [0048] この発明のさらに他の局面によれば、情報分類システムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、母集団受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、標本情報帰属部と、分類後母集団受渡部とを備える。情報端末は、母集団受渡部と、分類後母集団受取部とを備える。

[0049] 母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取る。距離算出部は、母集団受取部によって受取られた母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。

[0050] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価する。

[0051] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属決定部によって決定された母集団に分類対象標本情報を帰属させる。

[0052] 分類後母集団受渡部は、標本情報帰属部によって分類対象標本情報が帰属された分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から分類後母集団を受取る。

[0053] この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えることが可能な情報分類システムを提供することができる。

[0054] この発明のさらに他の局面によれば、情報分類システムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、標本情報受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、母集団識別情報受渡部とを備える。情報端末は、標本情報受渡部と、母集団識別情報受取部とを備える。

[0055] 標本情報受渡部は、情報分類装置に分類対象標本情報を受渡す。標本情報受取部は、情報端末から分類対象標本情報を受取る。距離算出部は、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、母集団受取部によって受取られた分類対象標本情報との統計的距離を算出する。

[0056] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価する。

[0057] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。母集団識別情報受渡部は、帰属決定部によって決定された母集団を識別する母集団識別情報を情報端末に受渡す。母集団識別情報受取部は、情報分類装置から母集団識別情報を受取る。

[0058] この発明に従えば、分類対象標本情報が帰属する母集団を識別する情報を自律的かつ安定的に与えることが可能な情報分類システムを提供することができる。

[0059] この発明のさらに他の局面によれば、情報提供サービスに用いられる情報提供システムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、標本情報受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、母集団識別情報受渡部とを備える。情報端末は、標本情報受渡部と、母集団識別情報受取部とを備える。

[0060] 標本情報受渡部は、情報分類装置に分類対象標本情報を受渡す。標本情報受取部は、情報端末から分類対象標本情報を受取る。距離算出部は、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、母集団受取部によって受取られた分類対象標本情報との統計的距離を算出する。

[0061] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価する。

[0062] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。母集団識別情報受渡部は、帰属決定部によって決定された母集団を識別する母集団識別情報を情報端末に受渡す。母集団識別情報受取部は、情報分類装置力母集団識別情報を受取る。

[0063] この発明に従えば、分類対象標本情報が帰属する母集団を識別する情報を自律的かつ安定的に与えることが可能な情報分類システムを用いた情報提供サービスを提供すること力 Sできる。

[0064] この発明のさらに他の局面によれば、コンピュータ読取可能な記録媒体に記録される分類後母集団を分類する情報分類システムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、母集団受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、標本情報帰属部と、分類後母集団受渡部とを備える。情報端末は、母集団受渡部と、分類後母集団受取部とを備える。

[0065] 母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取る。距離算出部は、母集団受取部によって受取られた母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。

[0066] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価する。

[0067] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属決定部によって決定された母集団に分類対象標本情報を帰属させる。

[0068] 分類後母集団受渡部は、標本情報帰属部によって分類対象標本情報が帰属された分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から分類後母集団を受取る。

[0069] この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えることが可能な情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体を提供することができる。

[0070] この発明のさらに他の局面によれば、データベースに記憶された任意数の母集団力分類対象標本情報が帰属する母集団を検索するために用いられる情報分類システムは、情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置は、母集団受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属決定部と、標本情報帰属部と、分類後母集団受渡部とを備える。情報端末は、母集団受渡部と、分類後母集団受取部とを備える。

[0071] 母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取る。距離算出部は、母集団受取部によって受取られた母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象標本情報との統計的距離を算出する。

[0072] 統計情報算出部は、距離算出部によって算出された統計的距離についての母集団ごとの統計情報を算出する。帰属度合評価部は、距離算出部によって算出された統計的距離と統計情報算出部によって算出された統計情報とに基づいて、分類対象標本情報の母集団への帰属度合を評価する。

[0073] 帰属決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情報帰属部は、帰属決定部によって決定された母集団に分類対象標本情報を帰属させる。

[0074] 分類後母集団受渡部は、標本情報帰属部によって分類対象標本情報が帰属された分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から分類後母集団を受取る。

[0075] この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えることが可能な情報分類システムを用いて前記分類対象標本情報が帰属する母集団を検索するための前記任意数の母集団を記憶するデータベースを提供することができる

[0076] 好ましくは、分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、距離算出部は、任意のベタトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、所定の評価関数に入力することによって統計的距離を算出する。

[0077] この発明に従えば、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が、所定の評価関数へ入力されるベクトル情報、マトリクス情報またはテンソル情報の所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように再構成されて所定の評価関数に入力される。このため、構成要素態様が異なる標本情報同士を互いに評価することが可能な情報分類装置、情報分類システム、情報分類システムを用いた情報提供サービス、情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類システムを用いて前記分類対象標本情報が帰属する母集団を検索するための前記任意数の母集団を記憶するデータベースを提供することができる。

[0078] また、それらの要素に任意の分野における特徴量や名称、識別子を用いて評価関数や標本を構成し、標本の母集団への帰属状態を評価するようにしてもよいし、それらの評価関数を構成または再構成するようにしてもよい。

[0079] 好ましくは、分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、統計的距離を算出するステツプは、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、所定の評価関数に入力することによって統計的距離を算出する。

[0080] この発明に従えば、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が、所定の評価関数へ入力されるベクトル情報、マトリクス情報またはテンソル情報の所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように再構成されて所定の評価関数に入力される。このため、構成要素態様が異なる標本情報同士を互いに評価することが可能な情報分類方法、および、情報分類プログラムを提供することができる。

[0081] 好ましくは、特徴ベクトル、マトリクス、及び/またはテンソル要素に識別子を与え、識別子の一致する要素を評価用特徴量として整理し、評価関数に与えたり、ベクトノレ、マトリクス及び/またはテンソル同士の距離評価を行なったりする。

[0082] 好ましくは、距離算出部は、ベクトル、マトリクス及び Zまたはテンソルの要素項目の順序を入替えたり、不足要素に要素平均値や 0を代入したり、過剰要素を削除したりするといつた方法で、見かけ上の要素数と要素識別子とを同一にする機能を含む。

[0083] 要素の一部が異なるベクトル、マトリクス及び/またはテンソル同士、あるいは、ベタトル、マトリクス及び/またはテンソルと評価関数とが、母集団重心からの距離と平均と標準偏差とに基づく帰属確率により評価できるようになるため、ベクトル、マトリクス及び/またはテンソル評価関数の応用範囲が広がる。

図面の簡単な説明

[0084] [図 1]本実施形態に従う情報分類装置の構成の概略を示す図である。

[図 2]本実施形態に従う情報分類装置で実行される情報分類処理の流れを示すフロ一チャートである。

[図 3]本実施形態に従う教師有り学習による情報分類処理における母集団の例を示す図である。

[図 4]本実施形態に従う教師有り学習による情報分類実験の実験結果を示すグラフである。

[図 5]情報分類実験の対照実験の実験結果を示すグラフである。

[図 6]本実施形態の変形例に従う情報分類システムの概略を示す図である。

[図 7]正規分布の例を示す図である。

[図 8]非正規分布の例を示す図である。

[図 9]より多い標本による教師無し学習における本実施形態に従う情報分類実験の実験結果を示すグラフである。

符号の説明

[0085] 100 情報分類装置、 100A， 100B 情報処理装置、 110 処理部、 120 記憶部、 130 入力部、 140 出力部、 200A〜200C 情報端末、 500 ネットワーク。発明を実施するための最良の形態

[0086] 以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付して、その説明は繰返さない。

[0087] 図 1は、本実施形態に従う情報分類装置 100の構成の概略を示す図である。

図 1を参照して、情報分類装置 100は、 PC (Personal Computer)などのコンビユータで構成され、処理部 110と、記憶部 120と、入力部 130と、出力部 140とを含む。処理部 110、記憶部 120、入力部 130、および、出力部 140は、バスで接続され、バスを介して、必要なデータをやり取りする。

[0088] なお、情報分類装置 100は、 PCなどの汎用的な装置で構成されることに限定されず、専用的な装置として構成されてもよい。

[0089] 処理部 110は、 CPU (Central Processing Unit)や、 MPU (Micro Processing U nit)や、 DSP (Digital Signal Processor)などの演算回路と、その周辺回路で構成される。

[0090] 記憶部 120は、 ROM (Read Only Memory)や RAM (Random Access Memory) 、ハードディスクドライブを例とする記憶回路で構成される。記憶部 120は、情報分類装置 100で実行されるプログラムを記憶したり、プログラムが実行されるときのワークエリアとして用いられたりする。

[0091] 入力部 130は、キーボードやマウスなどの入力装置や、カメラのような撮像装置や、マイクのような集音装置など力構成される。入力部 130は、入力装置や撮像装置や集音装置から入力されたデータを処理部 110に受渡す。

[0092] 出力部 140は、ディスプレイのような表示装置やスピーカのような音響装置などから構成される。出力部 140は、処理部 110から受取ったデータを出力する。

[0093] 処理部 110は、記憶部 120に記憶されたプログラムに基づいて、記憶部 120をヮークエリアとして用いながら、所定の処理を実行する。また、処理部 110は、処理に応じて、入力部 130から所定のデータを受取る。さらに、処理部 110は、処理に応じて、出力部 140に所定のデータを受渡す。

[0094] 図 2は、本実施形態に従う情報分類装置 100で実行される情報分類処理の流れを示すフローチャートである。

[0095] 図 2を参照して、まず、ステップ S 1 1で、処理部 1 10が、記憶部 120に記憶された分類対象となる母集団毎に帰属する標本情報から距離関数を構築する。

[0096] 具体的には、ある母集団 A (a , a , · · · , a ) , B (b , b , · · · , b )、および、これらを

1 2 n 1 2 m

構成する標本情報群 a , a， · · ·， aと b， b , · · · , b について説明する。この際、 a

1 n 1 2 m n および bは多次元のベクトルやマトリクスやテンソルであってよレ、。

m

[0097] 処理部 1 10は、これらの標本情報群から固有値、固有ベクトル、平均値、標準偏差値といった、それぞれの母集団 A、 Bの多変量解析のための変数を得る。

[0098] そして、処理部 1 10は、ここで得られた共分散構造分析のための変数に基づき母集団 A, Bと各標本情報とのマハラノビス距離を求めるために標本情報である aや b n m を引数

[0099] [数 1コ

X

[0100] とする距離関数

[0101] ほ女 2]

[0102] および

[0103] [数 3]

[0104] を構成する。

なお、この距離関数において引数

[0105] 國

X

[0106] がベクトルである場合、距離評価関数の内部変数である評価次元数をはじめとした評価用変数を用いて演算結果の精度を設定できるが、任意の精度で指定すればよレヽ。

[0107] なお、マハラノビス距離は以下の式に表される。

[0108] [¾5]

[0109] iは複数の母集団の識別値を示す。

kは標本の識別値を表す。

Dは距離関数

ik

[0110] [数 6コ

[0111] による標本 kと母集団 iの重心との距離を示す。

μは標本情報から得た平均ベクトルを示す。

[0112] [数 7]

X

[0113] は標本情報ベクトルを示す。

数 5および数 9における Vは母集団 iの共分散行列を示す。

[0114] また、固有値と固有ベクトルによる表現では、

[0115] ]

[0116] となる。

Φ

Iは母集団の共分散行列の固有ベクトルを示す。

λは母集団の共分散行列の固有値を示す。 [0117] また、マハラノビス距離に固有値に基づく定数 log I V I と事前確率 logP ( c )を追加して、ベイズ識別関数による多次元距離計算関数を構成できるが、この場合は

[0118] ほ女 9] - ^_1( )+io

[0119] という形で表現できる。

また、別の式表現として、

[0120] ほ女 10]

[0121] と表わすこともできる。この際、最後に追加されている logP ( co )部は事前確率による補正のため、性能改善を目的として削除することにより、どの母集団に対しても均一の確率で評価されるようにしたり、前後の距離評価状況に基づいて評価結果を調節をするために遷移確率や出力確率に基づいた補正値を与えてもよい。

[0122] そして

[0123] ほ女 11]

[0124] という形で母集団重心からの距離に相当する値を導き出すことができる。

次に、ステップ S12で、処理部 110が、ステップ S11で構築した距離関数で標本情報を評価し、評価距離を算出する。また、ステップ S13で、処理部 110は、ステップ S

12で算出した評価距離の平均値、分散値、および、標準偏差値を導出する。

[0125] 具体的には、構成された距離関数

[0126] ほ女 12] [0127] に対し標本情報群 a , a, ···, aを入力し、距離関数

1 2 n

[0128] ほ女 13]

F_b(¾

[0129] に対し標本情報群 b , b， ···， bを入力する。この結果として、距離関数に基づく距

1 m

離情報 D ， D ， ···， D ， D ， D ， ···， D が求められる。このようにして求められ

al a2 an bl b2 bm

た母集団 Aにおける D群と母集団 Bにおける D群から、それぞれの距離平均値 μ D a b a

， μ Dと距離標準偏差値 σ D， σ D力なる統計情報が求められる。この際、 a，の b a b

群を識別する値は前述の式の iに代入される。

[0130] [数 14]

k=0

[0131] ほ女 15]

[0132] 次に、ステップ S14で、処理部 110は、ステップ S12で算出された母集団ごとの評価距離を正規化する。

[0133] 具体的には、距離関数

[0134] ほ女 16]

[0135] に標本情報群 a , a , ···, a , b , b , ···, bを入力し得られた評価距離群である D

1 2 n 1 2 m a 群を/ D , σ Dで正規化し、同様に、距離関数

a a

[0136] [数 17]

[0137] にも標本情報群 a , _a, '''， a， b , b， '''， bを入力し得られた評価距離群である D群を μ D， σ Dで正規化する。この結果、それぞれの母集団に属する標本により b b b

構成された評価関数による各標本群の重心からの距離平均を用いて算出された各標本の距離偏差値 V , V , · · · , V , V , V , · · · , V が得られる。

al a2 an bl b2 bm

[0138] ほ女 18]

V_{a k} 二。 (0" - ）

[0139] ほ女 19]

V_{b k} =o¾-¹(D_{b k} -_MD_b)

[0140] 次いで、ステップ S21で、処理部 110は、ステップ S14で算出した最初の母集団に対する標本の距離偏差値を評価する。そして、ステップ S22で、処理部 110は、距離偏差値が規定範囲内か否力を判断する。

[0141] 距離偏差値が規定範囲内である場合 (ステップ S22において YESの場合）、ステツプ S23で、処理部 110は、標本をその母集団に帰属させ、処理をステップ S24に進める。一方、距離偏差値が規定範囲内でない場合 (ステップ S22において N〇の場合）、ステップ S24に処理を進める。

[0142] ステップ S24において、処理部 110は、次の母集団があるか否かを判断する。次の母集団がある場合 (ステップ S24において YESの場合）、ステップ S25で、処理部 11 0は、次の母集団に対する標本の距離偏差値を評価し、ステップ S22に処理を戻す。一方、次の母集団がない場合 (ステップ S24において NOの場合）、ステップ S26に処理を進める。

[0143] ステップ S26において、処理部 110は、標本が既存のいずれかの母集団に帰属されたか否かを判断する。いずれの母集団にも帰属されていない場合 (ステップ S26において NOの場合）、ステップ S27で、処理部 110は、新たな母集団を生成し、その母集団に標本を帰属させ、処理をステップ S28に進める。一方、いずれかの母集団に帰属された場合（ステップ S26において YESの場合）、ステップ S28に処理を進める。

[0144] 具体的には、標本 aにおいて、距離関数 F (a )の距離偏差値 V 力 ¾ σ未満である

k a k ak 場合、標本を母集団 Aに帰属させる。

[0145] 標本 aにおいて、距離関数 F (a )の距離偏差値 V 力 ¾ σ以上である場合、かつ、 k a k ak

F (a )の距離偏差値 V 力 ¾ σ未満である場合、標本を母集団 Bに帰属させる。 b k ak

[0146] 標本 aにおいて、距離関数 F (a )の距離偏差値 V 力 ¾ σ以上である場合、かつ、 k a k ak

F (a )の距離偏差値 V 力 S3 σ以上である場合、新たな母集団 Cを生成し、標本を母 b k ak

集団 Cに帰属させる。

[0147] ほ女 20]

A U ¾ ( _ak < a のとさ)

B U ( v_ak > a ^Λ v_ak < のとき)

C U ¾ ( _ak > a ^Λ ¼_k > 3 _b のとき)

[0148] そして、ステップ S28で、処理部 1 10が、次の標本があるか否かを判断する。次の標本がある場合 (ステップ S 28において YESの場合）、処理部 1 10は、処理をステツプ S 21に戻す。一方、次の標本がない場合（ステップ S 28において NOの場合）、処理部 1 10は、処理をステップ S31に進める。

[0149] 具体的には、標本情報 a力 aまでについてステップ S21からステップ S27が実行

1 n

される。同様に、標本情報 b力 bまでについてステップ S21からステップ S27が実

1 m

行される。

[0150] 具体的には、標本 bにおいて、 F (b )の距離偏差値 V 力 ¾ σ未満である場合、標 k b k bk

本を母集団 Bに帰属させる。

[0151] 標本!）において、 F (b )の距離偏差値 V 力 ¾ σ未満である場合、かつ、 F (b )の k a k bk b k 距離偏差値 V 力 ¾ σ以上である場合、標本を母集団 Αに帰属させる。

bk

[0152] 標本 bにおいて、距離関数 F (b )の距離偏差値 V 力 ¾ σ以上である場合、かつ、 k a k bk

F (b )の距離偏差値 V 力 S3 σ以上である場合、新たな母集団 Cを生成し、標本を母 b k bk

集団 Cに帰属させる。

[0153] ほ女 21] ^r B U ¾ ( V_bk < 3a_b のとき）

A U b_k ( V_bk < 3a_a Λ V_bk > 3σ_¾ のとき)

C U b_k ( V_bk > 3σ₃ Λ V_bk > 3a_b のとき)

[0154] なお、母集団 A, Bに帰属する標本が、距離標準偏差値が最も小さい母集団に帰属されるようにしてもよレ、。

[0155] なお、ここで用いられる指標である σの 3倍という基準は統計学的な確率密度関数に基づいて導出される帰属確率もしくは出現確率もしくは所属確率において、 99. 7 %の標本情報を含むことが予想できる値であり、装置の仕様や思想、目的に基づいて、任意の倍率を指定してもよい。

[0156] また、ここでの分類の方法として、任意の σ値を評価基準としたり、任意の順位まで 3 σ以内であるかを評価したり、一番重心に近い母集団に帰属していると評価したり、一番距離平均に近い母集団に帰属していると評価したり、評価距離が負の値である場合において、その距離値が指数部と見なすと確率力 ^以上であることを考慮して、母集団に帰属していると評価したりすることを組み合わせて、帰属させる母集団を選択する方法を用いてもょレ、。

[0157] また、母集団自身の重心位置となる値を

[0158] [数 22]

^L k=0

[0159] ほ女 23]

ム k=0

[0160] としてもよレ、。

数 22もしくは数 23のように平均として用いて、標本群の重心からの距離に対する標準偏差を求め、前述の手法における境界基準としてもよい。この場合、距離平均ではなぐ母集団重心からの距離を評価基準とするため、固有値に基づく定数力も求められた平均 z Dとその平均に基づいた標準偏差に従って、統計的確率密度関数により求められる出現確率もしくは帰属確率もしくは所属確率とすることで帰属境界となる距離を決めてもよい。

[0161] また、正規分布を前提とした場合、母集団の重心と標本の距離平均値は統計量的に 0. 68 σ付近になることが予測できる。このため、距離平均値に対し一0. 68 σ以下の値をもつ標本も母集団とは異なる性質を持つと考えられるので、帰属する母集団を変更してもよぐガンマ分布など他の分布における確率密度関数に基づいて判断してもよい。

[0162] また、このような距離平均値と標準偏差値に基づいた分類方法であれば、複数の母集団との任意の条件の組合せで、再分類条件を指定してもよい。この際、複数の母集団の重心に充分近い場合はより近い方法にしたり、標準偏差値のより小さい方に帰属させたり、共に小さい場合、新たに母集団を構成したり、両方の母集団に帰属させたり、正負の偏差値ごとに分類方法を変えたり、といった方法が任意にできる構成であってもよい。

[0163] 次に、ステップ S31で、処理部 110は、標本情報が所定数未満、たとえば、 200未満の母集団があるか否力を判断する。標本情報が所定数未満の母集団がある場合 ( ステップ S31において YESの場合）、処理部 110は、ステップ S32において、その母集団に帰属する標本情報を他の母集団に帰属させる。つまり、その母集団を削除する。その後、処理部 110は、ステップ S33に処理を進める。一方、標本情報が所定数未満の母集団がない場合 (ステップ S31において N〇の場合）、処理部 110は、ステップ S33に処理を進める。

[0164] なお、削除する母集団に帰属する標本情報は、距離標準偏差値が最も小さい母集団に帰属されるようにするのが好ましい。また、母集団のみ削除し、削除する母集団に帰属する標本情報をどの母集団にも帰属させず、ステップ S33において距離関数力距離と仮の帰属母集団とを得るためのみの標本情報として用いるようにしてもよレ、。

[0165] 次に、ステップ S33で、処理部 110は、この再分類された母集団に対する距離関数を構築し、判別関数による認識により一致度の評価を実施し、分類が的確になされてレ、るかを評価する。そして、ステップ S 34で、処理部 1 10は、一致度が終了条件を満たすか否力を判断する。

[0166] なお、母集団数の増減が指定値以下になったか否力指定割合以下になったか否、各標本の評価距離の標準偏差値と平均距離が一定の比率になったか否か、最新の母集団による平均、分散、標準偏差値、固有値、固有ベクトルに基づいた再評価結果において、元の母集団に帰属する標本が一定値以上になったか否カ評価距離群から得た標準偏差値自体の分散が一定の値以下になったか否か、若しくは、評価距離平均値と一定の比率になったか否かに基づレ、て、終了条件を満たすか否力を判断するようにしてもよい。

[0167] 終了条件を満たさない場合 (ステップ S34において NOの場合）、処理部 1 10は、処理をステップ S 12に戻し、ステップ S 12からステップ S32までの処理を再帰的に実行する。一方、終了条件を満たす場合 (ステップ S 34において YESの場合）、処理部 1 10は、この情報分類処理を終了させる。

[0168] 図 3は、本実施形態に従う教師有り学習による情報分類処理における母集団の例を示す図である。

[0169] 図 3 (A)は、情報分類処理前の母集団の分類を示す図である。図 3 (A)を参照して、この図は、標本情報 a， bを散布図にプロットした図である。標本情報 aを「〇」で示

n n n

し、標本情報 bnを「◊」で示す。ここでは、人が標本情報の内容を判断して、 a, bに分類している。標本情報 aの集合が母集団 A、標本情報 bの集合が母集団 Bである。

n n

[0170] そして、分類前の母集団 Aおよび母集団 Bの重心をそれぞれ「★」で示す。分類前の母集団 Aの 3 σ境界を 1点鎖線で示す。分類前の母集団 Βの 3 σ境界を 2点鎖線で示す。このように、人が標本情報の内容を判断して分類した標本情報をプロットした場合には、 a， bの分類境界が歪なものとなる。

[0171] 図 3 (B)は、情報分類処理後の母集団の分類を示す図である。処理後の母集団の新規分類境界を破線で示す。新たに生成された母集団 Cの重心も、母集団 Aおよび母集団 Bの重心と同様、「★」で示す。

[0172] このように、情報分類処理により、複数の距離関数に基づいて得た距離の統計的に母集団重心との距離が乖離した情報は独自の母集団を形成したり、より重心の近い母集団に帰属を変更したりすることが可能となり、境界付近にあり、人の評価に誤差の生じやすい情報であっても、分布を正規分布に近づけることを可能とし、自律的に安定した母集団を形成することが可能となる。

[0173] 次に実験結果の説明を行う。

この実験は、あくまでも分類困難であった自然情報の一例として、人の音声情報を標本情報に用いることで、本実施形態により事前分類と認識結果に基づく事後分類の一致率が向上し分類数が減少する点から効率的な分類が実現できていることを確認するための実験である。

[0174] この音声情報においては、 1標本あたりの次元数が 192次元であり、人手により指定された開始時の代表初期母集団数が 8種類であり、データの標本数が 25万程度であり、発話音素数は 28種類である。

[0175] また、新しく作られた母集団の標本数がベイズ識別関数による距離を評価するために必要な評価次元数とほぼ同数の 200標本に満たない場合は、統計上の理由により母集団を構成していない。

[0176] この実験において、前述した情報分類処理により、まず、 28種類の音素を特定の人間の主観的音声条件に基づいて 8種類の母集団に分類する。それぞれの母集団に帰属していた各標本が評価前に付けられたラベルに基づいて帰属した母集団と評価後で得た距離の一番近レ、ラベルの母集団とがー致した場合、一致した標本から構成される母集団の重心との距離が帰属する母集団の距離平均値力みて 3 σより小さい場合、評価前の母集団に帰属させる。

[0177] 次に、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とがー致したが、評価前の母集団の距離平均値からみて 3 σ以上離れていたり、他の母集団の重心との距離がそれぞれの母集団の距離平均値からみて 3 σより大きいかったりする場合は、新しい母集団を構成させる。

[0178] そして、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とがー致しない標本の場合、標本の距離が他の母集団の距離平均値より 3 σの範囲である場合は一致した母集団に帰属させ、平均より 3 σ以上大きい場合は新しい母集団を構成させる。

[0179] 図 4は、本実施形態に従う教師有り学習による情報分類実験の実験結果を示すグラフである。図 5は、情報分類実験の対照実験の実験結果を示すグラフである。縦軸は、母集団数および一致率を示す。横軸は、情報分類処理の繰返し数を示す。

[0180] この実験結果である図 4によれば、母集団数が増加し、一時的に 40付近に到達するが、しばらくすると 16から 20付近で母集団数が増減しながら安定することが見て取れると同時に、一致率も 80%程度から始まり、一部割り込むことはあるが、安定して 8 0%以上を維持していることが分かる。

[0181] 図 5を参照して、対照実験は、評価前に帰属した母集団と評価後で得た距離の一番近レ、母集団とがー致しなレ、場合に新しレ、母集団を構成し、一致すれば帰属を変更しないという方法での実験である。

[0182] このため、母集団数が次第に増加し、母集団数が十分な標本が集まらなくなった 1 05付近で止まっており、最初 80%あった認識率も 72%から 62%の範囲に落ち込んでおり、安定した分類ができていないことがわかる。

[0183] すなわち、図 4の情報分類実験によれば、 25万の標本を 3 σ以内の 20個以下の母集団に分類可能であり認識率を 80%以上にすることが可能である。一方、図 5の対照実験では、母集団を構成するために必要な 200標本に満たない状態になる 105 付近まで母集団が増加しつづけ、加えて認識率が 70%台へと低下している。このことから、元来の 28音素に関係なぐ図 4の実験結果の方が、図 5の実験結果である 1 00を超えた母集団より少ない 15程度の母集団への効率的分割を実現できていると判断できる。

[0184] 図 9は、より多い標本による教師無し学習における本実施形態に従う情報分類実験の実験結果を示すグラフである。

[0185] 図 9を参照して、図 9の情報分類実験結果によれば、図 3と同一の話者による新規の標本を約 225万加えた約 250万の標本による教師無し学習においても、本発明を用いた 25万標本の実験と同様に 200回のトレーニング経過後であっても先の実験に近い 14から 18程度とラベル数 16付近の安定した母集団への分割を実現している。

[0186] 以上説明したように、本実施の形態における情報分類装置 100は、図 2のステップ S 11およびステップ S 12で説明したように、標本情報が含まれる複数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象の標本情報との評価距離を算出する。

[0187] また、図 2のステップ S13で説明したように、情報分類装置 100は、ステップ S12で算出した評価距離についての母集団ごとの平均、分散、標準偏差などの統計情報を算出する。

[0188] また、図 2のステップ S21およびステップ S25で説明したように、情報分類装置 100 は、ステップ S 12で算出した評価距離、および、ステップ S13で算出した統計情報に基づいて、母集団に対する標本情報の評価距離を評価することによって、分類対象の標本情報の母集団への帰属度合を評価する。

[0189] また、図 2のステップ S22からステップ S27で説明したように、情報分類装置 100は、ステップ S21またはステップ S25で評価した帰属度合に応じて、分類対象の標本情報をいずれの母集団に帰属させるかを決定する。

[0190] また、図 2のステップ S23およびステップ S27で説明したように、情報分類装置 100 は、決定した母集団に分類対照の標本情報を帰属させる。

[0191] このように、情報分類装置 100によって、分類対象の標本情報が母集団への帰属度合に応じたいずれかの母集団に帰属される。その結果、母集団への標本情報の自律的かつ安定的な分類をすることができる。

[0192] また、図 2のステップ S33で説明したように、情報分類装置 100は、分類対象の標本情報が帰属された更新された母集団ごとの重心と、更新された母集団のそれぞれに帰属する分類対象の標本情報との評価距離を算出し、ステップ S12からステップ S 33を再帰的に実行することによって、算出した評価距離に基づいて、さらに、分類対象の標本情報を帰属度合に応じたいずれかの母集団に帰属させる。

[0193] これにより、情報分類装置 100によって、さらに、標本情報を母集団へ再帰的に分類すること力 Sできる。

[0194] また、図 2のステップ S26およびステップ S27で説明したように、情報分類装置 100 は、いずれの母集団への帰属度合も所定の度合の範囲外であるとき、つまり、いずれの母集団への評価距離の平均値からの偏差値も 3 σの範囲外であるときに、新たな母集団を生成し、生成した母集団に分類対象の標本情報を帰属させる。

[0195] これにより、母集団に帰属する標本情報は、帰属度合が所定の度合の範囲内である場合に標本情報となる。つまり、情報分類装置 100によって、母集団に対して評価距離の平均値からの偏差値が 3 σの範囲内の標本情報を分類することができる。

[0196] その結果、情報分類装置 100によって、母集団に対して所定の度合の範囲内に標本情報を分類することができる。また、母集団に帰属する標本情報のうちの一定割合が平均値から 3 σの範囲内に分布する正規分布に近くなるように、標本情報を母集団に分類することができる。

[0197] また、図 2のステップ S31およびステップ S32で説明したように、情報分類装置 100 は、所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる。これにより、妥当でない母集団は淘汰される。

[0198] また、図 2のステップ S21からステップ S27で説明したように、情報分類装置 100は

、ステップ S21またはステップ S25で評価した帰属度合が最も良い母集団に分類対象の標本情報を帰属させるようにしてもょレ、。

[0199] これにより、情報分類装置 100によって、評価された帰属度合が最も良い母集団に分類対象の標本情報が帰属される。その結果、標本情報を母集団へ最適に分類すること力 Sできる。

[0200] また、図 2のステップ S14で説明したように、情報分類装置 100は、ステップ S 12で算出した評価距離を正規化する。

[0201] これにより、情報分類装置 100によって、評価距離を容易に取扱うことができるようになる。

[0202] 本実施の形態についての概略を次に示す。

情報分類装置 100は、記憶部 120の母集団により分類された標本情報に対し処理部 110を用いて、平均と分散を求め、共分散行列を構成し、記憶部 120に保存する

[0203] 次に、共分散行列から固有値と固有ベクトルを求め、標本の帰属する母集団の母集団と共に分類し評価関数として記憶部 120に保存する。

[0204] 保存された全ての評価関数に基づき、全ての標本の距離算出を処理部 110により実施し、その内容にしたがって分類し、必要であれば新しい母集団を与え記憶部 12 0に保存する。

[0205] 保存された母集団を用いて分類された母集団に従い、再度、処理部 110を用いて平均や分散等を求める演算を新しい分類に従って処理し、母集団数が安定するまで繰り返す。

[0206] 次に、本実施形態の変形例を説明する。

この実験に用いられる 3 σ範囲は母集団の 99. 7%程度を内包する範囲であり、統計的予測では検定境界である 98%となる 2 σ付近の値がよい分類を実施できることち予想、でさる。

[0207] また、マハラノビス距離の特性として、ある母集団における重心と標本情報とのマハラノビス距離平均は、その標本情報の次元数になることがよく知られている。この特性力考えると、母集団の中心から評価次元数と等しい距離にある標本は、 0. 68 σに含まれていることが解る。

[0208] このため、重心からの距離が絶対値であることを考慮すると、 ± 3 σに相当する距離は、得られた距離が標本次元数の 4. 5倍付近となり、この値よりマハラノビス距離が小さい場合であれば 99. 7%の確率で元の母集団に帰属することが予想でき、この値より大きな値であれば、ほぼ帰属しないことが予想できる。

[0209] そこで、本実施形態を利用し前述の手順を用いた再分類によって異なる母集団へ再分類するといつた応用も可能である。

[0210] そして、この分類の結果、既にある全ての母集団の重心から見て、 4. 5倍以上離れている標本は、全て同じ母集団に帰属させ、新しい母集団を一つ追加する方法が考られる。

[0211] また、既にある母集団が A, Β, Cである場合、全ての母集団から 4. 5倍以上離れている標本に関して、その標本が、 Αに一番近い場合は Al、 Βに一番近い場合は B1とレ、う具合に類似性の高そうなラベルを割当てることで、類似性のある標本同士を集めて、補助ラベルをカ卩えて新しくラベルを割り振ることで標本を分類する方法が考えられる。

[0212] この際、 A1が Αに帰属すると評価されても正しく評価されたとすることでマルチテンプレートを応用し、分類効率や分析処理の改善をはかることも可能である。

[0213] また、初期の分類を 1 σや 2 σと狭く指定し、数回の処理をした後 4 σや 5 σに幅を広げて分類することで、厳しい条件から緩い条件に変化させ、学習速度を効率的にする方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。

[0214] また、分類境界とする σ値を求める際、母集団重心からの平均距離に基づいた平均位置から見て負方向の最小 σ値を求めたり、一番重心に近い標本までの最小 σ 値を求めたりした後でそれらの絶対値や二乗値を平均位置から見て正方向の σ値の評価用上限値に用いてもよぐ距離平均より小さくベクトル重心に一番近い値の 2 乗とは距離平均から一番小さい評価距離までの標準偏差がー 2の場合、距離平均より + 4の標準偏差を上限の範囲とするととらえてもよい。また、これらの倍率や乗数は任意に指定してもよい。

[0215] また、逆の方法として、初期の数回を 5 σと広くし、そのあとで 2 σと狭くするなどの方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。また、母集団の変化が減った時点で母集団の増減を停止する方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。

[0216] また、この距離算出において、平均を中心とした指定範囲ばかりでなぐ平均からみてより小さい、もしくはより大きい片側だけの標本情報を新しい母集団として用いたり、非対称の範囲指定によって新しい母集団を構成したりしてもよい。

[0217] また、複数の母集団により評価される場合、より近く且つ任意の境界内に入っている母集団に標本情報 aを帰属させることにより、分割されている母集団が融合され、

n

母集団の数を減らすように処理してもよい。

[0218] また、マハラノビス距離を指数部とした場合、単純な n次元空間ばかりではなく時系列的統計に基づいた確率として利用できることもよく知られているため、 0から 1の確率値を本方法における距離とみなしたり、確率値を自然対数の指数部とみなした場合の指数値を距離として用いたりして、その平均と標準偏差値とに基づいた統計的分布を計測する。本来であれば、帰属する母集団への確率密度関数に基づいた出現確率もしくは帰属確率において全て 1になるはずだが、人の解釈による分散や環境の変化があるため必ずしもそうはならない場合の対策として利用できる。 [0219] この方法で、各種ニューラルネットワークやマルコフ過程、ベイズ推定といった確率モデルを用いたボルツマンマシン、 HMM (Hidden Markov Model)、ベイジアンネットワーク、ベイズ識別関数、ネオコグニトロン、コグニトロン、オートマトン、セルラーォ一トマトン、ファジー関数、カオス関数、フラクタル関数、揺らぎ関数、学習ベクトル量子化法（LVQ)、自己組織化マップ（SOM)、ベクトル量子化ニューラルネットワーク、競合学習型ベクトル量子化ニューラルネットワーク、ホップフィールドネットワーク、パーセプトロン、バックプロパゲーション学習、ハミングネットワーク、カーペンター 'グロスバーグ識別器、多値ホップフィールドネットワーク、並列ホップフィールドネットヮーク、連続値ホップフィールドネットワーク、相互結合型ニューラルネットワーク、セルラ一ニューラルネットワーク、フアジィニューラルネットワーク、単層パーセプトロン、多層パーセプトロンコーホネン学習、最急降下法、前向き学習、後ろ向き学習、適応共鳴理論モデル、状態転送ネットワーク、回帰ネットワーク、エルマンネットワーク、ジョーダンネットワーク、フューチャーマップ、コンビネット、競合学習、ァソシアトロン、誤差逆伝播学習、自己組織化特徴マップ、連想記憶、ダイナミカルネットワーク、カウンタ一バックプロパゲーション、ファジー推論、遺伝的アルゴリズム、カオスモデル、フラクタルモデル、アブイニシォ法といった任意の AI手法や評価関数、分類評価方法、各種確率的評価方法、それらの多層モデル、単層モデル、並列モデル、相互結合モデル、時間連続モデル、多値モデル、および、それらの組合せによる評価モデルによる評価結果を用いて得られる距離やそれぞれの入出力パラメータや係数に対して利用してもよい。また、それらの、多層モデルであれば入力層、中間層、出力層の一部もしくは全部に対する任意の入出力変数との組合せに用いる値の距離評価を実施したり、非階層モデルであれば各ノードへの入力値や発火ノードの出力値であつたり、それらの非階層モデルを組合せて階層化させたり 3次元化させたり、より高次元ィ匕させたりすることで、出力される評価結果に基づく値を距離として使用してもよい。

[0220] また、本発明を階層ベイズ、経験ベイズ、変分ベイズ、ナイーブ ·ベイズ法、拡張べィズ法、集積化ベイズ法、大規模ベイズ法、簡略化ベイズ法、マルコフ連鎖モンテ力ノレ口法（Markov chain Monte Carlo, MCMC)、ァ一二リング、ブースティング、 M —H (Metropolis-Hastings,メトロポリスヘイスティングス)ァノレゴリズム、ヒットエンドラン（hit-and-run)アルゴリズム、ギブスサンプラー、 SIR法（Sampling/Importance Re -sampling)、サポートベクターマシン (SVM)、 EM (Expectation Maximization)ァノレゴリズム、最大距離アルゴリズム、主成分分析 (PCA)、独立成分分析、 KL展開、 Kミ一ンズ、最大エントロピ一法、バックオフ重み付け処理などを組み合わせにより、混合分布情報や任意の分布情報を母集団とする情報群の分類や時系列遷移状況の評価を行なうために最適な評価関数を構成する手段として用いてもよい。

[0221] また、リードソロモン法やハミング法、巡回冗長検查（CRC)、各種ハッシュ関数と組み合わせたキーや 8— 10変換における 8ビット値範囲適用外の 10ビット値を用いるような方法を利用することでハッシュバッファ処理で大量に構成された距離評価関数へのアクセスの高速化を行なうことも可能である。

[0222] また、本発明は従来から「次元の呪い」と言われるところの球面集中現象を利用して、概ね平均値となる球面付近に対しての標本の距離平均を求め、その標準偏差に基づレ、た範囲内に統計的確率密度関数に基づレ、て帰属する確率が高レヽか否かによつて母集団への帰属を決定し集合論的な帰属を確定することで、母集団への帰属評価関数を再構成する自己増殖型ニューラルネットワーク手法と捕らえても良い。

[0223] また、本発明は経験ベイズ法若しくは階層ベイズ法応用と捕らえることも可能であり、各標本の母集団への確率密度関数に基づいた帰属確率もしくは出現確率もしくは所属確率の平均と分散、標準偏差を求め、平均からみて標準偏差の 3倍、すなわち 3 σ以上離れている場合の実施例としても考えられる力本発明の場合は確率が 1より大きくより母集団重心に近いという確率論的にはありえない状態であっても、ベイズ識別関数によるマハラノビス距離と固有値と事前確率に基づいた距離評価であるため、極端に重心に近い状態で情報が重なり合っても分類が可能であり、定量化しやすいという点で単純な確率評価とは異なっている。この場合、母集団からの乖離度は標本数 (サンプル数)やその他の条件を踏まえ、確率密度関数に従って母集団の平均と標準偏差に基づいた範囲内にあるかどうかを評価すると捕らえても良い。

[0224] なお、マハラノビス距離に必要な共分散行列構造分析により導出される他の距離表現、 Κミーンズ手法ゃシュミット直交分解などによるベクトル量子化空間における重心距離算出を用いてもよい。 [0225] また、距離算出方法においては、マハラノビス距離ば力りではなくユークリッド距離やシティブロック距離、チェスボード距離、ォクタゴナル距離、へタス距離、ミンコフスキー距離、類似度やそれらの距離に重み付け処理をした距離といった任意の距離算出方法や、固有値、固有ベクトルのどちらかだけを用いたり、どちらかの値を算術的に変化させることで統計的特徴を任意に変更した距離算出を行ったり、固有値自体や固有べ外ルのノルム、最大成分などを距離算出に用レ、てもよい。

[0226] また、ヤコビ法、ランチヨス法、標準固有値問題、固有値計算の解法、ハウスホルダ一法、アーノルディ法、 QR複合方式、シングノレ QR法、ダブル QR法、ガウス'ザイデル法、ガウス *ジヨルダン法といった任意の方法で固有値や固有ベクトルを導出してもよい。

[0227] また、この複数の母集団から得られる複数の距離情報自体を標本ベクトル情報と捕らぇ、再度、固有値、固有ベクトル、固有べタトノレのノルムを得ることで、 2次、 3次のマノ、ラノビス距離を導出することや複数の母集団の固有値や固有ベクトルを標本べタトルとして捉えた場合のノルムゃ固有値、固有ベクトル、平均、分散、標準偏差値とレ、つた情報を用いた距離算出も可能であり、これらの内容を再帰的、階層的に実施することでベイジアンネットワークのような構造を持たせたりする方法も容易に考えられる

[0228] また、分類前に母集団がなく母集団付けされていない時系列情報や形状情報においては、べき乗法などを用いた最大固有値と最大固有ベクトルの導出手段を用いて、過去の時系列情報や別形状情報から得られる固有値や固有ベクトルに基づいた平均やノルム、標準偏差値などの指標により最近の時系列情報や別形状情報における入力情報自体とのマハラノビス距離を評価することができる。

[0229] また、最近の時系列情報や別形状情報から得られる固有値や固有ベクトルに基づレ、た平均やノルム、標準偏差値などの指標によりマハラノビス距離を評価することができる。

[0230] このように評価された距離の平均や標準偏差値に基づいて情報を分類しながら、新規に母集団を構成し母集団付けを実施する方法を用いてもよい。

[0231] また、距離算出にともなう条件分岐において、境界付近の値を乱数などにより確率的に分類してもよい。

[0232] また、これらの情報は時系列や形状情報ば力りでな色情報や音情報、文字情報、文字記号列、発音記号列、表意記号列、表音記号列、音素記号列、音韻記号列、意味母集団記号、名称、形状、空間位置、空間配置、音素片記号などの記号片といつた事柄やそれらの評価変数、特徴量、記号値、変化量といった動的な変数情報であっても、静的な変数情報であってもよい。

[0233] また、本方法を用いて、人工知能の様に入力情報を評価判定し、結果を出力したり、音声認識に用いて音声対話を実現したり、画像認識ゃジエスチヤ認識に用いて装置を操作したり、意味検索を実施したり、情報処理装置におけるユーザーインターフエースのエージェントの内部評価に利用してもよレ、。このような、人間の認識を代行する装置としての応用に用いてもよい。

[0234] また、各母集団の固有値や固有ベクトル自体の平均や分散から再帰的に固有値と固有ベクトルを求め母集団同士のマハラノビス距離を導出することができる。また、各種べ外ル分割方法により直交境界付近の母集団同士の距離を計算することができる。

[0235] このようにすることで、互レ、に任意の指定範囲以内にある分類された複数の母集団を分割や結合、変更してもよい。例えば、複数の母集団における、それぞれの平均同士の距離が互いの標準偏差値の例えば 2 σ以内にある場合、母集団を統合し一つにまとめてもよい。

[0236] また、それぞれの母集団の重心からの距離を評価するば力りではな特定の母集団の重心からの距離を評価し、その距離が 3 σ以上であれば、以前に帰属していた母集団に基づいて別の母集団を構成するといつた方法を用いてもよい。

[0237] また、再分類の回数に応じて変化する帰属する母集団の履歴に基づいて、過去の履歴で帰属した頻度の高い母集団へ帰属させる方法であってもよい。この際、過去の母集団がほぼ同じ程度の場合は、乱数によって帰属する母集団を決定してもよレ、

[0238] また、強化学習回数に応じて、分散範囲の指定を変更したり、一致するべき標本の重心を基準にしたり、一致評価の結果として実際に一致した標本だけの重心を基準にして、再分類の評価を実施してもよい。

[0239] また、母集団数を変更せず、帰属する母集団だけを変更してもよい。

また、母集団における標本の尤度分布や出現確率分布、距離分布に基づく局所解を仮中心とみなし、その仮中心から各々の標本の距離を求め、得られた距離の平均と分散、標準偏差値により統計的に有意な範囲かどうかを弁別し母集団を分割や結合、変更してもよい。

[0240] また、平均ベクトルと標本ベクトルの差を取るときに、各要素の差から得られた解に正が多いか負が多いかを調べ、距離軸を正負に拡張し距離情報が重心と平均に対しての相関性が正相関か逆相関かを捕らえ、どのように偏っているかを確認し、母集団の分類を変えてもよい。

[0241] また、前述されるような正規分布ば力りではなくカイ二乗分布や一様分布，正規分布，対数正規分布，ベータ分布，コーシ一分布， F分布， U分布， t分布， p変量正規分布，ガンマ分布，ロジスティック分布，ポアツソン分布，ウィシャート分布， Hotelling (ホテリング)の T2分布，べき正規分布，経験分布，累積分布関数，離散分布，結合分布，二変量正規分，多変量正規分布，多変数指数分布，超幾何分布，多次元正規分布，対数級数分布，指数分布，半正規分布，同時分布，度数分布，条件分布，周辺分布，確率分布，安定分布，幾何分布，二項分布，負の二項分布，ワイブル分布などやそれらの多変数、多項数、多次元といった変形例を含む他の分布やそれらを用いた検定を、本実施形態における距離算出や帰属評価に用いてもよい。

[0242] また、線形代数手法による、グラム'シュミット分解，コレスキー分解，特異値分解，固有値解析，行列式，ノルム，条件数の推定，線形方程式の解といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。

[0243] また、多変量解析による、相関係数行列，重回帰分析，主成分分析，因子分析，正準相関分析，多次元尺度法，判別分析，分類樹木，対数線形モデル，クラスタ一分析，デンドログラム，最短距離木といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。

[0244] また、回帰分析による、最小二乗法回帰，非線形回帰，ステップワイズ回帰，口バスト回帰，スプライン近似，超平滑化，核型平滑化，一般化線形モデル，一般化加法モデル，尤離度によるモデルの比較，交替条件付き期待値による回帰 (ACE (Alt_ernati ng Conditional Expectation) )，加法型分散安定化変換による回帰（AVAS (Additi vity and VAriance Stabilization for regression) ) ,射影追跡凹リ巿，残差二乗中央値回帰，回帰樹木（CART (Classification And Regression Trees) )といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。

[0245] また、分散分析による、一元 ·二元配置分散分析，チューキー法，ラテン方格法，要因計画，一元 ·二元ロバスト分散分析とレ、つた任意の方法やそれらを多次多元化させた方法を、本実施形態における距離算出や帰属評価に用いてもよい。

[0246] また、時系列解析や信号処理による、自己相関，自己回帰 (従来手法および頑健法)， ARIMA (Auto Regressive Integrated Moving Average)モテル， AIC (Akaik e's information criterion)によ次数選択,ベクトノレ AR (AutoRegressive model)モデル，任意の変量スペクトル分析，高速フーリエ変換，ウェーブレット変換，ァダマール変換，べき変換、ボックス 'コックスべき変換、多パラメータべき変換、べき正規変換、プロクラステス変換、 z変換、対数変換、欠損値変換、逆正規変換、正規変換、角変換、ラプラス変換、口ジット変換、検定や任意の評価関数を用いたハイパス'ローパス 'バンドパス.バンドノッチなどの各種フィルタリング，古典的およびロバストな多数のスムージング手法、ルベーク積分、経路積分、振動積分、楕円積分、高階微分、対数微分、偏微分、楕円微分、各種関数微分、確率微分、リー微分、マルコフ微分、伊藤微分、ブラックショールーズ式、任意の初等関数、任意の多項式関数、任意の有理関数、指数関数、対数関数、三角関数、双曲線関数、任意の床関数や天井関数、ガンマ関数、ゼータ関数、楕円関数、ベッセル関数、ランベルトの W関数、任意の誤差関数、ベータ関数、グリーン関数、 σ関数、オイラーの φ関数、分割関数、メビウス関数、 L関数、アツカーマン関数、ディラックのデルタ関数、任意のへヴィサイドの階段関数、ディリクレの関数、任意の一方向性関数といった任意の方法や関数を、本実施形態における距離算出や帰属評価やそれらの補正に用いてもよい。

[0247] また、生存時間解析による、 Coxの比例ハザード回帰，ポアツソン回帰， Anderson -Gillによる修正 Coxモデル， Kaplan—Meier法， Fleming— Harrington法による生存時間解析といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。

また、検定手法である、グッドマン 'クラスカルの係数を用いた検定、クラスカル'ヮリス（Kmskal-Wallis)検定、片側検定、 χ 2検定、両側限定、正規分布の母平均の検定 (母分散既知）、正規分布の母平均の検定 (母分散未知）、 t一検定、正規分布の母分散の検定、独立性の検定、分散に関する検定、平均値に関する検定、連の検定、分散共分散行列に関する検定、多群判別の有効性の検定、 Wilksの lambda統計量検定、多群判別での変数の寄与の検定、偏 Λ統計量検定、 Adichie— Koul検定、アンサリ 'ブラッドレー（Ansari-Bradley)検定、コーェンのカッパ（Cohen's Kappa )重み付きカツノ（Weighted Kappa)ダービン検定、ダービン'ワトソンの検定、固有値の検定（Bartlett)、 Kolmogorov—Smirnov検定、コルモゴロフ'スミルノフの 1標本検定、 Lepage型検定、リリフォー検定、ログランク検定、 Ansari— Bradley検定、 Fisher (フィッシャー）の精密検定、 Friedman (フリードマン）検定、 F—検定、ホッジス ·レーマン推定（Hodges-Lehmann Estimation)、 Hotelling (ホテリング）の T2検定、 Jonckheere検定、 k X c分割表の (独立性の)カイ 2乗検定、 Klotzの正規スコア検定、 Kolmogorov— Smimov検定、 Kruskal— Wallis検定、 k個の母比率の均一性の検定、 Mood検定、 Moses検定、 Page検定、ラン検定（Runs Test)、 Linear by Linear連関検定（Linear by Linear Association Test)、層別データの CMH検定（CMH Test for Stratified Data)、ログランク検定（Logrank Test)、タロン'ゥェァの傾向検定（Tarone-Ware Test for Trend)、フィッシャー.フリーマン.ホルトン検定（Fisher-Freeman-Halton Test)、ピアソンの積率相関係数（Pearson's Product -Moment Correlation Coefficient)、ヒ Zソンの刀ィニ来検疋' (Pearson s Chi-Squar e Test)、尤度比検定（Likelihood Ratio Test)、サベジのスコア検定（Savage Scor es Test)、シャピロ 'ゥイルク検定（Shapiro-Wilk Test)、 Siegal—Tukey検定、 Tuk ey (チューキー）の加法性の検定、 Wald検定、 Watson検定、 Wilcoxon型検定、 Wi lcoxon_Mann_Whitney検定、ノートレット（Bartlett)の検定、 Yatesの補正、 M ann_Whitney (マン.フィットニー）検定といった各種標本検定，分割表の関連性の検定，独立性の検定，適合度検定といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよぐ本発明は統計的確率的に距離評価関数を構成し、その関数への帰属度合いを検定する「出現確率検定つきベイズ関数」と捕らえても良レ、。

[0249] また、前述した方法を任意に組み合わせて、本実施形態における距離算出や帰属評価に用いてもよい。

[0250] また、標準偏差値を用いた正規化前の距離の短いほうを分類時に優先させる任意の係数演算処理を実施してもよレ、。

[0251] また、演算の途中で求められる複数の母集団に対する正規化距離に従って、帰属する母集団を評価し、認識や識別を行ってもよい。

[0252] また、複数の評価結果をネットワーク状に接続し、接続の重みに正規分布を用いることで、任意のネットワーク構造による評価関数を構成してもよい。

[0253] また、 EMアルゴリズムや Kミーンズに応用し、帰属する標本が例えば 3 σに帰属しているかを評価することで妥当であるかの評価を実施し、最適なクラスタリングを実施するといつた任意の方法の組合せにより、任意のクラスタリング処理の性能改善に利用してもよい。

[0254] また、力プラン'マイヤー法、ノくリマックス法（varimax method)、クオ一ティマックス法、ユニオン 'インターセクション法、クアーティミン法、バイクオ一ティマックス法、プロマックス法（promax method)、ォブリマックス法、ォブリミン法、ォーソマックス法（orth omax method) ,ウォード法、ェクオマックス法、力プラン'マイヤー法、カイザー 'ディックマン法、ガウス'ドウリットノレ法、コバリミン法、斜交回転法、斉時一般バリマックス法、セントロイド法（重心法）、スチューデント化残差を用いる方法、ビートンの方法、最短距離法、最長距離法、群平均法、メジアン法、ウォード法、可変法、などによる因子軸の回転や分析、因子分析方法や多変量解析方法、クラスター分析法をもちいて、固有ベクトルや固有値空間を最適化したり、距離評価に利用したり、評価関数に用レ、て距離評価したりしても良い。

[0255] また、 Ansari— Bradleyのスコア、 Klotzの正規スコア、 Savageのスコア、 Siegel —Tukeyのスコア、符号付正規スコア、 van der Waerdenの正規スコア、 Moodのスコアなどのスコアリング方法を用いて特徴量をスコアリングしたり、関数出力結果をスコアリングしたりして、評価関数を構成したり評価関数の出力を評価したり評価結果を再度スコァリングしたりしても良い。

[0256] このように、機知の関数や統計方法、スコアリング方法、分類方法、検定方法、最適化方法、統計的手法と組合わせることで、それぞれの方法の特性を利用した各種応用や性能改善、機能改善などが容易に考えられる。

[0257] 次に、各種サービスを実施する情報処理システムについて説明する。

たとえば、ロボットなどの動作機械における情報の関連付けに基づく動作学習におレ、てある動作を構成するための変数と姿勢の名称との分類に本発明を用いてもよいし、その際姿勢の名称のみを通信回線を経由してロボットなどの装置に対して送信し、ロボットの遠隔ダンスサービス等の動作を分析的に処理し再利用する遠隔ロボット制御サービスを実施する情報処理システムや任意の駆動系機能を含む装置の運転および/もしくは制御方法の特徴学習による運転制御システムやサービスが考えられ、これらを用いた工作ロボットや整理ロボット、搬送ロボット、介護ロボット、愛玩ロボット、手伝いロボット、対話ロボット、家事ロボット、農業ロボットなどを作成しても良い。

[0258] たとえば、本発明をロボットの思考や行動、判断に応用する場合、ロボットの行動によって得られるエネルギーを「過剰、適度、平衡、減衰、喪失」といった具合に消費されるエネルギーや摂取されるエネルギーや利用者の好評価に基づいて分類し、それらの分類にともなう周囲の画像や音声、温度、湿度、空気成分や匂い、液体'素材成分や味、重さや加速度、衝撃、圧力などのセンサ入力値や分析値といった特徴量と特徴量の遷移状態に基づく二次特徴量、二次特徴量の遷移状態に基づく三次特徴量といった特徴量の多次元的な組合わせによる高次特徴量を収集し本発明を用いて分類してもよい。この場合、前述の五つの分類はその分類の間をアナログに遷移してもよいし、より細かく分類して評価関数を構成してもよいし、 1つもしくは任意数の変数による正負の値で表現してもよい。

[0259] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、これらの変数が 1つの変数であれば 0付近、複数の変数であれば平衡状態を示す値である場合に、過去の分類にぉレ、てエネルギーが取得された手順情報やエネルギ一や利用者の好評価を獲得するコストを低減させる手順に分類された手順情報が入力された特徴量、つまり、エネルギーの獲得に成功した手順情報との距離が近い場合において、ロボットの持つ興味変数が増減し、エネルギーの獲得が過剰やそれに伴う装置の破損であったり、喪失やそれに伴う運動能力の低下する場合であれば、恐怖変数が増減したり、エネルギーの獲得に伴い減衰するエネルギーが多い場合に倦怠変数が増減するといつた方法が考えられる。この際、手順情報は自装置の行なつた行為の時系列的変化を記録することで構成しても良い。

[0260] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、減衰するエネルギーより得られるエネルギーや利用者の好評価が少ない場合であつても、それらを複数組み合わせることにより、より大きなエネルギーが得られる場合や、将来、他の装置や生物から提供されるエネルギーや利用者の好評価が大きいと過去の分類に基づいて予測される場合や同種類の装置の破損を回避できると予測される手順情報があれば、その手順に基づいて装置の行動を制御してもよい。たとえば、静電容量センサパッドなどのようなポインティングデバイスに用いる装置を利用して利用者が叩いたことや擦ったことを評価し、叩かれたときは悪評価、撫でられたときは好評価であるとか、ロボットの発話に利用者が反応したときは好評価、無反応な時は悪評価といった方法が考えられそれらの情報を本発明の方法を用いて分類してもよい。

[0261] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、本発明に基づいた分類を利用し任意の定義された期間を超える長期間においてェネルギ一の緩慢な消費が確認され特に利用者から指示されない場合いにおいて、自動的にパソコンなどでいわれるスタンバイやスリープモードに移行しエネルギーの低減を回避したり、事前に依頼されていて未処理の行為を実施したりしてもよい。

[0262] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、過去に分類された母集団にサンプルが帰属しない場合や新しい母集団重心が出現した場合や分類された母集団に帰属し且つ他者が利益を得た情報がある場合、若しくは自分が容易に利益やエネルギーの獲得を得られた場合に興味変数が増減したり、過去に分類された母集団の重心に極端に近い場合に倦怠変数が増減したり、過去の判断に基づき分類された母集団において判断結果により極端なエネルギーの減衰ゃ損失、利用者からの信用の喪失や悪評価、装置の破損が起きた場合に恐怖変数や嫌悪変数が増減するといつた方法やそれらの分類情報を利用した処理手段に用いても良い。

[0263] また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、これらの興味や恐怖、倦怠といった名称は好奇心や恐れ、飽きといった心理状態を表す変数として異なる名称を持っていてもよ利用者によって良しと評価された行為や悪しと評価された行為を分類することで任意の処理や行為を行なって良いか否力を分類し学習したり、抑制したりしても良ぐ自己と他者の区別を能動的な行為により自己のエネルギー状態や位置状態に極短時間に影響する範囲を確率的に評価することで決定してもよぐ能動であるかどうかの評価を自己のエネルギー状態の変化に基づいて自発的な信号に同期しているかどうかを確率的に評価することで行なつても良い、興味変数が増減している状態で、嫌悪変数や恐怖変数が増減したり、ェネルギーゃ好評価の獲得が予測道理にできなかった場合にストレスや抑圧といった状態を示す変数を増減させても良レ、。

[0264] また、人間の主観評価分析や、精神分析に用いて利用者が連想する名詞と動作や行為、利用者の年齢、生年月日といった客観的情報と、利用者の性格や感情気質情報と期待する結果や状態の呼称情報の関連付けに基づぐ精神分析サービスや占いサービス、業務の名称と人物の名称と業務の難易度と業務の達成度とを関連付けた人事評価サービス、内容分析サービス、趣味の要素を示す名詞とそれに係わるアンケートなどによる統計的変数情報に基づいて各項目であるラベルとその変数である特徴量に基づいた情報を分類し傾向を抽出することで商品やサービスの人気や利用者の趣味に合わせた個人向け趣向対応サービスを実施する情報処理システムが考えられる。

[0265] また、自然情報の生物や地形、地質名称と位置や大きさ、色、重さ、形状、組成、材質、成分、状態といった指標に基づく分類や認識に用いてもよいし、情報の関連付けに基づく分析に基づいた環境調査サービスを実施する情報処理システムが考えられる。例えば、ネットワークモデルとして捉えた場合のノードとして指標を捕らえて、ある指標からある指標や人との距離をその間に含まれる指標や情報の位置的および /もしくは時間的な共起関係や共起確率、指標の前後関係や数を意味状態として用いて、自然状況の分析や構築、提案を実施する情報処理システムが考えられる。これらは HMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよレ、。

[0266] また、建造物周辺での人の行動を統計的分類しての防犯装置への利用や道路上の撮影装置や警報装置を用いて頻度の高い違反者の追跡に利用するなどの情報の関連付けに基づく安全管理サービスを実施する情報処理システムが考えられる。例えば、ネットワークモデルとして捉えた場合のノードとして建造物や商品と人とを捕らえて、ある建造物や商品からある人との距離をその間に含まれる物や人の数や情報の位置的および/もしくは時間的な共起関係や共起確率、単語の前後関係を意味状態として用いて、所有や利用状況の分析や構築、提案を実施する情報処理システムが考えられる。これらは HMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。また、画像特徴と出現頻度や停滞時間と犯罪の発生率を特徴量として人が犯罪と認定した状態をラベルとすることで指標として用いて分類して評価してもよぐ監視設備などに応用できる。こういった技術を応用することで動物の挙動を評価し農作物や廃棄物の監視をする「電子案山子」なども考えられる。

[0267] また、化学分析や DNA (Deoxyribonucleic Acid)解析などの確率的推測に基づいた分析に用いてもよいし、情報の関連付けに基づく薬品調合サービスや DNA鑑定などの医療や化学サービスを実施する情報処理システムが考えられる。この際、実験値などとなる科学的特徴量とその名称を分類の指標としてラベルに用いたり、 DNA の取得された身体や病症の部位などの特徴及び/若しくは年齢、性別、性格、趣味、スポーツや音楽、映画、政治活動の嗜好のような各種趣味分野名称といった分類機軸を分類のためのラベルとして、その人の生活や体質傾向と薬や治療の効果を分析、設計、提案するために用いたりしてもよい。

[0268] また、不良品の検出や耐震性分析、設計に伴う強度分析といった工学的特徴を統計的に分析しラベル付けするための工学的分析を実施する情報処理システムが考られる。

[0269] また、通信機器におけるフィルタリングにおいて、適応型フィルターを構成する場合に用いてもよいし、フアイヤーウォールサービスを実施したり、スパムメールフィルターを実施したり、ネットワーク接続経路を特定し構成したり、無線通信における電波強度や接続の再試行回数といった通信品質にともなうアドホックネットワーク再構築方法に用いるなどして、通信の安全な経路や信頼できる通信を分析、構築、提案する本発明による情報の関連付けに基づく通信基地局を構成したりする通信サービスや情報伝達サービスを実施する情報処理システムが考えられ、送信者の名前であったり、 IPアドレスであったり、ドメインであったり、特定のドメインや IP空間であったり、それら特定のネットワーク経路を経由している場合を示す特徴量を評価した結果に基づいて、通信を抑制することで、違法なアクセスやスパムをフィルタリングすることも考えられる。

[0270] また、医療に伴う病名や身体部位、症状、化学物質などの名詞をラベルとして利用し、医療機器などにおける患部の形状分析や症状分析、化学分析による係数や変数、分析値やそれらを加工した値を標本ベクトルの特徴量に用いて患部の状態推定などに用いてもよいし、対話パターン変数化し標本ベクトルに用いて情報を収録し、カウンセリングを実施する情報の関連付けに基づく通信医療サービスを実施する情報処理システムが考えられる。

[0271] また、内科医療的な応用としてネットワークモデルとして用いた場合のノードやリンクとして人の DNAや身体特徴、血圧や体温脈拍、体液成分値といった医療特徴と疾病の関係を捕らえて、ある特徴からある特徴と病気の距離をその間に含まれる特徴や病気の数をネットワークホップ数とした特徴として重み付けに用いることで、情報のより広い医療概念といった医療分野範囲内での共起関係や共起確率を医療特徴の意味状態として用いて、病理形態の分析や改善提案を実施する情報処理システムが考えられる。これらは HMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。

[0272] また、外科医療的な応用としてネットワークモデルとして用いた場合のノードやリンクとして人の身体部位や身体特徴と人の移動可能な地形や道路形状といった身体障害特徴と物理空間モデルの関係を捕らえて、ある特徴力ある特徴と物理空間モデルの距離をその間に含まれる特徴やある物理空間モデルをネットワークホップ数とした特徴として重み付けに用いることで、それらの情報の範囲内での共起関係や共起確率を外科的な身体機能の意味状態として用いて、身体機能障害の分析や改善提案を実施する情報処理システムが考えられる。これらは HMMなどのようなネットヮークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。

[0273] また、これら前述の応用方法に関する一般的な解釈として専門知識に関する名称をラベルとし、それらのラベルの相関性を距離表現することで抽象概念や具体概念の層構造分析し、それらの係数や変数を標本ベクトルに用いて本実施形態による分類を実施する。

[0274] この方法は、各種の専門用語や人物、場所といった知識の名称によるラベルをノードとして捕らえてネットワーク構造を構成し、情報間に含まれるノード数となるホップ数を距離として捕らえ、その距離を特徴量としたり、通信プロトコルにおける経路探索技術を用いて意味空間の情報間距離を求めたり、距離を評価したりする。この際、各ノードに他のノードへの接続における減衰量としてのウェイト指定を行なうことも可能であり、ホップ数の離散的な値に対して連続量的な解釈を与えて距離評価するといつた方法も考えられる。

[0275] このようなネットワーク構造を考慮した階層的記憶による情報の関連付けを実現することで本発明による分類に基づく連想型エキスパートシステムによる情報提供サービスや教育サービス、情報配信サービス、人員や素材、薬品、器具、流通経路といつた要素の組み合わせによって効果を予測するシミュレーションサービス、天気予報や株価や相場の予想、地震予想、経済予想、物価予想、競技予想、競馬予想といった情報予測サービス、新聞記事や雑誌や書籍記事などの情報要約サービスを実施する情報処理システムが考えられる。

[0276] また、複数の言語の異なる地域にまたがった情報を、特定の言語を話す人向けに、形状に伴って発話される単語や、形状に付随して発話される単語を標本ベクトルに用いて本実施形態により分類し、意味空間分類を実施するとことで、情報の関連付けに基づぐ言語の異なる地域で同様のサービスを実現できる旅行ガイドや翻訳サービスを実施する携帯電話や PDA、通信基地局などを用いた情報処理システムが考えられる。 [0277] また、対話型ユーザーインターフェースにおレ、て、ぁレ、まレ、な意味のある単語の発言確率に基づいた特徴量を標本ベクトルに用いて発音者の癖を本実施形態により学習することで、あいまいな対話を実現する情報の関連付けに基づく対話サービスを実施する情報処理システムが考えられる。

[0278] また、ゲームなどでコンピュータが制御するキャラクタに会話モデルを分類登録した情報を用いることで、人間的雰囲気を距離評価演算中に考える仕草をすることなどで演出した会話をさせたり、動物や植物、人の行動を分析した特徴量を用いて動物的であつたり植物的、人間的な挙動や行動を演出したりといつたサービスを実施することも可能である。また、このようなサービスを実施する情報処理システムが考えられる。

[0279] また、信用情報や評価値標本ベクトルに用いて組織内や組織間の評価距離を求めることで分類し評価者間の信頼距離を求め、配当や成績評価、能力評価の階層を決め、金銭の支払い体系や与信枠の設定、割引体系、利益還元方法、投票方法、調查方法、商品の金額や配当など価値の評価や決定を実施する情報処理システムが考えられる。

[0280] また、地図と地域に基づいた情報収集を行ない、たとえば、位置と名称を示す音声特徴や画像特徴、温度特徴、天候特徴、人口密度といった情報を標本ベクトルに用レ、て適当な名称をラベルとして割当てて分類することで、位置に基づレ、た情報支援を実施する情報処理システムが考えられる。ネットワークモデルとして用いた場合のノードゃリンクとして街や村などの人口密集地を捕らえて、ある場所からある場所の距離をその間に含まれる場所の数をネットワークホップ数とした特徴として重み付けに用いることで、都市数や人口、生産高、交通量、経済規模、それらの管理番号、時間的及び Z若しくは物理的位置関係による情報のより広い巿ゃ郡、国といった地域名称範囲内での共起関係や共起確率、場所の位置関係を意味状態として用いて、移動形態の分析や構築、提案を実施するカーナビなどを利用した情報処理システムが考えられる。

[0281] また、従来からある状況把握のための情報を特徴量として用レ、、 IDタグなどを利用して商品の流通状況を分析したり、車両の通行状況を分析したり、人の流通状況を分析したりすることで、流通状態管理のための指標情報を構築し、物流情報提供や混雑緩和のための迂回情報提供、渋滞情報提供とレ、つた情報提供サービスを実施することも可肯である。

[0282] また、人と人との共存時間や共著情報、戸籍情報、共同制作者情報などの人が交流している状態を客観的に示す情報やその情報の件数および/もしくは出現頻度を標本ベクトルや、ネットワークモデルとして用いた場合のノードやリンクとして捕らえて

、ある人からある人の距離をその間に含まれる人の数をネットワークホップ数とした特徴として重み付けに用いることで、人数や参加団体数、それらの管理番号、時間的物理的位置関係や人同士の情報の交換回数や閲覧回数を交流状態として用いて、人間関係の交流分析や提案を実施する情報処理システムが考えられる。

[0283] また、ある言語に基づいた情報と、異なる言語に基づいた情報とに関する単語や任意の情報を関連付けることで、異なる言語間で利用できるサービスを実施するための分類や評価基準を構成する情報処理システムが考えられ、文字認識や手入力、音声認識による文章に対して閲覧者から指定された誤記や脱字、誤解釈などにより精度の高い文書の自動訂正を行なうサービスも考えられる。

[0284] また、位置に基づいた映像情報もしくは音声情報と、その映像もしくは音声に関する単語や任意の情報とを関連付けることで、位置に基づいてサービスを実施するための分類や評価基準を構成する情報処理システムが考えられる。ネットワークモデルとして用いた場合のノードやリンクとして単語を捕らえて、ある単語からある単語の距離をその間に含まれる単語の数をネットワークホップ数とした特徴として重み付けに用いることで、情報の共起関係や共起確率、文字数や単語数、管理番号、時間的位置関係による単語の前後関係を意味状態として用いて、意味関係の分析や構築、提案を実施する情報処理システムが考えられる。

[0285] また、固有値や固有べ外ルを用いて、画像情報や運動情報、座標情報群による二次元若しくは三次元物体の形状情報などを評価し、その評価距離に基づく類似性によって意匠侵害や著作権侵害に関する知的財産の侵害状況を評価することも可能である。この場合、帰属する母集団とサンプルである評価対象情報の情報間距離やサンプルの発表時期からの時系列的変化に伴う類似する形状の発表条項を踏まえて情報間距離を評価することにより陳腐化状況や類似性を定量化してもよい。 [0286] また、任意の情報や商品、サービスを選択する情報処理システムが考えられる。また、音楽と音楽に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0287] また、衣装や装身具、装飾品と衣装や装身具、装飾品に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0288] また、触感と触感に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0289] また、味と味に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0290] また、匂いと匂いに基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0291] また、天候と天候に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0292] また、映像と映像に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。

[0293] また、このような感覚器や言葉から得られる情報同士を味と衣装に関する言葉や匂レ、と装身具に関する言葉という具合に異なる系列の情報を相互に関連付けて任意の情報や商品、サービスを提供する情報処理システムが考えられる。そして、これらをネットワークモデルとして用いた場合のノードやリンクとして単語を捕らえて、ある単語力ある単語の距離をその間に含まれる単語の数をネットワークホップ数とした特徴として重み付けに用いることで、情報の共起関係や共起確率、文字数や単語数、管理番号、時間的位置関係による単語の前後関係を意味状態として用いて、意味関係の分析や構築、提案を実施する情報処理システムが考えられる。これらは HMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。

[0294] また、それぞれの事柄と関連付けて想起される感性に関する言葉にもとづいて任意の情報や商品、サービスを提供する情報処理システムが考えられる。 [0295] また、想起される単語を言葉でない記号や分類コード、例えば、文字コードのような形容詞や副詞などを分類する感覚を分類する感覚コードや感性を分類する感性コード、感情を分類する感情コード、主観を分離する主観コード、視覚的形状を分類する形状コード番号などを構成して、そのコードと他の任意の情報を関連付けたり、複数の任意の情報同士、例えば、特徴量や認識された記号をそのようなコードを用いて関連付けたりすることで共起行列や文字数や単語数、管理番号、時間的位置的関係による共起距離の定義方法を構築する。そして、それらを用いて構築した概念辞書や概念索引を記憶媒体に記録する情報処理システムが考えられる。

[0296] このように、情報選択、情報配信、情報提供、情報抽出、情報加工、情報分析、情報予測、情報伝達、情報分類、情報分離、情報翻訳、情報変換、情報要約、情報検索、情報探索、情報比較、情報評価、情報調査といった方法を応用し、任意の情報と任意の情報の関連付けをすることで、任意の情報や任意の商品、任意のサービスを提供もしくは支援する情報処理システムが構成できる。

[0297] より具体的には、任意の特徴量を用いて前述の情報処理システム例に必要な情報の標本情報群を生成する。この標本は、音声や音楽であったり、絵画や写真、動画であったり、味覚や嗅覚を刺激する化学成分であったり、体感する音頭や触覚であつたり、計量可能な長さや重さや速度や位置といった情報であったり、文章であれば単語の出現頻度や共起確率であったり、文章特徴である出現文字頻度であったり、目的とする任意の情報を組合せて表現したり、それらを組合せたり加工したりすることで構成された特徴量であったり、それらの特徴量の構成比率であったりしてもよい。

[0298] この際、これらの情報や特徴量などは最初の段階で人手によって、任意の ID (Iden tification Data)やラベル、コードを分類された母集団に対し指定してもよいし、本実施形態を用いて全ての標本情報群の平均と分散から事前に分類していてもよい。

[0299] このようにして任意の変数や係数で分類された標本情報は、母集団の数が安定するまで本実施形態の分類を再帰的に繰返し母集団が安定するまで実施した結果得られるラベルや ID、コード、分類番号、整理番号、管理番号を、人の主観や任意の情報処理方法により再度特定のラベルや ID、コード、分類番号、整理番号、管理番号にする。ラベルや ID、コード、分類番号、整理番号、管理番号をデータベースの検索キーとして用いたり、ファイルシステムでのファイルの属性に用いたりしてもよい。

[0300] この結果、標本情報は、得られたラベルや ID、コード、分類番号、整理番号、管理番号と人間が使う名称との関係を共起行列ゃュニグラム、バイグラム、 Nグラム、複合型 Nグラムや 2次元や 3次元に限らない任意次元や任意段数の CDPマッチング、 DP マッチング、ビタビ探索、 N— best法、トレリス法などの応用に基づくパス探索やマツチング結果といった任意の特徴量とともに 2分木やハッシュバッファといった索引処理方法により関連付けられたのちに本発明により分類され記録された概念辞書や概念索引を効率的に構築する。そして、本発明により分類生成された情報を索引や評価ノメータに用いた記録媒体により構成されたデータベースを用いて、人が入力した情報が適切なラベルや ID、コード、分類番号、整理番号、管理番号と関連付けられ、そのラベルや ID、コード、分類番号、整理番号、管理番号に関連する情報が検索され、目的の情報、サービス、商品、手段、手順、経路、日程などが利用者に提示、提案されたり、利用者に各種目的に応じた情報提供サービスとして実施されたり、記録媒体に目的に応じて分類され記録されたりする。

[0301] このように、本実施形態により分類された基準によって利用者の入力した情報と他の任意の情報を関連付けたりその関連性を評価したりすることで前述の色々な情報提供サービスのための情報処理システムの実現を図る。そして、これらの応用により意味や趣向、背景、状況に配慮したサービスが実現可能であることが考えられる。

[0302] また、本実施例の中に記載される共起行列や共起確率、確率遷移行列といった情報の共存状態や変化を数値化して表現する情報に対して、一定の閾値未満の項目は評価対象から削除したり、全ての確率の分散から求められる標準偏差に基づいて平均から一定距離以上の位置にある情報を評価対象から削除したり、ガウス消去のような方法で評価次元数を縮退させてもよいし、同様の条件で評価項目を追加してもよい。

[0303] くわえて、これらの共起行列や共起確率、確率遷移行列といった情報の共存状態を数値化する情報において、性能が改善されたり効果があったり意味が感じられたりする人間の主観において肯定的に評価される情報群と、逆に劣化したり効果が低下したり否定的に評価される情報群と、変化が主観的に感じられない情報群と、共起させることで著しく結果の悪化するため禁忌される情報群とに分類することで、実施における利用効率の改善も図ることができる。この分類は四つであるが、実際の使用にあわせてより多数の分類を実施してもよレ、。

[0304] また、情報分類装置 100は、記録媒体にデータを記録する外部記憶装置を備えてもよレ、。記憶媒体は、この手順を情報処理装置上で実施するためのプログラムゃスクリブト、ソースコードとレ、つた実施手段が情報として記録されたフラッシュメモリや CD -ROM (Compact Disk Read Only Memory)、ハードディスク、フロッピー（登録商標）ディスクなどの記録媒体である。

[0305] また、情報分類装置 100は、イーサネット (登録商標)や携帯電話向けモデム、無線 LAN (Local Area Network)を例とする有線/無線を問わず通信手段やバス接続手段となる送受信装置や、撮像装置や集音装置、傾斜センサ、音響センサ、光センサ、方向センサ、 GPS、温度センサ、湿度センサ、地磁気センサ、キーボード、マウス、タブレット、スキャナといった任意の入力装置やセンサ、そして 2次元や 3次元のディスプレイといった表示装置、スピーカなどの発音装置、任意の薬品や化学物質による素材を合成するための装置や製造機器、印字や印刷するための機器、ロボットの手足や車輪などによる任意の出力装置を具備してもよぐそれらの装置と任意の信号を入出力するための光学的端子および/もしくは電気的、電磁的端子類を具備していてもよレ、。また、これらは、内蔵であるか外付けであるかを問わない。

[0306] また、情報分類装置 100を含むパソコンやカーナビ、基幹サーバや通信基地局といった情報端末や情報処理装置、携帯電話や腕時計、装身具形状端末、リモコン、 PDA, ICカード、インテリジェント RFID、身体埋め込み端末といった携帯端末であつてもよく、本発明はアルゴリズム実施応用であるため、演算回路を有すれば任意の装置上で実施可能である。

[0307] また、ロボット、電車、船舶、航空機、自動車、自転車、特殊車両、工作機械、人工衛星、販売設備、通信設備、搬送設備、加工設備、空調設備、水道設備、電力設備、ガス設備、衛生設備、農業設備、海洋設備、建設設備、監視設備、課金設備、住宅設備、娯楽設備、安全設備、交通設備、動力設備、教育設備、生産設備、マイクロマシンなどの駆動系を伴う機械装置を制御する制御装置が情報分類装置 100を含むようにしてもよい。

[0308] そして、情報分類装置 100を携帯可能な大きさまで縮小し、情報端末として利用することが可能であってもよい。

[0309] また、情報分類装置 100は、複数の異なる利用者の通信を相互に接続交換し、場合によっては通信に伴って課金を実施することで社会の利便性を図る機能を備えた情報処理装置であってもよい。

[0310] また、本実施形態においては、情報分類装置 100について説明した。しかし、これに限定されず、図 2で説明した処理をコンピュータに実行させる情報分類方法、または、図 2で説明した処理をコンピュータに実行させる情報分類プログラムとして発明を捉えることができる。

[0311] 図 6は、本実施形態の変形例に従う情報分類システムの概略を示す図である。

図 6を参照して、情報分類システムは、情報処理装置 100A, 100B、および、情報端末 200A〜200Cを含む。情報処理装置 100A, 100B、および、情報端末 200A 〜200Cは、それぞれ、インターネットや電話回線網などのネットワーク 500を介して接続される。

[0312] 情報処理装置 100A, 100Bは、それぞれ、前述した情報分類装置 100と同様の機能を備える。そして、情報処理装置 100A, 100Bのいずれかは、情報端末 200A〜 200Cのいずれ力からの要求に応じて、分類対象の標本情報を複数の母集団に分類し、要求した情報端末に分類された結果を送信する。

[0313] たとえば、情報処理装置 100A， 100Bのいずれ力が、情報処理端末 200A〜200 Cのいずれかから、複数の母集団を受信し、それらの母集団に帰属する標本情報を分類し直し、要求した情報端末に分類された母集団を送信する。これにより、標本情報を自律的かつ安定的に分類した母集団を与えることができる。

[0314] また、前述したような情報処理装置 100A, 100Bおよび情報端末 200A〜200Cを含み、 ASP (Application Service Provider)型のサービスを提供する情報提供システムとして適用したり、データベース装置としたり、データベース装置に組込まれた本発明による分類情報をサービス提供のために記憶した記録媒体としたり、通信回線を用いた本発明に基づいた分類を用いた情報配信装置としたりすることができる。 [0315] また、情報処理装置 100A， 100Bのいずれ力が、情報処理端末 200A〜200Cのいずれかから、分類対象の標本情報を受信し、情報処理装置の記憶部に記憶された母集団のうちいずれの母集団に帰属するかを判定し、要求した情報端末に判定された母集団を識別する情報を送信するようにしてもよい。これにより、分類対象の標本情報が帰属する母集団を識別する情報を自律的かつ安定的に与えることができる。また、要求した情報端末に課金を実施するようにしてもよい。

[0316] また、本実施形態に基づいて構成された情報を記録媒体に記録し、そのまま配布したり、書籍に添付して配布したり、通信環境を用いて配布したりしてもよい。この際、 CD— ROMや DVD— ROM (Digital Versatile Disk Read Only Memory)といつた記録媒体や、 2次元バーコードのような印刷媒体、フラッシュメモリのような電子媒体、電話回線や ADSL (Asymmetric Digital Subscriber Line)、光ファイバといった伝送媒体を経由して遠隔に記憶された記録媒体などであってもよレ、。

[0317] また、本実施形態の情報処理装置 100, 100A, 100Bのいずれ力が、前述した構成に加えて、さらに、分類された母集団を記憶するデータベースを備え、ユーザや端末装置 200A〜200Cのいずれ力から受取った分類対象の標本情報力いずれの母集団に帰属するかを検索して検索結果をユーザや端末装置 200A〜200Cのいずれかに受渡すデータベース検索システムとして本発明を捉えることができる。また、このようなデータベースを構築するデータベース構築装置として本発明を捉えることができる。

[0318] また、前述のデータベースの内容に関し、本発明を用いて距離評価方法である距離評価関数による距離算出により得られた帰属母集団や他の母集団の重心からの距離に基づいて、それぞれの母集団に対するそれぞれの標本の帰属度を評価することにより、再分類を実施し、利用者に提示するための基準となるテーブルやレコード、インデックスからなる分類情報や分類基準、表現情報およびそれらに対して発行されるクエリやキーワードといったサービスを実現するために利用者へ提供するための任意の情報を更新および/もしくは変更や最適化を行なうことで利便性の高いサービスを実施してもよい。

[0319] また、検索においては従来から一般的に用いられる、任意の ID 'ラベル同士が一致する場合や任意の ID'ラベル同士と関連付けられた任意の特徴量同士に対して任意の距離評価方法による評価距離が本発明による分類方法を指標として近いと評価される対象を同様の分野'分類に属すると判断することで、検索結果として選択し利用者に提示することが可能である。

[0320] また、遺伝的アルゴリズムの有効無効フラグやフラグ項目に本発明による評価分類方法や分類結果を用いることで、任意の特徴や情報同士が確率的に間係する状態に適応可能な分類評価機能を実現し、状況に応じて有効機能の組合せを切替えて臨機応変な対応を可能とする分類方法を実現してもよい。

[0321] このように、前述のデータベース構築装置を用いて本発明により分類された IDや変数やテーブルやレコード、インデックスの項目や内容として記憶することを特徴とするデータベースを用いて、顧客の嗜好や自然情報の傾向、経済の傾向、動物行動の傾向、人の心理傾向といった従来では傾向分析の困難だった情報を分類し検索することで任意のサービスを実施する装置が実現できる。

[0322] また、本実施形態における情報分類装置 100を次のように見ることができる。

情報分類装置 100は、ある母集団 Aに帰属する k個の標本 aと母集団 Aとの距離算

k

出部を構成し、その距離算出部に基づいて距離 Dを求め、求められた各標本 aの母

k k 集団 Aとの距離を標本 aと母集団 Aの距離平均値 μ と標準偏差値 σ といった統計

k a a

情報算出部を用いて得た値にしたがって、統計的な正規分布の出現確率により母集団への帰属度合を評価する。

[0323] この帰属度合評価部は、例えば 99. 7%以上の確率で標本 aと距離平均値 μ との k a 差が平均を中心とした正規分布出現確率からみて範囲外と予測される値である 3 σ a

(標準偏差値の 3倍)より大きい場合、別の母集団 Bや母集団 Cといったより近い母集団ゃ新規母集団に帰属させ、そうでない場合は母集団 Aに従来通り帰属させることにより、母集団 Aに帰属する標本群が正規分布を構成できるように再帰的な分類を実施する。

[0324] 図 7で説明したような正規分布であれば対称的な分布になり、母集団からの距離は重心の距離を求めると、距離平均値が概ね 0. 68 σ付近になり 3 σの範囲に母集団の 99%以上の標本が含まれる。しかし、人が作った母集団では境界があいまいになり、図 8で説明したような非対称な分布になることが頻繁に生じる。

[0325] このため、図 8で説明したような非正規分布の場合、平均位置は標本の状況により不定となり、必ずしも距離平均値から 3 σ以内に母集団の重心から 99%以上の標本が含まれる保証は無い。

[0326] このことから、本実施形態では前述した内容や図 3にある様に母集団の重心からの距離が距離平均値から見て 3 σの外にある標本に関し、その標本を 3 σに含む母集団があればその母集団に帰属させ、どの母集団の 3 σにも帰属しない場合は、新たに母集団 Cを形成するようにする。この際、母集団 Cの要素数が必要な評価次元数より小さいといった統計上の問題を生じる場合は、必ずしも新規母集団を評価に用いなくてもよい。

[0327] このように、人の指定に基づいて演繹的に求められる情報境界の妥当性を重心からの距離の正規分布における出現確率に基づいた統計的手法により帰納的に確認する。そして、演繹的にも帰納的にも妥当でないと判断された場合、仮説的に母集団を構成し、その母集団が妥当な重心を有していれば、そのあと継続される演繹と帰納により残り、妥当でなければ淘汰され、最終的に適切な重心の母集団のみが残る。

[0328] その結果、各々の要素と各々の母集団との距離情報を正規化したベクトル間距離正規化距離に基づいて、母集団の分割や結合、変更が実施されるため統計学的な正規分布を期待した場合の根拠があり、できるだけ正規分布に近似した情報分類を実施する情報分類装置を構成できる。

[0329] また、母集団の重心が極端に近い場合、たとえば、互いに 1 σの範囲にある距離に母集団が存在する場合、その母集団を統合することで、不用意な母集団の増加を防いでもよいし、統計の都合上、充分な標本が集まらない場合や全体のサンプルゃ特定母集団から 5 σ程度の近隣にある複数の母集団を統合したサンプノレ群からもとめられる平均と標準偏差から見て、評価対象のサンプルや母集団が 4 σ以上はなれてレ、る場合などの統計的に考慮すべき条件において、その母集団を削除してもよい。

[0330] このため、人間の感覚に基づいた抽象概念やあいまいな表現、感性情報といった従来では定量化による分類が困難であった情報の分類を実現でき、人にやさしいサ一ビスやそのようなサービスを実現する装置や情報処理システムや通信基地局ゃ携帯端末を実現することができるため、インターネットなどのポータルサイトや検索サイト、販売サイト、 SNS (Social Networking Site)、知識を共有するエキスパートシステムサイト、オークションサイト、情報を分類するためのスクリーニングシステム、ネットヮーク上の信用情報や認証情報を取り扱う認証サイト、ァグリゲートサービス、情報処理装置のグラフィカノレ'インターフェースやタンジブノレ'インターフェース、エージェント' インターフェース、ロボット、仮想現実、拡張現実などにおいて RSS (RDF Site Sum mary)等を実施するときの情報評価の指標に本発明を用いたり、 XML (extensible Markup Language)や; ^OA (Service Oriented Architecture) SML (simple (or St upid or Software) Markup Language)、 MCF (Meta Contents Framework)、 DT D (Document Type Dermition)、 GML (Geography Markup Language)、 SMIL (S ynchronized Multimedia Integration Language)、 SGML (Standard Generalized Mark-up Language)、 RDF (Resource Description Framework)等のメタ表現形式の分類指標に本発明を用いたり、 SOAP (Simple Object Access Protocol)や UD DI (Universal Description, Discovery, and Integration)、 WDL (Web Services Description Language)、 SVG (Scalable Vector Graphics)、 HTML (HyperText Markup Language)等の各種プロトコルやスクリプト、情報処理言語を任意に組み合わせてサービスを実施できる。

[0331] [変形例]

次に、本実施の形態の変形例について説明する。例えば、図 2のステップ S12の距離評価において、評価用サンプルである

[0332] ほ女 24]

[0333] の構成要素が {xl、 x2、 x3、 x4、 x5、 x6、 x7、 x8 }であり、評価関数の入力べクトノレである

[0334] ほ 5]

Y [0335] の構成要素が {yl、 y2、 y3、 y4、 y5、 y6 }である場合、それぞれのベクトル要素に事前に名称若しくは構成要素の IDなどの識別子を与えておく。

[0336] この構成要素に対する識別子としての名称若しくは構成要素の IDは音声認識の観点から例えれば、それ自身が音素のように 1つの意味を持つラベルであってもレ、レ、し、音素と音素片のようにより抽象的なラベルの上位概念と下位概念とを組み合わせて、音素の遷移状態を表す識別子として任意の効率的な表現を行なっていてもよい。この上位概念および下位概念は、映像要素や商品、学問、文化、映画、音楽、といつた任意の分野の情報空間におレ、て用いられてレ、る概念を利用することでそれぞれの分野に適した応用を可能とする構成であってもよい。

[0337] そして、距離評価を行なう際に、サンプルと評価関数に与えられた識別子としてのラベルの名称若しくは構成要素の IDが以下のように等しい場合と、等しくない場合、入れ替わってレ、る場合があるとする。

[0338] [表 1]

[0339] [表 2] サンプルべクトル Z 评価関数入力べクトル Y の値— X 2 y 1のラベル— b

2の値- 1 y 2のラベリレ ~+ a z 3の値— X 3のラペル— g z 4の値— X 4 y 4のラベル→ d

5の値→0若しくはラベル iのサンプル平均 y 5のラベル-

6の → X 6 y 6のラベル- [0340] この場合、サンプルベクトルの順序を評価関数の入力ベクトルのラベルにあわせて変数の順序をそろえデータのラベル関係が同じになるようにするとともに、サンプノレベクトルが余る変数に関しては削除し、サンプノレベクトルに不足するラベルに関して、適当な変数を割当てて追加する。この際、割当てる値は 0であったり、評価関数の構築時に用いたサンプノレ群による要素の平均値であったりしてもよい。このとき、データのラベル共起や共起時の効果が逆相関になるもの、正相関になるもの、相関がないもの、相関を持たせてはいけないものを評価結果に基づいて分離し、そのラベル同士がどういう関係にあるかを考慮して組み合わせてもよいし、本発明を用いてラベル同士の相関性を評価して構成してもよレ、。

[0341] そして、

[0342] [数 26]

X

[0343] の要素再構成後のベクトルを

[0344] [数 27]

Z

[0345] とし {zl、 z2、 z3、 z4、 z5、 z6}とする。

このような変換を行なう場合、過剰である x3、 x8は項目から削除し、 z5には評価関数側で iとラベル付けされた評価関数構築時のサンプノレにおける対称要素である iラベルの平均値若しくは 0を代入することで、評価関数と被評価ベクトルとの構成要素が異なっていても評価を可能とする。

[0346] また、この際、評価関数側のベタトノレの評価順序を最大固有ベクトルの大きい順にラベルと要素値をソートしそれにあわせてサンプノレベクトルもソートし同様の基準を導入して距離や類似性を評価してもよい。また、入力ベクトルに 0が多い場合や極端に小さい値、平均に近い値が多い場合には、評価関数構築サンプルの平均と分散に基づく共分散行列に対し、極端に小さな値や平均に近い値をもつラベルもしくは ID 個所の要素値を 0と見なしてガウス消去を用いて次元を縮小し、評価関数自体も縮小再構成したり、入力ベクトルの項目が 0や平均値である場合にその項目に相当する距離計算のための処理を省いたりすることで演算効率を改善による単位時間あたりの演算速度の向上を図ってもよい。

[0347] また、ベクトル同士の場合も同様であるが、以下のように被評価ベクトル側にも修正をカ卩える方法を用レ、、入力ベクトルを

[0348] ほ 8]

[0349] から

[0350] ほ 9]

Z

[0351] に、被評価ベクトルを

[0352] [数 30]

Ϋ

[0353] から

[0354] [数 31]

W

[0355] へと構成要素を再構成してもよい。この際、下記の例ではベクトル要素に 0を代入しているが、この要素の値はその要素を含む側のベタトノレが帰属する母集団におけるそれぞれの要素値のサンプノレ平均であってもよレ、。また、このような識別子としてのラベルや IDの一致による構成要素の変更はベクトル解析ばかりではなぐマトリクス解析ゃテンソル解析といった多次元評価情報に用いてもよい。また、要素を変更したベタトル構成に基づいて、固有や値固有ベクトルを求めたり、共分散行列や確率遷移行列、定常遷移行列、状態遷移行列といった各種遷移行列、共起行列、共起行列の遷移確率行列といった任意の行列を作ったり、任意の評価関数を再構築してもよレ、。 [0356] [表 3]

サンプルべクトル被評価べクトル Y

X 1のラベル— a y 1のラベル— b

X 2のラベル→ b y 2のラベル— a

X 3のラベル→ c y 3のラベル一♦ g

X 4のラベル— d y 4のラベル— d

X 5のラベル— Θ y 5のラベル→ I

X 6のラベル— f y 6のラベル→ f

X 7のラベル→ g

x 8のラベル" * h

[0357] [表 4]

[0358] このように、評価項目をそろえ、互いに要素をもたないため空白となった項目に任意のダミーデータを利用したり、評価側と被評価側と適宜追加したり削除したりすることで、共通の要素ラベルを用いた整合性をとることを可能とし、距離評価不可能だつた異なる評価要素の情報同士における距離や相関性を評価することができるようになる。この場合、本発明における評価距離を要素として用レ、、評価関数の要素ラベルやサンプルの要素ラベルと関連付けることで関数により評価された距離でサンプルを再評価したり、関数を再評価したりすることで階層化するといった方法も容易に考えられる。また、本実施例のように評価関数の入力ベクトルを再構成するのではなぐ評価関数に用いる共分散行列の順序や項目を再構成することで、同様の効果を得ることも可能である。また、距離評価に関しては、サンプル Aの帰属する評価関数 Xとサンプル Bの帰属する評価関数 Yとがある場合、 Aの評価関数 Yによる距離評価と Bの評価関数 Xによる距離評価を行なった場合、 A標本と Y関数では近く B標本と X関数では遠い場合において、情報処理手段や標本の帰属先を代えて再学習を行なうといつた方法も考えられる。

[0359] なお、これらのベクトルの再構成は、従来のソートアルゴリズムやキューやバッファリングにおけるインデックスの追加 ·削除'変更 ·入替とレ、つたラベル処理に用いる各種アルゴリズムと DPや HMM、正規表現などを用いたラベルマッチング処理の組み合わせによりプログラムを構築することで実施可能である。具体的には、関数に入力する変数の各々の識別子としてラベルを指定する。入力するサンプルの変数それぞれにラベルをつける。ラベルが一致するかどうか評価し、一致しない場合、ラベルが関数にあってサンプノレにない場合はサンプル側にダミーデータを挿入する。このダミーデータはその項目の平均値や 0といった値や標準偏差の任意倍の値を用いてもよい。そして、ラベルがサンプルにあって、関数にない場合はサンプノレ側の変数そのものを削除してもよレ、。そして、このように構成された評価関数により距離評価し、その平均と分散、標準偏差に基づいて帰属度合を出力する。といった、手順で実行される。

[0360] また、これらの評価関数の評価次元数を動的に制御して、標本に対して少ない評価次元数で評価関数を用いて処理し高速な分類処理をいつたん行なった後に、分類された標本を再度より多い評価次元数で評価関数を用いて詳細分類することにより、事前に結果を大まかに予測しておき、予測結果と詳細分類後とがどの程度一致するかを再度評価することで、臨機応変な分類への対応を行なってもよい。また、これらの再評価結果を特徴量として本発明の特徴ベクトルに用いてもよい。

[0361] また、これらの演算に基づいて得られた任意数の固有値および Zもしくは任意数の固有べクトノレを特徴量として用いたり、それらの固有値や固有べクトノレを任意回数の階層化された評価関数に用いたりしてもよい。また、各評価関数の評価次元数を特徴量としてもよい。この場合、例えば距離を正規化した後、平均を最大次元数の半分の値とみなして、出現確率に応じて、全体の次元数が 100である場合、出現確率が 9 8%であれば 98次元、出現確率が 50%であれば 50次元、出現確率が 5%であれば 5次元としてみたり、また逆に、 98%であれば 2次元、 75%であれば 25次元などの確率密度関数に基づいた帰属確率と相関性を持たせることで、距離や出現確率を評価関数の変数に用いたりしてもよい。

[0362] また、距離評価に用いる評価関数において真を評価する関数と偽を評価する関数を構成し、真が近く偽が遠い場合は真、偽が近く真が遠い場合は偽、ともに近い場合は判断できなレ、が関連性が高レ、、ともに遠レ、場合は判断できなレ、が関連性が低いとレ、つた評価を行なっても良レ、。

[0363] このような、ベクトルやマトリクス、テンソルなどの多次多元情報空間における情報を評価するとき、本発明に用いているような評価関数による距離評価は超球同士の近似を評価するための多次元多項式を用いた評価方法であると考えられる。次に、フエルマーの定理である nが 2より大きい自然数ならば、 xⁿ + yⁿ = zⁿとなる整数 X, y, zの組は存在しないことや、ルツフー二、ァーベル、ガロアによる五次以上の方程式におレ、て代数的解法がないことが知られており、それらの解は行列式などにより得る必要がある。また、行列式は波動関数へ可換であることもよく知られている。

[0364] このこと力ら、多次元多項式としてマハラノビス距離評価を捕らえると、

[0365] [数 32]

[0366] と捕らえることが可能であり、固有ベクトルに基づく共分散行列 Vが固有値の平方根で除算されるとともに多項式構造に基づいて距離 Dが求めていることや、標本の各要素平均との差に固有ベクトルに基づく共分散行歹 IJVを乗じていることを踏まえると、多次元距離計算に用いられる式やベイズ識別式においてに n >4の場合や補正項となる固有値に基づく定数、事前確率などにより演算価結果が有限桁で表現できないことが予測され、再帰的もしくは階層的な評価を行なう場合を考慮すると各要素変数のいずれかが有限桁でなくなると予測される。また、サンプリング定理にあるように、獲得した標本精度の半分までしか情報が再現できないことや情報を定量化するためには空間の範囲と解像度が確定する必要があるため目的に基づいた限度を設けない限り、完全な情報の獲得はできないと予測できる。以上のことから、多次元空間におレ、て有限桁での連続的な情報表現や伝達が困難になると可能性が高い。仮に、こういった多次元多項式の解や要素変数の値が有限桁で表現できない場合、安定した量子化基準を多次元空間で得ることができないため常に演算結果に誤差が生じ演算回数や時間経過に伴う累積によりカオス化する可能性がある。

[0367] このような点から予想するに、自然界のような時系列的に変化する多次元情報空間において、最低限、時間軸（変化量）の範囲と空間軸の範囲といった 4つの軸を特定しなければ客観的な定量ィヒはできないこと、定量化にもとづく再計算を時系列的に行なわなければならないことを踏まえると、前述のような多次元多項式を用いて算術的予測を定量的に行なうには、本発明のような方法を用いて確率的に予測解を得るカ低次元に空間縮減した式による側面的な評価方法により予測解を得ることしかできないと考えられる。

[0368] 今回開示された実施の形態は、任意の出願された特許や文献、技術と関連付けて利用可能であり、それらの特性に従って改善可能であることが容易に考えられる。

[0369] また、今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなぐ請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれること力 S意図される。

Claims

請求の範囲

[1] 標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、分類対象標本情報との統計的距離を算出する距離算出手段 (S11 , S12, S14)と、

前記距離算出手段によって算出された統計的距離についての前記母集団ごとの統計情報を算出する統計情報算出手段 (S13)と、

前記距離算出手段によって算出された統計的距離と前記統計情報算出手段によつて算出された統計情報とに基づいて、分類対象標本情報の前記母集団への帰属度合を評価する帰属度合評価手段 (S21 , S25)と、

前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属決定手段（S22, S26)と、前記帰属決定手段によって決定された母集団に前記分類対象標本情報を帰属させる標本情報帰属手段 (S23， S27)とを備える、情報分類装置。

[2] 前記統計情報は、前記距離算出手段によって算出された統計的距離の前記母集団ごとの平均値および標準偏差値である、請求項 1に記載の情報分類装置。

[3] 前記距離算出手段は、前記標本情報帰属手段によって前記分類対象標本情報が帰属された更新母集団ごとの重心と、前記更新母集団のそれぞれに帰属する分類対象標本情報との統計的距離をさらに算出する（S33)、請求項 1に記載の情報分類装置。

[4] 前記帰属決定手段は、いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たに母集団を生成する母集団生成手段を含み、生成した母集団に前記分類対象標本情報を帰属させることを決定する（S26, S27)、請求項 1に記載の情報分類装置。

[5] 前記統計情報は、前記距離算出手段によって算出された統計的距離の前記母集団ごとの平均値および標準偏差値であり、

前記帰属度合は、その母集団に対する統計的距離の平均値からの偏差値であり、前記所定の度合は、前記偏差値が前記平均値から所定倍の標準偏差値の範囲である、請求項 4に記載の情報分類装置。所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる母集団削除手段 (S31)をさらに備える、請求項 4 に記載の情報分類装置。

前記帰属決定手段は、前記帰属度合評価手段によって評価された帰属度合が最も良い母集団に前記分類対象標本情報に帰属させることを決定する、請求項 1に記載の情報分類装置。

前記距離算出手段は、共分散構造分析に基づいて、前記統計的距離を算出する、請求項 1に記載の情報分類装置。

前記距離算出手段は、固有値および固有ベクトルに基づいて、前記統計的距離を算出する、請求項 1に記載の情報分類装置。

前記距離算出手段は、前記統計的距離としてマハラノビス距離を算出する、請求項 1に記載の情報分類装置。

前記距離算出手段は、前記統計的距離としてベイズ識別関数による距離を算出する、請求項 1に記載の情報分類装置。

前記距離算出手段は、算出した統計的距離を正規化する距離正規化手段 (S14) を含む、請求項 1に記載の情報分類装置。

コンピュータによって実行される情報分類方法であって、

標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、分類対象標本情報との統計的距離を算出するステップ (Sl l , S12 ， S14)と、

算出された統計的距離についての前記母集団ごとの統計情報を算出するステップ (S13)と、

算出された統計的距離と統計情報とに基づいて、分類対象標本情報の前記母集団への帰属度合を評価するステップ（S21， S25)と、

評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定するステップ（S22， S26)と、

決定された母集団に前記分類対象標本情報を帰属させるステップ (S23， S27)とを含む、情報分類方法。 [14] コンピュータで実行される情報分類プログラムであって、

算出された統計的距離と統計情報とに基づいて、分類対象標本情報の前記母集団への帰属度合を評価するステップ（S21, S25)と、

評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定するステップ（S22, S26)と、

決定された母集団に前記分類対象標本情報を帰属させるステップ（S23， S27)とをコンピュータに実行させる、情報分類プログラム。

[15] 情報分類装置（100A, 100B)と、前記情報分類装置と通信回線 (500)を介して接続される情報端末（200A, 200B, 200C)とを含み、

前記情報分類装置は、

前記情報端末から標本情報が含まれる任意数の母集団を受取る母集団受取手段と、

前記母集団受付手段によって受付けられた母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、分類対象標本情報との統計的距離を算出する距離算出手段（Sl l , S12, S14)と、

前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属決定手段（S22, S26)と、前記帰属決定手段によって決定された母集団に前記分類対象標本情報を帰属させる標本情報帰属手段 (S23, S27)と、

前記標本情報帰属手段によって前記分類対象標本情報が帰属された分類後母集団を前記情報端末に受渡す分類後母集団受渡手段とを備え、

前記情報端末は、

前記情報分類装置に前記任意数の母集団を受渡す母集団受渡手段と、前記情報分類装置から前記分類後母集団を受取る分類後母集団受取手段とを備える、†青幸艮分類システム。

[16] 情報分類装置（100A, 100B)と、前記情報分類装置と通信回線 (500)を介して接続される情報端末（200A, 200B, 200C)とを含み、

前記情報分類装置は、

前記情報端末から分類対象標本情報を受取る標本情報受取手段と、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、前記母集団受取手段によって受取られた分類対象標本情報との統計的距離を算出する距離算出手段 (Sl l , S12, S14)と、

前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属決定手段（S22, S26)と、前記帰属決定手段によって決定された母集団を識別する母集団識別情報を前記情報端末に受渡す母集団識別情報受渡手段とを備え、

前記情報端末は、

前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段とを備える、†青幸艮分類システム。

[17] 情報分類装置（100A, 100B)と、前記情報分類装置と通信回線 (500)を介して接続される情報端末（200A, 200B, 200C)とを含み、

前記情報分類装置は、

前記情報端末から分類対象標本情報を受取る標本情報受取手段と、標本情報が含まれる任意数の母集団のそれぞれに帰属する標本情報の前記母集団ごとの重心と、前記母集団受取手段によって受取られた分類対象標本情報との統計的距離を算出する距離算出手段（Sl l , S12, S14)と、

前記情報端末は、

前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段とを備える、情報分類システムを用いた情報提供サービス。

情報分類装置（100A, 100B)と、前記情報分類装置と通信回線 (500)を介して接続される情報端末（200A, 200B, 200C)とを含み、

前記情報分類装置は、

前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属決定手段（S22, S26)と、前記帰属決定手段によって決定された母集団に前記分類対象標本情報を帰属させる標本情報帰属手段（S23, S27)と、

前記情報端末は、

前記情報分類装置に前記任意数の母集団を受渡す母集団受渡手段と、前記情報分類装置から前記分類後母集団を受取る分類後母集団受取手段とを備える、情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体。

前記情報分類装置は、

前記情報端末は、

前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段とを備える、情報分類システムを用いて前記分類対象標本情報が帰属する母集団を検索するための前記任意数の母集団を記憶するデータベース。

[20] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 1に記載の情報分類装置。

[21] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記統計的距離を算出するステップは、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 13 に記載の情報分類方法。 [22] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記統計的距離を算出するステップは、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 14 に記載の情報分類プログラム。

[23] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 15または請求項 16 に記載の情報分類システム。

[24] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のべ外ル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 17に記載の情報分類システムを用いた情報提供サービス。

[25] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 18に記載の情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体。

[26] 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベタトル情報、マトリクス情報またはテンソル情報であり、

所定の評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のべ外ル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記所定の評価関数に入力することによって前記統計的距離を算出することを特徴とする、請求項 19に記載の情報分類システムを用いて前記分類対象標本情報が帰属する母集団を検索するための前記任意数の母集団を記憶するデータベース。