JP6001871B2

JP6001871B2 - 混合モデルの構築方法

Info

Publication number: JP6001871B2
Application number: JP2012028991A
Authority: JP
Inventors: ロバート・エドワード・カラン; ブライアン・ラーデル
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2011-02-15
Filing date: 2012-02-14
Publication date: 2016-10-05
Anticipated expiration: 2032-02-14
Also published as: EP2490139A1; EP2490139B1; CN102693265A; US20120209880A1; JP2012168949A; CN102693265B; CA2767504A1; IN2012DE00401A; BR102012003344A2

Description

本願は、混合モデルの構築方法に関する。

データマイニングとは、データから情報および値を抽出するために使用される技術である。データマイニングアルゴリズムは、ターゲットマーケティングのための買い物客の消費傾向の予測、クレジットカード不正取引の検出、ウェブサイト内の顧客のナビゲーションパスの予測、機械の故障検出などの、多くのアプリケーションで使用されている。データマイニングは、人工知能（ＡＩ）および統計モデリングコミュニティによって長年にわたって開発されてきた様々なアルゴリズムを使用する。アルゴリズムには異なる多くのクラスがあるが、それらは全て（ａ）データドメインの知識を表す（暗黙的に、または明示的に）モデル、（ｂ）モデルを構築するために訓練データを使用するモデル構成か学習フェーズ、および（ｃ）予測を行うために新しいデータを採用して、そのデータにモデルを適用する推論ファシリティなどの、いくつかの共通の特徴を共有する。知られている例は、第２変数の値に重み付けして、加重値と一定値とを合計することによって、第２変数から第１変数が予測される、線形回帰モデルである。重みおよび一定値はモデルのパラメータである。

混合モデルは、ＧＭｃＬａｃｈｌａｎａｎｄＤＰｅｅｌｉｎＦｉｎｉｔｅＭｉｘｔｕｒｅＭｏｄｅｌｓ, ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ,（２０００）によって記述されるように、学術研究コミュニティ内のデータマイニングアプリケーションのために一般に使用されるモデルである。混合モデルのクラスには、混合エキスパートモデル（ＭｉｘｔｕｒｅｓｏｆＥｘｐｅｒｔｓ）および階層型混合エキスパートモデル（ＨｉｅｒａｒｃｈｉｃａｌＭｉｘｔｕｒｅｓｏｆＥｘｐｅｒｔｓ）などのバリエーションがある。文書により十分に立証された、混合モデルを構築するためのアルゴリズムもある。一例は、期待値最大化（ＥＭ）である。このような混合モデルは、一般に、データ内のクラスタまたはコンポーネントを識別すること、およびそれぞれのクラスタに適切な数学関数を適合させることによって構築される。

一態様では、非一時的メディアに格納されるデータセットの一般的な混合モデルを生成する方法は、データセットのサブセットを定義するためのサブセット基準を提供するステップと、プロセッサ内でサブセット基準に基づいてデータセットを少なくとも２つのサブセットに分割するステップと、少なくとも２つのサブセットのそれぞれについてサブセット混合モデルを生成するステップと、少なくとも２つのサブセットのそれぞれのサブセット混合モデルを一般的な混合モデルに結合するステップとを備える。

本発明の一実施形態による一般的な混合モデル生成する方法を示す流れ図である。図１で示される方法の一部として、サブセット混合モデルからコンポーネントをフィルタリングする方法を示す流れ図である。図１の一般的な混合モデルを生成する方法による、データセットのフィルタリングの例を示す図である。第１サブセットのサブセット混合モデルを示す図である。第２サブセットのサブセット混合モデルを示す図である。図１で開示された方法によって構築された一般的な混合モデルを示す図である。

以下の記述では、説明の目的で、本明細書に開示される技術の完全な理解を提供するために特定の多くの詳細を説明する。しかし、これらの特定の詳細がなくても例示的実施形態を実施できることが当業者には明らかであろう。他の例では、例示的実施形態の説明を容易にするために、構造および装置が図の形式で示される。

以下で、図面を参照して例示的実施形態を記述する。これらの図面は、本明細書で記述されるモジュール、方法、およびコンピュータプログラム製品を実装する特定の実施形態のいくつかの詳細を示している。しかし、これらの図面は、図面内に存在する場合がある何らかの制限を課すものと見なされるべきではない。方法およびコンピュータプログラム製品は、それらの動作を遂行するために、どのような機械可読メディア上に提供されてもよい。実施形態は、既存のコンピュータプロセッサを使用して、あるいはこのまたは他の目的のために組み込まれた専用コンピュータプロセッサによって、あるいはハードワイヤードシステムによって実装され得る。

上述のように、本明細書に記述される実施形態は、機械実行可能命令またはデータ構造を担持するまたは格納した機械可読メディアを備えるコンピュータプログラム製品を含む。このような機械可読メディアは、汎用または専用コンピュータ、あるいはプロセッサを備えた他の機械によってアクセスできる、どのような利用可能なメディアでもよい。例を挙げると、このような機械可読メディアは、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、あるいは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶装置、あるいは所望のプログラムコードを機械実行可能命令またはデータ構造の形式で搬送または格納するために使用でき、汎用または専用コンピュータあるいはプロセッサを備えた他の機械によってアクセスできる、他の何らかのメディアを備えることができる。ネットワークまたは他の通信接続（ハードワイヤード、無線、またはハードワイヤードと無線の組合せでもよい）を介して機械に情報が転送または提供される際、機械はその接続を適切に機械可読メディアと見なす。したがって、このようなどの接続も適切に機械可読メディアと呼ばれる。上記の組合せも、機械可読メディアの範囲に含まれる。機械可読命令は、たとえば、汎用コンピュータ、専用コンピュータ、または専用処理機械に、ある機能または機能のグループを実行させる命令およびデータを備える。

たとえばネットワーク化された環境における機械によって実行されるプログラムモジュールの形式で、プログラムコードなどの機械可読命令を含むプログラム製品によって一実施形態で実装され得る方法ステップの一般的な文脈において実施形態を記述する。一般にプログラムモジュールは、特定のタスクの実行または特定の抽象データタイプの実装の技術的効果を有するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。機械可読命令、関連データ構造、およびプログラムモジュールは、本明細書に開示される方法のステップを実行するためのプログラムコードの例を表す。このような実行可能命令または関連データ構造の特定のシーケンスは、このようなステップに記述される機能を実装するための対応する動作の例を表す。

実施形態は、プロセッサを有する１つまたは複数の遠隔コンピュータへの論理的な接続を使用してネットワーク化された環境において実施され得る。論理的接続は、限定するためではなく例示のために本明細書で提示される、ローカルエリアネットワーク（ＬＡＮ）およびワイドエリアネットワーク（ＷＡＮ）を含むことができる。このようなネットワーキング環境はオフィス全体または企業全体のコンピュータネットワーク、イントラネット、およびインターネットにおいて普通のことであり、異なる様々な通信プロトコルを使用できる。このようなネットワークコンピューティング環境は、一般にパーソナルコンピュータ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサを用いるまたはプログラム可能である家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、および同様のものを含む多くのタイプのコンピュータシステム構成を包含することが、当業者なら理解できるであろう。

実施形態は、通信ネットワークを通じてリンクされた（ハードワイヤードリンク、無線リンク、あるいはハードワイヤードまたは無線リンクの組合せによって）ローカルおよび遠隔処理装置によってタスクが実行される分散コンピューティング環境でも実施できる。分散コンピューティング環境では、プログラムモジュールはローカルメモリ記憶装置と遠隔メモリ記憶装置との両方に位置できる。

例示的実施形態の全体または一部を実装するための例示的システムは、処理装置、システムメモリ、およびシステムメモリを含む様々なシステムコンポーネントを処理装置に結合するシステムバスを含むコンピュータの形式の汎用コンピューティング装置を含むことができる。システムメモリは、読出し専用メモリ（ＲＯＭ）およびランダムアクセスメモリ（ＲＡＭ）を含むことができる。コンピュータは、磁気ハードディスクから読み取る、またはそこに書き込むための磁気ハードディスクドライブ、リムーバブル磁気ディスクから読み取る、またはそこに書き込むための磁気ディスクドライブ、ＣＤ−ＲＯＭまたは他の光メディアなどのリムーバブル光ディスクから読み取る、またはそこに書き込むためのおよび光ディスクドライブも含むことができる。ドライブおよびその関連機械可読メディアは、機械可読命令、データ構造、プログラムモジュール、およびコンピュータのための他のデータの非揮発性記憶装置を提供する。

実施形態で開示される方法の技術的効果は、予測パターンについての複雑なデータセットをマイニングするための正確なモデルをより効果的に提供することを含む。方法は、異なる問題を解決することを課せられた基本的に単一のアルゴリズムを使用して異なる観点からデータを探索するための高度の柔軟性を導入する。したがって、技術的効果はより効果的なデータ探索、異常検出、値を予測して欠損データを置換するための回帰、およびデータの区分化を含む。開示された方法を使用してこのようなデータを効果的に探索できる方法の例には、顧客の購買傾向に基づくターゲットマーケティング、リスクの高いクレジット申込者を識別することによるクレジットリスクの減少、および航空機の状態を理解することから行われる予測的なメンテナンスがある。

本発明は、データセットの一般的な混合モデルを生成することに関する。より詳細には、データセットは２つ以上のサブセットに分割され、サブセットごとにサブセット混合モデルが生成され、次いでサブセット混合モデルが結合されてデータセットの一般的な混合モデルを生成する。

図１を参照すると、一般的な混合モデル１００を生成する方法が開示されている。まず、サブセット識別を有するサブセットを生成する（１０４）ために、データベース１０２内に含まれるデータセットとサブセット基準１０８が提供される。構成データセットを有するデータセットを電子メモリに格納できる。データセットは多次元またはパラメータを含むことができ、それぞれの次元はそれに関連付けられる１つまたは複数の値を有する。値は離散値でもよく、連続値でもよい。たとえば、データセットは、ＣＦＭ５６、ＣＦ６、ＣＦ３４、ＧＥ９０、およびＧＥｎｘの離散値を有するガスタービンエンジンの次元を備えることができる。離散値は、ＧｅｎｅｒａｌＥｌｅｃｔｒｉｃＣｏｒｐｏｒａｔｉｏｎによって製造および販売されるガスタービンエンジンの様々なモデルを表す。データセットは、Ｂ７３７−７００、Ｂ７３７７００ＥＲ、Ｂ７４７−８、Ｂ７７７−２００ＬＲ、Ｂ７７７−３００ＥＲ、およびＢ７８７の離散値を有する機体と呼ばれる別の次元をさらに備えることができ、データセットのガスタービンエンジン次元のガスタービンエンジンを搭載できる様々な機体を表している。この例を続けると、データセットは、１８，０００重量ポンドから１１５，０００重量ポンド（８０ノット〜５１２ノット）の範囲内の値などの連続値を有するスラストと呼ばれる次元をさらに備えることができる。

サブセット基準１０８は、データセットをフィルタリングするために使用できるデータセットの１つまたは複数の次元の１つまたは複数の値でよい。サブセット基準は、関係データベースに格納することもでき、他の何らかの知られている方法によって設計することもできる。一般に、サブセット基準１０８は、ユーザがデータセットから学びたいものに基づいて、データセットのユーザによって構築される。サブセット基準１０８は、データセット内のデータをフィルタリングおよび分割するためのいくつもの個々の基準を含むことができる。上記の例を続けると、サブセット基準１０８は、Ｂ７４７−８に搭載されたＧＥ９０エンジン、Ｂ７７７−３００ＥＲに搭載されたＧＥｎｘエンジン、およびＢ７８７に搭載されたＧＥｎｘなどの３つの異なる要素を備えることができる。これは３つの要素を備える２次元サブセット基準の例であるが、サブセット基準はデータセット内の次元の数を最大とするいくつもの次元を含むことができ、いくつもの要素を備えることができる。

サブセットおよびサブセット識別を生成するステップ（１０４）は、データセットを通じてフィルタリングするステップ、およびそれぞれのサブセット内のそれぞれの要素を識別するステップを備える。サブセットの数は選択基準内の要素の数と等しい。フィルタリング処理は、データベース１０２を備える電子メモリへのアクセスを有するプロセッサ上で実行しているコンピュータソフトウェア要素によって遂行できる。フィルタリングの後、またはそれと同時に、サブセットおよびその構成要素とそれぞれの他のサブセットおよびそれらの構成要素とを区別するために、それぞれのサブセットにサブセット識別子が割り当てられる。サブセット識別子はテキスト文字列でもよく、１０４で生成されたサブセットを識別する他の知られている方法でもよい。

次に、１０６で、少なくとも１つのサブセットがあるかどうか評価される。少なくとも１つのサブセットがない場合、方法１００は１０８に戻って、少なくとも１つのサブセットを作成する新しいサブセット基準を受け取る。少なくとも１つのサブセットがある場合は、方法１００は１１０でサブセットごとに混合モデルを生成する。混合モデルの生成は、一般にデータマイニングの分野における訓練とも呼ばれる。サブセットごとの混合モデルは、何らかの知られている方法によって、また何らかの知られているタイプの混合モデルとして生成でき、非限定的な例は、期待値最大化（ＥＭ）を使用して訓練されたガウス混合モデルである。サブセットごとに混合モデルを生成する処理は、サブセット密度を表す数学的汎関数をもたらす。連続ランダムベクトルをモデリングする例では、それぞれのサブセットの数学的汎関数の表現は、確率密度関数（ｐｄｆ）のスケーリングされた（ｓｃａｌｅｄ）合計である。それぞれのｐｄｆは、混合モデルが生成されているサブセット内のデータ要素のコンポーネントまたはクラスタに対応する。言い換えれば、それぞれのサブセット１１０の混合モデルを生成する方法は、プロセッサ上で実行しているソフトウェア要素によって行われ、ソフトウェア要素はサブセット内の全てのデータ要素を考慮し、データ要素を１つまたは複数のコンポーネントにクラスタリングし、それぞれのコンポーネントにｐｄｆを適合させ、それぞれのコンポーネントにスケーリングファクタを帰着して（ａｓｃｒｉｂｅ）、データの数学的汎関数の表現を生成する。混合モデルの非限定的な例は、

の形式のガウスまたは正規分布混合モデルであり、
上式で、ｐ（ｘ）はサブセットの数学的汎関数の表現であり、
Ｘは変数の多次元ベクトル表現であり、
ｋはサブセット内のそれぞれのコンポーネントを指すインデックスであり、
Ｋはサブセット内のコンポーネントの総数であり、
π_kは、１と等しい全てのＫクラスタについての全てのπ_kの合計を有するクラスタｋに対応するスカラースケーリングファクタであり、

は、コンポーネント平均（ｃｏｍｐｏｎｅｎｔｍｅａｎ）μ_kおよび共分散Σ_kについてのベクトルＸの正規確率密度関数である。

ベクトルＸが一次元のベクトルの場合Σ_kはＸの分散であり、Ｘが２つ以上の次元を有する場合Σ_kはＸの共分散行列である。

１１０でサブセットごとに混合モデルが生成された後、１１２で、少なくとも２つのサブセットがあるかどうかが決定される。少なくとも２つのサブセットがない場合、１１０で生成された単一のサブセット混合モデルが一般的な混合モデルである。しかし、１１２で少なくとも２つのサブセットがあると決定される場合、次に１１６でモデルコンポーネントのフィルタリングが所望されるかどうかが決定される。１１６でフィルタリングが所望される場合、１１８で、１つまたは複数のコンポーネントがモデルから除去される。１１８のフィルタリング方法は、図２とともにより詳細に記述する。一旦１１８でフィルタリングが行われると、または１１６でフィルタリングが所望されない場合、方法１００は１２０に進み、そこでサブセットモデルが結合される。

１２０でサブセットモデルを結合するステップは、サブセットごとに生成された混合モデルを連結して結合モデルを生成するステップを備えることができる。あるいは、サブセットモデルを結合するステップは、それぞれの混合モデルを連結して結合モデルを生成する前に、個々のサブセットのそれぞれの混合モデルを別々にスケーリングするステップを備えることができる。

１２２で、モデルの単純化が所望されるかどうか決定される。１２２で単純化が所望されない場合、１２４で、結合されたサブセットモデルが一般的なモデルである。１２２で単純化が所望される場合、結合モデルの単純化が１２６で実行され、１２８で、単純化された結合モデルが一般的なモデルと見なされる。単純化１２６は、２つ以上の異なるサブセットから１つまたは複数のクラスタを結合するステップを備えることができる。単純化１２６は、サブセットの結合された混合モデルから１つまたは複数のコンポーネントを除去するステップをさらに備えることができる。

次に図２を参照すると、サブセット混合モデルを結合する前に、１１８で個々のサブセット混合モデルのコンポーネントをフィルタリングする方法が示されている。まず、１４０でそれぞれのコンポーネントおよび他のコンポーネントへの関連距離を一覧にするための完成リストが消去される。次に、１４２で、全てのサブセットから全てのコンポーネントが、プロセッサおよび関連電子メモリによって受信される。１４４で全てのコンポーネントからあるコンポーネントが選択され、１４６で、選択されたコンポーネントの、他のサブセット内の他の全てのコンポーネントへの距離が決定される。言い換えれば、選択されたコンポーネントが、選択されたコンポーネントのサブセット識別子とは異なるサブセット識別子を有する他の全てのコンポーネントと比較される。距離は、これに限定されないが、カルバックライブラー情報量を含む、何らかの知られている方法によって計算できる。１４８で、コンポーネントおよび他のサブセットの他の全てのコンポーネントへの関連距離が一覧にされて、完成リストに添付される。言い換えれば、完成リストはコンポーネントから他のサブセットの全てのコンポーネントへの距離を含む。１５０で、選択されたコンポーネントが最後のコンポーネントかどうか決定される。最後のコンポーネントではない場合、方法１１８は１４４に戻って次のコンポーネントを選択する。しかし、１５０で、選択されたコンポーネントが最後のコンポーネントと決定される場合、全てのサブセットの全てのコンポーネントについて完成リストがアップデートされ、方法は１５２に進み、完成リストが１４６で計算された距離の降順でソートされる。１５４で、完成リストのトップのコンポーネント、または他の全てのサブセットの他の全てのコンポーネントへの最大距離を有するコンポーネントが除去されるかフィルタリングによって取り除かれる。１５６で、フィルタリング基準が満たされているかどうか決定される。フィルタリング基準は、たとえば、あらかじめ定められたフィルタリングされるべきコンポーネントの総数でよい。あるいは、フィルタリング基準は、コンポーネントの総数のあらかじめ定められた割合のフィルタリングでよい。１５６でフィルタリング基準が満たされる場合、１６０で、最後のコンポーネントセットが識別される。しかし、１５６でフィルタリング基準が満たされない場合、１５８で、反復フィルタリングが所望されるかどうか決定される。反復フィルタリングへの所望は方法１１８のユーザによって設定される。１５８で反復フィルタリングが所望されない場合、方法は１５４に戻って、他のサブセットから他の全てのコンポーネントへの最大距離を有するコンポーネントを残りのコンポーネントから除去する。１５８で、反復フィルタリングが所望されると決定されると、方法１１８は１４０に戻る。

反復フィルタリングは、方法１１８がコンポーネントごとにそれぞれの他のコンポーネントへの距離を再計算して、混合モデルからコンポーネントが除去されるたびに１４０から１５２を実行することによって新しい完成リストを生成することを意味する。コンポーネント間の距離は変更でき、したがって、混合モデルからコンポーネントが除去されると完成リスト上のコンポーネントの相対的順序は変更できる。したがって、反復フィルタリングを実行することによって、除去されるコンポーネントがそれぞれの他のサブセットからコンポーネントへの最大距離を有するコンポーネントであることを、より自信を持って確実にすることができる。しかし、場合によっては、反復フィルタリングはより計算集約型であってより時間がかかるので、反復フィルタリングを実行したくない場合がある。言い換えれば、本明細書に開示されたフィルタリング方法１１８を実行すると、１５８で反復フィルタリングが所望されるかどうか決定するために、フィルタリング実行とフィルタリングに必要な時間と間のトレードオフを評価できる。

図３〜６は、一般的な混合モデルを生成する前述の方法１００を実行する例を示している。図３で、データセットからのデータ１８０および１９０が、変数ｘ１に対してプロットされている。データは、方法１００の１０４とともに記述される手順に従って、グラフ上に白丸で示されている第１サブセット１８０、およびグラフ上に黒い三角形で示されている第２サブセット１９０にさらに分割される。方法１００を多くのサブセットを有する多変量解析に適用できるが、この例では方法１００の視覚化を単純にするために、２つのサブセットだけに依存する単一の変数データが示される。

図４および５は、ステップ１１０として、それぞれ第１サブセット１８０のための、および第２サブセット１９０のための混合モデルの生成を示している。第１サブセット１８０の場合、３つのコンポーネントが識別され、それぞれに平均μ１、μ２、およびμ３を有するスケーリングされたガウス分布Ｇ１、Ｇ２、およびＧ３がそれぞれ適用される。第２サブセット１９０の場合、２つのコンポーネントが識別され、それぞれに平均μ４およびμ５を有するスケーリングされたガウス分布Ｇ４およびＧ５がそれぞれ適用される。したがって、第１サブセット１８０の混合モデルは、構成コンポーネントＧ１、Ｇ２、およびＧ３のスケーリングされたフィッティング関数のエンベロープによって表される。同様に、第２サブセット１９０の混合モデルは、構成コンポーネントＧ４およびＧ５のスケーリングされたフィッティング関数のエンベロープによって表される。図６で、フィルタリング後、方法１００のステップ１２０として、一般的な混合モデルの結合された構成スケーリングフィッティング関数が示されている。この例では、フィルタリングステップ１１８で、フィッティング関数Ｇ３を有するコンポーネントは、いくつかのあらかじめ定められた値（図示せず）を超える他のサブセットＧ４およびＧ５のコンポーネントから離れていることが見つかり、したがってコンポーネントＧ３は図６の一般的な混合モデルから除去されたことがわかる。

本明細書は本発明を開示するために、およびあらゆる当業者が本発明を利用および使用できるようにするために、ベストモードを含めた例を用いる。本発明の特許性の範囲は特許請求の範囲によって定義され、当業者が想到する他の例を含むことができる。このような他の例は、それらの例が特許請求の範囲の文言とは異ならない構造的要素を有する場合、またはそれらの例が特許請求の範囲の文言とは実質的に差のない均等の構造要素を含む場合、特許請求の範囲内であるものとする。

１００一般的な混合モデルを生成する方法
１０２データベース
１０４サブセット識別を有するサブセットを生成する
１０６少なくとも１つのサブセットがあるか？
１０８サブセット基準
１１０サブセットごとに混合モデルを構築する
１１２少なくとも２つのサブセットがあるか？
１１４サブセットモデルが一般的なモデルである
１１６モデルフィルタリングが所望されるか？
１１８モデルからコンポーネントを除去する
１２０サブセットモデルを結合する
１２２単純化が所望されるか？
１２４結合されたサブセットモデルが一般的なモデルである
１２６結合されたモデルを単純化する
１２８単純化されたモデルが一般的なモデルである
１４０完成リストを初期化して空にする
１４２全てのサブセットから全てのコンポーネントを受信する
１４４次のコンポーネントを選択する
１４６選択されたコンポーネントの、他のサブセット内の他の全てのコンポーネントへの距離を計算する
１４８選択されたコンポーネントおよび距離が完成リストに添付される
１５０選択されたコンポーネントは最後のコンポーネントか？
１５２完成リストを降順でソートする
１５４トップのコンポーネントを除去する
１５６フィルタリング基準は満たされたか？
１５８反復フィルタリングが所望されるか？
１６０最後のコンポーネントセットが識別される
１８０第１サブセットデータ
１９０第２サブセットデータ
Ｇ１第１クラスタフィッティング関数
Ｇ２第２クラスタフィッティング関数
Ｇ３第３クラスタフィッティング関数
Ｇ４第４クラスタフィッティング関数
Ｇ５第５クラスタフィッティング関数
μ１第１クラスタの平均
μ２第２クラスタの平均
μ３第３クラスタの平均
μ４第４クラスタの平均
μ５第５クラスタの平均

Claims

非一時的メディア（１０２）に格納されるデータセットの一般的な混合モデル（１００）を生成する方法であって、
前記データセットの１つ以上の次元の１つ以上の要素を含み、前記データセットのサブセットを定義するためのサブセット基準（１０８）を提供するステップと、
前記サブセット基準（１０８）を利用して、プロセッサ上で前記データセットを通じてフィルタリングするステップと、
前記プロセッサ内で前記サブセット基準（１０８）に基づいて前記データセットをサブセットに分割するステップであって、前記サブセットの数は前記サブセット基準（１０８）内の要素の数と等しい、ステップと、
各サブセットに識別子を割り当てるステップと、
前記サブセットのそれぞれについてサブセット混合モデル（１１０）を生成するステップと、
少なくとも２つのサブセットがある場合には、前記少なくとも２つのサブセットのそれぞれの前記サブセット混合モデルを前記一般的な混合モデル（１２０）に結合し、少なくとも２つのサブセットがない場合には、前記サブセット混合モデルを前記一般的な混合モデル（１２０）として設定するステップと、
を含む、方法。
前記サブセット基準が、関係データベースにおいて定義されるステップと、少なくとも１つの次元によって前記データセットをフィルタリングするステップとのうちの１つを含む、請求項１に記載の方法。
前記生成するステップが、サブセット（１０４）の少なくとも１つのコンポーネントを識別するステップと、関数をサブセットの少なくとも１つのコンポーネントに適合させるステップと、スケーリングファクタによってフィッティング関数をスケーリングするステップと、スケーリングされたフィッティング関数を合計するステップとのうちの少なくとも１つを含む、請求項１または２に記載の方法。
前記関数が確率密度関数である、請求項３に記載の方法。
前記確率密度関数が正規分布関数である、請求項４に記載の方法。
前記スケーリングファクタがスカラー値である、請求項３に記載の方法。
サブセットの前記フィッティング関数のそれぞれに対応する前記スケーリングファクタの全ての合計が１である、請求項４に記載の方法。
前記結合するステップ（１２０）が、前記少なくとも１つのサブセットごとに前記サブセット混合モデルを連結するステップと、前記少なくとも１つのサブセットごとに前記サブセット混合モデルを別々にスケーリングして前記スケーリングされたサブセット混合モデルを連結するステップと、前記サブセット混合モデル（１５０）を結合する前に１つまたは複数のコンポーネント関数を除去するステップとを備える、請求項１または２に記載の方法。
前記サブセット混合モデルを結合する前に１つまたは複数のコンポーネント関数を除去するステップ（１５０）が、コンポーネントを選択して、前記選択されたコンポーネントと前記選択されたコンポーネントに対応する前記サブセット以外のサブセットからの全ての前記コンポーネントとの間の前記距離を決定するステップ（１４４）を備える、請求項８に記載の方法。
前記サブセット混合モデルを結合する前に１つまたは複数のコンポーネント関数を前記除去するステップ（１５０）が、最大距離を有する前記コンポーネントを除去するステップをさらに備える、請求項９に記載の方法。