JP6001871B2 - 混合モデルの構築方法 - Google Patents

混合モデルの構築方法 Download PDF

Info

Publication number
JP6001871B2
JP6001871B2 JP2012028991A JP2012028991A JP6001871B2 JP 6001871 B2 JP6001871 B2 JP 6001871B2 JP 2012028991 A JP2012028991 A JP 2012028991A JP 2012028991 A JP2012028991 A JP 2012028991A JP 6001871 B2 JP6001871 B2 JP 6001871B2
Authority
JP
Japan
Prior art keywords
subset
component
model
subsets
mixture model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012028991A
Other languages
English (en)
Other versions
JP2012168949A (ja
Inventor
ロバート・エドワード・カラン
ブライアン・ラーデル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
General Electric Co
Original Assignee
General Electric Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by General Electric Co filed Critical General Electric Co
Publication of JP2012168949A publication Critical patent/JP2012168949A/ja
Application granted granted Critical
Publication of JP6001871B2 publication Critical patent/JP6001871B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Generation (AREA)
  • Electron Beam Exposure (AREA)

Description

本願は、混合モデルの構築方法に関する。
データマイニングとは、データから情報および値を抽出するために使用される技術である。データマイニングアルゴリズムは、ターゲットマーケティングのための買い物客の消費傾向の予測、クレジットカード不正取引の検出、ウェブサイト内の顧客のナビゲーションパスの予測、機械の故障検出などの、多くのアプリケーションで使用されている。データマイニングは、人工知能(AI)および統計モデリングコミュニティによって長年にわたって開発されてきた様々なアルゴリズムを使用する。アルゴリズムには異なる多くのクラスがあるが、それらは全て(a)データドメインの知識を表す(暗黙的に、または明示的に)モデル、(b)モデルを構築するために訓練データを使用するモデル構成か学習フェーズ、および(c)予測を行うために新しいデータを採用して、そのデータにモデルを適用する推論ファシリティなどの、いくつかの共通の特徴を共有する。知られている例は、第2変数の値に重み付けして、加重値と一定値とを合計することによって、第2変数から第1変数が予測される、線形回帰モデルである。重みおよび一定値はモデルのパラメータである。
混合モデルは、G McLachlan and D Peel in Finite Mixture Models, John Wiley&Sons,(2000)によって記述されるように、学術研究コミュニティ内のデータマイニングアプリケーションのために一般に使用されるモデルである。混合モデルのクラスには、混合エキスパートモデル(Mixtures of Experts)および階層型混合エキスパートモデル(Hierarchical Mixtures of Experts)などのバリエーションがある。文書により十分に立証された、混合モデルを構築するためのアルゴリズムもある。一例は、期待値最大化(EM)である。このような混合モデルは、一般に、データ内のクラスタまたはコンポーネントを識別すること、およびそれぞれのクラスタに適切な数学関数を適合させることによって構築される。
一態様では、非一時的メディアに格納されるデータセットの一般的な混合モデルを生成する方法は、データセットのサブセットを定義するためのサブセット基準を提供するステップと、プロセッサ内でサブセット基準に基づいてデータセットを少なくとも2つのサブセットに分割するステップと、少なくとも2つのサブセットのそれぞれについてサブセット混合モデルを生成するステップと、少なくとも2つのサブセットのそれぞれのサブセット混合モデルを一般的な混合モデルに結合するステップとを備える。
本発明の一実施形態による一般的な混合モデル生成する方法を示す流れ図である。 図1で示される方法の一部として、サブセット混合モデルからコンポーネントをフィルタリングする方法を示す流れ図である。 図1の一般的な混合モデルを生成する方法による、データセットのフィルタリングの例を示す図である。 第1サブセットのサブセット混合モデルを示す図である。 第2サブセットのサブセット混合モデルを示す図である。 図1で開示された方法によって構築された一般的な混合モデルを示す図である。
以下の記述では、説明の目的で、本明細書に開示される技術の完全な理解を提供するために特定の多くの詳細を説明する。しかし、これらの特定の詳細がなくても例示的実施形態を実施できることが当業者には明らかであろう。他の例では、例示的実施形態の説明を容易にするために、構造および装置が図の形式で示される。
以下で、図面を参照して例示的実施形態を記述する。これらの図面は、本明細書で記述されるモジュール、方法、およびコンピュータプログラム製品を実装する特定の実施形態のいくつかの詳細を示している。しかし、これらの図面は、図面内に存在する場合がある何らかの制限を課すものと見なされるべきではない。方法およびコンピュータプログラム製品は、それらの動作を遂行するために、どのような機械可読メディア上に提供されてもよい。実施形態は、既存のコンピュータプロセッサを使用して、あるいはこのまたは他の目的のために組み込まれた専用コンピュータプロセッサによって、あるいはハードワイヤードシステムによって実装され得る。
上述のように、本明細書に記述される実施形態は、機械実行可能命令またはデータ構造を担持するまたは格納した機械可読メディアを備えるコンピュータプログラム製品を含む。このような機械可読メディアは、汎用または専用コンピュータ、あるいはプロセッサを備えた他の機械によってアクセスできる、どのような利用可能なメディアでもよい。例を挙げると、このような機械可読メディアは、RAM、ROM、EPROM、EEPROM、CD−ROM、あるいは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶装置、あるいは所望のプログラムコードを機械実行可能命令またはデータ構造の形式で搬送または格納するために使用でき、汎用または専用コンピュータあるいはプロセッサを備えた他の機械によってアクセスできる、他の何らかのメディアを備えることができる。ネットワークまたは他の通信接続(ハードワイヤード、無線、またはハードワイヤードと無線の組合せでもよい)を介して機械に情報が転送または提供される際、機械はその接続を適切に機械可読メディアと見なす。したがって、このようなどの接続も適切に機械可読メディアと呼ばれる。上記の組合せも、機械可読メディアの範囲に含まれる。機械可読命令は、たとえば、汎用コンピュータ、専用コンピュータ、または専用処理機械に、ある機能または機能のグループを実行させる命令およびデータを備える。
たとえばネットワーク化された環境における機械によって実行されるプログラムモジュールの形式で、プログラムコードなどの機械可読命令を含むプログラム製品によって一実施形態で実装され得る方法ステップの一般的な文脈において実施形態を記述する。一般にプログラムモジュールは、特定のタスクの実行または特定の抽象データタイプの実装の技術的効果を有するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。機械可読命令、関連データ構造、およびプログラムモジュールは、本明細書に開示される方法のステップを実行するためのプログラムコードの例を表す。このような実行可能命令または関連データ構造の特定のシーケンスは、このようなステップに記述される機能を実装するための対応する動作の例を表す。
実施形態は、プロセッサを有する1つまたは複数の遠隔コンピュータへの論理的な接続を使用してネットワーク化された環境において実施され得る。論理的接続は、限定するためではなく例示のために本明細書で提示される、ローカルエリアネットワーク(LAN)およびワイドエリアネットワーク(WAN)を含むことができる。このようなネットワーキング環境はオフィス全体または企業全体のコンピュータネットワーク、イントラネット、およびインターネットにおいて普通のことであり、異なる様々な通信プロトコルを使用できる。このようなネットワークコンピューティング環境は、一般にパーソナルコンピュータ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサを用いるまたはプログラム可能である家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、および同様のものを含む多くのタイプのコンピュータシステム構成を包含することが、当業者なら理解できるであろう。
実施形態は、通信ネットワークを通じてリンクされた(ハードワイヤードリンク、無線リンク、あるいはハードワイヤードまたは無線リンクの組合せによって)ローカルおよび遠隔処理装置によってタスクが実行される分散コンピューティング環境でも実施できる。分散コンピューティング環境では、プログラムモジュールはローカルメモリ記憶装置と遠隔メモリ記憶装置との両方に位置できる。
例示的実施形態の全体または一部を実装するための例示的システムは、処理装置、システムメモリ、およびシステムメモリを含む様々なシステムコンポーネントを処理装置に結合するシステムバスを含むコンピュータの形式の汎用コンピューティング装置を含むことができる。システムメモリは、読出し専用メモリ(ROM)およびランダムアクセスメモリ(RAM)を含むことができる。コンピュータは、磁気ハードディスクから読み取る、またはそこに書き込むための磁気ハードディスクドライブ、リムーバブル磁気ディスクから読み取る、またはそこに書き込むための磁気ディスクドライブ、CD−ROMまたは他の光メディアなどのリムーバブル光ディスクから読み取る、またはそこに書き込むためのおよび光ディスクドライブも含むことができる。ドライブおよびその関連機械可読メディアは、機械可読命令、データ構造、プログラムモジュール、およびコンピュータのための他のデータの非揮発性記憶装置を提供する。
実施形態で開示される方法の技術的効果は、予測パターンについての複雑なデータセットをマイニングするための正確なモデルをより効果的に提供することを含む。方法は、異なる問題を解決することを課せられた基本的に単一のアルゴリズムを使用して異なる観点からデータを探索するための高度の柔軟性を導入する。したがって、技術的効果はより効果的なデータ探索、異常検出、値を予測して欠損データを置換するための回帰、およびデータの区分化を含む。開示された方法を使用してこのようなデータを効果的に探索できる方法の例には、顧客の購買傾向に基づくターゲットマーケティング、リスクの高いクレジット申込者を識別することによるクレジットリスクの減少、および航空機の状態を理解することから行われる予測的なメンテナンスがある。
本発明は、データセットの一般的な混合モデルを生成することに関する。より詳細には、データセットは2つ以上のサブセットに分割され、サブセットごとにサブセット混合モデルが生成され、次いでサブセット混合モデルが結合されてデータセットの一般的な混合モデルを生成する。
図1を参照すると、一般的な混合モデル100を生成する方法が開示されている。まず、サブセット識別を有するサブセットを生成する(104)ために、データベース102内に含まれるデータセットとサブセット基準108が提供される。構成データセットを有するデータセットを電子メモリに格納できる。データセットは多次元またはパラメータを含むことができ、それぞれの次元はそれに関連付けられる1つまたは複数の値を有する。値は離散値でもよく、連続値でもよい。たとえば、データセットは、CFM56、CF6、CF34、GE90、およびGEnxの離散値を有するガスタービンエンジンの次元を備えることができる。離散値は、General Electric Corporationによって製造および販売されるガスタービンエンジンの様々なモデルを表す。データセットは、B737−700、B737700ER、B747−8、B777−200LR、B777−300ER、およびB787の離散値を有する機体と呼ばれる別の次元をさらに備えることができ、データセットのガスタービンエンジン次元のガスタービンエンジンを搭載できる様々な機体を表している。この例を続けると、データセットは、18,000重量ポンドから115,000重量ポンド(80ノット〜512ノット)の範囲内の値などの連続値を有するスラストと呼ばれる次元をさらに備えることができる。
サブセット基準108は、データセットをフィルタリングするために使用できるデータセットの1つまたは複数の次元の1つまたは複数の値でよい。サブセット基準は、関係データベースに格納することもでき、他の何らかの知られている方法によって設計することもできる。一般に、サブセット基準108は、ユーザがデータセットから学びたいものに基づいて、データセットのユーザによって構築される。サブセット基準108は、データセット内のデータをフィルタリングおよび分割するためのいくつもの個々の基準を含むことができる。上記の例を続けると、サブセット基準108は、B747−8に搭載されたGE90エンジン、B777−300ERに搭載されたGEnxエンジン、およびB787に搭載されたGEnxなどの3つの異なる要素を備えることができる。これは3つの要素を備える2次元サブセット基準の例であるが、サブセット基準はデータセット内の次元の数を最大とするいくつもの次元を含むことができ、いくつもの要素を備えることができる。
サブセットおよびサブセット識別を生成するステップ(104)は、データセットを通じてフィルタリングするステップ、およびそれぞれのサブセット内のそれぞれの要素を識別するステップを備える。サブセットの数は選択基準内の要素の数と等しい。フィルタリング処理は、データベース102を備える電子メモリへのアクセスを有するプロセッサ上で実行しているコンピュータソフトウェア要素によって遂行できる。フィルタリングの後、またはそれと同時に、サブセットおよびその構成要素とそれぞれの他のサブセットおよびそれらの構成要素とを区別するために、それぞれのサブセットにサブセット識別子が割り当てられる。サブセット識別子はテキスト文字列でもよく、104で生成されたサブセットを識別する他の知られている方法でもよい。
次に、106で、少なくとも1つのサブセットがあるかどうか評価される。少なくとも1つのサブセットがない場合、方法100は108に戻って、少なくとも1つのサブセットを作成する新しいサブセット基準を受け取る。少なくとも1つのサブセットがある場合は、方法100は110でサブセットごとに混合モデルを生成する。混合モデルの生成は、一般にデータマイニングの分野における訓練とも呼ばれる。サブセットごとの混合モデルは、何らかの知られている方法によって、また何らかの知られているタイプの混合モデルとして生成でき、非限定的な例は、期待値最大化(EM)を使用して訓練されたガウス混合モデルである。サブセットごとに混合モデルを生成する処理は、サブセット密度を表す数学的汎関数をもたらす。連続ランダムベクトルをモデリングする例では、それぞれのサブセットの数学的汎関数の表現は、確率密度関数(pdf)のスケーリングされた(scaled)合計である。それぞれのpdfは、混合モデルが生成されているサブセット内のデータ要素のコンポーネントまたはクラスタに対応する。言い換えれば、それぞれのサブセット110の混合モデルを生成する方法は、プロセッサ上で実行しているソフトウェア要素によって行われ、ソフトウェア要素はサブセット内の全てのデータ要素を考慮し、データ要素を1つまたは複数のコンポーネントにクラスタリングし、それぞれのコンポーネントにpdfを適合させ、それぞれのコンポーネントにスケーリングファクタを帰着して(ascribe)、データの数学的汎関数の表現を生成する。混合モデルの非限定的な例は、
Figure 0006001871
の形式のガウスまたは正規分布混合モデルであり、
上式で、p(x)はサブセットの数学的汎関数の表現であり、
Xは変数の多次元ベクトル表現であり、
kはサブセット内のそれぞれのコンポーネントを指すインデックスであり、
Kはサブセット内のコンポーネントの総数であり、
πkは、1と等しい全てのKクラスタについての全てのπkの合計を有するクラスタkに対応するスカラースケーリングファクタであり、
Figure 0006001871
は、コンポーネント平均(component mean)μkおよび共分散ΣkについてのベクトルXの正規確率密度関数である。
ベクトルXが一次元のベクトルの場合ΣkはXの分散であり、Xが2つ以上の次元を有する場合ΣkはXの共分散行列である。
110でサブセットごとに混合モデルが生成された後、112で、少なくとも2つのサブセットがあるかどうかが決定される。少なくとも2つのサブセットがない場合、110で生成された単一のサブセット混合モデルが一般的な混合モデルである。しかし、112で少なくとも2つのサブセットがあると決定される場合、次に116でモデルコンポーネントのフィルタリングが所望されるかどうかが決定される。116でフィルタリングが所望される場合、118で、1つまたは複数のコンポーネントがモデルから除去される。118のフィルタリング方法は、図2とともにより詳細に記述する。一旦118でフィルタリングが行われると、または116でフィルタリングが所望されない場合、方法100は120に進み、そこでサブセットモデルが結合される。
120でサブセットモデルを結合するステップは、サブセットごとに生成された混合モデルを連結して結合モデルを生成するステップを備えることができる。あるいは、サブセットモデルを結合するステップは、それぞれの混合モデルを連結して結合モデルを生成する前に、個々のサブセットのそれぞれの混合モデルを別々にスケーリングするステップを備えることができる。
122で、モデルの単純化が所望されるかどうか決定される。122で単純化が所望されない場合、124で、結合されたサブセットモデルが一般的なモデルである。122で単純化が所望される場合、結合モデルの単純化が126で実行され、128で、単純化された結合モデルが一般的なモデルと見なされる。単純化126は、2つ以上の異なるサブセットから1つまたは複数のクラスタを結合するステップを備えることができる。単純化126は、サブセットの結合された混合モデルから1つまたは複数のコンポーネントを除去するステップをさらに備えることができる。
次に図2を参照すると、サブセット混合モデルを結合する前に、118で個々のサブセット混合モデルのコンポーネントをフィルタリングする方法が示されている。まず、140でそれぞれのコンポーネントおよび他のコンポーネントへの関連距離を一覧にするための完成リストが消去される。次に、142で、全てのサブセットから全てのコンポーネントが、プロセッサおよび関連電子メモリによって受信される。144で全てのコンポーネントからあるコンポーネントが選択され、146で、選択されたコンポーネントの、他のサブセット内の他の全てのコンポーネントへの距離が決定される。言い換えれば、選択されたコンポーネントが、選択されたコンポーネントのサブセット識別子とは異なるサブセット識別子を有する他の全てのコンポーネントと比較される。距離は、これに限定されないが、カルバックライブラー情報量を含む、何らかの知られている方法によって計算できる。148で、コンポーネントおよび他のサブセットの他の全てのコンポーネントへの関連距離が一覧にされて、完成リストに添付される。言い換えれば、完成リストはコンポーネントから他のサブセットの全てのコンポーネントへの距離を含む。150で、選択されたコンポーネントが最後のコンポーネントかどうか決定される。最後のコンポーネントではない場合、方法118は144に戻って次のコンポーネントを選択する。しかし、150で、選択されたコンポーネントが最後のコンポーネントと決定される場合、全てのサブセットの全てのコンポーネントについて完成リストがアップデートされ、方法は152に進み、完成リストが146で計算された距離の降順でソートされる。154で、完成リストのトップのコンポーネント、または他の全てのサブセットの他の全てのコンポーネントへの最大距離を有するコンポーネントが除去されるかフィルタリングによって取り除かれる。156で、フィルタリング基準が満たされているかどうか決定される。フィルタリング基準は、たとえば、あらかじめ定められたフィルタリングされるべきコンポーネントの総数でよい。あるいは、フィルタリング基準は、コンポーネントの総数のあらかじめ定められた割合のフィルタリングでよい。156でフィルタリング基準が満たされる場合、160で、最後のコンポーネントセットが識別される。しかし、156でフィルタリング基準が満たされない場合、158で、反復フィルタリングが所望されるかどうか決定される。反復フィルタリングへの所望は方法118のユーザによって設定される。158で反復フィルタリングが所望されない場合、方法は154に戻って、他のサブセットから他の全てのコンポーネントへの最大距離を有するコンポーネントを残りのコンポーネントから除去する。158で、反復フィルタリングが所望されると決定されると、方法118は140に戻る。
反復フィルタリングは、方法118がコンポーネントごとにそれぞれの他のコンポーネントへの距離を再計算して、混合モデルからコンポーネントが除去されるたびに140から152を実行することによって新しい完成リストを生成することを意味する。コンポーネント間の距離は変更でき、したがって、混合モデルからコンポーネントが除去されると完成リスト上のコンポーネントの相対的順序は変更できる。したがって、反復フィルタリングを実行することによって、除去されるコンポーネントがそれぞれの他のサブセットからコンポーネントへの最大距離を有するコンポーネントであることを、より自信を持って確実にすることができる。しかし、場合によっては、反復フィルタリングはより計算集約型であってより時間がかかるので、反復フィルタリングを実行したくない場合がある。言い換えれば、本明細書に開示されたフィルタリング方法118を実行すると、158で反復フィルタリングが所望されるかどうか決定するために、フィルタリング実行とフィルタリングに必要な時間と間のトレードオフを評価できる。
図3〜6は、一般的な混合モデルを生成する前述の方法100を実行する例を示している。図3で、データセットからのデータ180および190が、変数x1に対してプロットされている。データは、方法100の104とともに記述される手順に従って、グラフ上に白丸で示されている第1サブセット180、およびグラフ上に黒い三角形で示されている第2サブセット190にさらに分割される。方法100を多くのサブセットを有する多変量解析に適用できるが、この例では方法100の視覚化を単純にするために、2つのサブセットだけに依存する単一の変数データが示される。
図4および5は、ステップ110として、それぞれ第1サブセット180のための、および第2サブセット190のための混合モデルの生成を示している。第1サブセット180の場合、3つのコンポーネントが識別され、それぞれに平均μ1、μ2、およびμ3を有するスケーリングされたガウス分布G1、G2、およびG3がそれぞれ適用される。第2サブセット190の場合、2つのコンポーネントが識別され、それぞれに平均μ4およびμ5を有するスケーリングされたガウス分布G4およびG5がそれぞれ適用される。したがって、第1サブセット180の混合モデルは、構成コンポーネントG1、G2、およびG3のスケーリングされたフィッティング関数のエンベロープによって表される。同様に、第2サブセット190の混合モデルは、構成コンポーネントG4およびG5のスケーリングされたフィッティング関数のエンベロープによって表される。図6で、フィルタリング後、方法100のステップ120として、一般的な混合モデルの結合された構成スケーリングフィッティング関数が示されている。この例では、フィルタリングステップ118で、フィッティング関数G3を有するコンポーネントは、いくつかのあらかじめ定められた値(図示せず)を超える他のサブセットG4およびG5のコンポーネントから離れていることが見つかり、したがってコンポーネントG3は図6の一般的な混合モデルから除去されたことがわかる。
本明細書は本発明を開示するために、およびあらゆる当業者が本発明を利用および使用できるようにするために、ベストモードを含めた例を用いる。本発明の特許性の範囲は特許請求の範囲によって定義され、当業者が想到する他の例を含むことができる。このような他の例は、それらの例が特許請求の範囲の文言とは異ならない構造的要素を有する場合、またはそれらの例が特許請求の範囲の文言とは実質的に差のない均等の構造要素を含む場合、特許請求の範囲内であるものとする。
100 一般的な混合モデルを生成する方法
102 データベース
104 サブセット識別を有するサブセットを生成する
106 少なくとも1つのサブセットがあるか?
108 サブセット基準
110 サブセットごとに混合モデルを構築する
112 少なくとも2つのサブセットがあるか?
114 サブセットモデルが一般的なモデルである
116 モデルフィルタリングが所望されるか?
118 モデルからコンポーネントを除去する
120 サブセットモデルを結合する
122 単純化が所望されるか?
124 結合されたサブセットモデルが一般的なモデルである
126 結合されたモデルを単純化する
128 単純化されたモデルが一般的なモデルである
140 完成リストを初期化して空にする
142 全てのサブセットから全てのコンポーネントを受信する
144 次のコンポーネントを選択する
146 選択されたコンポーネントの、他のサブセット内の他の全てのコンポーネントへの距離を計算する
148 選択されたコンポーネントおよび距離が完成リストに添付される
150 選択されたコンポーネントは最後のコンポーネントか?
152 完成リストを降順でソートする
154 トップのコンポーネントを除去する
156 フィルタリング基準は満たされたか?
158 反復フィルタリングが所望されるか?
160 最後のコンポーネントセットが識別される
180 第1サブセットデータ
190 第2サブセットデータ
G1 第1クラスタフィッティング関数
G2 第2クラスタフィッティング関数
G3 第3クラスタフィッティング関数
G4 第4クラスタフィッティング関数
G5 第5クラスタフィッティング関数
μ1 第1クラスタの平均
μ2 第2クラスタの平均
μ3 第3クラスタの平均
μ4 第4クラスタの平均
μ5 第5クラスタの平均

Claims (10)

  1. 非一時的メディア(102)に格納されるデータセットの一般的な混合モデル(100)を生成する方法であって、
    前記データセットの1つ以上の次元の1つ以上の要素を含み、前記データセットのサブセットを定義するためのサブセット基準(108)を提供するステップと、
    前記サブセット基準(108)を利用して、プロセッサ上で前記データセットを通じてフィルタリングするステップと、
    前記プロセッサ内で前記サブセット基準(108)に基づいて前記データセットをサブセットに分割するステップであって、前記サブセットの数は前記サブセット基準(108)内の要素の数と等しい、ステップと、
    各サブセットに識別子を割り当てるステップと、
    前記サブセットのそれぞれについてサブセット混合モデル(110)を生成するステップと、
    少なくとも2つのサブセットがある場合には、前記少なくとも2つのサブセットのそれぞれの前記サブセット混合モデルを前記一般的な混合モデル(120)に結合し、少なくとも2つのサブセットがない場合には、前記サブセット混合モデルを前記一般的な混合モデル(120)として設定するステップと、
    を含む、方法。
  2. 前記サブセット基準が、関係データベースにおいて定義されるステップと、少なくとも1つの次元によって前記データセットをフィルタリングするステップとのうちの1つを含む、請求項1に記載の方法。
  3. 前記生成するステップが、サブセット(104)の少なくとも1つのコンポーネントを識別するステップと、関数をサブセットの少なくとも1つのコンポーネントに適合させるステップと、スケーリングファクタによってフィッティング関数をスケーリングするステップと、スケーリングされたフィッティング関数を合計するステップとのうちの少なくとも1つを含む、請求項1または2に記載の方法。
  4. 前記関数が確率密度関数である、請求項3に記載の方法。
  5. 前記確率密度関数が正規分布関数である、請求項4に記載の方法。
  6. 前記スケーリングファクタがスカラー値である、請求項3に記載の方法。
  7. サブセットの前記フィッティング関数のそれぞれに対応する前記スケーリングファクタの全ての合計が1である、請求項4に記載の方法。
  8. 前記結合するステップ(120)が、前記少なくとも1つのサブセットごとに前記サブセット混合モデルを連結するステップと、前記少なくとも1つのサブセットごとに前記サブセット混合モデルを別々にスケーリングして前記スケーリングされたサブセット混合モデルを連結するステップと、前記サブセット混合モデル(150)を結合する前に1つまたは複数のコンポーネント関数を除去するステップとを備える、請求項1または2に記載の方法。
  9. 前記サブセット混合モデルを結合する前に1つまたは複数のコンポーネント関数を除去するステップ(150)が、コンポーネントを選択して、前記選択されたコンポーネントと前記選択されたコンポーネントに対応する前記サブセット以外のサブセットからの全ての前記コンポーネントとの間の前記距離を決定するステップ(144)を備える、請求項8に記載の方法。
  10. 前記サブセット混合モデルを結合する前に1つまたは複数のコンポーネント関数を前記除去するステップ(150)が、最大距離を有する前記コンポーネントを除去するステップをさらに備える、請求項9に記載の方法。
JP2012028991A 2011-02-15 2012-02-14 混合モデルの構築方法 Expired - Fee Related JP6001871B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/027,829 US20120209880A1 (en) 2011-02-15 2011-02-15 Method of constructing a mixture model
US13/027,829 2011-02-15

Publications (2)

Publication Number Publication Date
JP2012168949A JP2012168949A (ja) 2012-09-06
JP6001871B2 true JP6001871B2 (ja) 2016-10-05

Family

ID=45655746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012028991A Expired - Fee Related JP6001871B2 (ja) 2011-02-15 2012-02-14 混合モデルの構築方法

Country Status (7)

Country Link
US (1) US20120209880A1 (ja)
EP (1) EP2490139B1 (ja)
JP (1) JP6001871B2 (ja)
CN (1) CN102693265B (ja)
BR (1) BR102012003344A2 (ja)
CA (1) CA2767504A1 (ja)
IN (1) IN2012DE00401A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6316844B2 (ja) * 2012-12-22 2018-04-25 エムモーダル アイピー エルエルシー 予測モデル生成のためのユーザーインタフェース
WO2015079192A1 (en) 2013-11-29 2015-06-04 Ge Aviation Systems Limited Method of construction of anomaly models from abnormal data
CN106156857B (zh) * 2015-03-31 2019-06-28 日本电气株式会社 变分推理的数据初始化的方法和装置
CN106156077A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 用于混合模型选择的方法和装置
US10817796B2 (en) * 2016-03-07 2020-10-27 D-Wave Systems Inc. Systems and methods for machine learning
CN107644279A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 评价模型的建模方法及装置
CN109559214A (zh) * 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
CN109657802B (zh) * 2019-01-28 2020-12-29 清华大学深圳研究生院 一种混合专家强化学习方法及***
CN112990337B (zh) * 2021-03-31 2022-11-29 电子科技大学中山学院 一种面向目标识别的多阶段训练方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449612B1 (en) * 1998-03-17 2002-09-10 Microsoft Corporation Varying cluster number in a scalable clustering system for use with large databases
US6263337B1 (en) * 1998-03-17 2001-07-17 Microsoft Corporation Scalable system for expectation maximization clustering of large databases
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
US7299135B2 (en) * 2005-11-10 2007-11-20 Idexx Laboratories, Inc. Methods for identifying discrete populations (e.g., clusters) of data within a flow cytometer multi-dimensional data set
US7664718B2 (en) * 2006-05-16 2010-02-16 Sony Corporation Method and system for seed based clustering of categorical data using hierarchies
US8432449B2 (en) * 2007-08-13 2013-04-30 Fuji Xerox Co., Ltd. Hidden markov model for camera handoff
JP2009086581A (ja) * 2007-10-03 2009-04-23 Toshiba Corp 音声認識の話者モデルを作成する装置およびプログラム
US8521659B2 (en) * 2008-08-14 2013-08-27 The United States Of America, As Represented By The Secretary Of The Navy Systems and methods of discovering mixtures of models within data and probabilistic classification of data according to the model mixture
US8493409B2 (en) * 2009-08-18 2013-07-23 Behavioral Recognition Systems, Inc. Visualizing and updating sequences and segments in a video surveillance system
CN101882150B (zh) * 2010-06-09 2012-09-26 南京大学 一种基于核密度估计的三维模型比较和检索方法
US8571328B2 (en) * 2010-08-16 2013-10-29 Adobe Systems Incorporated Determining correspondence between image regions

Also Published As

Publication number Publication date
EP2490139A1 (en) 2012-08-22
EP2490139B1 (en) 2020-04-01
CN102693265A (zh) 2012-09-26
US20120209880A1 (en) 2012-08-16
JP2012168949A (ja) 2012-09-06
CN102693265B (zh) 2017-08-25
CA2767504A1 (en) 2012-08-15
IN2012DE00401A (ja) 2015-06-05
BR102012003344A2 (pt) 2015-08-04

Similar Documents

Publication Publication Date Title
JP6001871B2 (ja) 混合モデルの構築方法
More et al. A SI model for social media influencer maximization
Zeng et al. Online context-aware recommendation with time varying multi-armed bandit
EP1611546B1 (en) Methods and systems for interactive evolutionary computing (iec)
Zapranis et al. Principles of neural model identification, selection and adequacy: with applications to financial econometrics
Qiu et al. An AIS-based hybrid algorithm with PDRs for multi-objective dynamic online job shop scheduling problem
Hunt et al. Evolving" less-myopic" scheduling rules for dynamic job shop scheduling with genetic programming
Rebai et al. Earliness–tardiness minimization on a single machine to schedule preventive maintenance tasks: metaheuristic and exact methods
EP3751496A1 (en) Method and system for building reinforcement learning (rl) based model for generating bids
Sadeghi et al. Grey wolf optimizer and whale optimization algorithm for stochastic inventory management of reusable products in a two-level supply chain
Qing et al. A survey on explainable reinforcement learning: Concepts, algorithms, challenges
Chai et al. Carbon price prediction for China's ETS pilots using variational mode decomposition and optimized extreme learning machine
Hochbaum 50th anniversary article: Selection, provisioning, shared fixed costs, maximum closure, and implications on algorithmic methods today
CN109978575A (zh) 一种挖掘用户流量经营场景的方法及装置
Lisic et al. Optimal stratification and allocation for the june agricultural survey
Falini et al. Spline based Hermite quasi-interpolation for univariate time series
Patel et al. Smart adaptive mesh refinement with NEMoSys
Chou et al. Forecasting enterprise resource planning software effort using evolutionary support vector machine inference model
Mitrai et al. Taking the human out of decomposition-based optimization via artificial intelligence, Part I: Learning when to decompose
Hoffman et al. Exploiting correlation and budget constraints in bayesian multi-armed bandit optimization
CN112215655A (zh) 一种客户画像的标签管理方法及***
Kanwal et al. An attribute weight estimation using particle swarm optimization and machine learning approaches for customer churn prediction
Wang Retrospective optimization of mixed-integer stochastic systems using dynamic simplex linear interpolation
Ghimire et al. Machine learning-based prediction models for budget forecast in capital construction
Zavvar et al. Measuring service quality in service-oriented architectures using a hybrid particle swarm optimization algorithm and artificial neural network (PSO-ANN)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160902

R150 Certificate of patent or registration of utility model

Ref document number: 6001871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees