JP2016525239A - 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム - Google Patents

機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム Download PDF

Info

Publication number
JP2016525239A
JP2016525239A JP2016521905A JP2016521905A JP2016525239A JP 2016525239 A JP2016525239 A JP 2016525239A JP 2016521905 A JP2016521905 A JP 2016521905A JP 2016521905 A JP2016521905 A JP 2016521905A JP 2016525239 A JP2016525239 A JP 2016525239A
Authority
JP
Japan
Prior art keywords
data
sample
classification
queue
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016521905A
Other languages
English (en)
Inventor
ライアン・パーメー
スチュアート・マックルア
マシュー・ウルフ
ゲイリー・ゴロム
デレク・エイ・ソーダー
シージェン・リーバイツ
マイケル・オディー
ゲイブリエル・アセベド
グレン・チザム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cylance Inc
Original Assignee
Cylance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cylance Inc filed Critical Cylance Inc
Publication of JP2016525239A publication Critical patent/JP2016525239A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

有向グラフ内にデータサンプルが置かれ、有向グラフは、データサンプルを処理するのに使用される特定の作業者クラスの作業項目の待ち行列を形成する複数の階層ノードを含む。その後、作業項目は、有向グラフのノードをトラバースすることによって、複数の作業者の各々の待ち行列内でスケジュールされる。その後、作業項目が待ち行列に従って、作業者に供給される。結果は、後に、それらの作業項目の作業者から受け取ることができる(有向グラフのノードが、受け取られる結果に基づいてトラバースされる)。加えて、いくつかの変形形態では、結果を分類することができ、それによって、1つまたはモデルを生成することができる。関係するシステム、方法、およびコンピュータプログラム製品も開示される。

Description

関連技術の相互参照
本出願は、2013年6月24日に提出された米国特許出願61/838,820号に対する優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
本明細書に記載の主題は、機械学習を使用した自動生成的マルチモデルマルチクラス分類および類似度分析のためのシステム、方法、およびコンピュータプログラム製品に関する。
サンプルが或るカテゴリ内に入るか否か、および、そのサンプルが他のサンプルとどれだけ近く、どの程度の度合いで対照するかを判定する余地は、費用がかかり、人手に頼る問題である。従来の方法は、そのプロセスにおいて人間が複数の決定を行うことを必要とし、これは、プロセスのスケーラビリティおよび再現性に悪影響を及ぼす。加えて、人間は、困難な問題を解決するのに必要とされるスケールでデータを考察するようには適応していない。最後に、これらのシステムは、一般的すぎて非常に非効率であるか、または、特定的すぎて特定の問題に集中するかのいずれかになる傾向にある。
本発明の主題は、コンピュータを使用して、機械学習の原理を通じて生成される確率モデルを使用して分類および類似度分析を効率的に行うことができるプロセスに関する。プロセスは、生成モデルを使用することによって自動的にこれを行い、サンプルが、システムをさらに訓練し、特定のサンプル集団内で表現される最良の予測能力を正確に表す、反復的により良好なモデルをもたらす。
プロセスは、これらの機能をサポートするために必要とされる5つの主要な機能構成要素およびインフラストラクチャによって定義することができる。
・クエリインターフェース
・サンプル収集
・サンプルからの特徴抽出
・マルチクラスサンプル分類および類似度分析
・モデル生成
サンプルは、同様のサンプルに対する分類または類似度分析の実施が所望される任意のデータ片である。特徴は、システムがサンプルから測定する任意の突出したデータ点である。モデルは、任意のサンプルが特定のクラスに分類される可能性を定義する単一またはマルチモデル確率行列である。マルチクラス分類器は、2つ以上のクラスにおける分類をサポートすることができるものである。マルチモデル分類器は、下位モデルを使用して、複合サンプルにおける特定の複雑性を処理するものである。生成分類器は、分類に使用されるサンプルが、将来の分析のための訓練材料になり得るものである。
一態様において、データサンプルが有向グラフ(たとえば、有向非巡回グラフ)内に置かれる。有向グラフは、データサンプルを処理するのに使用される特定の作業者クラスの作業項目の待ち行列を形成する複数の階層ノードを含む。作業項目は、有向グラフのノードをトラバースすることによって、複数の作業者の各々の待ち行列内でスケジュールされる。その後、作業項目が待ち行列に従って、作業者に供給される。その後、作業項目の作業者から結果が受信される。この構成において、有向グラフノードは、受信結果に基づいてトラバースされる。
結果は、データサンプルから抽出された特徴を含むことができる。幾つかの事例におけるデータサンプルおよび/または抽出された特徴が分類され得る。加えて、抽出された特徴および/または分類を使用して少なくとも1つのモデル(たとえば、機械学習モデルなど)を生成することができる。他の事例において、データサンプルを使用して単純に結果を分類することができる。分類を特徴付けるデータは、データの表示、メモリへのデータのロード、データの記憶、および、遠隔コンピューティングシステムへのデータの送信のような様々な様式で提供することができる。
結果は、待ち行列内で次の後続する作業項目をどこにスケジュールすべきかを決定するのに使用されるルーティングデータを含むことができる。
各サンプルが優先順位付けされた順序に従って待ち行列に加えられるように、各サンプルの順序を、そのようなサンプルを待ち行列に加える前に優先順位付けすることができる。優先順位は、所定の処理レートに基づくことができる。少なくとも1つのサンプルの優先順位付けは、リアルタイムでローカルに調整することができる。作業項目は、サンプル優先順位付けまたは作業者レートのうちの少なくとも一方に従って待ち行列内にスケジュールすることができる。
作業項目が供給される作業者は、利用可能なリソースに基づいてサイズが動的に変化するプールの一部分であり得る。利用可能なリソースは、決定される供給および需要に基づき得る。
一変形形態において、データサンプルは、コンピューティングシステムによってアクセスまたは実行するためのファイルを含み、分類は、少なくとも1つのファイルが悪質なコードを含む可能性があるか否かを示す。別の変形形態において、データサンプルは、医療画像データを含み、分類は、医療画像データの少なくとも1つの部分が異常な状態(たとえば、癌性細胞など)の可能性を示すか否かを示した。
1つまたは複数のコンピューティングシステムの1つまたは複数のデータプロセッサが実行されると、少なくとも1つのデータプロセッサに、本明細書における動作を実施させる命令を記憶している持続性コンピュータ可読媒体を含むコンピュータプログラム製品も記載される。同様に、1つまたは複数のデータプロセッサと、1つまたは複数のデータプロセッサに結合されているメモリとを含んでもよいコンピュータシステムも記載される。メモリは、少なくとも1つのプロセッサに、本明細書に記載の動作の1つまたは複数を実施させる命令を一時的にまたは永続的に記憶することができる。加えて、方法は、単一のコンピュータシステム内にあるか、または、2つ以上のコンピューティングシステム間で分散されているかのいずれかである1つまたは複数のデータプロセッサによって実施することができる。そのようなコンピューティングシステムは、限定ではないが、ネットワーク(たとえば、インターネット、無線広域ネットワーク、ローカルエリアネットワーク、広域ネットワーク、有線ネットワークなど)にわたる接続、複数のコンピューティングシステムのうちの1つまたは複数の間の直接接続を介した接続などを含む、1つまたは複数の接続を介して接続することができ、データおよび/もしくはコマンドまたは他の命令などを交換することができる。
本明細書に記載の主題は、多くの技術的利点を提供する。たとえば、本発明の主題は、モデルの自動生成を提供し、それによって、人間がモデルを生成する必要性およびそれと関連付けられる誤りを未然に防ぐ。さらに、本発明の主題は、様々な用途のためにデータ/ファイルを分類するための技法を増強することを可能にする。
本明細書に記載の主題の1つまたは複数の変形形態の詳細は、添付の図面および下記の記載に述べられている。本明細書に記載の主題の他の特徴および利点は、本明細書および図面、ならびに特許請求の範囲から明らかとなる。
本発明の主題を実施するためのシステムの主要な構成要素を示すシステム図である。 クエリインターフェースを使用するプロセスを示す図である。 能動収集のためのプロセスを示す図である。 受動コレクタインターフェースAPIのためのプロセスを示す図である。 特徴を抽出するプロセスを示す図である。 モデル生成のプロセスを示す図である。 生成的マルチモデルマルチクラス分類および類似度分析のためのプロセスを示す図である。
図1の図100に関連して、本明細書に記載のシステムは、そのサービスを提供するために、すなわち、データサンプルから特徴を抽出し、そのような抽出された特徴のいくつかまたはすべてに関して分類を行い、その後データサンプルを特徴付けるのに使用することができるそのようなデータを使用して機械学習モデルを生成するために、重要な基礎となるインフラストラクチャを利用することができる。
インフラストラクチャは、関係型データストア145およびビッグデータソース150のようなデータソースからのデータを記憶するキャッシュ140にアクセスする統一データアクセス層135を含むことができる。下記にさらに詳細に説明するように、インフラストラクチャは、ルータ155と、スケジューラ160と、リソースマネージャ165とを含むことができる。この詳細な説明および/または特許請求の範囲の範囲において別途指定しないかぎり、インフラストラクチャの構成要素は、ソフトウェア、ハードウェア、またはその両方の組み合わせにおいて実装することができる。インフラストラクチャは、複数の機能の間で共有され、それらの機能をともに結び付ける接着剤として機能する。インフラストラクチャは、全体にわたるプロセスの最適化に主に焦点を当てる。インフラストラクチャは、データがシステムを通って流れるのを容易にし、いずれのリソースが必要とされるかを判定し、データの最適なパスおよびリソースプロファイルを適切にスケジュールする。
本明細書に記載のプロセスは、動的に構成可能なワークフローシステムを使用して、最適な経路を通じたサンプルデータの順序付けを定義することができる。外部ソース105(たとえばウェブサービスおよび/または他のネットワークを介するものなど)が、クエリインターフェース110からデータを問い合わせ、かつ/または、収集インターフェース115にデータを提出することができる。インターフェースから得られるデータからの様々な特徴を、抽出構成要素120によって抽出することができる。いくつかの変形形態において、抽出されたデータは、分類器構成要素125によって分類(または他の様態で特徴付け)することができる。加えて、モデル生成構成要素130が、抽出および/または分類されたデータに基づいて1つまたは複数のモデル(たとえば、機械学習モデルなど)を生成または他の様態で使用することができる。
発明の主題によれば、ワークフローシステム内の個々の作業者は、他の作業者の特定の知識を必要とせず、ワークフローを通じた特定の経路を仮定しない。しかしながら、作業者は、スケジューラ160およびルータ155によって順守される依存関係を指定することができる。
ワークフローは、集中型であるがスケーラブルであるルーティングおよび優先順位付けシステムを使用することができる。個々の作業者は、中央リソースマネージャ165に登録し、プルメカニズムを介して作業を受信する。加えて、ワークフローシステムは、高度な同時並行性および柔軟性をサポートすることができる。作業項目は、重量または軽量であり得、適切な作業者にスケジュールされる。
ワークフローシステムは、各特定タイプの作業者が、システムを再起動することなく追加および除去されることを可能にするためのシステムを使用することができる。ワークフローシステムはまた、新たな順序付けが実施されることを可能にし、新たなタイプの作業者が追加され、既存の作業者が除去されることを可能にする。
最適なワークフローは、有向非巡回グラフ(DAG)のような有向グラフとして表すことができ、ノードが個々の作業者クラスとして表される。本発明の主題は一例としてDAGを使用するが、他のタイプの階層構成/有向グラフが利用されてもよい。グラフは、グラフを通る最短経路を生成しようと試行する後ろ向き推論依存関係マッピングにおける作業者クラス前提条件によって定義される。このプロセスの結果として、ワークフローを通る最適なパスを表す作業者クラスの前向き推論がもたらされる。
最初に、個々の作業者クラスが、構成ファイルを介して前提条件を定義することができる。この構成は、実行時に最適なルートが構築されることを可能にするルーティングシステムのシードを含む。その後、個々の作業者クラスをDAGに組み込むことができ、その後、DAGを、たとえば、中央リソースマネージャ165に発行することができる。中央リソースマネージャ165はその後、この新たなDAGを使用して、特定のデータサンプルをトラバースするのに最低なルートを判定することができる(この結果として、作業項目が作業者/作業者クラスに選択的にスケジュールされる)。
ルータ155を使用する中央リソースマネージャ165は、作業項目が次にどこへ行くかを定義することができる。これによって、個々の作業者は、メッセージがどのように渡されるかを知るかまたは気にする必要がなくなる。中央リソースマネージャ165は、ワークフロープロセスの最適な次のステップを定義するために各作業者の出力と対になった構成済みグラフに依拠する。
データサンプルは、DAG内で、特定の作業者クラスに対する作業項目の待ち行列として表される状態に置くことができる。次に、作業者は、ルータ155によって作業項目を供給され得る。作業者はその後、作業項目、および、場合によっては、ルーティングを補助するための情報の追加の層のような、ルーティングに有用なデータを返すことができる。たとえば、目標が破損の兆候を示していると作業者が判定した場合、これをフラグ立てすることによって、目標をより良好なソリューションへとルーティングするのを助けることができる。中央マネージャはここで、現在の作業項目の結果および現在の作業者の結果に基づいて、最適な次のルートを決定することができる。中央リソースマネージャ165はその後、DAGによって定義されるような次の状態にサンプルをシフトする。
スケジューラ160を使用する中央リソースマネージャ165は、個々の作業者の作業をスケジュールする役割を担い得る。中央リソースマネージャ165は、作業項目の待ち行列内での順序付けを管理することによって、これを行うことができる。作業項目の待ち行列として表される各作業項目クラスについて、サンプル優先順位付けおよび作業者レートを含む様々な要因に基づいて個々の項目を作業者に提供することができる。加えて、スケジューラ160は、オフラインになっているかまたはパラメータ外で作業している作業者によって処理されているもののような、例外的事例における作業項目を処理する役割を担う。
いくつかの変形形態において、サンプルは、特定のDAG状態に入り得る。スケジューラ160はその後、待ち行列内でのサンプルの順序を決定することができる。スケジューラ160は、チェックアウト状態にある時間が長すぎた作業項目を監視することができ、それらの作業項目を適切な箇所において待機状態で再挿入することができる。
作業項目は、スケジューラ160によって処理レートに基づいて優先順位付けすることができる。優先順位付けによって大域的およびローカルの両方での最適化の可能性がもたらされる。ローカル優先順位付け最適化は、システム内のノード内での動作に焦点を当て、大域的最適化は、複数のホストに影響を与え、経路をルーティングする優先順位付け動作を含む。優先順位がより高いサンプルは、優先順がより低いサンプルよりも高い優先権を得る。サンプルの優先順位付けは、例外的状況に対応するために、リアルタイムでローカルに調整することができる。分析を完了するために必要とする時間がより短いサンプル処理に対して、より高い優先順位を確保することができる。埋め戻し動作またはフィードから読み出されるサンプルのような受動的なソースからの大量処理のために、より低い優先順位を確保することができる。
大域的な優先順位付け最適化について、個々のサンプルに、ワークフロー内に挿入するメカニズムに基づいて優先順位を割り当てることができる。スケジューラ160は、より優先順位の高い作業項目により短い待ち行列待ち時間を与え、より優先順位の低い作業項目により長い待ち行列待ち時間を与えて、ワークフロー全体を通じたこの大域的な優先順位付けを使用することができる。
ローカル優先順位付け最適化について、スケジューラ160は、作業項目に対する現在の湯煎順位付けが不適当であるか、または、待ち行列において閉塞を引き起こしていると判定し得る。そのような事例において、スケジューラ160は、状況に応じて作業項目の優先順位付けをより高くまたはより低く、動的に調整することができる。
インフラストラクチャは、いくつかの基準に基づいて動的な倍率を提供することができる。スケーリングに関する主な大域的測定基準は、作業項目の合計処理時間であり得る。サンプルの多様性が高度に分散している、相当に分散されたシステムにおいて大域的測定基準を調整するために、いくつかのローカル測定基準を考慮して適合させることができる。これらのローカル測定基準は、たとえば、活動ごとの平均サプル処理時間、個々の活動の作業要因、ホストあたりの負荷測定基準、ならびに利用可能なRAM、CPU、およびディスクを含み得る。加えて、全体的なシステムが、小規模または大規模な局所的故障の場合にシステム全体の連続した動作を保証することができる。この意味において、スケジューラ160は、フェイルセーフ自己回復メカニズムを提供することができる。動的なスケーリングは、利用可能なリソースプール(すなわち、作業者のプールなど)の詳細なモニタリングおよび迅速な適合の組み合わせ、ならびに、任意選択的にリソースの完全なプールによって達成することができる。このプロセスは、中央リソースマネージャ165によって管理することができる。
リソースマネージャ165によって実装されるようなリソース管理システムは、このリソースプールの概念を利用することができる。リソースプールは、特定のクラス内で利用可能なすべてのコンピュータリソースの表現である。クラスは一般的に、オペレーティングシステム、または提供されるサービスのような一般的なものに対して定義され得る。各プールは、個々の作業者に与えられるリソースに分割することができる。
リソースマネージャ165を介したリソースプールは、需要ならびにリソース可用性および費用に基づいて拡大または縮小し得る。リソースが容易に利用可能であり低コストであるとき、リソースマネージャ165はプール全体を拡大し、サービスの容量をより大きくすることができる。リソースが恐るべき程または高コストになると、リソースマネージャ165はプール全体を縮小し、要件に適合するように全体的なレートを調整することができる。
リソースマネージャ165によって実装されるようなリソース管理システムは、リソースプール利用率および認識される需要を判定するのを助ける、様々な外部測定および自己報告されるフィードバック測定基準を利用することができる。
以下は、リソースマネージャ165に報告することができる2つのタイプのフィードバック測定基準である。第1に、測定される測定基準は、測定基準および統計収集システムによって収集されるものである。それらは、CPU利用、利用可能なメモリまたはディスク空間のような実物資産測定基準に焦点を当てる。これらは、リソースマネージャ165がリソースプール使用測定基準を判定し、プール内で利用不足のまたは利用過多のリソースを規定し、負荷を適切に調整するのを助けるのに有用である。第2に、自己報告測定基準が、より深いレベルの詳細を判定するのに有用である。作業者およびリソースマネージャ165は、粒度の高いリソース使用状況を判定することを可能にする処理レートおよびタスク時間に関するデータを報告する。それらはまた、リソースに対する意図される需要を判定するのにも有用である。
個々の作業者が、自身のリソース使用状況ならびに内部タイミングおよびカウントに関して、様々な測定基準をリソースマネージャ165に報告することができる。これらの値は、リソース競合のソースを判定するのを補助する。測定基準は一般的に、取引の両側で収集されるため、リソースマネージャ165は、何が根本的原因であり、何が症状であるのかを判定することができ、システムが、そのように、リソース最適化を根本的原因に集中させ、症状を軽減することを可能にする。
特に重要な自己報告測定基準セットは、スケジューラ160に由来する。スケジューラ160は、サンプル処理の個々の作業者レートを追跡し、レートの総平均(測定される供給)を計算することができる。リソースマネージャ165はまた、各DAG状態作業待ち行列のサイズおよび待ち時間も知っている(測定される需要)。これらの測定基準は、予期される合計処理時間の計算、および、ワークフローにバックアップがあるか否かの判定に特に有用である。スケジューラ160は、これらの測定基準をリソースマネージャ165に報告することができる。
作業完了事象またはリソース限界事象のような事象が発生すると、対応する測定基準が、事象を発生させているノードによってリソース管理システムに送信される。リソースマネージャ165はその後、自己報告データに基づいて時系列ベースの集約測定値および個別測定値を生成することができる。これらの時系列データ点は既知のベースラインに対してグラフ化および測定することができる。時系列データが特定の点を超えると、リソースプールへの追加のリソースの配備のような動作をトリガすることができる。
加えて、リソースマネージャ165は、様々なシステムを利用して、リソース利用率およびリソースの可用性を含む、リソースの外部状態をモニタリングすることができる。これらの測定値は、使用状況の最適性を判定するのを助けることができる。外部モニタリングは、ピアベースで、また、専用モニタリングシステムを使用することによっても行うことができる。これらのシステムは、それらの意図されるモニタリング目標(その状態を自己報告することができないリソースなど)を連続的にポーリングし、結果をリソースマネージャ165に報告することができる。
タイマまたは非時限ループ上で、リソースモニタは目標システムに接触することができる。その後、リソースモニタは、モニタリング動作の結果をリソースマネージャ165に報告することができる。
リソースの意図される供給および需要をモニタリングすることによって、リソースマネージャ165は、リソースの最適な配備を決定することができる。リソースマネージャは、個々の作業者に、自身を意図される需要に適合するように再構成することを求めることができる。
リソースマネージャ165は、次元リソースレベリングサイクルで動作することができる。時限期間(たとえば5分)あたり一度、使用されるリソースの量が、利用可能なリソースの量と比較される。使用されるリソースおよび利用可能なリソースの傾向の任意の差が、リソースの追加またはリソースのプールからの除去のような適切な改善をトリガするべきである。リソースの再構成はオーバヘッドを招くため、全体的なシステムが純利益を得ていることを保証するために、リソースマネージャ165によって再構成の影響が管理されることが必須である。このサイクルは、いずれのタスクが現在最も需要があるとしても、そのタスクにリソースが連続的に再配分されている、「フラッピング」をもたらすリソースの過度の収縮および膨張を回避するように設計することができる。
リソースマネージャ165はまた、既存の供給および需要だけでなく、可用性およびコストのような外部要因にも基づいてプールのサイズを調整することもできる。
リソースマネージャ165は、規則ベースの手法を使用して、各測定基準をその計算において適切に重み付けすることができる。規則は、動的に構成可能とすることができるが、利用可能な測定基準の存在および全体的な計算に対するそれらの値に基づいて測定および改良される。
リソースプール再配分のための1つのプロセスは以下の通りである。最初に、リソースマネージャ165は、観測下にあるサイクル期間の間に収集される適切な測定基準のセットを分離することができる。セットは、規則ベースの手法に基づいて定義することができる。リソースマネージャ165はその後、その測定基準セットから供給および/または需要を判定することができる。リソースマネージャ165はその後、既存の供給および需要に照らして現在のリソースプール配分を調べることができる。次に、リソースマネージャ165は、その供給および需要の計算に基づいて新たなリソースプール配分を計算することができる。加えて、リソースマネージャ165は、既存の作業者により必要なタスクを実施するよう求めることによって、新たな作業者を追加することによって、または、作業者をすべて除去することによって、新たなリソースプール配分に整合するように作業者を再構成することができる。新たな配分プールはその後、次の期間にリソースマネージャ165/スケジューラ160/ルータ155によって使用するために保存することができる。
リソースプールスケーリングについて、リソースマネージャ165は、閾値に基づいて現在のリソースプール配分が密になりすぎていないか、または疎になりすぎていないかを判定することができる(たとえば、90%を上回る時間80%の作業者が忙しい場合、さらなる作業者を追加し、または、50%未満の時間10%を下回る作業者が忙しい場合、プールから作業者を除去する、など)。需要が供給を上回っている場合、密になりすぎている。供給が需要を上回っている場合、疎になりすぎている。リソースプールが疎になりすぎている場合、リソースマネージャ165は、リソースプールを低減するための最適な値を決定することができる。リソースマネージャ165は、プールを低減するための新たなリソース配分を再配分し、この新たな配分に基づいて再構成するために作業者を雇用することができる。プールが密になりすぎている場合、リソースマネージャ165は、追加のリソースの外部コストおよび可用性を調べることができる。次に、リソースマネージャ165は、リソースプールサイズを増大するか、または、レート制限によって入来する量を低減することを選択することができる。レート制限は、大域的処理時間測定基準が満たされているときに行われる。リソースプール増大は、そうでないときに行われる。さらに、リソースマネージャ165は、プールを増大させるための新たなリソース配分を再配分し、この新たな配分に基づいて再構成するために雇用することができる。
リソースマネージャ165はまた、悪条件における動作を保証する目的を果たすこともできる。システムは、個々の作業者が一時的であり、リソースマネージャ165の制御によって、また外部要因に起因して現れる場合もあるし、また消える場合もあると仮定するように設計することができる。連続的な動作を保証するために、リソースマネージャ165は、そのモニタリングシステムを利用して、動作において生じる問題に対処することができる。リソーススケーリングおよび最適化のように、問題は、測定基準に適用される特定の規則セットによって定義することができる。この場合、測定基準は一般的に、その測定基準を報告するシステムが致命的な状況にある場合、内部で報告される測定基準は利用可能でない場合があるため、本質的に外部のものである。
リソースマネージャ165は、リソースプール内の継続的に働きの悪い資産を廃棄し、より良好に機能する資産をそれらと置き換えることができる。リソースマネージャは、問題の軽減において自動応答が有効でない場合には、手動介入のための警告を発することもできる。
リソースマネージャ165に、働きが悪く無策な資産について現在のリソースプールを調べさせることによって、自己回復を実施することができる。その後、リソースマネージャ165は、既存のプールリソースを使用して新たな配分を作成するか、または、プールをより大きくスケーリングして故障しているリソースを置き換えることができる。リソースマネージャ165は、新たなリソースに、古いリソースを置き換えるようにそれ自体を構成するよう求めることができる。リソースマネージャ165は後に古いリソースを廃棄することができる。
本発明のシステムは、統一データアクセス層135によってアクセスすることができるいくつかのタイプのデータストアを利用する。全体的なシステムの様々な要素は、データ整合性、持続性、性能、および完全性について異なる要件を有する。システムは、大規模文書ベースのストア(たとえば、ビッグデータ150)、関係型ストア145、ならびに持続的および一時的キャッシュ140の要素を利用することができる。スケールおよび回復力を達成するために、これらのシステムのすべてが、データの冗長性および水平共有を利用することができる。加えて、すべての要素がすべてのデータに対する完全で無制限のアクセスを必要とするとは限らないため、統一データアクセス層135は、データのセキュリティレベルについて様々な必要性を有し得る。
インフラストラクチャはまた、リソースに対するアクセスを一元管理するためのシステムをも提供することができる。インフラストラクチャによりこのシステムは、システムの各々がその特定の必要性を満たすことを可能にすることができ、インフラストラクチャは、これらの必要性を適切なバックエンドストアと一致させる。インフラストラクチャによって、システムが、アクセスを管理し、最適なアクセスのために使用状況をモニタリングすることが可能になる。加えて、インフラストラクチャは、作業者プロセスを実施するのに必要とされる要件を低減する抽象化層を提供することができる。
作業者およびシステムの様々な要素は、指定のAPIを通じて統一データアクセス層135にアクセスする。統一データアクセス層135は、テンプレート駆動型システムを使用して、基礎となるデータソースへのAPIコールの迅速なマッピングを可能にすることができる。APIは、主にRESTベースとすることができ、SSLおよび複数の形態の認証をサポートすることができる。
ほとんどのデータアクセスAPI動作は、データアクセスマネージャと称される構成要素によって管理することができる。データアクセスマネージャは、APIインターフェースの追加および除去をサポートし、バックエンドデータリソースの管理を処理し、サポートされているメカニズムを介したこれらのインターフェースへのセキュリティアクセスを管理することができる。
データAPIを作成するために、データアクセスAPIに対する特定の必要性を定義することができる。整合性、性能、および持続性に関するパラメータが定義され得る。セキュリティおよび機密性に関する要件も定義され得る。APIマネージャはその後、適切なバックエンドリソースを利用可能にするために、それらを設定することができる。その後、APIマネージャは、任意選択的な変換動作によって、バックエンドリソースをフロントエンドRESTコールとリンクさせることができる。
既存のデータAPIにアクセスするために、問題になっている構成要素は、データアクセスAPIサービスを求めるサービス検索要求を行う。位置特定されると、構成要素は、APIに問い合わせて、いずれのサービスをAPIが提供するかを判定することができる。サービス定義は、アクセスのパラメータ化、ならびに、それらのサービスにアクセスし、構成要素がAPIにアクセスするためのガイドとしての役割を果たすのに必要とされるセキュリティメカニズムに関する詳細を含むことができる。サービスがどこに位置するか、および、そのサービスにアクセスする方法を構成要素が知っているとき、所望のようにデータアクセスAPIに対するコールを行うことができる。フェイルオーバの場合、冗長なピアが要求をサービスすることができる。
統一データアクセス層135は、複数のバックエンドソリューションをサポートすることができる。この構成は、開発者が、プラットフォーム上で利用可能である場合もあるし、利用可能でない場合もある複数の紛らわしいドライバを使用して、複数のデータソースにアクセすることに関して迷うことを回避するのを助ける。バックエンドシステムは、回復力、性能、持続性、整合性、およびコストのような、それらにとって利用可能な条件セットによって定義される。
各バックエンドシステムについて、いずれのレベルにおいて上記の検討事項の各々を信頼可能に提供することができるかが明らかでなければならない。データアクセスは必要とされる所望のレベルを提示することができる。許容可能な条件の特定のレベルを、API要件において提示することができる。これは、いずれのバックエンドシステムがこれらの要件を効率的に満たすことができるかを定義する。所望の目標を達成することができるバックエンドシステムがない場合、アプリケーションが、劣化したレベルにおいて動作し得る(その期待を低下させる)か、または、問題になっている基準を満たすことができる新たなバックエンドデータソースが配備され得るかのいずれかである。
回復力は、ストレス下で動作し続けることができる能力として定義することができる。任意のバックエンド構成要素が、その動作能力の様々な部分を失うことが可能であるべきであり、残りの部分にわたって負荷を調整するように効率的に適合することが可能であるべきである。妥協される要件としてある程度のデータ損失があり得る。
性能は、データを送達または書き込むことができる速度として定義することができる。いくつかの特に複雑なデータアクセス動作は、長く続く可能性があり、即時の応答は要件ではない。他の動作は、アプリケーションの実行可能性を保証するために特定の応答時間を必要とする。
持続性は、復元可能な状態に維持されなければならない必要とされる時間量、および、データのサイズとして定義することができる。この期間は、分単位から永遠までであり得、データサイズ要件は、バックエンドデータストアを適切に計画およびスケーリングするのを助けるのに必要である。
整合性は、サービスグループ分けの中のすべてのノードが正確に同じ結果を与えることを保証することとして定義することができる。整合性は、特定のクラスタリングおよび複製動作ならびにクラスタリングされたノード間のネットワーク距離によって影響を受け得る。整合性のないシステムは、すべてのノードが同じであることを保証することを気にかけない。整合性が高いシステムは、すべてのノードがほぼリアルタイムで同じデータを有することを保証するよう試行する。一般的な実践は、「結果整合性」のものであり、ここでシステムは、整合性の規定の平衡に達するが、規定の期間については保証しない。
クエリインターフェース110は、外部エンティティが、既に処理されているサンプルに関して質問することを可能にする、全体的なシステムの一般的な構成要素である。クエリインターフェース110は、外部システム105とシステムの蓄積された知識との間の主要な接点としての役割を果たす。効率の高い様式で質問に回答することが意図されている。クエリインターフェース110は、既存の回答を有する質問にのみ回答する。クエリインターフェース110が既存の回答を有しない質問は、さらなる分析のために収集インターフェース115に渡される。
クエリインターフェース110は、REST APIを利用することができる。このREST APIは、クエリインターフェースが、SSLを介したセッション暗号化を利用することを可能にし、様々な認証オプションを提供する。
クエリインターフェース110は、サンプルに関する特定の許容可能なメタデータに基づいて質問に回答するように設計することができる。これによって、サンプル全体を転送する必要なしに質問が尋ねられることが可能である。これは、サンプルが大きく、複雑で、または直接利用可能でないときに有用であり得る。
クエリインターフェース110は、統一データアクセス層135の上の特殊化された層であり得る。クエリインターフェース110は、APIを介した外部要求を解釈して統一データアクセス層135に対するクエリにすることができる。このアクセスを介して回答することができない要素について、クエリインターフェース110は、クライアントが収集インターフェース115にアクセスするための詳細を提供して、追加の情報を得るための経路を提供することができる。
図2は、クエリインターフェース110に関係したプロセスフロー図200を示す。最初に、205において、外部開発者が、自身が特定のサンプルセットを問い合わせることができることを必要としていると判定することができる。開発者はその後、アクセスに必要とされる特定のメタデータを定義することができる。その後、210において、クエリインターフェース110は、統一データアクセス層のビューの適切なセットをそのデータストア内に実装することができる。クエリインターフェース110ドキュメンテーションは、開発者に、開発者が要求するサンプルセットについてのクエリインターフェースAPIエンドポイントの仕様を通知することができる。ドキュメンテーションはまた、必要とされる認証および暗号化に関する適切な詳細も提供する。その後、215において、開発者は、自身のクライアント内に適切なクエリインターフェースAPIを実装することができる。
開発者のプログラムはサンプルに関する特定に情報にアクセスすることを必要とするため、クライアントは、220において、質問を含む適切なメタデータを送信することができる。その後、225において、クエリインターフェース110は、統一データアクセス層135をチェックすることができ、230において、回答によって応答し、または、回答が利用可能でない場合、235において、収集インターフェース115にアクセスする方法に関する適切な詳細によって応答する(すなわち、提出するか尋ねるなど)。
収集インターフェース115を含む収集フレームワーク構成要素は、規定の経路が、分析および知識の増大のためにシステムに対するデータサンプルを得ることを可能にする。これらのサンプルは、分類として最高に構成されたモデルに基づいて即値を提供する情報片としての役割を果たす。これらのサンプルはまた、類似度分析機能も提供し、提出されたサンプルが既存のサンプルの間のコンテキストに置かれることを可能にする。
収集インターフェース115は、システムへの入力に対する主な外部経路として、クエリインターフェース110を補完する。収集インターフェース115は、システムが、入力のためのサンプルを提供し、出力としての応答を受信するためにインターフェースされることを可能にすることができる。収集インターフェース115は、一連のREST APIインターフェースを介してこれを行うことができる。これらのAPIインターフェースは、公衆または私的のいずれかとすることができ、SSLおよび様々な種類の認証をサポートすることができる。
サンプルは、2つの一般的な方法のうちの一方において収集することができる。サンプルは、システム内で定義される能動的収集メカニズムを使用して「システム内にプルする」ことができる。代替的に、それらのサンプルは、任意の収集インターフェースAPI互換ソリューションを介してシステムに「プッシュ」されてもよい。能動的および受動的収集の組み合わせによって、システムは、サンプルを採集し、非常にライトタッチな方法で既存の製品に組み込むことを可能にする。
収集インターフェース115は、意図しない再処理の発生を低減するためのメカニズムを利用することができる。収集インターフェース115は、既存の結果の基本的で複雑なキャッシング、および、サンプルの現在の存在および知覚される適切性のような規則に基づいて提出を受容または拒絶するように調整することができる提出メカニズムを提供することによってこれを行うことができる。
収集インターフェース115は、一般的なインフラストラクチャによって提供されるリソースマネージャ165に統合することができる。この統合から、収集インターフェース115は、目標を満たすための入力のレートを調整することができ、事前構成のAPI優先度または能動的収集における動的レート調整のような、様々な要因に対する優先権を与えるサンプル提出の優先順位付けをもたらすことができる。これによって、全体的なシステムフィードバックを利用した提出レートの動的な最適化を可能にするための基本的な方法がもたらされる。これはまた、既存のリソースプールを拡大または縮小する代わりに既存のリソースプールに対する圧力を軽減するのを助けることもできる。サンプルが受動的または能動的のいずれかで収集されるとき、収集インターフェース115は、サンプルを処理のために適切なワークフローシステム内にプッシュすることができる。
能動的収集は、収集フレームワークが、提出のためのサンプルの能動的な収集を管理することができるプロセスをもたらす。これは、収集インターフェース115を介して収集を管理およびスケジュールすることができるようにすることができる。これは、所望に応じてレートを動的に調整するために既存のリソースマネージャ165からのフィードバックを使用する利点を追加する。
アクティブコレクタは、特定の期間において何らかの動作を行うサブシステムである。能動的収集フレームワークは、アクティブコレクタが何を行うことができるかを規定する規則を管理することができる。加えて、能動的収集フレームワークは、コレクタの定期的な実行をサポートするために既存インフラストラクチャスケジューリングシステムと協働するメカニズムを規定することができる。この期間は、時間枠あたり(たとえば、30分おきに)1回、時計/カレンダー時間あたり(たとえば毎週月曜日午後1時)1回として、または連続的に規定することができる。スケジューラ160は、正確な期間に適切なタスクが作業者に発行されることを保証することができる。
コレクタが何を行うことができるかを規定する規則は、様々な使用事例をサポートするために複雑かつ柔軟であり得る。コレクタは、内部コードがその期間で実行されることを可能にし、外部プログラムが実行されることを可能にし、またはさらには、その期間でAPIコールを行うことを可能にすることができる。
アクティブコレクタは一般的に、クエリインターフェース110とインターフェースするのではなく、統一データアクセス層135に直接アクセスすることができる。これらの要求はシステムの外部に由来するものではないため、一般的に、サンプルの現在の状態に関する知識およびシステムがそのサンプルについて有している関連知識に対する必要性が少ない。
図3は、アクティブコレクタのためのプロセスを示す図300である。最初に、305において、開発者は、能動収集方法を定義および構築することができる。収集フレームワークは、開発者が310において提供することができる能動収集の期間(時間範囲あたり1回、設定反復固定時間あたり1回、または連続のいずれか)を規定する規則が書き込まれることを必要とし得る。加えて、315において、開発者は、能動収集がどのように収集されるかのような収集の規則を設定することができる。完了すると、320において、収集フレームワークは、適切な期間においてタスクを導入する(すなわち、アクティブコレクタを適用する)ようにスケジューラ160を管理することができる。次に、325において、スケジューラは、適切な期間にアクティブコレクタのための必要とされるロジックを実施する。
1つのタイプの能動収集は、ウェブ巡回インフラストラクチャを利用することができる。このウェブ巡回インフラストラクチャは、一般的なまたは特殊化されたウェブ巡回が、分析のためのウェブ上の適切なサンプルを発見するよう試行することを可能にすることができる。一般的なウェブクローラは、標準的な方法でHTMLページを処理することができる。ウェブクローラは、HTMLを構文解析し、適切なサンプルを作成するリンクおよびリソースを位置特定するよう試行し、それらのサンプルをシステム内にプッシュする。
特殊化されたウェブ巡回は、その範囲が限定されているものであり得、特定の技法を使用してより適切なスキャンを行う。たとえば、特殊化されたウェブスキャンが、特定のサイトに対して実施され、そのサイトに対して調整され得る。このウェブスキャンは、クエリをより効率的にするために以前に収集された情報のようなサイト特有の詳細を組み込むことができる。
別のタイプの能動収集は、インフラストラクチャの統一データアクセス層135内でまたは任意の利用可能な外部データストア内のいずれかで複雑なクエリを任意に実行することを含むことができる。すべての能動収集メカニズムのように、これは特定の期間で行われる。
期間が実行を規定するとき、能動データストアコレクタは、適切なデータストアに接触して、処理されるべきデータを収集することができる。能動データストアは、個々にまたはバルククエリを介してこれを行うことができる。
受動収集は、新たなサンプルをオンデマンドな方法による提出に対する外部アクセスの許可を促進することができる、収集インターフェース115のサブシステムである。一般的に、受動収集は、クエリインターフェース110とともに使用することができる。受動収集は、サンプルが提出されることを可能にする特定のAPIを提供することができる。このAPIは、サンプルの既存の知識が失われている、不完全である、または他の様態で利用不可能であるときに一般的に有用であり得る。そのようなAPIは、翻って、セッション暗号化のためのSSLをイネーブルし、所望のレベルの認証およびアクセス制御を保証するための様々な認証メカニズムを提供するREST APIとすることができる。
受動収集インターフェースAPIは、一般的に3段階で動作することができる。第1に、受動収集インターフェースAPIは、システムがサンプルの提出を受容する準備ができていることを確認することができる。システムがサンプルを所望する場合、受動収集インターフェースAPIは、サンプルをどこに置くべきかに関する詳細を提供する。最後に、受動収集インターフェースAPIは、サンプルが適切な場所に置かれていることの確認を待つ。
上記システムは、構成可能なアップロード方法を可能にさせる。受動収集インターフェースAPIからの元の応答が、任意の制約または警告とともに、サンプルがどこにアップロードされるべきかを規定する。これは、単純なHTTPアップロード、FTPもしくは他の公的に利用可能なURIに対する参照、または、サンプルタイプおよび受動収集インターフェースAPIのこのインスタンスの仕様によって規定されるような、完全に他のシステムであり得る。これによって、アップロードのプロセスが適切にオフロードされ、最良に適する複数のタイプのサンプルに抽象化されることが可能になる。
パッシブコレクタを開発するために、開発者は、既存の製品またはシステムから受け入れることを所望する要素を考慮することができる。開発者は、自身の既存の製品またはシステム内に収集提出クライアントAPIを実装することができる。この実装は、提出APIエンドポイントが使用すべきである構成、および、必要に応じて任意の認証情報を必要とする。通常製品動作の間、提出が収集され得る。各提出は、収集提出APIに送信され得る。収集提出APIは、サンプルの現在の知識に基づいて分類および類似度分析を決定し、それらの結果を返すことができる。追加の詳細が分析に必要とされる場合、提出APIは、これらの詳細を要求するための追加の機能を提供することができる。開発者のためにこれらの詳細を提供するのに失敗した場合、その結果として、分類および類似度分析に関する信頼スコアが低下することになる場合がある。
図4は、受動収集APIへのアクセスの図400である。クエリインターフェースは最初に、405において、受動収集APIに関する詳細をクライアントに提供する。その後、410において、外部クライアントエンティティが、受動収集インターフェースAPIにサンプルを提出するよう求める(すなわち、提出を要求する。これは内部で、クエリインターフェースAPIと対にすることができる。次に、415において、受動収集インターフェースシステムは、特に指定されている基準(以前の存在、既存の知識の経過時間など)に基づいてサンプルの提出を所望するか否かを判定することができる。受動収集インターフェースシステムは、サンプルを所望する場合、肯定的な応答およびサンプルをどこに「置く」べきかに関する詳細によって外部クライアントエンティティに応答し、そうでない場合、420において、クライアントは否定的な応答を受信する。サンプルタイプに応じて、これは、様々な選択肢のうちの1つになり得る。外部クライアントエンティティは、425において、サンプルを正確な場所に「置く」ために必要な動作を実施することができる。外部クライアントエンティティはその後、430において、確認を受動収集インターフェースAPIに提出することができる。確認に成功すると、受動収集インターフェースシステムは、435において、さらなる処理のためにサンプルを適切なワークフローに配置する。
抽出構成要素120は、サンプルを突出したデータ点、または、分類および類似度分析に使用される「特徴」に変換する目的を果たすことができる。抽出構成要素120は、高度にスケーラブルな並列処理分散システムを使用してこの情報を抽出することによってこれを行うことができる。抽出構成要素は、インフラストラクチャ動的ワークフローシステムを通じて処理される一連の作業者クラスによって定義することができる。これらの作業者クラスは、サンプルタイプごとに開発することができ、システムがスケーラブルに拡大することを可能にすることができる。これらの作業者クラスは、追加の抽出作業者が実行時に動的に追加および除去され得ることを保証するために、ワークフローシステム内のDAGルータ155によってともに効率的に連結することができる。
各作業者クラスは、何らかの抽出特徴セットを表すことができ、特定のサンプルタイプと関連付けることができる。システムは、サンプルの動的な分類を使用して、サンプルごとに正確な動作が実施されることを保証することができる。システムは、インフラストラクチャルータ155およびスケジューラ160を使用することによって、これを達成する。ルータ155は、サンプルが適切に処理されることを保証することができる。スケジューラ160は、サンプルが適時に処理されることを保証することができる。
リソースマネージャ165は、各クラスの作業をオンデマンドで計画されているように実施するのに利用可能な適切なリソースがあることを保証することができる。各作業者クラスは、リソースマネージャ165によって管理されることを必要とするリソースを表す。
作業者クラスは、システムが手元にある機能を理解するのを助けるために、ルータ155および他のインフラストラクチャシステムに登録する。作業者クラスは、登録すると、ルータ155に提供することができる特徴セット、ならびに、ルートと各ルートの関連する前提条件および条件事項とのセットを提供する。各ルートは、デフォルトルート(他のルートが選択されていないときにとられるルート)または指定ルートのいずれかであり得る。各指定ルートは、選択されるために満たされなければならない一連の条件を有する。これらの条件が(サンプルの蓄積された特徴に基づいて)満たされる場合、この指定ルートが選択される。異なる条件を有する複数の指定ルートが存在し得、複雑なルーティング状況が可能になる。ルーティングの優先度は、作成時のルートの順序付けに内在する。
抽出構成要素120は、プロセスにおいて動的に規定されるルーティング条件の動的なセットを使用することができる。サンプルがルータ155によって割り当てられるようにワークフローを誘導すると、抽出構成要素120は、サンプルプロファイルに追加の情報を追加することができ、より深い詳細をもたらすより特化された作業者クラス動作が実行されることが可能になる。
図5は、特徴を抽出するプロセスを示す図500である。最初に、505において、ルータ155は、作業項目を作業者待ち行列内に置くことができる。各作業項目は、抽出を実行するための1つまたは複数のタスクを含むことができる。その後、510において、作業者は、作業者待ち行列から作業項目を受け取り、515においてこの作業項目を処理する。タスクの処理に成功した場合、520において、実施すべきステップ/タスクがあるか否かが判定される。タスクの処理に成功しなかった場合、作業項目(またはその一部分)は、作業者待ち行列内に戻すことができ、プロセスは反復する。新たなステップがないと判定される場合(520において)、525において、抽出が完了し、新たなステップがある場合、ルータ155は作業項目を次のステップに送る。タスクはサンプルに対して実施される1個の作業であり、ステップは、実施されるべき次のタスクまでのルートである。グラフ理論において、タスクはノード(または頂点)と考えられ、一方でルートはエッジである。
この処理は、プロセス中に収集された以前の知識に基づいて調整する動的分類システムによって行うことができる。この知識の存在は、ルータによって使用される逆向き推論有向非巡回グラフを作成するのに使用される要因の1つである。これによって、ワークフローの任意の時点において決定を行うのに必要とされる情報が、必要とされるときに利用可能であることが保証される。
この構成は、一般的に、作業クラスごとに前提条件および条件事項要因のセットを規定する。前提条件は、ルータ155によってルーティング決定が行われ得る前に存在する必要があるデータ点を規定し、条件事項は、ルーティング決定に対して突出した特徴である。加えて、条件事項は、外部APIコールのような、非特徴ベースのデータに対して実施され得る。
動的分類ベースのルートは、開発者が、最初に、適切な決定を実施するのに必要とされる条件を規定することによって指定することができる。その後、開発者は、いずれの特徴が条件事項を満たすために必要とされるデータを提供することができるかを判定し、これらの特徴を前提条件としてマークすることができる。開発者は後に、この作業クラスが提供することになる特徴を規定することができる。ルータ論理システムはその後、必要とされる前提条件、条件事項、および提供されるデータ点に基づいて有向非巡回グラフを計算することができる。ルータ論理システムは、このデータに基づいてワークフローのための最適なモデルを構築することができる。
作業者クラスは、ルータ155によって構築および維持される有向非巡回グラフに基づいて、動作の新生の「チェーン」を形成することができる。チェーンは、特定のサンプルからすべての利用可能な特徴を最適に抽出するのに必要とされる動作を規定することができる。ワークフローはプロセス中に規定されるが、幾つかのチェーンは一貫して特定のタイプのサンブルに一致する。
チェーンは、遷移の数およびタイプを低減するためにローカルに最適化することができる。リソースマネージャ165は、部分的なチェーンおよびチェーン全体を単一の計算リソースに配分することによってこれを行うことができ、動作が最小限の転送時間で効率的に行われることが可能になる。この構成は、並列分散システムにおいて強制的にデータが移動させられるようにするのに関係するオーバヘッドを低減することができ、システムがもたらすスループットを大きく増強する。この構成はまた、特定の処理エンクレーブの作成も可能にすることができ、これは、特定のサンプルタイプが異常な使用構造を有する(すなわち、相当量もしくはリソースを使用するか、または、処理に長い時間がかかる)場合に特に有用である。
チェーンは、継続的に測定および最適化することができる。この構成は、システムからの進行中のフィードバックに基づいて自動および手動の両方の調整を可能にすることができる。どのようにチェーンが機能するかが分かることによって、リソースマネージャ165に、予期されるチェーン使用の確率に基づいてリソース利用を最適化および予期するためのより良好な知識がもたらされる。リソースマネージャ165はまた、特定のチェーンが性能過多または性能不足であるかを判定し、その大域的リソース使用配分を適切に調整するためにリアルタイムチェーン測定基準を利用することもできる。頻繁に使用されないチェーンは、低減することができ、多用されるチェーンにリソースが割り当てられるようにすることができる。
新たなサンプルタイプを考慮すること、および、既存のサンプルタイプにさらなる深度を追加することの両方のために、新たなチェーンを継続的に追加することができる。これによって、全体的なシステムが、サンプルの分類および類似度分析のための新たなモデルを改良および考慮するのに利用可能な新たな情報源を得る。
分類器構成要素125は、既存のモデルに対してサンプルから抽出される特徴を分類するための方法を提供することができる。分類器構成要素125はまた、規定の類似点にわたる類似度分析も提供することができる。分類器構成要素125は、分類を行うことに焦点を当てられている独立した作業者クラスとして動作することができる。抽出構成要素120のように、分類器構成要素125は、ルータ155がルーティング決定を介してサンプルをプッシュすることができる有向非巡回グラフ内の新生のチェーンを作成することができる。加えて、抽出器のように、これらのチェーンはサンプルタイプに特有とすることができ、分類における大量の特殊化が可能になる。この特殊化の或るものは、個々のサンプルと関連付けられる特定の特徴セットに関連することになる。
分類チェーンは、抽出作業者、または分析作業者と同様に動作する作業者セットを含むことができる。当該作業者の目的は、特に、分類を作成し、特徴のような内部データおよび外部分類システムからのデータのような外部データに基づいて追加の分類ロジックを実施することであり得る。一般的に、内部分類は、部分的または全体的に、機械学習アルゴリズムを具現化する専用の分類器の出力に基づくことができる。機械学習を利用しないものでさえ、モデルの知識の現在の状態を最良に表すために最適な集約アルゴリズムを測定するために使用されるため、その出力から直接に受益する。
分類器構成要素125は、ルータ155およびスケジューラ160を利用して、ルートの優先順位付けおよび最適化の固有の態様のすべてに従うことができる。加えて、分類器構成要素125は、リソースマネージャ165内で動作することができ、より多くのリソースを分類器作業者クラスに配分することによって、レートがリアルタイムに調整されることが可能になる。
分類のように、すべてのサンプルの集団の代表的なサンプリングに対して訓練された分析モデルを使用して類似度分析を実施することができる。同様のチェーンが、大規模な有向および無向類似度分析を処理することができる。一般的に、有向類似度分析は、高度に有用な出力を提供することができる。無向類似度分析は、集団に対する同一性を探索し、基本的に、以前に見た任意のものと異なるサンプルを識別するよう試行するのにより使用される傾向にある。各類似度分析は、時間およびモデル依存であり得る。新たなモデルおよび集団内の異なるサンプルセットを有することによって、類似度分析が再計算されるようになり得る。
類似度分析は、適切に異常な「外れ値」を検出することもさらに可能にすることができる。これらの外れ値は、問題になっているモデルが依然として能動的に範囲内にあることを判定するのに有用であり得る。外れ値検出のレートが増大する場合、集団内に最新タイプのサンプルを組み込むために、使用されているモデルが再評価され得る。
すべての必要な要素が以前のデータストアから収集またはロードされたときにサンプルが分類の準備ができていることを決定するルータ155によって、分類を行うことができる。その後、ルータ155は、サンプルを適切な分類器チェーンの先頭にシフトすることができる。その後チェーンを実行することができ、最終的な分類スコアを計算することができる。分類器チェーンは、統一データアクセス層135とインターフェースすることができ、それによって、分類の結果を記憶することができる。この時点で、サンプルの分類が将来の問い合わせおよび他の場所における使用のために利用可能になる。
すべての必要な要素が以前のデータストアから収集またはロードされたときにサンプルが類似度分析の準備ができていることを決定するルータ155によって、類似度分析を行うことができる。その後、ルータ155は、サンプルを適切な類似度分析チェーンの先頭にシフトすることができる。その後チェーンを実行することができ、類似度分析スコアのセットを計算することができる。無向類似度分析は、人間によって意味を推測するために検討可能な領域内に記憶することができる。類似度分析チェーンは、統一データアクセス層135とインターフェースすることができ、それによって、有向類似度分析の結果を記憶することができる。その後、サンプルの類似度が将来の問い合わせおよび他の場所における使用のために利用可能になり得る。
分類器作業項目は、集約分類の使用をサポートすることができる。これらのタイプの分類は、以前に計算された分類の上に構築される層であり得る。初回通過分類において、サンプルは、いくつかの個別化した分類スコアを受け取ることができる。第2の段階は、特定の必要性に適合するために有効な集約分類スコアを最良に計算するための追加の論理が定義されることを可能にすることができる。
多段分類器を使用することによって、最小限のリソース利用で高い速度および容量における完全なおよび部分的な再分類を可能にすることができる。スケジューラおよびルータを活用することによって、多段分類器内の要素が失われるか、不完全であるか、または最新でない場合に、それらの失われた要素を埋め戻すことができる。これらの計算は、処理中に実施することができ、各分類決定に関する最新で最も完全な概念を使用することが可能になる。
システムは、モデルを使用して、サンプルに関する分類および類似度分析の疑問に回答することができる。分類器を駆動するそのようなモデルを規定、開発および構築することができる。これらのモデルを有効にするために、モデル生成のコストを最小限に抑え、コストおよび正確さについて最適化する必要がある。モデルは、機械学習技法に基づく確率行列を含むことができる。これを行うために、サンプル集団からサンプルの訓練セットを抽出することができ、モデルを生成するのに使用することができる(すなわち、将来のデータセット/サンプルなどを特性化するために履歴データを使用してモデルを訓練することができる)。その後、(サンプルセットを含まない)大規模な有効性検証セットに対してモデルをバックテストすることができる。モデルが有効であると判定されると、モデルは分類器のために製品使用にのせることができる。
サンプルは適度な標準分布を有するため、集団全体のうちのサブセットをほとんどの場合、使用することができる。このため、十分に大規模な集団全体、および、集団の十分に大規模なサブセットを、ランダムに選定される訓練に使用する結果として、サンプルの適正な表現が全体としてもたらされる。サンプルのシステムへの進行中の提出に起因して、サンプルセットおよび訓練セットの数は継続的に増大し得る。この構成は、特殊化された分類器においてより良好な分析を実施するためのサブモデルが構築されることを可能にするのに十分な密度を有する反復モデルが構築されることを可能にする。
すべてのサンプルが機能的に等価であると考えることは有用であるが、以上に一般的な類似度から非常に特定的な類似度へと動くときには論理的な勾配があるというのが現実である。システムは、これらの分離をさらに改良するのに有用なサブモデルを作成するために試験および試行することができる。モデル自体が、結果として、基本レベルの非常に一般的な特徴が比較されることを可能にすることができ、結果としてより特定的な特徴が、一般的に類似したタイプのサンプルに対して比較されるようにすることができる多段分類器をもたらすことができる。
モデル生成システムは、干渉しないように設計することができ、内部測定を使用することによって、最適なモデルを作成するよう試行することが可能になる。これは、成功する基準および失敗する基準を規定し、特定のタスクに対するモデルの適切性を測定および比較するための方法を発見することを含む。
図6は、一般的モデル生成のためのプロセスを示す図表600である。最初に、605において、サンプル集団の完全な調査を行うことができる(「集団全体」と称され得る)。その後、610において、ランダムなサブセットが訓練セットとして機能するために選択され得る。加えて、615において、集団の第2のランダムなサブセットが全体の残りから検査セットとしての役割をはたすために選択され得る。次に、620において、機械学習分類技法を訓練セットに適用することによってモデルが生成され得る。訓練セットは処理されて数の大きなベクトルにされ、これらのベクトルが、ロジスティック回帰、ニューラルネットワーク、サポートベクタマシン、および、一連のモデルを生成するようにカスタム調整された変数を有する決定木組み合わせを含む様々な機械学習アルゴリズムにおいて使用される。モデルは、一般的なシステムに於いて使用するための最終段階モデルを生成するためにさらに検査および改良される。その後、625において、生成されたモデルを検査セットに対して検査することができ、任意選択的に、信頼区間を計算することができる。信頼間隔は、既存のモデルに対して比較されて、適切性が判定され得、モデルが失敗して610〜625が反復されるようにするか、または、(630において)モデルを発行するかが判定され得る。
訓練セット生成器は、全体的なサンプル集団から訓練セットのためのサンプルを選択するにあたっての任意の特定のバイアスを低減するよう試行するように構成することができる。訓練セット生成器は、集団から訓練サンプルをランダムに選択することによってこれを行うことができる。
サブモデルは、一般的なセットに対して比較されたときのタイプのバイアスを仮定し、そのため、サブモデルが、当該サブモデルが代表的になり得る適切なサンプルに対してのみ比較されることが重要である。これは、サブモデルが集団全体のサブセットに対して作成されるためである。サブモデルを生成するためには、特定の基準を一次フィルタとして適用することが重要である。サンプル選択および将来の分類の両方について、この一次フィルタが均一に適用され、このポストフィルタ結果からサンプルがランダムに選択される限り、少なくともサブモデルに関係する項目の範囲内でバイアスがさらに導入されることはない。
サンプルの分布は正確に「正規」ではない場合があるため、統計的目的から、個々の訓練セットは完全に代表的でない場合がある。これに対処するために、システムは、特定のモデルの分散が過度にバイアスされないことを保証するために、訓練セットサイズを増大させ、複数回の反復を実行するよう試行することができる。
反復モデルは、適切性に基づいて好ましい特徴にさらなる重みを追加することができる。反復の回数を増大させることによって、特徴セットの重みの有効性の信頼度を得ることができ、結果として、全体的な分類器がより強固になる。
モデルは、利用可能な特徴の何らかのサブセットを使用して、分類モデルを生成することができる。突出した特徴の数は経時的にさらに大きくなる可能性があり、訓練セットはさらに大きくなり得るため、生成プロセスを最適化しようとする試行において考慮される特徴のセットを低減することが望ましい場合がある。特徴を切り詰めるプロセスは反復的に行うことができる。特徴のセットを、モデルに好影響を与えるセットに低減することによって、セットは、分類におけるオーバヘッドを劇的に低減することができる。反復ごとに、(適合度関数に基づくものとして)脆弱なスコアをもたらす特徴は後続する反復において落とされ得る。全モデルは切り詰められた/低減されたモデルよりも正確であり得るため、これは任意選択のステップである。
サンプルからの特徴のサブセットがないこと、または、特徴の完全なセットを観測することができないことのいずれかに起因して、サンプルの観測される特徴のセットは、特徴空間全体のサブセットであり得る。様々な特徴サブセットのサンプル間の統計的比較を可能にするために、システムは、たとえば、サンプルサブセット内にない特徴の推定特徴を生成し、存在しない特徴を比較のために有効な特徴として規定し、または、特徴空間は直接比較されない抽象レベルにおいてサンプルを比較するためにマルチモデル手法を利用することができる。
上記で述べたように、モデルは、任意の形態の教師あり学習を使用するために効率的に訓練することができる。これを行うためには、高い信頼度において分類が分かっているかまたは推測されるデータセットがコンパイルされなければならない。この訓練は、様々な方法によって行うことができる。これは、手作業で有効性検証され得るか、または、いくつかのコンテキストにおいては機械生成され得る。
教師なし機械学習は訓練を必要としないが、その出力において変動がはるかにより大きくなり得る。システムが本質的に探索的であるように設計される場合、訓練セットはセット全体であると判定され得る。
類似度分析は、必ずしも訓練を必要とするとは限らない。類似度分析は、以前に分類されたサンプルを利用して、問題になっている類似性をカテゴライズし、それらのサンプルの適切性を判定するのを助けることができるが、これすらも必須ではない。分類は、観測される類似性からコンテキストを判定しなければならないのと対比して、検出され得る類似性の上にコンテキストを重ねることを可能にする。
適切性のレベルに基づいてモデルを有効性検証することができる。この意味における適切性は、他の事実を伴う、モデルの正確さである。システムは、適切性を規定する基準のセットを定義することを可能にすることができる。これは、システムによって生成されるモデルが最低限の基準を満たすことを保証するための最低点として使用することができる。同じデータを以前のモデルと比較することによって、さらなる適切性基準を獲得することができる。一般的に適切性は、分類の正確さとして定義することができる。この正確さは、正確な回答および不正確な回答の測度およびタイプによって考えることができる。システムはこれらのレートを相対的に考慮するため、これは、複数のクラスが考慮されるときはより複雑な動作であり、標準的な確度試験に加えて、意図される結果に対する複数の近密度を実施することを選択することができる。
サンプルは、以下の4つのカテゴリのうちの1つに分類することができる(サンプルごとまたはクラスごとに計算される)。
1.真陽性−サンプルはその分類に属し、モデルはそのサンプルをそこに配置している。
2.真陰性−サンプルはその分類に属せず、モデルはそのサンプルをそこに配置していない。
3.偽陽性−サンプルはその分類に属せず、モデルはそのサンプルをそこに配置している。
4.偽陰性−サンプルはその分類に属し、モデルはそのサンプルをそこに配置していない。
目標は、クラスごとに真陽性を最大化することである。誤り率は、偽陽性および偽陰性に対する許容誤差を考慮する。モデルに対する様々な調整を使用して、これらの誤りレベルの低減を改善またはさらに最適化することができる。
適切性に対する基準を満たすモデルが生成されると、集団全体にわたってさらなるバックテストを計算することができる。このバックテストは、集団全体に対するサンプルのより包括的な分析をもたらすことができる。完全なバックテストが、訓練セットにおいて計算されるものとしてのモデルに類似の適切性特性を実証し、適切性が基準を満たす場合、この時点において、モデルは確認され得る。モデルが確認されると、集団内の各サンプルの分類を、統一データアクセス層135を介して更新することができ、分類器構成要素125を介して新たなモデルを積極的に関与させることができる。
一般的モデルは、いくつかのより小さい特定的事例の計算を必要とする。これらのモデルは、モデル全体の、その元々の生成中の部分として定義することができる。これらのサブモデルは、主モデルに非常に類似したプロセス全体において、より小さいデータセットおよび特徴セットのみについて動作する。一般的モデルは、特定の特殊化された基準について複数のサブモデルに適応することができる。各サブモデルは、同様の反復的様式で生成されるべきである。サブモデルの最終結果は、サブモデルがその評価においてまったく完全であると判定されない限り、主モデルにおいて参照されるべきであり、その場合、これがこのタイプの分類について主モデルに取って代わる。
以下のように複数のモデルを生成することができる。必要とされる各サブモデルについて、適切な全体の集団を選択することができる。その後、サブモデル集団からランダムな訓練セットを選択することができる。加えて、サブモデル集団からランダムな検査セットを選択することができる。次に、適切な訓練セットに基づいてモデルを生成することができる。新たなサブモデルの適切性を、定義されている基準および以前のモデルに対して反復的に検査することができる。正確なモデルが達成されると、このモデルは、一般的モデルとともに発行され得る。
図7は、プロセスフロー図の図表700であり、705において、データサンプルが有向非巡回グラフのような有向グラフ内に置かれる。有向グラフは、データサンプルを処理するのに使用される各特定の作業者クラスの作業項目の待ち行列を形成する複数の階層ノードを含む。その後、710において、作業項目は、有向グラフのノードをトラバースすることによって、複数の作業者の各々の待ち行列内でスケジュールされる。その後、715において、作業項目が待ち行列に従って、作業者に供給される。結果は、後に720において、それらの作業項目の作業者から受け取ることができる(有向グラフのノードが、受け取られる結果に基づいてトラバースされる)。加えて、いくつかの変形形態では、725において、結果を分類することができ、それによって、730において、1つまたはモデルを生成することができる。
本発明の主題は、データを分類または他の様態で特性化する必要がある多くの異なる用途にわたって利用することができることが諒解されよう。一例において、このシステムは、特定のコンピュータファイルが悪意(オペレータまたは基礎となるコンピュータシステムに害を与える意図)あるものである可能性の判定を行うのに使用することができる。この状況において、システムは、コンピュータ上のファイルを表すサンプルによって定義することができる。これらのファイルは、通常のプログラム実行ファイル、データファイル、またはコンピュータ上の任意の他のタイプのファイルとすることができる。分類システムは、可能性のあるサンプルの「良さ」および「悪さ」をモデル化するように(たとえば、既知の結果による履歴ファイル分析を使用して訓練されている1つまたはモデルを使用して)調整され、サンプルが実行された場合にコンピュータに害を与え得るものである確率を伝達する。モデルは、(たとえば、既知の結果による履歴ファイル分析を使用して訓練されている1つまたはモデルを使用して)サンプルから抽出される特徴セットから作成される。これらの特徴は、いくつかの分析段階を通じたファイルに関する測定値およびその内容を含むことができる。いくつかの例示的な特徴は、ファイルサイズ、情報密度、ファイルの構造レイアウト、ファイルのタイプが何であるかに関する特定の要素(プログラムのプログラムセクション名、文書の著者詳細など)を含む。特徴は、システム内の特徴として表すことができるいくつかの層のより深い分析をも含むことができる。これは、命令を模倣的に解釈することを含む、深いテキスチャ分析またはコード解析を含み得る。
本発明の使用の別の例は、X線処理のような、生物医学用途において画像分類を解決することである。サンプル分類は、画像内で癌性増殖が存在する可能性であり得る。このシステム構成において、サンプルは、高解像度画像フォーマットコンピュータファイルに含まれる個々のX線画像によって表される。これらの画像は処理され、向き、サイズ、明暗差、および線形性を含む特徴ベースのデータが収集される。これらの特徴は、特定の画像内で検出されている癌性増殖の存否を予測し、それらの増殖を研究者または医師に対して強調するための強力な能力を提供するモデルを作成するのに使用される。
本明細書に記載されている主題の1つまたは複数の態様または特徴は、デジタル電子回路、集積回路、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの様々な態様または特徴は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合されている、専用または汎用であり得る、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能かつ/または解釈可能である1つまたは複数のコンピュータプログラムにおける実施態様を含むことができる。プログラム可能システムまたはコンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは一般的に互いから遠隔しており、一般的に、通信ネットワークを通じて対話する。クライアントおよびサーバの関係は、それぞれのコンピュータ上で作動し、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生じる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、コンポート、またはコードと称することもできるこれらのコンピュータプログラムは、プログラム可能プロセッサに対する機械命令を含み、高水準手続き型言語、オブジェクト指向プログラミング言語、関数型プログラミング言語、論理プログラミング言語、および/またはアセンブリ/機械言語で実装することができる。本明細書において使用される場合、「機械可読媒体」という用語は、機械命令および/またはデータをプログラム可能プロセッサに提供するのに使用される、たとえば、磁気ディスク、光ディスク、メモリ、およびプログラム可能論理デバイス(PLD)のような、任意のコンピュータプログラム製品、装置および/またはデバイスを指し、機械命令を機械可読信号として受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラム可能プロセッサに提供するのに使用される任意の信号を指す。機械可読媒体は、たとえば、持続性ソリッドステートメモリもしくは磁気ハードドライブまたは任意の均等な記憶媒体のように、そのような機械命令を持続的に記憶することができる。機械可読媒体は、代替的にまたは付加的に、たとえば、プロセッサキャッシュまたは1つまたは複数の物理プロセッサコアと関連付けられる他のランダムアクセスメモリのように、そのような機械命令を一時的に記憶することができる。
ユーザとの対話を可能にするために、本明細書に記載されている主題の1つまたは複数の態様または特徴は、情報をユーザに表示するための、たとえば、陰極線管(CRT)または液晶ディスプレイ(LCD)または発光ダイオード(LED)モニタのような表示デバイスと、ユーザがそれによってコンピュータに入力を提供することができる、キーボード、および、たとえばマウスまたはトラックボールのようなポインティングデバイスとを有するコンピュータ上で実装することができる。ユーザとの対話を可能にするために他の種類のデバイスも使用されてもよい。たとえば、ユーザに提供されるフィードバックは、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックのような任意の形態の感覚フィードバックとすることができ、ユーザからの入力は、限定ではないが、音響、発話、または触覚入力を含む任意の形態で受信されても良い。他の可能な入力デバイスは、限定ではないが、シングルまたはマルチポイント抵抗式または容量式トラックパッドのようなタッチスクリーンまたは他のタッチセンサ式デバイス、音声認識ハードウェアおよびソフトウェア、光学スキャナ、光学式ポインタ、デジタル画像キャプチャデバイスならびに関連する解釈ソフトウェアなどを含む。
上記の説明および特許請求の範囲において、「〜の少なくとも1つ」または「〜の1つまたは複数」のような語句が、要素または特徴を連結したリストを後続に伴って記載されている場合がある。「および/または」という用語も、2つ以上の要素または特徴のリスト内に記載されている場合がある。それが使用される文脈によって別途黙示的または明示的に相反していないかぎり、そのような語句は、リストされている要素もしくは特徴のいずれかを個別に、または、記載されている要素もしくは特徴を他の記載されている要素もしくは特徴のいずれかと組み合わせて意味するように意図されている。たとえば、「AおよびBのうちの少なくとも一方」、「AおよびBのうちの1つまたは複数」、および「Aおよび/またはB」は各々、「A単独、B単独、またはAおよびBともに」を意味するように意図されている。3つ以上の項目を含むリストについても、同様の解釈が意図されている。たとえば、「A、BおよびCのうちの少なくとも1つ」、「A、BおよびCのうちの1つまたは複数」、および「A、B、および/またはC」は各々、「A単独、B単独、C単独、AおよびBともに、AおよびCともに、BおよびCともに、またはAおよびBおよびCともに」を意味するように意図されている。加えて、上記および特許請求の範囲において「〜に基づいて」という用語が使用されている場合、これは、記載されていない特徴または要素も許容可能であるように、「〜に少なくとも部分的に基づいて」を意味するように意図されている。
本明細書に記載されている主題は、所望の構成に応じて、システム、装置、方法、および/または製品において具現化することができる。上記の説明において記載されている実施態様は、本明細書に記載されている主題と一致するすべての実施態様を表しているとは限らない。そうではなく、それらの実施態様は、記載されている主題に関係する態様と一致するほんの数例にすぎない。いくつかの変形形態が上記の詳細に記載されているが、他の修正または追加が可能である。特に、本明細書に記載されているものに加えて、さらなる特徴および/または変形形態が提供されてもよい。たとえば、上記に記載されている実施態様は、開示されている特徴の様々な組み合わせおよび部分組み合わせならびに/または上記に記載されているいくつかのさらなる特徴の組み合わせおよび部分組み合わせを対象とすることができる。加えて、添付の図面に描かれておりかつ/または、本明細書に記載されている論理フローは望ましい結果を達成するために、必ずしも図示されている特定の順番または順序を必要としない。他の実施態様は添付の特許請求項の範囲内にあり得る。
105・・・外部ソース、110・・・クエリインターフェース、120・・・抽出構成要素、125・・・分類器構成要素、130・・・モデル生成構成要素、135・・・統一データアクセス層、140・・・キャッシュ、145・・・関係型データストア、150・・・ビッグデータソース、155・・・ルータ、160・・・スケジューラ、165・・・中央リソースマネージャ。

Claims (18)

  1. 少なくとも1つのコンピューティングシステムの一部分を形成する1つまたは複数のデータプロセッサによって実施するための方法であって、前記方法は、
    有向グラフ内にデータサンプルを置くことであって、前記有向グラフは、前記データサンプルを処理するのに使用される特定の作業者クラスの作業項目の待ち行列を形成する複数の階層ノードを含む、置くことと、
    前記有向グラフの前記ノードをトラバースすることによって、複数の作業者の各々の前記待ち行列内で作業項目をスケジュールすることと、
    前記待ち行列に従って、前記作業者に前記作業項目を供給することと、
    前記作業項目の前記作業者から結果を受信することとを含み、
    前記有向グラフの前記ノードは、前記受信結果に基づいてトラバースされる、方法。
  2. 前記結果は、前記データサンプルから抽出された特徴を含む、請求項1に記載の方法。
  3. 前記サンプルデータおよび/または前記抽出された特徴を分類することをさらに含む、請求項2に記載の方法。
  4. 前記抽出された特徴および前記分類を使用して少なくとも1つのモデルを生成することをさらに含む、請求項3に記載の方法。
  5. 前記受信結果に基づいて前記サンプルデータを分類することをさらに含む、請求項1〜4のいずれか一項に記載の方法。
  6. 前記分類を特性化するデータを提供することであって、前記提供することは、前記分類を特性化する前記データを表示すること、前記分類を特性化する前記データを記憶すること、
    前記分類を特性化する前記データをメモリにロードすること、または、前記分類を特性化する前記データを遠隔コンピューティングシステムに送信することのうちの少なくとも1つを含む、請求項5に記載の方法。
  7. 前記結果は、前記待ち行列内で次の後続する作業項目をどこにスケジュールすべきかを決定するのに使用されるルーティングデータをさらに含む、請求項1〜6のいずれか一項に記載の方法。
  8. 各サンプルの順序を、該サンプルを前記待ち行列に加える前に優先順位付けすることであって、各サンプルは前記優先順位付けされた順序に従って前記待ち行列に加えられる、優先順位付けすることをさらに含む、請求項1〜7のいずれか一項に記載の方法。
  9. 前記優先順位は所定の処理レートに基づく、請求項8に記載の方法。
  10. 前記少なくとも1つのサンプルの優先順位付けは、リアルタイムでローカルに調整される、請求項8に記載の方法。
  11. 前記作業項目は、サンプル優先順位付けまたは作業者レートのうちの少なくとも一方に従って前記待ち行列内にスケジュールされる、請求項1〜10のいずれか一項に記載の方法。
  12. 前記作業項目が供給される前記作業者は、利用可能なリソースに基づいてサイズが動的に変化するプールの一部分である、請求項1〜11のいずれか一項に記載の方法。
  13. 前記利用可能なリソースは、決定される供給および需要に基づく、請求項12記載の方法。
  14. 前記データサンプルは、コンピューティングシステムによってアクセスまたは実行するためのファイルを含み、前記分類は、少なくとも1つのファイルが悪質なコードを含む可能性があるか否かを示す、請求項5または6に記載の方法。
  15. 前記データサンプルは、医療画像データを含み、前記分類は、前記医療画像データの少なくとも1つの部分が異常な状態の可能性を示すか否かを示した、請求項5または6に記載の方法。
  16. 前記有向グラフは有向非巡回グラフである、請求項1〜15のいずれか一項に記載の方法。
  17. 少なくとも1つのコンピューティングシステムの一部分を形成する少なくとも1つのデータプロセッサによって実行されると、請求項1〜16のいずれか一項に記載の方法を実施する命令を記憶している、持続性コンピュータプログラム製品。
  18. 少なくとも1つのデータプロセッサと、
    前記少なくとも1つのデータプロセッサによって実行されると、請求項1〜16のいずれか一項に記載の方法を実施する命令を記憶しているメモリと
    を備える、システム。
JP2016521905A 2013-06-24 2014-06-24 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム Pending JP2016525239A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361838820P 2013-06-24 2013-06-24
US61/838,820 2013-06-24
PCT/US2014/043934 WO2014210050A1 (en) 2013-06-24 2014-06-24 Automated system for generative multimodel multiclass classification and similarity analysis using machine learning

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019102364A Division JP2019197549A (ja) 2013-06-24 2019-05-31 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム

Publications (1)

Publication Number Publication Date
JP2016525239A true JP2016525239A (ja) 2016-08-22

Family

ID=51230174

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016521905A Pending JP2016525239A (ja) 2013-06-24 2014-06-24 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム
JP2019102364A Pending JP2019197549A (ja) 2013-06-24 2019-05-31 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019102364A Pending JP2019197549A (ja) 2013-06-24 2019-05-31 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム

Country Status (7)

Country Link
US (2) US20140379619A1 (ja)
EP (2) EP3014443B1 (ja)
JP (2) JP2016525239A (ja)
AU (2) AU2014302603A1 (ja)
CA (1) CA2915383C (ja)
HK (1) HK1224402A1 (ja)
WO (1) WO2014210050A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200054372A (ko) * 2018-11-06 2020-05-20 전자부품연구원 클라우드-엣지 시스템 및 이의 데이터 처리 방법
KR20200106565A (ko) * 2016-09-19 2020-09-14 어플라이드 머티어리얼스, 인코포레이티드 K-최근접-이웃 및 로지스틱 회귀 접근법을 사용하는 시계열 고장 검출, 고장 분류, 및 천이 분석
JP2023500222A (ja) * 2020-02-18 2023-01-05 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 系列マイニングモデルの訓練方法、系列データの処理方法、系列マイニングモデルの訓練装置、系列データの処理装置、コンピュータ機器、及びコンピュータプログラム
US11657317B2 (en) 2013-06-24 2023-05-23 Cylance Inc. Automated systems and methods for generative multimodel multiclass classification and similarity analysis using machine learning

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9269057B1 (en) * 2013-12-11 2016-02-23 Google, Inc. Using specialized workers to improve performance in machine learning
US8930916B1 (en) 2014-01-31 2015-01-06 Cylance Inc. Generation of API call graphs from static disassembly
US9262296B1 (en) 2014-01-31 2016-02-16 Cylance Inc. Static feature extraction from structured files
US10235518B2 (en) 2014-02-07 2019-03-19 Cylance Inc. Application execution control utilizing ensemble machine learning for discernment
US9465940B1 (en) 2015-03-30 2016-10-11 Cylance Inc. Wavelet decomposition of software entropy to identify malware
US9495633B2 (en) 2015-04-16 2016-11-15 Cylance, Inc. Recurrent neural networks for malware analysis
US10063406B2 (en) * 2015-07-15 2018-08-28 TUPL, Inc. Automatic customer complaint resolution
US10733023B1 (en) * 2015-08-06 2020-08-04 D2Iq, Inc. Oversubscription scheduling
US11170104B1 (en) * 2015-08-21 2021-11-09 Amazon Technologies, Inc. Identifying attacks on file systems
US10691739B2 (en) * 2015-12-22 2020-06-23 Mcafee, Llc Multi-label content recategorization
US20170185667A1 (en) * 2015-12-24 2017-06-29 Mcafee, Inc. Content classification
US9602531B1 (en) 2016-02-16 2017-03-21 Cylance, Inc. Endpoint-based man in the middle attack detection
US11271796B2 (en) * 2016-07-15 2022-03-08 Tupl Inc. Automatic customer complaint resolution
US10193762B2 (en) 2016-08-11 2019-01-29 Rescale, Inc. Dynamic optimization of simulation resources
US10387198B2 (en) 2016-08-11 2019-08-20 Rescale, Inc. Integrated multi-provider compute platform
US10657364B2 (en) * 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
CN107633218B (zh) * 2017-09-08 2021-06-08 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
CN110879750A (zh) * 2017-10-13 2020-03-13 华为技术有限公司 资源管理的方法及终端设备
US10915529B2 (en) * 2018-03-14 2021-02-09 International Business Machines Corporation Selecting an optimal combination of systems for query processing
US11567807B2 (en) 2018-03-30 2023-01-31 EMC IP Holding Company LLC Allocation of shared computing resources using source code feature extraction and machine learning
US12041140B2 (en) 2018-04-02 2024-07-16 Visa International Service Association Real-time entity anomaly detection
US11531038B2 (en) * 2018-06-15 2022-12-20 Elemental Scientific Inc. System for prioritization of collecting and analyzing liquid samples
CN113298510B (zh) * 2018-07-10 2022-06-17 马上消费金融股份有限公司 一种扣款指令发起方法及装置
US11436056B2 (en) * 2018-07-19 2022-09-06 EMC IP Holding Company LLC Allocation of shared computing resources using source code feature extraction and clustering-based training of machine learning models
US10862765B2 (en) * 2018-07-31 2020-12-08 EMC IP Holding Company LLC Allocation of shared computing resources using a classifier chain
US11164093B1 (en) * 2018-08-03 2021-11-02 Amazon Technologies, Inc. Artificial intelligence system incorporating automatic model switching based on model parameter confidence sets
US10853079B2 (en) * 2018-09-26 2020-12-01 Side Effects Software Inc. Dependency-based streamlined processing
EP3841538A1 (en) * 2018-10-01 2021-06-30 Elemental Machines, Inc. Method and apparatus for process optimization
US20200159690A1 (en) * 2018-11-16 2020-05-21 Sap Se Applying scoring systems using an auto-machine learning classification approach
US11621965B2 (en) * 2019-09-27 2023-04-04 Musarubra Us Llc Analysis of endpoint detect and response data
CN110956272B (zh) * 2019-11-01 2023-08-08 第四范式(北京)技术有限公司 实现数据处理的方法和***
JP2021131310A (ja) * 2020-02-20 2021-09-09 東日本旅客鉄道株式会社 配管劣化診断装置及び配管劣化診断システム
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities
DE112020007653T5 (de) * 2020-12-07 2023-08-03 Mitsubishi Electric Corporation Informationsverarbeitungseinrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsgsprogramm
CN112817731B (zh) * 2021-02-25 2022-12-06 合肥工业大学 一种基于节点复制的异构多核***任务调度方法
CN113312630B (zh) * 2021-05-31 2022-07-01 支付宝(杭州)信息技术有限公司 实现可信调度的方法及装置
US20230015697A1 (en) * 2021-07-13 2023-01-19 Citrix Systems, Inc. Application programming interface (api) authorization
US20230267001A1 (en) * 2022-02-24 2023-08-24 Nuix Limited Scaling a rest cluster using feature based steering
CN116910567B (zh) * 2023-09-12 2024-03-15 腾讯科技(深圳)有限公司 推荐业务的在线训练样本构建方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120079490A1 (en) * 2010-09-23 2012-03-29 Microsoft Corporation Distributed workflow in loosely coupled computing

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841947A (en) 1996-07-12 1998-11-24 Nordin; Peter Computer implemented machine learning method and system
US6430590B1 (en) * 1999-01-29 2002-08-06 International Business Machines Corporation Method and apparatus for processing executable program modules having multiple dependencies
US6546551B1 (en) 1999-09-28 2003-04-08 International Business Machines Corporation Method for accurately extracting library-based object-oriented applications
US7181768B1 (en) 1999-10-28 2007-02-20 Cigital Computer intrusion detection system and method based on application monitoring
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6748593B1 (en) * 2000-02-17 2004-06-08 International Business Machines Corporation Apparatus and method for starvation load balancing using a global run queue in a multiple run queue system
US6898737B2 (en) 2001-05-24 2005-05-24 Microsoft Corporation Automatic classification of event data
US7065764B1 (en) * 2001-07-20 2006-06-20 Netrendered, Inc. Dynamically allocated cluster system
WO2004013777A1 (en) * 2002-08-05 2004-02-12 Fish Robert System and method of parallel pattern matching
AU2004251359B2 (en) * 2003-06-25 2009-01-22 Siemens Medical Solutions Usa, Inc. Systems and methods for automated diagnosis and decision support for breast imaging
JP2005044330A (ja) 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
US7644441B2 (en) 2003-09-26 2010-01-05 Cigital, Inc. Methods for identifying malicious software
US7624449B1 (en) 2004-01-22 2009-11-24 Symantec Corporation Countering polymorphic malicious computer code through code optimization
US20060047807A1 (en) 2004-08-25 2006-03-02 Fujitsu Limited Method and system for detecting a network anomaly in a network
US20060112388A1 (en) * 2004-11-22 2006-05-25 Masaaki Taniguchi Method for dynamic scheduling in a distributed environment
US7716645B2 (en) 2005-06-10 2010-05-11 International Business Machines Corporation Using atomic sets of memory locations
US7945902B1 (en) 2005-07-13 2011-05-17 Oracle America, Inc. Detection of non-standard application programming interface usage via analysis of executable code
US20080134326A2 (en) 2005-09-13 2008-06-05 Cloudmark, Inc. Signature for Executable Code
IL181041A0 (en) 2007-01-29 2007-07-04 Deutsche Telekom Ag Improved method and system for detecting malicious behavioral patterns in a computer, using machine learning
US8312545B2 (en) 2006-04-06 2012-11-13 Juniper Networks, Inc. Non-signature malware detection system and method for mobile platforms
EP2023277A4 (en) 2006-05-22 2010-08-25 Fujitsu Ltd NEURONAL NETWORK LEARNING DEVICE, METHOD AND PROGRAM
WO2008017991A2 (en) 2006-08-11 2008-02-14 Koninklijke Philips Electronics, N.V. Methods and apparatus to integrate systematic data scaling into genetic algorithm-based feature subset selection
WO2008055156A2 (en) 2006-10-30 2008-05-08 The Trustees Of Columbia University In The City Of New York Methods, media, and systems for detecting an anomalous sequence of function calls
US8370818B2 (en) 2006-12-02 2013-02-05 Time Warner Cable Inc. Methods and apparatus for analyzing software interface usage
GB2444514A (en) 2006-12-04 2008-06-11 Glasswall Electronic file re-generation
US20080133571A1 (en) * 2006-12-05 2008-06-05 International Business Machines Corporation Modifying Behavior in Messaging Systems According to Organizational Hierarchy
US8069484B2 (en) 2007-01-25 2011-11-29 Mandiant Corporation System and method for determining data entropy to identify malware
CN101039177A (zh) 2007-04-27 2007-09-19 珠海金山软件股份有限公司 一种在线查毒的装置和方法
US7889651B2 (en) * 2007-06-06 2011-02-15 International Business Machines Corporation Distributed joint admission control and dynamic resource allocation in stream processing networks
KR100942795B1 (ko) 2007-11-21 2010-02-18 한국전자통신연구원 악성프로그램 탐지장치 및 그 방법
US8347272B2 (en) 2008-07-23 2013-01-01 International Business Machines Corporation Call graph dependency extraction by static source code analysis
US8504504B2 (en) * 2008-09-26 2013-08-06 Oracle America, Inc. System and method for distributed denial of service identification and prevention
US20100082400A1 (en) 2008-09-29 2010-04-01 Yahoo! Inc.. Scoring clicks for click fraud prevention
US20100107245A1 (en) 2008-10-29 2010-04-29 Microsoft Corporation Tamper-tolerant programs
US8505015B2 (en) * 2008-10-29 2013-08-06 Teradata Us, Inc. Placing a group work item into every prioritized work queue of multiple parallel processing units based on preferred placement of the work queues
JP2010165230A (ja) 2009-01-16 2010-07-29 Pharma Design Inc 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム
US9239740B2 (en) 2009-06-16 2016-01-19 Microsoft Technology Licensing, Llc Program partitioning across client and cloud
US8726254B2 (en) 2009-06-20 2014-05-13 Microsoft Corporation Embedded annotation and program analysis
US8484152B2 (en) 2009-06-26 2013-07-09 Hbgary, Inc. Fuzzy hash algorithm
US8370613B1 (en) 2009-06-30 2013-02-05 Symantec Corporation Method and apparatus for automatically optimizing a startup sequence to improve system boot time
US8560465B2 (en) 2009-07-02 2013-10-15 Samsung Electronics Co., Ltd Execution allocation cost assessment for computing systems and environments including elastic computing systems and environments
US9081958B2 (en) 2009-08-13 2015-07-14 Symantec Corporation Using confidence about user intent in a reputation system
US8516452B2 (en) 2009-12-08 2013-08-20 International Business Machines Corporation Feedback-directed call graph expansion
US8818923B1 (en) 2011-06-27 2014-08-26 Hrl Laboratories, Llc Neural network device with engineered delays for pattern storage and matching
US8887163B2 (en) * 2010-06-25 2014-11-11 Ebay Inc. Task scheduling based on dependencies and resources
WO2012071989A1 (zh) 2010-11-29 2012-06-07 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
AU2011336466C1 (en) 2010-12-01 2017-01-19 Cisco Technology, Inc. Detecting malicious software through contextual convictions, generic signatures and machine learning techniques
US8549647B1 (en) 2011-01-14 2013-10-01 The United States Of America As Represented By The Secretary Of The Air Force Classifying portable executable files as malware or whiteware
US9398033B2 (en) * 2011-02-25 2016-07-19 Cavium, Inc. Regular expression processing automaton
US8402543B1 (en) * 2011-03-25 2013-03-19 Narus, Inc. Machine learning based botnet detection with dynamic adaptation
US9286182B2 (en) 2011-06-17 2016-03-15 Microsoft Technology Licensing, Llc Virtual machine snapshotting and analysis
US8631395B2 (en) 2011-09-02 2014-01-14 Microsoft Corporation Inter-procedural dead catch handler optimizations
US9329887B2 (en) 2011-10-19 2016-05-03 Hob Gmbh & Co. Kg System and method for controlling multiple computer peripheral devices using a generic driver
US20130152200A1 (en) 2011-12-09 2013-06-13 Christoph Alme Predictive Heap Overflow Protection
CN103186406B (zh) 2011-12-30 2016-08-17 国际商业机器公司 用于控制流分析的方法和装置
US8713684B2 (en) 2012-02-24 2014-04-29 Appthority, Inc. Quantifying the risks of applications for mobile devices
US8627291B2 (en) 2012-04-02 2014-01-07 International Business Machines Corporation Identification of localizable function calls
US8819772B2 (en) * 2012-06-25 2014-08-26 Appthority, Inc. In-line filtering of insecure or unwanted mobile device software components or communications
US9003529B2 (en) 2012-08-29 2015-04-07 The Johns Hopkins University Apparatus and method for identifying related code variants in binaries
US9292688B2 (en) * 2012-09-26 2016-03-22 Northrop Grumman Systems Corporation System and method for automated machine-learning, zero-day malware detection
US20140180738A1 (en) 2012-12-21 2014-06-26 Cloudvu, Inc. Machine learning for systems management
US9104525B2 (en) 2013-01-22 2015-08-11 Microsoft Technology Licensing, Llc API usage pattern mining
US9015685B2 (en) 2013-03-01 2015-04-21 International Business Machines Corporation Code analysis for simulation efficiency improvement
US20140358828A1 (en) 2013-05-29 2014-12-04 Purepredictive, Inc. Machine learning generated action plan
US20140372513A1 (en) 2013-06-12 2014-12-18 Cloudvu, Inc. Multi-tenant enabling a single-tenant computer program product
CA2915383C (en) 2013-06-24 2023-05-02 Cylance Inc. Automated system for generative multimodel multiclass classification and similarity analysis using machine learning
EP2833594A1 (en) 2013-07-31 2015-02-04 Siemens Aktiengesellschaft Feature based three stage neural networks intrusion detection method and system
US10095718B2 (en) 2013-10-16 2018-10-09 University Of Tennessee Research Foundation Method and apparatus for constructing a dynamic adaptive neural network array (DANNA)
US9262296B1 (en) 2014-01-31 2016-02-16 Cylance Inc. Static feature extraction from structured files
US8930916B1 (en) 2014-01-31 2015-01-06 Cylance Inc. Generation of API call graphs from static disassembly
US20150248556A1 (en) 2014-02-28 2015-09-03 Government Of The United States, As Represented By The Secretary Of The Air Force Firmware Disassembly System

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120079490A1 (en) * 2010-09-23 2012-03-29 Microsoft Corporation Distributed workflow in loosely coupled computing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHABTAI A; MOSKOVITCH R; ELOVICI Y; GLEZER C: "DETECTION OF MALICIOUS CODE BY APPLYING MACHINE LEARNING CLASSIFIERS 以下備考", INFORMATION SECURITY TECHNICAL REPORT, vol. VOL:14 NR:1, JPN5016007531, 1 February 2009 (2009-02-01), pages PAGE(S):16 - 29 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657317B2 (en) 2013-06-24 2023-05-23 Cylance Inc. Automated systems and methods for generative multimodel multiclass classification and similarity analysis using machine learning
KR20200106565A (ko) * 2016-09-19 2020-09-14 어플라이드 머티어리얼스, 인코포레이티드 K-최근접-이웃 및 로지스틱 회귀 접근법을 사용하는 시계열 고장 검출, 고장 분류, 및 천이 분석
KR102239233B1 (ko) 2016-09-19 2021-04-09 어플라이드 머티어리얼스, 인코포레이티드 K-최근접-이웃 및 로지스틱 회귀 접근법을 사용하는 시계열 고장 검출, 고장 분류, 및 천이 분석
KR20200054372A (ko) * 2018-11-06 2020-05-20 전자부품연구원 클라우드-엣지 시스템 및 이의 데이터 처리 방법
KR102156439B1 (ko) 2018-11-06 2020-09-16 한국전자기술연구원 클라우드-엣지 시스템 및 이의 데이터 처리 방법
JP2023500222A (ja) * 2020-02-18 2023-01-05 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 系列マイニングモデルの訓練方法、系列データの処理方法、系列マイニングモデルの訓練装置、系列データの処理装置、コンピュータ機器、及びコンピュータプログラム
JP7403909B2 (ja) 2020-02-18 2023-12-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 系列マイニングモデルの訓練装置の動作方法、系列データの処理装置の動作方法、系列マイニングモデルの訓練装置、系列データの処理装置、コンピュータ機器、及びコンピュータプログラム

Also Published As

Publication number Publication date
WO2014210050A1 (en) 2014-12-31
US20180060760A1 (en) 2018-03-01
US11657317B2 (en) 2023-05-23
JP2019197549A (ja) 2019-11-14
EP3014443B1 (en) 2020-06-10
EP3722954A1 (en) 2020-10-14
EP3722954B1 (en) 2023-09-06
AU2020201706B2 (en) 2021-01-28
EP3014443A1 (en) 2016-05-04
AU2020201706A1 (en) 2020-03-26
HK1224402A1 (zh) 2017-08-18
CA2915383C (en) 2023-05-02
AU2014302603A1 (en) 2016-01-07
US20140379619A1 (en) 2014-12-25
CA2915383A1 (en) 2014-12-31

Similar Documents

Publication Publication Date Title
JP2019197549A (ja) 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム
US10331490B2 (en) Scalable cloud-based time series analysis
US10983895B2 (en) System and method for data application performance management
US11481456B2 (en) Model and pattern structure online unital learning: mapsoul
US10938678B2 (en) Automation plan generation and ticket classification for automated ticket resolution
US20200302234A1 (en) System and method for efficient generation of machine-learning models
US10459849B1 (en) Scheduling operations in an access-controlled region of memory
Jamieson et al. Next: A system for real-world development, evaluation, and application of active learning
US10642610B2 (en) Scalable cloud-based time series analysis
Raza et al. Autonomic performance prediction framework for data warehouse queries using lazy learning approach
Kolomvatsos A distributed, proactive intelligent scheme for securing quality in large scale data processing
CN114253605A (zh) 机器学习数据处理流水线的运行时间估计
Dass et al. Amelioration of Big Data analytics by employing Big Data tools and techniques
El-Kassabi et al. Multi-model deep learning for cloud resources prediction to support proactive workflow adaptation
US11366699B1 (en) Handling bulk requests for resources
Gupta et al. Challenges and issues in data analytics
Bortolussi et al. Fluid performability analysis of nested automata models
Guindani et al. aMLLibrary: An automl approach for performance prediction
Rizzi et al. Nirdizati: an advanced predictive process monitoring toolkit
Ravikumaran et al. Prediction of chronic and non-chronic kidney disease using modified DBN with map and reduce framework
US20240249168A1 (en) System for probabilistic modeling and multi-layer modeling for digital twins
US20240104368A1 (en) Reduction of data transmission and data storage using neural network technology
Chrysomeris Interference and Resource Aware Predictive Inference Serving on Cloud Infrastructures
Dukitha et al. A Comparative Study of Intelligent Agent Techniques for Distributed Data Databases
Khamaru et al. A Dynamics of Machine Learning on Map-Reduce Architecture for Enhancing Big Data Analysis Performance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180828

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190205