JP6935551B2

JP6935551B2 - データセットにおける異常の根本原因を検出する方法およびシステム

Info

Publication number: JP6935551B2
Application number: JP2020116162A
Authority: JP
Inventors: クマルケー．ピーシャラス; マリヤサガヤムマリエ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-07-18
Filing date: 2020-07-06
Publication date: 2021-09-15
Anticipated expiration: 2040-07-06
Also published as: JP2021018813A

Description

本開示は、データ解析の分野に関する。特に、ただし非排他的に、本開示は、データセットにおける異常の根本原因を検出する方法およびシステムに関する。

一般に、大規模ネットワークにおける異常を識別するのは困難な作業である。大規模ネットワークの分散システムから収集したデータセットは、非常に大きく、雑音が多いデータ点を含むことがあるので、１つ以上の異常を検出するためのデータセットの手動チェックは時間がかかり、エラーを起こしやすい。したがって、データセットの複数の変数に対して、目標変数のばらつきのグラフ表示をランク付けすることによって、データセットの１つ以上の異常を検出する自動化システムが使用される。識別された１つ以上の異常は訂正されなければならない。したがって、１つ以上の異常の根本原因が必要である。既存のグラフ表示システムは、データセットからの１つ以上のデータ変数を表すように、予め割り当てられたマッピング規則に基づいてグラフ表示を自動的に生成する。予め割り当てられたマッピング規則は、推奨されるグラフ表示チャートと一致するデータ特性に基づく。それに加えて、既存のグラフ表示システムはまた、ユーザ選択履歴に基づいてグラフ表示を連続的にランク付けし、それをユーザに推奨する。更に、ランク付けはデータフィールドの性質に基づいており、多くのユーザが、探索的データ解析技術を使用して、使用ケース適用例に関連するデータからの興味深い洞察を識別する。そのため、多量のデータフィールドが利用可能なときに適切なグラフ表示を選択し、適正なグラフ表示チャートを見つけることは、時間がかかる作業である。

既存の技術の課題は、ランク付けを生成するのにかかる時間、および粗悪な選択履歴の利用である。このことは、不正確なランク付けにつながり、最終的にはグラフ表示チャートの推奨が次善のものになる。

既存の技術の課題は、ユーザの過去の選択バイアスによって推奨が冗長になり、ユーザの過去の選択に関する履歴データ、およびユーザプロファイルからのデータをランク付けの割当てに使用することによって、新しいデータセットに対してランク付けが正確でなくなることである。

本開示のこの背景技術の項で開示した情報は、単に本発明の全体的背景の理解を高めるためのものであり、この情報が当業者には既に知られている従来技術を形成することを容認するもの、または何らかの形で提案するものとして解釈すべきではない。

本開示の方法を提供することによって、従来技術の１つ以上の欠点が克服され、追加の利点が提供される。

本開示の技術によって、更なる特徴および利点が実現される。本開示の他の実施形態および態様が、本明細書に詳細に記載され、本開示の特許請求の一部と見なされる。

本明細書に開示するのは、データセットにおける異常の根本原因を検出するための、変数をランク付けする方法である。方法は、データセットからの複数の変数と、データセットにおける目標変数とを取得することを含む。更に、方法は、複数の変数に対する目標変数のばらつきを識別して、ばらつきに存在する異常値に基づいて、複数の変数に対する目標変数のばらつきにおける１つ以上の異常を検出することを含む。更に、方法は、複数の変数に対して実施される１つ以上の統計的解析に基づいて、検出された１つ以上の異常を引き起こす複数の変数から、１つ以上の変数を識別することを含む。最後に、方法は、識別された１つ以上の変数それぞれに対する目標変数のばらつきであって、データセットにおける異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきを、ランク付けすることを含む。

更に、本開示は、プロセッサとプロセッサに通信可能に連結されたメモリとを含み、メモリが、実行時にプロセッサに、データセットからの複数の変数とデータセットにおける目標変数とを取得させるプロセッサ命令を格納する、ランキングシステムを開示する。更に、プロセッサは、複数の変数に対する目標変数のばらつきを識別して、ばらつきに存在する異常値に基づいて、複数の変数に対する目標変数のばらつきにおける１つ以上の異常を検出するように構成される。更に、プロセッサは、複数の変数に対して実施される１つ以上の統計的解析に基づいて、検出された１つ以上の異常を引き起こす複数の変数から、１つ以上の変数を識別するように構成される。最後に、プロセッサは、識別された１つ以上の変数それぞれに対する目標変数のばらつきであって、データセットにおける異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきを、ランク付けするように構成される。

上述の概要は単なる例証であり、いかなる形でも限定的であることを意図しない。上述した例示的な態様、実施形態、および特徴に加えて、図面および以下の詳細な説明を参照することによって、更なる態様、実施形態、および特徴が明白となる。

本開示の新規な特徴および特性を添付図面に記載する。しかしながら、本開示自体、ならびに好ましい使用モード、本開示の更なる目的および利点は、例示の実施形態の以下の詳細な説明を添付図面と併せて参照することによって、最も良く理解することができる。添付図面は、本開示に組み込まれると共にその一部を構成するものであり、例示の実施形態を例証し、説明と併せて開示の原理を説明するのに役立つ。図面中、参照番号の左端の桁は、その参照番号が最初に現れる図面を特定する。１つ以上の実施形態を、単なる例として、添付図面を参照して以下に記載する。図面中、類似の参照番号は類似の要素を表す。

本開示のいくつかの実施形態による、データセットにおける異常の根本原因を検出する例示のシステムを示す図である。本発明のいくつかの実施形態による、ランキングシステムを示す詳細ブロック図である。本開示のいくつかの実施形態による、データセットにおける異常の根本原因を検出する方法を示すフローチャートである。本開示のいくつかの実施形態による、例示のデータセットを示す図である。本開示のいくつかの実施形態による、複数の変数のカテゴリデータ型に基づいた例示の集計データセットを示す図である。本開示のいくつかの実施形態による、複数の変数の時間データ型に基づいた例示の集計データセットを示す図である。本開示のいくつかの実施形態による、データセットにおける複数の変数のデータ型を識別するための例示のメタデータを示す図である。本開示のいくつかの実施形態による、複数の変数のデータ型に基づいてグラフ表示を選択するための例示のメタデータを示す図である。本開示のいくつかの実施形態による、複数の変数のデータ型に基づいてデータ解析方法を選択するための例示のメタデータを示す図である。本開示のいくつかの実施形態による、ばらつきに存在する異常値の例示の検出を示す図である。本開示のいくつかの実施形態による、例示のクラスタ解析を示す図である。本開示のいくつかの実施形態による、例示の四分位解析を示す図である。本開示のいくつかの実施形態による、例示の時系列解析を示す図である。本開示のいくつかの実施形態による、相関解析を使用する１つ以上の変数の例示の識別を示す図である。本開示のいくつかの実施形態による、データセットにおける異常の根本原因を検出する変数をランク付けする汎用コンピュータシステムを示す図である。

本明細書のいずれのブロック図も、本主題の原理を具体化する例示的なシステムの概念図を表すことが、当業者には理解されるはずである。同様に、いずれのフローチャート、フロー図、状態遷移図、擬似コードなども、コンピュータ可読媒体の形で実質的に表され、明示的に示されるか否かにかかわらずコンピュータまたはプロセッサによって実行されてもよい、様々なプロセスを表すことが理解されるであろう。

本明細書では、「例示の」という語は、「例、事例、または実例としての役割を果たす」ことを意味するのに使用される。「例示」として本明細書に記載する本主題のいずれの実施形態または実現例も、他の実施形態よりも好ましいかもしくは有利であるものとは必ずしも解釈されない。

本開示は様々な修正および代替形態に影響されやすいが、それらの具体的な実施形態を図面に例として示しており、以下に詳細に記載する。しかしながら、本開示を開示する形態に限定しようとするものではなく、それとは逆に、本開示は、本開示の範囲内にある全ての修正例、等価物、および代替例を網羅するものであることが理解されるべきである。

「備える」、「含む」、「備えている」、「含んでいる」という用語、またはそれらのあらゆる他の変形は、一連の構成要素もしくはステップを備えるセットアップ、デバイス、または方法が、それらの構成要素もしくはステップだけを含むのではなく、明示的に列挙されないかまたはかかるセットアップもしくはデバイスもしくは方法に固有のものではない、他の構成要素もしくはステップを含んでもよいという、非排他的な包含を網羅するものとする。換言すれば、「〜を備える」または「〜を含む」に続く、システムまたは装置における１つ以上の要素は、更なる制約を有さずに、システムまたは方法に他の要素もしくは追加要素が存在することを除外しない。

本開示は、データセットにおける異常の根本原因を検出するための、変数をランク付けする方法を記載する。方法は、データセットからの複数の変数と、データセットにおける目標変数とを取得することを含む。更に、方法は、複数の変数に対する目標変数のばらつきを識別して、ばらつきに存在する異常値に基づいて、複数の変数に対する目標変数のばらつきにおける１つ以上の異常を検出することを含む。更に、方法は、複数の変数に対して実施される１つ以上の統計的解析に基づいて、検出された１つ以上の異常を引き起こす複数の変数から、１つ以上の変数を識別することを含む。最後に、方法は、識別された１つ以上の変数それぞれに対する目標変数のばらつきであって、データセットにおける異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきをランク付けすることを含む。

本開示の実施形態の以下の詳細な説明において、本開示の一部を形成すると共に、例として本開示が実施されてもよい特定の実施形態が示される、添付図面を参照する。これらの実施形態は、当業者が本開示を実施できるように十分に詳細に記載されるが、他の実施形態が利用されてもよく、本開示の範囲から逸脱することなく変更が行われてもよいことが、理解されるべきである。したがって、以下の説明は限定的な意味で解釈されるべきではない。

図１は、本開示のいくつかの実施形態による、データセット（１０１）における異常の根本原因を検出する例示のシステムを示している。

一実施形態では、ユーザは、複数の行および列を含むデータセット（１０１）を提供してもよい。別の実施形態では、データセットは、ランキングシステム（１０９）のメモリ（２０２）から獲得されてもよい。更に、ユーザは、解析のためにデータセット（１０１）から目標変数（１０２）を選択する。データセット（１０１）は、個別にもしくは組み合わせてアクセスされるか、または完全なエンティティとして管理されてもよいデータの関連する離散的なアイテムの集合体である。データセット（１０１）の列は複数の変数を構成し、データセット（１０１）の各行は複数の変数が取る値を構成する。従属変数と呼ばれる目標変数（１０２）は、観察下にあるデータセット（１０１）の列である。目標変数（１０２）を除外したデータセット（１０１）の複数の変数は、独立変数と呼ばれる。データセット（１０１）における目標変数（１０２）を除外した複数の変数は、複数の変数のデータ型（例えば、数値、カテゴリ、時間、空間）に基づいて集計される。データセット（１０１）のメタデータ（１０３）は、複数の変数のデータ型を識別する設定規則を含む。更に、データ型に対応する集計された複数の変数に対する目標変数（１０２）のばらつきが識別される。データ型に対応するばらつきに基づいて、１つ以上の異常が、異常値検出部（１０５）によって、ばらつきに存在する異常値に基づいて検出される。異常値は、各ばらつきの複数のデータ点から逸脱した少なくとも１つのデータ点を示す。集計された複数の変数に対する検出された異常値は、異常値データセット（１０６）に格納される。更に、検出された１つ以上の異常を引き起こす、複数の変数からの１つ以上の変数（８０５）は、変数識別部（１０７）によって複数の変数に対して実施される、１つ以上の統計的解析に基づいて識別される。検出された１つ以上の異常を引き起こす、複数の変数から識別された１つ以上の変数（８０５）は、識別変数データセット（１０８）に格納される。複数の変数に適した１つ以上の統計的解析は、データセット（１０１）と関連付けられたメタデータ（１０３）から取得される。最後に、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきは、ランキング部（１０９）によってランク付けされる。例えば、Ｖ_１、Ｖ_２、およびＶ_３が識別された１つ以上の変数である場合、図１に示されるように、ランク１は、識別された１つ以上の変数Ｖ_１との目標変数のばらつきに割り当てられ、ランク２は、識別された１つ以上の変数Ｖ_２との目標変数のばらつきに割り当てられ、ランク３は、識別された１つ以上の変数Ｖ_３との目標変数のばらつきに割り当てられる。ランク付けされたばらつき（１１０）に対して、ばらつきにおける１つ以上の変数（８０５）のデータ型に基づいて、データセット（１０１）と関連付けられたメタデータ（１０３）から適切なグラフ表示（１１１）が選択される。例えば、１つ以上の変数データ型Ｖ_１のデータ型を数値、１つ以上の変数Ｖ_２を空間とする。したがって、図１に示されるように、目標変数に対する１つ以上の変数Ｖ_１のばらつきを表示するのに、折れ線グラフが選択され、目標変数に対する１つ以上の変数Ｖ_２のばらつきを表示するのに、Ｇｅｏチャートが選択される。一実施形態では、グラフ表示（１１１）を提供する順序は、１つ以上の変数と関連付けられたランクに基づいてもよい。例えば、対応する変数Ｖ_３が１にランク付けされることを示す折れ線グラフが上位に表示され、同様に、対応する変数Ｖ_２が２にランク付けされることを示すＧｅｏチャートが、折れ線グラフの下に表示されてもよい。ランク付けされたばらつきは、対応するグラフ表示（１１１）とともに、データセット（１０１）における異常の根本原因を検出するため、ユーザに対して表示される。

図２は、本発明のいくつかの実施形態による、ランキングシステム（２００）の詳細ブロック図を示している。

ランキングシステム（２００）は、中央処理装置（「ＣＰＵ」または「プロセッサ」）（２０３）と、プロセッサ（２０３）によって実行可能な命令を格納するメモリ（２０２）とを含んでもよい。プロセッサ（２０３）は、ユーザまたはシステム作成要求を実行するためにプログラムコンポーネントを実行する、少なくとも１つのデータプロセッサを含んでもよい。メモリ（２０２）はプロセッサ（２０３）に通信可能に連結されてもよい。ランキングシステム（２００）は入出力（Ｉ／Ｏ）インターフェース（２０１）を更に含む。Ｉ／Ｏインターフェース（２０１）はプロセッサ（２０３）に連結されてもよく、それを通して入力信号および／または出力信号が通信されてもよい。一実施形態では、ランキングシステム（２００）は、Ｉ／Ｏインターフェース（２０１）を通してデータセット（１０１）および目標変数（１０２）を受信してもよい。

いくつかの実現例では、ランキングシステム（２００）はデータ（２０４）とモジュール（２０７）とを含んでもよい。一例として、データ（２０４）およびモジュール（２０７）は、図２に示されるように、ランキングシステム（２００）内に構成されたメモリ（２０２）に格納されてもよい。一実施形態では、データ（２０４）は、例えば、データセット（１０１）、メタデータ（１０３）、正常値データセット（２０５）、異常値データセット（１０６）、識別された変数（１０８）、および他のデータ（２０６）を含んでもよい。示される図２において、モジュール（２０７）は本明細書で詳細に記載される。

一実施形態では、データセット（１０１）は、個別にもしくは組み合わせてアクセスされるか、または完全なエンティティとして管理されてもよいデータの関連する離散的なアイテムの集合体である。データセット（１０１）は、複数の行および列での関連データの配置を含む。データセット（１０１）の列は複数の変数を構成し、データセット（１０１）の各行は複数の変数が取る値を構成する。図４Ａは、複数の行および列を含む表の形態で配置された例示のデータセット（１０１）を示している。列（例えば、日付、加盟店ＩＤ、顧客ＩＤ、取引数量、所在地、加盟店業種コード（ＭＣＣ））は、複数の変数を構成する。図４Ａの表の行は、列の対応する変数が取る値を構成する。例えば、図４Ａの表の行１を考えると、「Ｍ１０１」は変数「加盟店ＩＤ」が取る値、「バンガロール」は変数「所在地」が取る値、などである。

一実施形態では、メタデータは、データセット（１０１）に関する情報を提供するデータである。特徴的なタイプのメタデータは、記述メタデータ、構造メタデータ、管理メタデータ、参照メタデータ、および統計メタデータである。記述メタデータは、発見および識別などの目的のリソースを説明する。タイトル、概要、著者、およびキーワードなどの要素を含むことができる。構造メタデータは、データの格納庫に関するメタデータであり、複合オブジェクトがどのように合わされるか、例えばページがどのように順序づけられて章を形成するかを示す。デジタル素材のタイプ、バージョン、関係、および他の特性を説明する。管理メタデータは、いつどのように作成されたか、ファイルタイプおよび他の技術情報、ならびに誰がアクセスできるかなど、リソースの管理を助ける情報を提供する。参照メタデータは、統計的データの内容および品質を説明する。統計的メタデータはまた、統計的データを収集、処理、または生成するプロセスを説明してもよく、かかるデータはプロセスデータとも呼ばれる。更に、メタデータ（１０３）は、複数の変数のデータ型を識別する規則セット、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきを表示するための１つ以上のグラフ表示（１１１）、およびグラフ表示（１１１）がサポートする１つ以上のデータ型、ならびに複数の変数に対する目標変数（１０２）のばらつきを解析する１つ以上のデータ解析方法、および対応するデータ解析方法がサポートする１つ以上のデータ型のうち、少なくとも１つを含む。図５Ａの表に示されるように、メタデータ（１０３）は、データセット（１０１）における複数の変数のデータ型を識別する１つ以上の規則を含む。例えば、図５Ａの表の行１を考えると、整数型またはｄｏｕｂｌｅ型の値を有するデータセット（１０１）の１つ以上の変数（８０５）は、数値データ型などとして識別される。図５Ｂの表に示されるように、メタデータ（１０３）は、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきを表示するための、１つ以上のグラフ表示（１１１）を含む。例えば、図５Ｂの表の列１を考えると、Ｘ軸を表す数値およびカテゴリデータ型と、Ｙ軸を表す数値データ型とに対して、「棒グラフ」などが使用される。図５Ｃの表に示されるように、メタデータ（１０３）は、複数の変数に対する目標変数（１０２）のばらつきを解析する１つ以上のデータ解析方法と、対応するデータ解析方法がサポートする１つ以上のデータ型とを含む。例えば、図５Ｃの表の列１を考えると、時間または数値のデータ型の複数の変数に対する、時間または数値のデータ型の目標変数（１０２）のばらつきに関して、ばらつきを解析するのに「時系列解析（６０６）」方法が使用され、ばらつきなどを表すのに折れ線グラフまたは棒グラフが使用される。

一実施形態では、正常値データセット（２０５）は、複数の変数に対する対応するデータ型の目標変数（１０２）のばらつきにおける異常値として識別された行を除外した、データセット（１０１）の行および列のサブセットを含む。更に、正常値データセット（２０５）は、１つ以上のデータ型に対応する目標変数（１０２）のばらつきによって取得される、正常値データセット（２０５）の集計を含んでもよい。

一実施形態では、異常値データセット（１０６）は、複数の変数に対する対応するデータ型の目標変数（１０２）のばらつきにおける異常値として識別された、データセット（１０１）の行および列のサブセットを含む。ばらつきの異常値は、クラスタ解析（６０１）、四分位解析（６０４）、および時系列解析（６０６）のうち少なくとも１つを含む、１つ以上のデータ解析方法に基づいて識別される。更に、異常値は、各ばらつきの複数のデータ点から逸脱した少なくとも１つのデータ点を示す。更に、異常値データセット（１０６）は、１つ以上のデータ型に対応する目標変数（１０２）のばらつきによって取得される、異常値データセット（１０６）の集計を含んでもよい。

一実施形態では、識別された変数（１０８）は、複数の変数に対して実施される１つ以上の統計的解析に基づいて、検出された１つ以上の異常を引き起こす複数の変数から、１つ以上の変数（８０５）を含む。１つ以上の統計的解析は、相関解析（８０１）、回帰、および学習アルゴリズムのうち少なくとも１つを含む。例えば、図４Ａの表を考えると、「所在地」変数は、検出された１つ以上の異常（例えば、１ヶ月間の多い取引数量）を引き起こす複数の変数からの、１つ以上の変数として識別されてもよい。

一実施形態では、他のデータ（２０６）は、クラスタ解析（６０１）、四分位解析（６０４）、および時系列解析（６０６）のうち少なくとも１つを含む、１つ以上のデータ解析方法と、相関解析（８０１）、回帰、および学習アルゴリズムのうち少なくとも１つを含む、１つ以上の統計的解析とに関するデータを含んでもよい。更に、他のデータ（２０６）は、ばらつきにおける２つのデータ点間の距離測定値（６０３）に関するデータ、上位および下位四分位の間の四分位間距離（６０５）を計算し比較したデータ、ならびに上限および下限の間の予測限界値（６０７）を計算し比較したデータを含んでもよい。

いくつかの実施形態では、データ（２０４）は、様々なデータ構造の形態でメモリ（２０２）に格納されてもよい。それに加えて、データ（２０４）は、関係または階層データモデルなどのデータモデルを使用して組織されてもよい。他のデータ（２０６）は、ランキングシステム（２００）の様々な機能を実施するためにモジュール（２０７）によって生成される、一時データおよび一時ファイルを含むデータを格納してもよい。

いくつかの実施形態では、メモリ（２０２）内のデータ（２０４）は、ランキングシステム（２００）のモジュール（２０７）によって処理されてもよい。モジュール（２０７）はメモリ（２０２）内に格納されてもよい。一例では、ランキングシステム（２００）内に構成されたプロセッサ（２０３）に通信可能に連結されたモジュール（２０７）は、図２に示されるように、メモリ（２０２）の外部にも存在し、ハードウェアとして実現されてもよい。本明細書で使用するとき、モジュール（２０７）という用語は、特定用途向け集積回路（ＡＳＩＣ）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、電子回路、１つもしくは複数のソフトウェアまたはファームウェアプログラムを実行するプロセッサ（２０３）（共有、専用、もしくはグループ）およびメモリ（２０２）、組み合わせ論理回路、ならびに／あるいは記載の機能性を提供する他の適切な構成要素を指してもよい。他のいくつかの実施形態では、モジュール（２０７）は、ＡＳＩＣおよびＦＰＧＡのうち少なくとも１つを使用して実現されてもよい。

一実現例では、モジュール（２０７）は、例えば、異常値検出部（１０５）、変数識別部（１０７）、出力モジュール（２０９）、入力モジュール（２０８）、ランキング部（１０９）、および他のモジュール（２１０）を含んでもよい。かかる上述のモジュール（２０７）は、単一のモジュールまたは異なるモジュール（２０７）の組み合わせとして表されてもよいことが理解できる。

一実施形態では、異常値検出部（１０５）は、適用された少なくとも１つのデータ解析方法の結果に基づいて、複数の変数に存在する異常値を識別するのに使用される。異常値は、各ばらつきの複数のデータ点から逸脱した少なくとも１つのデータ点を示す。１つ以上のデータ解析方法は、クラスタ解析（６０１）、四分位解析（６０４）、および時系列解析（６０６）のうち少なくとも１つを含む。例えば、検出された異常値は、図７Ａ、図７Ｂ、および図７Ｃに示される。

一実施形態では、変数識別部（１０７）は、複数の変数に対して実施される１つ以上の統計的解析に基づいて、検出された１つ以上の異常を引き起こす複数の変数から、１つ以上の変数（８０５）を識別するのに使用される。最初に、変数識別部（１０７）は、１つ以上の統計的解析から少なくとも１つの統計的解析を、集計された異常値データセット（１０６）、および異常値を有さない複数の変数の集計された正常値データセット（２０５）に適用する。更に、変数識別部（１０７）は、集計された異常値データセット（１０６）、および異常値を有さない複数の変数の集計された正常値データセット（２０５）に対する、統計的解析の結果の間の差を計算することによって、１つ以上の変数（８０５）を識別する。１つ以上の統計的解析は、相関解析（８０１）、回帰、および学習アルゴリズムのうち少なくとも１つを含む。例えば、図４Ａの表を考えると、「所在地」変数は、検出された１つ以上の異常（例えば、１ヶ月間の多い取引数量）を引き起こす複数の変数からの、１つ以上の変数として識別されてもよい。

一実施形態では、ランキング部（１０９）は、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきに、ランクを割り当てることに関与する。ランクは、集計された異常値データセット（１０６）、および異常値を有さない複数の変数の集計された正常値データセット（２０５）に対する、統計的解析の結果の間の計算された差に基づいて割り当てられる。更に、グラフ表示（１１１）は、１つ以上のグラフ表示（１１１）から選択され、ばらつきは、出力モジュール（２０９）を使用してユーザに対して表示される。

一実施形態では、出力モジュール（２０９）は、ランキング部（１０９）によって割り当てられたランクに基づいて、識別された１つ以上の変数（８０５）それぞれに対する、目標変数（１０２）のばらつきそれぞれのグラフ表示（１１１）を表示することに関与する。更に、ランク付けされたグラフ表示（１１１）がユーザに対して表示されることによって、ユーザは、データセット（１０１）における異常の根本原因を検出することができる。

一実施形態では、入力モジュール（２０８）は、データセット（１０１）における異常の根本原因を検出するため、データセット（１０１）からの複数の変数およびデータセット（１０１）における目標変数（１０２）を取得することに関与する。

一実施形態では、他のモジュール（２１０）は、ばらつきにおける２つのデータ点間の距離を測定すること、データ点とデータ点群との間の距離を測定すること、上位および下位四分位の間の四分位間距離（６０５）を計算し比較すること、ならびに上限および下限の間の予測限界値（６０７）を計算し比較することに関与する。

図３は、本開示のいくつかの実施形態による、データセット（１０１）における異常の根本原因を検出する方法を示すフローチャートを示している。

方法（３００）が記載される順序は、限定として解釈されることを意図するものではなく、方法を実現するのに、任意の数の記載される方法ブロックが任意の順序で組み合わされてもよい。それに加えて、個々のブロックは、本明細書に記載する主題の趣旨および範囲から逸脱することなく、方法から削除されてもよい。更に、方法は、任意の適切なハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実現されてもよい。

ステップ（３０１）で、ランキングシステム（２００）は、データセット（１０１）からの複数の変数と、データセット（１０１）における目標変数（１０２）とをユーザから取得する。データセット（１０１）の列は複数の変数を構成し、データセット（１０１）の各行は複数の変数が取る値を構成する。例示のデータセット（１０１）が図４Ａの表に示される。ユーザから取得した目標変数（１０２）は、データセットにおける複数の変数からの１つの変数に対応する。例えば、ユーザから取得したデータセット（１０１）からの目標変数（１０２）として、「取引数量」を考える。

一実施形態では、データセット（１０１）からの複数の変数は、複数の変数のメタデータ（１０３）に基づいて、１つ以上のデータ型に集計される。メタデータ（１０３）は、複数の変数の１つ以上のデータ型を識別するための、１つ以上の規則を含んでもよい。１つ以上のデータ型は、数値データ型、カテゴリデータ型、時間データ型、および空間データ型のうち少なくとも１つを含む。

図４Ａの表に示されるように、「日付」および「取引数量」は数値データ型として識別され、「加盟店ＩＤ」、「顧客ＩＤ」、「所在地」、および「加盟店業種コード（ＭＣＣ）」はカテゴリデータ型として識別される。複数の変数のデータ型は、図５Ａの表に示されるように、メタデータ（１０３）に基づいて識別される。更に、図４Ｂの表に示されるように、「取引数量」に対する複数の変数のカテゴリデータ型に対応する集計されたカテゴリデータセット（１０４Ｂ）が取得され、図４Ｃの表に示されるように、「取引数量」に対する複数の変数の数値データ型に対応する集計された数値データセット（１０４Ａ）が取得される。

ステップ（３０２）で、ランキングシステム（２００）は、複数の変数に対する目標変数（１０２）のばらつきを識別して、ばらつきに存在する異常値に基づいて、ばらつきにおける１つ以上の異常を検出する。図６に示されるように、１つ以上の異常は、複数の変数のデータ型に基づいて、１つ以上のデータ解析方法から少なくとも１つのデータ解析方法を各ばらつきに適用することによって検出される。

一実施形態では、数値データセット（１０４Ａ）に対して、クラスタ解析（６０１）が適用され、カテゴリデータセット（１０４Ｂ）または空間データセット（１０４Ｄ）に対して、四分位解析（６０４）が適用され、時間データセット（１０４Ｃ）に対して、時系列解析（６０６）が適用される。クラスタ解析（６０１）は、クラスタ群（６０２）のデータ点が、他のクラスタ群（６０２）のデータ点と比較して、クラスタの他のデータ（２０６）点に類似するようにして、データセット（１０１）からのデータ点のセットをクラスタ群（６０２）にグループ化する作業である。異常値は、クラスタの中心から閾値距離よりも遠い距離では、データ点として識別される。一実施形態では、閾値距離はクラスタ間距離の半分に設定されてもよい。四分位は、データセット（１０１）のデータ点のセットを、データ点の値に基づいて４つの定義された間隔に分割するのに使用される、統計的用語である。間隔を分離するデータ点の値は、第１、第２、および第３の四分位と呼ばれる。データセット（１０１）が「２ｎ」個のデータ点を含むと仮定して、第１の四分位（Ｑ１）は、データセット（１０１）におけるｎ個の最小入力の中央値として計算され、第２の四分位（Ｑ２）は、データセット（１０１）における「２ｎ」個の入力全ての計算された中央値であり、第３の四分位（Ｑ３）は、データセット（１０１）におけるｎ個の最大入力の中央値として計算される。一実施形態では、第３の四分位（Ｑ３）は上位四分位と呼ばれ、第１の四分位（Ｑ１）は下位四分位と呼ばれる。更に、四分位間（ＩＱＲ）距離は、第３の四分位Ｑ３と第１の四分位Ｑ１との間の距離として計算される。更に、異常値は、（Ｑ１−１．５×ＩＱＲ）未満および／または（Ｑ３＋１．５×ＩＱＲ）超過の範囲のデータ点として識別される。それぞれの四分位を通るデータセット（１０１）におけるデータ点群を図式的に描くのに、箱ひげ図が使用される。図７Ｂに示されるように、箱ひげ図は、上位および下位四分位の外側にあるデータ点のばらつきを示すボックスから垂直に延在する線も有してもよい。ボックス内部の帯は第２の四分位を表す。更に、異常値は、図７Ｂに示されるように、個々の点としてプロットされてもよい。時系列は、時間順に指数化された一連のデータ点である。時系列は、連続する均等な間隔の時間点で得られるシーケンスである。したがって、時系列は離散的な時間データのシーケンスを形成する。時系列解析（６０６）は、時系列データを解析し、データの有意統計値（例えば、自己相関、相互相関、平均など）および他の特性を抽出する方法を含む。例えば、自己回帰和分移動平均（ＡＲＩＭＡ）モデルが、時系列解析を実施するのに使用されてもよい。

更に、複数の変数に存在する異常値は、適用された少なくとも１つのデータ解析方法の結果に基づいて識別される。異常値は、各ばらつきの複数のデータ点から逸脱した少なくとも１つのデータ点を示す。識別された異常値は、異常値の集計されたデータセット（１０１）、および異常値を有さない複数の変数の集計された正常値データセット（２０５）を生成するのに使用される。一実施形態では、図６に示されるように、距離基準は、クラスタ解析（６０１）によって生成された１つ以上のクラスタ群（６０２）に基づいて異常値を識別するのに使用され、四分位間距離は、四分位解析（６０４）の結果に基づいて異常値を識別するのに使用され、予測限界値（６０７）は、時系列解析（６０６）の結果に基づいて異常値を識別するのに使用される。

更に、図７Ａは、クラスタ解析（６０１）によって生成された１つ以上のクラスタ群（６０２）に基づいて、クラスタの中心に対するデータ点の距離基準を使用して識別された、例示の異常値を示している。図７Ｂは、四分位間距離（６０５）を比較することによって識別された例示の異常値を示している。図７Ｃは、時系列解析に基づいて識別された例示の異常値を示している。

図６に示されるように、識別された異常値は、データ型に対応する集計されたデータセット（１０１）から分離され、異常値データセット（１０１）に格納され、異常値データを除外したデータ型に対応する集計されたデータセット（１０１）のデータは、正常値データセット（２０５）に格納される。１つ以上のデータ型の異常値データセット（１０６）および正常値データセット（２０５）は、データ集計（６０８）によって組み合わされて、図６に示されるように、集計された異常値データセット（１０６）と、異常値を有さない複数の変数の集計された正常値データセット（２０５）とを生成する。

一実施形態では、集計された異常値データセットは、検出された１つ以上の異常に対応する。

ステップ（３０３）で、ランキングシステム（２００）は、複数の変数に対して実施される１つ以上の統計的解析に基づいて、検出された１つ以上の異常を引き起こす複数の変数から、１つ以上の変数（８０５）を識別する。一実施形態では、１つ以上の統計的解析からの少なくとも１つの統計的解析は、集計された異常値データセット（１０６）と、異常値を有さない複数の変数の集計された正常値データセット（２０５）とに適用され、集計された異常値データセット（１０６）、および異常値を有さない複数の変数の集計された正常値データセット（２０５）に対する統計的解析の結果の間の差を計算することによって、１つ以上の変数（８０５）を識別する。１つ以上の統計的解析は、相関解析（８０１）、回帰、および学習アルゴリズムのうち少なくとも１つを含む。

図８は、検出された１つ以上の異常を引き起こす複数の変数から１つ以上の変数（８０５）を識別する、例示の相関解析（８０１）を示している。相関解析（８０１）は、２つ以上の変数の間の統計的関係を識別する。異常値データセット（１０６）および目標変数（１０２）のデータ点間の相関が識別され、異常値データ相関（８０２）が生成される。正常値データセット（２０５）および目標変数（１０２）のデータ点間の相関が識別され、正常値データ相関（８０３）が生成される。相関解析（８０１）の結果は、相関係数と呼ばれる相関の数値基準を生成する。相関計数の値は−１〜＋１の範囲であり、＋１は、目標変数（１０２）に対するデータ点の強い正の相関（または一致）を示し、０は、相関（または一致）なしを示し、−１は、強い負の相関（または一致）を示す。図８に示されるように、異常値データ相関（８０２）は、相関係数＋０．９を有するＶ_１、相関係数＋０．２を有するＶ_２、および相関係数−１を有するＶ_３を示し、Ｖ_１、Ｖ_２、およびＶ_３は、異常値データセット（１０６）における複数の変数を示す。更に、正常値データ相関（８０３）は、相関係数＋０．７を有するＶ_１、相関係数＋０．３を有するＶ_２、および相関係数＋１を有するＶ_３を示し、Ｖ_１、Ｖ_２、およびＶ_３は、図８に示されるように、正常値データセット（２０５）における複数の変数を示す。更に、異常値データ相関（８０２）の相関係数と正常値データ相関（８０３）の相関係数との間の絶対相関差（８０４）が計算される。Ｖ_１は、＋０．２（｜＋０．９−０．７｜）の相関差（８０４）を有し、Ｖ_２は、＋０．１（｜＋０．２−０．３｜）の相関差（８０４）を有し、Ｖ_３は、＋２（｜−１−１｜）の相関差（８０４）を有する。最大絶対相関差（８０４）を有する変数Ｖ_３は、複数の変数に対して実施される相関解析（８０１）に基づいて、複数の変数Ｖ_１およびＶ_２と比較して、検出された１つ以上の異常値を引き起こす１つ以上の変数（８０５）として識別される。

一実施形態では、複数の変数に対して適合された回帰モデルは、検出された１つ以上の異常を引き起こす１つ以上の変数（８０５）を識別するのに使用されてもよい。回帰モデルは次の数式を使用して適合される。

Ｙ＝β_０＋β_１×Ｖ_１＋β_２×Ｖ_２＋…＋β_ｎ×Ｖ_ｎ
式中、Ｖ_１、Ｖ_２、…、Ｖ_ｎは複数の変数を示し、Ｙは目標変数（１０２）を示し、β_０、β_１、…、β_ｎは回帰モデルの重みを示す。回帰モデルは、異常値データセットおよび正常値データセット（２０５）に適合される。回帰モデルの重みの間の差は異常値データセットに適合され、正常値データセット（２０５）は計算され、閾値よりも大きい差を有する１つ以上の変数（８０５）は、複数の変数に対して実施される回帰に基づいて、検出された１つ以上の異常の原因として識別される。

一実施形態では、学習アルゴリズムを用いる決定木またはニューラルネットワークを使用して、複数の変数に対して実施される相関解析（８０１）に基づいて、検出された１つ以上の異常を引き起こす１つ以上の変数（８０５）が識別されてもよい。

ステップ（３０４）で、ランキングシステム（２００）は、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきをランク付けする。ばらつきは、異常値の集計されたデータセット（１０１）、および異常値を有さない複数の変数の集計された正常値データセット（２０５）に対する、統計的解析の結果の間の計算された差に基づいてランク付けされる。更に、グラフ表示（１１１）は、ばらつきを表示するため、メタデータ（１０３）を使用して１つ以上のグラフ表示（１１１）から選択される。更に、ばらつきはそれぞれ、割り当てられたランクに基づいて、ユーザに対して表示される。更に、ユーザは、データセット（１０１）における異常の根本原因を検出するため、ランク付けされたばらつきを使用してもよい。

一実施形態では、計算された差に基づいて、ステップ（３０３）で、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきがランク付けされる。図８に示されるように、Ｖ_３はランク１に、次いでＶ_２はランク２に、Ｖ_１はランク３に割り当てられる。更に、１つ以上のグラフ表示（１１１）から、目標変数（１０２）に対するＶ_３、目標変数（１０２）に対するＶ_２、および目標変数（１０２）に対するＶ_１のばらつきに関するグラフ表示（１１１）が、データセット（１０１）のメタデータ（１０３）を使用して選択される。図５の表２に示されるように、Ｘ軸を表す１つ以上の変数のデータ型、およびＹ軸を表す目標変数（１０２）のデータ型に基づいて、適切なチャートまたはグラフ表示（１１１）が選択される。一例として、図５の表２の列１を考えると、カテゴリまたは数値としての対応するデータ型を有する識別された１つ以上の変数（８０５）それぞれに対して、数値としての対応するデータ型を有する目標変数（１０２）のばらつきを表示するためのグラフ表示（１１１）として、棒グラフが選択される。更に、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきに対して選択されたグラフ表示（１１１）が、図１に示されるような割り当てられたランクに基づいて、ユーザに対して表示される。

一実施形態では、ユーザは、既存のドリルダウン技術を使用して異常の根本原因を識別するため、表示されたランク付けされたグラフ表示（１１１）に基づいて、１つ以上の検出された異常を選択してもよい。

一例として、異常の根本原因を検出するための分散システムのネットワークを考える。分散システムのネットワークは、ネットワークを形成するように相互接続された１つ以上の計算ノードを含む。分散システムのネットワークにおける全ての計算ノードは、例えば、ＣＰＵ利用、フリーメモリの量、ＣＰＵの入出力がブロックされた時間の割合、１秒当たりの読出しブロック数、１秒当たりの書込みブロック数などのログを生成し収集する。１つ以上の異常はログの情報を使用して検出される。１つ以上の異常は、分散システムのネットワークにおける誤り挙動、またはネットワークからの予期しない長い応答時間を含む。これらの異常は、ハードウェアの問題、ネットワーク通信の混雑、または分散システムコンポーネントにおけるソフトウェアバグによって引き起こされることがある。１つ以上の異常の検出は時系列解析を使用して行われてもよい。検出された１つ以上の異常はランク付けされ、ユーザに対して表示される。更に、異常の根本原因は、ランク付けされた１つ以上の異常に基づいてドリルダウン解析を実施することによって、検出されてもよい。

別の例として、店頭、電子商取引サイト、およびモバイルアプリのような様々なソースからカードベースの取引が実施される、銀行取引または金融サービスドメインを考える。例えば、疑わしい取引、サービス停止、ある場所における急な取引の減少など、１つ以上の異常の検出が、ランキングシステム（１０９）によって実施されてもよい。１つ以上の異常は、銀行から顧客に対するサービスの品質を低下させることがある。そのため、銀行は、取引パターンを継続的に監視して、１つ以上の異常に対する根本原因を検出し識別する必要がある。１つ以上の異常は、例えば、取引ログ、顧客関係データなど、銀行支払ネットワークに記録された情報を使用して検出されてもよい。異常、例えばある場所におけるサービス停止を考える。ランキングシステム（１０９）は、時系列およびカテゴリ解析を使用して、サービス停止を識別してもよい。検出された異常を引き起こす１つ以上の変数は、ランキングシステム（１０９）によって識別されてもよい。１つ以上の変数は、例えば、その場所における膨大なアクセスによる支払ネットワークの不具合を含んでもよい。１つ以上の識別された変数は、ランク付けされ、適切なグラフ表示（１１１）を使用してユーザに対して表示される。更に、異常の根本原因は、ランク付けされた１つ以上の異常に基づいてドリルダウン解析を実施することによって、検出されてもよい。
コンピュータシステム
図９は、本開示と一致する実施形態を実現する、例示のコンピュータシステム（９００）のブロック図を示している。一実施形態では、コンピュータシステム（９００）は、データセットにおける異常の根本原因を検出するための、変数をランク付けする方法を実現するのに使用されてもよい。コンピュータシステム（９００）は、中央処理装置（「ＣＰＵ」または「プロセッサ」）（９０２）を含んでもよい。プロセッサ（９０２）は、実行時間に動的にリソースを割り振るようにプログラムコンポーネントを実行する、少なくとも１つのデータプロセッサを含んでもよい。プロセッサ（９０２）は、統合システム（バス）コントローラ、メモリ（２０２）管理制御装置、浮動小数点装置、グラフィックス処理装置、デジタル信号処理装置などの専用処理装置を含んでもよい。

プロセッサ（９０２）は、入出力インターフェース（９０１）を介して、１つ以上の入出力（Ｉ／Ｏ）デバイス（図示なし）と連通して配設されてもよい。入出力インターフェース（９０１）は、非限定的に、音声、アナログ、デジタル、モノラル、ＲＣＡ、ステレオ、ＩＥＥＥ−（１３９）４、シリアルバス、ユニバーサルシリアルバス（ＵＳＢ）、赤外線、ＰＳ／２、ＢＮＣ、同軸、コンポーネント、複合、デジタルビジュアルインターフェース（ＤＶＩ）、高解像度マルチメディアインターフェース（ＨＤＭＩ）、ＲＦアンテナ、Ｓ−ビデオ、ＶＧＡ、ＩＥＥＥ（８０２）．ｎ／ｂ／ｇ／ｎ／ｘ、ブルートゥース（登録商標）、セルラー（例えば、符号分割多重アクセス（ＣＤＭＡ）、高速パケットアクセス（ＨＳＰＡ＋）、グローバル移動通信システム（ＧＳＭ）、ロングタームエボリューション（ＬＴＥ）、ＷｉＭａｘなど）などの、通信プロトコル／方法を用いてもよい。

入出力インターフェース（９０１）を使用して、コンピュータシステム（９００）は、１つ以上の入出力デバイスと通信してもよい。例えば、入力デバイス（９１０）は、アンテナ、キーボード、マウス、ジョイスティック、（赤外線）リモートコントロール、カメラ、カードリーダ、ファックス機、ドングル、生体認証リーダ、マイクロフォン、タッチ画面、タッチパッド、トラックボール、スタイラス、スキャナ、記憶デバイス、送受信機、ビデオデバイス／ソースなどであってもよい。出力デバイス（９１１）は、プリンタ、ファックス機、ビデオディスプレイ（例えば、陰極管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、プラズマ、プラズマディスプレイパネル（ＰＤＰ）、有機発光ダイオードディスプレイ（ＯＬＥＤ）など）、音声スピーカーなどであってもよい。

いくつかの実施形態では、コンピュータシステム（９００）は、通信ネットワーク（９０９）を通してサービスオペレータに接続される。プロセッサ（９０２）は、ネットワークインターフェース（９０３）を介して、通信ネットワーク（９０９）と連通して配設されてもよい。ネットワークインターフェース（９０３）は通信ネットワーク（９０９）と通信してもよい。ネットワークインターフェース（９０３）は、非限定的に、直接接続、イーサネット（例えば、ツイストペア１０／１００／１０００ＢａｓｅＴ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、トークンリング、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎ／ｘなどを含む、接続プロトコルを用いてもよい。通信ネットワーク（９０９）は、非限定的に、直接相互接続、ｅコマースネットワーク、ピアツーピア（Ｐ２Ｐ）ネットワーク、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、ワイヤレスネットワーク（例えば、ワイヤレスアプリケーションプロトコルを使用）、インターネット、Ｗｉ−Ｆｉなどを含んでもよい。ネットワークインターフェース（９０３）および通信ネットワーク（９０９）を使用して、コンピュータシステム（９００）は、１つ以上のサービスオペレータと通信してもよい。

いくつかの実施形態では、プロセッサ（９０２）は、記憶装置インターフェース（９０４）を介して、メモリ（９０５）（例えば、図９には図示されない、ＲＡＭ、ＲＯＭなど）と連通して配設されてもよい。記憶装置インターフェース（９０４）は、シリアルアドバンストテクノロジーアタッチメント（ＳＡＴＡ）、統合ドライブエレクトロニクス（ＩＤＥ）、ＩＥＥＥ−１３９４、ユニバーサルシリアルバス（ＵＳＢ）、ファイバーチャネル、小規模コンピュータシステムインターフェース（ＳＣＳＩ）などの接続プロトコルを用いる、非限定的に、メモリ（２０２）ドライブ、リムーバブルディスクドライブなどを含む、メモリ（９０５）に接続してもよい。メモリ（２０２）ドライブは更に、ドラム、磁気ディスクドライブ、磁気光学ドライブ、光学ドライブ、独立ディスクの冗長型アレイ（ＲＡＩＤ）、固体メモリ（２０２）デバイス、固体ドライブなどを含んでもよい。

メモリ（９０５）は、非限定的に、ユーザインターフェース（９０６）、オペレーティングシステム（９０７）、ウェブサーバ（９０８）などを含む、一連のプログラムまたはデータベースコンポーネントを格納してもよい。いくつかの実施形態では、コンピュータシステム（９００）は、本開示に記載するような、データ、変数、記録などのユーザ／アプリケーションデータ（９０６）を格納してもよい。かかるデータベースは、ＯｒａｃｌｅまたはＳｙｂａｓｅなど、フォールトトレラントで、関係型で、スケーラブルで、安全なデータベースとして実現されてもよい。

オペレーティングシステム（９０７）は、コンピュータシステム（９００）のリソース管理および操作を容易にしてもよい。オペレーティングシステムの例としては、非限定的に、ＡＰＰＬＥ（登録商標）ＭＡＣＩＮＴＯＳＨ（登録商標）ＯＳＸ（登録商標）、ＵＮＩＸ（登録商標）、ＵＮＩＸ系システム分配（例えば、ＢＥＲＫＥＬＥＹＳＯＦＴＷＡＲＥＤＩＳＴＲＩＢＵＴＩＯＮ（登録商標）（ＢＳＤ）、ＦＲＥＥＢＳＤ（登録商標）、ＮＥＴＢＳＤ（登録商標）、ＯＰＥＮＢＳＤ（登録商標）など）、ＬＩＮＵＸ（登録商標）ＤＩＳＴＲＩＢＵＴＩＯＮＳ（例えば、ＲＥＤＨＡＴ（登録商標）、ＵＢＵＮＴＵ（登録商標）、ＫＵＢＵＮＴＵ（登録商標）など）、ＩＢＭ（登録商標）ＯＳ／２（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）ＷＩＮＤＯＷＳ（登録商標）（ＸＰ（登録商標）、ＶＩＳＴＡ（登録商標）７／８、１０など）、ＡＰＰＬＥ（登録商標）ＩＯＳ（登録商標）、ＧＯＯＧＬＥ（商標）ＡＮＤＲＯＩＤ（登録商標）、ＢＬＡＣＫＢＥＲＲＹ（登録商標）ＯＳなどが挙げられる。

いくつかの実施形態では、コンピュータシステム（９００）はウェブブラウザ（９０８）格納プログラムコンポーネントを実現してもよい。ウェブブラウザ（９０８）は、ＭＩＣＲＯＳＯＦＴ（登録商標）ＩＮＴＥＲＮＥＴＥＸＰＬＯＲＥＲ（登録商標）、ＧＯＯＧＬＥ（商標）ＣＲＯＭＥ（商標）、ＭＯＺＩＬＬＡ（登録商標）、ＦＩＲＥＦＯＸ（登録商標））、ＡＰＰＬＥ（登録商標）ＳＡＦＡＲＩ（登録商標）など、ハイパーテキスト表示アプリケーションであってもよい。安全なウェブブラウジングは、セキュアハイパーテキスト転送プロトコル（ＨＴＴＰＳ）、セキュアソケットレイヤ（ＳＳＬ）、トランスポートレイヤセキュリティ（ＴＬＳ）などを使用して提供されてもよい。ウェブブラウザ（９０８）は、ＡＪＡＸ、ＤＨＴＭＬ、ＡＤＯＢＥ（登録商標）ＦＬＡＳＨ（登録商標）、ＪＡＶＡＳＣＲＩＰＴ（登録商標）、ＪＡＶＡ（登録商標）、アプリケーションプログラミングインターフェース（ＡＰＩ）などのファシリティを利用してもよい。いくつかの実施形態では、コンピュータシステム（９００）は、メールサーバ格納プロフラムコンポーネントを実現してもよい。メールサーバは、ＭｉｃｒｏｓｏｆｔＥｘｃｈａｎｇｅなどのインターネットメールサーバであってもよい。メールサーバは、アクティブサーバページ（ＡＳＰ）、ＡＣＴＩＶＥＸ（登録商標）、ＡＮＳＩ（登録商標）、Ｃ＋＋／Ｃ＃、ＭＩＣＲＯＳＯＦＴ（登録商標）、ＮＥＴ、ＣＧＩＳＣＲＩＰＴＳ、ＪＡＶＡ（登録商標）、ＪＡＶＡＳＣＲＩＰＴ（登録商標）、ＰＥＲＬ（登録商標）、ＰＨＰ、ＰＹＴＨＯＮ（登録商標）、ＷＥＢＯＢＪＥＣＴＳ（登録商標）などのファシリティを利用してもよい。メールサーバは、インターネットメッセージアクセスプロトコル（ＩＭＡＰ）、メッセージングアプリケーションプログラミングインターフェース（ＭＡＰＩ）、ＭＩＣＲＯＳＯＦＴ（登録商標）Ｅｘｃｈａｎｇｅ、ポストオフィスプロトコル（ＰＯＰ）、シンプルメールトランスファプロトコル（ＳＭＴＰ）などの通信プロトコルを利用してもよい。いくつかの実施形態では、コンピュータシステム（９００）は、メールクライアント格納プロフラムコンポーネントを実現してもよい。メールクライアントは、ＡＰＰＬＥ（登録商標）ＭＡＩＬ、ＭＩＣＲＯＳＯＦＴ（登録商標）ＥＮＴＯＵＲＡＧＥ（登録商標）、ＭＩＣＲＯＳＯＦＴ（登録商標）ＯＵＴＬＯＯＫ（登録商標）、ＭＯＺＩＬＬＡ（登録商標）ＴＨＵＮＤＥＲＢＩＲＤ（登録商標）などのメール表示アプリケーションであってもよい。

更に、１つ以上のコンピュータ可読記憶媒体が、本開示と一致する実施形態を実現するのに利用されてもよい。コンピュータ可読記憶媒体は、プロセッサ（２０３）が読取り可能な情報またはデータが格納されてもよい、任意のタイプの物理的メモリ（２０２）を指す。したがって、コンピュータ可読記憶媒体は、本明細書に記載される実施形態と一致するステップまたは段階をプロセッサに実施させる命令を含む、１つ以上のプロセッサが実行する命令を格納してもよい。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および過渡信号は除外する、即ち持続的なものと理解されるべきである。例としては、ランダムアクセスメモリ（２０２）（ＲＡＭ）、読出し専用メモリ（２０２）（ＲＯＭ）、揮発性メモリ（２０２）、非揮発性メモリ（２０２）、ハードドライブ、コンパクトディスク（ＣＤ）ＲＯＭ、デジタルビデオディスク（ＤＶＤ）、フラッシュドライブ、ディスク、および他の任意の既知の物理的記憶媒体が挙げられる。

「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」、「実施形態（ｅｍｂｏｄｉｍｅｎｔ）」、「複数の実施形態（ｅｍｂｏｄｉｍｅｎｔｓ）」、「実施形態（ｔｈｅｅｍｂｏｄｉｍｅｎｔ）」、「複数の実施形態（ｔｈｅｅｍｂｏｄｉｍｅｎｔｓ）」、「１つ以上の実施形態（ｏｎｅｏｒｍｏｒｅｅｍｂｏｄｉｍｅｎｔｓ）」、「いくつかの実施形態（ｓｏｍｅｅｍｂｏｄｉｍｅｎｔｓ）」、および「１つの実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」という用語は、別段の明示的な指定がない限り、「本発明の１つ以上の（ただし全てではない）実施形態」を意味する。

「含む」、「備える」、「有する」という用語およびそれらの変形は、別段の明示的な指定がない限り、「〜を含むがそれに限定されない」ことを意味する。

列挙される項目の一覧は、別段の明示的な指定がない限り、項目のいずれかまたは全てが相互に排他的であることを示唆しない。「ａ」、「ａｎ」、および「ｔｈｅ」という用語は、別段の明示的な指定がない限り、「１つ以上」を意味する。

互いに連通しているいくつかの構成要素を用いた実施形態の説明は、全てのかかる構成要素を要することを示唆しない。反対に、本発明の多種多様な可能性のある実施形態を例示するのに、様々な任意の構成要素が記載される。

単一のデバイスまたは物品が本明細書に記載される場合、１つを超えるデバイス／物品（それらが協働するか否かにかかわらず）が単一のデバイス／物品の代わりに使用されてもよいことが、容易に明白となるであろう。同様に、１つを超えるデバイスまたは物品（それらが協働するか否かにかかわらず）が本明細書に記載される場合、単一のデバイス／物品が１つを超えるデバイスまたは物品の代わりに使用されてもよいこと、あるいは異なる数のデバイス／物品が図示される数のデバイスまたはプログラムの代わりに使用されてもよいことが、容易に明白となるであろう。あるいは、デバイスの機能性および／または特徴は、かかる機能性／特徴を有するものとして明示的に記載されていない１つもしくは複数の他のデバイスによって具体化されてもよい。したがって、本発明の他の実施形態は必ずしもデバイス自体を含まなくてもよい。

図３の図示される動作は、特定の順序で起こる特定のイベントを示している。代替実施形態では、特定の動作は、異なる順序で実施されるか、修正されるか、または除去されてもよい。更に、上述の論理にステップが追加された上で、記載される実施形態に依然として準拠してもよい。更に、本明細書に記載される動作は連続的に起こってもよく、または特定の動作が並行して処理されてもよい。更にまた、動作は、単一の処理装置によって、または分散処理装置によって実施されてもよい。

したがって、データセット（１０１）における異常の根本原因を検出するためのランキング変数は、データセット（１０１）と関連付けられたメタデータ（１０３）を使用して、識別された１つ以上の変数（８０５）それぞれに対する目標変数（１０２）のばらつきを表示する、１つ以上のグラフ表示（１１１）を推奨する。更に、ランク付けされたグラフ表示（１１１）は、データセット（１０１）における検出された１つ以上の異常、および１つ以上の異常を引き起こす１つ以上の変数（８０５）を説明する、関連するグラフ表示（１１１）に基づいて、ドリルダウンの洞察を提供する。

最後に、本明細書で使用される言語は、基本的に可読性および教育の目的で選択されたのであり、本発明の主題を正確に描写するかまたは制限するために選択されていないことがある。したがって、本発明の範囲は、この詳細な説明によってではなく、適用の基礎となる任意のクレームによって限定されることが意図される。したがって、本発明の実施形態の開示は、以下の特許請求の範囲に記載される本発明の範囲を例示するものであって、限定するものではない。

様々な態様および実施形態について本明細書に開示してきたが、他の態様および実施形態が当業者には明白となるであろう。本明細書に開示した様々な態様および実施形態は、例示目的であって限定を意図するものではなく、真の範囲および趣旨は以下の特許請求の範囲によって示される。

１０１データセット
１０２目標変数
１０３メタデータ
１０４Ａ数値データセット
１０４Ｂカテゴリデータセット
１０４Ｃ時間データセット
１０４Ｄ空間データセット
１０５異常値検出部
１０６異常値データセット
１０７変数識別部
１０８識別された変数データセット
１０９ランキング部
１１０ランク付けされたばらつき
１１１グラフ表示
２００ランキングシステム
２０１入出力インターフェース
２０２メモリ
２０３プロセッサ
２０４データ
２０５正常値データセット
２０６他のデータ
２０７モジュール
２０８入力モジュール
（２０９）出力モジュール
（２１０）他のモジュール
６０１クラスタ解析
６０２クラスタ群
６０３距離測定値
６０４四分位解析
６０５四分位間距離と比較
６０６時系列解析
６０７予測限界値
６０８データ集計
８０１相関解析
８０２異常値データ相関
８０３正常値データ相関
８０４相関差
８０５１つ以上の変数
９００コンピュータシステム
９０１入出力インターフェース
９０２プロセッサ
９０３ネットワークインターフェース
９０４記憶装置インターフェース
９０５メモリ
９０６ユーザインターフェース
９０７オペレーティングシステム
９０８ウェブサーバ
９０９通信ネットワーク
９１０入力デバイス
９１１出力デバイス
９１２遠隔デバイス

Claims

ランキングシステム（２００）によって、データセット（１０１）からの複数の変数と、前記データセット（１０１）における目標変数（１０２）とを取得するステップと、
前記ランキングシステム（２００）によって、前記複数の変数に対する前記目標変数のばらつきを識別して、前記ばらつきに存在する異常値に基づいて、前記複数の変数に対する前記目標変数（１０２）のばらつきにおける１つ以上の異常を検出するステップと、
前記ランキングシステム（２００）によって、前記複数の変数に対して実施される１つ以上の統計的解析に基づいて、前記検出された１つ以上の異常を引き起こす前記複数の変数から、１つ以上の変数を識別するステップと、
前記ランキングシステム（２００）によって、前記識別された１つ以上の変数（８０５）それぞれに対する前記目標変数（１０２）のばらつきであって、前記データセット（１０１）における異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきを、ランク付けするステップとを含む、データセット（１０１）における異常の根本原因を検出するための、変数をランク付けする方法。
前記複数の変数が、前記複数の変数のメタデータ（１０３）に基づいて、１つ以上のデータ型に集計される、請求項１に記載の方法。
前記１つ以上のデータ型が、数値データ型、カテゴリデータ型、時間データ型、および空間データ型のうち少なくとも１つを含む、請求項２に記載の方法。
前記メタデータ（１０３）が、前記複数の変数のデータ型を識別する規則セット、前記識別された１つ以上の変数（８０５）それぞれに対する前記目標変数（１０２）のばらつきを表示するための１つ以上のグラフ表示（１１１）、およびグラフ表示（１１１）がサポートする前記１つ以上のデータ型、ならびに前記複数の変数に対する前記目標変数（１０２）のばらつきを解析する１つ以上のデータ解析方法、および対応するデータ解析方法がサポートする前記１つ以上のデータ型のうち、少なくとも１つを含む、請求項２に記載の方法。
前記１つ以上のデータ解析方法が、クラスタ解析（６０１）、四分位解析（６０４）、および時系列解析（６０６）のうち少なくとも１つを含む、請求項４に記載の方法。
前記１つ以上の異常を検出するステップが、
各ばらつきに、前記複数の変数のデータ型に基づいて、１つ以上のデータ解析方法から少なくとも１つのデータ解析方法を適用するステップと、
前記適用された少なくとも１つのデータ解析方法の結果に基づいて、前記複数の変数に存在する異常値を識別するステップとを含む、請求項４に記載の方法。
各ばらつきの前記複数のデータ点から逸脱した少なくとも１つのデータ点を示す前記異常値が、集計された異常値データセット（１０６）と、前記異常値を有さない前記複数の変数の集計された正常値データセット（２０５）とを生成するのに使用される、請求項１に記載の方法。
前記１つ以上の変数（８０５）を識別するステップが、
前記１つ以上の統計的解析から少なくとも１つの統計的解析を、集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の集計された正常値データセット（２０５）に適用するステップと、
前記集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の前記集計された正常値データセット（２０５）に対する、前記統計的解析の結果の間の差を計算することによって、前記１つ以上の変数（８０５）を識別するステップとを含む、請求項１に記載の方法。
前記１つ以上の統計的解析が、相関解析（８０１）、回帰、および学習アルゴリズムのうち少なくとも１つを含む、請求項１に記載の方法。
前記識別された１つ以上の変数（８０５）それぞれに対する前記目標変数（１０２）の前記ばらつきのランク付けが、集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の集計された正常値データセット（２０５）に対する、統計的解析の結果の間の計算された差に基づいており、前記ばらつきを表示するため、前記１つ以上のグラフ表示（１１１）からグラフ表示（１１１）が選択される、請求項１に記載の方法。
プロセッサ（２０３）と、
前記プロセッサに通信可能に連結され、前記プロセッサ（２０３）の命令を格納するメモリ（２０２）とを備え、該命令が実行されると、前記プロセッサ（２０３）が、
データセット（１０１）からの複数の変数と、前記データセット（１０１）における目標変数（１０２）とを取得し、
前記複数の変数に対する前記目標変数（１０２）のばらつきを識別して、前記ばらつきに存在する異常値に基づいて、前記複数の変数に対する前記目標変数（１０２）のばらつきにおける１つ以上の異常を検出し、
前記複数の変数に対して実施される１つ以上の統計的解析に基づいて、前記検出された１つ以上の異常を引き起こす前記複数の変数から、１つ以上の変数（８０５）を識別し、
前記識別された１つ以上の変数（８０５）それぞれに対する前記目標変数（１０２）のばらつきであって、前記データセット（１０１）における異常の根本原因を検出するためのランク付けに基づいてそれぞれ表示されるばらつきをランク付けする、ランキングシステム（２００）。
前記プロセッサ（２０３）が、前記複数の変数のメタデータ（１０３）に基づいて、前記取得された複数の変数を１つ以上のデータ型に集計するように構成された、請求項１１に記載のランキングシステム（２００）。
前記１つ以上のデータ型が、数値データ型、カテゴリデータ型、時間データ型、および空間データ型のうち少なくとも１つを含む、請求項１２に記載のランキングシステム（２００）。
前記メタデータ（１０３）が、前記複数の変数のデータ型を識別する規則セット、前記識別された１つ以上の変数（８０５）それぞれに対する前記目標変数（１０２）のばらつきを表示するための１つ以上のグラフ表示（１１１）、およびグラフ表示（１１１）がサポートする前記１つ以上のデータ型、ならびに前記複数の変数に対する前記目標変数（１０２）のばらつきを解析する１つ以上のデータ解析方法、および対応するデータ解析方法がサポートする前記１つ以上のデータ型のうち、少なくとも１つを含む、請求項１２に記載のランキングシステム（２００）。
前記１つ以上のデータ解析方法が、クラスタ解析（６０１）、四分位解析（６０４）、および時系列解析（６０６）のうち少なくとも１つを含む、請求項１４に記載のランキングシステム（２００）。
前記プロセッサ（２０３）が、前記１つ以上の異常を検出するように構成され、
各ばらつきに、前記複数の変数のデータ型に基づいて、１つ以上のデータ解析方法から少なくとも１つのデータ解析方法を適用するステップと、
前記適用された少なくとも１つのデータ解析方法の結果に基づいて、前記複数の変数に存在する異常値を識別するステップとを含む、請求項１１に記載のランキングシステム（２００）。
前記プロセッサ（２０３）が、前記複数の変数における識別された異常値に基づいて、集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の集計された正常値データセット（２０５）を生成するように構成され、更に前記異常値が、各ばらつきの前記複数のデータ点から逸脱した少なくとも１つのデータ点を示す、請求項１１に記載のランキングシステム（２００）。
前記プロセッサ（２０３）が、前記１つ以上の変数（８０５）を識別するように構成され、
前記１つ以上の統計的解析から少なくとも１つの統計的解析を、集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の集計された正常値データセット（２０５）に適用するステップと、
前記集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の前記集計された正常値データセット（２０５）に対する、前記統計的解析の結果の間の差を計算することによって、前記１つ以上の変数（８０５）を識別するステップとを含む、請求項１１に記載のランキングシステム（２００）。
前記１つ以上の統計的解析が、相関解析（８０１）、回帰、および学習アルゴリズムのうち少なくとも１つを含む、請求項１１に記載のランキングシステム（２００）。
前記プロセッサ（２０３）が、集計された異常値データセット（１０６）、および前記異常値を有さない前記複数の変数の集計された正常値データセット（２０５）に対する、統計的解析の結果の間の計算された差に基づいて、前記識別された１つ以上の変数（８０５）それぞれに対して、前記目標変数（１０２）の前記ばらつきをランク付けするように構成され、前記ばらつきを表示するため、前記１つ以上のグラフ表示（１１１）からグラフ表示（１１１）が選択される、請求項１１に記載のランキングシステム（２００）。