JP2022514509A

JP2022514509A - データ異常を検出および解釈するための方法、ならびに関連システムおよびデバイス

Info

Publication number: JP2022514509A
Application number: JP2021533631A
Authority: JP
Inventors: アマンダクレアシェルズ，; ジェレミーアチン，; ザッカリーアルバートマイヤー，; シャビエルコノート，
Original assignee: データロボット，インコーポレイテッド
Priority date: 2018-12-13
Filing date: 2019-12-13
Publication date: 2022-02-14
Also published as: WO2020124037A1; US20210103580A1; US11386075B2; KR20210145126A; EP3895096A1; AU2019398468A1; SG11202106314VA

Abstract

異常検出方法であって、該方法は、複数のデータサンプルを備えるデータセットを取得することであって、複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる、ことと、特徴のそれぞれの個別のデータタイプを識別することと、特徴のうちの１つ以上のものの個別のデータタイプに基づいて、異常検出ブループリントを自動的に発生させることであって、異常検出ブループリントは、異常検出プロシージャをエンコードする機械実行可能モジュールを備え、異常検出プロシージャは、複数のタスクを含み、タスクのうちの１つ以上のものは、データセットのサイズおよび／または１つ以上の特徴の個別のデータタイプに基づいて選択される、ことと、機械実行可能モジュールを実行し、それによって、異常検出プロシージャを実施することとを含む。

Description

（関連出願の相互参照）
本願は、参照することによってその全体として本明細書に組み込まれる、「ＭｅｔｈｏｄｓｆｏｒＤｅｔｅｃｔｉｎｇａｎｄＩｎｔｅｒｐｒｅｔｉｎｇＤａｔａＡｎｏｍａｌｉｅｓ，ａｎｄＲｅｌａｔｅｄＳｙｓｔｅｍｓａｎｄＤｅｖｉｃｅｓ」と題され、代理人整理番号ＤＲＢ－０１０ＰＲの下で２０１８年１２月１３日に出願された、米国仮特許出願第６２／７７９，１７２号の優先権および利益を主張する。

本開示は、概して、データ分析のためのシステムおよび技法に関する。いくつかの実施形態は、具体的には、機械学習を使用し、データ異常を予測および／または解説するためのシステムならびに技法に関する。

多くの団体および個人は、それらの運営を改良する、および／またはそれらの意思決定を補助するために、電子データを使用する。例えば、多くの企業は、取引を実行すること、入力および出力を追跡すること、または製品を市場に出すこと等の種々のビジネスプロセスの効率を向上させるために、データ管理技術を使用する。別の実施例として、多くの事業は、ビジネスプロセスの業績を評価するため、プロセスを改良する労力の有効性を測定するため、またはプロセスを調節する方法を決定するために、運営データを使用する。

ある場合には、電子データが、問題または機会を予測するために使用されることができる。具体的には、いくつかの団体が、過去に起こったことを表す運営データを使用し、予測モデルを構築する。予測モデルによって予測される成果に基づいて、団体は、決定を行う、プロセスを調節する、または他の措置を講じることができる。例えば、保険会社が、将来の請求をより正確に予想する予測モデル、または保険契約者が競合保険業者に切り替えることを考慮しているときを予測する予測モデルを構築しようとし得る。自動車製造業者が、新しい車のモデルの需要をより正確に予想する予測モデルを構築しようとし得る。消防署が、火事の危険性が高い日を予想する、または火事の危険に曝されている構造物を予想する、予測モデルを構築しようとし得る。

予測モデル化では、観察されたデータにおいて識別されるパターンが、新しいまたは未知の成果を予測するために使用される。いくつかの予測モデルは、予測モデルが、観察されたデータの既知の成果に基づいて予測を行うように訓練される、「教師あり学習」に依拠する。
しかしながら、時として、成果は、未知であり、予測モデル化の目標は、データの中のパターンを識別することである。本プロセスは、「教師なし学習」として公知である。

異常検出は、概して、データセットノルム（例えば、珍しいまたは予想外のアイテムもしくはイベント）と有意に異なる、データの中のアイテムまたはイベントを識別するプロセスを指す。異常検出技法は、概して、予期されるパターンに準拠していないアイテムまたはイベントを識別しようとする。多くの場合、異常は、製造欠陥、データ品質エラー、または不正挙動等の明確に異なる明白な問題に変換され得る。

多くの団体が、第１の防衛線として予測モデルに依拠し、さらなる精査および／または処理に値する異常データのインスタンス（例えば、異常イベントまたはアクティビティを表す）にフラグを付ける。例えば、予測モデルが、さらなる精査のために異常な保険金請求を識別し、異常な請求が不正であり、拒否されるべきであるかどうかを決定するために、使用されることができる。別の実施例として、予測モデルが、さらなる精査のために異常なクレジットカード請求を識別し、請求が不正であるかどうか、およびクレジットカードアクティビティがさらなる不正請求を防止するように一時停止されるべきであるかどうかを決定するために、使用されることができる。さらに別の実施例として、予測モデルが、さらなる精査のためにネットワークアクセス（または他のコンピュータベースのアクティビティ）の異常な発生を識別し、アクセス（またはアクティビティ）がセキュリティ脅威であるかどうか、およびアラートが発せられるべきかどうかを決定するために、使用されることができる。

しかしながら、多くの予測モデル化用途に対して、異常検出は、微妙であり、したがって、実装のための特別な考慮事項を正当化する傾向がある。例えば、異常検出のための最適なプロセスが、ユースケースによって有意に変動し得るだけではなく、ユースケースを認識しても、好適な異常検出プロセス（例えば、最良の異常検出プロセス）を識別することは困難であり得る。さらに広げると、好適な異常検出プロセスの識別は、時間がかかり得、歴史的に、熟練したデータ科学者の専門知識に大きく依拠してきた。別の実施例として、異常データサンプルが予測されることになる、多くのデータセットは、フリーテキストデータを含む、多変量データタイプを含む。そのようなフリーテキストデータの処理は、上記に説明されるように、時間がかかり、熟練したデータ科学者の専門知識に依拠し得るだけではなく、計算上高価でもあり得る。さらに、単に異常データサンプルを識別することに加えて、システム改良が実装され得るように、異常検出プロセスが、特定のデータサンプルが異常として識別された理由に関して論拠を提供することが望ましくあり得る。例えば、ある場合には、データサンプルが、不完全な論拠（例えば、データドリフト）に基づいて、異常として識別され得る。異常検出のための論拠を識別しないと、不正確な異常検出が、チェックされずに継続し得る。

さらに別の実施例として、多くの現在の異常検出プロセスは、例えば、以下等の種々のユースケースにおける異常検出のために非好適であり得る、教師あり機械学習に依拠する。
・多数の取引が存在し、ごく少数のみが調査を要求し、訓練データを極めて不均衡にする、ユースケース。
・グラウンドトゥルースが利用可能ではなく、したがって、訓練するべき成果が存在しない、ユースケース。
・人間がそれらを適切に標識化することを要求する、大量のデータが存在する、ユースケース。そのような標識化は、高価および時間がかかるものの両方である。
・訓練データ品質が低く、予測モデルを構築する前に外れ値の除去を要求する、ユースケース。
・システムオペレータが、予防措置を講じ得るように、システムの障害に先立ってアラートされる必要がある、ユースケース。
・ユーザ挙動が、例えば、広告キャンペーンからの影響または悪意への移行に起因して経時的に変化する、ユースケース。

要約すると、異常検出によって引き起こされる課題は、特定のソリューションを必要とする。しかしながら、異常検出のための現在のソリューションは、上記の課題を十分に考慮しておらず、したがって、これらの課題に対処する方略を組み込むことができていない。本欠点を軽減するために、本開示は、異常データサンプルの正確かつ効率的な検出を可能にする、一式の異常検出技法を提供する。

上記に議論されるように、異常検出のための現在のソリューションは、異常検出の種々の一意の課題に十分に対処しない。したがって、本開示は、異常検出のための改良された方法を提供する。本明細書に開示される１つの方法は、複数のデータサンプルから異常データサンプルを自動的に予測するステップを提供する。本明細書に開示される別の方法は、複数のデータサンプルから異常データサンプルを予測するステップを提供し、各データサンプルは、フリーテキストデータタイプを有する１つ以上の特徴、および非テキストデータタイプを有する１つ以上の特徴と関連付けられる。本明細書に開示される別の方法は、複数の異なる異常検出技法を使用して、複数のデータサンプルから異常データサンプルを予測するステップを提供する。本明細書に開示される別の方法は、異常としてデータサンプルの識別に最も寄与するデータサンプルの特徴を識別するステップを提供する。本明細書に開示される別の方法は、教師あり機械学習モデルのためのデータセットを発生させるステップを提供する。本明細書に開示される別の方法は、教師あり機械学習モデルを訓練するための訓練データセットを精緻化するステップを提供する。

一般に、本明細書に説明される主題の１つの革新的側面は、複数のデータサンプルを備える、データセットを取得するステップを含む、異常検出方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。本方法はさらに、随意に、データセットのサイズを識別するステップと、特徴のそれぞれの個別のデータタイプを識別するステップと、特徴のうちの１つ以上のものの個別のデータタイプに基づいて、随意に、データセットの識別されたサイズに基づいて、異常検出ブループリントを自動的に発生させるステップとを含む。異常検出ブループリントは、異常検出プロシージャをエンコードする、機械実行可能モジュールを備える。異常検出プロシージャは、複数のタスクを含む。タスクのうちの１つ以上のものは、１つ以上の特徴の個別のデータタイプに基づいて、随意に、データセットの識別されたサイズに基づいて、選択される。本方法はさらに、機械実行可能モジュールを実行し、それによって、異常検出プロシージャを実施するステップを含む。異常検出プロシージャを実施するステップは、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップを含む。

本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および１つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。１つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ（例えば、１つ以上の記憶デバイス内に記憶された命令）を有することにより、特定のアクションを実施するように構成されることができる。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、１つ以上の特徴は、特定の特徴を含む。特定の特徴の識別されたデータタイプは、数値データタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャは、数値データタイプを有する特定の特徴に関して、複数のデータサンプルの個別の値の正規化、標準化、またはｒｉｄｉｔ変換を実施するタスクを含まなくてもよい。

いくつかの実施形態では、１つ以上の特徴は、特定の特徴を含む。特定の特徴のデータタイプは、数値データタイプであり得る。そのような実施形態では、複数のデータサンプルは、１つ以上の第１のデータサンプルと、１つ以上の第２のデータサンプルとを含むことができ、第１のデータサンプル毎の特定の特徴の個別の値は、欠落しており、第２のデータサンプル毎の特定の特徴の個別の値は、欠落していない。異常検出ブループリントに対応する異常検出プロシージャのタスクは、第１のデータサンプルのそれぞれの特定の特徴の個別の欠落した値を、第２のデータサンプルに関する特定の特徴の欠落していない値の中央値と置換するステップを含む、欠落した値の補定タスクを含むことができる。

いくつかの実施形態では、１つ以上の特徴は、特定の特徴を含む。複数のデータサンプルは、１つ以上のデータサンプルを含むことができ、特定の特徴に関する個別の値は、欠落している。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、新しい特徴を特徴のセットに追加し、複数のデータサンプル毎に新しい特徴の個別の値を決定するステップを含む、特徴工学タスクを含むことができる。複数のデータサンプル毎の新しい特徴の個別の値は、個別のデータサンプルが特定の特徴に関する値が欠落しているかどうかを示すことができる。

複数のデータサンプルが、１つ以上のデータサンプルを含み、特定の特徴に関する個別の値が、欠落しており、特徴工学タスクが、実施される、ある実施形態では、複数のデータサンプルはそれぞれ、標識の個別の値とさらに関連付けられることができる。複数のデータサンプル毎の標識の個別の値は、データサンプルの公知の異常性を示す。さらに、異常検出ブループリントに対応する異常検出プロシージャのタスクはさらに、複数のデータサンプル毎に個別の異常スコアを取得するステップと、異常スコアに基づいて、複数のデータサンプルから異常データサンプルのセットを識別するステップとを含むことができる。データサンプル毎の個別の異常スコアは、データサンプルが異常である、予測される程度を示す。異常検出方法のアクションはさらに、複数のデータサンプル毎に、個別の異常スコアまたは個別の異常分類と標識の個別の値との間の相関を決定するステップを含むことができる。相関が閾値相関未満であることに応答して、方法のアクションはさらに、複数のデータサンプルから異常データサンプルのセットを除去するステップを含むことができる。そうでなければ、相関が少なくとも閾値相関であることに応答して、方法のアクションはさらに、複数のデータサンプルの中の異常データサンプルのセットを留保するステップを含むことができる。

いくつかの実施形態では、１つ以上の特徴は、特定の特徴を含む。特定の特徴のデータタイプは、カテゴリデータタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、複数のデータサンプル毎に、カテゴリデータタイプを有する特定の特徴の個別の値を、複数のデータサンプルの中の特定の特徴の個別の値の発生の個別の頻度と置換するステップを含む、特徴工学タスクを含むことができる。

いくつかの実施形態では、１つ以上の特徴は、１つ以上の特定の特徴を含む。１つ以上の特定の特徴のデータタイプは、フリーテキストデータタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、複数のデータサンプルに関するフリーテキストデータタイプを有する、１つ以上の特定の特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップを含む、特徴工学タスクを含むことができる。次いで、特徴工学タスクはさらに、サンプル用語行列を発生させるステップを含むことができる。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、フリーテキストデータタイプを有する１つ以上の特定の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。

サンプル用語行列が、フリーテキストデータタイプを有する、１つ以上の特定の特徴に関して、発生される、ある実施形態では、特徴工学タスクはさらに、特徴のセットの中の１つ以上の特定の特徴を工学的特徴と置換するステップを含むことができる。次いで、特徴工学タスクはさらに、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するサンプル用語行列の行に設定するステップを含むことができる。

特徴のセットの中の１つ以上の特定の特徴が工学的特徴と置換される、ある実施形態では、組み合わせられたフリーテキストコーパス内の一意の用語の数は、５，０００を上回り得、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語の中の一意の用語の数は、５，０００であり得、サンプル用語行列の列の数は、５，０００であり得る。

特徴のセットの中の１つ以上の特定の特徴を、サンプル用語行列の行に設定される値を有する工学的値と置換するのではなく、サンプル用語行列が発生される、ある実施形態では、特徴工学タスクはさらに、サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、特徴のセットの中の１つ以上の特定の特徴を工学的特徴と置換するステップと、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。

いくつかの実施形態では、１つ以上の特徴は、１つ以上の特定の特徴を含む。１つ以上の特定の特徴のそれぞれのデータタイプは、フリーテキストデータタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、フリーテキストデータタイプを有する、１つ以上の特定の特徴毎に、複数のデータサンプルに関して、個別の特定の特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップと、サンプル用語行列を発生させるステップとを含む、特徴工学タスクを含むことができる。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、個別の特定の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。

サンプル用語行列が、フリーテキストデータタイプを有する、１つ以上の特定の特徴毎に発生される、ある実施形態では、特徴工学タスクはさらに、フリーテキストデータタイプを有する、１つ以上の特定のそれぞれに対応するサンプル用語行列毎に、サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、フリーテキストデータタイプを有する、１つ以上の特定のそれぞれに対応するサンプル用語行列毎に、特徴のセットの中の個別の特定の特徴を個別の工学的特徴と置換するステップと、複数のデータサンプル毎に、個別の工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。

いくつかの実施形態では、異常データサンプルのセットは、少なくとも部分的に、データセットの中のデータサンプルの数および／またはデータセットの記憶サイズに基づいて、異常選択プロセスの群から選択される、異常検出プロセスを使用して識別される。データセットの中のデータサンプルの数は、第１のサンプル数閾値未満であり得、データセットの記憶サイズは、記憶サイズ閾値未満であり得る。そのような実施形態では、異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差（ＭＡＤ）プロセス、１クラスサポートベクトルマシン（ＳＶＭ）プロセス、局所外れ値因子（ＬＯＦ）プロセス、およびマハラノビス距離プロセスから成ることができる。代替実施形態では、データセットの中のデータサンプルの数は、第１のサンプル数閾値を上回り、第２のサンプル数閾値未満であり得、データセットの記憶サイズは、記憶サイズ閾値未満であり得る。そのような実施形態では、異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差（ＭＡＤ）プロセス、およびマハラノビス距離プロセスから成ることができる。代替実施形態では、データセットの中のデータサンプルの数は、第１のサンプル数閾値および第２のサンプル数閾値を上回り得る、またはデータセットの記憶サイズは、記憶サイズ閾値を上回り得る。そのような実施形態では、異常選択プロセスの群は、二重中央値絶対偏差（ＭＡＤ）プロセスおよびマハラノビス距離プロセスから成ることができる。

いくつかの実施形態では、異常データサンプルのセットを識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含むことができる。次いで、異常データサンプルのセットを識別するステップは、複数のデータサンプルの標識の個別の値として、異常スコアをデータセットに追加し、それによって、標識データセットを発生させるステップと、教師あり異常検出モデルを標識データセットに適用し、異常データサンプルのセットを識別するステップとを含むことができる。

いくつかの実施形態では、異常データサンプルのセットを識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含むことができる。異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合を備えることができる。いくつかのそのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクはさらに、異常データサンプルの識別されたセットに基づいて、標識の個別の値を複数のデータサンプルのそれぞれに割り当てるステップを含むことができる。各データサンプルに割り当てられる標識の個別の値は、個別のデータサンプルが異常であるかどうかを示す。次いで、異常検出ブループリントに対応する異常検出プロシージャのタスクはさらに、標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、データサンプルと関連付けられる特徴の値に基づいて、データサンプルが異常であるかどうかを推論するステップを含むことができる。

一般に、本明細書に説明される主題の別の革新的側面は、複数のデータサンプルを備える、データセットを取得するステップを含む、異常検出方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。特徴のセットは、少なくとも、フリーテキストデータタイプを有する第１の特徴と、非テキストデータタイプを有する第２の特徴とを備える。本方法はさらに、少なくとも部分的に、複数のデータサンプルのそれぞれの第１および第２の特徴に関する個別の値に基づいて、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップを含む。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、方法のアクションはさらに、複数のデータサンプルに関するフリーテキストデータタイプを有する、少なくとも１つの特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップと、サンプル用語行列を発生させるステップとを含む。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、フリーテキストデータタイプを有する少なくとも第１の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。

サンプル用語行列が、フリーテキストデータタイプを有する、少なくとも第１の特徴に関して、発生される、ある実施形態では、特徴工学タスクはさらに、特徴のセットの中の少なくとも第１の特徴を工学的特徴と置換するステップを含むことができる。次いで、特徴工学タスクはさらに、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するサンプル用語行列の行に設定するステップを含むことができる。

特徴のセットの中の少なくとも第１の特徴が工学的特徴と置換される、ある実施形態では、組み合わせられたフリーテキストコーパス内の一意の用語の数は、５，０００を上回り得、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語の中の一意の用語の数は、５，０００であり得、サンプル用語行列の列の数は、５，０００であり得る。

特徴のセットの中の少なくとも第１の特徴を、サンプル用語行列の行に設定される値を有する工学的値と置換するのではなく、サンプル用語行列が発生される、ある実施形態では、特徴工学タスクはさらに、サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、特徴のセットの中の少なくとも第１の特徴を工学的特徴と置換するステップと、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。

いくつかの実施形態では、方法のアクションはさらに、フリーテキストデータタイプを有する、少なくとも第１の特徴毎に、複数のデータサンプルに関して、個別の少なくとも第１の特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップと、サンプル用語行列を発生させるステップとを含むことができる。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、個別の少なくとも第１の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。

サンプル用語行列が、フリーテキストデータタイプを有する、少なくとも第１の特徴毎に発生される、ある実施形態では、特徴工学タスクはさらに、フリーテキストデータタイプを有する、少なくとも第１の特徴のそれぞれに対応するサンプル用語行列毎に、サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、フリーテキストデータタイプを有する、少なくとも第１の特徴のそれぞれに対応するサンプル用語行列毎に、特徴のセットの中の個別の少なくとも第１の特徴を工学的特徴と置換するステップと、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。

いくつかの実施形態では、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含む。次いで、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップはさらに、複数のデータサンプルの標識の個別の値として、異常スコアをデータセットに追加し、それによって、標識データセットを発生させるステップと、教師あり異常検出モデルを標識データセットに適用し、異常データサンプルのセットを識別するステップとを含む。

いくつかの実施形態では、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含む。異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合を備える。そのような実施形態では、異常検出方法のアクションはさらに、異常データサンプルの識別されたセットに基づいて、標識の個別の値を複数のデータサンプルのそれぞれに割り当てるステップを含む。各データサンプルに割り当てられる標識の個別の値は、個別のデータサンプルが異常であるかどうかを示す。異常検出方法のアクションはさらに、標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、データサンプルと関連付けられる特徴の値に基づいて、データサンプルが異常であるかどうかを推論するステップを含むことができる。

一般に、本明細書に説明される主題の別の革新的側面は、複数の異なるソースから、データサンプルに関する個別の異常スコアを取得するステップを含む、異常検出方法で具現化されることができる。異常スコアはそれぞれ、データサンプルが個別のソースによって異常であると予測される個別の程度を示す。本方法はさらに、データサンプルの異常性の識別のための異常検出厳密性のレベルを識別するステップを含む。異常検出厳密性のレベルは、最大厳密性または最小厳密性を備える。異常検出厳密性の識別されたレベルが最小厳密性であることに応答して、かつ異常スコアのうちの少なくとも１つが第１の閾値異常スコアを上回ることに応答して、本方法はさらに、データサンプルを異常データサンプルとして識別するステップを含む。異常検出厳密性の識別されたレベルが最小厳密性であることに応答して、かつ異常スコアのうちのいずれも第１の閾値異常スコアを上回らないことに応答して、本方法はさらに、データサンプルを非異常データサンプルとして識別するステップを含む。異常検出厳密性の識別されたレベルが最大厳密性であることに応答して、かつ異常スコアのうちの少なくとも１つが第２の閾値異常スコア未満であることに応答して、本方法はさらに、データサンプルを非異常データサンプルとして識別するステップを含む。異常検出厳密性の識別されたレベルが最大厳密性であることに応答して、かつ異常スコアの全てが第２の閾値異常スコアを上回ることに応答して、本方法はさらに、データサンプルを異常データサンプルとして識別するステップを含む。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、異常検出厳密性のレベルを識別するステップは、ユーザから異常検出厳密性のレベルのインジケーションを受信するステップを含む。いくつかの実施形態では、複数の異なるソースはそれぞれ、個別の異常検出プロセスまたは異常検出モデルである。

一般に、本明細書に説明される主題の別の革新的側面は、複数のデータサンプル毎に個別の異常スコアを取得するステップを含む、異常検出方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。データサンプル毎の個別の異常スコアは、データサンプルが異常である程度を示す。分析方法はさらに、異常スコアに基づいて、複数のデータサンプルから異常データサンプルのセットを識別するステップと、異常データサンプルのセットに関して異常スコアの総和を決定するステップとを含む。決定された総和は、ベース総和である。分析方法はさらに、特徴のセットの中の特徴毎に、異常データサンプル毎に特徴の個別の値を調節し、データサンプルの異常性の査定への特徴の影響を中和し、それによって、更新された異常データサンプルを発生させるステップと、更新された異常データサンプル毎に個別の異常スコアを決定するステップと、更新された異常データサンプルに関して異常スコアの総和を決定するステップであって、総和は、特徴総和である、ステップと、ベース総和と特徴総和との間の差を決定するステップとを含む。ベース総和と特徴総和との間の差は、異常としてのデータサンプルのセットの識別への特徴の値の寄与を表す。最後に、分析方法はさらに、特徴に関する決定された差に基づいて、異常としてのデータサンプルのセットの識別に最も寄与する１つ以上の特徴を識別するステップを含む。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、複数のデータサンプル毎に個別の異常スコアを取得するステップは、異常検出モデルから複数のデータサンプル毎に個別の異常スコアを受信するステップを含み、更新されたデータサンプル毎に異常スコアを決定するステップは、異常検出モデルによって、更新されたデータサンプル毎に異常スコアを決定するステップを含む。

いくつかの実施形態では、異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合を備える。複数のデータサンプルの割合は、予期される外れ値割合を備える。いくつかの実施形態では、予期される外れ値割合は、１０％から成る。

いくつかの実施形態では、異常データサンプル毎に特徴の個別の値を調節し、データサンプルの異常性の査定への特徴の影響を中和するステップは、異常データサンプル毎の特徴の個別の値を一定値と置換するステップを含み、分析方法のアクションはさらに、異常データサンプルに関する特徴の値に基づいて、一定値を決定するステップを含む。例えば、いくつかの実施形態では、一定値を決定するステップは、特徴のデータタイプを決定するステップを含む。特徴のデータタイプが数値であることを決定することに応答して、一定値を決定するステップは、異常データサンプル毎の特徴の個別の値を、異常データサンプルに関する特徴の値の中央値と置換するステップを含むことができる。そうでなければ、特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、一定値を決定するステップはさらに、異常データサンプル毎の個別の特徴の値を、異常データサンプルの中で最高頻度において生じる特徴の値と置換するステップを含むことができる。

いくつかの実施形態では、分析方法のアクションはさらに、特徴のセットの中の特徴毎に、ベース総和と個別の特徴総和との間の正規化された差を決定するステップを含む。そのような実施形態では、異常としてのデータサンプルの識別に最も寄与する特徴は、特徴に関する正規化された差に基づいて識別される。

いくつかの実施形態では、分析方法のアクションはさらに、差に基づいて、特徴のセットの中の特徴をランク付けするステップを含む。そのような実施形態では、より高いランキングは、異常としてのデータサンプルのセットの識別への特徴のさらなる寄与を示す。

いくつかの実施形態では、複数のデータサンプルは、第１の時点と関連付けられる第１の複数のデータサンプルであり、異常データサンプルのセットは、異常データサンプルの第１のセットであり、第１の複数のデータサンプルに関する異常スコアは、第１の異常スコアであり、第２の複数のデータサンプルは、第１の時点の後の第２の時点と関連付けられる。そのような実施形態では、分析方法のアクションはさらに、第２の複数のデータサンプル毎に個別の第２の異常スコアを取得するステップを含む。第２の複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。分析方法のアクションはさらに、第２の異常スコアに基づいて、第２の複数のデータサンプルから異常データサンプルの第２のセットを識別するステップと、閾値異常スコアを上回る個別の第１の異常スコアを有する、異常データサンプルの第１のセットのうちのデータサンプルの第１の数量を決定するステップと、閾値異常スコアを上回る個別の第２の異常スコアを有する、異常データサンプルの第２のセットのうちのデータサンプルの第２の数量を決定するステップと、データサンプルの第１の数量と第２の数量との間の数量差を決定するステップとを含んでもよい。数量差の絶対値が閾値差を上回ることに応答して、分析方法のアクションはさらに、第１および第２の異常スコアが取得された、異常検出モデルを更新するステップと関連付けられる、１つ以上のアクションを実施するステップを含む。

ある実施形態では、異常検出モデルを更新するステップと関連付けられる、１つ以上のアクションは、メッセージを異常検出モデルのユーザに提供するステップを含み、メッセージは、異常検出モデルが更新されることを推奨する。ある実施形態では、異常検出モデルを更新するステップと関連付けられる、１つ以上のアクションは、第２の時点と関連付けられる第２の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させるステップを含む。

いくつかの実施形態では、第１の複数のデータサンプルおよび第２の複数のデータサンプルは、同一のエンティティと関連付けられる。代替実施形態では、第１の複数のデータサンプルおよび第２の複数のデータサンプルは、異なるエンティティと関連付けられる。

いくつかの実施形態では、分析方法のアクションはさらに、異常としてのデータサンプルの識別に最も寄与するものとして識別される特徴に基づいて、将来の異常データサンプルを識別するためのビジネスルールを決定するステップを含む。

一般に、本明細書に説明される主題の別の革新的側面は、教師なし異常検出モデルによって、複数のデータサンプル毎に個別の異常スコアを決定するステップを含む、教師あり機械学習プロセスのための特徴工学方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。データサンプル毎の個別の異常スコアは、データサンプルが異常である、予測される程度を示す。特徴工学方法はさらに、新しい特徴を特徴のセットに追加するステップであって、データサンプル毎の新しい特徴の個別の値は、各データサンプルの個別の異常スコアに基づき、それによって、更新された複数のデータサンプルを発生させるステップを含む。いくつかの実施形態では、特徴工学方法はさらに、第１の機械学習モデルを訓練し、他の更新された複数のデータサンプル毎の特徴のセットの個別の値に基づいて、別の更新された複数のデータサンプル毎に標識の個別の値を予測するステップを含む。そのような実施形態では、更新された複数のデータサンプルはそれぞれ、標識に関する個別の値とさらに関連付けられる。加えて、そのような実施形態では、第１の機械学習モデルを訓練するステップは、訓練データおよび／または検証データとして更新された複数のデータサンプルを使用する、教師あり機械学習プロセスを使用して、第１の機械学習モデルを訓練するステップを含む。代替実施形態では、特徴工学方法はさらに、第２の機械学習モデルを使用し、複数の更新されたデータサンプル毎に標識の個別の値を予測するステップを含む。

一般に、本明細書に説明される主題の別の革新的側面は、教師あり機械学習プロセスのためのデータ前処理方法で具現化されることができる。本方法は、教師あり機械学習モデルを訓練するための複数の訓練データサンプル毎に個別の異常スコアを取得するステップを含む。複数の訓練データサンプルはそれぞれ、特徴のセットに関する個別の値および標識の個別の値と関連付けられる。訓練データサンプル毎の個別の異常スコアは、データサンプルが異常である、予測される程度を示す。本方法はさらに、異常スコアに基づいて、複数の訓練データサンプルから異常訓練データサンプルのセットを識別するステップと、複数のデータサンプル毎に、個別の異常スコアまたは個別の異常分類と標識の個別の値との間の相関を決定するステップとを含む。相関が閾値相関未満であることに応答して、本方法はさらに、教師あり機械学習モデルを訓練するための複数の訓練データサンプルから異常訓練データサンプルのセットを除去するステップを含む。そうでなければ、相関が少なくとも閾値相関であることに応答して、本方法はさらに、教師あり機械学習モデルを訓練するための複数の訓練データサンプルの中の異常訓練データサンプルのセットを留保するステップを含む。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、複数の訓練データサンプル毎に個別の異常スコアを取得するステップは、異常検出モデルから複数の訓練データサンプル毎に個別の異常スコアを受信するステップを含む。そのような実施形態では、異常検出モデルは、教師なし機械学習モデルであり得る。

いくつかの実施形態では、異常訓練データサンプルのセットは、最大の異常スコアを有する、複数の訓練データサンプルの割合を備えることができる。複数の訓練データサンプルの割合は、予期される外れ値割合を備える。いくつかの実施形態では、予期される外れ値割合は、１０％から成ることができる。

いくつかの実施形態では、相関が閾値相関未満であることに応答して、方法のアクションはさらに、異常訓練データサンプルのセットに関して異常スコアの総和を決定するステップを含む。決定された総和は、ベース総和である。方法のアクションはさらに、特徴のセットの中の特徴毎に、異常訓練データサンプル毎に特徴の個別の値を調節し、訓練データサンプルの異常性の査定への特徴の影響を中和し、それによって、更新された異常訓練データサンプルを発生させるステップと、更新された異常訓練データサンプル毎に個別の異常スコアを決定するステップと、更新された異常訓練データサンプルに関して異常スコアの総和を決定するステップであって、総和は、特徴総和である、ステップと、ベース総和と特徴総和との間の差を決定するステップとを含んでもよい。ベース総和と特徴総和との間の差は、異常としての訓練データサンプルのセットの識別への特徴の値の寄与を表す。方法のアクションはさらに、特徴に関する決定された差に基づいて、異常としての訓練データサンプルのセットの識別に最も寄与する１つ以上の特徴を識別するステップを含んでもよい。

異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴が、識別される、ある実施形態では、方法のアクションはさらに、異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴を示す、メッセージをユーザに提供するステップを含むことができる。異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴が、識別される、いくつかの付加的実施形態では、更新された異常訓練データサンプル毎に異常スコアを決定するステップは、複数の訓練データサンプル毎に個別の異常スコアを決定するために使用された異常検出モデルによって、更新された異常訓練データサンプル毎に異常スコアを決定するステップを含むことができる。

異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴が、識別される、いくつかの付加的実施形態では、異常訓練データサンプル毎に特徴の個別の値を調節し、訓練データサンプルの異常性の査定への特徴の影響を中和するステップは、異常訓練データサンプル毎の特徴の個別の値を一定値と置換するステップを含むことができ、方法のアクションはさらに、異常訓練データサンプルに関する特徴の値に基づいて、一定値を決定するステップを含むことができる。そのような実施形態では、一定値を決定するステップは、特徴のデータタイプを決定するステップを含むことができる。特徴のデータタイプが数値であることを決定することに応答して、方法のアクションはさらに、異常訓練データサンプル毎の特徴の個別の値を、異常訓練データサンプルに関する特徴の値の中央値と置換するステップを含むことができる。そうでなければ、特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、方法のアクションはさらに、異常訓練データサンプル毎の個別の特徴の値を、異常訓練データサンプルの中で最高頻度において生じる特徴の値と置換するステップを含むことができる。

異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴が、識別される、いくつかの付加的実施形態では、方法のアクションはさらに、特徴のセットの中の特徴毎に、ベース総和と個別の特徴総和との間の正規化された差を決定するステップを含むことができる。そのような実施形態では、異常としての訓練データサンプルの識別に最も寄与する特徴は、特徴に関する正規化された差に基づいて識別される。

異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴が、識別される、いくつかの付加的実施形態では、方法のアクションはさらに、差に基づいて、特徴のセットの中の特徴をランク付けするステップを含むことができる。より高いランキングは、異常としての訓練データサンプルのセットの識別への特徴のさらなる寄与を示す。

上記に説明されるように、本開示の残りの全体を通して、異常検出の特別なニュアンスを考慮することによって、本発明は、より効率的かつより正確な異常検出を可能にすることができる。

いくつかの実施形態の説明、それに関する動機、および／またはその利点を含む、前述の概要は、読者が本開示を理解することを支援することを意図しており、請求項のうちのいずれの範囲もいかようにも限定しない。

本発明のこれらおよび他の特徴、側面、ならびに利点が、以下の説明および付随する図面に関して、さらに理解されることになるであろう。

図１は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システムのためのシステム環境のブロック図である。

図２は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システムのアーキテクチャのブロック図である。

図３は、ある実施形態による、異常検出システムが動作するシステム環境のブロック図である。

図４は、ある実施形態による、複数のデータサンプルから異常データサンプルを自動的に予測するための方法のフローチャートである。

図５は、ある実施形態による、各データサンプルが、フリーテキストデータタイプを有する１つ以上の特徴、および非テキストデータタイプを有する１つ以上の特徴と関連付けられる、複数のデータサンプルから異常データサンプルを予測するための方法のフローチャートである。

図６は、ある実施形態による、複数の異なるソースを使用して、複数のデータサンプルから異常データサンプルを予測するための方法のフローチャートである。

図７は、ある実施形態による、異常検出システムの入出力インターフェースの画像を描写する。

図８は、ある実施形態による、異常としてのデータサンプルの識別に最も寄与するデータサンプルの特徴を識別するための方法のフローチャートである。

図９は、ある実施形態による、異常検出システムの入出力インターフェースの画像を描写する。

図１０は、ある実施形態による、異常検出システムの入出力インターフェースの画像を描写する。

図１１は、ある実施形態による、教師あり異常検出モデルに関してデータセットを発生させるための方法のフローチャートである。

図１２は、ある実施形態による、教師あり異常検出モデルを訓練するための訓練データセットを精緻化するための方法のフローチャートである。

図１３は、ある実施形態による、本明細書に説明される方法を実装するための例示的コンピュータを図示する。

図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１４Ａ、１４Ｂ、１４Ｃ、１４Ｄ、１４Ｅ、１４Ｆ、１４Ｇ、１４Ｈ、１４Ｉ、１４Ｊ、１４Ｋ、１４Ｌ、および１４Ｍは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。

図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。図１５Ａ、１５Ｂ、１５Ｃ、１５Ｄ、１５Ｅ、１５Ｆ、１５Ｇ、１５Ｈ、１５Ｉ、１５Ｊ、および１５Ｋは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。

図は、例証のみの目的のために、種々の実施形態を描写する。当業者は、本明細書に図示される構造および方法の代替実施形態が、本明細書に説明される発明の原理から逸脱することなく採用され得ることを、以下の議論から容易に認識するであろう。

Ｉ．用語
一般に、請求項および明細書で使用される用語は、当業者によって理解される単純な意味を有するものとして解釈されることを意図している。ある用語が、付加的明確性を提供するように下記に定義される。単純な意味と提供された定義との間の対立の場合、提供された定義が、使用されることになる。

本明細書で直接定義されていない任意の用語は、本発明の技術分野内で理解されるように、それらと一般的に関連付けられる意味を有すると理解されるものとする。ある用語が、本発明の側面の組成、デバイス、方法、および同等物、ならびにそれらを作製または使用する方法を説明する際に、付加的指針を実践者に提供するように、本明細書に議論される。同一のものが１つを上回る方法で言われ得ることを理解されたい。その結果として、代替用語および同義語が、本明細書に議論される用語のうちのいずれか１つ以上のもののために使用されることができる。用語が本明細書に詳述または議論されるかどうかは、重視されない。いくつかの同義語または代用可能な方法、材料、および同等物が、提供される。１つまたはいくつかの同義語もしくは均等物の記載は、明示的に記述されない限り、他の同義語または均等物の使用を除外しない。用語の実施例を含む、実施例の使用は、例証目的のためにすぎず、本明細書の発明の側面の範囲および意味を限定しない。

本明細書および請求項で使用されるような用語「約」ならびに他の類似語句は、１つの値（Ｘ）が別の値（Ｙ）の事前決定された範囲内であることを意味すると理解されるべきである。事前決定された範囲は、別様に示されない限り、±２０％、１０％、５％、３％、１％、０．１％、または０．１％未満であり得る。

本明細書および請求項で使用されるような不定冠詞「ａ」ならびに「ａｎ」は、明確にそれとは反対に示されない限り、「少なくとも１つ」を意味すると理解されるべきである。本明細書および請求項で使用されるような語句「および／または」は、そのように接続される要素、すなわち、ある場合では接合的に存在し、他の場合では離接的に存在する要素の「いずれか一方または両方」を意味すると理解されるべきである。「および／または」を用いて列挙される複数の要素は、同一の様式で、すなわち、そのように接続される要素のうちの「１つ以上のもの」と解釈されるべきである。他の要素が、随意に、具体的に識別されるそれらの要素に関連するか、または関連しないかどうかにかかわらず、「および／または」の節によって具体的に識別される要素以外に存在し得る。したがって、非限定的実施例として、「Ａおよび／またはＢ」の言及は、「～を備える」等の非制約的な用語と併せて使用されるときに、一実施形態では、Ａのみ（随意に、Ｂ以外の要素を含む）を指し、別の実施形態では、Ｂのみ（随意に、Ａ以外の要素を含む）を指し、さらに別の実施形態では、ＡおよびＢの両方（随意に、他の要素を含む）等を指すことができる。

本明細書および請求項で使用されるように、「または」は、上記に定義されるような「および／または」と同一の意味を有すると理解されるべきである。例えば、リスト内の項目を分離するとき、「または」もしくは「および／または」は、包括的、すなわち、少なくとも１つの包含であるが、いくつかの要素または要素のリストのうちの１つを上回るもの、随意に、付加的な列挙されていない項目も含むものとして解釈されるものとする。「～のうちの１つのみ」または「～のうちの正確に１つ」、もしくは請求項で使用されるときに「～から成る」等の明確に反対に示される用語のみが、いくつかの要素または要素のリストのうちの正確に１つの要素の包含を指すであろう。一般に、使用されるような用語「または」は、「いずれか一方」、「～のうちの１つ」、「～のうちの１つのみ」、または「～のうちの正確に１つ」等の排他性の用語が先行するときに、排他的代替物（すなわち、「一方または他方であるが両方ではない」）を示すものとしてのみ解釈されるものとする。「本質的に～から成る」は、請求項で使用されるときに、特許法の分野で使用されるようなその通常の意味を有するものとする。

本明細書および請求項で使用されるように、１つ以上の要素のリストを参照した語句「少なくとも１つ」は、要素のリスト内の要素のうちのいずれか１つ以上のものから選択されるが、要素のリスト内に具体的に列挙される、ありとあらゆる要素のうちの少なくとも１つを必ずしも含まず、要素のリスト内の要素のいずれの組み合わせも除外しない、少なくとも１つの要素を意味すると理解されるべきである。本定義はまた、要素が、随意に、具体的に識別されるそれらの要素に関連するか、または関連しないかどうかにかかわらず、語句「少なくとも１つ」が指す要素のリスト内で具体的に識別される要素以外に存在し得ることも可能にする。したがって、非限定的実施例として、「ＡおよびＢのうちの少なくとも１つ」（または同等に「ＡまたはＢのうちの少なくとも１つ」、もしくは同等に「Ａおよび／またはＢのうちの少なくとも１つ」）は、一実施形態では、随意に、Ｂが存在しない、１つを上回るＡを含む（随意に、Ｂ以外の要素を含む）、少なくとも１つ、別の実施形態では、随意に、Ａが存在しない、１つを上回るＢを含む（随意に、Ａ以外の要素を含む）、少なくとも１つ、さらに別の実施形態では、随意に、１つを上回るＡを含む、少なくとも１つ、および随意に、１つを上回るＢを含む（随意に、他の要素を含む）、少なくとも１つ等を指すことができる。

用語「～を含む」、「～を備える」、「～を有する」、「～を含有する」、「～を伴う」、およびそれらの変形例は、その後に列挙される項目および付加的項目を包含するように意図されている。

請求項の要素を修飾するための請求項内の「第１の」、「第２の」、「第３の」等の序数用語の使用は、それ自体では、別の要素と比べた１つの請求項の要素のいずれの優先順位、優位性、または順序、もしくは方法の行為が実施される時間的順序も含意しない。序数用語は、ある名称を有する１つの請求項の要素を、（序数用語の使用のためであるが）同一の名称を有する別の要素と区別し、請求項の要素を区別するために、単に標識として使用される。

ＩＩ．異常検出システム概観
図１は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システム１０２のためのシステム環境１００のブロック図である。具体的には、図１に示されるように、異常検出システム１０２は、複数のデータサンプル１０１を取得（例えば、受信）し、受信された複数のデータサンプル１０１から異常データサンプル１０３を予測する。

異常検出システム１０２によって受信される各データサンプル１０１は、特徴のセットに関する値と関連付けられる。データサンプルの特徴は、データサンプルによって表される、またはそれと関連付けられるエンティティ（例えば、人物、物、イベント、アクティビティ等）の測定可能な性質であり得る。例えば、特徴は、人物の年齢であり得る。ある場合には、データサンプルの特徴は、データサンプルによって表される、またはそれと関連付けられるエンティティの説明（もしくはそれに関する他の情報）である。特徴の値は、エンティティの対応する性質の測定値またはエンティティに関する情報のインスタンスであり得る。例えば、特徴が人物の年齢である、上記の実施例では、特徴の値は、３０歳であり得る。本明細書で参照されるように、特徴の値はまた、欠落した値（例えば、値なし）を指すこともできる。例えば、特徴が人物の年齢である、上記の実施例では、人物の年齢は、欠落し得る。

特徴はまた、データタイプを有することもできる。例えば、特徴は、数値データタイプ、フリーテキストデータタイプ、カテゴリデータタイプ、または任意の他の種類のデータタイプを有することができる。上記の実施例では、年齢の特徴は、数値データタイプであり得る。一般に、特徴のデータタイプは、特徴に割り当てられ得る値のセットが有限である場合、カテゴリである。

異常データサンプルは、正常および／または予期されるデータサンプルから逸脱するデータサンプルである。具体的には、異常データサンプルは、他のデータサンプルの正常および／または予期される特徴値から逸脱する１つ以上の特徴値と関連付けられる、データサンプルである。例えば、上記の実施例を再び使用して、年齢２６歳の９人および年齢７０歳の１人を説明する複数のデータサンプルでは、年齢７０歳の人物を説明するデータサンプルは、異常データサンプルとして識別され得る。

上記に議論されるように、多くの状況では、さらなる精査および／または処理のために異常データサンプルにフラグを付けることが望ましくあり得る。例えば、異常な保険金請求が、異常な請求が不正であり、拒否されるべきであるかどうかを決定するように、さらなる精査のためにフラグを付けられることができる。別の実施例として、異常なクレジットカード請求が、請求が不正であるかどうか、およびクレジットカードアクティビティがさらなる不正請求を防止するように一時停止されるべきであるかどうかを決定するように、さらなる精査のためにフラグを付けられることができる。さらに別の実施例として、ネットワークアクセスの異常な発生が、アクセスが不正であるかどうか、およびアラートが発せられるべきかどうかを決定するように、さらなる精査のためにフラグを付けられることができる。

図１に示されるように、異常データサンプル１０３は、異常検出システム１０２によってデータサンプル１０１から予測される。異常検出システム１０２は、異常検出ブループリントを実行することによって、複数のデータサンプルから異常データサンプルを予測するように構成される。異常検出ブループリントは、タスク（例えば、ステップ）を含む異常検出プロシージャをエンコードする、機械実行可能（例えば、コンピュータ実行可能）モジュールである。より具体的には、異常検出ブループリントは、複数の選択されたタスク（例えば、ステップ）を含む異常検出プロシージャの実行を編成し、複数のデータサンプルから異常データサンプルを識別する、機械実行可能（例えば、コンピュータ実行可能）モジュールである。

異常検出プロシージャは、タスクの任意の好適なセット（例えば、一連のタスク）を含むことができる。いくつかの実施形態では、異常検出プロシージャの１つ以上のタスクは、受信されるデータサンプル１０１の品質に基づいて、異常検出システム１０２によって自動的に選択されることができる。例えば、異常検出プロシージャのタスクは、データサンプル１０１の特徴のうちの１つ以上のもののデータタイプに基づいて、および／またはデータサンプル１０１のサイズに基づいて、自動的に選択されることができる。そのような自動化は、異常検出のためのプロシージャを規定することに費やされる時間および人材の量を削減し、それによって、異常検出をより効率的かつ安価にするため、有益である。加えて、ユーザは、異常検出プロシージャの１つ以上のタスクを選択することができる。

図２に関して下記に詳細に議論されるように、異常検出プロシージャのタスクは、データサンプル１０１を異常検出システム１０２の１つ以上の異常検出モデルに入力するステップ、および／または１つ以上の異常検出モデルによって分析される前ならびに／もしくは後にデータサンプル１０１を処理するステップを含むことができる。

図２は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システム２００のアーキテクチャのブロック図である。図２に示されるように、異常検出システム２００は、異常検出ブループリント記憶部２０１と、異常検出モデル記憶部２０２と、訓練モジュール２０３と、入出力インターフェース２０４と、データサンプル記憶部２０５と、データ管理モジュール２０６とを含む。他の実施形態では、異常検出システム２００は、種々の用途のための付加的、より少ない、または異なるコンポーネントを含んでもよい。同様に、機能は、本明細書に説明されるものと異なる様式でモジュールの間に分散されることができる。ネットワークインターフェース、セキュリティ機能、ロードバランサ、フェイルオーバサーバ、管理およびネットワーク動作コンソール、ならびに同等物等の従来のコンポーネントは、システムアーキテクチャの詳細を曖昧にしないように、示されていない。

異常検出システム２００のコンポーネントに目を向けると、異常検出ブループリント記憶部２０１は、異常データサンプルを予測するために異常検出システム２００によって実行されるように構成される、１つ以上の異常検出ブループリントを記憶する。上記に議論されるように、異常検出ブループリントは、タスクを含む異常検出プロシージャをエンコードし、複数のデータサンプルから異常データサンプルを予測する、機械実行可能モジュールである。異常検出ブループリントによってエンコードされる異常検出プロシージャのタスクは、限定ではないが、１つ以上の異常検出モデルによって実施されるデータ処理ステップを含む、１つ以上のデータ処理ステップを含むことができる。異常検出ブループリントの種々の非限定的実施例が、下記に議論される。

異常検出モデル記憶部２０２は、複数のデータサンプルから異常データサンプルを予測するように構成される、１つ以上の異常検出モデルを記憶する。上記に簡潔に述べられるように、異常検出モデル記憶部２０２からの１つ以上の異常検出モデルが、異常検出ブループリント記憶部２０１内に記憶された異常検出ブループリント内に含まれる、それによって発生される、および／またはそれによって使用されることができる。

異常検出モデルは、機械学習モデルであり得る。機械学習モデルは、訓練データセットに基づいてコンピュータシステムによって学習される、任意の予測モデルである。異常検出モデルは、一般に、少なくとも訓練データセットのサイズおよび／または複雑性に起因して、モデルが人間によって構築されることが過剰に困難もしくは過剰に非効率的であろうため、コンピュータシステムによって学習される。

異常検出モデルは、教師なし機械学習モデルまたは教師あり機械学習モデルであり得る。教師なしおよび教師あり機械学習モデルは、それらの訓練データセットに基づいて、相互と異なる。具体的には、教師なし機械学習モデルを訓練するために使用される訓練データセットが、概して、個々の訓練サンプルに関する標識を含まない一方、教師あり機械学習モデルを訓練するために使用される訓練データセットは、概して、個々の訓練サンプルに関する標識を含む。訓練サンプルに関する標識の値は、訓練サンプルの既知の分類または訓練サンプルの出力変数の既知の値を示し得る。例えば、教師あり異常検出モデルを訓練し、異常データサンプルを検出するために使用される訓練サンプルに関する標識は、訓練サンプルが異常であるかどうかのインジケーションであり得る。

訓練に続いて、機械学習モデルは、試験データセットに基づいて予測を発生させるように構成される。標識は、概して、試験データセット内のサンプルに関して事前に把握されておらず、したがって、機械学習モデルは、前の訓練に基づいて試験データセットに関して予測を発生させる。例えば、訓練に続いて、異常検出モデルは、複数の試験データサンプルから異常データサンプルを予測するように構成されてもよい。

いくつかの実施形態では、異常検出モデルは、単に、データサンプルの異常性の２値予測を提供する。例えば、いくつかの実施形態では、異常検出モデルは、異常または非異常としてデータサンプルの予測を出力することができる。代替実施形態では、異常検出モデルは、データサンプルに関して異常スコアを発生させることができる。データサンプルに関する異常スコアは、データサンプルが異常である程度を示し得る。ある実施形態では、データサンプルが異常である程度は、データサンプルが異常である確率および／またはデータサンプルが異常である度合いであり得る。例えば、異常検出モデルは、データサンプルに関して０．９の異常スコアを発生させ、それによって、データサンプルが異常である９０％の可能性が存在することを予測し得る。

異常検出モデルが、データサンプルに関して異常スコアを発生させる、そのような実施形態では、異常検出ブループリントは、異常スコアに基づいて異常データサンプルを識別するステップを含むことができる。例えば、いくつかの実施形態では、異常スコアに基づいて異常データサンプルを識別するために、最も極端な（例えば、最大の）異常スコアを有するデータサンプルの割合が、異常データサンプルとして識別されることができる。本割合は、予期される外れ値割合を備えることができる。換言すると、本割合は、異常であることが予期されるデータサンプルの割合を備えることができる。予期される外れ値割合は、例えば、０％～２５％に及ぶことができるが、いくつかの実施形態では、予期される外れ値割合は、１０％である。

異常検出モデルが、データサンプルに関して異常スコアを発生させる、いくつかのさらなる実施形態では、異常検出ブループリントは、それらの異常スコアに基づいてデータサンプルをランク付けするステップを含むことができる。それらの予測される異常性に従って、データサンプルをランク付けすることによって、ユーザは、予測される異常性を最大の程度に呈するデータサンプルが、最も早く作用され得るように、さらなる精査および処理のためにデータサンプルに優先順位を付けることができる。

訓練モジュール２０３は、訓練データセットに基づいて、異常検出モデル記憶部２０２内に記憶された異常検出モデルを構築する。上記に議論されるように、異常検出モデルを構築するために使用される訓練データセットは、モデルのタイプに依存し得る。具体的には、異常検出モデルを構築するために使用される訓練データセットは、モデルが教師あり機械学習モデルまたは教師なし機械学習モデルであるかどうかに依存し得る。

一般に、異常検出モデルを構築するために、訓練データセットからの各訓練サンプルが、異常検出モデルに入力される。異常検出モデルは、モデルが異常データサンプルの予測を発生させるために日常的に使用された場合のように、これらの入力を処理する。しかしながら、異常検出モデルのタイプに応じて、訓練データセット内の各訓練サンプルは、付加的コンポーネントを含んでもよい。教師なし異常検出モデルでは、訓練サンプルは、概して、付加的コンポーネントを含まない。

対照的に、教師あり異常検出モデルでは、訓練データセットの各訓練サンプルはさらに、異常標識を含んでもよい。訓練データセットからの訓練サンプルを使用する、異常検出モデルの１つ以上の反復後、モデルによって出力される異常予測と訓練サンプルの異常標識との間の差が、決定される。次いで、訓練モジュール２０３は、モデルによって出力される異常予測と異常標識との間の本差を低減させ（例えば、最小限にし）ようと努める。

異常検出モデルが、予測正確度の閾値レベルを達成するとき、モデルは、使用の準備ができた状態であり得る。異常検出モデルが使用のために十分な予測正確度の閾値レベルを達成したときを決定するために、異常検出モデルの検証が、訓練モジュール２０３によって実施されることができる。異常検出モデルの検証は、訓練の間に、訓練サンプルの異常標識がモデルに入力される一方、検証の間に、検証サンプルの異常標識がモデルを改良するようにモデルに入力されないが、むしろ、モデルが十分に訓練されているかどうかを決定するように、モデルによって出力される予測と単に比較されることを除いて、異常検出モデルの訓練に類似する。

入出力インターフェース２０４は、データサンプル（例えば、訓練データサンプルおよび／または試験データサンプル）を受信するように、かつ異常検出システム２００によって発生される異常データサンプルの予測を出力するように構成される。いくつかの実施形態では、入出力インターフェース２０４はまた、異常データサンプルを予測するために異常検出システム２００によって使用されるべき、異常検出ブループリント記憶部２０１からの１つ以上の異常検出ブループリントおよび／または異常検出モデル記憶部２０２からの１つ以上の異常検出モデルを規定する命令をユーザから受信することもできる。

データサンプル記憶部２０５は、入出力インターフェース２０４によって受信されるデータサンプルを記憶するように構成される。具体的には、データサンプル記憶部２０５は、異常検出システム２００による異常データサンプルの予測のために、１つ以上の異常検出モデルおよび／または試験データサンプルを訓練するように訓練モジュール２０３によって使用されるべき訓練データサンプルを記憶することができる。

上記に議論されるように、いくつかの実施形態では、訓練データセットからの１つ以上の訓練サンプルが、異常検出モデルを訓練することから供与され、異常検出モデルの正当性を立証するために使用されることができる。代替実施形態では、訓練データセットからの訓練サンプル以外の検証サンプルが、試験データセット上での使用に先立って、異常検出モデルの正当性を立証するために使用されることができる。

データ管理モジュール２０６は、異常検出ブループリントを選択および実行し、複数のデータサンプルから異常データサンプルを予測するように構成される。上記に議論されるように、異常検出ブループリントは、異常検出ブループリント記憶部２０１内に記憶され、異常検出モデル記憶部２０２によって記憶された１つ以上の異常検出モデルの使用、ならびに１つ以上のデータ処理ステップを含む、任意の一連のタスクを含むことができる。

データ管理モジュール２０６は、自動的に、および／またはユーザ入力に基づいて、異常検出ブループリント記憶部２０１から異常検出ブループリントを選択することができる。例えば、異常検出ブループリントは、データサンプルの特徴のうちの１つ以上のもののデータタイプおよび／またはデータサンプルのサイズ等の異常検出を受けるデータサンプルの品質に基づいて、データ管理モジュール２０６によって自動的に選択されることができる。別の実施例として、異常検出ブループリントが、入出力インターフェース２０４において受信されるユーザ命令に基づいて選択されることができる。さらに、異常検出ブループリントで使用するための異常検出モデル記憶部２０２からの異常検出モデルもまた、データ管理モジュール２０６によって、および／またはユーザによって自動的に選択されることができる。

異常検出ブループリントを選択することに加えて、データ管理モジュール２０６はさらに、選択された異常検出ブループリントのステップを実行し、複数のデータサンプルから異常データサンプルを予測するように構成される。異常検出ブループリントのステップの実行は、任意のデータ処理ステップの実行、および選択された異常検出モデルへのデータサンプルの入力を伴う。

簡潔には、異常検出ブループリントのデータ処理ステップは、データセットから重複および／または無関係なデータサンプル等の不要なデータサンプルを除去するステップを含むことができる。重複データサンプルは、例えば、データサンプルが複数のソースから収集されるときに生じ得る。無関係なデータサンプルは、例えば、データサンプル収集の間に使用されるフィルタが、着目予測問題に関連性がないデータサンプルをスクリーニングすることができないときに、生じ得る。データ処理は、データサンプル内の構造エラーの補正を含むことができる。例えば、特徴の値における誤入力、一貫性のない大文字化、および一貫性のない省略の使用が、検出および補正されることができる。データ処理は、異常検出およびハンドリングを含むことができる。例えば、データサンプルが異常である、または特徴に関する異常値を含む場合、データサンプルは、除去されてもよい、または異常値は、置換されてもよい。いくつかの実施形態では、データ処理は、データサンプルから欠落している特徴値に対処するステップを含むことができる。例えば、特徴値が、データサンプルから欠落している場合、データサンプルは、除去されることができる、または特徴値は、置換されることができる。データ処理は、例えば、値仕分け（例えば、一意の特徴値をより少数のビンにグループ化することによって一意の特徴値の数を削減すること）、対数変換（例えば、特徴値をそれらの対数と置換すること）、ワンホットエンコーディング、グループ化、分割、スケーリング（例えば、正規化）、および／または任意の他の修正によって、データサンプルに関する特徴値を修正するステップを含むことができる。データ処理の具体的実施形態が、本開示の全体を通して議論される。

図３は、ある実施形態による、異常検出システム３０１が動作するシステム環境３００のブロック図である。図３に示されるシステム環境３００は、異常検出システム３０１と、ネットワーク３０２と、第三者システム３０３とを含む。代替構成では、異なるおよび／または付加的コンポーネントが、システム環境３００に含まれてもよい。

異常検出システム３０１および第三者システム３０３は、異常検出システム３０１および第三者システム３０３がネットワーク３０２を介して相互と通信するように、ネットワーク３０２に結合される。異常検出システム３０１および／または第三者システム３０３はそれぞれ、ネットワーク３０２を介してデータを伝送ならびに／もしくは受信することが可能なコンピューティングシステムを備えることができる。例えば、第三者システム３０３は、異常データサンプルの予測のための異常検出ブループリントを選択するためのデータサンプルおよび／または命令を異常検出システム３０１に伝送することができる。同様に、異常検出システム３０１は、異常データサンプルの予測を第三者システム３０３に伝送することができる。ネットワーク３０２を経由したデータの伝送は、インターネット、データの無線伝送、データの非無線伝送（例えば、イーサネット（登録商標）を介したデータの伝送）、または任意の他の形態のデータ伝送を介した、データの伝送を含むことができる。一実施形態では、異常検出システム３０１および／または第三者システム３０３はそれぞれ、（１）デスクトップコンピュータ、ラップトップコンピュータ、もしくはサーバ等の１つ以上の従来のコンピュータシステム、ならびに／もしくは（２）１つ以上の従来のコンピュータシステム上で起動するクラウド対応仮想マシンもしくはドッカーイメージ等の１つ以上の仮想化マシンもしくはコンテナを含むことができる。

代替として、異常検出システム３０１および／または第三者システム３０３はそれぞれ、携帯情報端末（ＰＤＡ）、携帯電話、スマートフォン、もしくは別の好適なデバイス等のコンピュータ機能性を有するデバイスであり得る。さらなる実施形態では、異常検出システム３０１および／または第三者システム３０３は、コンピュータプロセッサによって実行されると、本開示の全体を通して議論される方法に従ってコンピュータプロセッサを動作させる、コンピュータプログラム命令を記憶する、非一過性のコンピュータ可読記憶媒体であり得る。その上さらなる実施形態では、異常検出システム３０１および／または第三者システム３０３は、クラウドホスト型コンピューティングシステム（例えば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ^ＴＭ（ＡＷＳ）によってホストされるコンピューティングシステム）であり得る。

いくつかの実施形態では、第三者システム３０３は、第三者システム３０３が異常検出システム３０１と相互作用することを可能にする、アプリケーションを実行することができる。例えば、第三者システム３０３は、ブラウザアプリケーションを実行し、ネットワーク３０２を介して第三者システム３０３と異常検出システム３０１との間の相互作用を可能にすることができる。別の実施形態では、第三者システム３０３は、ＩＯＳ（Ｒ）またはＡＮＤＲＯＩＤ（登録商標）等の第三者システム３０３のネイティブオペレーティングシステム上で起動するアプリケーションプログラミングインターフェース（ＡＰＩ）を通して、異常検出システム３０１と相互作用することができる。一実施形態では、第三者システム３０３は、データを異常検出システム３０１に通信することができる。

ネットワーク３０２は、有線および／または無線通信システムの両方を使用する、ローカルエリアならびに／もしくは広域ネットワークの任意の組み合わせを備えることができる。一実施形態では、ネットワーク３０２は、標準通信技術および／またはプロトコルを使用する。例えば、ネットワーク３０２は、イーサネット（登録商標）、８０２．１１、マイクロ波アクセスのための世界規模相互運用（ｗｏｒｌｄｗｉｄｅｉｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒｍｉｃｒｏｗａｖｅａｃｃｅｓｓ；ＷｉＭＡＸ）、３Ｇ、４Ｇ、５Ｇ、符号分割多重アクセス（ＣＤＭＡ）、デジタルサブスクライバライン（ＤＳＬ）等の技術を使用する通信リンクを含むことができる。ネットワーク３０２を介した通信のために使用されるネットワーキングプロトコルの実施例は、マルチプロトコル標識切替（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、簡易メール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）、およびボイスオーバーインターネットプロトコル（ＶｏＩＰ）を含む。ネットワーク３０２を経由して交換されるデータは、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張マークアップ言語（ＸＭＬ）、またはオーディオ等の任意の好適な形態を使用して表されてもよい。いくつかの実施形態では、ネットワーク３０２の通信リンクの全てまたはいくつかは、任意の好適な技法もしくは複数の技法を使用して暗号化されてもよい。

ＩＩＩ．異常データサンプルの自動予測
上記に議論されるように、いくつかの実施形態では、異常検出ブループリントは、複数の受信されたデータサンプルから異常データサンプルを自動的に予測するように、自動的に選択される、および／または動的に構築されることができる。異常検出ブループリント選択／構築および後続の異常データサンプル予測のそのような自動化は、異常検出のためのブループリントを規定および生成することに費やされる時間ならびに人材の量を削減し、それによって、異常検出をより効率的かつ安価にするため、有益である。さらに、異常検出ブループリントは、データセットが急速に進化するにつれて、新しいタイプの異常が迅速かつ確実に検出されるように、異常検出システムがデータセットの変化に迅速に応答することを可能にすることができる。実践では、異常検出技術のそのような高速適合は、概して、異常検出モデルを選択および構築するプロセスへの人間の介入が要求される場合、可能ではない。

図４は、ある実施形態による、複数のデータサンプルから異常データサンプルを自動的に予測するための方法４００のフローチャートである。他の実施形態では、本方法は、図４に示されるものと異なるおよび／または付加的ステップを含んでもよい。加えて、方法のステップは、図４と併せて説明される順序と異なる順序で実施されてもよい。

図４に示されるように、複数のデータサンプルを備えるデータセットが、取得される４０１。複数のデータサンプルのうちの各データサンプルは、特徴のセットに関する値と関連付けられる。特徴および特徴値のいくつかの特性が、上記に説明される。

方法４００のいくつかの実施形態では、取得されたデータセットのサイズが、識別される４０２。データセットのサイズは、例えば、複数のデータサンプルの中のデータサンプルの数および／またはデータセットの記憶サイズであり得る。

複数のデータサンプルのうちの各データサンプルと関連付けられる特徴のセットの中の特徴毎に、特徴のデータタイプが、識別される４０３。上記に議論されるように、特徴は、数値データタイプ、フリーテキストデータタイプ、カテゴリデータタイプ、または任意の他の好適な種類のデータタイプを有することができる。

ステップ４０１において受信される複数のデータサンプルから異常データサンプルを予測するための異常検出ブループリントが、ステップ４０３において識別される特徴のセットの中の特徴のうちの１つ以上のもののデータタイプに基づいて、自動的に発生される４０４。いくつかの実施形態では、異常検出ブループリントの発生はまた、データセットのサイズに基づいてもよい。上記に議論されるように、異常検出ブループリントは、異常検出プロシージャをエンコードする、機械実行可能モジュールを備える。異常検出プロシージャは、複数のタスクを含む。タスクのうちの１つ以上のものは、データセットのサイズおよび／または特徴のセットの特徴のうちの１つ以上のもののデータタイプに基づいて選択されてもよい。

例えば、複数のデータサンプルのそれぞれの特徴のデータタイプが、ステップ４０３において数値データタイプとして識別される、いくつかの実施形態では、ステップ４０４において発生される異常検出ブループリントに対応する異常検出プロシージャは、数値データタイプを有する特徴の値の正規化、標準化、またはｒｉｄｉｔ変換を実施するタスクを含まなくてもよい。

複数のデータサンプルのそれぞれの特徴のデータタイプが、ステップ４０３において数値データタイプとして識別される、いくつかの付加的実施形態では、複数のデータサンプルのうちの１つ以上のものの特徴に関する値が、欠落し得る。具体的には、いくつかの実施形態では、複数のデータサンプルのうちの１つ以上の第１のデータサンプルは、特徴に関する値が欠落し得る一方、複数のデータサンプルのうちの１つ以上の第２のデータサンプルは、特徴に関する値が欠落していない。そのような実施形態では、ステップ４０４において発生される異常検出ブループリントに対応する異常検出プロシージャは、欠落した値の補定タスクを含んでもよい。欠落した値の補定タスクは、第１のデータサンプル毎の特徴に関する欠落した値を、第２のデータサンプルに関する特徴の欠落していない値を表す、または別様にそれに基づく値（例えば、欠落していない値の平均値または中央値）と置換するステップを含むことができる。

複数のデータサンプルのうちの１つ以上のものの特徴に関する値が欠落している、いくつかの代替実施形態では、ステップ４０４において発生される異常検出ブループリントに対応する異常検出プロシージャは、新しい特徴を特徴のセットに追加する特徴工学タスクを含むことができ、データサンプル毎の新しい特徴の値は、データサンプルが特徴に関する値が欠落しているかどうかのインジケータを備える。

いくつかの実施形態では、データサンプルは、標識を含み、異常検出プロシージャは、複数の更新されたデータサンプル毎に異常スコアを取得するステップを含む。データサンプルに関する異常スコアは、データサンプルが異常である、予測される程度を示す。異常検出プロシージャは、異常スコアに基づいて、異常データサンプルのセットを識別してもよい。具体的には、最大の異常スコアを有する、複数の更新されたデータサンプルの割合を備える、異常データサンプルのセットが、識別されることができる。複数の更新されたデータサンプルの割合は、上記に議論される予期される外れ値割合であり得る。次いで、異常スコアと標識の値との間の任意の相関の程度が、決定されてもよい。相関が閾値相関未満であることに応答して、異常データサンプルは、データ品質問題から生じることが決定されることができる。結果として、いくつかの実施形態では、異常データサンプルのセットは、複数のデータサンプルから除去されてもよい。代替として、決定された相関が少なくとも閾値寄与であることに応答して、異常として特徴付けられているデータサンプルに寄与する因子は、標識の値と相関することが決定されることができる。結果として、異常データサンプルのセットは、データセット内で留保されることができる。

複数のデータサンプルのそれぞれの特徴のデータタイプが、ステップ４０３においてカテゴリデータタイプとして識別される、いくつかの実施形態では、ステップ４０４において発生される異常検出ブループリントに対応する異常検出プロシージャは、複数のデータサンプルのうちのデータサンプル毎に、カテゴリデータタイプを有する特徴の値を、複数のデータサンプルの中の特徴の値の頻度（例えば、発生数または率）と置換する特徴工学タスクを含むことができる。実施例として、各データサンプルがネットワークアクセスの発生を説明する、１０個のデータサンプルを考慮されたい。各データサンプルは、アラートの受信を説明するカテゴリ特徴と関連付けられる。アラート特徴の値は、「はい」または「いいえ」のいずれかである。１０個のデータサンプルのうちの８つは、アラート特徴に関して「はい」の値を有し、１０個のデータサンプルのうちの２つは、アラート特徴に関して「いいえ」の値を有する。上記に説明される実施形態では、８つのサンプル毎の「はい」の値は、「はい」の値の発生の頻度、すなわち、「８」と置換される。同様に、上記に説明される実施形態では、２つのサンプル毎の「いいえ」の値は、「いいえ」の値の発生の頻度、すなわち、「２」と置換される。

いくつかの実施形態では、複数のサンプルのそれぞれの１つ以上の特徴のデータタイプは、ステップ４０３においてフリーテキストデータタイプとして識別される。そのような実施形態では、ステップ４０４において発生される異常検出ブループリントに対応する異常検出プロシージャは、複数のデータサンプルのそれぞれのこれらの１つ以上のフリーテキスト特徴を処理するための具体的タスクを含むことができる。これらのフリーテキスト特徴処理ステップは、図５に関して下記に詳細に議論される。

異常データサンプルのセットが、ステップ４０４において発生される異常検出ブループリントを使用して、識別される４０５。具体的には、ステップ４０４において発生される異常検出ブループリントに対応する機械実行可能モジュールが、実行され、それによって、機械実行可能モジュールによってエンコードされる異常検出プロシージャを実施する。異常検出プロシージャを実施することによって、異常データサンプルのセットが、複数のデータサンプルから識別される。上記に議論されるように、異常検出ブループリントを自動的に発生させ、複数の受信されたデータサンプルから異常データサンプルを識別することによって、異常検出は、より効率的であり、かつより少ないリソースを要求するものの両方であり得る。

いくつかの実施形態では、異常データサンプルのセットは、ステップ４０２において識別されるようなデータセットのサイズに少なくとも部分的に基づいて、異常検出プロセスの群から選択される異常検出プロセスを使用して、識別されることができる４０５。上記に述べられるように、データセットのサイズは、例えば、複数のデータサンプルの中のデータサンプルの数および／またはデータセットの記憶サイズであり得る。

データセットの中のデータサンプルの数が、ステップ４０２において第１のサンプル数閾値未満であることが識別され、データセットの記憶サイズが、ステップ４０２において記憶サイズ閾値未満であることが識別される、いくつかの実施形態では、異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差（ＭＡＤ）プロセス、１クラスサポートベクトルマシン（ＳＶＭ）プロセス、局所外れ値因子（ＬＯＦ）プロセス、およびマハラノビス距離プロセスを含むことができる。そのような実施形態では、第１のサンプル数閾値は、３００，０００個のデータサンプルであってもよく、記憶サイズ閾値は、５００メガバイトであってもよい。

代替として、データセットの中のデータサンプルの数が、ステップ４０２において第１のサンプル数閾値を上回るまたはそれと等しく、第２のサンプル数閾値未満であることが識別され、データセットの記憶サイズが、ステップ４０２において記憶サイズ閾値未満であることが識別される、いくつかの実施形態では、異常選択プロセスの群は、二重中央値絶対偏差（ＭＡＤ）プロセスおよびマハラノビス距離プロセスを含むことができる。そのような実施形態では、第１のサンプル数閾値は、３００，０００個のデータサンプルであり得、第２のサンプル数閾値は、２００万個のデータサンプルであり得、記憶サイズ閾値は、５００メガバイトであり得る。

代替として、データセットの中のデータサンプルの数が、ステップ４０２において第１のサンプル数閾値を上回り、第２のサンプル数閾値を上回るまたはそれと等しいことが識別される、もしくはデータセットの記憶サイズが、ステップ４０２において記憶サイズ閾値を上回ることが識別される、いくつかの実施形態では、異常選択プロセスの群は、二重中央値絶対偏差（ＭＡＤ）プロセスおよびマハラノビス距離プロセスを含むことができる。そのような実施形態では、第１のサンプル数閾値は、３００，０００個のデータサンプルであり得、第２のサンプル数閾値は、２００万個のデータサンプルであり得、記憶サイズ閾値は、５００メガバイトであり得る。サンプル数閾値および／または記憶サイズ閾値は、異常検出方法が実装される、コンピュータシステムのデータ記憶容量に依存し得る。いくつかの実施形態では、上記に述べられるサンプル数閾値および記憶サイズ閾値は、６４ＧＢのＲＡＭを有する異常検出システムのために好適であり得る。

ある実施形態では、ステップ４０４において発生される異常検出ブループリントは、教師あり異常検出モデルによる使用のためにデータセットを適合し、異常データサンプルのセットを識別する４０５ためのタスクを含むことができる。具体的には、異常スコアが、教師なし異常検出プロセス（例えば、教師なし異常検出モデル）を使用して、複数のデータサンプル毎に決定されることができる。次いで、異常スコアは、複数のデータサンプルの標識の値としてデータセットに追加され、それによって、標識データセットを発生させることができる。教師あり異常検出モデルが、異常データサンプルのセットを識別する４０５ように、本標識データセットに適用されることができる。

別の実施形態では、ステップ４０５において識別される異常データサンプルのセットが、教師あり異常検出モデルを訓練し、将来の異常データサンプルを予測するために使用されることができる。具体的には、異常スコアが、教師なし異常検出プロセス（例えば、教師なし異常検出モデル）を使用して、複数のデータサンプル毎に決定されることができる。次いで、異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合として識別される４０５。標識が、異常データサンプルの識別されたセットに基づいて、複数のデータサンプルのそれぞれに割り当てられる。データサンプルに関する標識は、データサンプルが異常であるかどうかを示す。最後に、標識データサンプルは、教師あり異常検出モデルを訓練し、将来のデータサンプルが異常であるかどうかを推論するために使用される。

教師あり異常検出問題への教師なし異常検出問題の変換が、図１１に関して下記により詳細に議論される。

ＩＶ．多変量データを用いた異常検出
図４に関して上記に簡潔に述べられるように、異常データサンプルが複数のデータサンプルから予測される、いくつかの実施形態では、複数のデータサンプルのそれぞれの１つ以上の特徴のデータタイプは、フリーテキストデータタイプである。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャは、異常データサンプルの予測のための異常検出モデルへの複数のデータサンプルの入力に先立って、複数のデータサンプルのそれぞれのこれらの１つ以上のフリーテキスト特徴を処理するための具体的タスクを含むことができる。

図５は、ある実施形態による、各データサンプルが、フリーテキストデータタイプを有する１つ以上の特徴、および非テキストデータタイプを有する１つ以上の特徴と関連付けられる、複数のデータサンプルから異常データサンプルを予測するための方法５００のフローチャートである。他の実施形態では、本方法は、図５に示されるものと異なるおよび／または付加的ステップを含んでもよい。加えて、方法のステップは、図５と併せて説明される順序と異なる順序で実施されてもよい。

図５に示されるように、複数のデータサンプルを備えるデータセットが、取得される５０１。複数のデータサンプルのうちの各データサンプルは、特徴のセットに関する値と関連付けられる。さらに、特徴のセットは、フリーテキストデータタイプを有する少なくとも１つの特徴と、非テキストデータタイプを有する少なくとも１つの特徴とを含む。

いくつかの実施形態では、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、いくつかの用語が、識別される。組み合わせられたフリーテキストコーパスは、複数のデータサンプルに関して、フリーテキストデータタイプを有する特徴毎に値を含んでもよい。次いで、サンプル用語行列が、発生されることができる。サンプル用語行列の各行（または列）は、複数のデータサンプルのうちの１つに対応し、サンプル用語行列の各列（または行）は、最も頻繁に生じる識別された用語のうちの１つに対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じるかどうかを示す。例えば、サンプル用語行列の要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じることを示すように、「１」の値であってもよい。代替として、サンプル用語行列の要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じる回数（例えば、頻度）を示し得る。別の実施例として、サンプル用語行列の要素は、要素の列に対応する用語に関する用語頻度・逆サンプル頻度値（用語頻度・逆文献頻度（ＴＦ－ＩＤＦ）値に類似するが、別個の「文献」として集合的に扱われる各サンプルのテキスト値を伴う）を備えてもよい。ＴＦ－ＩＤＦメトリックのように、用語頻度・逆サンプル頻度（ＴＦ－ＩＳＦ）メトリックは、用語がサンプルセットの中のサンプル（文献）のテキストにとって「重要」である程度を示す。さらに別の実施例として、サンプル用語行列の要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じないことを示すように、「０」の値であってもよい。

いくつかの実施形態では、組み合わせられたフリーテキストコーパスは、５，０００を上回る一意の用語を含むことができ、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる用語の数は、５，０００個の一意の用語であり得、サンプル用語行列は、５，０００列を含むことができる。

次いで、いくつかのさらなる実施形態では、フリーテキストデータタイプを有する特徴のセットの中の特徴は、工学的特徴と置換されることができる。複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するサンプル用語行列の行に設定されることができる。フリーテキストデータ処理の本方法は、高次元および／または疎データサンプルに好まれ得、特殊および／または複合（例えば、バイグラム）テキスト用語の識別を可能にする。

代替実施形態では、フリーテキスト特徴の値は、上記に説明されるようなサンプル用語行列の行と置換されない。むしろ、代替実施形態では、コンパクトな行列が、サンプル用語行列に特異値分解（ＳＶＤ）因数分解を実施することによって、発生されることができる。そのような実施形態では、コンパクトな行列内の列の数は、サンプル用語行列内の列の数未満である。コンパクトな行列の各行は、複数のデータサンプルのうちの１つに対応する。次いで、フリーテキストデータタイプを有する、特徴のセットの中の特徴は、工学的特徴と置換されることができ、複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するコンパクトな行列の行に設定される。ＳＶＤ因数分解を実施し、コンパクトな行列を発生させ、フリーテキスト特徴に関する値をコンパクトな行列の行と置換することによって、フリーテキスト特徴の値の数量および複雑性は、有意に低減され、それによって、より効率的な異常検出を可能にすることができる。

いくつかの代替実施形態では、複数のデータサンプルのそれぞれからの全てのフリーテキスト特徴に関する値を含む、単一の組み合わせられたフリーテキストコーパスは、発生されない。むしろ、代替実施形態では、組み合わせられたフリーテキストコーパスが、フリーテキストデータタイプを有する特徴のセットの中の特徴毎に発生される。換言すると、フリーテキスト特徴毎に、複数のデータサンプル毎のフリーテキスト特徴に関する値を含む、組み合わせられたフリーテキストコーパスが、発生されてもよい。フリーテキスト特徴毎に組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、いくつかの用語が、識別される。次いで、サンプル用語行列が、上記に説明される技法のうちのいずれかを使用して、フリーテキスト特徴毎に発生されることができる。所与のフリーテキスト特徴に関して、サンプル用語行列の各行は、複数のデータサンプルのうちの１つに対応し、サンプル用語行列の各列は、特徴に関して最も頻繁に生じる、識別された用語のうちの１つに対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルに関するフリーテキスト特徴の値の中で生じるかどうか、用語がデータサンプルに関するフリーテキスト特徴の値の中で生じる頻度、サンプルの値に対する用語のＴＦ－ＩＳＦ値等を示し得る。

いくつかのさらなる実施形態では、フリーテキストデータタイプを有する特徴のセットの中の各特徴は、工学的特徴と置換されることができる。所与のフリーテキスト特徴に関して、複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するフリーテキスト特徴のサンプル用語行列の行に設定されることができる。上記に述べられるように、フリーテキストデータ処理の本方法は、高次元および／または疎データサンプルに好まれ得、特殊ならびに／もしくは複合（例えば、バイグラム）テキスト用語の識別を可能にする。

代替実施形態では、フリーテキスト特徴の値は、上記に説明されるようなサンプル用語行列の行と置換されない。むしろ、代替実施形態では、各フリーテキスト特徴に対応するサンプル用語行列に関して、コンパクトな行列が、サンプル用語行列に特異値分解（ＳＶＤ）因数分解を実施することによって、発生されることができる。そのような実施形態では、コンパクトな行列内の列の数は、サンプル用語行列内の列の数未満である。コンパクトな行列の各行は、複数のデータサンプルのうちの１つに対応する。次いで、特徴のセットの中の各フリーテキスト特徴は、工学的特徴と置換されることができ、複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するフリーテキスト特徴のコンパクトな行列の行に設定される。ＳＶＤ因数分解を実施し、コンパクトな行列を発生させ、フリーテキスト特徴毎の値をコンパクトな行列の行と置換することによって、フリーテキスト特徴の値の数量および複雑性は、有意に低減され、それによって、より効率的な異常検出を可能にすることができる。

最後に、異常データサンプルのセットが、複数のデータサンプル毎に、フリーテキスト特徴（またはフリーテキスト特徴に取って代わる工学的特徴）および非テキスト特徴に関する値に少なくとも部分的に基づいて、識別される５０２。複数のデータサンプルが、異常データサンプルのセットを識別する５０２ように、異常検出モデルに入力される、実施形態では、異常検出モデルは、隔離フォレストモデルによって実施される異常検出プロセス等の高次元データサンプルの異常を検出するために好適な異常検出プロセスを実施してもよい。さらに、複数のデータサンプルが、異常データサンプルのセットを識別する５０２ように、異常検出モデルに入力される、そのような実施形態では、教師なし異常検出モデルが、教師あり異常検出モデルに対して、高次元行列に基づいて異常データサンプルをより正確に識別することが実験的に決定されているため、異常検出モデルは、教師あり異常検出モデルではなく、教師なし異常検出モデルであってもよい。

図１１に関して下記にさらに詳細に議論されるように、いくつかの実施形態では、方法５００は、教師あり異常検出モデルによる使用のために複数のデータサンプルを適合し、異常データサンプルのセットを識別する５０２ため、または複数のデータサンプルを適合し、教師あり異常検出モデルを訓練し、将来の異常データサンプルを予測するための付加的ステップを含むことができる。

具体的には、いくつかの実施形態では、教師あり異常検出モデルによる使用のために複数のデータサンプルを適合し、異常データサンプルのセットを識別する５０２ために、異常スコアが、教師なし異常検出プロセス（例えば、教師なし異常検出モデル）を使用して、複数のデータサンプル毎に決定されることができる。本開示の全体を通して議論されるように、データサンプルに関する異常スコアは、データサンプルが異常である程度を示す。これらの決定された異常スコアは、次いで、複数のデータサンプルの標識の値としてデータセットに追加され、それによって、標識データセットを発生させることができる。教師あり異常検出モデルが、異常データサンプルのセットを識別する５０２ように、標識データセットに適用されることができる。

代替実施形態では、複数のデータサンプルは、教師あり異常検出モデルを訓練し、将来の異常データサンプルを予測するように変換されることができる。具体的には、異常スコアが、教師なし異常検出プロセス（例えば、教師なし異常検出モデル）を使用して、複数のデータサンプル毎に決定されることができる。異常データサンプルのセットは、次いで、最大の異常スコアを有する複数のデータサンプルの割合として、識別されることができる５０２。本割合は、予期される外れ値割合を備えることができる。いくつかのさらなる実施形態では、標識が、異常データサンプルの識別されたセットに基づいて、複数のデータサンプルのそれぞれに割り当てられることができ、所与のデータサンプルに関する標識は、データサンプルの異常性のインジケーションである。したがって、異常データサンプルのセットの中のデータサンプルが、異常として標識される一方、異常データサンプルのセットの中にないデータサンプルは、異常ではないとして標識される。次いで、教師あり異常検出モデルが、複数のデータサンプルのそれぞれおよび関連付けられる標識を使用して、将来の異常データサンプルを予測するように訓練されることができる。

Ｖ．異常検出ブループリントの混成
図４に関して上記に詳細に議論されるように、異常検出ブループリントが、複数のデータサンプルから異常データサンプルを予測するために使用されることができる。あるさらなる実施形態では、複数の異なる異常検出ブループリントが、複数のデータサンプルから異常データサンプルを予測するために使用されることができる。複数の異なる異常検出ブループリントによって決定される異常性予測は、複数のデータサンプルから異常データサンプルを予測するために使用されることができる。換言すると、複数の異なる異常検出ブループリントの予測は、複数のデータサンプルから異常データサンプルを予測するように「混成される」ことができる。

複数の異なる異常検出ブループリントを使用し、異常データサンプルを予測することは、異常検出ブループリントが異なる状況を横断して異常データサンプルを正確に予測する能力において変動し得るため、有利であり得る。例えば、１つの異常検出ブループリントが、１つのタイプの異常（例えば、ネットワークアクセス異常）を正確に予測することが可能であり得る一方、別の異常検出ブループリントは、別のタイプの異常（例えば、不正なクレジットカード購入）を正確に予測することが可能であり得る。別の実施例として、１つの異常検出ブループリントが、高い特異性で所与のタイプの異常を予測することが可能であり得る一方、別の異常検出ブループリントは、高い感度で所与のタイプの異常を予測することが可能であり得る。しかしながら、多くの場合、特定の複数のデータサンプルに関して異常データサンプルを最も正確に予測することが可能であろう、異常検出ブループリントを決定することは、困難である、または不可能でさえある。したがって、複数の異なる異常検出ブループリントが、予測を発生させるために使用されることができ、これらの予測は、異常データサンプルのより正確な予測を可能にするように、比較される、および／または組み合わせられることができる。

さらに、所望のレベルの異常検出厳密性が、異なる状況を横断して変動し得る。例えば、セキュリティが高い優先順位である状況下で異常データサンプルを予測するとき（例えば、不正ネットワーク侵入を説明する異常データサンプルを予測するとき）、高いレベルの異常検出厳密性を採用し、異常データサンプルを予測することが望ましくあり得る。換言すると、異常として、より少ないデータサンプルではなく、より多くのデータサンプルにフラグを付け、任意の異常データサンプルの欠落した検出を回避することが望ましくあり得る。他方では、セキュリティが高い優先順位ではない状況下で異常データサンプルを予測するとき、より低いレベルの異常検出厳密性を採用し、異常データサンプルを予測することが望ましくあり得る。換言すると、異常として、より多くのデータサンプルではなく、より少ないデータサンプルにフラグを付け、多くの誤検出異常にフラグを付けることを回避することが望ましくあり得る。例えば、不正なクレジットカード購入を説明する異常データサンプルを予測するとき、低いレベルの異常検出厳密性を採用し、誤検出にフラグを付けることを回避し、それによって、不必要なクレジットカード一時停止および不満を抱えた顧客を回避することが望ましくあり得る。下記に詳細に議論されるように、複数の異常検出ブループリントを使用し、異常データサンプルを予測することによって、異常検出厳密性のレベルが、状況および／またはユーザの選好に従って、制御ならびに調節されることができる。

図６は、ある実施形態による、複数の異なる異常検出ソースを使用して、複数のデータサンプルから異常データサンプルを予測するための方法６００のフローチャートである。他の実施形態では、本方法は、図６に示されるものと異なるおよび／または付加的ステップを含んでもよい。加えて、方法のステップは、図６と併せて説明される順序と異なる順序で実施されてもよい。

図６に示されるように、データサンプルに関する異常スコアが、複数の異なるソースから取得される６０１。異常スコアを提供する複数の異なるソースは、例えば、任意の数量ならびに任意のタイプの異常検出ブループリント、異常検出プロセス、および／または異常検出モデルを含むことができる。

データサンプルの異常性の識別のための異常検出厳密性のレベルが、識別される６０２。いくつかの実施形態では、異常検出厳密性のレベルは、ユーザによって規定されることができる。代替実施形態では、異常検出厳密性のレベルは、異常検出システムによって自動的に決定されることができる。

図６に描写される実施形態では、識別される６０２異常検出厳密性のレベルは、最大厳密性または最小厳密性のいずれかである。下記にさらに詳細に説明されるように、最大異常検出厳密性は、異常データサンプルを識別するための最小異常検出厳密性よりも高い閾値を設定する。しかしながら、図６に描写される実施形態は、最大異常検出厳密性または最小異常検出厳密性のいずれかを識別する６０２が、代替実施形態では、中間の異常検出厳密性のレベルもまた、ステップ６０２において識別されることができる。中間の異常検出厳密性は、異常データサンプルを識別するための最大異常検出厳密性よりも低い閾値を設定するが、異常データサンプルを識別するための最小異常検出厳密性よりも高い閾値を設定する。さらに、図６に描写される実施形態は、異常検出厳密性の単一のレベルを識別する６０２が、代替実施形態では、異常検出厳密性の複数のレベルが、選択されてもよく、異常検出厳密性の複数のレベルに従って識別される、結果として生じる異常データサンプルが、比較されることができる。

図６に戻って目を向けると、最小異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される６０２、実施形態では、方法６００はさらに、複数の異なるソースから取得される異常スコアのうちの少なくとも１つが閾値異常スコアを上回るかどうかを決定するステップ６０３を含む。閾値異常スコアは、ユーザによって、および／または異常検出システムによって決定されることができる。複数の異なるソースからの少なくとも１つの異常スコアが閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されてもよい６０４。逆に、複数の異なるソースからの異常スコアのうちのいずれも閾値異常スコアを上回らないことを決定することに応答して、データサンプルは、異常ではないとして識別されてもよい６０５。

最大異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される６０２、実施形態では、方法６００はさらに、複数の異なるソースから取得される全ての異常スコアが閾値異常スコアを上回るかどうかを決定するステップ６０６を含む。複数の異なるソースからの少なくとも１つの異常スコアが閾値異常スコア未満であることを決定することに応答して、データサンプルは、異常ではないとして識別されてもよい６０７。逆に、複数の異なるソースからの全ての異常スコアが閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されてもよい６０８。

上記に議論されるように、図６に描写されないが、いくつかの実施形態では、中間の異常検出厳密性のレベルもまた、ステップ６０２において識別されることができる。中間の異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される６０２、そのような実施形態では、方法６００はさらに、複数の異なるソースからの全ての異常スコアの平均異常スコアが閾値異常スコアを上回るかどうかを決定するステップを含むことができる。平均異常スコアが閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されることができる。逆に、平均異常スコアが閾値異常スコア未満であることを決定することに応答して、データサンプルは、異常ではないとして識別されることができる。

中間の異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される６０２、別の実施形態では、方法６００はさらに、複数の異なるソースからの異常スコアの大部分が閾値異常スコアを上回るかどうかを決定するステップを含むことができる。異常スコアの大部分が閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されることができる。逆に、異常スコアの大部分が閾値異常スコア未満であることを決定することに応答して、データサンプルは、異常ではないとして識別されることができる。

図７は、ある実施形態による、異常検出システムの入出力インターフェースの画像７００を描写する。図７に描写される画像７００では、入出力インターフェースは、異常検出ブレンダのための「平均混成タイプ」の選択を受信している。換言すると、入出力インターフェースは、複数の異なるソースによる異常データサンプル予測のために中間レベルの異常検出厳密性の選択をユーザから受信している。代替実施形態では、ユーザは、代替として、または加えて、最大および／または最小レベルの異常検出厳密性を選択してもよい。

ＶＩ．異常検出特徴影響
いくつかの実施形態では、異常データサンプルの識別に続いて、特定のデータサンプルが異常としてフラグを付けられる理由に関して、解説を提供することが有用であり得る。具体的には、異常としてのデータサンプルのデータサンプル影響識別の特徴の値を識別することが有用であり得る。換言すると、異常としてのデータサンプルの識別に寄与する（例えば、最も寄与する）データサンプルの特徴値を識別することが有用であり得る。

異常検出への特徴影響の識別は、そのような洞察が、将来の異常識別および積極的異常応答を指示するために使用され得る、ビジネスルールの生成および最適化を知らせるために使用されることができるため、有利である。そのようなビジネスルールは、下記にさらに詳細に議論される。異常検出への特徴影響の識別はまた、データサンプルを横断してデータドリフトを識別および考慮し、それによって、不正確な異常検出を回避するために使用されることもできる。データドリフトもまた、下記にさらに詳細に議論される。

図８は、ある実施形態による、異常としてのデータサンプルの識別に寄与するデータサンプルの特徴を識別するための方法８００のフローチャートである。他の実施形態では、本方法は、図８に示されるものと異なるおよび／または付加的ステップを含んでもよい。加えて、方法のステップは、図８と併せて説明される順序と異なる順序で実施されてもよい。

図８に示されるように、複数のデータサンプル毎の異常スコアが、取得される８０１。複数のデータサンプルはそれぞれ、特徴のセットに関する値と関連付けられる。データサンプルに関する異常スコアは、データサンプルが異常である程度を示す。

いくつかの実施形態では、複数のデータサンプル毎に異常スコアを取得するステップ８０１は、異常検出モデルから複数のデータサンプル毎の異常スコアを受信するステップを含む。そのような実施形態では、異常検出モデルは、教師ありモデルまたは教師なしモデルであり得る。特徴重要性（例えば、順列重要性）を査定するための従来の技法と異なり、標識が方法８００を使用して特徴影響を決定するために必要ではないため、特徴影響が、教師なし異常検出モデルのために決定されることができる。

異常データサンプルのセットが、取得された異常スコアに基づいて、複数のデータサンプルから識別される８０２。ある実施形態では、異常データサンプルのセットは、最も極端な（例えば、最大の）異常スコアを有する複数のデータサンプルの割合として識別される。本割合は、予期される外れ値割合を備えることができる。いくつかの実施形態では、予期される外れ値割合は、１０％であり得る。

異常スコアの総和が、異常データサンプルのセットに関して決定される８０３。本決定された総和は、本明細書では「ベース総和」と称され得る。

特徴のセットの中の特徴毎に、異常データサンプル毎の特徴の値が、サンプルの異常性の査定への特徴の影響を中和するように、調節される８０４。データサンプルの異常性の査定への特徴値の影響は、限定ではないが、特徴値を一定値と置換するステップを含む、任意の好適な技法を使用して、中和されてもよい。本調節は、更新された異常データサンプルを発生させる。一定値は、任意の値であり得る。いくつかの実施形態では、一定値は、欠落した値（例えば、値なし）であり得る。異常データサンプルを横断して特徴の値を一定にすることによって、異常としてのデータサンプルの識別への特徴の寄与が、下記に説明されるように決定されることができる。

いくつかの実施形態では、方法８００は、ステップ８０４において異常データサンプル毎の特徴の値に取って代わるべき一定値を決定するさらなるステップを含む。そのような実施形態では、一定値は、一定値が取って代わることになる、異常データサンプルに関する特徴の値に基づいて決定される。具体的には、いくつかの実施形態では、一定値を決定するために、特徴のデータタイプが、決定される。

特徴を中和するために使用される一定値は、任意の好適な方法で選択されてもよい。例えば、特徴のデータタイプが数値であることを決定することに応答して、異常データサンプル毎の特徴の値は、異常データサンプルに関する特徴の値の平均値または中央値と置換されてもよい８０５。実施例として、数値特徴と関連付けられる各データサンプルが取引のコストを説明する、５つの異常データサンプルを考慮されたい。５つの異常データサンプルに関する数値コスト特徴の値は、４ドル、１０ドル、２３ドル、５６ドル、および＄１００ドルである。上記に説明される実施形態では、５つの異常データサンプル毎の特徴の値は、２３ドル、すなわち、５つの異常データサンプルに関する特徴の値の中央値と置換される。

他方では、特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、異常データサンプル毎の特徴の値は、異常データサンプルの中で最高頻度において生じる特徴の値と置換される８０６。実施例として、フリーテキスト特徴と関連付けられる各データサンプルが取引の場所を説明する、５つの異常データサンプルを考慮されたい。５つの異常データサンプルに関するカテゴリ場所特徴の値は、「ガソリンスタンド」、「小売店」、「ガソリンスタンド」、「ガソリンスタンド」、および「航空会社」である。上記に説明される実施形態では、５つの異常データサンプル毎の特徴の値は、「ガソリンスタンド」、すなわち、異常データサンプルの中で最高頻度において生じる特徴の値と置換される。

図８に戻って目を向けると、異常スコアが、更新された異常データサンプル毎に決定される８０５。具体的には、異常スコアが、特徴に関する中和された値を有する、更新された異常データサンプル毎に決定される８０５。ステップ８０１において取得される異常スコアが異常検出モデルから受信される、実施形態では、ステップ８０５において決定される異常スコアもまた、同一の異常検出モデルによって決定されることができる。

更新された異常データサンプルに関する異常スコアの総和が、決定される８０６。決定された総和は、本明細書では「特徴総和」と称され得る。

ベース総和と特徴総和との間の差が、決定される８０７。ベース総和と特徴総和との間の本決定された差は、異常としてのデータサンプルのセットの識別への特徴の値の寄与を有する。ベース総和と特徴総和との間のより大きい差は、さらなる寄与を表す。

図８の方法８００に描写されていないが、いくつかの実施形態では、ベース総和と特徴総和との間の正規化された差が、決定される。いくつかの実施形態では、本正規化された差は、ステップ８０７において決定される差の最小／最大正規化を実施することによって決定されてもよい。

上記に説明されるステップ８０４－８０７は、特徴のセットの中の特徴毎に実施されてもよい。換言すると、異常としてのデータサンプルのセットの識別への各特徴の寄与を表す差が、決定されてもよい。

ステップ８０７において特徴毎に決定される差に基づいて、異常としてのデータサンプルのセットの識別に最も寄与する１つ以上の特徴が、識別される８０８。代替として、正規化された差が上記に説明されるように特徴毎に決定される、実施形態では、異常としてのデータサンプルのセットの識別に最も寄与する１つ以上の特徴は、これらの正規化された差に基づいて識別されることができる。

いくつかのさらなる実施形態では、方法８００はさらに、ステップ８０７において特徴毎に決定される差に基づいて、または代替として、特徴毎に決定される正規化された差に基づいて、特徴のセットの中の特徴をランク付けするステップを含むことができる。特徴毎に決定される正規化された差に基づいて特徴をランク付けすることによって、異常としてのデータサンプルのセットの識別への特徴の寄与が、ランク付けされた割合として比較されることができる。特徴のより高いランキングは、異常としてのデータサンプルのセットの識別への特徴のさらなる寄与を示す。

図９は、ある実施形態による、異常検出システムの入出力インターフェースの画像９００を描写する。画像９００内の入出力インターフェースは、異常検出モデルによる異常データサンプルの識別への寄与の順に特徴をランク付けする棒グラフを描写する。図９に描写される実施形態では、異常検出モデルは、少なくとも部分的に隔離フォレストモデルを備える。

図１０は、ある実施形態による、異常検出システムの入出力インターフェースの画像１０００を描写する。画像１０００内の入出力インターフェースは、異常としてのデータサンプルの識別のための解説を描写する。図１０に描写される実施形態では、異常としてのデータサンプルの識別のための解説は、異常としてのデータサンプルの識別に寄与することが決定されたデータサンプルの特徴の識別を含む。

上記に詳細に議論されるように、図８の方法８００は、異常検出への特徴の影響を決定するために使用されることができる。しかしながら、方法８００はまた、同様に、両方の教師ありおよび教師なし機械学習モデルを含む、任意の機械学習モデルによって行われる任意のタイプの予測への特徴の影響を決定するために使用されることもできる。

ＶＩ．Ａ．データドリフト
多くの予測モデル化用途では、自然なデータドリフトが、経時的にデータセット内に生じ得る。本明細書で使用されるように、データドリフトは、経時的なデータセットの性質の変化を指す。実施例として、経時的にユーザによって行われるクレジットカード取引を説明する複数のデータサンプルを考慮されたい。データドリフトは、ユーザが経時的に各取引に費やされる平均金額を増加させるにつれて、これらのデータサンプルを横断して生じ得る。

自然なデータドリフトの良性にもかかわらず、異常検出モデルが、本データドリフトを考慮しないとき、異常検出モデルは、異常としてデータドリフトを呈するデータサンプルを不正確に識別し得る。例えば、上記の実施例では、異常検出モデルが、経時的な平均取引金額の増加を考慮するように適合しない場合、異常検出モデルは、不正な取引を表す異常データサンプルとして、増加した取引金額を有するデータサンプルを不正確に識別し得る。

異常検出モデルによる異常データサンプルの不正確な識別を回避するために、データドリフトが、識別されることができ、異常識別モデルが、将来の異常データサンプルを予測するときに本識別されたデータドリフトを考慮するように更新されることができる。換言すると、異常検出モデルは、将来の異常データサンプルを予測するときに新しいノルムを考慮するように更新されることができる。例えば、上記の実施例では、異常検出モデルは、将来の異常データサンプルを予測するときに、取引金額の最近の増加を考慮するように更新されることができる。本データドリフトを考慮することによって、異常検出モデルは、異常として、同様に増加した取引金額を有する良性の将来の取引にフラグを付けることを回避することができる。換言すると、本データドリフトを考慮することによって、異常検出モデルは、誤検出異常にフラグを付けることを回避することができる。他の実施例では、データドリフトを考慮することは、異常検出モデルが未検出データサンプルを回避すること（例えば、真の異常データサンプルを識別できないことを回避すること）を可能にすることができる。

複数のデータサンプルを横断してデータドリフトを識別するために、経時的な異常検出への１つ以上の特徴の特徴影響の変化が、決定されることができる。経時的な異常検出への特徴影響の変化を決定するために、最初に、経時的に識別される異常の数量（または率）の変化が、決定されることができる。経時的に識別される異常の数量（または率）の変化が、閾値変化を超える場合、異常としてのデータサンプルの識別に寄与する特徴および／または特徴の値が変化したこと、故に、異常検出モデルは、将来の異常データサンプルを予測するときに本寄与の変化を考慮するように更新されるべきであることが、決定されることができる。

図８の方法８００に関して上記に議論される複数のデータサンプルと第２の複数のデータサンプルとの間のデータドリフトを識別するために、方法８００は、付加的ステップを含むことができる。明確にするために、図８の方法８００に関して上記に議論される複数のデータサンプルは、第１の時点と関連付けられる第１の複数のデータサンプルを備え、異常データサンプルのセットは、異常データサンプルの第１のセットを備え、第１の複数のデータサンプルに関する異常スコアは、第１の異常スコアであることを仮定されたい。さらに、第２の複数のデータサンプルは、第１の時点の後の第２の時点と関連付けられることを仮定されたい。第１の複数のデータサンプルおよび第２の複数のデータサンプルのうちの各データサンプルは、特徴の同一のセットに関する値と関連付けられる。第１の複数のデータサンプルおよび第２の複数のデータサンプルは、同一のエンティティまたは異なるエンティティと関連付けられることができる。第１の複数のデータサンプルおよび第２の複数のデータサンプルが同一のエンティティと関連付けられる、実施例として、第１の複数のデータサンプルおよび第２の複数のデータサンプルの両方の中の各データサンプルは、特定のユーザ（例えば、特定の顧客ＩＤ）と関連付けられることができる。

第１の時点からの第１の複数のデータサンプルと第２の時点からの第２の複数のデータサンプルとの間のデータドリフトを識別するために、方法８００はさらに、第２の複数のデータサンプル毎に第２の異常スコアを取得するステップを含むことができる。第１の異常スコアがステップ８０１において異常検出モデルから受信された、実施形態では、第２の異常スコアもまた、同一の異常検出モデルから受信される。

次いで、上記のステップ８０２と同様に、異常データサンプルの第２のセットが、受信された第２の異常スコアに基づいて、第２の複数のデータサンプルから識別されることができる。いくつかの実施形態では、異常データサンプルの第２のセットは、最大の第２の異常スコアを有する、第２の複数のデータサンプルの割合として識別されることができる。上記に説明されるように、本割合は、予期される外れ値割合を備えることができる。いくつかの実施形態では、予期される外れ値割合は、１０％であり得る。

閾値異常スコアを上回る第１の異常スコアを有する、異常データサンプルの第１のセットのうちのデータサンプルの第１の数量が、決定される。加えて、閾値異常スコアを上回る第２の異常スコアを有する、異常データサンプルの第２のセットのうちのデータサンプルの第２の数量が、決定される。次いで、データサンプルの第１の数量とデータサンプルの第２の数量との間の差が、決定される。換言すると、第１の時点と第２の時点との間で識別される異常の数量の変化が、決定される。

数量差の絶対値が閾値差を上回ることに応答して、第１および第２の異常スコアが取得された、異常検出モデルを更新するステップと関連付けられる、１つ以上のアクションが、実施される。いくつかの実施形態では、１つ以上のアクションは、ステップ８０８において異常としてのデータサンプルの識別に寄与するものとして識別される、特徴および／または特徴の値が、第１の時点と第２の時点との間で変化したことを決定するステップを含むことができる。付加的実施形態では、１つ以上のアクションは、異常検出モデルが更新されることを推奨するメッセージを異常検出モデルのユーザに提供するステップを含むことができる。付加的実施形態では、１つ以上のアクションは、第２の時点と関連付けられる第２の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させるステップを含むことができる。第２の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させることによって、新しい異常検出モデルは、異常としてのデータサンプルの識別に寄与する、更新された特徴を学習することができる。異常検出モデルを更新することによって、異常検出モデルは、誤検出異常にフラグを付けること、または異常ではないとしてデータサンプルを誤って識別することを低減させる（もしくは回避する）ことができる。

ＶＩ．Ｂ．ビジネスルール
図８に関して上記に述べられるように、異常としてのデータサンプルの識別に最も寄与することが決定される特徴が、将来の異常識別および積極的異常応答を指示するために使用され得る、ビジネスルールの生成ならびに最適化を知らせるために使用されることができる。ビジネスルールは、異常データサンプルの識別に最も寄与するものとして識別される特徴に基づいて、異常検出システムによって、および／またはユーザによって、自動的に識別されることができる。例えば、不正または脅迫的ネットワークアクセスの識別に最も寄与する特徴の識別が、ネットワークファイアウォールおよびウイルスセンサを改良し、将来の侵入を防止するための方略を知らせるために使用されることができる。別の実施例として、システム機能不全の識別に最も寄与する特徴の識別が、修理を要求するシステムの部分を決定し、それによって、システムダウンタイムおよび関連付けられる金銭的損失を削減するために、使用されることができる。さらに別の実施例として、システム機能不全の識別に最も寄与する特徴の識別が、システムが誤動作する条件を決定し、それによって、そのような条件および機能不全の将来の発生を回避するために、使用されることができる。

ＶＩＩ．教師あり機械学習への教師なし異常検出の変換
いくつかの実施形態では、教師なし異常検出が、教師あり機械学習に関してデータセットを変換するために使用されることができる。具体的には、教師なし異常検出モデルが、複数のデータサンプルを変換し、教師あり機械学習モデルを訓練するために、または教師あり機械学習モデルによって使用され、予測を発生させるために、使用されることができる。

図１１は、ある実施形態による、教師あり異常検出モデルに関してデータセットを発生させるための方法１１００のフローチャートである。他の実施形態では、本方法は、図１１に示されるものと異なるおよび／または付加的ステップを含んでもよい。加えて、方法のステップは、図１１と併せて説明される順序と異なる順序で実施されてもよい。

複数のデータサンプルのうちのデータサンプル毎の異常スコアが、教師なし異常検出モデルを使用して決定される１１０１。複数のデータサンプルはそれぞれ、特徴のセットに関する値と関連付けられる。データサンプルに関する異常スコアは、データサンプルが異常である、予測される程度を示す。

新しい特徴が、複数のデータサンプル毎に特徴のセットに追加され１１０２、それによって、更新された複数のデータサンプルを発生させる。データサンプルに関する新しい特徴の値は、ステップ１１０１においてデータサンプルに関して決定される異常スコアに基づく。例えば、いくつかの実施形態では、データサンプルに関する新しい特徴の値は、ステップ１１０１においてデータサンプルに関して決定される異常スコアである。

次いで、機械学習モデルが、更新された複数のデータサンプルを使用して機械学習モデルを訓練するため１１０３、または機械学習モデルを使用し１１０４、更新された複数のデータサンプルに基づいて予測を発生させるためのいずれかで、更新された複数のデータサンプルに適用される。いくつかの実施形態では、機械学習モデルは、異常データサンプルを予測するように構成される異常検出モデルであり得る。代替実施形態では、機械学習モデルは、任意の他のタイプの予測を行うように構成されることができる。

機械学習モデルが、更新された複数のデータサンプルを使用して訓練される１１０３、実施形態では、更新された複数のデータサンプルはそれぞれ、データサンプルの既知の分類を示す標識の値とさらに関連付けられる。標識の値によって示されるデータサンプルの分類は、データサンプルの異常性である場合とそうではない場合がある。例えば、いくつかの実施形態では、標識の値によって示されるデータサンプルの分類は、データサンプルの異常性以外のデータサンプルの分類であってもよい。機械学習モデルは、訓練および／または検証データとして更新された複数のデータサンプルを使用する、教師あり機械学習プロセスを使用して訓練される。具体的には、機械学習モデルは、他の更新された複数のデータサンプル毎の特徴のセットの値に基づいて、別の更新された複数のデータサンプル毎に標識の値を予測するように訓練される。

代替として、機械学習モデルが、更新されたデータサンプル毎に標識の値を予測するために、使用されることができる１１０４。上記に述べられるように、データサンプルに関する標識の値は、データサンプルの既知の分類またはデータサンプルの出力変数の既知の値を示し得る。標識の値によって示されるデータサンプルの分類は、データサンプルの異常性である場合とそうではない場合がある。例えば、いくつかの実施形態では、標識の値によって示されるデータサンプルの分類は、データサンプルの異常性以外のデータサンプルの分類であってもよい。そのような実施形態では、機械学習モデルは、ステップ１１０３に関して上記に議論されるもの等の教師あり機械学習プロセスに従って、前もって訓練されている場合がある。

図１１に描写されていない代替実施形態では、ステップ１１０２のように複数のデータサンプル毎に新しい特徴を特徴のセットを追加するのではなく、標識の値が、ステップ１１０１において決定される異常スコアに基づいて、複数のデータサンプル毎に決定されることができる。そのような実施形態では、データサンプルに関する標識の値は、データサンプルの異常性を示す。次いで、教師あり異常検出モデルが、複数のデータサンプルおよび決定された標識値を使用して、将来のデータサンプルの異常性を予測するように訓練されることができる。換言すると、教師あり異常検出モデルは、複数のデータサンプルおよび関連付けられる標識値を使用して、教師あり機械学習プロセスに従って訓練される。

機械学習モデルによって使用されるデータサンプルの新しい特徴または標識として異常スコア（または分類）を含むことによって、機械学習モデルによって発生される予測の正確度への異常の潜在的悪影響が、低減されることができる。

教師なしモデルによって決定される異常スコアおよび／または異常分類が、特徴としてデータセットに追加され、予測モデル（例えば、教師あり予測モデル）が、データセットの特徴の値に基づいて、カテゴリ出力変数の値を予測するように訓練される、実施例が、説明された。いくつかの実施形態は、カテゴリ出力変数の値を予測するための訓練予測モデルに限定されない。いくつかの実施形態では、予測モデルは、他のタイプの出力変数（例えば、数値出力変数）の値を予測するように訓練されてもよい。

教師なしモデルによって決定される異常スコアが特徴としてデータセットに追加される実施例が、説明された。いくつかの実施形態では、異常スコアは、出力変数としてデータセットに追加されてもよく、予測モデル（例えば、教師あり予測モデル）が、データセットの特徴に基づいて、データサンプルに関する異常スコアを予測するように訓練されてもよい。

ＶＩＩＩ．教師あり機械学習モデル訓練データセットの精緻化
いくつかの実施形態では、上記に説明されるように、複数のデータサンプルを変換し、教師あり機械学習モデルを訓練することに加えて、教師あり機械学習モデルを訓練するために使用される複数のデータサンプルが、教師あり機械学習モデルを訓練し、より正確な予測を発生させるように精緻化されることができる。具体的には、教師あり機械学習モデルを訓練するために使用される訓練データセットが、少なくとも訓練データセットの標識の値との閾値レベルの相関が欠けている、異常データサンプルを除外するように、精緻化されることができる。上記に議論されるように、データサンプルに関する標識の値は、データサンプルの既知の分類またはデータサンプルの出力変数の既知の値を示し得る。いくつかの実施形態では、標識値は、異常性のインジケーションであり得る。代替実施形態では、標識値は、異常性以外の分類のインジケーションであり得る。教師あり機械学習モデルの訓練データセットを精緻化し、少なくとも標識の値との閾値レベルの相関が欠けている、異常訓練データサンプルを除外することによって、教師あり機械学習モデルによって発生される将来の予測の正確度への関連性がない異常の任意の潜在的な悪影響が、低減または防止されることができる。

実施例として、ある乗客がタイタニック号の沈没を生き延びたかどうかを予測するように訓練されている、教師あり機械学習モデルを考慮されたい。モデルを訓練するために使用される複数の訓練データサンプルはそれぞれ、タイタニック号の乗客を説明し、乗客がタイタニック号の沈没を生き延びたかどうかを示す標識の値を含む。

教師なし異常検出モデルが、ファーストクラスのチケットを有する乗客を説明する訓練データサンプルとしての複数の訓練データサンプルから異常訓練データサンプルのセットを識別すると仮定されたい。周知であるように、ファーストクラスのチケットを有したタイタニック号の乗客の多くが、沈没から生き延びた。したがって、異常訓練データサンプルのセットに関する標識の値の多くは、生存を示す。したがって、異常訓練データサンプルのセットは、生存である標識の値と相関することが決定されることができる。結果として、異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練し、付加的なタイタニック号の乗客の生存を正確に予測するために、使用されることができる。したがって、異常訓練サンプルのセットは、訓練データセットの中に留まることができる。

他方では、教師なし異常検出モデルが、４文字の名字を有する乗客を説明する訓練データサンプルとしての複数の訓練データサンプルから異常訓練データサンプルのセットを識別すると仮定されたい。また、４文字の名字を有する乗客と生存との間に相関がないと仮定されたい。したがって、異常訓練データサンプルのセットは、標識と相関しないことが決定されることができる。結果として、本異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練し、付加的なタイタニック号の乗客の生存を正確に予測するために使用される、データセットから安全に除外されることができる。本異常データサンプルのセットに基づいて、教師あり機械学習モデルを訓練することは、モデルに、異常データサンプルと標識の値との間の不正確な相関を学習させ、したがって、乗客の生存を不正確に予測させ得る。したがって、本異常データサンプルのセットは、教師あり機械学習モデルのより正確な訓練を可能にするように、訓練データセットから除去されることができる。

図１２は、ある実施形態による、教師あり異常検出モデルを訓練するための訓練データセットを精緻化するための方法１２００のフローチャートである。他の実施形態では、本方法は、図１２に示されるものと異なるおよび／または付加的ステップを含んでもよい。加えて、方法のステップは、図１２と併せて説明される順序と異なる順序で実施されてもよい。

図１２に示されるように、複数の訓練データサンプル毎の異常スコアが、取得される１２０１。複数の訓練データサンプルは、教師あり機械学習モデルを訓練するためのものである。複数の訓練データサンプルはそれぞれ、特徴のセットに関する値および標識の値と関連付けられる。訓練データサンプルに関する異常スコアは、データサンプルが異常である、予測される程度を示す。訓練データサンプルに関する標識の値は、データサンプルの既知の分類を示す。標識の値によって示されるデータサンプルの分類は、データサンプルの異常性である場合とそうではない場合がある。

いくつかの実施形態では、複数の訓練データサンプル毎に異常スコアを取得するステップ１２０１は、異常検出モデルから複数の訓練データサンプル毎に異常スコアを受信するステップを含む。そのような実施形態では、異常検出モデルは、教師ありモデルまたは教師なしモデルであり得る。

異常訓練データサンプルのセットが、受信された異常スコアに基づいて、複数の訓練データサンプルから識別される１２０２。ある実施形態では、異常訓練データサンプルのセットは、最大の異常スコアを有する複数の訓練データサンプルの割合として識別される。本割合は、予期される外れ値割合を備えることができる。いくつかの実施形態では、予期される外れ値割合は、１０％であり得る。

訓練データサンプルの異常スコアまたは異常分類と訓練データサンプルに関する標識の値との間の相関（例えば、異常訓練データサンプルのセットと異常訓練データサンプルのセットに関する標識の値との間の相関）が、識別される１２０３。限定ではないが、ピアソンの相関係数を決定するステップ、スピアマンのランク相関係数を決定するステップ、または最小二乗方法を提供するステップを含む、訓練データサンプルの異常スコアまたは異常分類と標識の値との間の相関のレベルを決定するための任意の好適な技法が、使用されてもよい。異常訓練データサンプルのセットと異常訓練データサンプルのセットに関する標識の値との間の相関は、例えば、標識の特定の値と関連付けられる異常訓練データサンプルのセットの割合であり得る。

次いで、方法１２００は、相関が少なくとも閾値相関であるかどうかを決定するステップ１２０４を含む。相関が閾値相関未満であることに応答して、異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練するための複数の訓練データサンプルから除去される１２０５。他方では、相関が少なくとも閾値相関であることに応答して、異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練するための複数の訓練データサンプルの中で留保される１２０６。少なくとも異常訓練データサンプルに関する標識の値への閾値相関を有する、異常訓練データサンプルのみを留保することによって、教師あり機械学習モデルは、無相関異常データサンプルによって混同されない（またはあまり混同されない）、正確な予測を発生させるように、訓練されることができる。

いくつかのさらなる実施形態では、相関が閾値相関未満であることに応答して、方法１２００はさらに、異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴を識別するステップを含むことができる。本タスクに関して、特徴影響決定方法８００のステップ８０３－８０８が、異常訓練データサンプルに適用されてもよい。

付加的実施形態では、異常としての訓練データサンプルのセットの識別に最も寄与する、１つ以上の特徴を示す、メッセージが、ユーザに提供されることができる。メッセージをユーザに提供することによって、ユーザは、標識の値と相関を有していないデータサンプルが異常としてフラグを付けられた理由を理解することができる。

ＩＸ．例示的ユースケース
本節では、異常検出技法のいくつかの実施形態の用途のいくつかの非限定的実施例が、説明される。第ＩＸ．Ａ節および図１４Ａ－１４Ｍでは、異常検出を使用し、不正な保険金請求を検出することの実施例が、説明される。第ＩＸ．Ｂ節および図１５Ａ－１５Ｋでは、異常検出を使用し、金融詐欺を検出することの実施例が、説明される。第ＩＸ．Ｃ節では、異常検出を使用し、サイバーセキュリティ脅威を検出することの実施例が、説明される。

（実施例１）
ＩＸ．Ａ．実施例１：保険金請求詐欺
本発明者らは、本明細書に説明される異常検出技法のいくつかの実施形態が、不正な保険金請求（例えば、車両保険金請求、財産所有者の保険金請求、医療保険金請求等）を検出するために使用され得ることを、認識および理解している。従来のアプローチに対して、いくつかの実施形態は、不正な保険金請求の検出において改良された正確度、感度、および／または特異性を提供する。いくつかの実施形態によって提供される、改良された感度は、保険会社によって不正な請求に支払われる総額を削減し、付加的な不正請求を申し立てないように悪徳関係者を妨げることによって、関連性がある保険市場の全体的効率を改良することができる。加えて、いくつかの実施形態によって提供される、改良された特異性は、最終的に不正ではないことが決定される請求の調査に費やされる努力を削減することによって、詐欺検出および調査システムの効率を大いに改良することができる。

ＩＸ．Ａ．１．背景
不正なアクティビティに関して保険金請求を評価することへの現代的なアプローチは、通常、ルール合致および人間の専門家の介入の混合を伴う。保険組織は、概して、その独自の詐欺調査員のチームを使用し、組織の社内ルール合致システムによって識別される高リスク請求を調べる。一般に、そのようなルールベースのシステムは、請求の全体を構成するデータではなく、主に、請求者について把握されていることに焦点を当てる。請求者への本焦点は、事件の説明（概して、自由な流れのテキストとして提供される）および他の詳細を含む、貴重な情報が欠落し得る。いくつかの実施形態では、本明細書に説明される異常検出技法は、請求者についての利用可能な情報だけではなく、請求において提供される事件の説明および他の情報も分析することによって、より良好な成果を達成する。

車両保険金請求詐欺の分野では、犯罪組織が、特定の「クラッシュフォーキャッシュ」動作を行い、いずれの既知の犯罪歴もない運転手を利用し始めているため、現代的なルールベースのシステムは、時代遅れになり始めている。犯罪者が、詐欺検出ルールを把握している場合、多くの場合、捕まることなく不正な請求を申し立てることができる。そのようなルールベースのシステムと対照的に、異常検出を使用し、不正な請求を識別する、詐欺検出システムのいくつかの実施形態は、請求が経時的に進化するにつれて、システムが不正ではない（「正常な」）請求と新しいタイプの不正な（「異常な」）請求とを区別するように自動的に適合するため、新しいタイプの不正な計画または請求が出現するにつれてそれらを検出することはるかに効果的である。

ＩＸ．Ａ．２．問題文
保険金詐欺に対する連合（ＣｏａｌｉｔｉｏｎＡｇａｉｎｓｔＩｎｓｕｒａｎｃｅＦｒａｕｄ）によると、詐欺は、あらゆる保険を横断して１年に約８００億ドルとなり、自動車保険金請求詐欺は、本損失のうちの約６０億ドルを構成することが推定される。

ユーザ：本実施例では、ユーザは、金融詐欺ソフトウェアシステムを提供することを専門とする会社である。主要な銀行および保険会社のうちのいくつかは、その詐欺検出を会社に外注する。その詐欺調査員は、快適にソフトウェアと連携するが、データ科学者ではなく、コーディングに最小限の経験を有する。

現在のシステム：会社は、２５年にわたって詐欺検出専門家として運営されており、その独自のソフトウェアシステムおよびデータベースを開発してきた。２０１６年まで、会社のシステムは、履歴データから会社によって生成されるルールを使用した。２０１６年半ばに、会社は、教師あり予測モデル化のいくつかの側面を使用する、より精巧な方法に切り替えた。

ビジネス問題：会社は、予測モデル化に多大な成功を収めてきたが、新しい請求データの後続の標識（詐欺／詐欺ではない）が、問題となっている。詐欺専門家によって調査された請求のみが、正しい標識を有し、残りの請求は、「詐欺ではない」として標識される。したがって、請求が、調査されない場合、これは、詐欺ではないと指定され、これは、教師ありモデルの不良な訓練につながる、標識の不正確度につながる。第２の問題は、特に、不正であった場合に関して、新しいデータの標識を受信することの時系列にある。受信される請求の数に対して、詐欺調査員が数人しか存在せず、調査は、終了するまで数ヶ月かかり得る。その間にも、最も現在の請求（概して、最も重要なデータを提供する）は、それらの教師ありモデルに利用不可能なままである。

ＩＸ．Ａ．３．保険金請求詐欺の検出へのいくつかの実施形態の適用
本実施例では、本明細書に説明される異常検出技法のいくつかの実施形態は、グラウンドトゥルース（詐欺対詐欺ではない）が把握される、保険金請求データを使用して、教師なし異常検出（詐欺検出）結果の正確度を査定するように、会社の保険金請求データに適用される。詐欺調査員による詐欺検出システムのいくつかの実施形態の使いやすさもまた、査定される。

分析されるデータは、履歴的自動車保険金詐欺請求のセットである。請求記録は、日付を含むが、時系列のユースケースではない。データは、数値特徴、カテゴリ特徴、および事件のテキスト説明を含む、混合データタイプを有する。データは、テーブルに編成され、スプレッドシートファイルでエンコードされる。

図１４Ａを参照すると、本実施例では、ユーザは、（例えば、データファイルを表すアイコンを異常検出システムのユーザインターフェース（ＵＩ）の中にドラッグすることによって）データを異常検出システムの中にインポートすることによって開始する。

図１４Ｂを参照すると、本実施例では、異常検出システムは、特徴のデータタイプを自動的に識別し、各特徴の値を分析し、各特徴の値を説明する統計を表示する。図１４Ｂの実施例では、ＵＩの第１の列は、特徴の名称（または「参照ＩＤ」）を示し、第２の列は、特徴に割り当てられたインデックスを示し、第３の列は、特徴のデータタイプを識別し、第４の列は、特徴毎に、データセットで見出される特徴の一意の値の数を示し、第５の列は、特徴毎に、特徴値が欠落している（データセットに存在しない）データサンプルの数を示し、第６の列は、各数値特徴の平均値を示し、第７の列は、各数値特徴の値の標準偏差を示す。

図１４Ｃを参照すると、本実施例では、ユーザは、着目特徴（例えば、保険金請求日差（Ｐｏｌｉｃｙ＿Ｃｌａｉｍ＿Ｄａｙ＿Ｄｉｆｆ）特徴）を選択し、特徴の値の分布についてのより詳細な情報を示すＵＩを視認することができる。図１４Ｃの実施例では、ＵＩは、選択された特徴の値のヒストグラムを示す。表示されるヒストグラムビンの数は、ユーザによって規定されてもよい。加えて、または代替では、本ＵＩ画面は、（１）データセット内で頻繁に生じる、選択された特徴の値、（２）選択された特徴の値のテーブル、および／または（３）特徴の値に実施され得る潜在的データ変換を表示してもよい。

図１４Ｄを参照すると、本実施例では、データセットを分析するためにシステムによって使用されるべき異常検出ブループリントが、識別される。例えば、ユーザは、異常検出ブループリントのうちの１つ以上のもの（例えば、全て）を選択してもよい。いくつかの実施形態では、本システムは、好適なデータ前処理動作（例えば、データセットのための最良のタイプのデータ前処理動作）を識別し、オンザフライでデータセットのためのカスタマイズされたブループリントを生成する。

図１４Ｅを参照すると、本実施例では、本システムは、データセットに適用される異常検出ブループリントのそれぞれによって発生されるモデルに関する正確度メトリック（曲線下面積または「ＡＵＣ」）の値を示す、ＵＩ画面を表示する。いくつかの実施形態では、正確度メトリックの値は、モデルの訓練および検証の異なる段階において（例えば、検証後、交差検証後、または抵抗試験において）計算されてもよい。いくつかの実施形態では、本システムは、ＡＵＣ以外の正確度メトリック（例えば、感度、特異性、誤検出率、未検出率等）を計算および表示してもよい。いくつかの実施形態では、正確度メトリックの値以外の情報が、表示されてもよい。例えば、各特徴の「重要性」または「影響」（例えば、特徴重要性査定技法もしくは特徴影響査定技法を使用して決定されるような、特徴がデータサンプルの異常性のモデルの決定に寄与する程度）が、表示されてもよい。

本実施例では、データセットは、システムによる異常検出モデルのスコア化を促進する、各請求の実際のグラウンドトゥルース（すなわち、請求が不正な請求または不正ではない請求であると決定されたかどうか）を示す。図１４Ｅを参照すると、本実施例では、結果の成功（約０．８７曲線下面積または「ＡＵＣ」）は、「異常」としての請求のシステムの分類が、不正であるものとしての請求のステータスと強く相関することを示す。

図１４Ｆを参照すると、本実施例では、本システムは、システムによって異常としてフラグを付けられる記録（「＋」記号によって表される予測値）と人間の専門家によって不正として識別される請求（「ｏ」記号によって表される実際の値）との間の関係を図示する、可視化を示すＵＩ画面を表示する。図１４Ｆの実施例では、可視化は、リフトチャートであるが、他のタイプの可視化も、使用されてもよい。本実施例では、リフトチャートは、モデルによって検出される異常と不正な請求との間の明確な相関を示す。

上記に議論されるように、いくつかの実施形態では、本システムは、根本的異常検出モデルまたはブループリントから集合モデルを生成するために使用され得る、異常検出ブレンダを提供する。集合異常検出モデルは、平均、最大、または最小ブレンダのいずれかであるように同調されることができる。本実施例では、平均ブレンダ、最大ブレンダ、および最小ブレンダは全て、根本的モデルが、概して、異常と見なされた請求に関して合意したことを示す、ほぼ同一の結果を生じた。

図１４Ｇを参照すると、本実施例では、本システムは、データセットの特徴の「特徴重要性」（例えば、特徴重要性査定技法を使用して決定されるような、個別の特徴がデータサンプルの異常性のモデルの決定に寄与する程度）に関する情報を示す、ＵＩ画面を表示する。本実施例では、特徴重要性情報は、いくつかの非テキスト特徴が、データサンプル（請求）が異常（不正）であるかどうか（例えば、夜間に生じた事故に関連する請求が事故のタイプほど重要ではないかどうか）を決定する際に他のものよりも重要であることを示すだけではなく、事故の説明（または請求の説明）で使用される具体的用語（例えば、用語「駐車場」、「制限速度」、「フロントガラス」、「高速」、「非」、「カーパーク」、「停止」、「太陽」、および「むち打ち」）が、異常な請求のモデルの識別に有意に寄与することも示す。

上記に説明されるように、異常検出システムのいくつかの実施形態は、異常としてのデータサンプルのモデルの識別への特徴の寄与をスコア化するための新規の特徴影響査定方法を提供する。本特徴影響スコアは、特定の請求の異常スコアのための解説を提供することに役立ち得る。特徴影響査定技法は、異常検出ブループリントのうちのいずれかと連携する。

図１４Ｈを参照すると、本実施例では、本システムは、異常として請求にフラグを付ける二重ＭＡＤ異常検出モデルに最も寄与する特徴が、（１）請求がユーザの今は時代遅れのルールベースのシステムによって提供されるルールに合致するかどうか、（２）請求者が行った人身傷害請求の数、および（３）請求者の性別であることを示す、ＵＩ画面を表示する。

図１４Ｌおよび１４Ｊを参照すると、本実施例では、本システムは、異常検出モデルによって請求に割り当てられた異常スコアの寄与を示す、ＵＩ画面を表示する。本実施例では、ユーザは、異常スコアの範囲に関する終点（例えば、０．０～０．０５３、０．０５３～０．３９６、および／または０．３９６～１．０）を示すことができ、本システムは、規定範囲内の異常スコアを有する請求のそれぞれに割り当てられた異常スコアのための解説を提供することができる。図１４Ｊの実施例では、解説が、高い異常スコアを有する３つの請求（請求ＩＤ番号９５７６、６３９８、および７６４２参照）に関して、ならびに低い異常スコアを有する２つの請求（請求ＩＤ番号２８０６および８４２８参照）に関して、提供される。図１４Ｊの実施例では、本システムは、対応する請求の異常検出スコアを増加させることに寄与するいくつかの因子（１つ以上の「＋」記号が先行する解説参照）、および対応する請求の異常検出スコアを減少させることに寄与するいくつかの因子（１つ以上の「－」記号が先行する解説参照）を識別する。

図１４Ｋを参照すると、いくつかの実施形態では、解説は、ＵＩからファイル（例えば、スプレッドシート）にエクスポートされることができる。ユーザ（例えば、詐欺調査員）が、本情報を使用し、特定の請求が異常と見なされる理由への洞察を獲得する、および／または請求者を伴う任意の後続の法的手続きを支援することができる。

図１４Ｌを参照すると、本実施例では、本システムは、ユーザが任意の着目請求に対応するデータを調査することに役立ち得る、異常スコアによってランク付けされる請求を示す、スクロール可能なテーブルを表示する。さらなる分析に関して、請求データは、図１４Ｍに示されるように、ファイル（例えば、スプレッドシート）にエクスポートされることができる。

成果：この場合、異常検出試行は、以下の理由、すなわち、（１）詐欺調査チームが、システムによって提供されるランク付けされたリストが、そのシステムによって提供されるその査定よりも正確であることを確信した、（２）可能性として不正として識別される請求に焦点を当てることによって、保険業者が、数百万ドルを潜在的に節約することができた一方、同時に調査員の作業負荷を増加させなかった、（３）異常な請求が不正な請求と明確な関係を有する、（４）教師なしブループリントが、（提供されるグラウンドトゥルースに従って）約０．８７ＡＵＣの成功率で不正な請求を識別することができた、（５）新規の洞察およびビジネス知識が、予測解説特徴ならびにテキストブループリントに起因して獲得された、（６）出力の単純性が、ビジネスルールへの容易な変換を可能にした、（７）ユーザが、試行の実行に最小限の関与を有した、および（８）ユーザによるコーディングのため、またはユーザが根本的前処理ステップおよび異常検出アルゴリズムを理解するための要件さえも存在しなかったことにより、成功として評価された。

（実施例２）
ＩＸ．Ｂ．実施例２：クレジットカード詐欺およびマネーロンダリング
本発明者らは、本明細書に説明される異常検出技法のいくつかの実施形態が、不正なクレジットカード購入およびマネーロンダリングを検出するために使用され得ることを、認識および理解している。従来のアプローチに対して、いくつかの実施形態は、不正なクレジットカード購入およびマネーロンダリングの検出において改良された正確度、感度、および／または特異性を提供する。いくつかの実施形態によって提供される、改良された感度は、金融機関によって支払われる総額を削減し、不正なクレジットカード購入およびマネーロンダリングのコストを回収することによって、かつ付加的な不正購入およびまたはマネーロンダリングスキームを試行しないように悪徳関係者を妨げることによって、関連性がある金融機関の全体的効率を改良することができる。加えて、上記に説明されるように、いくつかの実施形態によって提供される、改良された特異性は、最終的に不正ではないことが決定される取引の調査に費やされる努力を削減することによって、詐欺検出および調査システムの効率を大いに改良することができる。

ＩＸ．Ｂ．１．背景
保険金請求の調査のように、不正なアクティビティに関して金融取引を評価することへの現代的なアプローチは、通常、ルール合致および人間の専門家の介入の混合を伴う。金融機関は、概して、その独自の詐欺調査員のチームを使用し、機関の社内ルール合致システムによって識別される高リスク取引を調べる。一般に、そのようなルールベースのシステムは、取引の全体を構成するデータではなく、主に、取引エンティティについて把握されていることに焦点を当てる。保険金詐欺検出に関して上記に議論されるように、エンティティへの本焦点は、貴重な情報が欠落し得る。いくつかの実施形態では、本明細書に説明される異常検出技法は、取引エンティティについての利用可能な情報だけではなく、請求において提供される事件の説明および他の情報も分析することによって、より良好な成果を達成する。

不正な保険金請求の検出および不正な取引の検出は、いくつかの方法で類似するが、不正な保険金請求の検出と不正な取引の検出との間の１つの主な違いは、データの量である。クレジットカード取引および他の金融取引の量は、保険金請求の量をはるかに上回る。さらに、金融取引の大部分は、保険金請求と比較して不正ではない。データサンプルの量および不正なデータサンプルの希少性の本差は、複雑性の付加的層を不正な取引の検出に追加する。結果として、クレジットカード詐欺およびマネーロンダリング検出への従来のソリューションは、保険金詐欺検出のためのソリューションと類似する欠点を実証するが、これらの欠点に加えて、クレジットカード詐欺およびマネーロンダリング検出はまた、多数の資格のある金融詐欺専門家が大量の金融取引を評価することも要求する。

異常検出を使用し、不正な取引を識別する、詐欺検出システムのいくつかの実施形態を使用することによって、機関は、より多くの数量（例えば、全て）の取引を評価し、「正常な」取引の概念を確立することができる。これらの洞察は、次いで、機関の現在のルールベースのシステムの中に組み込まれてもよい。これらの洞察を機関の現在のルールベースのシステムの中に組み込むことによって、専門の人間の詐欺調査員は、不正である最も高い確率を有する取引の評価を優先することができる。したがって、異常検出システムを実装することによって、大量の金融取引が、詐欺に関して効率的かつ徹底的に評価されることができる。

ＩＸ．Ｂ．２．問題文
国連薬物犯罪事務所（ＵｎｉｔｅｄＮａｔｉｏｎｓＯｆｆｉｃｅｏｎＤｒｕｇｓａｎｄＣｒｉｍｅ）によると、毎年世界的に行われるマネーロンダリングの金額は、世界的ＧＤＰの約２～５％、すなわち、約８千億～２兆米ドルである。

ユーザ：本実施例では、ユーザは、マネーロンダリング検出を金融機関に提供することを専門とする金融機関（例えば、銀行、クレジットカード会社等）の部門である。

ビジネス問題：本部門は、以下のマネーロンダリングシナリオの検出に焦点を当てている。
●顧客が、そのクレジットカードを使用して金を使うが、そのクレジットカード請求書に払い過ぎ、払い過ぎに関して金融機関からの現金払い戻しを求める。
●顧客が、取引を相殺することなく商業者から取引のためのクレジットを受領し、受領されたクレジットを使うか、または金融機関からの現金払い戻しを要求するかのいずれかである。

現在のシステム：本部門は、現在、ルールベースのシステムに依拠し、アラートを発生させ、上記のシナリオと一致する潜在的に疑わしいアクティビティを検出する。ルールベースのシステムによって従われるルールは、金額にかかわらず、顧客が金融機関からの払い戻しを要求する度に、システムにアラートをトリガさせる。要求の金額にかかわらず、払い戻し要求に応答してアラートをトリガすることの背後にある論拠は、以下の意図を含む。
●少額払い戻し要求は、金融機関の払い戻し機構を試験する、またはその口座のための正常なパターンとして払い戻し要求を確立しようとする、マネーロンダラであり得る。
●少額払い戻しは、マネーロンダラの支払額および架空商業者クレジットの残余のものであり得る。

本部門の現在のルールベースのシステムによって従われる、本慎重なルールのマイナス面は、不正ではない取引のフラグ付け、および多数の専門マネーロンダリング調査員の必要性であり、それによって、不必要な時間および金を消費する。

ＩＸ．Ｂ．３．クレジットカード詐欺およびマネーロンダリングの検出へのいくつかの実施形態の適用
本実施例では、本部門の金融取引データに適用される、本明細書に説明される教師なし異常検出技法のいくつかの実施形態の使用による、誤検出異常検出（詐欺検出）率の低減が、グラウンドトゥルース（詐欺対詐欺ではない）が把握される、金融取引データを使用して、評価される。詐欺調査員による詐欺検出システムのいくつかの実施形態の使いやすさもまた、査定される。

分析されるデータは、上記に議論される２つのマネーロンダリングシナリオのうちの１つを順守する履歴的取引のセットである。取引データは、最も複雑なデータを含むようにフィルタ処理されている。具体的には、分析された取引データが、本部門の現在のルールベースのシステムによって評価されるとき、評価は、９０％誤検出率を生じさせる。データは、数値特徴、カテゴリ特徴、および取引に関連するテキスト事件記録を含む、混合データタイプを有する。データは、テーブルに編成され、スプレッドシートファイルでエンコードされる。

ユーザは、（例えば、データファイルを表すアイコンを異常検出システムのユーザインターフェース（ＵＩ）の中にドラッグすることによって）データを異常検出システムの中にインポートすることによって開始する。

図１５Ａを参照すると、本実施例では、異常検出システムは、特徴のデータタイプを自動的に識別し、各特徴の値を分析し、各特徴の値を説明する統計を表示する。図１５Ａの実施例では、ＵＩの第１の列は、特徴の名称（または「参照ＩＤ」）を示し、第２の列は、特徴に割り当てられたインデックスを示し、第３の列は、特徴のデータタイプを識別し、第４の列は、特徴毎に、データセットで見出される特徴の一意の値の数を示し、第５の列は、特徴毎に、特徴値が欠落している（データセットに存在しない）データサンプルの数を示し、第６の列は、各数値特徴の平均値を示し、第７の列は、各数値特徴の値の標準偏差を示し、第８の列は、各数値特徴の値の中央値を示す。

図１５Ｂを参照すると、本実施例では、ユーザは、着目特徴（例えば、クレジットスコア特徴）を選択し、特徴の値の分布についてのより詳細な情報を示すＵＩを視認することができる。図１５Ｂの実施例では、ＵＩは、選択された特徴の値のヒストグラムを示す。表示されるヒストグラムビンの数は、ユーザによって規定されてもよい。加えて、または代替では、本ＵＩ画面は、（１）データセット内で頻繁に生じる、選択された特徴の値、（２）選択された特徴の値のテーブル、および／または（３）特徴の値に実施され得る潜在的データ変換を表示してもよい。

図１５Ｃを参照すると、本実施例では、データセットを分析するためにシステムによって使用されるべき異常検出ブループリントが、識別される。例えば、ユーザは、異常検出ブループリントのうちの１つ以上のもの（例えば、全て）を選択してもよい。いくつかの実施形態では、本システムは、好適なデータ前処理動作（例えば、データセットのための最良のタイプのデータ前処理動作）を識別し、オンザフライでデータセットのためのカスタマイズされたブループリントを生成する。

図１５Ｄを参照すると、本実施例では、本システムは、データセットに適用される異常検出ブループリントのそれぞれによって発生されるモデルに関する正確度メトリック（曲線下面積または「ＡＵＣ」）の値を示す、ＵＩ画面を表示する。いくつかの実施形態では、正確度メトリックの値は、モデルの訓練および検証の異なる段階において（例えば、検証後、交差検証後、または抵抗試験において）計算されてもよい。いくつかの実施形態では、本システムは、ＡＵＣ以外の正確度メトリック（例えば、感度、特異性、誤検出率、未検出率等）を計算および表示してもよい。いくつかの実施形態では、正確度メトリックの値以外の情報が、表示されてもよい。例えば、各特徴の「重要性」または「影響」（例えば、特徴重要性査定技法もしくは特徴影響査定技法を使用して決定されるような、特徴がデータサンプルの異常性のモデルの決定に寄与する程度）が、表示されてもよい。

本実施例では、データセットは、システムによる異常検出モデルのスコア化を促進する、各取引の実際のグラウンドトゥルース（すなわち、取引がマネーロンダリングと関連付けられる、またはマネーロンダリングと関連付けられないと決定されたかどうか）を示す。図１５Ｄを参照すると、本実施例では、結果の成功（約０．８５曲線下面積または「ＡＵＣ」）は、「異常」としての取引のシステムの分類が、不正であるものとしての取引のステータスと強く相関することを示す。

図１５Ｅを参照すると、本実施例では、本システムは、データセットに適用される最も正確な異常検出ブループリントによって発生されるモデル（教師あり学習（ＸＧＢ）ブループリントを用いた異常検出）に関する種々の性能メトリックの値を示す、ＵＩ画面を表示する。図１５Ｅに示されるように、データセットは、２，０００件の取引を含んだ。２，０００件の取引のうちの１，７９４件の取引は、不正ではない取引であることが把握された。２，０００件の取引のうちの２０６件の取引は、不正な取引であることが把握された。異常検出モデルは、１，５６７件の正未検出の不正な取引、２２７件の誤検出の不正な取引、６９件の未検出の不正な取引、および１３７件の正検出取引を識別した。システムによって計算される性能メトリックは、Ｆ１スコア、正検出率（感度）、誤検出率（脱落）、正未検出率（特異性）、正の予測値（精度）、負の予測値、正確度、およびマシューの相関係数を含む。特に、異常検出モデルの誤検出率（脱落）は、９０％のユーザの現在のルールベースのシステムの誤検出率と比較して、１２．６５％である。

図１５Ｆを参照すると、本実施例では、本システムは、図１５Ｄの異常検出モデルならびに混成異常検出モデルのための正確度メトリック（曲線下面積または「ＡＵＣ」）の値を示す、ＵＩ画面を表示する。混成異常検出モデルは、複数の異なる異常検出モデルの集合を含む。混成異常検出モデルは、不正な取引を識別するための最小、中間、または最大レベルの異常検出厳密性に設定されることができる。本実施例では、最小、中間、または最大レベルの異常検出厳密性を有する、混成異常検出モデルは全て、根本的モデルが、概して、不正と見なされた取引に関して合意したことを示す、ほぼ同一の正確度メトリックを生じさせた。しかしながら、図１５Ｆに示されるように、本特定のデータセットに関して、最小レベルの異常検出厳密性に設定された混成異常検出モデルは、０．８５５６ＡＵＣを伴う最も正確なモデルであった。

図１５Ｇを参照すると、本実施例では、本システムは、データセットの特徴の「特徴重要性」（例えば、特徴重要性査定技法を使用して決定されるような、個別の特徴がデータサンプルの異常性のモデルの決定に寄与する程度）に関する情報を示す、ＵＩ画面を表示する。本実施例では、特徴重要性情報は、いくつかの非テキスト特徴が、データサンプル（取引）が異常（不正）であるかどうか（例えば、顧客の収入が過去９０日間に顧客に発行された払い戻しの総数ほど重要ではないかどうか）を決定する際に他のものよりも重要であることを示す。さらに、データセットの中の多くの取引が、データセットのフリーテキスト特徴（例えば、取引毎の事件記録）に関する値と関連付けられないにしても、特徴重要性情報は、事件記録で使用される具体的用語（例えば、用語「支払期間」、「置換」、および「変更」）が、異常な請求のモデルの識別に有意に寄与することを示す。加えて、取引のための事件記録に関する欠落した値（例えば、値なし）もまた、異常な請求のモデルの識別に有意に寄与する。欠落したテキストが異常検出に重要であるという事実は、下記にさらに詳細に議論されるように、データ品質およびデータ漏出へのさらなる調査を正当化する。

上記に説明されるように、異常検出システムのいくつかの実施形態は、異常としてのデータサンプルのモデルの識別への特徴の寄与をスコア化するための新規の特徴影響査定方法を提供する。本特徴影響スコアは、特定の取引の異常スコアのための解説を提供することに役立ち得る。特徴影響査定技法は、異常検出ブループリントのうちのいずれかと連携する。

図１５Ｈを参照すると、本実施例では、本システムは、異常として取引にフラグを付ける特定の異常検出モデルに最も寄与する特徴が、（１）顧客が過去９０日間に受領した商業者クレジットの総数、（２）過去９０日間に顧客によって使われた合計、および（３）過去９０日間の顧客による総支払額を示す、ＵＩ画面を表示する。

図１５Ｉを参照すると、本実施例では、本システムは、規定範囲内の異常スコアを有する取引のそれぞれに割り当てられた異常スコアのための解説を提供する。図１５Ｉの実施例では、解説が、高い異常スコアを有する３つの取引（取引ＩＤ番号５８３８、１０３１、および６４０９参照）に関して、ならびに低い異常スコアを有する３つの取引（取引ＩＤ番号３９１、９１５３、および７７９７参照）に関して、提供される。図１５Ｉの実施例では、本システムは、対応する取引の異常検出スコアを増加させることに寄与するいくつかの因子（１つ以上の「＋」記号が先行する解説参照）、および対応する取引の異常検出スコアを減少させることに寄与するいくつかの因子（１つ以上の「－」記号が先行する解説参照）を識別する。例えば、図１５Ｉの実施例では、取引のための欠落した事件記録は、異常ではない（例えば、不正ではない）取引と関連付けられる。欠落した事件記録は、データ品質または漏出問題であり得、本システムは、ユーザに本潜在的問題を警告することができる。

図１５Ｊを参照すると、本実施例では、本システムは、ユーザが任意の着目取引に対応するデータを調査することに役立ち得る、異常スコアによってランク付けされる取引を示す、スクロール可能なテーブルを表示する。

図１５Ｋを参照すると、いくつかの実施形態では、解説は、ＵＩからファイル（例えば、スプレッドシート）にエクスポートされることができる。ユーザ（例えば、専門詐欺調査員）が、本情報を使用し、特定の取引が異常と見なされる理由への洞察を獲得する、および／または取引に従事する顧客を伴う任意の後続の法的手続きを支援することができる。

成果：この場合、異常検出試行は、以下の理由、すなわち、（１）異常検出システムによって提供される異常取引のランク付けされたリストが、金融機関の現在のルールベースのシステムよりも正確であり、より少ない誤検出の不正な取引の識別をもたらした、（２）マネーロンダリングと関連付けられる可能性が最も高いことが異常検出システムによって識別される、具体的取引の評価を優先することによって、金融機関が、数百万ドルを節約することができた一方、そのマネーロンダリング調査員の作業負荷を増加させなかった、（３）異常検出システムによって識別される異常な取引が、不正な請求と明確な関係を有する、（４）データセットに適用される異常検出ブループリントによって発生される教師なし異常検出モデルが、約０．８５ＡＵＣの成功率で不正な取引を識別した、（５）新規の洞察およびビジネス知識が、異常な取引の識別のために異常検出システムによって提供される解説から獲得され、出力解説の単純性が、ビジネスルールへの洞察のシームレスな変換を可能にした、（６）ユーザが、異常検出システムの自動化に起因して、異常検出プロセスに最小限に関与した、（７）ユーザによるコーディングのため、またはユーザが根本的前処理ステップおよび異常検出アルゴリズムを理解するための要件さえも存在しなかった、（８）ユーザが、そのデータセットでデータ品質および漏出問題を識別することができたことにより、成功として評価された。

（実施例３）
ＩＸ．Ｃ．実施例３：ネットワークアクセスおよびサイバーセキュリティ
多くの場合、遡及的に不正なネットワークアクセスを検出することは、比較的に単純である。しかしながら、不正なネットワークアクセスが特定の方策に従って前もって生じていない場合において（例えば、不正なネットワークアクセスが「新規」である場合において）、そのような新規の不正なネットワークアクセスは、生じるにつれて検出することが困難であり得る。例えば、いくつかの教師ありモデルは、履歴的ネットワークアクセスが不正であったかどうかを予測することができるが、モデルが十分な訓練および検証に続いて展開される時間までに、不正なネットワークアクセスは、新しい方策に従って生じ始めている場合がある。一般に、いくつかの教師ありモデルは、大多数クラス（例えば、正常なネットワークアクセス）を割り当てることによって、新規のネットワークアクセスデータに基づいて予測を発生させることに対処する。結果として、サイバーセキュリティ専門家が問題を警告される前に、不正なネットワークアクセスのいくつかの事件が存在し得る。

しかしながら、本明細書に開示される異常検出方法のいくつかの実施形態を使用して、新規の不正なネットワークアクセスにおける第１の試行は、「以前に見られていない何らかのもの」として識別されるであろうため、異常としてフラグを付けられ、それによって、サイバーセキュリティ専門家が、最初に現在の侵入を追跡し、停止させ、次いで、将来のそのような侵入を防止するための対策を講じることを可能にする。

Ｘ．例示的コンピュータ
いくつかの実施例では、上記に説明される処理の一部のいくつかまたは全ては、パーソナルコンピューティングデバイス上に、１つ以上の集中コンピューティングデバイス上に、もしくは１つ以上のサーバによるクラウドベースの処理を介して、実行されることができる。いくつかの実施例では、いくつかのタイプの処理は、１つのデバイス上で生じ、他のタイプの処理は、別のデバイス上で生じる。いくつかの実施例では、上記に説明されるデータの一部のいくつかまたは全ては、パーソナルコンピューティングデバイス上に、１つ以上の集中コンピューティングデバイス上にホストされるデータ記憶装置内に、もしくはクラウドベースの記憶装置を介して、記憶されることができる。いくつかの実施例では、いくつかのデータは、１つの場所に記憶され、他のデータは、別の場所に記憶される。いくつかの実施例では、量子計算が、使用されることができる。いくつかの実施例では、関数型プログラミング言語が、使用されることができる。いくつかの実施例では、フラッシュベースのメモリ等の電気的メモリが、使用されることができる。

図１３は、ある実施形態による、本明細書に（例えば、図１－１２に）説明される方法を実装するための例示的コンピュータ１３００を図示する。コンピュータ１３００は、チップセット１３０２に結合される、少なくとも１つのプロセッサ１３０１を含む。チップセット１３０２は、メモリコントローラハブ１３１０と、入出力（Ｉ／Ｏ）コントローラハブ１３１１とを含む。メモリ１３０３およびグラフィックスアダプタ１３０６が、メモリコントローラハブ１３１０に結合され、ディスプレイ１３０９が、グラフィックスアダプタ１３０６に結合される。記憶デバイス１３０４、入力デバイス１３０７、およびネットワークアダプタ１３０８が、Ｉ／Ｏコントローラハブ１３１１に結合される。コンピュータ１３００の他の実施形態は、異なるアーキテクチャを有する。

記憶デバイス１３０４は、ハードドライブ、コンパクトディスク読取専用メモリ（ＣＤ－ＲＯＭ）、ＤＶＤ、またはソリッドステートメモリデバイス等の非一過性のコンピュータ可読記憶媒体である。メモリ１３０３は、プロセッサ１３０１によって使用される命令およびデータを保持する。入力インターフェース１３０７は、タッチスクリーンインターフェース、マウス、トラックボール、または他のタイプのポインティングデバイス、キーボード、もしくはそれらのいくつかの組み合わせであり、コンピュータ１３００にデータを入力するために使用される。いくつかの実施形態では、コンピュータ１３００は、ユーザからのジェスチャを介して、入力インターフェース１３０７から入力（例えば、コマンド）を受信するように構成されることができる。グラフィックスアダプタ１３０６は、ディスプレイ１３０９上に画像および他の情報を表示する。ネットワークアダプタ１３０８は、コンピュータ１３００を１つ以上のコンピュータネットワークに結合する。

コンピュータ１３００は、本明細書に説明される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書で使用されるように、用語「モジュール」は、規定機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールが、ハードウェア、ファームウェア、および／またはソフトウェアで実装されることができる。一実施形態では、プログラムモジュールが、記憶デバイス１３０４上に記憶され、メモリ１３０３にロードされ、プロセッサ１３０１によって実行される。

本明細書に説明される方法を実装するために使用されるコンピュータ１３００のタイプは、実施形態およびエンティティによって要求される処理能力に応じて、変動し得る。例えば、異常検出システムは、単一のコンピュータ１３００、またはサーバファーム内等のネットワークを通して相互と通信する複数のコンピュータ１３００内で起動することができる。コンピュータ１３００は、グラフィックスアダプタ１３０６およびディスプレイ１３０９等の上記に説明されるコンポーネントのうちのいくつかが欠け得る。

ＸＩ．付加的考慮
１つ以上の特徴が「フリーテキスト」データタイプを有する、データセットに異常検出を実施するための技法のいくつかの実施形態。本文脈では、「フリーテキスト」は、非構造化テキストを指す。いくつかの実施形態では、「フリーテキスト」特徴に適用可能であるものとして本明細書に説明される同一の技法は、「構造化テキスト」特徴を含む、他の「テキスト」特徴に適用されてもよい。

本発明の実施形態の前述の説明は、例証の目的のために提示されており、包括的であること、または本発明を開示される精密な形態に限定することは意図されない。当業者は、多くの修正および変形例が上記の開示を踏まえて可能であることを理解することができる。

本説明のいくつかの部分は、情報への動作のアルゴリズムおよび象徴的表現の観点から、本発明の実施形態を説明する。これらのアルゴリズム的説明および表現は、その作業の内容を当業者に効果的に伝えるために、データ処理分野の当業者によって一般的に使用される。これらの動作は、機能的、計算的、または論理的に説明されるが、コンピュータプログラムまたは同等の電気回路、マイクロコード、もしくは同等物によって実装されると理解される。

本明細書に説明されるステップ、動作、またはプロセスのうちのいずれかは、単独で、もしくは他のデバイスと組み合わせて、１つ以上のハードウェアもしくはソフトウェアモジュールを伴って実施または実装されることができる。一実施形態では、ソフトウェアモジュールが、説明されるステップ、動作、またはプロセスのうちのいずれかまたは全てを実施するために、コンピュータプロセッサによって実行され得る、コンピュータプログラムコードを含有するコンピュータ可読非一過性媒体を含む、コンピュータプログラム製品を伴って実装される。

実施形態はまた、本明細書の動作を実施するための装置にも関し得る。本装置は、特に、要求される目的のために構築されてもよい、および／またはコンピュータ内に記憶されたコンピュータプログラムによって選択的にアクティブ化もしくは再構成される汎用コンピューティングデバイスを備えてもよい。そのようなコンピュータプログラムは、非一過性の有形コンピュータ可読記憶媒体、またはコンピュータシステムバスに結合され得る電子命令を記憶するために好適な任意のタイプの媒体内に記憶されてもよい。さらに、本明細書で参照される任意のコンピューティングシステムは、単一のプロセッサを含んでもよい、または増加した算出能力のために複数のプロセッサ設計を採用するアーキテクチャであってもよい。

本発明の実施形態はまた、本明細書に説明される算出プロセスによって生産される製品にも関し得る。そのような製品は、算出プロセスに起因する情報を含んでもよく、情報は、非一過性の有形コンピュータ可読記憶媒体上に記憶され、コンピュータプログラム製品の任意の実施形態または本明細書に説明される他のデータの組み合わせを含んでもよい。

本明細書で使用される用語は、主に、可読性および指示目的のために選択されており、発明の主題を区切る、または制限するために選択されていない場合がある。したがって、本発明の範囲は、本詳細な説明によってではなく、むしろ、これに基づいて出願上で発行される任意の請求項によって限定されることが意図される。故に、本発明の実施形態の開示は、本発明の範囲の限定ではなく、例証であることを意図している。

本明細書は、多くの具体的実装詳細を含有するが、これらは、請求され得るものの範囲への限定としてではなく、むしろ、特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本明細書に説明される、ある特徴もまた、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴もまた、複数の実施形態において、別個に、または任意の好適な副次的組み合わせで、実装されることができる。さらに、特徴が、ある組み合わせで作用するものとして上記に説明され、そのようなものとして最初に請求さえされ得るが、請求される組み合わせからの１つ以上の特徴は、ある場合には、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。

同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。

本主題の特定の実施形態が、説明された。他の実施形態も、以下の請求項の範囲内に該当する。例えば、請求項に記載されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。一実施例として、付随する図面に描写されるプロセスは、望ましい結果を達成するために、示される特定の順序または連続的順序を必ずしも要求するわけではない。ある実装では、マルチタスクおよび並列処理が、有利であり得る。他のステップもしくは段階も、提供されてもよい、またはステップもしくは段階が、説明されるプロセスから排除されてもよい。故に、他の実装も、以下の請求項の範囲内に該当する。

Claims

異常検出方法であって、
複数のデータサンプルを備えるデータセットを取得することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる、ことと、
前記特徴のそれぞれの個別のデータタイプを識別することと、
前記特徴のうちの１つ以上のものの個別のデータタイプに基づいて、異常検出ブループリントを自動的に発生させることであって、前記異常検出ブループリントは、異常検出プロシージャをエンコードする機械実行可能モジュールを備え、前記異常検出プロシージャは、複数のタスクを含み、前記タスクのうちの１つ以上のものは、前記データセットのサイズおよび／または前記１つ以上の特徴の個別のデータタイプに基づいて選択される、ことと、
前記機械実行可能モジュールを実行し、それによって、前記異常検出プロシージャを実施することであって、前記異常検出プロシージャを実施することは、前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することを含む、ことと
を含む、方法。
前記１つ以上の特徴は、特定の特徴を含み、前記特定の特徴の識別されたデータタイプは、数値データタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャは、前記数値データタイプを有する前記特定の特徴に関して、前記複数のデータサンプルの個別の値の正規化、標準化、またはｒｉｄｉｔ変換を実施するタスクを含まない、請求項１に記載の方法。
前記１つ以上の特徴は、特定の特徴を含み、前記特定の特徴のデータタイプは、数値データタイプであり、
前記複数のデータサンプルは、１つ以上の第１のデータサンプルと、１つ以上の第２のデータサンプルとを含み、前記第１のデータサンプル毎の特定の特徴の個別の値は、欠落しており、前記第２のデータサンプル毎の特定の特徴の個別の値は、欠落しておらず、
前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、前記第１のデータサンプルのそれぞれの特定の特徴の個別の欠落した値を、前記第２のデータサンプルに関する前記特定の特徴の欠落していない値の中央値と置換することを含む、欠落した値の補定タスクを含む、
請求項１に記載の方法。
前記１つ以上の特徴は、特定の特徴を含み、
前記複数のデータサンプルは、１つ以上のデータサンプルを含み、前記特定の特徴に関する前記個別の値は、欠落しており、
前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
新しい特徴を前記特徴のセットに追加し、前記複数のデータサンプル毎に前記新しい特徴の個別の値を決定することであって、前記複数のデータサンプル毎の新しい特徴の個別の値は、前記個別のデータサンプルが前記特定の特徴に関する値が欠落しているかどうかを示す、こと
を含む特徴工学タスク
を含む、請求項１に記載の方法。
前記複数のデータサンプルはそれぞれ、標識の個別の値とさらに関連付けられ、
前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクはさらに、
前記複数のデータサンプル毎に個別の異常スコアを取得することであって、データサンプル毎の個別の異常スコアは、前記データサンプルが異常である、予測される程度を示す、ことと、
前記異常スコアに基づいて、前記複数のデータサンプルから前記異常データサンプルのセットを識別することと
を含み、
前記方法はさらに、
前記複数のデータサンプル毎に、前記個別の異常スコアまたは個別の異常分類と前記標識の個別の値との間の相関を決定することと、
前記相関が閾値相関未満であることに応答して、前記複数のデータサンプルから前記異常データサンプルのセットを除去することと、
そうでなければ、前記相関が少なくとも前記閾値相関であることに応答して、前記複数のデータサンプルの中の前記異常データサンプルのセットを留保することと
含む、請求項１に記載の方法。
前記１つ以上の特徴は、特定の特徴を含み、前記特定の特徴のデータタイプは、カテゴリデータタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
前記複数のデータサンプル毎に、前記カテゴリデータタイプを有する前記特定の特徴の個別の値を、前記複数のデータサンプルの中の前記特定の特徴の個別の値の発生の個別の頻度と置換すること
を含む特徴工学タスク
を含む、請求項１に記載の方法。
前記１つ以上の特徴は、１つ以上の特定の特徴を含み、前記１つ以上の特定の特徴のデータタイプは、フリーテキストデータタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
前記複数のデータサンプルに関する前記フリーテキストデータタイプを有する前記１つ以上の特定の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別することと、
サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記フリーテキストデータタイプを有する前記１つ以上の特定の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
を含む特徴工学タスク
を含む、請求項１に記載の方法。
前記特徴工学タスクはさらに、
前記特徴のセットの中の前記１つ以上の特定の特徴を工学的特徴と置換することと、
前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記サンプル用語行列の行に設定することと
を含む、請求項７に記載の方法。
前記組み合わせられたフリーテキストコーパス内の一意の用語の数は、５，０００を上回り、前記組み合わせられたフリーテキストコーパス内で最も頻繁に生じる前記複数の用語の中の一意の用語の数は、５，０００であり、前記サンプル用語行列の列の数は、５，０００である、請求項８に記載の方法。
前記特徴工学タスクはさらに、
前記サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
前記特徴のセットの中の１つ以上の特定の特徴を工学的特徴と置換することと、
前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
を含む、請求項７に記載の方法。
前記１つ以上の特徴は、１つ以上の特定の特徴を含み、前記１つ以上の特定の特徴のそれぞれのデータタイプは、フリーテキストデータタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
前記フリーテキストデータタイプを有する前記１つ以上の特定の特徴毎に、
前記複数のデータサンプルに関して、前記個別の特定の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語を識別することと、
サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記個別の特定の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
を含む特徴工学タスク
を含む、請求項１に記載の方法。
前記特徴工学タスクはさらに、
前記フリーテキストデータタイプを有する前記１つ以上の特定のそれぞれに対応するサンプル用語行列毎に、
前記サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
前記特徴のセットの中の個別の特定の特徴を個別の工学的特徴と置換することと、
前記複数のデータサンプル毎に、前記個別の工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
請求項１１に記載の方法。
前記データセットのサイズを識別することをさらに含み、前記異常検出ブループリントの発生はさらに、前記データセットのサイズに基づき、前記異常データサンプルのセットは、異常検出プロセスを使用して識別され、前記異常検出プロセスは、少なくとも部分的に、前記データセットの中のデータサンプルの数および／または前記データセットの記憶サイズに基づいて、異常選択プロセスの群から選択される、請求項１に記載の方法。
前記データセットの中のデータサンプルの数は、第１のサンプル数閾値未満であり、前記データセットの記憶サイズは、記憶サイズ閾値未満であり、前記異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差（ＭＡＤ）プロセス、１クラスサポートベクトルマシン（ＳＶＭ）プロセス、局所外れ値因子（ＬＯＦ）プロセス、およびマハラノビス距離プロセスから成る、請求項１３に記載の方法。
前記データセットの中のデータサンプルの数は、第１のサンプル数閾値を上回り、第２のサンプル数閾値未満であり、前記データセットの記憶サイズは、記憶サイズ閾値未満であり、前記異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差（ＭＡＤ）プロセス、およびマハラノビス距離プロセスから成る、請求項１３に記載の方法。
（１）前記データセットの中のデータサンプルの数は、第１のサンプル数閾値および第２のサンプル数閾値を上回り、または（２）前記データセットの記憶サイズは、記憶サイズ閾値を上回り、前記異常選択プロセスの群は、二重中央値絶対偏差（ＭＡＤ）プロセスおよびマハラノビス距離プロセスから成る、請求項１３に記載の方法。
前記異常データサンプルのセットを識別することは、
教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定することと、
前記複数のデータサンプルの標識の個別の値として、前記異常スコアを前記データセットに追加し、それによって、標識データセットを発生させることと、
教師あり異常検出モデルを前記標識データセットに適用し、前記異常データサンプルのセットを識別することと
を含む、請求項１に記載の方法。
前記複数のデータサンプルのサブセットを前記異常データサンプルのセットとして識別することは、
教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定すること
を含み、
前記異常データサンプルのセットは、最大の異常スコアを有する前記複数のデータサンプルの割合を備える、
請求項１に記載の方法。
前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクはさらに、
前記異常データサンプルの識別されたセットに基づいて、標識の個別の値を前記複数のデータサンプルのそれぞれに割り当てることであって、各データサンプルに割り当てられる前記標識の個別の値は、前記個別のデータサンプルが異常であるかどうかを示す、ことと、
前記標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、前記データサンプルと関連付けられる前記特徴の値に基づいて、データサンプルが異常であるかどうかを推論することと
を含む、請求項１８に記載の方法。
異常検出方法であって、
複数のデータサンプルを備えるデータセットを取得することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられ、前記特徴のセットは、少なくとも、フリーテキストデータタイプを有する第１の特徴と、非テキストデータタイプを有する第２の特徴とを備える、ことと、
少なくとも部分的に、前記複数のデータサンプルのそれぞれの第１および第２の特徴に関する前記個別の値に基づいて、前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することと
を含む、方法。
前記方法はさらに、
前記複数のデータサンプルに関する前記フリーテキストデータタイプを有する前記１つ以上の特定の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別することと、
サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記フリーテキストデータタイプを有する前記少なくとも第１の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
を含む、請求項２０に記載の方法。
前記方法はさらに、
前記特徴のセットの中の前記少なくとも第１の特徴を工学的特徴と置換することと、
前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記サンプル用語行列の行に設定することと
を含む、請求項２１に記載の方法。
前記組み合わせられたフリーテキストコーパス内の一意の用語の数は、５，０００を上回り、前記組み合わせられたフリーテキストコーパス内で最も頻繁に生じる前記複数の用語の中の一意の用語の数は、５，０００であり、前記サンプル用語行列の列の数は、５，０００である、請求項２２に記載の方法。
前記方法はさらに、
前記サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
前記少なくとも第１の特徴を工学的特徴と置換することと、
前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
を含む、請求項２１に記載の方法。
前記方法はさらに、
前記フリーテキストデータタイプを有する前記少なくとも第１の特徴に関して、
前記複数のデータサンプルに関して、前記第１の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語を識別することと、
サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記第１の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
を含む、請求項２０に記載の方法。
前記方法はさらに、
前記フリーテキストデータタイプを有する前記少なくとも第１の特徴のうちの各特徴に対応するサンプル用語行列毎に、
前記サンプル用語行列に特異値分解（ＳＶＤ）を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
前記特徴を工学的特徴と置換することと、
前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
を含む、請求項２５に記載の方法。
前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することは、
教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定することと、
前記複数のデータサンプルの標識の個別の値として、前記異常スコアを前記データセットに追加し、それによって、標識データセットを発生させることと、
教師あり異常検出モデルを前記標識データセットに適用し、前記異常データサンプルのセットを識別することと
を含む、請求項２０に記載の方法。
前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することは、
教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定すること
を含み、
前記異常データサンプルのセットは、最大の異常スコアを有する前記複数のデータサンプルの割合を備える、
請求項２０に記載の方法。
前記方法はさらに、
前記異常データサンプルの識別されたセットに基づいて、標識の個別の値を前記複数のデータサンプルのそれぞれに割り当てることであって、各データサンプルに割り当てられる前記標識の個別の値は、前記個別のデータサンプルが異常であるかどうかを示す、ことと、
前記標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、前記データサンプルと関連付けられる前記特徴の値に基づいて、データサンプルが異常であるかどうかを推論することと
を含む、請求項２８に記載の方法。
異常検出方法であって、
複数の異なるソースから、データサンプルに関する個別の異常スコアを取得することであって、前記異常スコアはそれぞれ、前記データサンプルが前記個別のソースによって異常であると予測される個別の程度を示す、ことと、
前記データサンプルの異常性の識別のための異常検出厳密性のレベルを識別することであって、前記異常検出厳密性のレベルは、最大厳密性または最小厳密性を備える、ことと、
前記異常検出厳密性の識別されたレベルが最小厳密性であることに応答して、
前記異常スコアのうちの少なくとも１つが第１の閾値異常スコアを上回ることに応答して、前記データサンプルを異常データサンプルとして識別することと、
そうでなければ、前記異常スコアのうちのいずれも前記第１の閾値異常スコアを上回らないことに応答して、前記データサンプルを非異常データサンプルとして識別することと、
そうでなければ、前記異常検出厳密性の識別されたレベルが最大厳密性であることに応答して、
前記異常スコアのうちの少なくとも１つが第２の閾値異常スコア未満であることに応答して、前記データサンプルを非異常データサンプルとして識別することと、
そうでなければ、前記異常スコアの全てが前記第２の閾値異常スコアを上回ることに応答して、前記データサンプルを異常データサンプルとして識別することと
を含む、方法。
前記異常検出厳密性のレベルを識別することは、ユーザから前記異常検出厳密性のレベルのインジケーションを受信することを含む、請求項３０に記載の方法。
前記複数の異なるソースはそれぞれ、個別の異常検出プロセスまたは異常検出モデルである、請求項３０に記載の方法。
異常分析方法であって、
複数のデータサンプル毎に個別の異常スコアを取得することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられ、データサンプル毎の個別の異常スコアは、前記データサンプルが異常である程度を示す、ことと、
前記異常スコアに基づいて、前記複数のデータサンプルから異常データサンプルのセットを識別することと、
前記異常データサンプルのセットに関して前記異常スコアの総和を決定することであって、前記総和は、ベース総和である、ことと、
前記特徴のセットの中の特徴毎に、
前記異常データサンプル毎に前記特徴の個別の値を調節し、前記データサンプルの異常性の査定への前記特徴の影響を中和し、それによって、更新された異常データサンプルを発生させることと、
前記更新された異常データサンプル毎に個別の異常スコアを決定することと、
前記更新された異常データサンプルに関して前記異常スコアの総和を決定することであって、前記総和は、特徴総和である、ことと、
前記ベース総和と前記特徴総和との間の差を決定することであって、前記差は、異常としての前記データサンプルのセットの識別への前記特徴の値の寄与を表す、ことと、
前記特徴に関する前記決定された差に基づいて、異常としての前記データサンプルのセットの識別に最も寄与する１つ以上の特徴を識別することと
を含む、方法。
複数のデータサンプル毎に個別の異常スコアを取得することは、異常検出モデルから前記複数のデータサンプル毎に前記個別の異常スコアを受信することを含み、前記更新されたデータサンプル毎に異常スコアを決定することは、前記異常検出モデルによって、前記更新されたデータサンプル毎に前記異常スコアを決定することを含む、請求項３３に記載の方法。
前記異常データサンプルのセットは、最大の異常スコアを有する前記複数のデータサンプルの割合を備え、前記複数のデータサンプルの割合は、予期される外れ値割合を備える、請求項３３に記載の方法。
前記予期される外れ値割合は、１０％を含む、請求項３５に記載の方法。
前記異常データサンプル毎に前記特徴の個別の値を調節し、前記データサンプルの異常性の査定への前記特徴の影響を中和することは、前記異常データサンプル毎の特徴の個別の値を一定値と置換することを含み、
前記方法はさらに、前記異常データサンプルに関する前記特徴の値に基づいて、前記一定値を決定することを含む、
請求項３３に記載の方法。
前記一定値を決定することは、
前記特徴のデータタイプを決定することと、
前記特徴のデータタイプが数値であることを決定することに応答して、前記異常データサンプル毎の特徴の個別の値を、前記異常データサンプルに関する前記特徴の値の中央値と置換することと、
そうでなければ、前記特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、前記異常データサンプル毎の個別の特徴の値を、前記異常データサンプルの中で最高頻度において生じる前記特徴の値と置換することと
を含む、請求項３７に記載の方法。
前記特徴のセットの中の特徴毎に、前記ベース総和と前記個別の特徴総和との間の正規化された差を決定することをさらに含み、
異常としての前記データサンプルの識別に最も寄与する前記特徴は、前記特徴に関する正規化された差に基づいて識別される、
請求項３３に記載の方法。
前記差に基づいて、前記特徴のセットの中の前記特徴をランク付けすることをさらに含み、より高いランキングは、異常としての前記データサンプルのセットの識別への前記特徴のさらなる寄与を示す、請求項３３に記載の方法。
前記複数のデータサンプルは、第１の時点と関連付けられる第１の複数のデータサンプルであり、前記異常データサンプルのセットは、異常データサンプルの第１のセットであり、前記第１の複数のデータサンプルに関する前記異常スコアは、第１の異常スコアであり、第２の複数のデータサンプルは、前記第１の時点の後の第２の時点と関連付けられ、前記方法はさらに、
前記第２の複数のデータサンプル毎に個別の第２の異常スコアを取得することであって、前記第２の複数のデータサンプルはそれぞれ、前記特徴のセットに関する個別の値と関連付けられる、ことと、
前記第２の異常スコアに基づいて、前記第２の複数のデータサンプルから異常データサンプルの第２のセットを識別することと、
閾値異常スコアを上回る個別の第１の異常スコアを有する前記異常データサンプルの第１のセットのうちのデータサンプルの第１の数量を決定することと、
前記閾値異常スコアを上回る個別の第２の異常スコアを有する前記異常データサンプルの第２のセットのうちのデータサンプルの第２の数量を決定することと、
前記データサンプルの第１の数量と第２の数量との間の数量差を決定することと、
前記数量差の絶対値が閾値差を上回ることに応答して、前記第１および第２の異常スコアが取得された異常検出モデルを更新することと関連付けられる１つ以上のアクションを実施することと
を含む、請求項３３に記載の方法。
前記異常検出モデルを更新することと関連付けられる前記１つ以上のアクションは、メッセージを前記異常検出モデルのユーザに提供することを含み、前記メッセージは、前記異常検出モデルが更新されることを推奨する、請求項４１に記載の方法。
前記異常検出モデルを更新することと関連付けられる前記１つ以上のアクションは、前記第２の時点と関連付けられる前記第２の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させることを含む、請求項４１に記載の方法。
前記第１の複数のデータサンプルおよび前記第２の複数のデータサンプルは、同一のエンティティと関連付けられる、請求項４１に記載の方法。
前記第１の複数のデータサンプルおよび前記第２の複数のデータサンプルは、異なるエンティティと関連付けられる、請求項４１に記載の方法。
異常としての前記データサンプルの識別に最も寄与するものとして識別される前記特徴に基づいて、将来の異常データサンプルを識別するためのビジネスルールを決定することをさらに含む、請求項３３に記載の方法。
教師あり機械学習プロセスのための特徴工学方法であって、前記方法は、
教師なし異常検出モデルによって、複数のデータサンプル毎に個別の異常スコアを決定することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられ、データサンプル毎の個別の異常スコアは、前記データサンプルが異常である予測される程度を示す、ことと、
新しい特徴を前記特徴のセットに追加することであって、データサンプル毎の新しい特徴の個別の値は、各データサンプルの個別の異常スコアに基づき、それによって、更新された複数のデータサンプルを発生させることと、
（１）第１の機械学習モデルを訓練し、他の更新された複数のデータサンプル毎の特徴のセットの個別の値に基づいて、別の更新された複数のデータサンプル毎に標識の個別の値を予測することであって、前記更新された複数のデータサンプルはそれぞれ、前記標識に関する個別の値とさらに関連付けられ、前記第１の機械学習モデルを訓練することは、訓練データおよび／または検証データとして前記更新された複数のデータサンプルを使用する教師あり機械学習プロセスを使用して、前記第１の機械学習モデルを訓練することを含む、こと、または
（２）第２の機械学習モデルを使用し、前記複数の更新されたデータサンプル毎に前記標識の個別の値を予測することと
を含む、方法。
教師あり機械学習プロセスのためのデータ前処理方法であって、前記方法は、
教師あり機械学習モデルを訓練するための複数の訓練データサンプル毎に個別の異常スコアを取得することであって、前記複数の訓練データサンプルはそれぞれ、特徴のセットに関する個別の値および標識の個別の値と関連付けられ、訓練データサンプル毎の個別の異常スコアは、前記データサンプルが異常である予測される程度を示す、ことと、
前記異常スコアに基づいて、前記複数の訓練データサンプルから異常訓練データサンプルのセットを識別することと、
前記複数の訓練データサンプル毎に、前記個別の異常スコアまたは個別の異常分類と前記標識の個別の値との間の相関を決定することと、
前記相関が閾値相関未満であることに応答して、前記教師あり機械学習モデルを訓練するための前記複数の訓練データサンプルから前記異常訓練データサンプルのセットを除去することと、
そうでなければ、前記相関が少なくとも前記閾値相関であることに応答して、前記教師あり機械学習モデルを訓練するための前記複数の訓練データサンプルの中の前記異常訓練データサンプルのセットを留保することと
を含む、方法。
複数の訓練データサンプル毎に個別の異常スコアを取得することは、異常検出モデルから前記複数の訓練データサンプル毎に前記個別の異常スコアを受信することを含む、請求項４８に記載の方法。
前記異常検出モデルは、教師なし機械学習モデルである、請求項４９に記載の方法。
前記異常訓練データサンプルのセットは、最大の異常スコアを有する前記複数の訓練データサンプルの割合を備え、前記複数の訓練データサンプルの割合は、予期される外れ値割合を備える、請求項４８に記載の方法。
前記予期される外れ値割合は、１０％を含む、請求項５１に記載の方法。
前記相関が閾値相関未満であることに応答して、前記方法はさらに、
前記異常訓練データサンプルのセットに関して前記異常スコアの総和を決定することであって、前記総和は、ベース総和である、ことと、
前記特徴のセットの中の特徴毎に、
前記異常訓練データサンプル毎に前記特徴の個別の値を調節し、前記訓練データサンプルの異常性の査定への前記特徴の影響を中和し、それによって、更新された異常訓練データサンプルを発生させることと、
前記更新された異常訓練データサンプル毎に個別の異常スコアを決定することと、
前記更新された異常訓練データサンプルに関して前記異常スコアの総和を決定することであって、前記総和は、特徴総和である、ことと、
前記ベース総和と前記特徴総和との間の差を決定することであって、前記差は、異常としての前記訓練データサンプルのセットの識別への前記特徴の値の寄与を表す、ことと、
前記特徴に関する前記決定された差に基づいて、異常としての前記訓練データサンプルのセットの識別に最も寄与する１つ以上の特徴を識別することと
を含む、請求項４８に記載の方法。
メッセージをユーザに提供することをさらに含み、前記メッセージは、異常としての前記訓練データサンプルのセットの識別に最も寄与する前記１つ以上の特徴を示す、請求項５３に記載の方法。
前記更新された異常訓練データサンプル毎に異常スコアを決定することは、前記複数の訓練データサンプル毎に前記個別の異常スコアを決定するために使用された異常検出モデルによって、前記更新された異常訓練データサンプル毎に前記異常スコアを決定することを含む、請求項５３に記載の方法。
前記異常訓練データサンプル毎に前記特徴の個別の値を調節し、前記訓練データサンプルの異常性の査定への前記特徴の影響を中和することは、前記異常訓練データサンプル毎の特徴の個別の値を一定値と置換することを含み、
前記方法はさらに、前記異常訓練データサンプルに関する前記特徴の値に基づいて、前記一定値を決定することを含む、
請求項５３に記載の方法。
前記一定値を決定することは、
前記特徴のデータタイプを決定することと、
前記特徴のデータタイプが数値であることを決定することに応答して、前記異常訓練データサンプル毎の特徴の個別の値を、前記異常訓練データサンプルに関する前記特徴の値の中央値と置換することと、
そうでなければ、前記特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、前記異常訓練データサンプル毎の個別の特徴の値を、前記異常訓練データサンプルの中で最高頻度において生じる前記特徴の値と置換することと
を含む、請求項５６に記載の方法。
前記特徴のセットの中の特徴毎に、前記ベース総和と前記個別の特徴総和との間の正規化された差を決定することをさらに含み、
異常としての前記訓練データサンプルの識別に最も寄与する前記特徴は、前記特徴に関する正規化された差に基づいて識別される、
請求項５３に記載の方法。
前記差に基づいて、前記特徴のセットの中の前記特徴をランク付けすることをさらに含み、より高いランキングは、異常としての前記訓練データサンプルのセットの識別への前記特徴のさらなる寄与を示す、請求項５３に記載の方法。