JP2022514509A - データ異常を検出および解釈するための方法、ならびに関連システムおよびデバイス - Google Patents

データ異常を検出および解釈するための方法、ならびに関連システムおよびデバイス Download PDF

Info

Publication number
JP2022514509A
JP2022514509A JP2021533631A JP2021533631A JP2022514509A JP 2022514509 A JP2022514509 A JP 2022514509A JP 2021533631 A JP2021533631 A JP 2021533631A JP 2021533631 A JP2021533631 A JP 2021533631A JP 2022514509 A JP2022514509 A JP 2022514509A
Authority
JP
Japan
Prior art keywords
data
data samples
anomaly
sample
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021533631A
Other languages
English (en)
Inventor
アマンダ クレア シェルズ,
ジェレミー アチン,
ザッカリー アルバート マイヤー,
シャビエル コノート,
Original Assignee
データロボット, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by データロボット, インコーポレイテッド filed Critical データロボット, インコーポレイテッド
Publication of JP2022514509A publication Critical patent/JP2022514509A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Technology Law (AREA)

Abstract

異常検出方法であって、該方法は、複数のデータサンプルを備えるデータセットを取得することであって、複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる、ことと、特徴のそれぞれの個別のデータタイプを識別することと、特徴のうちの1つ以上のものの個別のデータタイプに基づいて、異常検出ブループリントを自動的に発生させることであって、異常検出ブループリントは、異常検出プロシージャをエンコードする機械実行可能モジュールを備え、異常検出プロシージャは、複数のタスクを含み、タスクのうちの1つ以上のものは、データセットのサイズおよび/または1つ以上の特徴の個別のデータタイプに基づいて選択される、ことと、機械実行可能モジュールを実行し、それによって、異常検出プロシージャを実施することとを含む。

Description

(関連出願の相互参照)
本願は、参照することによってその全体として本明細書に組み込まれる、「Methods for Detecting and Interpreting Data Anomalies, and Related Systems and Devices」と題され、代理人整理番号DRB-010PRの下で2018年12月13日に出願された、米国仮特許出願第62/779,172号の優先権および利益を主張する。
本開示は、概して、データ分析のためのシステムおよび技法に関する。いくつかの実施形態は、具体的には、機械学習を使用し、データ異常を予測および/または解説するためのシステムならびに技法に関する。
多くの団体および個人は、それらの運営を改良する、および/またはそれらの意思決定を補助するために、電子データを使用する。例えば、多くの企業は、取引を実行すること、入力および出力を追跡すること、または製品を市場に出すこと等の種々のビジネスプロセスの効率を向上させるために、データ管理技術を使用する。別の実施例として、多くの事業は、ビジネスプロセスの業績を評価するため、プロセスを改良する労力の有効性を測定するため、またはプロセスを調節する方法を決定するために、運営データを使用する。
ある場合には、電子データが、問題または機会を予測するために使用されることができる。具体的には、いくつかの団体が、過去に起こったことを表す運営データを使用し、予測モデルを構築する。予測モデルによって予測される成果に基づいて、団体は、決定を行う、プロセスを調節する、または他の措置を講じることができる。例えば、保険会社が、将来の請求をより正確に予想する予測モデル、または保険契約者が競合保険業者に切り替えることを考慮しているときを予測する予測モデルを構築しようとし得る。自動車製造業者が、新しい車のモデルの需要をより正確に予想する予測モデルを構築しようとし得る。消防署が、火事の危険性が高い日を予想する、または火事の危険に曝されている構造物を予想する、予測モデルを構築しようとし得る。
予測モデル化では、観察されたデータにおいて識別されるパターンが、新しいまたは未知の成果を予測するために使用される。いくつかの予測モデルは、予測モデルが、観察されたデータの既知の成果に基づいて予測を行うように訓練される、「教師あり学習」に依拠する。
しかしながら、時として、成果は、未知であり、予測モデル化の目標は、データの中のパターンを識別することである。本プロセスは、「教師なし学習」として公知である。
異常検出は、概して、データセットノルム(例えば、珍しいまたは予想外のアイテムもしくはイベント)と有意に異なる、データの中のアイテムまたはイベントを識別するプロセスを指す。異常検出技法は、概して、予期されるパターンに準拠していないアイテムまたはイベントを識別しようとする。多くの場合、異常は、製造欠陥、データ品質エラー、または不正挙動等の明確に異なる明白な問題に変換され得る。
多くの団体が、第1の防衛線として予測モデルに依拠し、さらなる精査および/または処理に値する異常データのインスタンス(例えば、異常イベントまたはアクティビティを表す)にフラグを付ける。例えば、予測モデルが、さらなる精査のために異常な保険金請求を識別し、異常な請求が不正であり、拒否されるべきであるかどうかを決定するために、使用されることができる。別の実施例として、予測モデルが、さらなる精査のために異常なクレジットカード請求を識別し、請求が不正であるかどうか、およびクレジットカードアクティビティがさらなる不正請求を防止するように一時停止されるべきであるかどうかを決定するために、使用されることができる。さらに別の実施例として、予測モデルが、さらなる精査のためにネットワークアクセス(または他のコンピュータベースのアクティビティ)の異常な発生を識別し、アクセス(またはアクティビティ)がセキュリティ脅威であるかどうか、およびアラートが発せられるべきかどうかを決定するために、使用されることができる。
しかしながら、多くの予測モデル化用途に対して、異常検出は、微妙であり、したがって、実装のための特別な考慮事項を正当化する傾向がある。例えば、異常検出のための最適なプロセスが、ユースケースによって有意に変動し得るだけではなく、ユースケースを認識しても、好適な異常検出プロセス(例えば、最良の異常検出プロセス)を識別することは困難であり得る。さらに広げると、好適な異常検出プロセスの識別は、時間がかかり得、歴史的に、熟練したデータ科学者の専門知識に大きく依拠してきた。別の実施例として、異常データサンプルが予測されることになる、多くのデータセットは、フリーテキストデータを含む、多変量データタイプを含む。そのようなフリーテキストデータの処理は、上記に説明されるように、時間がかかり、熟練したデータ科学者の専門知識に依拠し得るだけではなく、計算上高価でもあり得る。さらに、単に異常データサンプルを識別することに加えて、システム改良が実装され得るように、異常検出プロセスが、特定のデータサンプルが異常として識別された理由に関して論拠を提供することが望ましくあり得る。例えば、ある場合には、データサンプルが、不完全な論拠(例えば、データドリフト)に基づいて、異常として識別され得る。異常検出のための論拠を識別しないと、不正確な異常検出が、チェックされずに継続し得る。
さらに別の実施例として、多くの現在の異常検出プロセスは、例えば、以下等の種々のユースケースにおける異常検出のために非好適であり得る、教師あり機械学習に依拠する。
・多数の取引が存在し、ごく少数のみが調査を要求し、訓練データを極めて不均衡にする、ユースケース。
・グラウンドトゥルースが利用可能ではなく、したがって、訓練するべき成果が存在しない、ユースケース。
・人間がそれらを適切に標識化することを要求する、大量のデータが存在する、ユースケース。そのような標識化は、高価および時間がかかるものの両方である。
・訓練データ品質が低く、予測モデルを構築する前に外れ値の除去を要求する、ユースケース。
・システムオペレータが、予防措置を講じ得るように、システムの障害に先立ってアラートされる必要がある、ユースケース。
・ユーザ挙動が、例えば、広告キャンペーンからの影響または悪意への移行に起因して経時的に変化する、ユースケース。
要約すると、異常検出によって引き起こされる課題は、特定のソリューションを必要とする。しかしながら、異常検出のための現在のソリューションは、上記の課題を十分に考慮しておらず、したがって、これらの課題に対処する方略を組み込むことができていない。本欠点を軽減するために、本開示は、異常データサンプルの正確かつ効率的な検出を可能にする、一式の異常検出技法を提供する。
上記に議論されるように、異常検出のための現在のソリューションは、異常検出の種々の一意の課題に十分に対処しない。したがって、本開示は、異常検出のための改良された方法を提供する。本明細書に開示される1つの方法は、複数のデータサンプルから異常データサンプルを自動的に予測するステップを提供する。本明細書に開示される別の方法は、複数のデータサンプルから異常データサンプルを予測するステップを提供し、各データサンプルは、フリーテキストデータタイプを有する1つ以上の特徴、および非テキストデータタイプを有する1つ以上の特徴と関連付けられる。本明細書に開示される別の方法は、複数の異なる異常検出技法を使用して、複数のデータサンプルから異常データサンプルを予測するステップを提供する。本明細書に開示される別の方法は、異常としてデータサンプルの識別に最も寄与するデータサンプルの特徴を識別するステップを提供する。本明細書に開示される別の方法は、教師あり機械学習モデルのためのデータセットを発生させるステップを提供する。本明細書に開示される別の方法は、教師あり機械学習モデルを訓練するための訓練データセットを精緻化するステップを提供する。
一般に、本明細書に説明される主題の1つの革新的側面は、複数のデータサンプルを備える、データセットを取得するステップを含む、異常検出方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。本方法はさらに、随意に、データセットのサイズを識別するステップと、特徴のそれぞれの個別のデータタイプを識別するステップと、特徴のうちの1つ以上のものの個別のデータタイプに基づいて、随意に、データセットの識別されたサイズに基づいて、異常検出ブループリントを自動的に発生させるステップとを含む。異常検出ブループリントは、異常検出プロシージャをエンコードする、機械実行可能モジュールを備える。異常検出プロシージャは、複数のタスクを含む。タスクのうちの1つ以上のものは、1つ以上の特徴の個別のデータタイプに基づいて、随意に、データセットの識別されたサイズに基づいて、選択される。本方法はさらに、機械実行可能モジュールを実行し、それによって、異常検出プロシージャを実施するステップを含む。異常検出プロシージャを実施するステップは、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップを含む。
本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ(例えば、1つ以上の記憶デバイス内に記憶された命令)を有することにより、特定のアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。
前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの1つ以上のものを含むことができる。いくつかの実施形態では、1つ以上の特徴は、特定の特徴を含む。特定の特徴の識別されたデータタイプは、数値データタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャは、数値データタイプを有する特定の特徴に関して、複数のデータサンプルの個別の値の正規化、標準化、またはridit変換を実施するタスクを含まなくてもよい。
いくつかの実施形態では、1つ以上の特徴は、特定の特徴を含む。特定の特徴のデータタイプは、数値データタイプであり得る。そのような実施形態では、複数のデータサンプルは、1つ以上の第1のデータサンプルと、1つ以上の第2のデータサンプルとを含むことができ、第1のデータサンプル毎の特定の特徴の個別の値は、欠落しており、第2のデータサンプル毎の特定の特徴の個別の値は、欠落していない。異常検出ブループリントに対応する異常検出プロシージャのタスクは、第1のデータサンプルのそれぞれの特定の特徴の個別の欠落した値を、第2のデータサンプルに関する特定の特徴の欠落していない値の中央値と置換するステップを含む、欠落した値の補定タスクを含むことができる。
いくつかの実施形態では、1つ以上の特徴は、特定の特徴を含む。複数のデータサンプルは、1つ以上のデータサンプルを含むことができ、特定の特徴に関する個別の値は、欠落している。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、新しい特徴を特徴のセットに追加し、複数のデータサンプル毎に新しい特徴の個別の値を決定するステップを含む、特徴工学タスクを含むことができる。複数のデータサンプル毎の新しい特徴の個別の値は、個別のデータサンプルが特定の特徴に関する値が欠落しているかどうかを示すことができる。
複数のデータサンプルが、1つ以上のデータサンプルを含み、特定の特徴に関する個別の値が、欠落しており、特徴工学タスクが、実施される、ある実施形態では、複数のデータサンプルはそれぞれ、標識の個別の値とさらに関連付けられることができる。複数のデータサンプル毎の標識の個別の値は、データサンプルの公知の異常性を示す。さらに、異常検出ブループリントに対応する異常検出プロシージャのタスクはさらに、複数のデータサンプル毎に個別の異常スコアを取得するステップと、異常スコアに基づいて、複数のデータサンプルから異常データサンプルのセットを識別するステップとを含むことができる。データサンプル毎の個別の異常スコアは、データサンプルが異常である、予測される程度を示す。異常検出方法のアクションはさらに、複数のデータサンプル毎に、個別の異常スコアまたは個別の異常分類と標識の個別の値との間の相関を決定するステップを含むことができる。相関が閾値相関未満であることに応答して、方法のアクションはさらに、複数のデータサンプルから異常データサンプルのセットを除去するステップを含むことができる。そうでなければ、相関が少なくとも閾値相関であることに応答して、方法のアクションはさらに、複数のデータサンプルの中の異常データサンプルのセットを留保するステップを含むことができる。
いくつかの実施形態では、1つ以上の特徴は、特定の特徴を含む。特定の特徴のデータタイプは、カテゴリデータタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、複数のデータサンプル毎に、カテゴリデータタイプを有する特定の特徴の個別の値を、複数のデータサンプルの中の特定の特徴の個別の値の発生の個別の頻度と置換するステップを含む、特徴工学タスクを含むことができる。
いくつかの実施形態では、1つ以上の特徴は、1つ以上の特定の特徴を含む。1つ以上の特定の特徴のデータタイプは、フリーテキストデータタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、複数のデータサンプルに関するフリーテキストデータタイプを有する、1つ以上の特定の特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップを含む、特徴工学タスクを含むことができる。次いで、特徴工学タスクはさらに、サンプル用語行列を発生させるステップを含むことができる。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、フリーテキストデータタイプを有する1つ以上の特定の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。
サンプル用語行列が、フリーテキストデータタイプを有する、1つ以上の特定の特徴に関して、発生される、ある実施形態では、特徴工学タスクはさらに、特徴のセットの中の1つ以上の特定の特徴を工学的特徴と置換するステップを含むことができる。次いで、特徴工学タスクはさらに、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するサンプル用語行列の行に設定するステップを含むことができる。
特徴のセットの中の1つ以上の特定の特徴が工学的特徴と置換される、ある実施形態では、組み合わせられたフリーテキストコーパス内の一意の用語の数は、5,000を上回り得、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語の中の一意の用語の数は、5,000であり得、サンプル用語行列の列の数は、5,000であり得る。
特徴のセットの中の1つ以上の特定の特徴を、サンプル用語行列の行に設定される値を有する工学的値と置換するのではなく、サンプル用語行列が発生される、ある実施形態では、特徴工学タスクはさらに、サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、特徴のセットの中の1つ以上の特定の特徴を工学的特徴と置換するステップと、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。
いくつかの実施形態では、1つ以上の特徴は、1つ以上の特定の特徴を含む。1つ以上の特定の特徴のそれぞれのデータタイプは、フリーテキストデータタイプであり得る。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクは、フリーテキストデータタイプを有する、1つ以上の特定の特徴毎に、複数のデータサンプルに関して、個別の特定の特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップと、サンプル用語行列を発生させるステップとを含む、特徴工学タスクを含むことができる。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、個別の特定の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。
サンプル用語行列が、フリーテキストデータタイプを有する、1つ以上の特定の特徴毎に発生される、ある実施形態では、特徴工学タスクはさらに、フリーテキストデータタイプを有する、1つ以上の特定のそれぞれに対応するサンプル用語行列毎に、サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、フリーテキストデータタイプを有する、1つ以上の特定のそれぞれに対応するサンプル用語行列毎に、特徴のセットの中の個別の特定の特徴を個別の工学的特徴と置換するステップと、複数のデータサンプル毎に、個別の工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。
いくつかの実施形態では、異常データサンプルのセットは、少なくとも部分的に、データセットの中のデータサンプルの数および/またはデータセットの記憶サイズに基づいて、異常選択プロセスの群から選択される、異常検出プロセスを使用して識別される。データセットの中のデータサンプルの数は、第1のサンプル数閾値未満であり得、データセットの記憶サイズは、記憶サイズ閾値未満であり得る。そのような実施形態では、異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差(MAD)プロセス、1クラスサポートベクトルマシン(SVM)プロセス、局所外れ値因子(LOF)プロセス、およびマハラノビス距離プロセスから成ることができる。代替実施形態では、データセットの中のデータサンプルの数は、第1のサンプル数閾値を上回り、第2のサンプル数閾値未満であり得、データセットの記憶サイズは、記憶サイズ閾値未満であり得る。そのような実施形態では、異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差(MAD)プロセス、およびマハラノビス距離プロセスから成ることができる。代替実施形態では、データセットの中のデータサンプルの数は、第1のサンプル数閾値および第2のサンプル数閾値を上回り得る、またはデータセットの記憶サイズは、記憶サイズ閾値を上回り得る。そのような実施形態では、異常選択プロセスの群は、二重中央値絶対偏差(MAD)プロセスおよびマハラノビス距離プロセスから成ることができる。
いくつかの実施形態では、異常データサンプルのセットを識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含むことができる。次いで、異常データサンプルのセットを識別するステップは、複数のデータサンプルの標識の個別の値として、異常スコアをデータセットに追加し、それによって、標識データセットを発生させるステップと、教師あり異常検出モデルを標識データセットに適用し、異常データサンプルのセットを識別するステップとを含むことができる。
いくつかの実施形態では、異常データサンプルのセットを識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含むことができる。異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合を備えることができる。いくつかのそのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャのタスクはさらに、異常データサンプルの識別されたセットに基づいて、標識の個別の値を複数のデータサンプルのそれぞれに割り当てるステップを含むことができる。各データサンプルに割り当てられる標識の個別の値は、個別のデータサンプルが異常であるかどうかを示す。次いで、異常検出ブループリントに対応する異常検出プロシージャのタスクはさらに、標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、データサンプルと関連付けられる特徴の値に基づいて、データサンプルが異常であるかどうかを推論するステップを含むことができる。
一般に、本明細書に説明される主題の別の革新的側面は、複数のデータサンプルを備える、データセットを取得するステップを含む、異常検出方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。特徴のセットは、少なくとも、フリーテキストデータタイプを有する第1の特徴と、非テキストデータタイプを有する第2の特徴とを備える。本方法はさらに、少なくとも部分的に、複数のデータサンプルのそれぞれの第1および第2の特徴に関する個別の値に基づいて、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップを含む。
本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ(例えば、1つ以上の記憶デバイス内に記憶された命令)を有することにより、特定のアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。
前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの1つ以上のものを含むことができる。いくつかの実施形態では、方法のアクションはさらに、複数のデータサンプルに関するフリーテキストデータタイプを有する、少なくとも1つの特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップと、サンプル用語行列を発生させるステップとを含む。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、フリーテキストデータタイプを有する少なくとも第1の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。
サンプル用語行列が、フリーテキストデータタイプを有する、少なくとも第1の特徴に関して、発生される、ある実施形態では、特徴工学タスクはさらに、特徴のセットの中の少なくとも第1の特徴を工学的特徴と置換するステップを含むことができる。次いで、特徴工学タスクはさらに、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するサンプル用語行列の行に設定するステップを含むことができる。
特徴のセットの中の少なくとも第1の特徴が工学的特徴と置換される、ある実施形態では、組み合わせられたフリーテキストコーパス内の一意の用語の数は、5,000を上回り得、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語の中の一意の用語の数は、5,000であり得、サンプル用語行列の列の数は、5,000であり得る。
特徴のセットの中の少なくとも第1の特徴を、サンプル用語行列の行に設定される値を有する工学的値と置換するのではなく、サンプル用語行列が発生される、ある実施形態では、特徴工学タスクはさらに、サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、特徴のセットの中の少なくとも第1の特徴を工学的特徴と置換するステップと、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。
いくつかの実施形態では、方法のアクションはさらに、フリーテキストデータタイプを有する、少なくとも第1の特徴毎に、複数のデータサンプルに関して、個別の少なくとも第1の特徴に関する値を備える、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別するステップと、サンプル用語行列を発生させるステップとを含むことができる。サンプル用語行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。サンプル用語行列の各列は、最も頻繁に生じる複数の用語の中の個別の用語に対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、個別の少なくとも第1の特徴の値内で、要素の行に対応するデータサンプルの中に生じるかどうかを示す。
サンプル用語行列が、フリーテキストデータタイプを有する、少なくとも第1の特徴毎に発生される、ある実施形態では、特徴工学タスクはさらに、フリーテキストデータタイプを有する、少なくとも第1の特徴のそれぞれに対応するサンプル用語行列毎に、サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させるステップを含むことができる。そのような実施形態では、コンパクトな行列内の列の数量は、サンプル用語行列内の列の数量未満であり、コンパクトな行列の各行は、複数のデータサンプルの中の個別のデータサンプルに対応する。次いで、特徴工学タスクはさらに、フリーテキストデータタイプを有する、少なくとも第1の特徴のそれぞれに対応するサンプル用語行列毎に、特徴のセットの中の個別の少なくとも第1の特徴を工学的特徴と置換するステップと、複数のデータサンプル毎に、工学的特徴の個別の値を、個別のデータサンプルに対応するコンパクトな行列の行に設定するステップとを含むことができる。
いくつかの実施形態では、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含む。次いで、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップはさらに、複数のデータサンプルの標識の個別の値として、異常スコアをデータセットに追加し、それによって、標識データセットを発生させるステップと、教師あり異常検出モデルを標識データセットに適用し、異常データサンプルのセットを識別するステップとを含む。
いくつかの実施形態では、複数のデータサンプルのサブセットを異常データサンプルのセットとして識別するステップは、教師なし異常検出プロセスによって、複数のデータサンプル毎に、個別のデータサンプルが異常である程度を示す、個別の異常スコアを決定するステップを含む。異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合を備える。そのような実施形態では、異常検出方法のアクションはさらに、異常データサンプルの識別されたセットに基づいて、標識の個別の値を複数のデータサンプルのそれぞれに割り当てるステップを含む。各データサンプルに割り当てられる標識の個別の値は、個別のデータサンプルが異常であるかどうかを示す。異常検出方法のアクションはさらに、標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、データサンプルと関連付けられる特徴の値に基づいて、データサンプルが異常であるかどうかを推論するステップを含むことができる。
一般に、本明細書に説明される主題の別の革新的側面は、複数の異なるソースから、データサンプルに関する個別の異常スコアを取得するステップを含む、異常検出方法で具現化されることができる。異常スコアはそれぞれ、データサンプルが個別のソースによって異常であると予測される個別の程度を示す。本方法はさらに、データサンプルの異常性の識別のための異常検出厳密性のレベルを識別するステップを含む。異常検出厳密性のレベルは、最大厳密性または最小厳密性を備える。異常検出厳密性の識別されたレベルが最小厳密性であることに応答して、かつ異常スコアのうちの少なくとも1つが第1の閾値異常スコアを上回ることに応答して、本方法はさらに、データサンプルを異常データサンプルとして識別するステップを含む。異常検出厳密性の識別されたレベルが最小厳密性であることに応答して、かつ異常スコアのうちのいずれも第1の閾値異常スコアを上回らないことに応答して、本方法はさらに、データサンプルを非異常データサンプルとして識別するステップを含む。異常検出厳密性の識別されたレベルが最大厳密性であることに応答して、かつ異常スコアのうちの少なくとも1つが第2の閾値異常スコア未満であることに応答して、本方法はさらに、データサンプルを非異常データサンプルとして識別するステップを含む。異常検出厳密性の識別されたレベルが最大厳密性であることに応答して、かつ異常スコアの全てが第2の閾値異常スコアを上回ることに応答して、本方法はさらに、データサンプルを異常データサンプルとして識別するステップを含む。
本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ(例えば、1つ以上の記憶デバイス内に記憶された命令)を有することにより、特定のアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。
前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの1つ以上のものを含むことができる。いくつかの実施形態では、異常検出厳密性のレベルを識別するステップは、ユーザから異常検出厳密性のレベルのインジケーションを受信するステップを含む。いくつかの実施形態では、複数の異なるソースはそれぞれ、個別の異常検出プロセスまたは異常検出モデルである。
一般に、本明細書に説明される主題の別の革新的側面は、複数のデータサンプル毎に個別の異常スコアを取得するステップを含む、異常検出方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。データサンプル毎の個別の異常スコアは、データサンプルが異常である程度を示す。分析方法はさらに、異常スコアに基づいて、複数のデータサンプルから異常データサンプルのセットを識別するステップと、異常データサンプルのセットに関して異常スコアの総和を決定するステップとを含む。決定された総和は、ベース総和である。分析方法はさらに、特徴のセットの中の特徴毎に、異常データサンプル毎に特徴の個別の値を調節し、データサンプルの異常性の査定への特徴の影響を中和し、それによって、更新された異常データサンプルを発生させるステップと、更新された異常データサンプル毎に個別の異常スコアを決定するステップと、更新された異常データサンプルに関して異常スコアの総和を決定するステップであって、総和は、特徴総和である、ステップと、ベース総和と特徴総和との間の差を決定するステップとを含む。ベース総和と特徴総和との間の差は、異常としてのデータサンプルのセットの識別への特徴の値の寄与を表す。最後に、分析方法はさらに、特徴に関する決定された差に基づいて、異常としてのデータサンプルのセットの識別に最も寄与する1つ以上の特徴を識別するステップを含む。
本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ(例えば、1つ以上の記憶デバイス内に記憶された命令)を有することにより、特定のアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。
前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの1つ以上のものを含むことができる。いくつかの実施形態では、複数のデータサンプル毎に個別の異常スコアを取得するステップは、異常検出モデルから複数のデータサンプル毎に個別の異常スコアを受信するステップを含み、更新されたデータサンプル毎に異常スコアを決定するステップは、異常検出モデルによって、更新されたデータサンプル毎に異常スコアを決定するステップを含む。
いくつかの実施形態では、異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合を備える。複数のデータサンプルの割合は、予期される外れ値割合を備える。いくつかの実施形態では、予期される外れ値割合は、10%から成る。
いくつかの実施形態では、異常データサンプル毎に特徴の個別の値を調節し、データサンプルの異常性の査定への特徴の影響を中和するステップは、異常データサンプル毎の特徴の個別の値を一定値と置換するステップを含み、分析方法のアクションはさらに、異常データサンプルに関する特徴の値に基づいて、一定値を決定するステップを含む。例えば、いくつかの実施形態では、一定値を決定するステップは、特徴のデータタイプを決定するステップを含む。特徴のデータタイプが数値であることを決定することに応答して、一定値を決定するステップは、異常データサンプル毎の特徴の個別の値を、異常データサンプルに関する特徴の値の中央値と置換するステップを含むことができる。そうでなければ、特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、一定値を決定するステップはさらに、異常データサンプル毎の個別の特徴の値を、異常データサンプルの中で最高頻度において生じる特徴の値と置換するステップを含むことができる。
いくつかの実施形態では、分析方法のアクションはさらに、特徴のセットの中の特徴毎に、ベース総和と個別の特徴総和との間の正規化された差を決定するステップを含む。そのような実施形態では、異常としてのデータサンプルの識別に最も寄与する特徴は、特徴に関する正規化された差に基づいて識別される。
いくつかの実施形態では、分析方法のアクションはさらに、差に基づいて、特徴のセットの中の特徴をランク付けするステップを含む。そのような実施形態では、より高いランキングは、異常としてのデータサンプルのセットの識別への特徴のさらなる寄与を示す。
いくつかの実施形態では、複数のデータサンプルは、第1の時点と関連付けられる第1の複数のデータサンプルであり、異常データサンプルのセットは、異常データサンプルの第1のセットであり、第1の複数のデータサンプルに関する異常スコアは、第1の異常スコアであり、第2の複数のデータサンプルは、第1の時点の後の第2の時点と関連付けられる。そのような実施形態では、分析方法のアクションはさらに、 第2の複数のデータサンプル毎に個別の第2の異常スコアを取得するステップを含む。第2の複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。分析方法のアクションはさらに、第2の異常スコアに基づいて、第2の複数のデータサンプルから異常データサンプルの第2のセットを識別するステップと、閾値異常スコアを上回る個別の第1の異常スコアを有する、異常データサンプルの第1のセットのうちのデータサンプルの第1の数量を決定するステップと、閾値異常スコアを上回る個別の第2の異常スコアを有する、異常データサンプルの第2のセットのうちのデータサンプルの第2の数量を決定するステップと、データサンプルの第1の数量と第2の数量との間の数量差を決定するステップとを含んでもよい。数量差の絶対値が閾値差を上回ることに応答して、分析方法のアクションはさらに、第1および第2の異常スコアが取得された、異常検出モデルを更新するステップと関連付けられる、1つ以上のアクションを実施するステップを含む。
ある実施形態では、異常検出モデルを更新するステップと関連付けられる、1つ以上のアクションは、メッセージを異常検出モデルのユーザに提供するステップを含み、メッセージは、異常検出モデルが更新されることを推奨する。ある実施形態では、異常検出モデルを更新するステップと関連付けられる、1つ以上のアクションは、第2の時点と関連付けられる第2の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させるステップを含む。
いくつかの実施形態では、第1の複数のデータサンプルおよび第2の複数のデータサンプルは、同一のエンティティと関連付けられる。代替実施形態では、第1の複数のデータサンプルおよび第2の複数のデータサンプルは、異なるエンティティと関連付けられる。
いくつかの実施形態では、分析方法のアクションはさらに、異常としてのデータサンプルの識別に最も寄与するものとして識別される特徴に基づいて、将来の異常データサンプルを識別するためのビジネスルールを決定するステップを含む。
一般に、本明細書に説明される主題の別の革新的側面は、教師なし異常検出モデルによって、複数のデータサンプル毎に個別の異常スコアを決定するステップを含む、教師あり機械学習プロセスのための特徴工学方法で具現化されることができる。複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる。データサンプル毎の個別の異常スコアは、データサンプルが異常である、予測される程度を示す。特徴工学方法はさらに、新しい特徴を特徴のセットに追加するステップであって、データサンプル毎の新しい特徴の個別の値は、各データサンプルの個別の異常スコアに基づき、それによって、更新された複数のデータサンプルを発生させるステップを含む。いくつかの実施形態では、特徴工学方法はさらに、第1の機械学習モデルを訓練し、他の更新された複数のデータサンプル毎の特徴のセットの個別の値に基づいて、別の更新された複数のデータサンプル毎に標識の個別の値を予測するステップを含む。そのような実施形態では、更新された複数のデータサンプルはそれぞれ、標識に関する個別の値とさらに関連付けられる。加えて、そのような実施形態では、第1の機械学習モデルを訓練するステップは、訓練データおよび/または検証データとして更新された複数のデータサンプルを使用する、教師あり機械学習プロセスを使用して、第1の機械学習モデルを訓練するステップを含む。代替実施形態では、特徴工学方法はさらに、第2の機械学習モデルを使用し、複数の更新されたデータサンプル毎に標識の個別の値を予測するステップを含む。
本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ(例えば、1つ以上の記憶デバイス内に記憶された命令)を有することにより、特定のアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。
一般に、本明細書に説明される主題の別の革新的側面は、教師あり機械学習プロセスのためのデータ前処理方法で具現化されることができる。本方法は、教師あり機械学習モデルを訓練するための複数の訓練データサンプル毎に個別の異常スコアを取得するステップを含む。複数の訓練データサンプルはそれぞれ、特徴のセットに関する個別の値および標識の個別の値と関連付けられる。訓練データサンプル毎の個別の異常スコアは、データサンプルが異常である、予測される程度を示す。本方法はさらに、異常スコアに基づいて、複数の訓練データサンプルから異常訓練データサンプルのセットを識別するステップと、複数のデータサンプル毎に、個別の異常スコアまたは個別の異常分類と標識の個別の値との間の相関を決定するステップとを含む。相関が閾値相関未満であることに応答して、本方法はさらに、教師あり機械学習モデルを訓練するための複数の訓練データサンプルから異常訓練データサンプルのセットを除去するステップを含む。そうでなければ、相関が少なくとも閾値相関であることに応答して、本方法はさらに、教師あり機械学習モデルを訓練するための複数の訓練データサンプルの中の異常訓練データサンプルのセットを留保するステップを含む。
本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、対応するコンピュータシステム、装置、および1つ以上のコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時に、アクションを生じさせる、またはシステムにアクションを実施させる、システム上にインストールされたソフトウェア、ファームウェア、ハードウェア、もしくはそれらの組み合わせ(例えば、1つ以上の記憶デバイス内に記憶された命令)を有することにより、特定のアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。
前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの1つ以上のものを含むことができる。いくつかの実施形態では、複数の訓練データサンプル毎に個別の異常スコアを取得するステップは、異常検出モデルから複数の訓練データサンプル毎に個別の異常スコアを受信するステップを含む。そのような実施形態では、異常検出モデルは、教師なし機械学習モデルであり得る。
いくつかの実施形態では、異常訓練データサンプルのセットは、最大の異常スコアを有する、複数の訓練データサンプルの割合を備えることができる。複数の訓練データサンプルの割合は、予期される外れ値割合を備える。いくつかの実施形態では、予期される外れ値割合は、10%から成ることができる。
いくつかの実施形態では、相関が閾値相関未満であることに応答して、方法のアクションはさらに、異常訓練データサンプルのセットに関して異常スコアの総和を決定するステップを含む。決定された総和は、ベース総和である。方法のアクションはさらに、特徴のセットの中の特徴毎に、異常訓練データサンプル毎に特徴の個別の値を調節し、訓練データサンプルの異常性の査定への特徴の影響を中和し、それによって、更新された異常訓練データサンプルを発生させるステップと、更新された異常訓練データサンプル毎に個別の異常スコアを決定するステップと、更新された異常訓練データサンプルに関して異常スコアの総和を決定するステップであって、総和は、特徴総和である、ステップと、ベース総和と特徴総和との間の差を決定するステップとを含んでもよい。ベース総和と特徴総和との間の差は、異常としての訓練データサンプルのセットの識別への特徴の値の寄与を表す。方法のアクションはさらに、特徴に関する決定された差に基づいて、異常としての訓練データサンプルのセットの識別に最も寄与する1つ以上の特徴を識別するステップを含んでもよい。
異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴が、識別される、ある実施形態では、方法のアクションはさらに、異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴を示す、メッセージをユーザに提供するステップを含むことができる。異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴が、識別される、いくつかの付加的実施形態では、更新された異常訓練データサンプル毎に異常スコアを決定するステップは、複数の訓練データサンプル毎に個別の異常スコアを決定するために使用された異常検出モデルによって、更新された異常訓練データサンプル毎に異常スコアを決定するステップを含むことができる。
異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴が、識別される、いくつかの付加的実施形態では、異常訓練データサンプル毎に特徴の個別の値を調節し、訓練データサンプルの異常性の査定への特徴の影響を中和するステップは、異常訓練データサンプル毎の特徴の個別の値を一定値と置換するステップを含むことができ、方法のアクションはさらに、異常訓練データサンプルに関する特徴の値に基づいて、一定値を決定するステップを含むことができる。そのような実施形態では、一定値を決定するステップは、特徴のデータタイプを決定するステップを含むことができる。特徴のデータタイプが数値であることを決定することに応答して、方法のアクションはさらに、異常訓練データサンプル毎の特徴の個別の値を、異常訓練データサンプルに関する特徴の値の中央値と置換するステップを含むことができる。そうでなければ、特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、方法のアクションはさらに、異常訓練データサンプル毎の個別の特徴の値を、異常訓練データサンプルの中で最高頻度において生じる特徴の値と置換するステップを含むことができる。
異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴が、識別される、いくつかの付加的実施形態では、方法のアクションはさらに、特徴のセットの中の特徴毎に、ベース総和と個別の特徴総和との間の正規化された差を決定するステップを含むことができる。そのような実施形態では、異常としての訓練データサンプルの識別に最も寄与する特徴は、特徴に関する正規化された差に基づいて識別される。
異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴が、識別される、いくつかの付加的実施形態では、方法のアクションはさらに、差に基づいて、特徴のセットの中の特徴をランク付けするステップを含むことができる。より高いランキングは、異常としての訓練データサンプルのセットの識別への特徴のさらなる寄与を示す。
上記に説明されるように、本開示の残りの全体を通して、異常検出の特別なニュアンスを考慮することによって、本発明は、より効率的かつより正確な異常検出を可能にすることができる。
いくつかの実施形態の説明、それに関する動機、および/またはその利点を含む、前述の概要は、読者が本開示を理解することを支援することを意図しており、請求項のうちのいずれの範囲もいかようにも限定しない。
本発明のこれらおよび他の特徴、側面、ならびに利点が、以下の説明および付随する図面に関して、さらに理解されることになるであろう。
図1は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システムのためのシステム環境のブロック図である。
図2は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システムのアーキテクチャのブロック図である。
図3は、ある実施形態による、異常検出システムが動作するシステム環境のブロック図である。
図4は、ある実施形態による、複数のデータサンプルから異常データサンプルを自動的に予測するための方法のフローチャートである。
図5は、ある実施形態による、各データサンプルが、フリーテキストデータタイプを有する1つ以上の特徴、および非テキストデータタイプを有する1つ以上の特徴と関連付けられる、複数のデータサンプルから異常データサンプルを予測するための方法のフローチャートである。
図6は、ある実施形態による、複数の異なるソースを使用して、複数のデータサンプルから異常データサンプルを予測するための方法のフローチャートである。
図7は、ある実施形態による、異常検出システムの入出力インターフェースの画像を描写する。
図8は、ある実施形態による、異常としてのデータサンプルの識別に最も寄与するデータサンプルの特徴を識別するための方法のフローチャートである。
図9は、ある実施形態による、異常検出システムの入出力インターフェースの画像を描写する。
図10は、ある実施形態による、異常検出システムの入出力インターフェースの画像を描写する。
図11は、ある実施形態による、教師あり異常検出モデルに関してデータセットを発生させるための方法のフローチャートである。
図12は、ある実施形態による、教師あり異常検出モデルを訓練するための訓練データセットを精緻化するための方法のフローチャートである。
図13は、ある実施形態による、本明細書に説明される方法を実装するための例示的コンピュータを図示する。
図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図14A、14B、14C、14D、14E、14F、14G、14H、14I、14J、14K、14L、および14Mは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。
図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。 図15A、15B、15C、15D、15E、15F、15G、15H、15I、15J、および15Kは、いくつかの実施形態による、ユーザインターフェースの実施例のスクリーンショットを示す。
図は、例証のみの目的のために、種々の実施形態を描写する。当業者は、本明細書に図示される構造および方法の代替実施形態が、本明細書に説明される発明の原理から逸脱することなく採用され得ることを、以下の議論から容易に認識するであろう。
I.用語
一般に、請求項および明細書で使用される用語は、当業者によって理解される単純な意味を有するものとして解釈されることを意図している。ある用語が、付加的明確性を提供するように下記に定義される。単純な意味と提供された定義との間の対立の場合、提供された定義が、使用されることになる。
本明細書で直接定義されていない任意の用語は、本発明の技術分野内で理解されるように、それらと一般的に関連付けられる意味を有すると理解されるものとする。ある用語が、本発明の側面の組成、デバイス、方法、および同等物、ならびにそれらを作製または使用する方法を説明する際に、付加的指針を実践者に提供するように、本明細書に議論される。同一のものが1つを上回る方法で言われ得ることを理解されたい。その結果として、代替用語および同義語が、本明細書に議論される用語のうちのいずれか1つ以上のもののために使用されることができる。用語が本明細書に詳述または議論されるかどうかは、重視されない。いくつかの同義語または代用可能な方法、材料、および同等物が、提供される。1つまたはいくつかの同義語もしくは均等物の記載は、明示的に記述されない限り、他の同義語または均等物の使用を除外しない。用語の実施例を含む、実施例の使用は、例証目的のためにすぎず、本明細書の発明の側面の範囲および意味を限定しない。
本明細書および請求項で使用されるような用語「約」ならびに他の類似語句は、1つの値(X)が別の値(Y)の事前決定された範囲内であることを意味すると理解されるべきである。事前決定された範囲は、別様に示されない限り、±20%、10%、5%、3%、1%、0.1%、または0.1%未満であり得る。
本明細書および請求項で使用されるような不定冠詞「a」ならびに「an」は、明確にそれとは反対に示されない限り、「少なくとも1つ」を意味すると理解されるべきである。本明細書および請求項で使用されるような語句「および/または」は、そのように接続される要素、すなわち、ある場合では接合的に存在し、他の場合では離接的に存在する要素の「いずれか一方または両方」を意味すると理解されるべきである。「および/または」を用いて列挙される複数の要素は、同一の様式で、すなわち、そのように接続される要素のうちの「1つ以上のもの」と解釈されるべきである。他の要素が、随意に、具体的に識別されるそれらの要素に関連するか、または関連しないかどうかにかかわらず、「および/または」の節によって具体的に識別される要素以外に存在し得る。したがって、非限定的実施例として、「Aおよび/またはB」の言及は、「~を備える」等の非制約的な用語と併せて使用されるときに、一実施形態では、Aのみ(随意に、B以外の要素を含む)を指し、別の実施形態では、Bのみ(随意に、A以外の要素を含む)を指し、さらに別の実施形態では、AおよびBの両方(随意に、他の要素を含む)等を指すことができる。
本明細書および請求項で使用されるように、「または」は、上記に定義されるような「および/または」と同一の意味を有すると理解されるべきである。例えば、リスト内の項目を分離するとき、「または」もしくは「および/または」は、包括的、すなわち、少なくとも1つの包含であるが、いくつかの要素または要素のリストのうちの1つを上回るもの、随意に、付加的な列挙されていない項目も含むものとして解釈されるものとする。「~のうちの1つのみ」または「~のうちの正確に1つ」、もしくは請求項で使用されるときに「~から成る」等の明確に反対に示される用語のみが、いくつかの要素または要素のリストのうちの正確に1つの要素の包含を指すであろう。一般に、使用されるような用語「または」は、「いずれか一方」、「~のうちの1つ」、「~のうちの1つのみ」、または「~のうちの正確に1つ」等の排他性の用語が先行するときに、排他的代替物(すなわち、「一方または他方であるが両方ではない」)を示すものとしてのみ解釈されるものとする。「本質的に~から成る」は、請求項で使用されるときに、特許法の分野で使用されるようなその通常の意味を有するものとする。
本明細書および請求項で使用されるように、1つ以上の要素のリストを参照した語句「少なくとも1つ」は、要素のリスト内の要素のうちのいずれか1つ以上のものから選択されるが、要素のリスト内に具体的に列挙される、ありとあらゆる要素のうちの少なくとも1つを必ずしも含まず、要素のリスト内の要素のいずれの組み合わせも除外しない、少なくとも1つの要素を意味すると理解されるべきである。本定義はまた、要素が、随意に、具体的に識別されるそれらの要素に関連するか、または関連しないかどうかにかかわらず、語句「少なくとも1つ」が指す要素のリスト内で具体的に識別される要素以外に存在し得ることも可能にする。したがって、非限定的実施例として、「AおよびBのうちの少なくとも1つ」(または同等に「AまたはBのうちの少なくとも1つ」、もしくは同等に「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、随意に、Bが存在しない、1つを上回るAを含む(随意に、B以外の要素を含む)、少なくとも1つ、別の実施形態では、随意に、Aが存在しない、1つを上回るBを含む(随意に、A以外の要素を含む)、少なくとも1つ、さらに別の実施形態では、随意に、1つを上回るAを含む、少なくとも1つ、および随意に、1つを上回るBを含む(随意に、他の要素を含む)、少なくとも1つ等を指すことができる。
用語「~を含む」、「~を備える」、「~を有する」、「~を含有する」、「~を伴う」、およびそれらの変形例は、その後に列挙される項目および付加的項目を包含するように意図されている。
請求項の要素を修飾するための請求項内の「第1の」、「第2の」、「第3の」等の序数用語の使用は、それ自体では、別の要素と比べた1つの請求項の要素のいずれの優先順位、優位性、または順序、もしくは方法の行為が実施される時間的順序も含意しない。序数用語は、ある名称を有する1つの請求項の要素を、(序数用語の使用のためであるが)同一の名称を有する別の要素と区別し、請求項の要素を区別するために、単に標識として使用される。
II.異常検出システム概観
図1は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システム102のためのシステム環境100のブロック図である。具体的には、図1に示されるように、異常検出システム102は、複数のデータサンプル101を取得(例えば、受信)し、受信された複数のデータサンプル101から異常データサンプル103を予測する。
異常検出システム102によって受信される各データサンプル101は、特徴のセットに関する値と関連付けられる。データサンプルの特徴は、データサンプルによって表される、またはそれと関連付けられるエンティティ(例えば、人物、物、イベント、アクティビティ等)の測定可能な性質であり得る。例えば、特徴は、人物の年齢であり得る。ある場合には、データサンプルの特徴は、データサンプルによって表される、またはそれと関連付けられるエンティティの説明(もしくはそれに関する他の情報)である。特徴の値は、エンティティの対応する性質の測定値またはエンティティに関する情報のインスタンスであり得る。例えば、特徴が人物の年齢である、上記の実施例では、特徴の値は、30歳であり得る。本明細書で参照されるように、特徴の値はまた、欠落した値(例えば、値なし)を指すこともできる。例えば、特徴が人物の年齢である、上記の実施例では、人物の年齢は、欠落し得る。
特徴はまた、データタイプを有することもできる。例えば、特徴は、数値データタイプ、フリーテキストデータタイプ、カテゴリデータタイプ、または任意の他の種類のデータタイプを有することができる。上記の実施例では、年齢の特徴は、数値データタイプであり得る。一般に、特徴のデータタイプは、特徴に割り当てられ得る値のセットが有限である場合、カテゴリである。
異常データサンプルは、正常および/または予期されるデータサンプルから逸脱するデータサンプルである。具体的には、異常データサンプルは、他のデータサンプルの正常および/または予期される特徴値から逸脱する1つ以上の特徴値と関連付けられる、データサンプルである。例えば、上記の実施例を再び使用して、年齢26歳の9人および年齢70歳の1人を説明する複数のデータサンプルでは、年齢70歳の人物を説明するデータサンプルは、異常データサンプルとして識別され得る。
上記に議論されるように、多くの状況では、さらなる精査および/または処理のために異常データサンプルにフラグを付けることが望ましくあり得る。例えば、異常な保険金請求が、異常な請求が不正であり、拒否されるべきであるかどうかを決定するように、さらなる精査のためにフラグを付けられることができる。別の実施例として、異常なクレジットカード請求が、請求が不正であるかどうか、およびクレジットカードアクティビティがさらなる不正請求を防止するように一時停止されるべきであるかどうかを決定するように、さらなる精査のためにフラグを付けられることができる。さらに別の実施例として、ネットワークアクセスの異常な発生が、アクセスが不正であるかどうか、およびアラートが発せられるべきかどうかを決定するように、さらなる精査のためにフラグを付けられることができる。
図1に示されるように、異常データサンプル103は、異常検出システム102によってデータサンプル101から予測される。異常検出システム102は、異常検出ブループリントを実行することによって、複数のデータサンプルから異常データサンプルを予測するように構成される。異常検出ブループリントは、タスク(例えば、ステップ)を含む異常検出プロシージャをエンコードする、機械実行可能(例えば、コンピュータ実行可能)モジュールである。より具体的には、異常検出ブループリントは、複数の選択されたタスク(例えば、ステップ)を含む異常検出プロシージャの実行を編成し、複数のデータサンプルから異常データサンプルを識別する、機械実行可能(例えば、コンピュータ実行可能)モジュールである。
異常検出プロシージャは、タスクの任意の好適なセット(例えば、一連のタスク)を含むことができる。いくつかの実施形態では、異常検出プロシージャの1つ以上のタスクは、受信されるデータサンプル101の品質に基づいて、異常検出システム102によって自動的に選択されることができる。例えば、異常検出プロシージャのタスクは、データサンプル101の特徴のうちの1つ以上のもののデータタイプに基づいて、および/またはデータサンプル101のサイズに基づいて、自動的に選択されることができる。そのような自動化は、異常検出のためのプロシージャを規定することに費やされる時間および人材の量を削減し、それによって、異常検出をより効率的かつ安価にするため、有益である。加えて、ユーザは、異常検出プロシージャの1つ以上のタスクを選択することができる。
図2に関して下記に詳細に議論されるように、異常検出プロシージャのタスクは、データサンプル101を異常検出システム102の1つ以上の異常検出モデルに入力するステップ、および/または1つ以上の異常検出モデルによって分析される前ならびに/もしくは後にデータサンプル101を処理するステップを含むことができる。
図2は、ある実施形態による、異常データサンプルを予測するように構成される異常検出システム200のアーキテクチャのブロック図である。図2に示されるように、異常検出システム200は、異常検出ブループリント記憶部201と、異常検出モデル記憶部202と、訓練モジュール203と、入出力インターフェース204と、データサンプル記憶部205と、データ管理モジュール206とを含む。他の実施形態では、異常検出システム200は、種々の用途のための付加的、より少ない、または異なるコンポーネントを含んでもよい。同様に、機能は、本明細書に説明されるものと異なる様式でモジュールの間に分散されることができる。ネットワークインターフェース、セキュリティ機能、ロードバランサ、フェイルオーバサーバ、管理およびネットワーク動作コンソール、ならびに同等物等の従来のコンポーネントは、システムアーキテクチャの詳細を曖昧にしないように、示されていない。
異常検出システム200のコンポーネントに目を向けると、異常検出ブループリント記憶部201は、異常データサンプルを予測するために異常検出システム200によって実行されるように構成される、1つ以上の異常検出ブループリントを記憶する。上記に議論されるように、異常検出ブループリントは、タスクを含む異常検出プロシージャをエンコードし、複数のデータサンプルから異常データサンプルを予測する、機械実行可能モジュールである。異常検出ブループリントによってエンコードされる異常検出プロシージャのタスクは、限定ではないが、1つ以上の異常検出モデルによって実施されるデータ処理ステップを含む、1つ以上のデータ処理ステップを含むことができる。異常検出ブループリントの種々の非限定的実施例が、下記に議論される。
異常検出モデル記憶部202は、複数のデータサンプルから異常データサンプルを予測するように構成される、1つ以上の異常検出モデルを記憶する。上記に簡潔に述べられるように、異常検出モデル記憶部202からの1つ以上の異常検出モデルが、異常検出ブループリント記憶部201内に記憶された異常検出ブループリント内に含まれる、それによって発生される、および/またはそれによって使用されることができる。
異常検出モデルは、機械学習モデルであり得る。機械学習モデルは、訓練データセットに基づいてコンピュータシステムによって学習される、任意の予測モデルである。異常検出モデルは、一般に、少なくとも訓練データセットのサイズおよび/または複雑性に起因して、モデルが人間によって構築されることが過剰に困難もしくは過剰に非効率的であろうため、コンピュータシステムによって学習される。
異常検出モデルは、教師なし機械学習モデルまたは教師あり機械学習モデルであり得る。教師なしおよび教師あり機械学習モデルは、それらの訓練データセットに基づいて、相互と異なる。具体的には、教師なし機械学習モデルを訓練するために使用される訓練データセットが、概して、個々の訓練サンプルに関する標識を含まない一方、教師あり機械学習モデルを訓練するために使用される訓練データセットは、概して、個々の訓練サンプルに関する標識を含む。訓練サンプルに関する標識の値は、訓練サンプルの既知の分類または訓練サンプルの出力変数の既知の値を示し得る。例えば、教師あり異常検出モデルを訓練し、異常データサンプルを検出するために使用される訓練サンプルに関する標識は、訓練サンプルが異常であるかどうかのインジケーションであり得る。
訓練に続いて、機械学習モデルは、試験データセットに基づいて予測を発生させるように構成される。標識は、概して、試験データセット内のサンプルに関して事前に把握されておらず、したがって、機械学習モデルは、前の訓練に基づいて試験データセットに関して予測を発生させる。例えば、訓練に続いて、異常検出モデルは、複数の試験データサンプルから異常データサンプルを予測するように構成されてもよい。
いくつかの実施形態では、異常検出モデルは、単に、データサンプルの異常性の2値予測を提供する。例えば、いくつかの実施形態では、異常検出モデルは、異常または非異常としてデータサンプルの予測を出力することができる。代替実施形態では、異常検出モデルは、データサンプルに関して異常スコアを発生させることができる。データサンプルに関する異常スコアは、データサンプルが異常である程度を示し得る。ある実施形態では、データサンプルが異常である程度は、データサンプルが異常である確率および/またはデータサンプルが異常である度合いであり得る。例えば、異常検出モデルは、データサンプルに関して0.9の異常スコアを発生させ、それによって、データサンプルが異常である90%の可能性が存在することを予測し得る。
異常検出モデルが、データサンプルに関して異常スコアを発生させる、そのような実施形態では、異常検出ブループリントは、異常スコアに基づいて異常データサンプルを識別するステップを含むことができる。例えば、いくつかの実施形態では、異常スコアに基づいて異常データサンプルを識別するために、最も極端な(例えば、最大の)異常スコアを有するデータサンプルの割合が、異常データサンプルとして識別されることができる。本割合は、予期される外れ値割合を備えることができる。換言すると、本割合は、異常であることが予期されるデータサンプルの割合を備えることができる。予期される外れ値割合は、例えば、0%~25%に及ぶことができるが、いくつかの実施形態では、予期される外れ値割合は、10%である。
異常検出モデルが、データサンプルに関して異常スコアを発生させる、いくつかのさらなる実施形態では、異常検出ブループリントは、それらの異常スコアに基づいてデータサンプルをランク付けするステップを含むことができる。それらの予測される異常性に従って、データサンプルをランク付けすることによって、ユーザは、予測される異常性を最大の程度に呈するデータサンプルが、最も早く作用され得るように、さらなる精査および処理のためにデータサンプルに優先順位を付けることができる。
訓練モジュール203は、訓練データセットに基づいて、異常検出モデル記憶部202内に記憶された異常検出モデルを構築する。上記に議論されるように、異常検出モデルを構築するために使用される訓練データセットは、モデルのタイプに依存し得る。具体的には、異常検出モデルを構築するために使用される訓練データセットは、モデルが教師あり機械学習モデルまたは教師なし機械学習モデルであるかどうかに依存し得る。
一般に、異常検出モデルを構築するために、訓練データセットからの各訓練サンプルが、異常検出モデルに入力される。異常検出モデルは、モデルが異常データサンプルの予測を発生させるために日常的に使用された場合のように、これらの入力を処理する。しかしながら、異常検出モデルのタイプに応じて、訓練データセット内の各訓練サンプルは、付加的コンポーネントを含んでもよい。教師なし異常検出モデルでは、訓練サンプルは、概して、付加的コンポーネントを含まない。
対照的に、教師あり異常検出モデルでは、訓練データセットの各訓練サンプルはさらに、異常標識を含んでもよい。訓練データセットからの訓練サンプルを使用する、異常検出モデルの1つ以上の反復後、モデルによって出力される異常予測と訓練サンプルの異常標識との間の差が、決定される。次いで、訓練モジュール203は、モデルによって出力される異常予測と異常標識との間の本差を低減させ(例えば、最小限にし)ようと努める。
異常検出モデルが、予測正確度の閾値レベルを達成するとき、モデルは、使用の準備ができた状態であり得る。異常検出モデルが使用のために十分な予測正確度の閾値レベルを達成したときを決定するために、異常検出モデルの検証が、訓練モジュール203によって実施されることができる。異常検出モデルの検証は、訓練の間に、訓練サンプルの異常標識がモデルに入力される一方、検証の間に、検証サンプルの異常標識がモデルを改良するようにモデルに入力されないが、むしろ、モデルが十分に訓練されているかどうかを決定するように、モデルによって出力される予測と単に比較されることを除いて、異常検出モデルの訓練に類似する。
入出力インターフェース204は、データサンプル(例えば、訓練データサンプルおよび/または試験データサンプル)を受信するように、かつ異常検出システム200によって発生される異常データサンプルの予測を出力するように構成される。いくつかの実施形態では、入出力インターフェース204はまた、異常データサンプルを予測するために異常検出システム200によって使用されるべき、異常検出ブループリント記憶部201からの1つ以上の異常検出ブループリントおよび/または異常検出モデル記憶部202からの1つ以上の異常検出モデルを規定する命令をユーザから受信することもできる。
データサンプル記憶部205は、入出力インターフェース204によって受信されるデータサンプルを記憶するように構成される。具体的には、データサンプル記憶部205は、異常検出システム200による異常データサンプルの予測のために、1つ以上の異常検出モデルおよび/または試験データサンプルを訓練するように訓練モジュール203によって使用されるべき訓練データサンプルを記憶することができる。
上記に議論されるように、いくつかの実施形態では、訓練データセットからの1つ以上の訓練サンプルが、異常検出モデルを訓練することから供与され、異常検出モデルの正当性を立証するために使用されることができる。代替実施形態では、訓練データセットからの訓練サンプル以外の検証サンプルが、試験データセット上での使用に先立って、異常検出モデルの正当性を立証するために使用されることができる。
データ管理モジュール206は、異常検出ブループリントを選択および実行し、複数のデータサンプルから異常データサンプルを予測するように構成される。上記に議論されるように、異常検出ブループリントは、異常検出ブループリント記憶部201内に記憶され、異常検出モデル記憶部202によって記憶された1つ以上の異常検出モデルの使用、ならびに1つ以上のデータ処理ステップを含む、任意の一連のタスクを含むことができる。
データ管理モジュール206は、自動的に、および/またはユーザ入力に基づいて、異常検出ブループリント記憶部201から異常検出ブループリントを選択することができる。例えば、異常検出ブループリントは、データサンプルの特徴のうちの1つ以上のもののデータタイプおよび/またはデータサンプルのサイズ等の異常検出を受けるデータサンプルの品質に基づいて、データ管理モジュール206によって自動的に選択されることができる。別の実施例として、異常検出ブループリントが、入出力インターフェース204において受信されるユーザ命令に基づいて選択されることができる。さらに、異常検出ブループリントで使用するための異常検出モデル記憶部202からの異常検出モデルもまた、データ管理モジュール206によって、および/またはユーザによって自動的に選択されることができる。
異常検出ブループリントを選択することに加えて、データ管理モジュール206はさらに、選択された異常検出ブループリントのステップを実行し、複数のデータサンプルから異常データサンプルを予測するように構成される。異常検出ブループリントのステップの実行は、任意のデータ処理ステップの実行、および選択された異常検出モデルへのデータサンプルの入力を伴う。
簡潔には、異常検出ブループリントのデータ処理ステップは、データセットから重複および/または無関係なデータサンプル等の不要なデータサンプルを除去するステップを含むことができる。重複データサンプルは、例えば、データサンプルが複数のソースから収集されるときに生じ得る。無関係なデータサンプルは、例えば、データサンプル収集の間に使用されるフィルタが、着目予測問題に関連性がないデータサンプルをスクリーニングすることができないときに、生じ得る。データ処理は、データサンプル内の構造エラーの補正を含むことができる。例えば、特徴の値における誤入力、一貫性のない大文字化、および一貫性のない省略の使用が、検出および補正されることができる。データ処理は、異常検出およびハンドリングを含むことができる。例えば、データサンプルが異常である、または特徴に関する異常値を含む場合、データサンプルは、除去されてもよい、または異常値は、置換されてもよい。いくつかの実施形態では、データ処理は、データサンプルから欠落している特徴値に対処するステップを含むことができる。例えば、特徴値が、データサンプルから欠落している場合、データサンプルは、除去されることができる、または特徴値は、置換されることができる。データ処理は、例えば、値仕分け(例えば、一意の特徴値をより少数のビンにグループ化することによって一意の特徴値の数を削減すること)、対数変換(例えば、特徴値をそれらの対数と置換すること)、ワンホットエンコーディング、グループ化、分割、スケーリング(例えば、正規化)、および/または任意の他の修正によって、データサンプルに関する特徴値を修正するステップを含むことができる。データ処理の具体的実施形態が、本開示の全体を通して議論される。
図3は、ある実施形態による、異常検出システム301が動作するシステム環境300のブロック図である。図3に示されるシステム環境300は、異常検出システム301と、ネットワーク302と、第三者システム303とを含む。代替構成では、異なるおよび/または付加的コンポーネントが、システム環境300に含まれてもよい。
異常検出システム301および第三者システム303は、異常検出システム301および第三者システム303がネットワーク302を介して相互と通信するように、ネットワーク302に結合される。異常検出システム301および/または第三者システム303はそれぞれ、ネットワーク302を介してデータを伝送ならびに/もしくは受信することが可能なコンピューティングシステムを備えることができる。例えば、第三者システム303は、異常データサンプルの予測のための異常検出ブループリントを選択するためのデータサンプルおよび/または命令を異常検出システム301に伝送することができる。同様に、異常検出システム301は、異常データサンプルの予測を第三者システム303に伝送することができる。ネットワーク302を経由したデータの伝送は、インターネット、データの無線伝送、データの非無線伝送(例えば、イーサネット(登録商標)を介したデータの伝送)、または任意の他の形態のデータ伝送を介した、データの伝送を含むことができる。一実施形態では、異常検出システム301および/または第三者システム303はそれぞれ、(1)デスクトップコンピュータ、ラップトップコンピュータ、もしくはサーバ等の1つ以上の従来のコンピュータシステム、ならびに/もしくは(2)1つ以上の従来のコンピュータシステム上で起動するクラウド対応仮想マシンもしくはドッカーイメージ等の1つ以上の仮想化マシンもしくはコンテナを含むことができる。
代替として、異常検出システム301および/または第三者システム303はそれぞれ、携帯情報端末(PDA)、携帯電話、スマートフォン、もしくは別の好適なデバイス等のコンピュータ機能性を有するデバイスであり得る。さらなる実施形態では、異常検出システム301および/または第三者システム303は、コンピュータプロセッサによって実行されると、本開示の全体を通して議論される方法に従ってコンピュータプロセッサを動作させる、コンピュータプログラム命令を記憶する、非一過性のコンピュータ可読記憶媒体であり得る。その上さらなる実施形態では、異常検出システム301および/または第三者システム303は、クラウドホスト型コンピューティングシステム(例えば、Amazon Web ServicesTM(AWS)によってホストされるコンピューティングシステム)であり得る。
いくつかの実施形態では、第三者システム303は、第三者システム303が異常検出システム301と相互作用することを可能にする、アプリケーションを実行することができる。例えば、第三者システム303は、ブラウザアプリケーションを実行し、ネットワーク302を介して第三者システム303と異常検出システム301との間の相互作用を可能にすることができる。別の実施形態では、第三者システム303は、IOS(R)またはANDROID(登録商標)等の第三者システム303のネイティブオペレーティングシステム上で起動するアプリケーションプログラミングインターフェース(API)を通して、異常検出システム301と相互作用することができる。一実施形態では、第三者システム303は、データを異常検出システム301に通信することができる。
ネットワーク302は、有線および/または無線通信システムの両方を使用する、ローカルエリアならびに/もしくは広域ネットワークの任意の組み合わせを備えることができる。一実施形態では、ネットワーク302は、標準通信技術および/またはプロトコルを使用する。例えば、ネットワーク302は、イーサネット(登録商標)、802.11、マイクロ波アクセスのための世界規模相互運用(worldwide interoperability for microwave access;WiMAX)、3G、4G、5G、符号分割多重アクセス(CDMA)、デジタルサブスクライバライン(DSL)等の技術を使用する通信リンクを含むことができる。ネットワーク302を介した通信のために使用されるネットワーキングプロトコルの実施例は、マルチプロトコル標識切替(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)、およびボイスオーバーインターネットプロトコル(VoIP)を含む。ネットワーク302を経由して交換されるデータは、ハイパーテキストマークアップ言語(HTML)、拡張マークアップ言語(XML)、またはオーディオ等の任意の好適な形態を使用して表されてもよい。いくつかの実施形態では、ネットワーク302の通信リンクの全てまたはいくつかは、任意の好適な技法もしくは複数の技法を使用して暗号化されてもよい。
III.異常データサンプルの自動予測
上記に議論されるように、いくつかの実施形態では、異常検出ブループリントは、複数の受信されたデータサンプルから異常データサンプルを自動的に予測するように、自動的に選択される、および/または動的に構築されることができる。異常検出ブループリント選択/構築および後続の異常データサンプル予測のそのような自動化は、異常検出のためのブループリントを規定および生成することに費やされる時間ならびに人材の量を削減し、それによって、異常検出をより効率的かつ安価にするため、有益である。さらに、異常検出ブループリントは、データセットが急速に進化するにつれて、新しいタイプの異常が迅速かつ確実に検出されるように、異常検出システムがデータセットの変化に迅速に応答することを可能にすることができる。実践では、異常検出技術のそのような高速適合は、概して、異常検出モデルを選択および構築するプロセスへの人間の介入が要求される場合、可能ではない。
図4は、ある実施形態による、複数のデータサンプルから異常データサンプルを自動的に予測するための方法400のフローチャートである。他の実施形態では、本方法は、図4に示されるものと異なるおよび/または付加的ステップを含んでもよい。加えて、方法のステップは、図4と併せて説明される順序と異なる順序で実施されてもよい。
図4に示されるように、複数のデータサンプルを備えるデータセットが、取得される401。複数のデータサンプルのうちの各データサンプルは、特徴のセットに関する値と関連付けられる。特徴および特徴値のいくつかの特性が、上記に説明される。
方法400のいくつかの実施形態では、取得されたデータセットのサイズが、識別される402。データセットのサイズは、例えば、複数のデータサンプルの中のデータサンプルの数および/またはデータセットの記憶サイズであり得る。
複数のデータサンプルのうちの各データサンプルと関連付けられる特徴のセットの中の特徴毎に、特徴のデータタイプが、識別される403。上記に議論されるように、特徴は、数値データタイプ、フリーテキストデータタイプ、カテゴリデータタイプ、または任意の他の好適な種類のデータタイプを有することができる。
ステップ401において受信される複数のデータサンプルから異常データサンプルを予測するための異常検出ブループリントが、ステップ403において識別される特徴のセットの中の特徴のうちの1つ以上のもののデータタイプに基づいて、自動的に発生される404。いくつかの実施形態では、異常検出ブループリントの発生はまた、データセットのサイズに基づいてもよい。上記に議論されるように、異常検出ブループリントは、異常検出プロシージャをエンコードする、機械実行可能モジュールを備える。異常検出プロシージャは、複数のタスクを含む。タスクのうちの1つ以上のものは、データセットのサイズおよび/または特徴のセットの特徴のうちの1つ以上のもののデータタイプに基づいて選択されてもよい。
例えば、複数のデータサンプルのそれぞれの特徴のデータタイプが、ステップ403において数値データタイプとして識別される、いくつかの実施形態では、ステップ404において発生される異常検出ブループリントに対応する異常検出プロシージャは、数値データタイプを有する特徴の値の正規化、標準化、またはridit変換を実施するタスクを含まなくてもよい。
複数のデータサンプルのそれぞれの特徴のデータタイプが、ステップ403において数値データタイプとして識別される、いくつかの付加的実施形態では、複数のデータサンプルのうちの1つ以上のものの特徴に関する値が、欠落し得る。具体的には、いくつかの実施形態では、複数のデータサンプルのうちの1つ以上の第1のデータサンプルは、特徴に関する値が欠落し得る一方、複数のデータサンプルのうちの1つ以上の第2のデータサンプルは、特徴に関する値が欠落していない。そのような実施形態では、ステップ404において発生される異常検出ブループリントに対応する異常検出プロシージャは、欠落した値の補定タスクを含んでもよい。欠落した値の補定タスクは、第1のデータサンプル毎の特徴に関する欠落した値を、第2のデータサンプルに関する特徴の欠落していない値を表す、または別様にそれに基づく値(例えば、欠落していない値の平均値または中央値)と置換するステップを含むことができる。
複数のデータサンプルのうちの1つ以上のものの特徴に関する値が欠落している、いくつかの代替実施形態では、ステップ404において発生される異常検出ブループリントに対応する異常検出プロシージャは、新しい特徴を特徴のセットに追加する特徴工学タスクを含むことができ、データサンプル毎の新しい特徴の値は、データサンプルが特徴に関する値が欠落しているかどうかのインジケータを備える。
いくつかの実施形態では、データサンプルは、標識を含み、異常検出プロシージャは、複数の更新されたデータサンプル毎に異常スコアを取得するステップを含む。データサンプルに関する異常スコアは、データサンプルが異常である、予測される程度を示す。異常検出プロシージャは、異常スコアに基づいて、異常データサンプルのセットを識別してもよい。具体的には、最大の異常スコアを有する、複数の更新されたデータサンプルの割合を備える、異常データサンプルのセットが、識別されることができる。複数の更新されたデータサンプルの割合は、上記に議論される予期される外れ値割合であり得る。次いで、異常スコアと標識の値との間の任意の相関の程度が、決定されてもよい。相関が閾値相関未満であることに応答して、異常データサンプルは、データ品質問題から生じることが決定されることができる。結果として、いくつかの実施形態では、異常データサンプルのセットは、複数のデータサンプルから除去されてもよい。代替として、決定された相関が少なくとも閾値寄与であることに応答して、異常として特徴付けられているデータサンプルに寄与する因子は、標識の値と相関することが決定されることができる。結果として、異常データサンプルのセットは、データセット内で留保されることができる。
複数のデータサンプルのそれぞれの特徴のデータタイプが、ステップ403においてカテゴリデータタイプとして識別される、いくつかの実施形態では、ステップ404において発生される異常検出ブループリントに対応する異常検出プロシージャは、複数のデータサンプルのうちのデータサンプル毎に、カテゴリデータタイプを有する特徴の値を、複数のデータサンプルの中の特徴の値の頻度(例えば、発生数または率)と置換する特徴工学タスクを含むことができる。実施例として、各データサンプルがネットワークアクセスの発生を説明する、10個のデータサンプルを考慮されたい。各データサンプルは、アラートの受信を説明するカテゴリ特徴と関連付けられる。アラート特徴の値は、「はい」または「いいえ」のいずれかである。10個のデータサンプルのうちの8つは、アラート特徴に関して「はい」の値を有し、10個のデータサンプルのうちの2つは、アラート特徴に関して「いいえ」の値を有する。上記に説明される実施形態では、8つのサンプル毎の「はい」の値は、「はい」の値の発生の頻度、すなわち、「8」と置換される。同様に、上記に説明される実施形態では、2つのサンプル毎の「いいえ」の値は、「いいえ」の値の発生の頻度、すなわち、「2」と置換される。
いくつかの実施形態では、複数のサンプルのそれぞれの1つ以上の特徴のデータタイプは、ステップ403においてフリーテキストデータタイプとして識別される。そのような実施形態では、ステップ404において発生される異常検出ブループリントに対応する異常検出プロシージャは、複数のデータサンプルのそれぞれのこれらの1つ以上のフリーテキスト特徴を処理するための具体的タスクを含むことができる。これらのフリーテキスト特徴処理ステップは、図5に関して下記に詳細に議論される。
異常データサンプルのセットが、ステップ404において発生される異常検出ブループリントを使用して、識別される405。具体的には、ステップ404において発生される異常検出ブループリントに対応する機械実行可能モジュールが、実行され、それによって、機械実行可能モジュールによってエンコードされる異常検出プロシージャを実施する。異常検出プロシージャを実施することによって、異常データサンプルのセットが、複数のデータサンプルから識別される。上記に議論されるように、異常検出ブループリントを自動的に発生させ、複数の受信されたデータサンプルから異常データサンプルを識別することによって、異常検出は、より効率的であり、かつより少ないリソースを要求するものの両方であり得る。
いくつかの実施形態では、異常データサンプルのセットは、ステップ402において識別されるようなデータセットのサイズに少なくとも部分的に基づいて、異常検出プロセスの群から選択される異常検出プロセスを使用して、識別されることができる405。上記に述べられるように、データセットのサイズは、例えば、複数のデータサンプルの中のデータサンプルの数および/またはデータセットの記憶サイズであり得る。
データセットの中のデータサンプルの数が、ステップ402において第1のサンプル数閾値未満であることが識別され、データセットの記憶サイズが、ステップ402において記憶サイズ閾値未満であることが識別される、いくつかの実施形態では、異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差(MAD)プロセス、1クラスサポートベクトルマシン(SVM)プロセス、局所外れ値因子(LOF)プロセス、およびマハラノビス距離プロセスを含むことができる。そのような実施形態では、第1のサンプル数閾値は、300,000個のデータサンプルであってもよく、記憶サイズ閾値は、500メガバイトであってもよい。
代替として、データセットの中のデータサンプルの数が、ステップ402において第1のサンプル数閾値を上回るまたはそれと等しく、第2のサンプル数閾値未満であることが識別され、データセットの記憶サイズが、ステップ402において記憶サイズ閾値未満であることが識別される、いくつかの実施形態では、異常選択プロセスの群は、二重中央値絶対偏差(MAD)プロセスおよびマハラノビス距離プロセスを含むことができる。そのような実施形態では、第1のサンプル数閾値は、300,000個のデータサンプルであり得、第2のサンプル数閾値は、200万個のデータサンプルであり得、記憶サイズ閾値は、500メガバイトであり得る。
代替として、データセットの中のデータサンプルの数が、ステップ402において第1のサンプル数閾値を上回り、第2のサンプル数閾値を上回るまたはそれと等しいことが識別される、もしくはデータセットの記憶サイズが、ステップ402において記憶サイズ閾値を上回ることが識別される、いくつかの実施形態では、異常選択プロセスの群は、二重中央値絶対偏差(MAD)プロセスおよびマハラノビス距離プロセスを含むことができる。そのような実施形態では、第1のサンプル数閾値は、300,000個のデータサンプルであり得、第2のサンプル数閾値は、200万個のデータサンプルであり得、記憶サイズ閾値は、500メガバイトであり得る。サンプル数閾値および/または記憶サイズ閾値は、異常検出方法が実装される、コンピュータシステムのデータ記憶容量に依存し得る。いくつかの実施形態では、上記に述べられるサンプル数閾値および記憶サイズ閾値は、64GBのRAMを有する異常検出システムのために好適であり得る。
ある実施形態では、ステップ404において発生される異常検出ブループリントは、教師あり異常検出モデルによる使用のためにデータセットを適合し、異常データサンプルのセットを識別する405ためのタスクを含むことができる。具体的には、異常スコアが、教師なし異常検出プロセス(例えば、教師なし異常検出モデル)を使用して、複数のデータサンプル毎に決定されることができる。次いで、異常スコアは、複数のデータサンプルの標識の値としてデータセットに追加され、それによって、標識データセットを発生させることができる。教師あり異常検出モデルが、異常データサンプルのセットを識別する405ように、本標識データセットに適用されることができる。
別の実施形態では、ステップ405において識別される異常データサンプルのセットが、教師あり異常検出モデルを訓練し、将来の異常データサンプルを予測するために使用されることができる。具体的には、異常スコアが、教師なし異常検出プロセス(例えば、教師なし異常検出モデル)を使用して、複数のデータサンプル毎に決定されることができる。次いで、異常データサンプルのセットは、最大の異常スコアを有する、複数のデータサンプルの割合として識別される405。標識が、異常データサンプルの識別されたセットに基づいて、複数のデータサンプルのそれぞれに割り当てられる。データサンプルに関する標識は、データサンプルが異常であるかどうかを示す。最後に、標識データサンプルは、教師あり異常検出モデルを訓練し、将来のデータサンプルが異常であるかどうかを推論するために使用される。
教師あり異常検出問題への教師なし異常検出問題の変換が、図11に関して下記により詳細に議論される。
IV.多変量データを用いた異常検出
図4に関して上記に簡潔に述べられるように、異常データサンプルが複数のデータサンプルから予測される、いくつかの実施形態では、複数のデータサンプルのそれぞれの1つ以上の特徴のデータタイプは、フリーテキストデータタイプである。そのような実施形態では、異常検出ブループリントに対応する異常検出プロシージャは、異常データサンプルの予測のための異常検出モデルへの複数のデータサンプルの入力に先立って、複数のデータサンプルのそれぞれのこれらの1つ以上のフリーテキスト特徴を処理するための具体的タスクを含むことができる。
図5は、ある実施形態による、各データサンプルが、フリーテキストデータタイプを有する1つ以上の特徴、および非テキストデータタイプを有する1つ以上の特徴と関連付けられる、複数のデータサンプルから異常データサンプルを予測するための方法500のフローチャートである。他の実施形態では、本方法は、図5に示されるものと異なるおよび/または付加的ステップを含んでもよい。加えて、方法のステップは、図5と併せて説明される順序と異なる順序で実施されてもよい。
図5に示されるように、複数のデータサンプルを備えるデータセットが、取得される501。複数のデータサンプルのうちの各データサンプルは、特徴のセットに関する値と関連付けられる。さらに、特徴のセットは、フリーテキストデータタイプを有する少なくとも1つの特徴と、非テキストデータタイプを有する少なくとも1つの特徴とを含む。
いくつかの実施形態では、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、いくつかの用語が、識別される。組み合わせられたフリーテキストコーパスは、複数のデータサンプルに関して、フリーテキストデータタイプを有する特徴毎に値を含んでもよい。次いで、サンプル用語行列が、発生されることができる。サンプル用語行列の各行(または列)は、複数のデータサンプルのうちの1つに対応し、サンプル用語行列の各列(または行)は、最も頻繁に生じる識別された用語のうちの1つに対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じるかどうかを示す。例えば、サンプル用語行列の要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じることを示すように、「1」の値であってもよい。代替として、サンプル用語行列の要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じる回数(例えば、頻度)を示し得る。別の実施例として、サンプル用語行列の要素は、要素の列に対応する用語に関する用語頻度・逆サンプル頻度値(用語頻度・逆文献頻度(TF-IDF)値に類似するが、別個の「文献」として集合的に扱われる各サンプルのテキスト値を伴う)を備えてもよい。TF-IDFメトリックのように、用語頻度・逆サンプル頻度(TF-ISF)メトリックは、用語がサンプルセットの中のサンプル(文献)のテキストにとって「重要」である程度を示す。さらに別の実施例として、サンプル用語行列の要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルのフリーテキスト特徴の値の中に生じないことを示すように、「0」の値であってもよい。
いくつかの実施形態では、組み合わせられたフリーテキストコーパスは、5,000を上回る一意の用語を含むことができ、組み合わせられたフリーテキストコーパス内で最も頻繁に生じる用語の数は、5,000個の一意の用語であり得、サンプル用語行列は、5,000列を含むことができる。
次いで、いくつかのさらなる実施形態では、フリーテキストデータタイプを有する特徴のセットの中の特徴は、工学的特徴と置換されることができる。複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するサンプル用語行列の行に設定されることができる。フリーテキストデータ処理の本方法は、高次元および/または疎データサンプルに好まれ得、特殊および/または複合(例えば、バイグラム)テキスト用語の識別を可能にする。
代替実施形態では、フリーテキスト特徴の値は、上記に説明されるようなサンプル用語行列の行と置換されない。むしろ、代替実施形態では、コンパクトな行列が、サンプル用語行列に特異値分解(SVD)因数分解を実施することによって、発生されることができる。そのような実施形態では、コンパクトな行列内の列の数は、サンプル用語行列内の列の数未満である。コンパクトな行列の各行は、複数のデータサンプルのうちの1つに対応する。次いで、フリーテキストデータタイプを有する、特徴のセットの中の特徴は、工学的特徴と置換されることができ、複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するコンパクトな行列の行に設定される。SVD因数分解を実施し、コンパクトな行列を発生させ、フリーテキスト特徴に関する値をコンパクトな行列の行と置換することによって、フリーテキスト特徴の値の数量および複雑性は、有意に低減され、それによって、より効率的な異常検出を可能にすることができる。
いくつかの代替実施形態では、複数のデータサンプルのそれぞれからの全てのフリーテキスト特徴に関する値を含む、単一の組み合わせられたフリーテキストコーパスは、発生されない。むしろ、代替実施形態では、組み合わせられたフリーテキストコーパスが、フリーテキストデータタイプを有する特徴のセットの中の特徴毎に発生される。換言すると、フリーテキスト特徴毎に、複数のデータサンプル毎のフリーテキスト特徴に関する値を含む、組み合わせられたフリーテキストコーパスが、発生されてもよい。フリーテキスト特徴毎に組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、いくつかの用語が、識別される。次いで、サンプル用語行列が、上記に説明される技法のうちのいずれかを使用して、フリーテキスト特徴毎に発生されることができる。所与のフリーテキスト特徴に関して、サンプル用語行列の各行は、複数のデータサンプルのうちの1つに対応し、サンプル用語行列の各列は、特徴に関して最も頻繁に生じる、識別された用語のうちの1つに対応する。サンプル用語行列の各要素は、要素の列に対応する用語が、要素の行に対応するデータサンプルに関するフリーテキスト特徴の値の中で生じるかどうか、用語がデータサンプルに関するフリーテキスト特徴の値の中で生じる頻度、サンプルの値に対する用語のTF-ISF値等を示し得る。
いくつかのさらなる実施形態では、フリーテキストデータタイプを有する特徴のセットの中の各特徴は、工学的特徴と置換されることができる。所与のフリーテキスト特徴に関して、複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するフリーテキスト特徴のサンプル用語行列の行に設定されることができる。上記に述べられるように、フリーテキストデータ処理の本方法は、高次元および/または疎データサンプルに好まれ得、特殊ならびに/もしくは複合(例えば、バイグラム)テキスト用語の識別を可能にする。
代替実施形態では、フリーテキスト特徴の値は、上記に説明されるようなサンプル用語行列の行と置換されない。むしろ、代替実施形態では、各フリーテキスト特徴に対応するサンプル用語行列に関して、コンパクトな行列が、サンプル用語行列に特異値分解(SVD)因数分解を実施することによって、発生されることができる。そのような実施形態では、コンパクトな行列内の列の数は、サンプル用語行列内の列の数未満である。コンパクトな行列の各行は、複数のデータサンプルのうちの1つに対応する。次いで、特徴のセットの中の各フリーテキスト特徴は、工学的特徴と置換されることができ、複数のデータサンプル毎の工学的特徴の値は、データサンプルに対応するフリーテキスト特徴のコンパクトな行列の行に設定される。SVD因数分解を実施し、コンパクトな行列を発生させ、フリーテキスト特徴毎の値をコンパクトな行列の行と置換することによって、フリーテキスト特徴の値の数量および複雑性は、有意に低減され、それによって、より効率的な異常検出を可能にすることができる。
最後に、異常データサンプルのセットが、複数のデータサンプル毎に、フリーテキスト特徴(またはフリーテキスト特徴に取って代わる工学的特徴)および非テキスト特徴に関する値に少なくとも部分的に基づいて、識別される502。複数のデータサンプルが、異常データサンプルのセットを識別する502ように、異常検出モデルに入力される、実施形態では、異常検出モデルは、隔離フォレストモデルによって実施される異常検出プロセス等の高次元データサンプルの異常を検出するために好適な異常検出プロセスを実施してもよい。さらに、複数のデータサンプルが、異常データサンプルのセットを識別する502ように、異常検出モデルに入力される、そのような実施形態では、教師なし異常検出モデルが、教師あり異常検出モデルに対して、高次元行列に基づいて異常データサンプルをより正確に識別することが実験的に決定されているため、異常検出モデルは、教師あり異常検出モデルではなく、教師なし異常検出モデルであってもよい。
図11に関して下記にさらに詳細に議論されるように、いくつかの実施形態では、方法500は、教師あり異常検出モデルによる使用のために複数のデータサンプルを適合し、異常データサンプルのセットを識別する502ため、または複数のデータサンプルを適合し、教師あり異常検出モデルを訓練し、将来の異常データサンプルを予測するための付加的ステップを含むことができる。
具体的には、いくつかの実施形態では、教師あり異常検出モデルによる使用のために複数のデータサンプルを適合し、異常データサンプルのセットを識別する502ために、異常スコアが、教師なし異常検出プロセス(例えば、教師なし異常検出モデル)を使用して、複数のデータサンプル毎に決定されることができる。本開示の全体を通して議論されるように、データサンプルに関する異常スコアは、データサンプルが異常である程度を示す。これらの決定された異常スコアは、次いで、複数のデータサンプルの標識の値としてデータセットに追加され、それによって、標識データセットを発生させることができる。教師あり異常検出モデルが、異常データサンプルのセットを識別する502ように、標識データセットに適用されることができる。
代替実施形態では、複数のデータサンプルは、教師あり異常検出モデルを訓練し、将来の異常データサンプルを予測するように変換されることができる。具体的には、異常スコアが、教師なし異常検出プロセス(例えば、教師なし異常検出モデル)を使用して、複数のデータサンプル毎に決定されることができる。異常データサンプルのセットは、次いで、最大の異常スコアを有する複数のデータサンプルの割合として、識別されることができる502。本割合は、予期される外れ値割合を備えることができる。いくつかのさらなる実施形態では、標識が、異常データサンプルの識別されたセットに基づいて、複数のデータサンプルのそれぞれに割り当てられることができ、所与のデータサンプルに関する標識は、データサンプルの異常性のインジケーションである。したがって、異常データサンプルのセットの中のデータサンプルが、異常として標識される一方、異常データサンプルのセットの中にないデータサンプルは、異常ではないとして標識される。次いで、教師あり異常検出モデルが、複数のデータサンプルのそれぞれおよび関連付けられる標識を使用して、将来の異常データサンプルを予測するように訓練されることができる。
V.異常検出ブループリントの混成
図4に関して上記に詳細に議論されるように、異常検出ブループリントが、複数のデータサンプルから異常データサンプルを予測するために使用されることができる。あるさらなる実施形態では、複数の異なる異常検出ブループリントが、複数のデータサンプルから異常データサンプルを予測するために使用されることができる。複数の異なる異常検出ブループリントによって決定される異常性予測は、複数のデータサンプルから異常データサンプルを予測するために使用されることができる。換言すると、複数の異なる異常検出ブループリントの予測は、複数のデータサンプルから異常データサンプルを予測するように「混成される」ことができる。
複数の異なる異常検出ブループリントを使用し、異常データサンプルを予測することは、異常検出ブループリントが異なる状況を横断して異常データサンプルを正確に予測する能力において変動し得るため、有利であり得る。例えば、1つの異常検出ブループリントが、1つのタイプの異常(例えば、ネットワークアクセス異常)を正確に予測することが可能であり得る一方、別の異常検出ブループリントは、別のタイプの異常(例えば、不正なクレジットカード購入)を正確に予測することが可能であり得る。別の実施例として、1つの異常検出ブループリントが、高い特異性で所与のタイプの異常を予測することが可能であり得る一方、別の異常検出ブループリントは、高い感度で所与のタイプの異常を予測することが可能であり得る。しかしながら、多くの場合、特定の複数のデータサンプルに関して異常データサンプルを最も正確に予測することが可能であろう、異常検出ブループリントを決定することは、困難である、または不可能でさえある。したがって、複数の異なる異常検出ブループリントが、予測を発生させるために使用されることができ、これらの予測は、異常データサンプルのより正確な予測を可能にするように、比較される、および/または組み合わせられることができる。
さらに、所望のレベルの異常検出厳密性が、異なる状況を横断して変動し得る。例えば、セキュリティが高い優先順位である状況下で異常データサンプルを予測するとき(例えば、不正ネットワーク侵入を説明する異常データサンプルを予測するとき)、高いレベルの異常検出厳密性を採用し、異常データサンプルを予測することが望ましくあり得る。換言すると、異常として、より少ないデータサンプルではなく、より多くのデータサンプルにフラグを付け、任意の異常データサンプルの欠落した検出を回避することが望ましくあり得る。他方では、セキュリティが高い優先順位ではない状況下で異常データサンプルを予測するとき、より低いレベルの異常検出厳密性を採用し、異常データサンプルを予測することが望ましくあり得る。換言すると、異常として、より多くのデータサンプルではなく、より少ないデータサンプルにフラグを付け、多くの誤検出異常にフラグを付けることを回避することが望ましくあり得る。例えば、不正なクレジットカード購入を説明する異常データサンプルを予測するとき、低いレベルの異常検出厳密性を採用し、誤検出にフラグを付けることを回避し、それによって、不必要なクレジットカード一時停止および不満を抱えた顧客を回避することが望ましくあり得る。下記に詳細に議論されるように、複数の異常検出ブループリントを使用し、異常データサンプルを予測することによって、異常検出厳密性のレベルが、状況および/またはユーザの選好に従って、制御ならびに調節されることができる。
図6は、ある実施形態による、複数の異なる異常検出ソースを使用して、複数のデータサンプルから異常データサンプルを予測するための方法600のフローチャートである。他の実施形態では、本方法は、図6に示されるものと異なるおよび/または付加的ステップを含んでもよい。加えて、方法のステップは、図6と併せて説明される順序と異なる順序で実施されてもよい。
図6に示されるように、データサンプルに関する異常スコアが、複数の異なるソースから取得される601。異常スコアを提供する複数の異なるソースは、例えば、任意の数量ならびに任意のタイプの異常検出ブループリント、異常検出プロセス、および/または異常検出モデルを含むことができる。
データサンプルの異常性の識別のための異常検出厳密性のレベルが、識別される602。いくつかの実施形態では、異常検出厳密性のレベルは、ユーザによって規定されることができる。代替実施形態では、異常検出厳密性のレベルは、異常検出システムによって自動的に決定されることができる。
図6に描写される実施形態では、識別される602異常検出厳密性のレベルは、最大厳密性または最小厳密性のいずれかである。下記にさらに詳細に説明されるように、最大異常検出厳密性は、異常データサンプルを識別するための最小異常検出厳密性よりも高い閾値を設定する。しかしながら、図6に描写される実施形態は、最大異常検出厳密性または最小異常検出厳密性のいずれかを識別する602が、代替実施形態では、中間の異常検出厳密性のレベルもまた、ステップ602において識別されることができる。中間の異常検出厳密性は、異常データサンプルを識別するための最大異常検出厳密性よりも低い閾値を設定するが、異常データサンプルを識別するための最小異常検出厳密性よりも高い閾値を設定する。さらに、図6に描写される実施形態は、異常検出厳密性の単一のレベルを識別する602が、代替実施形態では、異常検出厳密性の複数のレベルが、選択されてもよく、異常検出厳密性の複数のレベルに従って識別される、結果として生じる異常データサンプルが、比較されることができる。
図6に戻って目を向けると、最小異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される602、実施形態では、方法600はさらに、複数の異なるソースから取得される異常スコアのうちの少なくとも1つが閾値異常スコアを上回るかどうかを決定するステップ603を含む。閾値異常スコアは、ユーザによって、および/または異常検出システムによって決定されることができる。複数の異なるソースからの少なくとも1つの異常スコアが閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されてもよい604。逆に、複数の異なるソースからの異常スコアのうちのいずれも閾値異常スコアを上回らないことを決定することに応答して、データサンプルは、異常ではないとして識別されてもよい605。
最大異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される602、実施形態では、方法600はさらに、複数の異なるソースから取得される全ての異常スコアが閾値異常スコアを上回るかどうかを決定するステップ606を含む。複数の異なるソースからの少なくとも1つの異常スコアが閾値異常スコア未満であることを決定することに応答して、データサンプルは、異常ではないとして識別されてもよい607。逆に、複数の異なるソースからの全ての異常スコアが閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されてもよい608。
上記に議論されるように、図6に描写されないが、いくつかの実施形態では、中間の異常検出厳密性のレベルもまた、ステップ602において識別されることができる。中間の異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される602、そのような実施形態では、方法600はさらに、複数の異なるソースからの全ての異常スコアの平均異常スコアが閾値異常スコアを上回るかどうかを決定するステップを含むことができる。平均異常スコアが閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されることができる。逆に、平均異常スコアが閾値異常スコア未満であることを決定することに応答して、データサンプルは、異常ではないとして識別されることができる。
中間の異常検出厳密性が、データサンプルの異常性の識別のための異常検出厳密性のレベルとして識別される602、別の実施形態では、方法600はさらに、複数の異なるソースからの異常スコアの大部分が閾値異常スコアを上回るかどうかを決定するステップを含むことができる。異常スコアの大部分が閾値異常スコアを上回ることを決定することに応答して、データサンプルは、異常として識別されることができる。逆に、異常スコアの大部分が閾値異常スコア未満であることを決定することに応答して、データサンプルは、異常ではないとして識別されることができる。
図7は、ある実施形態による、異常検出システムの入出力インターフェースの画像700を描写する。図7に描写される画像700では、入出力インターフェースは、異常検出ブレンダのための「平均混成タイプ」の選択を受信している。換言すると、入出力インターフェースは、複数の異なるソースによる異常データサンプル予測のために中間レベルの異常検出厳密性の選択をユーザから受信している。代替実施形態では、ユーザは、代替として、または加えて、最大および/または最小レベルの異常検出厳密性を選択してもよい。
VI.異常検出特徴影響
いくつかの実施形態では、異常データサンプルの識別に続いて、特定のデータサンプルが異常としてフラグを付けられる理由に関して、解説を提供することが有用であり得る。具体的には、異常としてのデータサンプルのデータサンプル影響識別の特徴の値を識別することが有用であり得る。換言すると、異常としてのデータサンプルの識別に寄与する(例えば、最も寄与する)データサンプルの特徴値を識別することが有用であり得る。
異常検出への特徴影響の識別は、そのような洞察が、将来の異常識別および積極的異常応答を指示するために使用され得る、ビジネスルールの生成および最適化を知らせるために使用されることができるため、有利である。そのようなビジネスルールは、下記にさらに詳細に議論される。異常検出への特徴影響の識別はまた、データサンプルを横断してデータドリフトを識別および考慮し、それによって、不正確な異常検出を回避するために使用されることもできる。データドリフトもまた、下記にさらに詳細に議論される。
図8は、ある実施形態による、異常としてのデータサンプルの識別に寄与するデータサンプルの特徴を識別するための方法800のフローチャートである。他の実施形態では、本方法は、図8に示されるものと異なるおよび/または付加的ステップを含んでもよい。加えて、方法のステップは、図8と併せて説明される順序と異なる順序で実施されてもよい。
図8に示されるように、複数のデータサンプル毎の異常スコアが、取得される801。複数のデータサンプルはそれぞれ、特徴のセットに関する値と関連付けられる。データサンプルに関する異常スコアは、データサンプルが異常である程度を示す。
いくつかの実施形態では、複数のデータサンプル毎に異常スコアを取得するステップ801は、異常検出モデルから複数のデータサンプル毎の異常スコアを受信するステップを含む。そのような実施形態では、異常検出モデルは、教師ありモデルまたは教師なしモデルであり得る。特徴重要性(例えば、順列重要性)を査定するための従来の技法と異なり、標識が方法800を使用して特徴影響を決定するために必要ではないため、特徴影響が、教師なし異常検出モデルのために決定されることができる。
異常データサンプルのセットが、取得された異常スコアに基づいて、複数のデータサンプルから識別される802。ある実施形態では、異常データサンプルのセットは、最も極端な(例えば、最大の)異常スコアを有する複数のデータサンプルの割合として識別される。本割合は、予期される外れ値割合を備えることができる。いくつかの実施形態では、予期される外れ値割合は、10%であり得る。
異常スコアの総和が、異常データサンプルのセットに関して決定される803。本決定された総和は、本明細書では「ベース総和」と称され得る。
特徴のセットの中の特徴毎に、異常データサンプル毎の特徴の値が、サンプルの異常性の査定への特徴の影響を中和するように、調節される804。データサンプルの異常性の査定への特徴値の影響は、限定ではないが、特徴値を一定値と置換するステップを含む、任意の好適な技法を使用して、中和されてもよい。本調節は、更新された異常データサンプルを発生させる。一定値は、任意の値であり得る。いくつかの実施形態では、一定値は、欠落した値(例えば、値なし)であり得る。異常データサンプルを横断して特徴の値を一定にすることによって、異常としてのデータサンプルの識別への特徴の寄与が、下記に説明されるように決定されることができる。
いくつかの実施形態では、方法800は、ステップ804において異常データサンプル毎の特徴の値に取って代わるべき一定値を決定するさらなるステップを含む。そのような実施形態では、一定値は、一定値が取って代わることになる、異常データサンプルに関する特徴の値に基づいて決定される。具体的には、いくつかの実施形態では、一定値を決定するために、特徴のデータタイプが、決定される。
特徴を中和するために使用される一定値は、任意の好適な方法で選択されてもよい。例えば、特徴のデータタイプが数値であることを決定することに応答して、異常データサンプル毎の特徴の値は、異常データサンプルに関する特徴の値の平均値または中央値と置換されてもよい805。実施例として、数値特徴と関連付けられる各データサンプルが取引のコストを説明する、5つの異常データサンプルを考慮されたい。5つの異常データサンプルに関する数値コスト特徴の値は、4ドル、10ドル、23ドル、56ドル、および$100ドルである。上記に説明される実施形態では、5つの異常データサンプル毎の特徴の値は、23ドル、すなわち、5つの異常データサンプルに関する特徴の値の中央値と置換される。
他方では、特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、異常データサンプル毎の特徴の値は、異常データサンプルの中で最高頻度において生じる特徴の値と置換される806。実施例として、フリーテキスト特徴と関連付けられる各データサンプルが取引の場所を説明する、5つの異常データサンプルを考慮されたい。5つの異常データサンプルに関するカテゴリ場所特徴の値は、「ガソリンスタンド」、「小売店」、「ガソリンスタンド」、「ガソリンスタンド」、および「航空会社」である。上記に説明される実施形態では、5つの異常データサンプル毎の特徴の値は、「ガソリンスタンド」、すなわち、異常データサンプルの中で最高頻度において生じる特徴の値と置換される。
図8に戻って目を向けると、異常スコアが、更新された異常データサンプル毎に決定される805。具体的には、異常スコアが、特徴に関する中和された値を有する、更新された異常データサンプル毎に決定される805。ステップ801において取得される異常スコアが異常検出モデルから受信される、実施形態では、ステップ805において決定される異常スコアもまた、同一の異常検出モデルによって決定されることができる。
更新された異常データサンプルに関する異常スコアの総和が、決定される806。決定された総和は、本明細書では「特徴総和」と称され得る。
ベース総和と特徴総和との間の差が、決定される807。ベース総和と特徴総和との間の本決定された差は、異常としてのデータサンプルのセットの識別への特徴の値の寄与を有する。ベース総和と特徴総和との間のより大きい差は、さらなる寄与を表す。
図8の方法800に描写されていないが、いくつかの実施形態では、ベース総和と特徴総和との間の正規化された差が、決定される。いくつかの実施形態では、本正規化された差は、ステップ807において決定される差の最小/最大正規化を実施することによって決定されてもよい。
上記に説明されるステップ804-807は、特徴のセットの中の特徴毎に実施されてもよい。換言すると、異常としてのデータサンプルのセットの識別への各特徴の寄与を表す差が、決定されてもよい。
ステップ807において特徴毎に決定される差に基づいて、異常としてのデータサンプルのセットの識別に最も寄与する1つ以上の特徴が、識別される808。代替として、正規化された差が上記に説明されるように特徴毎に決定される、実施形態では、異常としてのデータサンプルのセットの識別に最も寄与する1つ以上の特徴は、これらの正規化された差に基づいて識別されることができる。
いくつかのさらなる実施形態では、方法800はさらに、ステップ807において特徴毎に決定される差に基づいて、または代替として、特徴毎に決定される正規化された差に基づいて、特徴のセットの中の特徴をランク付けするステップを含むことができる。特徴毎に決定される正規化された差に基づいて特徴をランク付けすることによって、異常としてのデータサンプルのセットの識別への特徴の寄与が、ランク付けされた割合として比較されることができる。特徴のより高いランキングは、異常としてのデータサンプルのセットの識別への特徴のさらなる寄与を示す。
図9は、ある実施形態による、異常検出システムの入出力インターフェースの画像900を描写する。画像900内の入出力インターフェースは、異常検出モデルによる異常データサンプルの識別への寄与の順に特徴をランク付けする棒グラフを描写する。図9に描写される実施形態では、異常検出モデルは、少なくとも部分的に隔離フォレストモデルを備える。
図10は、ある実施形態による、異常検出システムの入出力インターフェースの画像1000を描写する。画像1000内の入出力インターフェースは、異常としてのデータサンプルの識別のための解説を描写する。図10に描写される実施形態では、異常としてのデータサンプルの識別のための解説は、異常としてのデータサンプルの識別に寄与することが決定されたデータサンプルの特徴の識別を含む。
上記に詳細に議論されるように、図8の方法800は、異常検出への特徴の影響を決定するために使用されることができる。しかしながら、方法800はまた、同様に、両方の教師ありおよび教師なし機械学習モデルを含む、任意の機械学習モデルによって行われる任意のタイプの予測への特徴の影響を決定するために使用されることもできる。
VI.A.データドリフト
多くの予測モデル化用途では、自然なデータドリフトが、経時的にデータセット内に生じ得る。本明細書で使用されるように、データドリフトは、経時的なデータセットの性質の変化を指す。実施例として、経時的にユーザによって行われるクレジットカード取引を説明する複数のデータサンプルを考慮されたい。データドリフトは、ユーザが経時的に各取引に費やされる平均金額を増加させるにつれて、これらのデータサンプルを横断して生じ得る。
自然なデータドリフトの良性にもかかわらず、異常検出モデルが、本データドリフトを考慮しないとき、異常検出モデルは、異常としてデータドリフトを呈するデータサンプルを不正確に識別し得る。例えば、上記の実施例では、異常検出モデルが、経時的な平均取引金額の増加を考慮するように適合しない場合、異常検出モデルは、不正な取引を表す異常データサンプルとして、増加した取引金額を有するデータサンプルを不正確に識別し得る。
異常検出モデルによる異常データサンプルの不正確な識別を回避するために、データドリフトが、識別されることができ、異常識別モデルが、将来の異常データサンプルを予測するときに本識別されたデータドリフトを考慮するように更新されることができる。換言すると、異常検出モデルは、将来の異常データサンプルを予測するときに新しいノルムを考慮するように更新されることができる。例えば、上記の実施例では、異常検出モデルは、将来の異常データサンプルを予測するときに、取引金額の最近の増加を考慮するように更新されることができる。本データドリフトを考慮することによって、異常検出モデルは、異常として、同様に増加した取引金額を有する良性の将来の取引にフラグを付けることを回避することができる。換言すると、本データドリフトを考慮することによって、異常検出モデルは、誤検出異常にフラグを付けることを回避することができる。他の実施例では、データドリフトを考慮することは、異常検出モデルが未検出データサンプルを回避すること(例えば、真の異常データサンプルを識別できないことを回避すること)を可能にすることができる。
複数のデータサンプルを横断してデータドリフトを識別するために、経時的な異常検出への1つ以上の特徴の特徴影響の変化が、決定されることができる。経時的な異常検出への特徴影響の変化を決定するために、最初に、経時的に識別される異常の数量(または率)の変化が、決定されることができる。経時的に識別される異常の数量(または率)の変化が、閾値変化を超える場合、異常としてのデータサンプルの識別に寄与する特徴および/または特徴の値が変化したこと、故に、異常検出モデルは、将来の異常データサンプルを予測するときに本寄与の変化を考慮するように更新されるべきであることが、決定されることができる。
図8の方法800に関して上記に議論される複数のデータサンプルと第2の複数のデータサンプルとの間のデータドリフトを識別するために、方法800は、付加的ステップを含むことができる。明確にするために、図8の方法800に関して上記に議論される複数のデータサンプルは、第1の時点と関連付けられる第1の複数のデータサンプルを備え、異常データサンプルのセットは、異常データサンプルの第1のセットを備え、第1の複数のデータサンプルに関する異常スコアは、第1の異常スコアであることを仮定されたい。さらに、第2の複数のデータサンプルは、第1の時点の後の第2の時点と関連付けられることを仮定されたい。第1の複数のデータサンプルおよび第2の複数のデータサンプルのうちの各データサンプルは、特徴の同一のセットに関する値と関連付けられる。第1の複数のデータサンプルおよび第2の複数のデータサンプルは、同一のエンティティまたは異なるエンティティと関連付けられることができる。第1の複数のデータサンプルおよび第2の複数のデータサンプルが同一のエンティティと関連付けられる、実施例として、第1の複数のデータサンプルおよび第2の複数のデータサンプルの両方の中の各データサンプルは、特定のユーザ(例えば、特定の顧客ID)と関連付けられることができる。
第1の時点からの第1の複数のデータサンプルと第2の時点からの第2の複数のデータサンプルとの間のデータドリフトを識別するために、方法800はさらに、第2の複数のデータサンプル毎に第2の異常スコアを取得するステップを含むことができる。第1の異常スコアがステップ801において異常検出モデルから受信された、実施形態では、第2の異常スコアもまた、同一の異常検出モデルから受信される。
次いで、上記のステップ802と同様に、異常データサンプルの第2のセットが、受信された第2の異常スコアに基づいて、第2の複数のデータサンプルから識別されることができる。いくつかの実施形態では、異常データサンプルの第2のセットは、最大の第2の異常スコアを有する、第2の複数のデータサンプルの割合として識別されることができる。上記に説明されるように、本割合は、予期される外れ値割合を備えることができる。いくつかの実施形態では、予期される外れ値割合は、10%であり得る。
閾値異常スコアを上回る第1の異常スコアを有する、異常データサンプルの第1のセットのうちのデータサンプルの第1の数量が、決定される。加えて、閾値異常スコアを上回る第2の異常スコアを有する、異常データサンプルの第2のセットのうちのデータサンプルの第2の数量が、決定される。次いで、データサンプルの第1の数量とデータサンプルの第2の数量との間の差が、決定される。換言すると、第1の時点と第2の時点との間で識別される異常の数量の変化が、決定される。
数量差の絶対値が閾値差を上回ることに応答して、第1および第2の異常スコアが取得された、異常検出モデルを更新するステップと関連付けられる、1つ以上のアクションが、実施される。いくつかの実施形態では、1つ以上のアクションは、ステップ808において異常としてのデータサンプルの識別に寄与するものとして識別される、特徴および/または特徴の値が、第1の時点と第2の時点との間で変化したことを決定するステップを含むことができる。付加的実施形態では、1つ以上のアクションは、異常検出モデルが更新されることを推奨するメッセージを異常検出モデルのユーザに提供するステップを含むことができる。付加的実施形態では、1つ以上のアクションは、第2の時点と関連付けられる第2の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させるステップを含むことができる。第2の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させることによって、新しい異常検出モデルは、異常としてのデータサンプルの識別に寄与する、更新された特徴を学習することができる。異常検出モデルを更新することによって、異常検出モデルは、誤検出異常にフラグを付けること、または異常ではないとしてデータサンプルを誤って識別することを低減させる(もしくは回避する)ことができる。
VI.B.ビジネスルール
図8に関して上記に述べられるように、異常としてのデータサンプルの識別に最も寄与することが決定される特徴が、将来の異常識別および積極的異常応答を指示するために使用され得る、ビジネスルールの生成ならびに最適化を知らせるために使用されることができる。ビジネスルールは、異常データサンプルの識別に最も寄与するものとして識別される特徴に基づいて、異常検出システムによって、および/またはユーザによって、自動的に識別されることができる。例えば、不正または脅迫的ネットワークアクセスの識別に最も寄与する特徴の識別が、ネットワークファイアウォールおよびウイルスセンサを改良し、将来の侵入を防止するための方略を知らせるために使用されることができる。別の実施例として、システム機能不全の識別に最も寄与する特徴の識別が、修理を要求するシステムの部分を決定し、それによって、システムダウンタイムおよび関連付けられる金銭的損失を削減するために、使用されることができる。さらに別の実施例として、システム機能不全の識別に最も寄与する特徴の識別が、システムが誤動作する条件を決定し、それによって、そのような条件および機能不全の将来の発生を回避するために、使用されることができる。
VII.教師あり機械学習への教師なし異常検出の変換
いくつかの実施形態では、教師なし異常検出が、教師あり機械学習に関してデータセットを変換するために使用されることができる。具体的には、教師なし異常検出モデルが、複数のデータサンプルを変換し、教師あり機械学習モデルを訓練するために、または教師あり機械学習モデルによって使用され、予測を発生させるために、使用されることができる。
図11は、ある実施形態による、教師あり異常検出モデルに関してデータセットを発生させるための方法1100のフローチャートである。他の実施形態では、本方法は、図11に示されるものと異なるおよび/または付加的ステップを含んでもよい。加えて、方法のステップは、図11と併せて説明される順序と異なる順序で実施されてもよい。
複数のデータサンプルのうちのデータサンプル毎の異常スコアが、教師なし異常検出モデルを使用して決定される1101。複数のデータサンプルはそれぞれ、特徴のセットに関する値と関連付けられる。データサンプルに関する異常スコアは、データサンプルが異常である、予測される程度を示す。
新しい特徴が、複数のデータサンプル毎に特徴のセットに追加され1102、それによって、更新された複数のデータサンプルを発生させる。データサンプルに関する新しい特徴の値は、ステップ1101においてデータサンプルに関して決定される異常スコアに基づく。例えば、いくつかの実施形態では、データサンプルに関する新しい特徴の値は、ステップ1101においてデータサンプルに関して決定される異常スコアである。
次いで、機械学習モデルが、更新された複数のデータサンプルを使用して機械学習モデルを訓練するため1103、または機械学習モデルを使用し1104、更新された複数のデータサンプルに基づいて予測を発生させるためのいずれかで、更新された複数のデータサンプルに適用される。いくつかの実施形態では、機械学習モデルは、異常データサンプルを予測するように構成される異常検出モデルであり得る。代替実施形態では、機械学習モデルは、任意の他のタイプの予測を行うように構成されることができる。
機械学習モデルが、更新された複数のデータサンプルを使用して訓練される1103、実施形態では、更新された複数のデータサンプルはそれぞれ、データサンプルの既知の分類を示す標識の値とさらに関連付けられる。標識の値によって示されるデータサンプルの分類は、データサンプルの異常性である場合とそうではない場合がある。例えば、いくつかの実施形態では、標識の値によって示されるデータサンプルの分類は、データサンプルの異常性以外のデータサンプルの分類であってもよい。機械学習モデルは、訓練および/または検証データとして更新された複数のデータサンプルを使用する、教師あり機械学習プロセスを使用して訓練される。具体的には、機械学習モデルは、他の更新された複数のデータサンプル毎の特徴のセットの値に基づいて、別の更新された複数のデータサンプル毎に標識の値を予測するように訓練される。
代替として、機械学習モデルが、更新されたデータサンプル毎に標識の値を予測するために、使用されることができる1104。上記に述べられるように、データサンプルに関する標識の値は、データサンプルの既知の分類またはデータサンプルの出力変数の既知の値を示し得る。標識の値によって示されるデータサンプルの分類は、データサンプルの異常性である場合とそうではない場合がある。例えば、いくつかの実施形態では、標識の値によって示されるデータサンプルの分類は、データサンプルの異常性以外のデータサンプルの分類であってもよい。そのような実施形態では、機械学習モデルは、ステップ1103に関して上記に議論されるもの等の教師あり機械学習プロセスに従って、前もって訓練されている場合がある。
図11に描写されていない代替実施形態では、ステップ1102のように複数のデータサンプル毎に新しい特徴を特徴のセットを追加するのではなく、標識の値が、ステップ1101において決定される異常スコアに基づいて、複数のデータサンプル毎に決定されることができる。そのような実施形態では、データサンプルに関する標識の値は、データサンプルの異常性を示す。次いで、教師あり異常検出モデルが、複数のデータサンプルおよび決定された標識値を使用して、将来のデータサンプルの異常性を予測するように訓練されることができる。換言すると、教師あり異常検出モデルは、複数のデータサンプルおよび関連付けられる標識値を使用して、教師あり機械学習プロセスに従って訓練される。
機械学習モデルによって使用されるデータサンプルの新しい特徴または標識として異常スコア(または分類)を含むことによって、機械学習モデルによって発生される予測の正確度への異常の潜在的悪影響が、低減されることができる。
教師なしモデルによって決定される異常スコアおよび/または異常分類が、特徴としてデータセットに追加され、予測モデル(例えば、教師あり予測モデル)が、データセットの特徴の値に基づいて、カテゴリ出力変数の値を予測するように訓練される、実施例が、説明された。いくつかの実施形態は、カテゴリ出力変数の値を予測するための訓練予測モデルに限定されない。いくつかの実施形態では、予測モデルは、他のタイプの出力変数(例えば、数値出力変数)の値を予測するように訓練されてもよい。
教師なしモデルによって決定される異常スコアが特徴としてデータセットに追加される実施例が、説明された。いくつかの実施形態では、異常スコアは、出力変数としてデータセットに追加されてもよく、予測モデル(例えば、教師あり予測モデル)が、データセットの特徴に基づいて、データサンプルに関する異常スコアを予測するように訓練されてもよい。
VIII.教師あり機械学習モデル訓練データセットの精緻化
いくつかの実施形態では、上記に説明されるように、複数のデータサンプルを変換し、教師あり機械学習モデルを訓練することに加えて、教師あり機械学習モデルを訓練するために使用される複数のデータサンプルが、教師あり機械学習モデルを訓練し、より正確な予測を発生させるように精緻化されることができる。具体的には、教師あり機械学習モデルを訓練するために使用される訓練データセットが、少なくとも訓練データセットの標識の値との閾値レベルの相関が欠けている、異常データサンプルを除外するように、精緻化されることができる。上記に議論されるように、データサンプルに関する標識の値は、データサンプルの既知の分類またはデータサンプルの出力変数の既知の値を示し得る。いくつかの実施形態では、標識値は、異常性のインジケーションであり得る。代替実施形態では、標識値は、異常性以外の分類のインジケーションであり得る。教師あり機械学習モデルの訓練データセットを精緻化し、少なくとも標識の値との閾値レベルの相関が欠けている、異常訓練データサンプルを除外することによって、教師あり機械学習モデルによって発生される将来の予測の正確度への関連性がない異常の任意の潜在的な悪影響が、低減または防止されることができる。
実施例として、ある乗客がタイタニック号の沈没を生き延びたかどうかを予測するように訓練されている、教師あり機械学習モデルを考慮されたい。モデルを訓練するために使用される複数の訓練データサンプルはそれぞれ、タイタニック号の乗客を説明し、乗客がタイタニック号の沈没を生き延びたかどうかを示す標識の値を含む。
教師なし異常検出モデルが、ファーストクラスのチケットを有する乗客を説明する訓練データサンプルとしての複数の訓練データサンプルから異常訓練データサンプルのセットを識別すると仮定されたい。周知であるように、ファーストクラスのチケットを有したタイタニック号の乗客の多くが、沈没から生き延びた。したがって、異常訓練データサンプルのセットに関する標識の値の多くは、生存を示す。したがって、異常訓練データサンプルのセットは、生存である標識の値と相関することが決定されることができる。結果として、異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練し、付加的なタイタニック号の乗客の生存を正確に予測するために、使用されることができる。したがって、異常訓練サンプルのセットは、訓練データセットの中に留まることができる。
他方では、教師なし異常検出モデルが、4文字の名字を有する乗客を説明する訓練データサンプルとしての複数の訓練データサンプルから異常訓練データサンプルのセットを識別すると仮定されたい。また、4文字の名字を有する乗客と生存との間に相関がないと仮定されたい。したがって、異常訓練データサンプルのセットは、標識と相関しないことが決定されることができる。結果として、本異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練し、付加的なタイタニック号の乗客の生存を正確に予測するために使用される、データセットから安全に除外されることができる。本異常データサンプルのセットに基づいて、教師あり機械学習モデルを訓練することは、モデルに、異常データサンプルと標識の値との間の不正確な相関を学習させ、したがって、乗客の生存を不正確に予測させ得る。したがって、本異常データサンプルのセットは、教師あり機械学習モデルのより正確な訓練を可能にするように、訓練データセットから除去されることができる。
図12は、ある実施形態による、教師あり異常検出モデルを訓練するための訓練データセットを精緻化するための方法1200のフローチャートである。他の実施形態では、本方法は、図12に示されるものと異なるおよび/または付加的ステップを含んでもよい。加えて、方法のステップは、図12と併せて説明される順序と異なる順序で実施されてもよい。
図12に示されるように、複数の訓練データサンプル毎の異常スコアが、取得される1201。複数の訓練データサンプルは、教師あり機械学習モデルを訓練するためのものである。複数の訓練データサンプルはそれぞれ、特徴のセットに関する値および標識の値と関連付けられる。訓練データサンプルに関する異常スコアは、データサンプルが異常である、予測される程度を示す。訓練データサンプルに関する標識の値は、データサンプルの既知の分類を示す。標識の値によって示されるデータサンプルの分類は、データサンプルの異常性である場合とそうではない場合がある。
いくつかの実施形態では、複数の訓練データサンプル毎に異常スコアを取得するステップ1201は、異常検出モデルから複数の訓練データサンプル毎に異常スコアを受信するステップを含む。そのような実施形態では、異常検出モデルは、教師ありモデルまたは教師なしモデルであり得る。
異常訓練データサンプルのセットが、受信された異常スコアに基づいて、複数の訓練データサンプルから識別される1202。ある実施形態では、異常訓練データサンプルのセットは、最大の異常スコアを有する複数の訓練データサンプルの割合として識別される。本割合は、予期される外れ値割合を備えることができる。いくつかの実施形態では、予期される外れ値割合は、10%であり得る。
訓練データサンプルの異常スコアまたは異常分類と訓練データサンプルに関する標識の値との間の相関(例えば、異常訓練データサンプルのセットと異常訓練データサンプルのセットに関する標識の値との間の相関)が、識別される1203。限定ではないが、ピアソンの相関係数を決定するステップ、スピアマンのランク相関係数を決定するステップ、または最小二乗方法を提供するステップを含む、訓練データサンプルの異常スコアまたは異常分類と標識の値との間の相関のレベルを決定するための任意の好適な技法が、使用されてもよい。異常訓練データサンプルのセットと異常訓練データサンプルのセットに関する標識の値との間の相関は、例えば、標識の特定の値と関連付けられる異常訓練データサンプルのセットの割合であり得る。
次いで、方法1200は、相関が少なくとも閾値相関であるかどうかを決定するステップ1204を含む。相関が閾値相関未満であることに応答して、異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練するための複数の訓練データサンプルから除去される1205。他方では、相関が少なくとも閾値相関であることに応答して、異常訓練データサンプルのセットは、教師あり機械学習モデルを訓練するための複数の訓練データサンプルの中で留保される1206。少なくとも異常訓練データサンプルに関する標識の値への閾値相関を有する、異常訓練データサンプルのみを留保することによって、教師あり機械学習モデルは、無相関異常データサンプルによって混同されない(またはあまり混同されない)、正確な予測を発生させるように、訓練されることができる。
いくつかのさらなる実施形態では、相関が閾値相関未満であることに応答して、方法1200はさらに、異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴を識別するステップを含むことができる。本タスクに関して、特徴影響決定方法800のステップ803-808が、異常訓練データサンプルに適用されてもよい。
付加的実施形態では、異常としての訓練データサンプルのセットの識別に最も寄与する、1つ以上の特徴を示す、メッセージが、ユーザに提供されることができる。メッセージをユーザに提供することによって、ユーザは、標識の値と相関を有していないデータサンプルが異常としてフラグを付けられた理由を理解することができる。
IX.例示的ユースケース
本節では、異常検出技法のいくつかの実施形態の用途のいくつかの非限定的実施例が、説明される。第IX.A節および図14A-14Mでは、異常検出を使用し、不正な保険金請求を検出することの実施例が、説明される。第IX.B節および図15A-15Kでは、異常検出を使用し、金融詐欺を検出することの実施例が、説明される。第IX.C節では、異常検出を使用し、サイバーセキュリティ脅威を検出することの実施例が、説明される。
(実施例1)
IX.A.実施例1:保険金請求詐欺
本発明者らは、本明細書に説明される異常検出技法のいくつかの実施形態が、不正な保険金請求(例えば、車両保険金請求、財産所有者の保険金請求、医療保険金請求等)を検出するために使用され得ることを、認識および理解している。従来のアプローチに対して、いくつかの実施形態は、不正な保険金請求の検出において改良された正確度、感度、および/または特異性を提供する。いくつかの実施形態によって提供される、改良された感度は、保険会社によって不正な請求に支払われる総額を削減し、付加的な不正請求を申し立てないように悪徳関係者を妨げることによって、関連性がある保険市場の全体的効率を改良することができる。加えて、いくつかの実施形態によって提供される、改良された特異性は、最終的に不正ではないことが決定される請求の調査に費やされる努力を削減することによって、詐欺検出および調査システムの効率を大いに改良することができる。
IX.A.1.背景
不正なアクティビティに関して保険金請求を評価することへの現代的なアプローチは、通常、ルール合致および人間の専門家の介入の混合を伴う。保険組織は、概して、その独自の詐欺調査員のチームを使用し、組織の社内ルール合致システムによって識別される高リスク請求を調べる。一般に、そのようなルールベースのシステムは、請求の全体を構成するデータではなく、主に、請求者について把握されていることに焦点を当てる。請求者への本焦点は、事件の説明(概して、自由な流れのテキストとして提供される)および他の詳細を含む、貴重な情報が欠落し得る。いくつかの実施形態では、本明細書に説明される異常検出技法は、請求者についての利用可能な情報だけではなく、請求において提供される事件の説明および他の情報も分析することによって、より良好な成果を達成する。
車両保険金請求詐欺の分野では、犯罪組織が、特定の「クラッシュフォーキャッシュ」動作を行い、いずれの既知の犯罪歴もない運転手を利用し始めているため、現代的なルールベースのシステムは、時代遅れになり始めている。犯罪者が、詐欺検出ルールを把握している場合、多くの場合、捕まることなく不正な請求を申し立てることができる。そのようなルールベースのシステムと対照的に、異常検出を使用し、不正な請求を識別する、詐欺検出システムのいくつかの実施形態は、請求が経時的に進化するにつれて、システムが不正ではない(「正常な」)請求と新しいタイプの不正な(「異常な」)請求とを区別するように自動的に適合するため、新しいタイプの不正な計画または請求が出現するにつれてそれらを検出することはるかに効果的である。
IX.A.2.問題文
保険金詐欺に対する連合(Coalition Against Insurance Fraud)によると、詐欺は、あらゆる保険を横断して1年に約800億ドルとなり、自動車保険金請求詐欺は、本損失のうちの約60億ドルを構成することが推定される。
ユーザ:本実施例では、ユーザは、金融詐欺ソフトウェアシステムを提供することを専門とする会社である。主要な銀行および保険会社のうちのいくつかは、その詐欺検出を会社に外注する。その詐欺調査員は、快適にソフトウェアと連携するが、データ科学者ではなく、コーディングに最小限の経験を有する。
現在のシステム:会社は、25年にわたって詐欺検出専門家として運営されており、その独自のソフトウェアシステムおよびデータベースを開発してきた。2016年まで、会社のシステムは、履歴データから会社によって生成されるルールを使用した。2016年半ばに、会社は、教師あり予測モデル化のいくつかの側面を使用する、より精巧な方法に切り替えた。
ビジネス問題:会社は、予測モデル化に多大な成功を収めてきたが、新しい請求データの後続の標識(詐欺/詐欺ではない)が、問題となっている。詐欺専門家によって調査された請求のみが、正しい標識を有し、残りの請求は、「詐欺ではない」として標識される。したがって、請求が、調査されない場合、これは、詐欺ではないと指定され、これは、教師ありモデルの不良な訓練につながる、標識の不正確度につながる。第2の問題は、特に、不正であった場合に関して、新しいデータの標識を受信することの時系列にある。受信される請求の数に対して、詐欺調査員が数人しか存在せず、調査は、終了するまで数ヶ月かかり得る。その間にも、最も現在の請求(概して、最も重要なデータを提供する)は、それらの教師ありモデルに利用不可能なままである。
IX.A.3.保険金請求詐欺の検出へのいくつかの実施形態の適用
本実施例では、本明細書に説明される異常検出技法のいくつかの実施形態は、グラウンドトゥルース(詐欺対詐欺ではない)が把握される、保険金請求データを使用して、教師なし異常検出(詐欺検出)結果の正確度を査定するように、会社の保険金請求データに適用される。詐欺調査員による詐欺検出システムのいくつかの実施形態の使いやすさもまた、査定される。
分析されるデータは、履歴的自動車保険金詐欺請求のセットである。請求記録は、日付を含むが、時系列のユースケースではない。データは、数値特徴、カテゴリ特徴、および事件のテキスト説明を含む、混合データタイプを有する。データは、テーブルに編成され、スプレッドシートファイルでエンコードされる。
図14Aを参照すると、本実施例では、ユーザは、(例えば、データファイルを表すアイコンを異常検出システムのユーザインターフェース(UI)の中にドラッグすることによって)データを異常検出システムの中にインポートすることによって開始する。
図14Bを参照すると、本実施例では、異常検出システムは、特徴のデータタイプを自動的に識別し、各特徴の値を分析し、各特徴の値を説明する統計を表示する。図14Bの実施例では、UIの第1の列は、特徴の名称(または「参照ID」)を示し、第2の列は、特徴に割り当てられたインデックスを示し、第3の列は、特徴のデータタイプを識別し、第4の列は、特徴毎に、データセットで見出される特徴の一意の値の数を示し、第5の列は、特徴毎に、特徴値が欠落している(データセットに存在しない)データサンプルの数を示し、第6の列は、各数値特徴の平均値を示し、第7の列は、各数値特徴の値の標準偏差を示す。
図14Cを参照すると、本実施例では、ユーザは、着目特徴(例えば、保険金請求日差(Policy_Claim_Day_Diff)特徴)を選択し、特徴の値の分布についてのより詳細な情報を示すUIを視認することができる。図14Cの実施例では、UIは、選択された特徴の値のヒストグラムを示す。表示されるヒストグラムビンの数は、ユーザによって規定されてもよい。加えて、または代替では、本UI画面は、(1)データセット内で頻繁に生じる、選択された特徴の値、(2)選択された特徴の値のテーブル、および/または(3)特徴の値に実施され得る潜在的データ変換を表示してもよい。
図14Dを参照すると、本実施例では、データセットを分析するためにシステムによって使用されるべき異常検出ブループリントが、識別される。例えば、ユーザは、異常検出ブループリントのうちの1つ以上のもの(例えば、全て)を選択してもよい。いくつかの実施形態では、本システムは、好適なデータ前処理動作(例えば、データセットのための最良のタイプのデータ前処理動作)を識別し、オンザフライでデータセットのためのカスタマイズされたブループリントを生成する。
図14Eを参照すると、本実施例では、本システムは、データセットに適用される異常検出ブループリントのそれぞれによって発生されるモデルに関する正確度メトリック(曲線下面積または「AUC」)の値を示す、UI画面を表示する。いくつかの実施形態では、正確度メトリックの値は、モデルの訓練および検証の異なる段階において(例えば、検証後、交差検証後、または抵抗試験において)計算されてもよい。いくつかの実施形態では、本システムは、AUC以外の正確度メトリック(例えば、感度、特異性、誤検出率、未検出率等)を計算および表示してもよい。いくつかの実施形態では、正確度メトリックの値以外の情報が、表示されてもよい。例えば、各特徴の「重要性」または「影響」(例えば、特徴重要性査定技法もしくは特徴影響査定技法を使用して決定されるような、特徴がデータサンプルの異常性のモデルの決定に寄与する程度)が、表示されてもよい。
本実施例では、データセットは、システムによる異常検出モデルのスコア化を促進する、各請求の実際のグラウンドトゥルース(すなわち、請求が不正な請求または不正ではない請求であると決定されたかどうか)を示す。図14Eを参照すると、本実施例では、結果の成功(約0.87曲線下面積または「AUC」)は、「異常」としての請求のシステムの分類が、不正であるものとしての請求のステータスと強く相関することを示す。
図14Fを参照すると、本実施例では、本システムは、システムによって異常としてフラグを付けられる記録(「+」記号によって表される予測値)と人間の専門家によって不正として識別される請求(「o」記号によって表される実際の値)との間の関係を図示する、可視化を示すUI画面を表示する。図14Fの実施例では、可視化は、リフトチャートであるが、他のタイプの可視化も、使用されてもよい。本実施例では、リフトチャートは、モデルによって検出される異常と不正な請求との間の明確な相関を示す。
上記に議論されるように、いくつかの実施形態では、本システムは、根本的異常検出モデルまたはブループリントから集合モデルを生成するために使用され得る、異常検出ブレンダを提供する。集合異常検出モデルは、平均、最大、または最小ブレンダのいずれかであるように同調されることができる。本実施例では、平均ブレンダ、最大ブレンダ、および最小ブレンダは全て、根本的モデルが、概して、異常と見なされた請求に関して合意したことを示す、ほぼ同一の結果を生じた。
図14Gを参照すると、本実施例では、本システムは、データセットの特徴の「特徴重要性」(例えば、特徴重要性査定技法を使用して決定されるような、個別の特徴がデータサンプルの異常性のモデルの決定に寄与する程度)に関する情報を示す、UI画面を表示する。本実施例では、特徴重要性情報は、いくつかの非テキスト特徴が、データサンプル(請求)が異常(不正)であるかどうか(例えば、夜間に生じた事故に関連する請求が事故のタイプほど重要ではないかどうか)を決定する際に他のものよりも重要であることを示すだけではなく、事故の説明(または請求の説明)で使用される具体的用語(例えば、用語「駐車場」、「制限速度」、「フロントガラス」、「高速」、「非」、「カーパーク」、「停止」、「太陽」、および「むち打ち」)が、異常な請求のモデルの識別に有意に寄与することも示す。
上記に説明されるように、異常検出システムのいくつかの実施形態は、異常としてのデータサンプルのモデルの識別への特徴の寄与をスコア化するための新規の特徴影響査定方法を提供する。本特徴影響スコアは、特定の請求の異常スコアのための解説を提供することに役立ち得る。特徴影響査定技法は、異常検出ブループリントのうちのいずれかと連携する。
図14Hを参照すると、本実施例では、本システムは、異常として請求にフラグを付ける二重MAD異常検出モデルに最も寄与する特徴が、(1)請求がユーザの今は時代遅れのルールベースのシステムによって提供されるルールに合致するかどうか、(2)請求者が行った人身傷害請求の数、および(3)請求者の性別であることを示す、UI画面を表示する。
図14Lおよび14Jを参照すると、本実施例では、本システムは、異常検出モデルによって請求に割り当てられた異常スコアの寄与を示す、UI画面を表示する。本実施例では、ユーザは、異常スコアの範囲に関する終点(例えば、0.0~0.053、0.053~0.396、および/または0.396~1.0)を示すことができ、本システムは、規定範囲内の異常スコアを有する請求のそれぞれに割り当てられた異常スコアのための解説を提供することができる。図14Jの実施例では、解説が、高い異常スコアを有する3つの請求(請求ID番号9576、6398、および7642参照)に関して、ならびに低い異常スコアを有する2つの請求(請求ID番号2806および8428参照)に関して、提供される。図14Jの実施例では、本システムは、対応する請求の異常検出スコアを増加させることに寄与するいくつかの因子(1つ以上の「+」記号が先行する解説参照)、および対応する請求の異常検出スコアを減少させることに寄与するいくつかの因子(1つ以上の「-」記号が先行する解説参照)を識別する。
図14Kを参照すると、いくつかの実施形態では、解説は、UIからファイル(例えば、スプレッドシート)にエクスポートされることができる。ユーザ(例えば、詐欺調査員)が、本情報を使用し、特定の請求が異常と見なされる理由への洞察を獲得する、および/または請求者を伴う任意の後続の法的手続きを支援することができる。
図14Lを参照すると、本実施例では、本システムは、ユーザが任意の着目請求に対応するデータを調査することに役立ち得る、異常スコアによってランク付けされる請求を示す、スクロール可能なテーブルを表示する。さらなる分析に関して、請求データは、図14Mに示されるように、ファイル(例えば、スプレッドシート)にエクスポートされることができる。
成果:この場合、異常検出試行は、以下の理由、すなわち、(1)詐欺調査チームが、システムによって提供されるランク付けされたリストが、そのシステムによって提供されるその査定よりも正確であることを確信した、(2)可能性として不正として識別される請求に焦点を当てることによって、保険業者が、数百万ドルを潜在的に節約することができた一方、同時に調査員の作業負荷を増加させなかった、(3)異常な請求が不正な請求と明確な関係を有する、(4)教師なしブループリントが、(提供されるグラウンドトゥルースに従って)約0.87AUCの成功率で不正な請求を識別することができた、(5)新規の洞察およびビジネス知識が、予測解説特徴ならびにテキストブループリントに起因して獲得された、(6)出力の単純性が、ビジネスルールへの容易な変換を可能にした、(7)ユーザが、試行の実行に最小限の関与を有した、および(8)ユーザによるコーディングのため、またはユーザが根本的前処理ステップおよび異常検出アルゴリズムを理解するための要件さえも存在しなかったことにより、成功として評価された。
(実施例2)
IX.B.実施例2:クレジットカード詐欺およびマネーロンダリング
本発明者らは、本明細書に説明される異常検出技法のいくつかの実施形態が、不正なクレジットカード購入およびマネーロンダリングを検出するために使用され得ることを、認識および理解している。従来のアプローチに対して、いくつかの実施形態は、不正なクレジットカード購入およびマネーロンダリングの検出において改良された正確度、感度、および/または特異性を提供する。いくつかの実施形態によって提供される、改良された感度は、金融機関によって支払われる総額を削減し、不正なクレジットカード購入およびマネーロンダリングのコストを回収することによって、かつ付加的な不正購入およびまたはマネーロンダリングスキームを試行しないように悪徳関係者を妨げることによって、関連性がある金融機関の全体的効率を改良することができる。加えて、上記に説明されるように、いくつかの実施形態によって提供される、改良された特異性は、最終的に不正ではないことが決定される取引の調査に費やされる努力を削減することによって、詐欺検出および調査システムの効率を大いに改良することができる。
IX.B.1.背景
保険金請求の調査のように、不正なアクティビティに関して金融取引を評価することへの現代的なアプローチは、通常、ルール合致および人間の専門家の介入の混合を伴う。金融機関は、概して、その独自の詐欺調査員のチームを使用し、機関の社内ルール合致システムによって識別される高リスク取引を調べる。一般に、そのようなルールベースのシステムは、取引の全体を構成するデータではなく、主に、取引エンティティについて把握されていることに焦点を当てる。保険金詐欺検出に関して上記に議論されるように、エンティティへの本焦点は、貴重な情報が欠落し得る。いくつかの実施形態では、本明細書に説明される異常検出技法は、取引エンティティについての利用可能な情報だけではなく、請求において提供される事件の説明および他の情報も分析することによって、より良好な成果を達成する。
不正な保険金請求の検出および不正な取引の検出は、いくつかの方法で類似するが、不正な保険金請求の検出と不正な取引の検出との間の1つの主な違いは、データの量である。クレジットカード取引および他の金融取引の量は、保険金請求の量をはるかに上回る。さらに、金融取引の大部分は、保険金請求と比較して不正ではない。データサンプルの量および不正なデータサンプルの希少性の本差は、複雑性の付加的層を不正な取引の検出に追加する。結果として、クレジットカード詐欺およびマネーロンダリング検出への従来のソリューションは、保険金詐欺検出のためのソリューションと類似する欠点を実証するが、これらの欠点に加えて、クレジットカード詐欺およびマネーロンダリング検出はまた、多数の資格のある金融詐欺専門家が大量の金融取引を評価することも要求する。
異常検出を使用し、不正な取引を識別する、詐欺検出システムのいくつかの実施形態を使用することによって、機関は、より多くの数量(例えば、全て)の取引を評価し、「正常な」取引の概念を確立することができる。これらの洞察は、次いで、機関の現在のルールベースのシステムの中に組み込まれてもよい。これらの洞察を機関の現在のルールベースのシステムの中に組み込むことによって、専門の人間の詐欺調査員は、不正である最も高い確率を有する取引の評価を優先することができる。したがって、異常検出システムを実装することによって、大量の金融取引が、詐欺に関して効率的かつ徹底的に評価されることができる。
IX.B.2.問題文
国連薬物犯罪事務所(United Nations Office on Drugs and Crime)によると、毎年世界的に行われるマネーロンダリングの金額は、世界的GDPの約2~5%、すなわち、約8千億~2兆米ドルである。
ユーザ:本実施例では、ユーザは、マネーロンダリング検出を金融機関に提供することを専門とする金融機関(例えば、銀行、クレジットカード会社等)の部門である。
ビジネス問題:本部門は、以下のマネーロンダリングシナリオの検出に焦点を当てている。
●顧客が、そのクレジットカードを使用して金を使うが、そのクレジットカード請求書に払い過ぎ、払い過ぎに関して金融機関からの現金払い戻しを求める。
●顧客が、取引を相殺することなく商業者から取引のためのクレジットを受領し、受領されたクレジットを使うか、または金融機関からの現金払い戻しを要求するかのいずれかである。
現在のシステム:本部門は、現在、ルールベースのシステムに依拠し、アラートを発生させ、上記のシナリオと一致する潜在的に疑わしいアクティビティを検出する。ルールベースのシステムによって従われるルールは、金額にかかわらず、顧客が金融機関からの払い戻しを要求する度に、システムにアラートをトリガさせる。要求の金額にかかわらず、払い戻し要求に応答してアラートをトリガすることの背後にある論拠は、以下の意図を含む。
●少額払い戻し要求は、金融機関の払い戻し機構を試験する、またはその口座のための正常なパターンとして払い戻し要求を確立しようとする、マネーロンダラであり得る。
●少額払い戻しは、マネーロンダラの支払額および架空商業者クレジットの残余のものであり得る。
本部門の現在のルールベースのシステムによって従われる、本慎重なルールのマイナス面は、不正ではない取引のフラグ付け、および多数の専門マネーロンダリング調査員の必要性であり、それによって、不必要な時間および金を消費する。
IX.B.3.クレジットカード詐欺およびマネーロンダリングの検出へのいくつかの実施形態の適用
本実施例では、本部門の金融取引データに適用される、本明細書に説明される教師なし異常検出技法のいくつかの実施形態の使用による、誤検出異常検出(詐欺検出)率の低減が、グラウンドトゥルース(詐欺対詐欺ではない)が把握される、金融取引データを使用して、評価される。詐欺調査員による詐欺検出システムのいくつかの実施形態の使いやすさもまた、査定される。
分析されるデータは、上記に議論される2つのマネーロンダリングシナリオのうちの1つを順守する履歴的取引のセットである。取引データは、最も複雑なデータを含むようにフィルタ処理されている。具体的には、分析された取引データが、本部門の現在のルールベースのシステムによって評価されるとき、評価は、90%誤検出率を生じさせる。データは、数値特徴、カテゴリ特徴、および取引に関連するテキスト事件記録を含む、混合データタイプを有する。データは、テーブルに編成され、スプレッドシートファイルでエンコードされる。
ユーザは、(例えば、データファイルを表すアイコンを異常検出システムのユーザインターフェース(UI)の中にドラッグすることによって)データを異常検出システムの中にインポートすることによって開始する。
図15Aを参照すると、本実施例では、異常検出システムは、特徴のデータタイプを自動的に識別し、各特徴の値を分析し、各特徴の値を説明する統計を表示する。図15Aの実施例では、UIの第1の列は、特徴の名称(または「参照ID」)を示し、第2の列は、特徴に割り当てられたインデックスを示し、第3の列は、特徴のデータタイプを識別し、第4の列は、特徴毎に、データセットで見出される特徴の一意の値の数を示し、第5の列は、特徴毎に、特徴値が欠落している(データセットに存在しない)データサンプルの数を示し、第6の列は、各数値特徴の平均値を示し、第7の列は、各数値特徴の値の標準偏差を示し、第8の列は、各数値特徴の値の中央値を示す。
図15Bを参照すると、本実施例では、ユーザは、着目特徴(例えば、クレジットスコア特徴)を選択し、特徴の値の分布についてのより詳細な情報を示すUIを視認することができる。図15Bの実施例では、UIは、選択された特徴の値のヒストグラムを示す。表示されるヒストグラムビンの数は、ユーザによって規定されてもよい。加えて、または代替では、本UI画面は、(1)データセット内で頻繁に生じる、選択された特徴の値、(2)選択された特徴の値のテーブル、および/または(3)特徴の値に実施され得る潜在的データ変換を表示してもよい。
図15Cを参照すると、本実施例では、データセットを分析するためにシステムによって使用されるべき異常検出ブループリントが、識別される。例えば、ユーザは、異常検出ブループリントのうちの1つ以上のもの(例えば、全て)を選択してもよい。いくつかの実施形態では、本システムは、好適なデータ前処理動作(例えば、データセットのための最良のタイプのデータ前処理動作)を識別し、オンザフライでデータセットのためのカスタマイズされたブループリントを生成する。
図15Dを参照すると、本実施例では、本システムは、データセットに適用される異常検出ブループリントのそれぞれによって発生されるモデルに関する正確度メトリック(曲線下面積または「AUC」)の値を示す、UI画面を表示する。いくつかの実施形態では、正確度メトリックの値は、モデルの訓練および検証の異なる段階において(例えば、検証後、交差検証後、または抵抗試験において)計算されてもよい。いくつかの実施形態では、本システムは、AUC以外の正確度メトリック(例えば、感度、特異性、誤検出率、未検出率等)を計算および表示してもよい。いくつかの実施形態では、正確度メトリックの値以外の情報が、表示されてもよい。例えば、各特徴の「重要性」または「影響」(例えば、特徴重要性査定技法もしくは特徴影響査定技法を使用して決定されるような、特徴がデータサンプルの異常性のモデルの決定に寄与する程度)が、表示されてもよい。
本実施例では、データセットは、システムによる異常検出モデルのスコア化を促進する、各取引の実際のグラウンドトゥルース(すなわち、取引がマネーロンダリングと関連付けられる、またはマネーロンダリングと関連付けられないと決定されたかどうか)を示す。図15Dを参照すると、本実施例では、結果の成功(約0.85曲線下面積または「AUC」)は、「異常」としての取引のシステムの分類が、不正であるものとしての取引のステータスと強く相関することを示す。
図15Eを参照すると、本実施例では、本システムは、データセットに適用される最も正確な異常検出ブループリントによって発生されるモデル(教師あり学習(XGB)ブループリントを用いた異常検出)に関する種々の性能メトリックの値を示す、UI画面を表示する。図15Eに示されるように、データセットは、2,000件の取引を含んだ。2,000件の取引のうちの1,794件の取引は、不正ではない取引であることが把握された。2,000件の取引のうちの206件の取引は、不正な取引であることが把握された。異常検出モデルは、1,567件の正未検出の不正な取引、227件の誤検出の不正な取引、69件の未検出の不正な取引、および137件の正検出取引を識別した。システムによって計算される性能メトリックは、F1スコア、正検出率(感度)、誤検出率(脱落)、正未検出率(特異性)、正の予測値(精度)、負の予測値、正確度、およびマシューの相関係数を含む。特に、異常検出モデルの誤検出率(脱落)は、90%のユーザの現在のルールベースのシステムの誤検出率と比較して、12.65%である。
図15Fを参照すると、本実施例では、本システムは、図15Dの異常検出モデルならびに混成異常検出モデルのための正確度メトリック(曲線下面積または「AUC」)の値を示す、UI画面を表示する。混成異常検出モデルは、複数の異なる異常検出モデルの集合を含む。混成異常検出モデルは、不正な取引を識別するための最小、中間、または最大レベルの異常検出厳密性に設定されることができる。本実施例では、最小、中間、または最大レベルの異常検出厳密性を有する、混成異常検出モデルは全て、根本的モデルが、概して、不正と見なされた取引に関して合意したことを示す、ほぼ同一の正確度メトリックを生じさせた。しかしながら、図15Fに示されるように、本特定のデータセットに関して、最小レベルの異常検出厳密性に設定された混成異常検出モデルは、0.8556AUCを伴う最も正確なモデルであった。
図15Gを参照すると、本実施例では、本システムは、データセットの特徴の「特徴重要性」(例えば、特徴重要性査定技法を使用して決定されるような、個別の特徴がデータサンプルの異常性のモデルの決定に寄与する程度)に関する情報を示す、UI画面を表示する。本実施例では、特徴重要性情報は、いくつかの非テキスト特徴が、データサンプル(取引)が異常(不正)であるかどうか(例えば、顧客の収入が過去90日間に顧客に発行された払い戻しの総数ほど重要ではないかどうか)を決定する際に他のものよりも重要であることを示す。さらに、データセットの中の多くの取引が、データセットのフリーテキスト特徴(例えば、取引毎の事件記録)に関する値と関連付けられないにしても、特徴重要性情報は、事件記録で使用される具体的用語(例えば、用語「支払期間」、「置換」、および「変更」)が、異常な請求のモデルの識別に有意に寄与することを示す。加えて、取引のための事件記録に関する欠落した値(例えば、値なし)もまた、異常な請求のモデルの識別に有意に寄与する。欠落したテキストが異常検出に重要であるという事実は、下記にさらに詳細に議論されるように、データ品質およびデータ漏出へのさらなる調査を正当化する。
上記に説明されるように、異常検出システムのいくつかの実施形態は、異常としてのデータサンプルのモデルの識別への特徴の寄与をスコア化するための新規の特徴影響査定方法を提供する。本特徴影響スコアは、特定の取引の異常スコアのための解説を提供することに役立ち得る。特徴影響査定技法は、異常検出ブループリントのうちのいずれかと連携する。
図15Hを参照すると、本実施例では、本システムは、異常として取引にフラグを付ける特定の異常検出モデルに最も寄与する特徴が、(1)顧客が過去90日間に受領した商業者クレジットの総数、(2)過去90日間に顧客によって使われた合計、および(3)過去90日間の顧客による総支払額を示す、UI画面を表示する。
図15Iを参照すると、本実施例では、本システムは、規定範囲内の異常スコアを有する取引のそれぞれに割り当てられた異常スコアのための解説を提供する。図15Iの実施例では、解説が、高い異常スコアを有する3つの取引(取引ID番号5838、1031、および6409参照)に関して、ならびに低い異常スコアを有する3つの取引(取引ID番号391、9153、および7797参照)に関して、提供される。図15Iの実施例では、本システムは、対応する取引の異常検出スコアを増加させることに寄与するいくつかの因子(1つ以上の「+」記号が先行する解説参照)、および対応する取引の異常検出スコアを減少させることに寄与するいくつかの因子(1つ以上の「-」記号が先行する解説参照)を識別する。例えば、図15Iの実施例では、取引のための欠落した事件記録は、異常ではない(例えば、不正ではない)取引と関連付けられる。欠落した事件記録は、データ品質または漏出問題であり得、本システムは、ユーザに本潜在的問題を警告することができる。
図15Jを参照すると、本実施例では、本システムは、ユーザが任意の着目取引に対応するデータを調査することに役立ち得る、異常スコアによってランク付けされる取引を示す、スクロール可能なテーブルを表示する。
図15Kを参照すると、いくつかの実施形態では、解説は、UIからファイル(例えば、スプレッドシート)にエクスポートされることができる。ユーザ(例えば、専門詐欺調査員)が、本情報を使用し、特定の取引が異常と見なされる理由への洞察を獲得する、および/または取引に従事する顧客を伴う任意の後続の法的手続きを支援することができる。
成果:この場合、異常検出試行は、以下の理由、すなわち、(1)異常検出システムによって提供される異常取引のランク付けされたリストが、金融機関の現在のルールベースのシステムよりも正確であり、より少ない誤検出の不正な取引の識別をもたらした、(2)マネーロンダリングと関連付けられる可能性が最も高いことが異常検出システムによって識別される、具体的取引の評価を優先することによって、金融機関が、数百万ドルを節約することができた一方、そのマネーロンダリング調査員の作業負荷を増加させなかった、(3)異常検出システムによって識別される異常な取引が、不正な請求と明確な関係を有する、(4)データセットに適用される異常検出ブループリントによって発生される教師なし異常検出モデルが、約0.85AUCの成功率で不正な取引を識別した、(5)新規の洞察およびビジネス知識が、異常な取引の識別のために異常検出システムによって提供される解説から獲得され、出力解説の単純性が、ビジネスルールへの洞察のシームレスな変換を可能にした、(6)ユーザが、異常検出システムの自動化に起因して、異常検出プロセスに最小限に関与した、(7)ユーザによるコーディングのため、またはユーザが根本的前処理ステップおよび異常検出アルゴリズムを理解するための要件さえも存在しなかった、(8)ユーザが、そのデータセットでデータ品質および漏出問題を識別することができたことにより、成功として評価された。
(実施例3)
IX.C.実施例3:ネットワークアクセスおよびサイバーセキュリティ
多くの場合、遡及的に不正なネットワークアクセスを検出することは、比較的に単純である。しかしながら、不正なネットワークアクセスが特定の方策に従って前もって生じていない場合において(例えば、不正なネットワークアクセスが「新規」である場合において)、そのような新規の不正なネットワークアクセスは、生じるにつれて検出することが困難であり得る。例えば、いくつかの教師ありモデルは、履歴的ネットワークアクセスが不正であったかどうかを予測することができるが、モデルが十分な訓練および検証に続いて展開される時間までに、不正なネットワークアクセスは、新しい方策に従って生じ始めている場合がある。一般に、いくつかの教師ありモデルは、大多数クラス(例えば、正常なネットワークアクセス)を割り当てることによって、新規のネットワークアクセスデータに基づいて予測を発生させることに対処する。結果として、サイバーセキュリティ専門家が問題を警告される前に、不正なネットワークアクセスのいくつかの事件が存在し得る。
しかしながら、本明細書に開示される異常検出方法のいくつかの実施形態を使用して、新規の不正なネットワークアクセスにおける第1の試行は、「以前に見られていない何らかのもの」として識別されるであろうため、異常としてフラグを付けられ、それによって、サイバーセキュリティ専門家が、最初に現在の侵入を追跡し、停止させ、次いで、将来のそのような侵入を防止するための対策を講じることを可能にする。
X.例示的コンピュータ
いくつかの実施例では、上記に説明される処理の一部のいくつかまたは全ては、パーソナルコンピューティングデバイス上に、1つ以上の集中コンピューティングデバイス上に、もしくは1つ以上のサーバによるクラウドベースの処理を介して、実行されることができる。いくつかの実施例では、いくつかのタイプの処理は、1つのデバイス上で生じ、他のタイプの処理は、別のデバイス上で生じる。いくつかの実施例では、上記に説明されるデータの一部のいくつかまたは全ては、パーソナルコンピューティングデバイス上に、1つ以上の集中コンピューティングデバイス上にホストされるデータ記憶装置内に、もしくはクラウドベースの記憶装置を介して、記憶されることができる。いくつかの実施例では、いくつかのデータは、1つの場所に記憶され、他のデータは、別の場所に記憶される。いくつかの実施例では、量子計算が、使用されることができる。いくつかの実施例では、関数型プログラミング言語が、使用されることができる。いくつかの実施例では、フラッシュベースのメモリ等の電気的メモリが、使用されることができる。
図13は、ある実施形態による、本明細書に(例えば、図1-12に)説明される方法を実装するための例示的コンピュータ1300を図示する。コンピュータ1300は、チップセット1302に結合される、少なくとも1つのプロセッサ1301を含む。チップセット1302は、メモリコントローラハブ1310と、入出力(I/O)コントローラハブ1311とを含む。メモリ1303およびグラフィックスアダプタ1306が、メモリコントローラハブ1310に結合され、ディスプレイ1309が、グラフィックスアダプタ1306に結合される。記憶デバイス1304、入力デバイス1307、およびネットワークアダプタ1308が、I/Oコントローラハブ1311に結合される。コンピュータ1300の他の実施形態は、異なるアーキテクチャを有する。
記憶デバイス1304は、ハードドライブ、コンパクトディスク読取専用メモリ(CD-ROM)、DVD、またはソリッドステートメモリデバイス等の非一過性のコンピュータ可読記憶媒体である。メモリ1303は、プロセッサ1301によって使用される命令およびデータを保持する。入力インターフェース1307は、タッチスクリーンインターフェース、マウス、トラックボール、または他のタイプのポインティングデバイス、キーボード、もしくはそれらのいくつかの組み合わせであり、コンピュータ1300にデータを入力するために使用される。いくつかの実施形態では、コンピュータ1300は、ユーザからのジェスチャを介して、入力インターフェース1307から入力(例えば、コマンド)を受信するように構成されることができる。グラフィックスアダプタ1306は、ディスプレイ1309上に画像および他の情報を表示する。ネットワークアダプタ1308は、コンピュータ1300を1つ以上のコンピュータネットワークに結合する。
コンピュータ1300は、本明細書に説明される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書で使用されるように、用語「モジュール」は、規定機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールが、ハードウェア、ファームウェア、および/またはソフトウェアで実装されることができる。一実施形態では、プログラムモジュールが、記憶デバイス1304上に記憶され、メモリ1303にロードされ、プロセッサ1301によって実行される。
本明細書に説明される方法を実装するために使用されるコンピュータ1300のタイプは、実施形態およびエンティティによって要求される処理能力に応じて、変動し得る。例えば、異常検出システムは、単一のコンピュータ1300、またはサーバファーム内等のネットワークを通して相互と通信する複数のコンピュータ1300内で起動することができる。コンピュータ1300は、グラフィックスアダプタ1306およびディスプレイ1309等の上記に説明されるコンポーネントのうちのいくつかが欠け得る。
XI.付加的考慮
1つ以上の特徴が「フリーテキスト」データタイプを有する、データセットに異常検出を実施するための技法のいくつかの実施形態。本文脈では、「フリーテキスト」は、非構造化テキストを指す。いくつかの実施形態では、「フリーテキスト」特徴に適用可能であるものとして本明細書に説明される同一の技法は、「構造化テキスト」特徴を含む、他の「テキスト」特徴に適用されてもよい。
本発明の実施形態の前述の説明は、例証の目的のために提示されており、包括的であること、または本発明を開示される精密な形態に限定することは意図されない。当業者は、多くの修正および変形例が上記の開示を踏まえて可能であることを理解することができる。
本説明のいくつかの部分は、情報への動作のアルゴリズムおよび象徴的表現の観点から、本発明の実施形態を説明する。これらのアルゴリズム的説明および表現は、その作業の内容を当業者に効果的に伝えるために、データ処理分野の当業者によって一般的に使用される。これらの動作は、機能的、計算的、または論理的に説明されるが、コンピュータプログラムまたは同等の電気回路、マイクロコード、もしくは同等物によって実装されると理解される。
本明細書に説明されるステップ、動作、またはプロセスのうちのいずれかは、単独で、もしくは他のデバイスと組み合わせて、1つ以上のハードウェアもしくはソフトウェアモジュールを伴って実施または実装されることができる。一実施形態では、ソフトウェアモジュールが、説明されるステップ、動作、またはプロセスのうちのいずれかまたは全てを実施するために、コンピュータプロセッサによって実行され得る、コンピュータプログラムコードを含有するコンピュータ可読非一過性媒体を含む、コンピュータプログラム製品を伴って実装される。
実施形態はまた、本明細書の動作を実施するための装置にも関し得る。本装置は、特に、要求される目的のために構築されてもよい、および/またはコンピュータ内に記憶されたコンピュータプログラムによって選択的にアクティブ化もしくは再構成される汎用コンピューティングデバイスを備えてもよい。そのようなコンピュータプログラムは、非一過性の有形コンピュータ可読記憶媒体、またはコンピュータシステムバスに結合され得る電子命令を記憶するために好適な任意のタイプの媒体内に記憶されてもよい。さらに、本明細書で参照される任意のコンピューティングシステムは、単一のプロセッサを含んでもよい、または増加した算出能力のために複数のプロセッサ設計を採用するアーキテクチャであってもよい。
本発明の実施形態はまた、本明細書に説明される算出プロセスによって生産される製品にも関し得る。そのような製品は、算出プロセスに起因する情報を含んでもよく、情報は、非一過性の有形コンピュータ可読記憶媒体上に記憶され、コンピュータプログラム製品の任意の実施形態または本明細書に説明される他のデータの組み合わせを含んでもよい。
本明細書で使用される用語は、主に、可読性および指示目的のために選択されており、発明の主題を区切る、または制限するために選択されていない場合がある。したがって、本発明の範囲は、本詳細な説明によってではなく、むしろ、これに基づいて出願上で発行される任意の請求項によって限定されることが意図される。故に、本発明の実施形態の開示は、本発明の範囲の限定ではなく、例証であることを意図している。
本明細書は、多くの具体的実装詳細を含有するが、これらは、請求され得るものの範囲への限定としてではなく、むしろ、特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本明細書に説明される、ある特徴もまた、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴もまた、複数の実施形態において、別個に、または任意の好適な副次的組み合わせで、実装されることができる。さらに、特徴が、ある組み合わせで作用するものとして上記に説明され、そのようなものとして最初に請求さえされ得るが、請求される組み合わせからの1つ以上の特徴は、ある場合には、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
本主題の特定の実施形態が、説明された。他の実施形態も、以下の請求項の範囲内に該当する。例えば、請求項に記載されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。一実施例として、付随する図面に描写されるプロセスは、望ましい結果を達成するために、示される特定の順序または連続的順序を必ずしも要求するわけではない。ある実装では、マルチタスクおよび並列処理が、有利であり得る。他のステップもしくは段階も、提供されてもよい、またはステップもしくは段階が、説明されるプロセスから排除されてもよい。故に、他の実装も、以下の請求項の範囲内に該当する。

Claims (59)

  1. 異常検出方法であって、
    複数のデータサンプルを備えるデータセットを取得することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられる、ことと、
    前記特徴のそれぞれの個別のデータタイプを識別することと、
    前記特徴のうちの1つ以上のものの個別のデータタイプに基づいて、異常検出ブループリントを自動的に発生させることであって、前記異常検出ブループリントは、異常検出プロシージャをエンコードする機械実行可能モジュールを備え、前記異常検出プロシージャは、複数のタスクを含み、前記タスクのうちの1つ以上のものは、前記データセットのサイズおよび/または前記1つ以上の特徴の個別のデータタイプに基づいて選択される、ことと、
    前記機械実行可能モジュールを実行し、それによって、前記異常検出プロシージャを実施することであって、前記異常検出プロシージャを実施することは、前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することを含む、ことと
    を含む、方法。
  2. 前記1つ以上の特徴は、特定の特徴を含み、前記特定の特徴の識別されたデータタイプは、数値データタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャは、前記数値データタイプを有する前記特定の特徴に関して、前記複数のデータサンプルの個別の値の正規化、標準化、またはridit変換を実施するタスクを含まない、請求項1に記載の方法。
  3. 前記1つ以上の特徴は、特定の特徴を含み、前記特定の特徴のデータタイプは、数値データタイプであり、
    前記複数のデータサンプルは、1つ以上の第1のデータサンプルと、1つ以上の第2のデータサンプルとを含み、前記第1のデータサンプル毎の特定の特徴の個別の値は、欠落しており、前記第2のデータサンプル毎の特定の特徴の個別の値は、欠落しておらず、
    前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、前記第1のデータサンプルのそれぞれの特定の特徴の個別の欠落した値を、前記第2のデータサンプルに関する前記特定の特徴の欠落していない値の中央値と置換することを含む、欠落した値の補定タスクを含む、
    請求項1に記載の方法。
  4. 前記1つ以上の特徴は、特定の特徴を含み、
    前記複数のデータサンプルは、1つ以上のデータサンプルを含み、前記特定の特徴に関する前記個別の値は、欠落しており、
    前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
    新しい特徴を前記特徴のセットに追加し、前記複数のデータサンプル毎に前記新しい特徴の個別の値を決定することであって、前記複数のデータサンプル毎の新しい特徴の個別の値は、前記個別のデータサンプルが前記特定の特徴に関する値が欠落しているかどうかを示す、こと
    を含む特徴工学タスク
    を含む、請求項1に記載の方法。
  5. 前記複数のデータサンプルはそれぞれ、標識の個別の値とさらに関連付けられ、
    前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクはさらに、
    前記複数のデータサンプル毎に個別の異常スコアを取得することであって、データサンプル毎の個別の異常スコアは、前記データサンプルが異常である、予測される程度を示す、ことと、
    前記異常スコアに基づいて、前記複数のデータサンプルから前記異常データサンプルのセットを識別することと
    を含み、
    前記方法はさらに、
    前記複数のデータサンプル毎に、前記個別の異常スコアまたは個別の異常分類と前記標識の個別の値との間の相関を決定することと、
    前記相関が閾値相関未満であることに応答して、前記複数のデータサンプルから前記異常データサンプルのセットを除去することと、
    そうでなければ、前記相関が少なくとも前記閾値相関であることに応答して、前記複数のデータサンプルの中の前記異常データサンプルのセットを留保することと
    含む、請求項1に記載の方法。
  6. 前記1つ以上の特徴は、特定の特徴を含み、前記特定の特徴のデータタイプは、カテゴリデータタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
    前記複数のデータサンプル毎に、前記カテゴリデータタイプを有する前記特定の特徴の個別の値を、前記複数のデータサンプルの中の前記特定の特徴の個別の値の発生の個別の頻度と置換すること
    を含む特徴工学タスク
    を含む、請求項1に記載の方法。
  7. 前記1つ以上の特徴は、1つ以上の特定の特徴を含み、前記1つ以上の特定の特徴のデータタイプは、フリーテキストデータタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
    前記複数のデータサンプルに関する前記フリーテキストデータタイプを有する前記1つ以上の特定の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別することと、
    サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記フリーテキストデータタイプを有する前記1つ以上の特定の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
    を含む特徴工学タスク
    を含む、請求項1に記載の方法。
  8. 前記特徴工学タスクはさらに、
    前記特徴のセットの中の前記1つ以上の特定の特徴を工学的特徴と置換することと、
    前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記サンプル用語行列の行に設定することと
    を含む、請求項7に記載の方法。
  9. 前記組み合わせられたフリーテキストコーパス内の一意の用語の数は、5,000を上回り、前記組み合わせられたフリーテキストコーパス内で最も頻繁に生じる前記複数の用語の中の一意の用語の数は、5,000であり、前記サンプル用語行列の列の数は、5,000である、請求項8に記載の方法。
  10. 前記特徴工学タスクはさらに、
    前記サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
    前記特徴のセットの中の1つ以上の特定の特徴を工学的特徴と置換することと、
    前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
    を含む、請求項7に記載の方法。
  11. 前記1つ以上の特徴は、1つ以上の特定の特徴を含み、前記1つ以上の特定の特徴のそれぞれのデータタイプは、フリーテキストデータタイプであり、前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクは、
    前記フリーテキストデータタイプを有する前記1つ以上の特定の特徴毎に、
    前記複数のデータサンプルに関して、前記個別の特定の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語を識別することと、
    サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記個別の特定の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
    を含む特徴工学タスク
    を含む、請求項1に記載の方法。
  12. 前記特徴工学タスクはさらに、
    前記フリーテキストデータタイプを有する前記1つ以上の特定のそれぞれに対応するサンプル用語行列毎に、
    前記サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
    前記特徴のセットの中の個別の特定の特徴を個別の工学的特徴と置換することと、
    前記複数のデータサンプル毎に、前記個別の工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
    請求項11に記載の方法。
  13. 前記データセットのサイズを識別することをさらに含み、前記異常検出ブループリントの発生はさらに、前記データセットのサイズに基づき、前記異常データサンプルのセットは、異常検出プロセスを使用して識別され、前記異常検出プロセスは、少なくとも部分的に、前記データセットの中のデータサンプルの数および/または前記データセットの記憶サイズに基づいて、異常選択プロセスの群から選択される、請求項1に記載の方法。
  14. 前記データセットの中のデータサンプルの数は、第1のサンプル数閾値未満であり、前記データセットの記憶サイズは、記憶サイズ閾値未満であり、前記異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差(MAD)プロセス、1クラスサポートベクトルマシン(SVM)プロセス、局所外れ値因子(LOF)プロセス、およびマハラノビス距離プロセスから成る、請求項13に記載の方法。
  15. 前記データセットの中のデータサンプルの数は、第1のサンプル数閾値を上回り、第2のサンプル数閾値未満であり、前記データセットの記憶サイズは、記憶サイズ閾値未満であり、前記異常選択プロセスの群は、隔離フォレストプロセス、二重中央値絶対偏差(MAD)プロセス、およびマハラノビス距離プロセスから成る、請求項13に記載の方法。
  16. (1)前記データセットの中のデータサンプルの数は、第1のサンプル数閾値および第2のサンプル数閾値を上回り、または(2)前記データセットの記憶サイズは、記憶サイズ閾値を上回り、前記異常選択プロセスの群は、二重中央値絶対偏差(MAD)プロセスおよびマハラノビス距離プロセスから成る、請求項13に記載の方法。
  17. 前記異常データサンプルのセットを識別することは、
    教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定することと、
    前記複数のデータサンプルの標識の個別の値として、前記異常スコアを前記データセットに追加し、それによって、標識データセットを発生させることと、
    教師あり異常検出モデルを前記標識データセットに適用し、前記異常データサンプルのセットを識別することと
    を含む、請求項1に記載の方法。
  18. 前記複数のデータサンプルのサブセットを前記異常データサンプルのセットとして識別することは、
    教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定すること
    を含み、
    前記異常データサンプルのセットは、最大の異常スコアを有する前記複数のデータサンプルの割合を備える、
    請求項1に記載の方法。
  19. 前記異常検出ブループリントに対応する前記異常検出プロシージャのタスクはさらに、
    前記異常データサンプルの識別されたセットに基づいて、標識の個別の値を前記複数のデータサンプルのそれぞれに割り当てることであって、各データサンプルに割り当てられる前記標識の個別の値は、前記個別のデータサンプルが異常であるかどうかを示す、ことと、
    前記標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、前記データサンプルと関連付けられる前記特徴の値に基づいて、データサンプルが異常であるかどうかを推論することと
    を含む、請求項18に記載の方法。
  20. 異常検出方法であって、
    複数のデータサンプルを備えるデータセットを取得することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられ、前記特徴のセットは、少なくとも、フリーテキストデータタイプを有する第1の特徴と、非テキストデータタイプを有する第2の特徴とを備える、ことと、
    少なくとも部分的に、前記複数のデータサンプルのそれぞれの第1および第2の特徴に関する前記個別の値に基づいて、前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することと
    を含む、方法。
  21. 前記方法はさらに、
    前記複数のデータサンプルに関する前記フリーテキストデータタイプを有する前記1つ以上の特定の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる、複数の用語を識別することと、
    サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記フリーテキストデータタイプを有する前記少なくとも第1の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
    を含む、請求項20に記載の方法。
  22. 前記方法はさらに、
    前記特徴のセットの中の前記少なくとも第1の特徴を工学的特徴と置換することと、
    前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記サンプル用語行列の行に設定することと
    を含む、請求項21に記載の方法。
  23. 前記組み合わせられたフリーテキストコーパス内の一意の用語の数は、5,000を上回り、前記組み合わせられたフリーテキストコーパス内で最も頻繁に生じる前記複数の用語の中の一意の用語の数は、5,000であり、前記サンプル用語行列の列の数は、5,000である、請求項22に記載の方法。
  24. 前記方法はさらに、
    前記サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
    前記少なくとも第1の特徴を工学的特徴と置換することと、
    前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
    を含む、請求項21に記載の方法。
  25. 前記方法はさらに、
    前記フリーテキストデータタイプを有する前記少なくとも第1の特徴に関して、
    前記複数のデータサンプルに関して、前記第1の特徴に関する前記値を備える組み合わせられたフリーテキストコーパス内で最も頻繁に生じる複数の用語を識別することと、
    サンプル用語行列を発生させることであって、前記サンプル用語行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応し、前記サンプル用語行列の各列は、最も頻繁に生じる前記複数の用語の中の個別の用語に対応し、前記サンプル用語行列の各要素は、前記要素の列に対応する前記用語が、前記第1の特徴の値内で、前記要素の行に対応する前記データサンプルの中に生じるかどうかを示す、ことと
    を含む、請求項20に記載の方法。
  26. 前記方法はさらに、
    前記フリーテキストデータタイプを有する前記少なくとも第1の特徴のうちの各特徴に対応するサンプル用語行列毎に、
    前記サンプル用語行列に特異値分解(SVD)を実施することによって、コンパクトな行列を発生させることであって、前記コンパクトな行列内の列の数量は、前記サンプル用語行列内の列の数量未満であり、前記コンパクトな行列の各行は、前記複数のデータサンプルの中の個別のデータサンプルに対応する、ことと、
    前記特徴を工学的特徴と置換することと、
    前記複数のデータサンプル毎に、前記工学的特徴の個別の値を、前記個別のデータサンプルに対応する前記コンパクトな行列の行に設定することと
    を含む、請求項25に記載の方法。
  27. 前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することは、
    教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定することと、
    前記複数のデータサンプルの標識の個別の値として、前記異常スコアを前記データセットに追加し、それによって、標識データセットを発生させることと、
    教師あり異常検出モデルを前記標識データセットに適用し、前記異常データサンプルのセットを識別することと
    を含む、請求項20に記載の方法。
  28. 前記複数のデータサンプルのサブセットを異常データサンプルのセットとして識別することは、
    教師なし異常検出プロセスによって、前記複数のデータサンプル毎に、前記個別のデータサンプルが異常である程度を示す個別の異常スコアを決定すること
    を含み、
    前記異常データサンプルのセットは、最大の異常スコアを有する前記複数のデータサンプルの割合を備える、
    請求項20に記載の方法。
  29. 前記方法はさらに、
    前記異常データサンプルの識別されたセットに基づいて、標識の個別の値を前記複数のデータサンプルのそれぞれに割り当てることであって、各データサンプルに割り当てられる前記標識の個別の値は、前記個別のデータサンプルが異常であるかどうかを示す、ことと、
    前記標識データサンプルを訓練データとして使用して、教師あり異常検出モデルを訓練し、前記データサンプルと関連付けられる前記特徴の値に基づいて、データサンプルが異常であるかどうかを推論することと
    を含む、請求項28に記載の方法。
  30. 異常検出方法であって、
    複数の異なるソースから、データサンプルに関する個別の異常スコアを取得することであって、前記異常スコアはそれぞれ、前記データサンプルが前記個別のソースによって異常であると予測される個別の程度を示す、ことと、
    前記データサンプルの異常性の識別のための異常検出厳密性のレベルを識別することであって、前記異常検出厳密性のレベルは、最大厳密性または最小厳密性を備える、ことと、
    前記異常検出厳密性の識別されたレベルが最小厳密性であることに応答して、
    前記異常スコアのうちの少なくとも1つが第1の閾値異常スコアを上回ることに応答して、前記データサンプルを異常データサンプルとして識別することと、
    そうでなければ、前記異常スコアのうちのいずれも前記第1の閾値異常スコアを上回らないことに応答して、前記データサンプルを非異常データサンプルとして識別することと、
    そうでなければ、前記異常検出厳密性の識別されたレベルが最大厳密性であることに応答して、
    前記異常スコアのうちの少なくとも1つが第2の閾値異常スコア未満であることに応答して、前記データサンプルを非異常データサンプルとして識別することと、
    そうでなければ、前記異常スコアの全てが前記第2の閾値異常スコアを上回ることに応答して、前記データサンプルを異常データサンプルとして識別することと
    を含む、方法。
  31. 前記異常検出厳密性のレベルを識別することは、ユーザから前記異常検出厳密性のレベルのインジケーションを受信することを含む、請求項30に記載の方法。
  32. 前記複数の異なるソースはそれぞれ、個別の異常検出プロセスまたは異常検出モデルである、請求項30に記載の方法。
  33. 異常分析方法であって、
    複数のデータサンプル毎に個別の異常スコアを取得することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられ、データサンプル毎の個別の異常スコアは、前記データサンプルが異常である程度を示す、ことと、
    前記異常スコアに基づいて、前記複数のデータサンプルから異常データサンプルのセットを識別することと、
    前記異常データサンプルのセットに関して前記異常スコアの総和を決定することであって、前記総和は、ベース総和である、ことと、
    前記特徴のセットの中の特徴毎に、
    前記異常データサンプル毎に前記特徴の個別の値を調節し、前記データサンプルの異常性の査定への前記特徴の影響を中和し、それによって、更新された異常データサンプルを発生させることと、
    前記更新された異常データサンプル毎に個別の異常スコアを決定することと、
    前記更新された異常データサンプルに関して前記異常スコアの総和を決定することであって、前記総和は、特徴総和である、ことと、
    前記ベース総和と前記特徴総和との間の差を決定することであって、前記差は、異常としての前記データサンプルのセットの識別への前記特徴の値の寄与を表す、ことと、
    前記特徴に関する前記決定された差に基づいて、異常としての前記データサンプルのセットの識別に最も寄与する1つ以上の特徴を識別することと
    を含む、方法。
  34. 複数のデータサンプル毎に個別の異常スコアを取得することは、異常検出モデルから前記複数のデータサンプル毎に前記個別の異常スコアを受信することを含み、前記更新されたデータサンプル毎に異常スコアを決定することは、前記異常検出モデルによって、前記更新されたデータサンプル毎に前記異常スコアを決定することを含む、請求項33に記載の方法。
  35. 前記異常データサンプルのセットは、最大の異常スコアを有する前記複数のデータサンプルの割合を備え、前記複数のデータサンプルの割合は、予期される外れ値割合を備える、請求項33に記載の方法。
  36. 前記予期される外れ値割合は、10%を含む、請求項35に記載の方法。
  37. 前記異常データサンプル毎に前記特徴の個別の値を調節し、前記データサンプルの異常性の査定への前記特徴の影響を中和することは、前記異常データサンプル毎の特徴の個別の値を一定値と置換することを含み、
    前記方法はさらに、前記異常データサンプルに関する前記特徴の値に基づいて、前記一定値を決定することを含む、
    請求項33に記載の方法。
  38. 前記一定値を決定することは、
    前記特徴のデータタイプを決定することと、
    前記特徴のデータタイプが数値であることを決定することに応答して、前記異常データサンプル毎の特徴の個別の値を、前記異常データサンプルに関する前記特徴の値の中央値と置換することと、
    そうでなければ、前記特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、前記異常データサンプル毎の個別の特徴の値を、前記異常データサンプルの中で最高頻度において生じる前記特徴の値と置換することと
    を含む、請求項37に記載の方法。
  39. 前記特徴のセットの中の特徴毎に、前記ベース総和と前記個別の特徴総和との間の正規化された差を決定することをさらに含み、
    異常としての前記データサンプルの識別に最も寄与する前記特徴は、前記特徴に関する正規化された差に基づいて識別される、
    請求項33に記載の方法。
  40. 前記差に基づいて、前記特徴のセットの中の前記特徴をランク付けすることをさらに含み、より高いランキングは、異常としての前記データサンプルのセットの識別への前記特徴のさらなる寄与を示す、請求項33に記載の方法。
  41. 前記複数のデータサンプルは、第1の時点と関連付けられる第1の複数のデータサンプルであり、前記異常データサンプルのセットは、異常データサンプルの第1のセットであり、前記第1の複数のデータサンプルに関する前記異常スコアは、第1の異常スコアであり、第2の複数のデータサンプルは、前記第1の時点の後の第2の時点と関連付けられ、前記方法はさらに、
    前記第2の複数のデータサンプル毎に個別の第2の異常スコアを取得することであって、前記第2の複数のデータサンプルはそれぞれ、前記特徴のセットに関する個別の値と関連付けられる、ことと、
    前記第2の異常スコアに基づいて、前記第2の複数のデータサンプルから異常データサンプルの第2のセットを識別することと、
    閾値異常スコアを上回る個別の第1の異常スコアを有する前記異常データサンプルの第1のセットのうちのデータサンプルの第1の数量を決定することと、
    前記閾値異常スコアを上回る個別の第2の異常スコアを有する前記異常データサンプルの第2のセットのうちのデータサンプルの第2の数量を決定することと、
    前記データサンプルの第1の数量と第2の数量との間の数量差を決定することと、
    前記数量差の絶対値が閾値差を上回ることに応答して、前記第1および第2の異常スコアが取得された異常検出モデルを更新することと関連付けられる1つ以上のアクションを実施することと
    を含む、請求項33に記載の方法。
  42. 前記異常検出モデルを更新することと関連付けられる前記1つ以上のアクションは、メッセージを前記異常検出モデルのユーザに提供することを含み、前記メッセージは、前記異常検出モデルが更新されることを推奨する、請求項41に記載の方法。
  43. 前記異常検出モデルを更新することと関連付けられる前記1つ以上のアクションは、前記第2の時点と関連付けられる前記第2の複数のデータサンプルに基づいて、新しい異常検出モデルを発生させることを含む、請求項41に記載の方法。
  44. 前記第1の複数のデータサンプルおよび前記第2の複数のデータサンプルは、同一のエンティティと関連付けられる、請求項41に記載の方法。
  45. 前記第1の複数のデータサンプルおよび前記第2の複数のデータサンプルは、異なるエンティティと関連付けられる、請求項41に記載の方法。
  46. 異常としての前記データサンプルの識別に最も寄与するものとして識別される前記特徴に基づいて、将来の異常データサンプルを識別するためのビジネスルールを決定することをさらに含む、請求項33に記載の方法。
  47. 教師あり機械学習プロセスのための特徴工学方法であって、前記方法は、
    教師なし異常検出モデルによって、複数のデータサンプル毎に個別の異常スコアを決定することであって、前記複数のデータサンプルはそれぞれ、特徴のセットに関する個別の値と関連付けられ、データサンプル毎の個別の異常スコアは、前記データサンプルが異常である予測される程度を示す、ことと、
    新しい特徴を前記特徴のセットに追加することであって、データサンプル毎の新しい特徴の個別の値は、各データサンプルの個別の異常スコアに基づき、それによって、更新された複数のデータサンプルを発生させることと、
    (1)第1の機械学習モデルを訓練し、他の更新された複数のデータサンプル毎の特徴のセットの個別の値に基づいて、別の更新された複数のデータサンプル毎に標識の個別の値を予測することであって、前記更新された複数のデータサンプルはそれぞれ、前記標識に関する個別の値とさらに関連付けられ、前記第1の機械学習モデルを訓練することは、訓練データおよび/または検証データとして前記更新された複数のデータサンプルを使用する教師あり機械学習プロセスを使用して、前記第1の機械学習モデルを訓練することを含む、こと、または
    (2)第2の機械学習モデルを使用し、前記複数の更新されたデータサンプル毎に前記標識の個別の値を予測することと
    を含む、方法。
  48. 教師あり機械学習プロセスのためのデータ前処理方法であって、前記方法は、
    教師あり機械学習モデルを訓練するための複数の訓練データサンプル毎に個別の異常スコアを取得することであって、前記複数の訓練データサンプルはそれぞれ、特徴のセットに関する個別の値および標識の個別の値と関連付けられ、訓練データサンプル毎の個別の異常スコアは、前記データサンプルが異常である予測される程度を示す、ことと、
    前記異常スコアに基づいて、前記複数の訓練データサンプルから異常訓練データサンプルのセットを識別することと、
    前記複数の訓練データサンプル毎に、前記個別の異常スコアまたは個別の異常分類と前記標識の個別の値との間の相関を決定することと、
    前記相関が閾値相関未満であることに応答して、前記教師あり機械学習モデルを訓練するための前記複数の訓練データサンプルから前記異常訓練データサンプルのセットを除去することと、
    そうでなければ、前記相関が少なくとも前記閾値相関であることに応答して、前記教師あり機械学習モデルを訓練するための前記複数の訓練データサンプルの中の前記異常訓練データサンプルのセットを留保することと
    を含む、方法。
  49. 複数の訓練データサンプル毎に個別の異常スコアを取得することは、異常検出モデルから前記複数の訓練データサンプル毎に前記個別の異常スコアを受信することを含む、請求項48に記載の方法。
  50. 前記異常検出モデルは、教師なし機械学習モデルである、請求項49に記載の方法。
  51. 前記異常訓練データサンプルのセットは、最大の異常スコアを有する前記複数の訓練データサンプルの割合を備え、前記複数の訓練データサンプルの割合は、予期される外れ値割合を備える、請求項48に記載の方法。
  52. 前記予期される外れ値割合は、10%を含む、請求項51に記載の方法。
  53. 前記相関が閾値相関未満であることに応答して、前記方法はさらに、
    前記異常訓練データサンプルのセットに関して前記異常スコアの総和を決定することであって、前記総和は、ベース総和である、ことと、
    前記特徴のセットの中の特徴毎に、
    前記異常訓練データサンプル毎に前記特徴の個別の値を調節し、前記訓練データサンプルの異常性の査定への前記特徴の影響を中和し、それによって、更新された異常訓練データサンプルを発生させることと、
    前記更新された異常訓練データサンプル毎に個別の異常スコアを決定することと、
    前記更新された異常訓練データサンプルに関して前記異常スコアの総和を決定することであって、前記総和は、特徴総和である、ことと、
    前記ベース総和と前記特徴総和との間の差を決定することであって、前記差は、異常としての前記訓練データサンプルのセットの識別への前記特徴の値の寄与を表す、ことと、
    前記特徴に関する前記決定された差に基づいて、異常としての前記訓練データサンプルのセットの識別に最も寄与する1つ以上の特徴を識別することと
    を含む、請求項48に記載の方法。
  54. メッセージをユーザに提供することをさらに含み、前記メッセージは、異常としての前記訓練データサンプルのセットの識別に最も寄与する前記1つ以上の特徴を示す、請求項53に記載の方法。
  55. 前記更新された異常訓練データサンプル毎に異常スコアを決定することは、前記複数の訓練データサンプル毎に前記個別の異常スコアを決定するために使用された異常検出モデルによって、前記更新された異常訓練データサンプル毎に前記異常スコアを決定することを含む、請求項53に記載の方法。
  56. 前記異常訓練データサンプル毎に前記特徴の個別の値を調節し、前記訓練データサンプルの異常性の査定への前記特徴の影響を中和することは、前記異常訓練データサンプル毎の特徴の個別の値を一定値と置換することを含み、
    前記方法はさらに、前記異常訓練データサンプルに関する前記特徴の値に基づいて、前記一定値を決定することを含む、
    請求項53に記載の方法。
  57. 前記一定値を決定することは、
    前記特徴のデータタイプを決定することと、
    前記特徴のデータタイプが数値であることを決定することに応答して、前記異常訓練データサンプル毎の特徴の個別の値を、前記異常訓練データサンプルに関する前記特徴の値の中央値と置換することと、
    そうでなければ、前記特徴のデータタイプがカテゴリまたはフリーテキストであることを決定することに応答して、前記異常訓練データサンプル毎の個別の特徴の値を、前記異常訓練データサンプルの中で最高頻度において生じる前記特徴の値と置換することと
    を含む、請求項56に記載の方法。
  58. 前記特徴のセットの中の特徴毎に、前記ベース総和と前記個別の特徴総和との間の正規化された差を決定することをさらに含み、
    異常としての前記訓練データサンプルの識別に最も寄与する前記特徴は、前記特徴に関する正規化された差に基づいて識別される、
    請求項53に記載の方法。
  59. 前記差に基づいて、前記特徴のセットの中の前記特徴をランク付けすることをさらに含み、より高いランキングは、異常としての前記訓練データサンプルのセットの識別への前記特徴のさらなる寄与を示す、請求項53に記載の方法。
JP2021533631A 2018-12-13 2019-12-13 データ異常を検出および解釈するための方法、ならびに関連システムおよびデバイス Pending JP2022514509A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862779172P 2018-12-13 2018-12-13
US62/779,172 2018-12-13
PCT/US2019/066381 WO2020124037A1 (en) 2018-12-13 2019-12-13 Methods for detecting and interpreting data anomalies, and related systems and devices

Publications (1)

Publication Number Publication Date
JP2022514509A true JP2022514509A (ja) 2022-02-14

Family

ID=69160432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021533631A Pending JP2022514509A (ja) 2018-12-13 2019-12-13 データ異常を検出および解釈するための方法、ならびに関連システムおよびデバイス

Country Status (7)

Country Link
US (1) US11386075B2 (ja)
EP (1) EP3895096A1 (ja)
JP (1) JP2022514509A (ja)
KR (1) KR20210145126A (ja)
AU (1) AU2019398468A1 (ja)
SG (1) SG11202106314VA (ja)
WO (1) WO2020124037A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102437098B1 (ko) * 2022-04-15 2022-08-25 이찬영 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치
WO2024013939A1 (ja) * 2022-07-14 2024-01-18 富士通株式会社 機械学習プログラム、機械学習方法、および情報処理装置

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334832B2 (en) * 2018-10-03 2022-05-17 Verint Americas Inc. Risk assessment using Poisson Shelves
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11455638B2 (en) 2019-09-04 2022-09-27 Walmart Apollo, Llc Methods and apparatus for payment fraud detection
US11941502B2 (en) * 2019-09-04 2024-03-26 Optum Services (Ireland) Limited Manifold-anomaly detection with axis parallel
US11494775B2 (en) * 2019-09-04 2022-11-08 Walmart Apollo, Llc Methods and apparatus for payment fraud detection
WO2021084286A1 (en) * 2019-10-30 2021-05-06 Citrix Systems, Inc. Root cause analysis in multivariate unsupervised anomaly detection
US11716338B2 (en) * 2019-11-26 2023-08-01 Tweenznet Ltd. System and method for determining a file-access pattern and detecting ransomware attacks in at least one computer network
US11580554B2 (en) * 2019-12-27 2023-02-14 LendingClub Bank, National Association Multi-layered credit card with transaction-dependent source selection
US11394774B2 (en) * 2020-02-10 2022-07-19 Subash Sundaresan System and method of certification for incremental training of machine learning models at edge devices in a peer to peer network
US20230067026A1 (en) 2020-02-17 2023-03-02 DataRobot, Inc. Automated data analytics methods for non-tabular data, and related systems and apparatus
US11501239B2 (en) * 2020-03-18 2022-11-15 International Business Machines Corporation Metric specific machine learning model improvement through metric specific outlier removal
US11568316B2 (en) * 2020-04-07 2023-01-31 Mandiant, Inc. Churn-aware machine learning for cybersecurity threat detection
CN111737382A (zh) * 2020-05-15 2020-10-02 百度在线网络技术(北京)有限公司 地理位置点的排序方法、训练排序模型的方法及对应装置
EP4133346A1 (en) * 2020-06-30 2023-02-15 Siemens Aktiengesellschaft Providing an alarm relating to anomaly scores assigned to input data method and system
US11620578B2 (en) * 2020-07-08 2023-04-04 Vmware, Inc. Unsupervised anomaly detection via supervised methods
US20220027916A1 (en) * 2020-07-23 2022-01-27 Socure, Inc. Self Learning Machine Learning Pipeline for Enabling Binary Decision Making
CN111857097B (zh) * 2020-07-27 2023-10-31 中国南方电网有限责任公司超高压输电公司昆明局 基于词频与逆文档频率的工控***异常诊断信息识别方法
US20220092612A1 (en) * 2020-09-21 2022-03-24 Larsen & Toubro Infotech Ltd System and method for automatically detecting anomaly present within dataset(s)
US20220107847A1 (en) * 2020-10-07 2022-04-07 Microsoft Technology Licensing, Llc Computing system for determining quality of virtual machine telemetry data
US11824877B2 (en) 2020-11-10 2023-11-21 Armis Security Ltd. System and method for anomaly detection interpretation
US20220180179A1 (en) * 2020-12-09 2022-06-09 International Business Machines Corporation Detecting anomalies in computer systems based on forecasted timeseries
US20220197679A1 (en) * 2020-12-18 2022-06-23 Advanced Micro Devices (Shanghai) Co., Ltd. Modifying device status in single virtual function mode
KR20220091291A (ko) * 2020-12-23 2022-06-30 주식회사 엘지에너지솔루션 머신러닝 학습 장치 및 그것의 동작 방법
US11823366B2 (en) * 2020-12-28 2023-11-21 Wipro Limited System and method for anomaly detection using images
US20220222570A1 (en) * 2021-01-12 2022-07-14 Optum Technology, Inc. Column classification machine learning models
US20220300903A1 (en) * 2021-03-19 2022-09-22 The Toronto-Dominion Bank System and method for dynamically predicting fraud using machine learning
US20220309387A1 (en) * 2021-03-26 2022-09-29 Capital One Services, Llc Computer-based systems for metadata-based anomaly detection and methods of use thereof
US11544715B2 (en) 2021-04-12 2023-01-03 Socure, Inc. Self learning machine learning transaction scores adjustment via normalization thereof accounting for underlying transaction score bases
US11647052B2 (en) 2021-04-22 2023-05-09 Netskope, Inc. Synthetic request injection to retrieve expired metadata for cloud policy enforcement
US11184403B1 (en) 2021-04-23 2021-11-23 Netskope, Inc. Synthetic request injection to generate metadata at points of presence for cloud security enforcement
US11336698B1 (en) 2021-04-22 2022-05-17 Netskope, Inc. Synthetic request injection for cloud policy enforcement
US11303647B1 (en) 2021-04-22 2022-04-12 Netskope, Inc. Synthetic request injection to disambiguate bypassed login events for cloud policy enforcement
US11178188B1 (en) 2021-04-22 2021-11-16 Netskope, Inc. Synthetic request injection to generate metadata for cloud policy enforcement
US11190550B1 (en) 2021-04-22 2021-11-30 Netskope, Inc. Synthetic request injection to improve object security posture for cloud security enforcement
US11271973B1 (en) 2021-04-23 2022-03-08 Netskope, Inc. Synthetic request injection to retrieve object metadata for cloud policy enforcement
US11271972B1 (en) * 2021-04-23 2022-03-08 Netskope, Inc. Data flow logic for synthetic request injection for cloud security enforcement
US20220366316A1 (en) * 2021-05-12 2022-11-17 Capital One Services, Llc Ensemble machine learning for anomaly detection
US20220382833A1 (en) * 2021-05-13 2022-12-01 Airhop Communications, Inc. Methods and apparatus for automatic anomaly detection
US11991201B2 (en) * 2021-06-18 2024-05-21 Microsoft Technology Licensing, Llc Likelihood assessment for security incident alerts
US11922357B2 (en) * 2021-10-07 2024-03-05 Charter Communications Operating, Llc System and method for identifying and handling data quality anomalies
CN114285604A (zh) * 2021-12-07 2022-04-05 集美大学 一种网络访问行为检测方法及装置
US11580842B1 (en) * 2021-12-11 2023-02-14 Adapdix Corporation Real-time alert management using machine learning
WO2023126078A1 (en) * 2021-12-28 2023-07-06 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for data anomaly detection
US12019616B2 (en) * 2022-01-24 2024-06-25 Dell Products L.P. Evaluation framework for anomaly detection using aggregated time-series signals
US11943260B2 (en) 2022-02-02 2024-03-26 Netskope, Inc. Synthetic request injection to retrieve metadata for cloud policy enforcement
EP4243341A1 (en) * 2022-03-10 2023-09-13 Vocalink Limited Method and device for monitoring of network events
US20230385849A1 (en) * 2022-05-31 2023-11-30 Mastercard International Incorporated Identification of fraudulent healthcare providers through multipronged ai modeling
US20240193137A1 (en) * 2022-12-08 2024-06-13 CollectiveHealth, Inc. Data quality evaluation system
CN116304641B (zh) * 2023-05-15 2023-09-15 山东省计算中心(国家超级计算济南中心) 基于参考点搜索和特征交互的异常检测解释方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225343B1 (en) * 2002-01-25 2007-05-29 The Trustees Of Columbia University In The City Of New York System and methods for adaptive model generation for detecting intrusions in computer systems
US7668843B2 (en) * 2004-12-22 2010-02-23 Regents Of The University Of Minnesota Identification of anomalous data records
US10140576B2 (en) * 2014-08-10 2018-11-27 Palo Alto Research Center Incorporated Computer-implemented system and method for detecting anomalies using sample-based rule identification
US10579938B2 (en) * 2016-01-20 2020-03-03 Fair Isaac Corporation Real time autonomous archetype outlier analytics
US11416751B2 (en) 2017-03-31 2022-08-16 H2O.Ai Inc. Time-based ensemble machine learning model
US20180293462A1 (en) 2017-03-31 2018-10-11 H2O.Ai Inc. Embedded predictive machine learning models
US11475372B2 (en) 2018-03-26 2022-10-18 H2O.Ai Inc. Evolved machine learning models
US11922283B2 (en) 2018-04-20 2024-03-05 H2O.Ai Inc. Model interpretation
US11386342B2 (en) 2018-04-20 2022-07-12 H2O.Ai Inc. Model interpretation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102437098B1 (ko) * 2022-04-15 2022-08-25 이찬영 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치
WO2024013939A1 (ja) * 2022-07-14 2024-01-18 富士通株式会社 機械学習プログラム、機械学習方法、および情報処理装置

Also Published As

Publication number Publication date
WO2020124037A1 (en) 2020-06-18
US20210103580A1 (en) 2021-04-08
US11386075B2 (en) 2022-07-12
KR20210145126A (ko) 2021-12-01
EP3895096A1 (en) 2021-10-20
AU2019398468A1 (en) 2021-07-15
SG11202106314VA (en) 2021-07-29

Similar Documents

Publication Publication Date Title
JP2022514509A (ja) データ異常を検出および解釈するための方法、ならびに関連システムおよびデバイス
US11449931B2 (en) Dynamic business governance based on events
Carneiro et al. A data mining based system for credit-card fraud detection in e-tail
Cao et al. A two‐stage Bayesian network model for corporate bankruptcy prediction
Ogwueleka et al. Neural network and classification approach in identifying customer behavior in the banking sector: A case study of an international bank
US20240211967A1 (en) Adaptive transaction processing system
JP2022508106A (ja) マネーロンダリング防止分析のためのシステムおよび方法
US20170026396A1 (en) Systems and methods for identifying information related to payment card breaches
Singh et al. Data‐driven auditing: A predictive modeling approach to fraud detection and classification
US20160012544A1 (en) Insurance claim validation and anomaly detection based on modus operandi analysis
US20140303993A1 (en) Systems and methods for identifying fraud in transactions committed by a cohort of fraudsters
US11783338B2 (en) Systems and methods for outlier detection of transactions
US20230177512A1 (en) Generating a fraud prediction utilizing a fraud-prediction machine-learning model
Brennan A comprehensive survey of methods for overcoming the class imbalance problem in fraud detection
CN111179051A (zh) 金融目标客户确定方法、装置及电子设备
Harjai et al. Detecting fraudulent insurance claims using random forests and synthetic minority oversampling technique
US20230085575A1 (en) Latent feature based model bias mitigation in artificial intelligence systems
Yoo et al. Medicare fraud detection using graph analysis: a comparative study of machine learning and graph neural networks
WO2020018392A1 (en) Monitoring and controlling continuous stochastic processes based on events in time series data
CN113610625A (zh) 逾期风险警示方法、装置及电子设备
Lee et al. Application of machine learning in credit risk scorecard
Shihembetsa Use of artificial intelligence algorithms to enhance fraud detection in the Banking Industry
Yeh et al. Predicting failure of P2P lending platforms through machine learning: The case in China
US11741486B1 (en) Machine learning technique with targeted feature sets for categorical anomaly detection
WO2024013939A1 (ja) 機械学習プログラム、機械学習方法、および情報処理装置