JP3832281B2 - 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム - Google Patents

外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム Download PDF

Info

Publication number
JP3832281B2
JP3832281B2 JP2001194077A JP2001194077A JP3832281B2 JP 3832281 B2 JP3832281 B2 JP 3832281B2 JP 2001194077 A JP2001194077 A JP 2001194077A JP 2001194077 A JP2001194077 A JP 2001194077A JP 3832281 B2 JP3832281 B2 JP 3832281B2
Authority
JP
Japan
Prior art keywords
data
outlier
rule
abnormal
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001194077A
Other languages
English (en)
Other versions
JP2003005970A (ja
Inventor
健司 山西
純一 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001194077A priority Critical patent/JP3832281B2/ja
Priority to US10/179,374 priority patent/US7353214B2/en
Publication of JP2003005970A publication Critical patent/JP2003005970A/ja
Application granted granted Critical
Publication of JP3832281B2 publication Critical patent/JP3832281B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、統計的外れ値検出、不正検出、詐欺検出を行なう外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラムに関する。
【0002】
【従来の技術】
機械学習技術を用いた不正検出(異常検出、詐欺検出)の方式には大きく分けて、教師あり学習に基づく方式と、教師無し学習に基づく方式との二つがある。
【0003】
教師あり学習に基づく方式には、T. FawcettとF. Provostによる方式(Combining data mining and machine learning for effective fraud detection, Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:14-19, 1997)や、J. Ryan, M. Lin, R. Miikkulainenによる方式(Intrusion detection with neural networks, Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:72-77, 1997)が知られている。
【0004】
教師あり学習では、予め異常(不正)であるか否かを示すラベル(教師情報)の付いた「ラベル付きデータ」が必要となる。教師あり学習では、こうした過去のデータに基づいて異常データの特徴を学習し、異常なデータの検出に用いる。例えば、不正検出においては、過去に行われた不正のデータを検査対象のデータと照合して不正検出を行なうのであり、またこのため新たな特徴をもった不正の検出には対応できない。
【0005】
また、教師無し学習では、このようなラベル付きデータを必要とせずに、異常データ(不正データ)の検出を行なう。教師無し学習による方式は、統計的外れ値検出の考え方を利用して行なう方式であり、P. BurgeとJ. Shawe-Taylorによる方式(Detecting cellular fraud using adaptive prototypes, in Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:9-13, 1997)や、K. Yamanishi et. al.による方式(“On-line Unsupervised Oultlier Detection Using Finite Mixtures with Discounting Learning Algorithms”, in Proc. of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, pp:320-324, 2000)が知られている。
【0006】
ここで、統計的外れ値検出とは、データセットにおいて、大多数のデータが従う確率分布から外れたデータ(発生しにくいデータ)を、「統計的外れ値」としてそのデータを異常(不正)と同定する技術である。特に、上記に引用した方式においては、データセット中の各データについて、それぞれがどの程度外れているかを示すスコアを算出するという特徴がある。
【0007】
【発明が解決しようとする課題】
しかし、上述した従来の技術では、以下に述べるような問題点があった。
【0008】
第1に、従来の教師あり学習による方式は、不正や異常の特徴を提示できるところに特徴があるが、前述のように、実際にはラベル付きデータを予め十分に揃えるのは難しく、よって精度良い学習が行えず不正検出の効率が悪くなるという問題点がある。
【0009】
第2に、従来の教師無し学習による方式は、未知の異常や不正にも対応できるという特徴があるが、検出された異常なデータがどんな理由で異常と判定されたのかが示されないという問題点がある。
【0010】
更に、構造的な異常がおきた場合や組織的に不正が行われた場合には、異常データがまとまりを持って発生することになり、このような場合に従来の教師無し学習による方式では、異常を検出することができないという問題点がある。
【0011】
ここで、異常データがまとまりを持って発生した場合においても、その発生した異常の特徴を明示的に捉えて自動的にルール化し、またそのルールを用いて異常なデータの検出ができるのであれば、異常なデータを検出する効率の飛躍的な改善が実現できる。
【0012】
本発明の目的は、上記従来技術の欠点を解決し、異常(不正)であるか否かがわかっていないデータ(教師無しデータ)を基に、異常データを特徴付けるルールを自動生成する外れ値ルール生成装置、更にその機能によって得られたルールを用いて効率良く異常なデータを検出する外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラムを提供することである。
【0013】
【課題を解決するための手段】
上記目的を達成するため本発明の外れ値ルール生成装置は、データ集合内にある異常なデータを特徴付けるルールを生成する外れ値ルール生成装置において、前記データが異常であることの度合いを示す外れ値度を算出する外れ値度計算部と、前記外れ値度計算部によって算出された前記外れ値度に基づいて、データ集合からデータをサンプリングすることにより、異常なデータであるか否かを示すラベルを各前記データに付与するサンプリング部と、前記サンプリング部によって前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータの集合を特徴付けるルールを生成する教師あり学習部とを備えることを特徴とする。
【0014】
請求項2の本発明の外れ値検出装置は、データ集合内にある異常なデータを検出する外れ値検出装置において、
前記異常なデータを特徴付けるルールの集合を保持する外れ値ルール保存部と、前記外れ値ルール保存部が保持する前記ルールに基づいて、前記データ集合の各データが、異常なデータであるか否かを判定するフィルタリング部と、前記フィルタリング部において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を算出する外れ値度計算部と、前記外れ値度計算部により前記外れ値度を算出された各前記データに対して、算出された前記外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを付与するサンプリング部と、前記サンプリング部によって前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存部で保持する前記ルールの集合に前記新たなルールを追加する教師あり学習部とを備えることを特徴とする。
【0015】
請求項3の本発明の外れ値検出装置は、前記データ集合に対して、前記保持するルールに基づいて異常なデータを判定し、異常であると判定されたデータを出力し、前記異常ではないと判定された各データに基づいて異常なデータを特徴付ける新たなルールを生成し、前記保持するルールを更新する一連の処理を、前回の前記処理において異常ではないと判定されたデータのみを処理対象として、前記処理を予め定められた回数繰り返し実行することを特徴とする。
【0016】
請求項4の本発明の外れ値検出装置は、順次入力されるデータ列に対し,データ列中の異常なデータを検出する外れ値検出装置において,前記異常なデータを特徴付けるルールの集合を保持する外れ値ルール保存部と、前記外れ値ルール保存部で保持する前記ルールに基づいて、前記順次入力される検査対象のデータ列が異常なデータであるか否かを判定するフィルタリング部と、前記フィルタリング部において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を算出する外れ値度計算部と、前記外れ値度計算部により前記外れ値度が算出された前記データが予め定められた一定量以上蓄積された場合に、算出された前記外れ値度に基づいて異常なデータであるか否かを示すラベルを各前記データに付与しながら前記データをサンプリングするサンプリング部と、前記ラベルの付与された各前記データの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存部で保持するルールの集合に追加する教師あり学習部とを備えることを特徴とする。
【0017】
請求項5の本発明の外れ値検出装置は、前記外れ値ルール保存部で保持する前記ルールを、利用者の操作により編集するための外れ値ルール編集部を備えることを特徴とする。
【0018】
請求項6の本発明の外れ値ルール生成方法は、計算手段を備えるコンピュータ上で、データ集合内にある異常なデータを検出又は調査するために用いられる、前記異常なデータを特徴付けるルールを生成する外れ値ルール生成方法において、前記データが異常であることの度合いを示す外れ値度を前記計算手段によって算出する外れ値度計算ステップと、前記外れ値度計算ステップで算出された前記外れ値度に基づいて、入力されたデータ集合からデータを前記計算手段によってサンプリングすることにより、異常なデータであるか否かを示すラベルを各前記データに付与するサンプリングステップと、前記サンプリングステップで前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータの集合を特徴付けるルールを前記計算手段によって生成する教師あり学習ステップとを備えることを特徴とする。
【0019】
請求項7の本発明の外れ値検出方法は、計算手段及び記憶手段を備えるコンピュータを制御することにより、データ集合内にある異常なデータを検出する外れ値検出方法において、前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存ステップと、前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールに基づいて、入力された前記データ集合の各データが、異常なデータであるか否かを前記計算手段で判定するフィルタリングステップと、前記フィルタリングステップにおいて異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算ステップと、前記外れ値度計算ステップで前記外れ値度を算出された各前記データに対して、算出された前記外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを前記計算手段で付与するサンプリングステップと、前記サンプリングステップで前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールの集合に前記新たなルールを前記計算手段で追加する教師あり学習ステップとを備えることを特徴とする。
【0020】
請求項8の本発明の外れ値検出方法は、入力された前記データ集合に対して、前記記憶手段に保持する前記ルールに基づいて異常なデータを前記計算手段で判定し、異常であると判定されたデータを出力し、前記異常ではないと判定された各データに基づいて異常なデータを特徴付ける新たなルールを前記計算手段で生成し、前記記憶手段に保持する前記ルールを更新する一連の処理を、前回の前記処理において異常ではないと判定されたデータのみを処理対象として、前記処理を予め定められた回数繰り返し実行することを特徴とする。
【0021】
請求項9の本発明の外れ値検出方法は、計算手段及び記憶手段を備えるコンピュータを制御することにより、順次入力されるデータ列に対し、データ列中の異常なデータを検出する外れ値検出方法において,前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存ステップと、前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールに基づいて、前記順次入力される検査対象のデータ列が異常なデータであるか否かを前記計算手段で判定するフィルタリングステップと、前記フィルタリングステップにおいて異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算ステップと、前記外れ値度計算ステップで前記外れ値度が算出された前記データが予め定められた一定量以上蓄積された場合に、算出された前記外れ値度に基づいて異常なデータであるか否かを示すラベルを各前記データに付与しながら前記データを前記計算手段でサンプリングするサンプリングステップと、前記ラベルの付与された各前記データの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存ステップで前記記憶手段に保持するルールの集合に前記計算手段で追加する教師あり学習ステップとを備えることを特徴とする。
【0022】
請求項10の本発明の外れ値検出方法は、前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールを、利用者の操作により前記計算手段で編集するための外れ値ルール編集ステップを備えることを特徴とする。
【0023】
請求項11の本発明の外れ値ルール生成プログラムは、計算手段を備えるコンピュータを制御することにより、データ集合内にある異常なデータを検出又は調査するために用いられる、前記異常なデータを特徴付けるルールを生成する外れ値ルール生成プログラムであって、前記コンピュータに、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算処理と、前記外れ値度計算処理で算出された前記外れ値度に基づいて、入力されたデータ集合からデータを前記計算手段によってサンプリングすることにより、異常なデータであるか否かを示すラベルを各前記データに付与するサンプリング処理と、前記サンプリング処理で前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータの集合を特徴付けるルールを前記計算手段で生成する教師あり学習処理とを実行させることを特徴とする。
【0024】
請求項12の本発明の外れ値検出プログラムは、計算手段及び記憶手段を備えるコンピュータを制御することにより、データ集合内にある異常なデータを検出する外れ値検出プログラムであって、前記コンピュータに、前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存処理と、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールに基づいて、入力された前記データ集合の各データが、異常なデータであるか否かを前記計算手段で判定するフィルタリング処理と、前記フィルタリング処理において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算処理と、前記外れ値度計算処理で前記外れ値度を算出された各前記データに対して、算出された前記外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを前記計算手段で付与するサンプリング処理と、前記サンプリング処理で前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールの集合に前記計算手段で前記新たなルールを追加する教師あり学習処理とを実行させることを特徴とする。
【0025】
請求項13の本発明の外れ値検出プログラムは、前記コンピュータに、入力された前記データ集合に対して、前記記憶手段に保持する前記ルールに基づいて異常なデータを前記計算手段で判定し、異常であると判定されたデータを出力し、前記異常ではないと判定された各データに基づいて異常なデータを特徴付ける新たなルールを前記計算手段で生成し、前記記憶手段に保持する前記ルールを更新する一連の処理を、前回の前記処理において異常ではないと判定されたデータのみを処理対象として、前記処理を予め定められた回数繰り返し実行させることを特徴とする。
【0026】
請求項14の本発明の外れ値検出プログラムは、計算手段及び記憶手段を備えるコンピュータを制御することにより、順次入力されるデータ列に対し,データ列中の異常なデータを検出する外れ値検出プログラムであって、前記コンピュータに、前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存処理と、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールに基づいて、前記順次入力される検査対象のデータ列が異常なデータであるか否かを前記計算手段で判定するフィルタリング処理と、前記フィルタリング処理において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算処理と、前記外れ値度計算処理で前記外れ値度が算出された前記データが予め定められた一定量以上蓄積された場合に、算出された前記外れ値度に基づいて異常なデータであるか否かを示すラベルを各前記データに付与しながら前記データを前記計算手段でサンプリングするサンプリング処理と、前記ラベルの付与された各前記データの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールの集合に前記計算手段で追加する教師あり学習処理とを実行させることを特徴とする。
【0027】
請求項15の本発明の外れ値検出プログラムは、前記コンピュータに、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールを、利用者の操作により前記計算手段で編集するための外れ値ルール編集処理を実行させることを特徴とする。
【0040】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0041】
なお、以下の説明においては、データセット中の1つのデータを、x=(x1,x2,…,xd)∈D=X1×…×Xdで表す。このDを、ドメインと呼ぶ。各xi(i=1,2,…,d)は、例えば連続値であったり、テキスト等の離散値であるものとする。このデータの集合U={x1,x2,…,xn}を、データセットと呼ぶ。
【0042】
図1は、本発明の第1の実施の形態による外れ値ルール生成装置100の構成を示すブロック図である。本実施の形態の外れ値ルール生成装置100は、入力されるデータ集合に対して、データ集合内にある異常なデータを特徴付けるルールを生成する装置である。ここで生成されるルールは、データの異常を検出する他の装置等において、データ集合内にある異常なデータの検出に用いることや、異常なデータの傾向を調査する等のために用いることができる。
【0043】
図1を参照すると、本実施の形態の外れ値ルール生成装置100は、調査対象のデータ集合の各データに対して、その異常であることの度合いを示す外れ値度を算出する外れ値度計算部12と、算出された外れ値度に基づいて各データをサンプリングし、異常なデータであるか否かを示すラベルを各データに付与するサンプリング部13と、ラベルの付与された各データの集合に基づく教師あり学習により、異常なデータを特徴付けるルールを生成する教師あり学習部14を備えている。
【0044】
外れ値度計算部12は、各データの不正(異常)であることの度合いを示す外れ値度を、計算し出力する。つまり、外れ値度計算部12は、データセットからデータを順次読み込みながら、各データxtに対してその外れ値度stを計算し、V={y1,y2,…,yn}(yt=(xt、st))として出力する。
【0045】
次に、サンプリング部13について説明する。サンプリング部13は、外れ値度計算部12が出力する各データの外れ値度に基づいて、各データに対し、そのデータが異常(不正)であるか否かを示すラベルを付加し、教師情報付きデータの集合を生成する。つまり、サンプリング部13は、スコア付けされた(外れ値度の算出された)データセットV={y1,y2,…,yn}から、教師情報付きデータセットを生成するのであり、このとき、スコアの高い(不正である度合いの高い)データには‘positive’というラベルを、そうでないデータには‘negative’のラベルを付ける。
【0046】
サンプリング部13によるラベル付け処理の具体例を、以下に示す。まず、このデータセットV={y1,y2,…,yn}中のスコアの高い上位q%のデータを取り出して、‘positive’のラベルを付け、上位q%に入らないデータの中からランダムサンプリングを行って、全体のk*q%のデータ(kは正の数。例えばk=3等とする)を取り出し‘negative’のラベルを付ける。新たに生成されたデータをzi=(xt(i)、lt(i))と書く。ここに、ltはラベルである。ここにt(i)は、整数i(1≦i≦m≦n)から{1,2,…,n}への一対一関数とする。ここで得られた新たなデータセットを、W={z1,z2,…,zm}と記す。
【0047】
また他の方法として、例えば、「上位q%」という取り出し方法ではなく、ある閾値を設けその閾値より高いスコアのデータに‘positive’のラベルを付け、その閾値より低いデータからランダムサンプリングで取り出して‘negative’のラベルを付ける方法も考えられる。
【0048】
次に、教師あり学習部14について説明する。教師あり学習部14は、サンプリング部13が出力する教師情報付きデータから、ルールを生成する。ここで、(教師あり学習部14が実行する処理である)教師あり学習とは、教師情報付きデータセットW={z1,z2,…,zm}を入力として、関数f:D→{positive、negative}を出力することを指す。あるいは、教師情報付きデータセットW={z1,z2,…,zm}を入力として、データxが与えられたもとでの、l∈{positive、negative}の条件付き確率分布fを出力することを指す。ここで、Wはトレーニングデータと呼ばれる。
【0049】
例えば、x1が身長(cm)を表すデータであるとして、Wの中のデータについて、x1≧300の場合には不正である可能性が高いためpositiveのラベルを付け、それ以外のデータにはnegativeのラベルを付けてている場合を考える。この場合には、Wの入力に対して、
If x1≧300 then positive
を示す関数fが出力されることが求められる。
【0050】
また実際には、トレーニングデータに隠されている規則性がもっと複雑であったり、データの集合にノイズが含まれていたりするため、学習はこのような簡明なものではない。そのように複雑な状況において、効率的に学習を行なうための様々な手法が提案されている。また、それらの手法によって、規則の表現の仕方にも、上記のような論理式を用いたり、ニューラルネットワークを用いたりする等、様々な方法がある。例えば、K. Yamanishiによる確率的決定リストの学習方式(K. Yamanishi, “A Learning Criterion for Stochastic Rules”Machine Learning, vol.9, pp. 165-203, 1992.)では、
If x1≧300 then positive with probability 0.9
Else if x2=男性 then positive with probability 0.8
Else negative with probability 0.2
という形の表現を用いている。こうした表現系は、確率決定リストと呼ばれるが、これは条件付き確率分布を指定する。
【0051】
なお以下、与えられたデータx∈Dについて、それがpositiveであるのかnegativeであるのかを判定することを、「フィルタリング」(データxのフィルタリング)と呼ぶこととする。対応f:D∋x→{positive、negative}が一意に値の定められた関数の場合には、そのf自身をフィルタリングとして用いることができるが、fが条件付き確率分布の場合には、
If f(positive|x)≧pth then x is positive
という判定基準を用いる。ここに、pthは利用者が与える閾値であるが、通常はpth=0.5と指定する。
【0052】
図2は、本実施の形態による外れ値ルール生成の動作を説明するためのフローチャートである。図2を参照すると、本実施の形態の外れ値ルール生成装置100は、以下の順序で動作する。
【0053】
まず、入力U={x1,x2,…,xn}が、外れ値度計算部12に渡される(ステップ201)。
【0054】
外れ値度計算部12は、入力中の各データxtについて、各データの不正(異常)であることの度合いを示す外れ値度のスコアstを計算し、スコア付きデータV={y1,y2,…,yn}を作成し、サンプリング部13に入力する(ステップ202)。
【0055】
サンプリング部13は、スコア付きデータVからスコア上位の予め定められた割合のデータを取り出して、これにpositiveのラベルを付けpositiveデータとする。更にV中のスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出し、これにnegativeのラベルを付けてnegativeデータとする。このようにしてpositive、negativeのラベルを付けて、教師情報付きデータW={z1,z2,…,zm}を作成し、教師あり学習部14に入力する(ステップ203)。
【0056】
教師あり学習部14は、入力された教師情報付きデータWに基づいて、異常なデータを特徴付けるルールを求め出力する(ステップ204)。
【0057】
以上説明したように、本実施の形態の外れ値ルール生成装置100によれば、異常(不正)であるか否かがわかっていないデータ(教師無しデータ)を基に、異常データを特徴付けるルールを効率良く自動生成することができる。
【0058】
図3は、本発明の第2の実施の形態による外れ値検出装置200の構成を示すブロック図である。本実施の形態の外れ値検出装置200は、データ集合内にある異常なデータを検出する装置である。また、本実施の形態の外れ値検出装置200は、第1の実施の形態において説明した外れ値ルール生成装置100の機能を備えて、入力されるデータ集合内にある異常なデータを特徴付けるルールを自動生成し、かつそのルールに基づいて異常なデータの検出を実行することを特徴とする。
【0059】
図3を参照すると、本実施の形態の外れ値検出装置200は、第1の実施の形態の外れ値ルール生成装置100の構成に含まれる外れ値度計算部22、サンプリング部23、教師あり学習部24に加えて、異常なデータを特徴付けるルールの集合を保持する外れ値ルール保存部25と、その保持されているルールに基づいて、入力されるデータ集合の各データが異常なデータであるか否かを判定するフィルタリング部21を備えている。
【0060】
本実施の形態の外れ値検出装置200では、外れ値度計算部22は、フィルタリング部21において異常なデータではないと判定された各データに対して、異常であることの度合いを示す外れ値度を算出する。
【0061】
そして、サンプリング部23は、外れ値度計算部22により外れ値度の算出された各データを、算出された外れ値度に基づいてサンプリングし、異常なデータであるか否かを示すラベルを付与する。
【0062】
そして、教師あり学習部24は、ラベルの付与されたデータの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成する。そして、外れ値ルール保存部25に対して、その保持する異常なデータを特徴付けるルールの集合に、この新規に生成されたルールを追加して格納する。
【0063】
これにより、外れ値ルール保存部25に保持されているルールが適切に更新され、その更新されたルールを用いることにより、より高い精度で異常なデータを検出できるようになる。
【0064】
またこのため、本実施の形態の外れ値検出装置200は、例えば、検査対象のデータ集合に対し上記の処理を予め定められた回数繰り返し実行して、外れ値ルール保存部25に保持されているルールを異常なデータを高い精度で検出することのできるものに更新した後に、フィルタリング部21がそのルールに基づいて検査対象のデータ集合から異常のあるデータを検出することにより、異常のあるデータの、効率の良い精度の高い検出が実現できる。
【0065】
次に、本実施の形態の外れ値検出装置200の動作を説明する。図4は、本実施の形態による外れ値検出の動作の一実施例を説明するためのフローチャートである。
【0066】
図4を参照すると、まず、検査対象のデータ集合に対してステップ402〜406の処理を予め定められた回数繰り返し実行し、外れ値ルール保存部25に保持されているルールを繰り返し更新する。すなわち、外れ値検出装置200は、i回目の繰り返し(イタレーション)において以下の順序で動作する。
【0067】
入力Uが、外部からの入力により又は外れ値度計算部22からフィルタリング部21に渡される(ステップ401)。フィルタリング部21は、外れ値ルール保存部25に蓄えられている外れ値ルールの集合Riに基づいて、入力されたデータを判定し、外れ値と判定されたデータを「外れ値1」として出力し、外れ値でないと判定されたデータ集合U’を、外れ値度計算部22に送りこむ(ステップ402)。
【0068】
外れ値度計算部22は、フィルタリング部21において外れ値でないと判定された各データxtについて、スコアstを計算し、スコア付きデータのセットViを作成し、サンプリング部23に入力する(ステップ403)。同時に、予め定められた閾値以上の外れ値度をもったデータを「外れ値2」として出力し、そうでないと判定されたデータ集合をU”として、保持する。
【0069】
サンプリング部23は、予め定められた割合のスコア上位データをViから取り出しpositiveデータとし、更にVi中のスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出しnegativeデータとして、教師情報付きデータWiを作成し、教師あり学習部24に入力する(ステップ404)。
【0070】
教師あり学習部24は、入力された教師情報付きデータに基づいて、異常なデータを特徴付けるルール群を求め、その中から予め決められた基準に従うか、あるいは利用者の選択によりルールを取捨選択して、外れ値ルール保存部25に送りこむ(ステップ405)。
【0071】
外れ値ルール保存部25は、送りこまれたルールを、ルールの集合Riに加えて、新たなルールの集合Ri+1を生成し保存する(ステップ406)。
【0072】
外れ値検出装置200は、以上のステップ402〜406の処理を予め定められた回数繰り返し実行することにより、外れ値ルール保存部25に保持されているルールが、異常なデータをより高い精度で検出することのできるものに繰り返し更新され(ステップ407)、そして、その更新されたルールを用いて最終的なフィルタリングを実行し異常のあるデータを検出する(ステップ408)。
【0073】
また、例えば、上述のルールの生成と更新の一連の処理を繰り返し実行する方式において、前回処理においてフィルタリング部21において異常の検出されたデータを、次回以降の処理の対象から除外する等の方式も効果的である。つまりこの場合、毎回、フィルタリング部21において異常の検出されたデータはその異常が検出された時点で出力することとし、これまでに異常の検出されなかった残りのデータにより、ルールの生成と更新の処理及び次回以降の一連の処理を行なうのである。
【0074】
図5は、本実施の形態の外れ値検出装置200の上述の実施例の動作を説明するためのフローチャートである。
【0075】
図5を参照すると、まず、検査対象のデータ集合に対してステップ502〜508の処理を予め定められた回数繰り返し実行する。すなわち、外れ値検出装置200は、i回目の繰り返し(イタレーション)において以下の順序で動作する。
【0076】
入力Uiが、外部からの入力により又は外れ値度計算部22からフィルタリング部21に渡される(ステップ501)。フィルタリング部21は、外れ値ルール保存部25に蓄えられている外れ値ルールの集合Riに基づいて、入力されたデータを判定し、外れ値と判定されたデータを「外れ値1」として出力し、外れ値でないと判定されたデータ集合Ui’を、外れ値度計算部22に送りこむ(ステップ502、503)。
【0077】
ここで、もし予め定められた回数が終了しているのならば処理を終了し、まだ終了していない場合にはステップ505以下の処理に進む(ステップ504)。
【0078】
外れ値度計算部22は、フィルタリング部21において外れ値でないと判定された各データxtについて、スコアstを計算し、スコア付きデータのセットViを作成し、サンプリング部23に入力する。同時に、予め定められた閾値以上の外れ値度をもったデータを「外れ値2」として出力し、そうでないと判定されたデータ集合をUi+1として、保持する(ステップ505)。
【0079】
サンプリング部23は、予め定められた割合のスコア上位データをViから取り出しpositiveデータとし、更にVi中のスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出しnegativeデータとして、教師情報付きデータWiを作成し、教師あり学習部24に入力する(ステップ506)。
【0080】
教師あり学習部24は、入力された教師情報付きデータに基づいて、異常なデータを特徴付けるルール群を求め、その中から予め決められた基準に従うか、あるいは利用者の選択によりルールを取捨選択して、外れ値ルール保存部25に送りこむ(ステップ507)。
【0081】
外れ値ルール保存部25は、送りこまれたルールを、ルールの集合Riに加えて、新たなルールの集合Ri+1を生成し保存する(ステップ508)。
【0082】
外れ値検出装置200は、以上のステップ502〜508の処理を予め定められた回数繰り返し実行することにより、処理対象のデータUiから異常なデータを順次取り出しながら検出することができ、また処理を繰り返す度に、保持されているルールRiをより良いルールに更新していくことができる。
【0083】
以上説明したように、本実施の形態の外れ値検出装置200によれば、異常であるか否かがわかっていないデータを基に、異常データを特徴付けるルールを自動生成し、かつその自動生成されたルールを用いて効率良く異常なデータを検出することができる。
【0084】
図6は、本発明の第3の実施の形態による外れ値検出装置200aの構成を示すブロック図である。図6を参照すると、本実施の形態の外れ値検出装置200aは、第2の実施の形態の外れ値検出装置200の構成に加えて、外れ値ルール保存部35に保存されている外れ値ルールを利用者が操作して編集するための外れ値ルール編集部36を、新たに備えている。
【0085】
本実施の形態では、この外れ値ルール編集部36を用いることにより、外れ値ルール保存部35に保存されている外れ値ルールを、必要に応じて利用者が自由に編集することができる。
【0086】
次に、本実施の形態の外れ値検出装置200aの動作を説明する。図7は、本実施の形態による外れ値検出の動作の一実施例を説明するためのフローチャートである。
【0087】
図7を参照すると、まず第2の実施の形態と同様に、検査対象のデータ集合に対してステップ602〜607の処理を予め定められた回数繰り返し実行し、外れ値ルール保存部35に保持されているルールを繰り返し更新する。すなわち、外れ値検出装置200aは、i回目の繰り返し(イタレーション)において以下の順序で動作する。
【0088】
入力Uが、外部からの入力により又は外れ値度計算部32からフィルタリング部31に渡される(ステップ601)。フィルタリング部31は、外れ値ルール保存部35に蓄えられている外れ値ルールの集合Riに基づいて、入力されたデータを判定し、外れ値と判定されたデータを「外れ値1」として出力し、外れ値でないと判定されたデータ集合U’を、外れ値度計算部32に送りこむ(ステップ602)。
【0089】
外れ値度計算部32は、フィルタリング部31において外れ値でないと判定された各データxtについて、スコアstを計算し、スコア付きデータのセットViを作成し、サンプリング部33に入力する(ステップ603)。同時に、予め定められた閾値以上の外れ値度をもったデータを「外れ値2」として出力し、そうでないと判定されたデータ集合をU”として、保持する。
【0090】
サンプリング部33は、予め定められた割合のスコア上位データをViから取り出しpositiveデータとし、更にVi中のスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出しnegativeデータとして、教師情報付きデータWiを作成し、教師あり学習部34に入力する(ステップ604)。
【0091】
教師あり学習部34は、入力された教師情報付きデータに基づいて、異常なデータを特徴付けるルール群を求め、その中から予め決められた基準に従うか、あるいは利用者の選択によりルールを取捨選択して、外れ値ルール保存部35に送りこむ(ステップ605)。
【0092】
外れ値ルール保存部35は、送りこまれたルールを、ルールの集合Riに加えて、新たなルールの集合Ri+1を生成し保存する(ステップ606)。また、利用者は、必要があれば外れ値ルール編集部36を用いて、外れ値ルール保存部35に保存されている外れ値ルールを編集することができる(ステップ607)。
【0093】
外れ値検出装置200aは、以上のステップ602〜607の処理を予め定められた回数繰り返し実行することにより、外れ値ルール保存部35に保持されているルールが、異常なデータをより高い精度で検出することのできるものに繰り返し更新される(ステップ608)。そして、その更新され(また更に、利用者により編集された)ルールを用いて、最終的なフィルタリングを実行し異常のあるデータを検出する(ステップ609)。
【0094】
ここで、図7の実施例においては、利用者がルールを編集する処理を、ステップ602〜607の繰り返し処理の末尾のステップ607としているが、本実施の形態の外れ値検出の処理はこれに限るものではない。例えば、利用者がルールを編集する処理を、ステップ602〜607の繰り返し処理の終了や、その繰り返し処理のループ中のステップ605とステップ606との間等において実行する形態も同様に可能である。
【0095】
また、例えば、上述のルールの生成と更新の一連の処理を繰り返し実行する方式において、前回処理においてフィルタリング部21において異常の検出されたデータを、次回以降の処理の対象から除外する等の方式も効果的である。つまりこの場合、毎回、フィルタリング部21において異常の検出されたデータはその異常が検出された時点で出力することとし、これまでに異常の検出されなかった残りのデータにより、ルールの生成と更新の処理及び次回以降の一連の処理を行なうのである。
【0096】
図8は、本実施の形態の外れ値検出装置200aの上述の実施例の動作を説明するためのフローチャートである。
【0097】
図8を参照すると、まず、検査対象のデータ集合に対してステップ702〜708の処理を予め定められた回数繰り返し実行する。すなわち、外れ値検出装置200aは、i回目の繰り返し(イタレーション)において以下の順序で動作する。
【0098】
入力Uiが、外部からの入力により又は外れ値度計算部32からフィルタリング部31に渡される(ステップ701)。フィルタリング部31は、外れ値ルール保存部35に蓄えられている外れ値ルールの集合Riに基づいて、入力されたデータを判定し、外れ値と判定されたデータを「外れ値1」として出力し、外れ値でないと判定されたデータ集合Ui’を、外れ値度計算部32に送りこむ(ステップ702、703)。
【0099】
ここで、もし予め定められた回数が終了しているのならば処理を終了し、まだ終了していない場合にはステップ705以下の処理に進む(ステップ704)。
【0100】
外れ値度計算部32は、フィルタリング部31において外れ値でないと判定された各データxtについて、スコアstを計算し、スコア付きデータのセットViを作成し、サンプリング部33に入力する。同時に、予め定められた閾値以上の外れ値度をもったデータを「外れ値2」として出力し、そうでないと判定されたデータ集合をUi+1として、保持する(ステップ705)。
【0101】
サンプリング部33は、予め定められた割合のスコア上位データをViから取り出しpositiveデータとし、更にVi中のスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出しnegativeデータとして、教師情報付きデータWiを作成し、教師あり学習部34に入力する(ステップ706)。
【0102】
教師あり学習部34は、入力された教師情報付きデータに基づいて、異常なデータを特徴付けるルール群を求め、その中から予め決められた基準に従うか、あるいは利用者の選択によりルールを取捨選択して、外れ値ルール保存部35に送りこむ(ステップ707)。
【0103】
外れ値ルール保存部35は、送りこまれたルールを、ルールの集合Riに加えて、新たなルールの集合Ri+1を生成し保存する(ステップ708)。また、利用者は、必要があれば外れ値ルール編集部36を用いて、外れ値ルール保存部35に保存されている外れ値ルールを編集することができる(ステップ709)。
【0104】
外れ値検出装置200aは、以上のステップ702〜709の処理を予め定められた回数繰り返し実行することにより、処理対象のデータUiから異常なデータを順次取り出しながら検出することができ、また処理を繰り返す度に、保持されているルールRiをより良いルールに更新していくことができる。
【0105】
ここで、図8の実施例においては、利用者がルールを編集する処理を、ステップ702〜709の繰り返し処理の末尾のステップ709としているが、本実施の形態の外れ値検出の処理はこれに限るものではない。
【0106】
以上説明したように、本実施の形態によれば、第2の実施の形態の効果に加えて、外れ値ルール保存部35に保持されているルールを利用者が自由に編集することができ、このため例えば、自動判定された不適切なルールを修正したり、利用者が適切なルールを指定したりすることができる。
【0107】
図9は、本発明の第4の実施の形態による外れ値検出装置200bの構成を示すブロック図である。第2、第3の実施の形態においては、外れ値検出装置に、検査対象のデータ集合を全て入力してその異常なデータを検出する方式であったが、本実施の形態においては、順次入力されるデータを検査対象とし、その入力を順次受け付けて異常なデータの検出を実行する。また、本実施の形態の外れ値検出装置200bは、異常なデータの検出処理と同時に、異常なデータを検出するルールの判定とその更新を行なう。
【0108】
図10は、本実施の形態による外れ値検出の動作を説明するためのフローチャートである。本実施の形態の外れ値検出装置200bの各部の機能は、順次入力されるデータを検査対象とする以外は、第1の実施の形態の外れ値検出装置200と同様であり、データが1つ入力されるごとに以下に示す動作を行なう。
【0109】
ここでは、t番目のデータxtがフィルタリング部41に渡された場合を例に説明する(ステップ801)。すなわち、t番目のデータVxtがフィルタリング部41に渡されると、フィルタリング部41は、外れ値ルール保存部45に蓄えられている外れ値ルールの集合Riに基づいて入力されたデータを判定し、外れ値と判定されれば「外れ値1」として出力し、外れ値でないと判定されれば外れ値度計算部42に送りこむ(ステップ802)。
【0110】
外れ値度計算部42は、入力されたデータxtについて、スコアstを計算し、スコア付きデータytを作成し、サンプリング部43に入力する(ステップ803)。同時に、スコアが予め定められた閾値以上ならば、データxtを「外れ値2」として出力する。
【0111】
サンプリング部43は、入力されたデータを保存し、保存されているデータの数が予め定められた数に達していれば、それらのデータの集合を対象に、予め定められた割合のスコア上位データを取り出しpositiveデータとし、更にスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出しnegativeデータとして、教師情報付きデータWiを作成し、教師あり学習部44に入力し、蓄えていたデータを全て消去する(ステップ804、805)。
【0112】
教師あり学習部44は、ラベル付きデータWiが入力されたとき、そのデータに基づいて、異常なデータを特徴付けるルール群を求め、その中から予め決められた基準に従うか、あるいは利用者の選択によりルールを取捨選択して、外れ値ルール保存部45に送りこむ(ステップ806)。外れ値ルール保存部45は、送りこまれたルールを、ルールの集合Riに加えて、新たなルールの集合Ri+1を生成し保存する(ステップ807)。
【0113】
以上説明したように、本実施の形態の外れ値検出装置200bによれば、異常であるか否かがわかっていない順次入力されるデータを基に、異常データを特徴付けるルールを自動生成しかつ順次適切に更新することができ、以後入力されるデータに対して、その自動生成された最新のルールを用いて効率良く異常なデータを検出することができる。
【0114】
図11は、本発明の第5の実施の形態による外れ値検出装置200cの構成を示すブロック図である。図11を参照すると、本実施の形態の外れ値検出装置200cは、第4の実施の形態の外れ値検出装置200bの構成に加えて、外れ値ルール保存部55に保存されている外れ値ルールを利用者が操作して編集するための外れ値ルール編集部56を、新たに備えている。
【0115】
本実施の形態では、この外れ値ルール編集部56を用いることにより、外れ値ルール保存部55に保存されている外れ値ルールを、必要に応じて利用者が自由に編集することができる。
【0116】
次に、本実施の形態の外れ値検出装置200cの動作を説明する。図12は、本実施の形態による外れ値検出の動作の一実施例を説明するためのフローチャートである。
【0117】
ここでは、t番目のデータxtがフィルタリング部51に渡された場合を例に説明する(ステップ1001)。すなわち、t番目のデータVxtがフィルタリング部51に渡されると、フィルタリング部51は、外れ値ルール保存部55に蓄えられている外れ値ルールの集合Riに基づいて入力されたデータを判定し、外れ値と判定されれば「外れ値1」として出力し、外れ値でないと判定されれば外れ値度計算部52に送りこむ(ステップ1002)。
【0118】
外れ値度計算部52は、入力されたデータxtについて、スコアstを計算し、スコア付きデータytを作成し、サンプリング部53に入力する(ステップ1003)。同時に、スコアが予め定められた閾値以上ならば、データxtを「外れ値2」として出力する。
【0119】
サンプリング部53は、入力されたデータを保存し、保存されているデータの数が予め定められた数に達していれば、それらのデータの集合を対象に、予め定められた割合のスコア上位データを取り出しpositiveデータとし、更にスコアが下位のデータから、ランダムサンプリングによって予め定められた数のデータを取り出しnegativeデータとして、教師情報付きデータWiを作成し、教師あり学習部54に入力し、蓄えていたデータを全て消去する(ステップ1004、1005)。
【0120】
教師あり学習部54は、ラベル付きデータWiが入力されたとき、そのデータに基づいて、異常なデータを特徴付けるルール群を求め、その中から予め決められた基準に従うか、あるいは利用者の選択によりルールを取捨選択して、外れ値ルール保存部55に送りこむ(ステップ1006)。
【0121】
外れ値ルール保存部55は、送りこまれたルールを、ルールの集合Riに加えて、新たなルールの集合Ri+1を生成し保存する(ステップ1007)。また、利用者は、必要があれば外れ値ルール編集部56を用いて、外れ値ルール保存部55に保存されている外れ値ルールを編集することができる(ステップ1008)。
【0122】
ここで、図12の実施例においては、利用者がルールを編集する処理は、保持しているルールの更新(ステップ1007)後としているが、本実施の形態の外れ値検出の処理はこれに限るものではない。例えば、利用者がルールを編集する処理を、その他のステップの間において実行する形態も同様に可能である。
【0123】
以上説明したように、本実施の形態によれば、第4の実施の形態の効果に加えて、外れ値ルール保存部55に保持されているルールを利用者が自由に編集することができ、このため例えば、自動判定された不適切なルールを修正したり、利用者が適切なルールを指定したりすることができる。
【0124】
なお、上記各実施の形態の外れ値ルール生成装置100と外れ値検出装置200、200a、200b、200cは、フィルタリング部21、31、41、51、外れ値度計算部12、22、32、42、52、サンプリング部13、23、33、43、53、教師あり学習部14、24、34、44、54、外れ値ルール保存部25、35、45、55、外れ値ルール編集部36、56の機能や、その他の機能をハードウェア的に実現することは勿論として、各機能を備えるコンピュータプログラムである外れ値ルール生成プログラム、外れ値検出プログラムを、コンピュータ処理装置のメモリにロードされることで実現することができる。この外れ値ルール生成プログラム及び外れ値検出プログラムは、磁気ディスク、半導体メモリその他の記録媒体91、92、93、94、95に格納される。そして、その記録媒体からコンピュータ処理装置にロードされ、コンピュータ処理装置の動作を制御することにより、上述した各機能を実現する。
【0125】
以上好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。
【0126】
【発明の効果】
以上説明したように本発明の外れ値ルール生成装置と外れ値検出装置によれば、異常(不正)であるか否かがわかっていないデータ(教師無しデータ)を基に、異常データを特徴付けるルールを自動生成し、更にその生成されたルールを用いて効率良く異常なデータを検出することができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態による外れ値ルール生成装置の構成を示すブロック図である。
【図2】 本発明の第1の実施の形態による外れ値ルール生成の動作を説明するためのフローチャートである。
【図3】 本発明の第2の実施の形態による外れ値検出装置の構成を示すブロック図である。
【図4】 本発明の第2の実施の形態による外れ値検出の動作を説明するためのフローチャートである。
【図5】 本発明の第2の実施の形態による外れ値検出の他の実施例の動作を説明するためのフローチャートである。
【図6】 本発明の第3の実施の形態による外れ値検出装置の構成を示すブロック図である。
【図7】 本発明の第3の実施の形態による外れ値検出の動作を説明するためのフローチャートである。
【図8】 本発明の第3の実施の形態による外れ値検出の他の実施例の動作を説明するためのフローチャートである。
【図9】 本発明の第4の実施の形態による外れ値検出装置の構成を示すブロック図である。
【図10】 本発明の第4の実施の形態による外れ値検出の動作を説明するためのフローチャートである。
【図11】 本発明の第5の実施の形態による外れ値検出装置の構成を示すブロック図である。
【図12】 本発明の第5の実施の形態による外れ値検出の動作を説明するためのフローチャートである。
【符号の説明】
100 外れ値ルール生成装置
200、200a、200b、200c 外れ値検出装置
21、31、41、51 フィルタリング部
12、22、32、42、52 外れ値度計算部
13、23、33、43、53 サンプリング部
14、24、34、44、54 教師あり学習部
25、35、45、55 外れ値ルール保存部
36、 56 外れ値ルール編集部
91、92、93、94、95 記録媒体

Claims (15)

  1. データ集合内にある異常なデータを検出又は調査するために用いられる、前記異常なデータを特徴付けるルールを生成する外れ値ルール生成装置において、
    前記データが異常であることの度合いを示す外れ値度を算出する外れ値度計算部と、
    前記外れ値度計算部によって算出された前記外れ値度に基づいて、データ集合からデータをサンプリングすることにより、異常なデータであるか否かを示すラベルを各前記データに付与するサンプリング部と、
    前記サンプリング部によって前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータの集合を特徴付けるルールを生成する教師あり学習部と、
    を備えることを特徴とする外れ値ルール生成装置。
  2. データ集合内にある異常なデータを検出する外れ値検出装置において、
    前記異常なデータを特徴付けるルールの集合を保持する外れ値ルール保存部と、
    前記外れ値ルール保存部が保持する前記ルールに基づいて、前記データ集合の各データが、異常なデータであるか否かを判定するフィルタリング部と、
    前記フィルタリング部において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を算出する外れ値度計算部と、
    前記外れ値度計算部により前記外れ値度を算出された各前記データに対して、算出された前記外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを付与するサンプリング部と、
    前記サンプリング部によって前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存部で保持する前記ルールの集合に前記新たなルールを追加する教師あり学習部と、
    を備えることを特徴とする外れ値検出装置。
  3. 前記データ集合に対して、前記保持するルールに基づいて異常なデータを判定し、異常であると判定されたデータを出力し、前記異常ではないと判定された各データに基づいて異常なデータを特徴付ける新たなルールを生成し、前記保持するルールを更新する一連の処理を、前回の前記処理において異常ではないと判定されたデータのみを処理対象として、前記処理を予め定められた回数繰り返し実行することを特徴とする請求項2に記載の外れ値検出装置。
  4. 順次入力されるデータ列に対し,データ列中の異常なデータを検出する外れ値検出装置において,
    前記異常なデータを特徴付けるルールの集合を保持する外れ値ルール保存部と、
    前記外れ値ルール保存部で保持する前記ルールに基づいて、前記順次入力される検査対象のデータ列が異常なデータであるか否かを判定するフィルタリング部と、
    前記フィルタリング部において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を算出する外れ値度計算部と、
    前記外れ値度計算部により前記外れ値度が算出された前記データが予め定められた一定量以上蓄積された場合に、算出された前記外れ値度に基づいて異常なデータであるか否かを示すラベルを各前記データに付与しながら前記データをサンプリングするサンプリング部と、
    前記ラベルの付与された各前記データの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存部で保持するルールの集合に追加する教師あり学習部と、
    を備えることを特徴とする外れ値検出装置。
  5. 前記外れ値ルール保存部で保持する前記ルールを、利用者の操作により編集するための外れ値ルール編集部を備えることを特徴とする請求項2から請求項4のいずれか1つに記載の外れ値検出装置。
  6. 計算手段を備えるコンピュータ上で、データ集合内にある異常なデータを検出又は調査するために用いられる、前記異常なデータを特徴付けるルールを生成する外れ値ルール生成方法において、
    前記データが異常であることの度合いを示す外れ値度を前記計算手段によって算出する外れ値度計算ステップと、
    前記外れ値度計算ステップで算出された前記外れ値度に基づいて、入力されたデータ集合からデータを前記計算手段によってサンプリングすることにより、異常なデータであるか否かを示すラベルを各前記データに付与するサンプリングステップと、
    前記サンプリングステップで前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータの集合を特徴付けるルールを前記計算手段によって生成する教師あり学習ステップと、
    を備えることを特徴とする外れ値ルール生成方法。
  7. 計算手段及び記憶手段を備えるコンピュータを制御することにより、データ集合内にある異常なデータを検出する外れ値検出方法において、
    前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存ステップと、
    前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールに基づいて、入力された前記データ集合の各データが、異常なデータであるか否かを前記計算手段で判定するフィルタリングステップと、
    前記フィルタリングステップにおいて異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算ステップと、
    前記外れ値度計算ステップで前記外れ値度を算出された各前記データに対して、算出された前記外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを前記計算手段で付与するサンプリングステップと、
    前記サンプリングステップで前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールの集合に前記新たなルールを前記計算手段で追加する教師あり学習ステップと、
    を備えることを特徴とする外れ値検出方法。
  8. 入力された前記データ集合に対して、前記記憶手段に保持する前記ルールに基づいて異常なデータを前記計算手段で判定し、異常であると判定されたデータを出力し、前記異常ではないと判定された各データに基づいて異常なデータを特徴付ける新たなルールを前記計算手段で生成し、前記記憶手段に保持する前記ルールを更新する一連の処理を、前回の前記処理において異常ではないと判定されたデータのみを処理対象として、前記処理を予め定められた回数繰り返し実行することを特徴とする請求項7に記載の外れ値検出方法。
  9. 計算手段及び記憶手段を備えるコンピュータを制御することにより、順次入力されるデータ列に対し、データ列中の異常なデータを検出する外れ値検出方法において,
    前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存ステップと、
    前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールに基づいて、前記順次入力される検査対象のデータ列が異常なデータであるか否かを前記計算手段で判定するフィルタリングステップと、
    前記フィルタリングステップにおいて異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算ステップと、
    前記外れ値度計算ステップで前記外れ値度が算出された前記データが予め定められた一定量以上蓄積された場合に、算出された前記外れ値度に基づいて異常なデータであるか否かを示すラベルを各前記データに付与しながら前記データを前記計算手段でサンプリングするサンプリングステップと、
    前記ラベルの付与された各前記データの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存ステップで前記記憶手段に保持するルールの集合に前記計算手段で追加する教師あり学習ステップと、
    を備えることを特徴とする外れ値検出方法。
  10. 前記外れ値ルール保存ステップで前記記憶手段に保持する前記ルールを、利用者の操作により前記計算手段で編集するための外れ値ルール編集ステップを備えることを特徴とする請求項7から請求項9のいずれか1つに記載の外れ値検出方法。
  11. 計算手段を備えるコンピュータを制御することにより、データ集合内にある異常なデータを検出又は調査するために用いられる、前記異常なデータを特徴付けるルールを生成する外れ値ルール生成プログラムであって、
    前記コンピュータに、
    前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算処理と、
    前記外れ値度計算処理で算出された前記外れ値度に基づいて、入力されたデータ集合からデータを前記計算手段によってサンプリングすることにより、異常なデータであるか否かを示すラベルを各前記データに付与するサンプリング処理と、
    前記サンプリング処理で前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータの集合を特徴付けるルールを前記計算手段で生成する教師あり学習処理と、
    を実行させることを特徴とする外れ値ルール生成プログラム。
  12. 計算手段及び記憶手段を備えるコンピュータを制御することにより、データ集合内にある異常なデータを検出する外れ値検出プログラムであって、
    前記コンピュータに、
    前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存処理と、
    前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールに基づいて、入力された前記データ集合の各データが、異常なデータであるか否かを前記計算手段で判定するフィルタリング処理と、
    前記フィルタリング処理において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算処理と、
    前記外れ値度計算処理で前記外れ値度を算出された各前記データに対して、算出された前記外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを前記計算手段で付与するサンプリング処理と、
    前記サンプリング処理で前記ラベルを付与された各前記データの集合に基づく教師あり学習により、前記異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールの集合に前記計算手段で前記新たなルールを追加する教師あり学習処理と、
    を実行させることを特徴とする外れ値検出プログラム。
  13. 前記コンピュータに、
    入力された前記データ集合に対して、前記記憶手段に保持する前記ルールに基づいて異常なデータを前記計算手段で判定し、異常であると判定されたデータを出力し、前記異常ではないと判定された各データに基づいて異常なデータを特徴付ける新たなルールを前記計算手段で生成し、前記記憶手段に保持する前記ルールを更新する一連の処理を、前回の前記処理において異常ではないと判定されたデータのみを処理対象として、前記処理を予め定められた回数繰り返し実行させることを特徴とする請求項12に記載の外れ値検出プログラム。
  14. 計算手段及び記憶手段を備えるコンピュータを制御することにより、順次入力されるデータ列に対し,データ列中の異常なデータを検出する外れ値検出プログラムであって,
    前記コンピュータに、
    前記異常なデータを特徴付けるルールの集合を前記記憶手段に保持する外れ値ルール保存処理と、
    前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールに基づいて、前記順次入力される検査対象のデータ列が異常なデータであるか否かを前記計算手段で判定するフィルタリング処理と、
    前記フィルタリング処理において異常なデータではないと判定された各データに対して、前記データが異常であることの度合いを示す外れ値度を前記計算手段で算出する外れ値度計算処理と、
    前記外れ値度計算処理で前記外れ値度が算出された前記データが予め定められた一定量以上蓄積された場合に、算出された前記外れ値度に基づいて異常なデータであるか否かを示すラベルを各前記データに付与しながら前記データを前記計算手段でサンプリングするサンプリング処理と、
    前記ラベルの付与された各前記データの集合に基づく教師あり学習により、異常なデータを特徴付ける新たなルールを生成し、前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールの集合に前記計算手段で追加する教師あり学習処理と、
    を実行させることを特徴とする外れ値検出プログラム。
  15. 前記コンピュータに、
    前記外れ値ルール保存処理で前記記憶手段に保持する前記ルールを、利用者の操作により前記計算手段で編集するための外れ値ルール編集処理を実行させることを特徴とする請求項12から請求項14のいずれか1つに記載の外れ値検出プログラム。
JP2001194077A 2001-06-27 2001-06-27 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム Expired - Lifetime JP3832281B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001194077A JP3832281B2 (ja) 2001-06-27 2001-06-27 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
US10/179,374 US7353214B2 (en) 2001-06-27 2002-06-25 Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001194077A JP3832281B2 (ja) 2001-06-27 2001-06-27 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2003005970A JP2003005970A (ja) 2003-01-10
JP3832281B2 true JP3832281B2 (ja) 2006-10-11

Family

ID=19032261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001194077A Expired - Lifetime JP3832281B2 (ja) 2001-06-27 2001-06-27 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム

Country Status (2)

Country Link
US (1) US7353214B2 (ja)
JP (1) JP3832281B2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3506068B2 (ja) * 1999-09-29 2004-03-15 日本電気株式会社 外れ値度計算装置
EP1704492A1 (en) * 2003-11-27 2006-09-27 Quinetiq Limited Automated anomaly detection
US7296018B2 (en) * 2004-01-02 2007-11-13 International Business Machines Corporation Resource-light method and apparatus for outlier detection
US7716135B2 (en) * 2004-01-29 2010-05-11 International Business Machines Corporation Incremental compliance environment, an enterprise-wide system for detecting fraud
IL161217A (en) * 2004-04-01 2013-03-24 Cvidya 2010 Ltd Detection of outliers in communication networks
WO2006002353A2 (en) * 2004-06-23 2006-01-05 Medical Metrix Solutions, Inc Anatomical visualization and measurement system
US7899516B2 (en) * 2004-06-23 2011-03-01 M2S, Inc. Method and apparatus for determining the risk of rupture of a blood vessel using the contiguous element defined area
US8732175B2 (en) 2005-04-21 2014-05-20 Yahoo! Inc. Interestingness ranking of media objects
US10210159B2 (en) * 2005-04-21 2019-02-19 Oath Inc. Media object metadata association and ranking
US7561158B2 (en) * 2006-01-11 2009-07-14 International Business Machines Corporation Method and apparatus for presenting feature importance in predictive modeling
US7917338B2 (en) * 2007-01-08 2011-03-29 International Business Machines Corporation Determining a window size for outlier detection
US8165938B2 (en) * 2007-06-04 2012-04-24 Visa U.S.A. Inc. Prepaid card fraud and risk management
US7627522B2 (en) * 2007-06-04 2009-12-01 Visa U.S.A. Inc. System, apparatus and methods for comparing fraud parameters for application during prepaid card enrollment and transactions
US20090030710A1 (en) * 2007-07-27 2009-01-29 Visa U.S.A. Inc. Centralized dispute resolution system for commercial transactions
US20090106151A1 (en) * 2007-10-17 2009-04-23 Mark Allen Nelsen Fraud prevention based on risk assessment rule
US20100005029A1 (en) * 2008-07-03 2010-01-07 Mark Allen Nelsen Risk management workstation
AT507019B1 (de) * 2008-07-04 2011-03-15 Siemens Vai Metals Tech Gmbh Verfahren zur überwachung einer industrieanlage
US8600873B2 (en) * 2009-05-28 2013-12-03 Visa International Service Association Managed real-time transaction fraud analysis and decisioning
JP5135389B2 (ja) * 2010-06-30 2013-02-06 株式会社日立情報システムズ 情報漏えいファイル検知装置、及びその方法とプログラム
EP2854045B1 (de) * 2013-09-27 2016-04-06 Deutsche Telekom AG Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
US20150131119A1 (en) * 2013-11-12 2015-05-14 Toshiba Tec Kabushiki Kaisha Maintenance method and maintenance apparatus for information processing apparatus
US10140576B2 (en) * 2014-08-10 2018-11-27 Palo Alto Research Center Incorporated Computer-implemented system and method for detecting anomalies using sample-based rule identification
CN104599173A (zh) * 2015-01-12 2015-05-06 北京中润普达信息技术有限公司 一种监测异常数据并择优过滤的平衡过滤器及方法
US9867039B2 (en) 2015-06-26 2018-01-09 Futurewei Technologies, Inc. System and method for faked base station detection
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
US10824951B2 (en) * 2016-03-14 2020-11-03 Huawei Technologies Co., Ltd. System and method for rule generation using data processed by a binary classifier
JP6602243B2 (ja) * 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
US10043019B2 (en) * 2016-09-28 2018-08-07 Microsoft Technology Licensing, Llc External dataset-based outlier detection for confidential data in a computer system
US10255457B2 (en) * 2016-09-28 2019-04-09 Microsoft Technology Licensing, Llc Outlier detection based on distribution fitness
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
JP6809250B2 (ja) 2017-01-23 2021-01-06 株式会社リコー 情報処理装置、情報処理方法およびプログラム
JP6633009B2 (ja) * 2017-02-01 2020-01-22 日本電信電話株式会社 表データ分析プログラム
US10262154B1 (en) 2017-06-09 2019-04-16 Microsoft Technology Licensing, Llc Computerized matrix factorization and completion to infer median/mean confidential values
CN108510179A (zh) * 2018-03-26 2018-09-07 广东奥博信息产业股份有限公司 灾害救援物资调整方法与***
JP6810097B2 (ja) * 2018-05-21 2021-01-06 ファナック株式会社 異常検出器
CN109408268B (zh) * 2018-10-09 2021-11-19 浪潮软件股份有限公司 一种基于云pos机的新零售扫码数据异常检测方法
JP7245086B2 (ja) * 2019-03-18 2023-03-23 株式会社国際電気通信基礎技術研究所 情報収集装置、無線通信装置、情報収集方法、および無線通信方法
US20220206888A1 (en) * 2019-08-28 2022-06-30 Mitsubishi Electric Corporation Abnormal portion detecting device, method of detecting abnormal portion, and recording medium
CN111090685B (zh) * 2019-12-19 2023-08-22 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
JP7342726B2 (ja) * 2020-02-05 2023-09-12 新東工業株式会社 情報処理装置及び制御プログラム
CN112200265A (zh) * 2020-10-27 2021-01-08 黑龙江省电工仪器仪表工程技术研究中心有限公司 一种基于ocsvm-knn算法的离群数据检测方法及装置
CN112328424B (zh) * 2020-12-03 2022-05-06 之江实验室 一种用于数值型数据的智能异常检测方法及装置
CN112733904B (zh) * 2020-12-30 2022-03-25 佛山科学技术学院 一种水质异常检测方法及电子设备
CN114925196B (zh) * 2022-03-01 2024-05-21 健康云(上海)数字科技有限公司 多层感知网络下糖尿病血检异常值辅助剔除方法
CN117313899B (zh) * 2023-11-23 2024-02-23 全芯智造技术有限公司 用于数据处理的方法、设备和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5299284A (en) * 1990-04-09 1994-03-29 Arizona Board Of Regents, Acting On Behalf Of Arizona State University Pattern classification using linear programming
GB9511964D0 (en) * 1995-06-13 1995-08-09 Rdm Consultants Limited Monitoring an EEG
US6289328B2 (en) * 1998-04-17 2001-09-11 The United States Of America As Represented By The Secretary Of The Navy Chemical sensor pattern recognition system and method using a self-training neural network classifier with automated outlier detection
WO1999067758A1 (de) * 1998-06-22 1999-12-29 Martin Daumer Verfahren und vorrichtung zur erkennung von driften, sprüngen und/oder ausreissern von messwerten
US6424929B1 (en) * 1999-03-05 2002-07-23 Loran Network Management Ltd. Method for detecting outlier measures of activity
JP3506068B2 (ja) 1999-09-29 2004-03-15 日本電気株式会社 外れ値度計算装置
US6643629B2 (en) * 1999-11-18 2003-11-04 Lucent Technologies Inc. Method for identifying outliers in large data sets

Also Published As

Publication number Publication date
JP2003005970A (ja) 2003-01-10
US20030004902A1 (en) 2003-01-02
US7353214B2 (en) 2008-04-01

Similar Documents

Publication Publication Date Title
JP3832281B2 (ja) 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
CN111475804A (zh) 一种告警预测方法及***
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
US20120173465A1 (en) Automatic Variable Creation For Adaptive Analytical Models
CN112491872A (zh) 一种基于设备画像的异常网络访问行为检测方法和***
US7320002B2 (en) Using tables to learn trees
CN109753797B (zh) 针对流式图的密集子图检测方法及***
JP2018113018A (ja) データプリプロセッシングのためのシステム及び方法
US20060288272A1 (en) Computer-implemented method, system, and program product for developing a content annotation lexicon
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和***
CN113452672A (zh) 基于协议逆向分析的电力物联网终端流量异常分析方法
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
US10467538B2 (en) Link de-noising in a network
Khatibzadeh et al. Applying catastrophe theory for network anomaly detection in cloud computing traffic
CN111126629B (zh) 模型的生成方法、刷单行为识别方法、***、设备和介质
US11914956B1 (en) Unusual score generators for a neuro-linguistic behavioral recognition system
Yang et al. A multi-components approach to monitoring process structure and customer behaviour concept drift
CN113746780A (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
Yang et al. Towards automatic clustering of protein sequences
CN110874601A (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置
CN115330368A (zh) 集成无监督机器学习的区块链异常交易识别方法及***
CN113837807A (zh) 热度预测方法、装置、电子设备及可读存储介质
CN111209158B (zh) 服务器集群的挖矿监控方法及集群监控***
JP3721735B2 (ja) 因果関係検出装置
CN113723436A (zh) 数据的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060710

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3832281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130728

Year of fee payment: 7

EXPY Cancellation because of completion of term