JP6950504B2

JP6950504B2 - 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置

Info

Publication number: JP6950504B2
Application number: JP2017236217A
Authority: JP
Inventors: 小林　健; 健小林; 裕平梅田; 賢等々力
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2021-10-13
Anticipated expiration: 2037-12-08
Also published as: US20190180194A1; JP2019105871A

Description

本発明は、異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置に関する。

時系列データを解析してデータの異常に対応した変化を検知する技術として、時系列データから生成された有限個のアトラクタである疑似アトラクタにパーシステントホモロジ変換を実行してベッチ数を算出し、ベッチ数を用いたベッチ系列によって解析する手法が知られている。

特開２０１７−９７６４３号公報特開２００９−１９２３１２号公報特開２００４−７８９８１号公報

ところで、上記技術の利用手法として、異常であることがわかっている既知の時系列データを利用した教師あり学習により異常等を検知する場合と、ベッチ系列自体の変化から教師なし学習により異常等を検知する場合とがある。しかしながら、上記技術では、ベッチ系列を入力とした教師なし学習により異常等を検知する場合、必ずしも検知対象である擬似アトラクタの形状変化を認識できないことがあり、教師なしの時系列データ解析に対しては異常検知の精度が劣化する場合がある。

具体的には、時系列データの構造的な特徴は、擬似アトラクタの形状が特徴づけており、時系列データの重要な変化は、ベッチ系列における半径の大きい領域のベッチ数の変化として表れる。図１３は、疑似アトラクタの性質を説明する図である。図１３に示すように、擬似アトラクタが図１３の（ａ）から図１３の（ｂ）に変化した場合、疑似アトラクタ全体の形状に変化が生じる。一方で、図１３の（ｂ）の状態から直径Ｌが２つに変化したとしても、疑似アトラクタ全体の形状に変化としては小さい。つまり、ベッチ数の変化は、半径が大きければ大きいほど擬似アトラクタの形状の変化を表す量として重要度が高く、擬似アトラクタにおける穴の個数は半径が大きければ大きいほど疑似アトラクタの大域的な形状を表す。

しかし、上記技術を用いて得られるベッチ系列では、半径の上限を与えたもとでベッチ数を計算するので、半径の大きい領域のベッチ数はベッチ系列全体の一部と判定される。そのため、ベッチ系列において半径の大きい領域のベッチ数が占める情報量は、半径の小さい領域と比較して相対的に小さくなる。例えば、半径の小さい領域おいて、ベッチ数が６０から５９に変化した場合と、半径が大きい領域において、ベッチ数が２から１に変化した場合では、半径が大きい領域のベッチ数の変化は少ないが疑似アトラクタの大域的な形状を表しているにも関わらず、変化量は同一視される。

このような場合であっても、教師あり学習の場合では、教師ラベルに対する変化を学習することから、教師ラベルに関与しない変化は無視することができるので、時系列データの解析において異常を検知することができる。一方、教師なし学習では、特徴量であるベッチ系列全体の変化を見ることから、着目したい部分の変化がそうでない部分の変化と比較して相対的に情報量が大きくなるような特徴量を入力とする必要があるが、上述したように変化量が同一視されるので、半径が大きい領域のベッチ数の変化を適切に検知できず、時系列データの解析において異常を検知することができない。

このように、時系列データにおいて、検知が求められる、半径が大きい領域の変化量は、半径が小さい領域の変化量ほどは大きくないので、教師あり学習と同様の手法により、教師なし学習でベッチ系列から異常等を検知する場合、必ずしも、検知対象の異常に対応した変化を認識できないという問題が生じる。

一つの側面では、教師なしの時系列データ解析において異常に対応した変化を認識することができる異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置を提供することを目的とする。

第１の案では、異常候補抽出プログラムは、複数の時系列データからそれぞれ生成した複数の擬似アトラクタを、パーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成する処理をコンピュータに実行させる。異常候補抽出プログラムは、前記ベッチ系列から、前記複数のベッチ系列から、前記ベッチ数を生成する際の半径が大きい領域を当該半径が小さい領域よりも重みづけた複数の変換ベッチ系列を生成する処理をコンピュータに実行させる。異常候補抽出プログラムは、前記複数の変換ベッチ系列におけるベッチ数に基づき、前記複数の時系列データから異常候補を抽出する処理をコンピュータに実行させる。

一実施形態によれば、教師なしの時系列データ解析において異常に対応した変化を認識することができる。

図１は、実施例１にかかる抽出装置の全体例を説明する図である。図２は、実施例１にかかる抽出装置の機能構成を示す機能ブロック図である。図３は、時系列データの例を示す図である。図４は、学習対象とする時系列データの一例を示す図である。図５は、パーシステントホモロジについて説明するための図である。図６は、バーコードデータと生成される連続データとの関係について説明するための図である。図７は、ベッチ数を計算する半径の間隔を単調減少させる例を説明する図である。図８は、間引きによる改良ベッチ系列を説明する図である。図９は、処理の流れを示すフローチャートである。図１０は、改良ベッチ系列の例を説明する図である。図１１は、改良ベッチ系列による変化点検知を説明する図である。図１２は、ハードウェア構成例を説明する図である。図１３は、疑似アトラクタの性質を説明する図である。

以下に、本願の開示する異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
図１は、実施例１にかかる抽出装置の全体例を説明する図である。図１に示すように、実施例１にかかる抽出装置１０は、教師なしの時系列データである学習データに対して、パーシステントホモロジ変換を実行してベッチ系列を生成する。そして、抽出装置１０は、ベッチ系列を特徴量として機械学習や深層学習（ディープラーニング（ＤＬ）・Deep Learning）などを用いた判別処理（学習処理）を実行して、学習データを事象ごとに正しく判別（分類）できるように、ニューラルネットワーク（ＮＮ：Neural Network）などを学習する。

例えば、抽出装置１０は、複数の時系列データそれぞれからベッチ系列を生成し、ベッチ系列に基づいて、他の時系列データから事象が変化した時系列データを抽出する。そして、抽出装置１０は、通常の時系列データに対応する事象と、変化が検出された時系列データに対応する事象とが判別できるように学習する。その後、学習結果を適用した学習モデルを用いることで、判別対象データの正確な事象（ラベル）の推定を実現する。

具体的には、抽出装置１０は、複数の時系列データからそれぞれ生成した複数の擬似アトラクタを、パーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成する。抽出装置１０は、複数のベッチ系列から、ベッチ数を生成する際の半径が大きい領域を当該半径が小さい領域よりも重みづけた複数の変換ベッチ系列（改良ベッチ系列）を生成する。抽出装置１０は、複数の変換ベッチ系列におけるベッチ数に基づき、複数の時系列データから異常候補を抽出する。

つまり、抽出装置１０は、擬似アトラクタのもつ性質「穴の個数の変化は、半径が大きい部分の変化ほど大域的な形状な変化を表し、変化を表す重要度は半径に応じて単調に高くなる」が保存される改良ベッチ系列を構成し、この改良ベッチ系列を教師なし学習の入力とする。この結果、抽出装置１０は、教師なしの時系列データ解析において異常に対応した変化を認識することができる。なお、抽出装置１０は、サーバ、パーソナルコンピュータ、タブレットなどのコンピュータ装置の一例である。また、抽出装置１０と学習モデルによる推定処理を実行する装置とは、別々の装置で実現することもでき、一つの装置で実現することもできる。

［機能構成］
図２は、実施例１にかかる抽出装置１０の機能構成を示す機能ブロック図である。図２に示すように、抽出装置１０は、通信部１１と記憶部１２と制御部２０を有する。

通信部１１は、他の装置との通信を制御する処理部であり、例えば通信インタフェースである。例えば、通信部１１は、管理者の端末から、処理開始指示を受信する。また、通信部１１は、管理者の端末等から、学習データ（入力データ）を受信して学習データＤＢ１３に格納する。

記憶部１２は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、学習データＤＢ１３や学習結果ＤＢ１４を記憶する。

学習データＤＢ１３は、学習対象のデータを記憶するデータベースである。具体的には、学習データＤＢ１３は、教師なしの時系列のデータを記憶する。図３は、時系列データの例を示す図である。図３は心拍数の変化を示す時系列データであり、縦軸が心拍数（beats per minute）を表し、横軸は時間を表す。

なお、ここでは連続データとして心拍数の時系列データを例示したが、このような時系列データに限られるわけではない。例えば、心拍数以外の生体データ（脳波、脈拍或いは体温などの時系列データ）、ウェアラブルセンサのデータ（ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ）、金融データ（金利、物価、国際収支或いは株価などの時系列データ）、自然環境のデータ（気温、湿度或いは二酸化炭素濃度などの時系列データ）、又は社会データ（労働統計或いは人口統計などのデータ）等であってもよい。但し、本実施の形態の対象である連続データは、少なくとも式（１）のルールに従って変化するデータであるとする。

学習結果ＤＢ１４は、学習結果を記憶するデータベースである。例えば、学習結果ＤＢ１４は、制御部２０による学習データの判別結果（分類結果）、機械学習やディープラーニングによって学習された各種パラメータを記憶する。

制御部２０は、抽出装置１０全体の処理を司る処理部であり、例えばプロセッサなどである。この制御部２０は、系列生成部２１、学習部２２を有する。なお、系列生成部２１、学習部２２は、プロセッサなどが有する電子回路やプロセッサなどが実行するプロセスの一例である。また、系列生成部２１は、第１生成部と第２生成部の一例であり、学習部２２は、抽出部の一例である。

系列生成部２１は、学習データＤＢ１３に記憶される複数の時系列データからそれぞれ生成した複数の擬似アトラクタを、パーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成する処理部である。また、系列生成部２１は、複数のベッチ系列から、ベッチ数を生成する際の半径が大きい領域を当該半径が小さい領域よりも重みづけた複数の改良ベッチ系列を生成する処理部である。

具体的には、系列生成部２１は、特開２０１７−９７６４３号公報と同様の手法によってベッチ系列を作成した後または作成する過程で、改良ベッチ系列を生成する。ここで、ベッチ系列の生成と改良ベッチ系列の生成とについて具体的に説明する。

（ベッチ系列の生成）
まず、図４から図６を用いて、特開２０１７−９７６４３号公報と同様の手法によるベッチ系列の生成を簡単に説明する。特開２０１７−９７６４３号公報では、ベッチ数を計算する半径の区間［ｒ_ｍｉｎ，ｒ_ｍａｘ］をｍ−１等分し、各半径ｒ_ｉ（ｉ＝１，・・・，ｍ）におけるベッチ数Ｂ（ｒ_ｉ）を計算し、ベッチ数を並べた［Ｂ（ｒ_１），Ｂ（ｒ_２），Ｂ（ｒ_３），・・・，Ｂ（ｒ_ｍ）］のベッチ系列を生成する。

図４は、学習対象とする時系列データの一例を示す図である。図５は、パーシステントホモロジについて説明するための図である。図６は、バーコードデータと生成される連続データとの関係について説明するための図である。

図４を用いて、疑似アトラクタの生成について説明する。例えば図４に示すような、関数ｆ（ｔ）（ｔは時間を表す）で表される連続データを考える。そして、実際の値としてｆ（１），ｆ（２），ｆ（３），・・・，ｆ（Ｔ）が与えられているとする。本実施の形態における疑似アトラクタは、連続データから遅延時間τ（τ≧１）毎に取り出されたＮ点の値を成分とする、Ｎ次元空間上の点の集合である。ここで、Ｎは埋め込み次元を表し、一般的にはＮ＝３又は４である。例えばＮ＝３且つτ＝１である場合、（Ｔ−２）個の点を含む以下の疑似アトラクタが生成される。

疑似アトラクタ＝｛（ｆ（１），ｆ（２），ｆ（３））、（ｆ（２），ｆ（３），ｆ（４））、（ｆ（３），ｆ（４），ｆ（５））、・・・、（ｆ（Ｔ−２），ｆ（Ｔ−１），ｆ（Ｔ））｝

続いて、系列生成部２１は、疑似アトラクタを生成し、パーシステントホモロジ変換を用いてベッチ系列へ変換する。なお、ここで生成されるアトラクタは、有限個の点集合であることから「疑似アトラクタ」と呼ぶこととする。

ここで、「ホモロジ」とは、対象の特徴をｍ（ｍ≧０）次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジ群の元のことであり、０次元の穴は連結成分であり、１次元の穴は穴（トンネル）であり、２次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。そして、「パーシステントホモロジ」とは、対象（ここでは、点の集合（Point Cloud））におけるｍ次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻（発生時の球の半径で表される）と消滅した時刻（消滅時の球の半径で表される）とが特定される。

図５を用いて、パーシステントホモロジをより具体的に説明する。ルールとして、１つの球が接した場合には２つの球の中心が線分で結ばれ、３つの球が接した場合には３つの球の中心が線分で結ばれる。ここでは、連結成分及び穴だけを考える。図５（ａ）のケース（半径ｒ＝０）においては、連結成分のみが発生し、穴は発生していない。図５（ｂ）のケース（半径ｒ＝ｒ₁）においては、穴が発生しており、連結成分の一部が消滅している。図５（ｃ）のケース（半径ｒ＝ｒ₂）においては、さらに多くの穴が発生しており、連結成分は１つだけ持続している。図５（ｄ）のケース（半径ｒ＝ｒ₃）においては、連結成分の数は１のままであり、穴が１つ消滅している。

パーシステントホモロジの計算過程において、ホモロジ群の元（すなわち穴）の発生半径と消滅半径とが計算される。穴の発生半径と消滅半径とを使用することで、バーコードデータを生成することができる。バーコードデータは穴次元毎に生成されるので、複数の穴次元のバーコードデータを統合することで１塊のバーコードデータが生成できる。連続データは、パーシステントホモロジにおける球の半径（すなわち時間）とベッチ数との関係を示すデータである。

図６を用いて、バーコードデータと生成される連続データとの関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフは連続データ（ベッチ系列と記載する場合がある）から生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が１０であるので、下段のグラフにおいては破線に対応するベッチ数も１０である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。

従来の手法では、このようにして生成されたベッチ系列を入力として判別処理が実行される。しかし、図６に示したベッチ系列は、各半径における穴の個数の変化を均等に扱っているので、疑似アトラクタの形状変化に基づく教師なしの時系列データの学習においては、特徴量の変化を検出することができない。そこで、本実施例では、擬似アトラクタのもつ性質「穴の個数の変化は、半径が大きい部分の変化ほど大域的な形状な変化を表し，変化を表す重要度は半径に応じて単調に高くなる」が保存される改良ベッチ系列を構成する。

具体的には、系列生成部２１は、「手法１：ベッチ数の計算においてベッチ数を計算する半径の間隔を単調減少させる」または「手法２：半径に対して単調増加する重みをつけた重みベッチ数を計算する」を用いて、改良ベッチ系列を生成する。次に、手法１と手法２について具体的に説明する。

（手法１：改良ベッチ系列）
手法１は、半径の大きさが大きくなるにつれてベッチ数の変化がより詳細に表されたベッチ系列を構成して、擬似アトラクタの性質を保存する手法である。図７は、ベッチ数を計算する半径の間隔を単調減少させる例を説明する図である。図７に示すように、手法１は、半径ｒ_ｉのｉが増加するにつれて、半径ｒ_ｉの間隔を単調減少させることで、半径が大きい部分の変化を重要視する。

例えば、系列生成部２１は、ベッチ数を計算する半径の区間［ｒ_ｍｉｎ，ｒ_ｍａｘ］において，ｉ番目のベッチ数を計算する半径を式（２）とする。ここで、Ｒ（ｉ）は、Ｒ（１）＝ｒ_ｍｉｎを満たすとともに、Ｒ（ｍ）＝ｒ_ｍａｘを満たす。そして、系列生成部２１は、各半径ｒ_ｉにおけるベッチ数Ｂ（ｒ_ｉ）を計算する。その後、系列生成部２１は、各ベッチ数を並べた［Ｂ（ｒ_１），Ｂ（ｒ_２），Ｂ（ｒ_３），・・・，Ｂ（ｒ_ｍ）］を改良ベッチ系列とする。

なお、ｉ番目の半径Ｒ（ｉ）は、式（３）を満たす関数、言い換えると、傾きが単調減少する関数であればよく、例えば式（４）に示すような２次関数や式（５）に示すような指数関数を用いることができる。ただし、式（５）において、ａ＞０、ｂはＲ（１）＝ｒ_ｍｉｎおよびＲ（ｍ）＝ｒ_ｍａｘを満たすように定める。

続いて、手法１による別例を説明する。具体的には、系列生成部２１は、ベッチ数を計算する半径の区間［ｒ_ｍｉｎ，ｒ_ｍａｘ］をｍ−１等分し、各半径ｒ_ｉ（ｉ＝１，・・・，ｍ）におけるベッチ数Ｂ（ｒ_ｉ）を計算する。続いて、系列生成部２１は、ベッチ数を並べたベッチ系列［Ｂ（ｒ_１），Ｂ（ｒ_２），Ｂ（ｒ_３），・・・，Ｂ（ｒ_ｍ）］から１番目から順番にｐ個間引いて１つ残す、ｐ−１個間引いて１個残すというように、間隔を１個ずつ減らしながらベッチ数を間引いていく。その後、系列生成部２１は、間引いたあとに残ったベッチ数の系列を改良ベッチ系列とする。

図８は、間引きによる改良ベッチ系列を説明する図である。図８では、ｍ＝９の場合を例示し、ベッチ系列として［Ｂ（ｒ_１），Ｂ（ｒ_２），Ｂ（ｒ_３），Ｂ（ｒ_４），Ｂ（ｒ_５），Ｂ（ｒ_６），Ｂ（ｒ_７），Ｂ（ｒ_８），Ｂ（ｒ_９）］が算出された例である。この場合、系列生成部２１は、はじめの３個を間引いてＢ（ｒ_４）を残し、次の２個を間引いてＢ（ｒ_７）を残し、次の１個を間引いてＢ（ｒ_９）を残す。このようにして、系列生成部２１は、改良ベッチ系列［Ｂ（ｒ_４），Ｂ（ｒ_７），Ｂ（ｒ_９）］を生成する。なお、ベッチ系列の間引き方は、上記手法に限定されず、間引く間隔が単調に減るような間引き方であればよい。なお、間引くタイミングは、ベッチ系列を生成するタイミングでもよく、ベッチ系列生成後の改良ベッチ系列を生成するタイミングでもよく、任意に設定変更することができる。

（手法２：改良ベッチ系列）
例えば、系列生成部２１は、半径ｒ_ｉ（ｉ＝１，・・・，ｍ）におけるベッチ数Ｂ（ｒ_ｉ）を計算する。ここで、ベッチ数を計算する半径の区間を［ｒ_ｍｉｎ，ｒ_ｍａｘ］とし、ｒ_ｍｉｎ＝ｒ_１＜ｒ_２＜・・・ｒ_ｍ＝ｒ_ｍａｘとする。

続いて、系列生成部２１は、各半径で計算したベッチ数Ｂ（ｒ_ｉ）に対して、重みとしてＷ（ｒ_ｉ）＝ｅｘｐ（ｒ_ｉ）を乗算し、重み付きベッチ数を式（６）のように計算する。そして、系列生成部２１は、重み付きベッチ数を並べた系列である式（７）を改良ベッチ系列とする。

なお、重みＷ（ｒ）は、半径ｒに関して「０≦ｒ_ｉ≦ｒ_２のときＷ（ｒ_１）≦Ｗ（ｒ_２）」のように、単調増加する関数であればよい。例えば、Ｗ（ｒ）＝ｒのような線形関数ｍＷ（ｒ）＝ｒ^ｐ（ｐ＞１）のような単調増加する高次関数、Ｗ（ｒ）＝ｅｘｐ（ｒ）のような指数関数を用いることができる。

図２に戻り、学習部２２は、系列生成部２１によって生成された改良ベッチ系列を入力として、学習処理を実行する処理部である。具体的には、学習部２２は、複数の改良ベッチ系列におけるベッチ数に基づき、複数の時系列データから異常候補を抽出する。例えば、学習部２２は、改良ベッチ系列のベッチ数に基づき、時系列データの異常候補を抽出することで、時系列データの事象が判別できるように学習する。つまり、学習部２２は、時系列データを事象Ａ、時系列データを事象Ｂなどのように分類したり、時系列データの中から他とは異なるイベントの発生箇所を検出したりする。

そして、学習部２２は、時系列データの特徴量から事象が分類できるようにＤＬ等によって学習し、学習結果を学習結果ＤＢ１４に格納する。学習の結果は、点過程時系列データの分類結果（すなわちＤＬ学習の出力）を含み、入力から出力を計算する際のニューラルネットワークの各種パラメータが含まれていてもよい。

［処理の流れ］
次に、上述した処理について説明する。ここでは、一例として、間引きによる改良ベッチ系列の生成処理について説明する。図９は、処理の流れを示すフローチャートである。

図９に示すように、系列生成部２１は、時系列データを学習データＤＢ１３から読み出し（Ｓ１０１）、疑似アトラクタを生成する（Ｓ１０２）。続いて、系列生成部２１は、疑似アトラクタからベッチ数を算出した後（Ｓ１０３）、ベッチ数の間引きを実行して（Ｓ１０４）、改良ベッチ系列を生成する（Ｓ１０５）。

そして、学習部２２は、改良ベッチ系列を入力として機械学習を実行する（Ｓ１０６）。その後、未処理の時系列データがある場合（Ｓ１０７：Ｙｅｓ）、Ｓ１０１以降が繰り返され、未処理の時系列データがない場合（Ｓ１０７：Ｎｏ）、処理が終了する。

［効果］
上述したように、抽出装置１０は、時系列データに対してトポロジカルデータアナリシスを適用し、擬似アトラクタの形状の変化を検知する教師なし学習を行う際、半径が大きいほど変化を表す量として重要な意味を持つ性質を残した改良ベッチ系列を生成することができる。このため、抽出装置１０は、疑似アトラクタの形状変化に基づいて時系列データの教師なし学習を行うことができ、時系列データの構造的な変化に基づく教師なし学習を行うことができる。

図１０と図１１を用いて具体的に説明する。図１０は、改良ベッチ系列の例を説明する図である。図１１は、改良ベッチ系列による変化点検知を説明する図である。図１０の（ａ）は、株価終値の対数差分系列を示す。この株価終値の対数差分系列は、各日に大きな変化を示すイベントが発生しているが、教師なしのデータであることから、従来手法を用いてベッチ系列を生成した場合、図１０の（ｂ）に示すように、各日のベッチ系列の差が小さい。したがって、このまま学習しても、イベント発生有無などを検出することが難しい。

これに対して、抽出装置１０は、各半径のベッチ数に対して、半径の大きさに応じて単調に増加する重みを付けた重み付きベッチ数を計算することで、図１０の（ｂ）に示す従来のベッチ系列から、図１０の（ｃ）に示す改良ベッチ系列を生成することができる。したがって、各日のイベントの大きさが現れる改良ベッチ系列を入力として、教師なし学習を実行することができるので、教師なしの時系列データ解析において異常に対応した変化を認識することができる。

また、図１１の（ａ）は、株価の値動きを示す時系列データである。このような時系列データは、瞬間的にスケールの異なる値（外れ値）などを取る場合がある。この場合、図１１の（ｂ）に示すように、株価の時系列データからベッチ数を計算しても違いが差異化できない。しかし、図１１の（ｃ）に示すように、ベッチ数に対して半径の大きさに対して指数的に増加する重みで重みを付けることで、半径の大きい部分の違いが差異化される。この重みを付けた改良ベッチ系列に基づいて変化点検知を行うことで、図１１の（ｄ）に示すように、元の時系列データの外れ値を変化点として検出できる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［学習手法］
実施例１の学習は、ＤＬに限らずに他の機械学習を採用することができる。また、間隔アトラクタの次元数も任意に設定することができる。なお、学習後に推定対象のデータのラベル推定を行う場合、学習時と同様の処理を行って学習モデルに入力する。

［ハードウェア］
図１２は、ハードウェア構成例を説明する図である。図１２に示すように、抽出装置１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１２に示した各部は、バス等で相互に接続される。

通信インタフェース１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図２に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、抽出装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、系列生成部２１、学習部２２等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、系列生成部２１、学習部２２等と同様の処理を実行するプロセスを実行する。

このように抽出装置１０は、プログラムを読み出して実行することで抽出方法を実行する情報処理装置として動作する。また、抽出装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、抽出装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、アイテムを表示する処理部と、選好を推定する処理部とを別々の筐体で実現することもできる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

１０抽出装置
１１通信部
１２記憶部
１３学習データＤＢ
１４学習結果ＤＢ
２０制御部
２１系列生成部
２２学習部

Claims

コンピュータに、
複数の時系列データからそれぞれ生成した複数の擬似アトラクタを、パーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成し、
前記複数のベッチ系列から、前記ベッチ数を生成する際の半径が大きい領域を当該半径が小さい領域よりも重みづけた複数の変換ベッチ系列を生成し、
前記複数の変換ベッチ系列におけるベッチ数に基づき、前記複数の時系列データから異常候補を抽出する、
処理をコンピュータに実行させる異常候補抽出プログラム。
前記ベッチ数を計算する半径の間隔を単調減少させる関数を用いて決定し、決定した間隔で前記ベッチ数を算出し、算出した各ベッチ数を用いて、前記複数の変換ベッチ系列を生成する処理を実行させる請求項１に記載の異常候補抽出プログラム。
前記複数のベッチ系列に含まれる各半径のベッチ数から、半径が大きくなるに連れて単調減少する間隔でベッチ数を取得し、取得した各半径のベッチ数を用いて、前記複数の変換ベッチ系列を生成する処理を前記コンピュータに実行させる請求項１に記載の異常候補抽出プログラム。
前記複数のベッチ系列に含まれる各半径のベッチ数に、半径に対して単調増加する重みを乗算した複数の重み付きベッチ数を算出して、算出した前記複数の重み付きベッチ数を用いて、前記複数の変換ベッチ系列を生成する処理を前記コンピュータに実行させる請求項１に記載の異常候補抽出プログラム。
コンピュータが、
複数の時系列データからそれぞれ生成した複数の擬似アトラクタを、パーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成し、
前記複数のベッチ系列から、前記ベッチ数を生成する際の半径が大きい領域を当該半径が小さい領域よりも重みづけた複数の変換ベッチ系列を生成し、
前記複数の変換ベッチ系列におけるベッチ数に基づき、前記複数の時系列データから異常候補を抽出する、
処理を実行する異常候補抽出方法。
複数の時系列データからそれぞれ生成した複数の擬似アトラクタを、パーシステントホモロジ変換して得られたベッチ数による複数のベッチ系列を生成する第１生成部と、
前記複数のベッチ系列から、前記ベッチ数を生成する際の半径が大きい領域を当該半径が小さい領域よりも重みづけた複数の変換ベッチ系列を生成する第２生成部と、
前記複数の変換ベッチ系列におけるベッチ数に基づき、前記複数の時系列データから異常候補を抽出する抽出部と
を有する異常候補抽出装置。