WO2021149528A1

WO2021149528A1 - イベント予測システム、イベント予測方法およびプログラム

Info

Publication number: WO2021149528A1
Application number: PCT/JP2021/000606
Authority: WO
Inventors: 崇人本田; 靖子櫻井; 光希川畑; 保志櫻井
Original assignee: 国立大学法人大阪大学
Priority date: 2020-01-22
Filing date: 2021-01-12
Publication date: 2021-07-29
Also published as: JP7440938B2; US20230058585A1; JPWO2021149528A1

Abstract

イベント予測システム（１）は、特徴量抽出部（１２）と予測部（１３）とを備える。特徴量抽出部（１２）は、工場の複数wの設備にそれぞれ配置された複数種dのセンサから期間ｎごとに収集される時系列センサデータの多次元時系列テンソルＸから時間方向、設備方向の動的パターンのモデルパラメータ{m,r,Ｓ，Θ,Ｆ}の抽出を継続的に行い、さらに、モデルパラメータ{m,r,Ｓ，Θ、Ｆ}を用いて多次元時系列テンソルＸをモデル化情報Ｚとその誤差情報εとを含む要約情報{Ｚ,ε}に順次特徴量化する。予測部（１３）は、要約情報{Ｚ,ε}を入力として所定時間ls先でのアラートラベルｙの発生確率pを出力する。これにより、時系列センサデータから特徴量を抽出して要約することで、簡易な構成で長期的かつ高精度なイベント予測を行う。

Description

イベント予測システム、イベント予測方法およびプログラム

　本発明は、時系列センサデータに基づくイベント予測技術に関する。

　近年、製造業においては製造工場のスマート化が推し進められている。大量のセンサを使用して生産ラインの稼働状況を常に監視し、その様子を時系列データとして蓄積、分析することにより、機器の異常検知（非特許文献２５，３２）や品質管理（非特許文献１４）等、あらゆる側面から生産性を向上する取り組みが行われている。これらの取り組みに共通する重要な課題は、収集した大規模データからの効果的な知見獲得と、それに基づく将来予測技術の開発である。特に、製造工場から得られる時系列データは複数のドメイン（設備、センサ、時間など）を持つ複雑なデータであり、多角的なパターンを持つことが多い。生産ラインにおいては、複数の作業工程（パターン）の時間遷移のみならず、複数ラインでの並列作業によって生まれる作業ラインごとに共通／相違なパターンを持つ。不良品や設備故障の要因を効果的に捉えるためには、このような多角的かつ動的なパターンを柔軟に表現すると同時に、それらの間に隠された因果関係を明らかにする必要がある。

　加えて、スマート工場で想定されるタスクでは、故障や不具合、加工精度の低下など、各イベントの発生を事前に把握することで、対策の選択肢が広がる。つまり、大規模センサデータの将来予測技術は、より長期的な予測能力を有することが望ましい（非特許文献１５）。

　センサデータの解析に関する研究は、データベースやデータマイニング等、様々な分野で進められている（非特許文献２，１７，１９，２２，２４，２５）。自己回帰モデル（AR: auto regressive model）、線形動的システム(LDS: linear dynamical systems) は代表的な技術であり，これらに基づくセンサデータの解析と予測手法が数多く存在する（非特許文献１３）。

　Regime-Cast（非特許文献１５）は、大量に生成され続ける多次元センサデータから非線形動的システムをリアルタイムに推定し、適応的に将来を予測し続ける能力を持つ。しかし、この手法はセンサストリームを入力とし、センサデータの実測値の予測において高い性能を示すが、正常／異常といったイベントデータの予測には対応していない。

　また、時系列ビッグデータを対象としたパターン発見とクラスタリングも重要な課題である（非特許文献８，１０，１１，１６，２８，２９，３１）。Matsubaraら（非特許文献１８）は、大規模イベントテンソルの解析手法として、TriMineを提案した。TriMineは、与えられたデータを複数のトピックに分類し、潜在的なトレンドやパターンを検出するが、Web上のクリックログのような離散イベントデータを対象としており、IOTセンサデータのような時系列シーケンスの動的パターンやそのグループ（レジーム）を表現することができず、扱う問題が異なる。加えて、TriMineはイベントを予測する能力を持たない。

　Deep Neural Networkに基づく非線形動特性の解析に関する研究も盛んである（非特許文献３，９，２６，２７）。Qinらは非特許文献２１において、入力時系列の中で重要な次元と次元削減後の特空間で重要な次元を２階層にわたりモデル化することで、高精度に株価を予測する手法を提案した。一方で、本研究のように、不連続に発生するイベントを予測するタスクではイベントの発生強度（Intensity）をモデル化する手法が主流である（非特許文献５，６，２０，３０）。例えば、RMTPP（非特許文献５）は、過去のイベント履歴から次に発生するイベントの時刻と種類を予測するための非線形モデルを提案している。しかし、これらの手法はイベント履歴のみから構成されるカテゴリカルデータを対象としており、センサからの実測値で構成される連続データによるイベント予測を行うことはできない。

C.　M.　Bishop.　Pattern　Recognition　and　Machine　Learning　(Information　Science　and　Statistics).　Springer,　2006. G.　E.　Box,　G.　M.　Jenkins,　and　G.　C.　Reinsel.　Time　Series　Analysis:　Forecasting　and　Control.　Prentice　Hall,　Englewood　Cliffs,　NJ,　3rd　edition,　1994. P.　Chen,　S.　Liu,　C.　Shi,　B.　Hooi,　B.　Wang,　and　X.　Cheng.　Neucast:　Seasonal　neural　forecast　of　power　grid　time　series.　In　IJCAI,　pages　3315-3321,　2018. K.　Cho,　B.　van　Merrienboer,　D.　Bahdanau,　and　Y.　Bengio.　On　the　Properties　of　Neural　Machine　Translation:　Encoder-Decoder　Approaches.　arXiv　e-prints,　page　arXiv:1409.1259,　Sep　2014. N.　Du,　H.　Dai,　R.　Trivedi,　U.　Upadhyay,　M.　Gomez-Rodriguez,　and　L.　Song.　Recurrent　marked　temporal　point　processes:　Embedding　event　history　to　vector.　In　KDD,　pages　1555-1564,　2016. N.　Du,　Y.　Wang,　N.　He,　and　L.　Song.　Time-sensitive　recommendation　from　recurrent　user　activities.　In　NIPS,　pages　3492-3500,　2015. J.　G.　DAVID　FORNEY.　The　viterbi　algorithm.　In　Proceedings　of　the　IEEE,　pages　268-278,　1973. D.　Hallac,　S.　Vare,　S.　Boyd,　and　J.　Leskovec.　Toeplitz　inverse　covariance-based　clustering　of　multivariate　time　series　data.　In　KDD,　pages　215-223,　2017. S.　Hochreiter　and　J.　Schmidhuber.　Long　short-term　memory.　Neural　Comput.,　9(8):1735-1780,　Nov.　1997. T.　Honda,　Y.　Matsubara,　R.　Neyama,　M.　Abe,　and　Y.　Sakurai.　Multi-aspect　mining　of　complex　sensor　sequences.　In　ICDM,　2019. K.　Kawabata,　Y.　Matsubara,　and　Y.　Sakurai.　Automatic　sequential　pattern　mining　in　data　streams.　In　CIKM,　pages　1733-1742,　2019. D.　P.　Kingma　and　J.　Ba.　Adam:　A　method　for　stochastic　optimization.　CoRR,　abs/1412.6980,　2015. L.　Li,　J.　McCann,　N.　Pollard,　and　C.　Faloutsos.　Dynammo:　Mining　and　summarization　of　coevolving　sequences　with　missing　values.　In　KDD,　2009. Y.　Li,　J.　Wang,　J.　Ye,　and　C.　K.　Reddy.　A　multi-task　learning　formulation　for　survival　analysis.　In　KDD,　pages　1715-1724,　2016. Y.　Matsubara　and　Y.　Sakurai.　Regime　shifts　in　streams:　Realtime　forecasting　of　co-evolving　time　sequences.　In　KDD,　2016. Y.　Matsubara,　Y.　Sakurai,　and　C.　Faloutsos.　Autoplait:　Automatic　mining　of　co-evolving　time　sequences.　In　SIGMOD,　pages　193-204,　2014. Y.　Matsubara,　Y.　Sakurai,　and　C.　Faloutsos.　The　web　as　a　jungle:　Non-linear　dynamical　systems　for　co-evolving　online　activities.　In　WWW,　pages　721-731,　2015. Y.　Matsubara,　Y.　Sakurai,　C.　Faloutsos,　T.　Iwata,　and　M.　Yoshikawa.　Fast　mining　and　forecasting　of　complex　timestamped　events.　In　KDD,　pages　271-279,　2012. Y.　Matsubara,　Y.　Sakurai,　B.　A.　Prakash,　L.　Li,　and　C.　Faloutsos.　Rise　and　fall　patterns　of　information　diffusion:　model　and　implications.　In　KDD,　pages　6-14,　2012. H.　Mei　and　J.　Eisner.　The　neural　hawkes　process:　A　neutrally　self-modulating　multivariate　point　process.　In　NIPS,　pages　6757-6767,　2017. Y.　Qin,　D.　Song,　H.　Chen,　W.　Cheng,　G.　Jiang,　and　G.　W.　Cottrell.　A　dual-stage　attention-based　recurrent　neural　network　for　time　series　prediction.　In　IJCAI,　pages　2627-2633,　2017. T.　Rakthanmanon,　B.　J.　L.　Campana,　A.　Mueen,　G.　E.　A.　P.　A.　Batista,　M.　B.　Westover,　Q.　Zhu,　J.　Zakaria,　and　E.　J.　Keogh.　Searching　and　mining　trillions　of　time　series　subsequences　under　dynamic　time　warping.　In　KDD,　pages　262-270,　2012. J.　Rissanen.　A　Universal　Prior　for　Integers　and　Estimation　by　Minimum　Description　Length.　Ann.　of　Statist,　11(2):416-431,　1983. Y.　Sakurai,　Y.　Matsubara,　and　C.　Faloutsos.　Mining　and　forecasting　of　big　time-series　data.　In　SIGMOD,　pages　919-922,　2015. Y.　Sakurai,　S.　Papadimitriou,　and　C.　Faloutsos.　Braid:　Stream　mining　through　group　lag　correlations.　In　SIGMOD,　pages　599-610,　2005. I.　Sutskever,　O.　Vinyals,　and　Q.　V.　Le.　Sequence　to　sequence　learning　with　neural　networks.　In　NIPS,　pages　3104-3112.　2014. Tsungnan　Lin,　B.　G.　Horne,　P.　Tino,　and　C.　L.　Giles.　Learning　long-term　dependencies　in　narx　recurrent　neural　networks.　IEEE　Transactions　on　Neural　Networks,　7(6):1329-1338,　1996. P.　Wang,　H.　Wang,　and　W.　Wang.　Finding　semantics　in　time　series.　In　SIGMOD　Conference,　pages　385-396,　2011. S.Wang,　K.　Kam,　C.　Xiao,　S.　R.　Bowen,　and　W.　A.　Chaovalitwongse.　An　efficient　time　series　subsequence　pattern　mining　and　prediction　framework　with　an　application　to　respiratory　motion　prediction.　In　AAAI,　pages　2159-2165,　2016. S.　Xiao,　J.　Yan,　X.　Yang,　H.　Zha,　and　S.　Chu.　Modeling　the　intensity　function　of　point　process　via　recurrent　neural　networks,　2017. R.　Zhao　and　Q.　Ji.　An　adversarial　hierarchical　hidden　markov　model　for　human　pose　modeling　and　generation.　In　AAAI,　2018. Y.　Zhou,　H.　Zou,　R.　Arghandeh,　W.　Gu,　and　C.　J.　Spanos.　Non-parametric　outliers　detection　in　multiple　time　series　A　case　study:　Power　grid　data　analysis.　In　AAAI,　2018.

　以上説明したように、従来、時系列テンソルデータを対象とし、かつ時系列パターンに関する事前知識を必要とせず、時系列データの特徴的なパターンを用いてイベント予測を行うイベント予測方法乃至システムは提案されていない。

　本発明は、上記に鑑みてなされたもので、時系列テンソルデータを対象とし、データの要約処理を介して、長期的かつ高精度なイベント予測を可能にするイベント予測システム、その方法およびプログラムを提供するものである。

　本発明に係るイベント予測システムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第１の特徴量抽出手段と、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第２の特徴量抽出手段と、前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段とを備えたものである。

　また、本発明に係るイベント予測方法は、コンピュータの第１の特徴量抽出部が、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集され、記憶部に記憶された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行って前記記憶部に記憶し、前記コンピュータの第２の特徴量抽出部が、前記モデルパラメータ及び前記時系列センサデータを前記記憶部から読み出して、前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化して前記記憶部に記憶し、前記コンピュータの予測部が、前記要約情報を前記記憶部から読み出して入力とし、所定時間先での所定のイベントの発生確率を出力するものである。

　また、本発明に係るプログラムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第１の特徴量抽出手段、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第２の特徴量抽出手段、及び前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段として、コンピュータを機能させるものである。

　これらの発明によれば、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に時系列センサデータが収集され、収集された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出が、第１の特徴量抽出手段によって継続的に行われる。次いで、第２の特徴量抽出手段によって、前記モデルパラメータを用いて前記時系列センサデータがモデル化情報とその誤差情報とを含む要約情報に順次特徴量化される。そして、予測手段によって、前記要約情報を入力として所定時間先での所定のイベントの発生確率が出力される。従って、時系列センサデータ内に含まれる時系列パターンに関する事前知識を必要とせず、パターン（レジーム）の変化点と潜在的な振る舞いとが、例えば時間遷移と観測対象間の多角的な観点とから把握される。また、大規模な時系列センサデータの特徴的なパターンを発見し、それらを用いて長期間先のイベント予測が可能となる。なお、センサの配置は、観測対象に直接設置され、乃至観測対象を遠隔的に観測可能な態様で設置でもよい。

　本発明によれば、時系列センサデータから多角的に特徴量を抽出して要約することで、簡易な構成で長期的かつ高精度なイベント予測を可能にする。

本発明に係るイベント予測システムの一実施形態を示す全体ブロック図である。本発明が適用例であるスマート工場データから取り込んだ情報の処理状況の一例を示す図で、（ａ）は、オリジナルのセンサデータを示し、（ｂ）は、オリジナルデータからのパターン検出結果を示し、（ｃ）、（ｄ）は、オリジナルデータに基づき、所定時間後に非常停止した場合（ｄ）と、そうでない場合（ｃ）との典型的なレジーム例を示した図である。本発明に係る提案モデルの概要を示す図である。本発明に係る提案アルゴリズムの基本的な概念を説明するための遷移図である。予測先のステップ数l_sを変化させたときの精度の比較図である。ネットワーク学習時に使用するミニバッチのウインドウ幅を変化させたときの予測精度の比較図である。予測結果の適合率（Precision）と再現率（Recall）とを示す比較図である。検出セグメント数mに対する本予測システムの予測精度の変化を示す図である。学習サンプル数と予測精度との関係性を示す図である。設備数w、センサ数d、シーケンス長nをそれぞれ変化させたときの本予測システムの計算コストを示す図である。

　本発明は、好ましくは大規模の時系列センサデータのためのイベント予測手法に関する。本発明は、一例として、（facility, sensor, time）の３つ組で構成される、例えば工場設備センサデータから、複数の観点に基づく多角的な時系列パターンを統合的に解析要約し、将来の長期的なイベント予測を行う技術に関する。より具体的には、工場に取り付けられた各設備における回転速度、稼働電圧、設備温度などのセンサデータの実測値で構成される時系列データが与えられたとき、（a）基本的な時系列パターン、各設備間における共通パターンや設備固有のパターンを抽出し、統計的に要約することで、(b)将来的なイベント予測を行う。さらに、これらの処理は、(c)データサイズに対して線形である。なお、後述するように、実データを用いた実験では、本予測手法が工場設備のセンサデータに含まれる特徴的な時系列パターンを多角的に捉え、長期的なイベント予測を行うことを確認し、さらに、後述するように最新の既存手法（比較例）と比較し、大幅な精度、性能向上を達成していることを明らかにした。

　すなわち、本予測システムは、時系列データに含まれる典型的なパターン（以下、レジームという）の数と変化点とを多角的に捉え、システムの稼働状況を正確に把握することで、将来発生するイベントを予測する。より具体的には、複数箇所の設備で複数のセンサから収集された大規模時系列センサデータが与えられたとき、所定時間後すなわちl_sステップ先のイベントを予測する。

　さらに具体的には、(a)センサデータの中から多角的なパターンとその変化点を検出し、それらを要約情報としてまとめることで、(b)長期的かつ高精度な予測の実現に供する。さらに、(c)これらの処理を高速に行う。

　以下、図面を参照して本発明を説明する。図１は、本発明に係るイベント予測システム（以下、予測システム１）の全体ブロック図を示す。本予測システム１は、例えば工場などの複数の設備としての観測対象２０，…に設置されたそれぞれのセンサ群２１からの、稼働状況に関連する大規模時系列センサデータを有線又は無線の通信路を介して収集する構成と、取り込んだ各時系列データから特徴量を抽出し、さらに所定時間後でのイベント予測処理を実行するプロセッサ（ＣＰＵ）からなる制御部１０を有するコンピュータとを備えている。また、本実施形態では、機械学習を利用しており、予測処理に適用されるパラメータを、機械学習を通して更新するようにしている。図１の詳細は後述する。

　まず、予測処理の理解のために、図２に記載された具体例で説明する。図２は、観測対象２０（図１）の一例としてのスマート工場からのセンサデータであって、予測処理に供する（入力するための）情報を示している。図２（ａ）は、オリジナルのセンサデータを示しており、５つの設備（＃１～＃５）からの、各センサ群２１（図１）の一例として収集される３つのセンサ値（回転速度：Speed、稼働電圧：Load、設備温度：Temp）で構成されている。図２（ａ）中、黒矩形で塗られた箇所は、対応する設備が非常停止中であることを示す。なお、図２（ａ）の稼働電圧：Loadの波形は、回転速度：Speedの波形とおおむね重複している。図２（ｂ）は、本予測システムによる、オリジナルデータからのパターン抽出結果を示している。図２（ｂ）中の縦線は、時系列パターンが変化した時刻を示し、同一レジームに属するセグメントは同一の濃淡色で表されている。予測システム１は、複数の設備から得られた時系列データを同時に解析することにより、多角的なパターン、すなわち、各設備内のパターンの時間遷移だけでなく、設備間で共通あるいは相違するパターンを検出することが可能である。

　図２（ｃ）（ｄ）には、オリジナルデータの中から、l_s = 200ステップ（約１７分）後に非常停止した場合とそうでない場合との典型的な例を示した。図２（ｃ）（ｄ）の左側は、セグメンテーション結果を示す。右側のθ₁～θ₅は、それぞれ共通の時系列パターン（すなわちレジーム）を表し、それらの遷移の様子を可視化したものである。p200の値は、図２（ｃ）（ｄ）の左側の図にあたる部分シーケンスとそのパターン検出結果が与えられたとき、本予測システムが出力した200ステップ先での非常停止確率である。図２（ｃ）（ｄ）の右側の図において、より多くの遷移が検出されたレジーム間には、太い矢印が表示される。また、円の大きさはレジームの発生期間の大きさを示す。図２（ｄ）を見ると、設備が非常停止する前に回転速度Speedが上昇（θ₅）しており、その傾向はレジームθ₄、θ₅の遷移が現れることによって表現されている。実際に、本予測システム１は、非常停止を正確に予測し、p200が高い値を示している。すなわち、データに含まれる潜在的なパターンを検出することで、非常停止に至る過程を多角的に分析できるだけでなく、それらの要約情報を用いることで長期的かつ高精度な予測が可能となる。なお、図２（ｃ）では、レジームθ₂、θ₃、θ₂、θ₁、θ₂のような非常停止の予兆のない遷移が見られ、p200も低い値を示している。

　本予測システム１で扱う工場設備センサデータの一例として、三菱重工エンジン＆ターボチャージャ株式会社で、2017年10月1日に稼働した５５設備における３種類のセンサデータを示す。本データは、(facility, sensor, time) の３つ組で表現され、それぞれ、w個の設備、d種のセンサ、nの期間（例えば５秒単位）からなる。かかるセンサデータは、３階のテンソルＸ ∈ Ｒ^w×d×nとして表現することができ、テンソルＸの要素x_ij(t)は、時刻ｔにおけるｉ番目の設備のｊ番目のセンサでの計測値を示す。本実施形態では、かかるセンサデータを多次元時系列テンソルと呼ぶ。

　本予測システム１は、与えられた時系列テンソルＸから、l_sステップ先の設備アラートを予測するものであり、そのために必要な処理を以下に示す。

　すなわち、時系列テンソルＸ(t_s:t_e)が与えられたとき、l_sステップ先のアラートラベルｙ(t_e+l_s)を次の式（１）に基づいて予測する。

　　　у(t_e+l_s) ≒Ｆ(Ｘ(t_s:t_e))　　　　(1)
　なお、t_s:t_eは、予測に使用するシーケンスのウインドウ（現時点から過去方向に所定の期間）を表し、Ｆを提案モデルとする。

　ここでは、アラートラベルｙ(t_e+l_s)を高精度に予測するために、確率モデルと深層学習に基づくモデルを構築し、与えられたセンサデータから、例えば故障（アラート）の要因となる高次元かつ非線形な動的特性を抽出する。具体的には、本予測システム１は、次の３つの処理(P1),(P2),(P3)を実行する。

(P1) 潜在的な動的パターンの多角的な検出
(P2) 動的パターンに基づく特徴抽出
(P3) l_sステップ先の長期予測
　まず、各処理(P1),(P2),(P3)について、図１との関連を説明する。図１において、制御部１０には、記憶部１００、例えば後述するウインドウの表示を行うなどの表示部１２１、及び外部からの指示を受け付ける操作部１２２が接続されている。記憶部１００は、制御プログラム記憶部１０１、各センサ群２１から入力される時系列センサデータを記憶するデータストリーム記憶部１０２、及び予測処理に適用される、人工知能（ＡＩ）を構成するニューラルネットワークモデルのパラメータ（各エッジの重みなど）を記憶するパラメータ記憶部１０３を備える。制御プログラム記憶部１０１は、後述するイベント予測処理を実行するためのプログラムデータ及び必要な各種の演算式データを格納する。また、記憶部１００は、データストリーム記憶部１０２の他、後述する各処理「(P1)潜在的な動的パターンの多角的な検出」、「(P2)動的パターンに基づく特徴抽出」及び処理「(P3)l_sステップ先の長期予測」の実行中に得られる夫々のデータを一時的に保管するワークエリア（記憶部）を有する。

　制御部１０は、制御プログラムが実行されることで、データ取込処理部１１、特徴量抽出部１２、予測部１３、及びパラメータ更新部１４として機能する。データ取込処理部１１は、各観測対象２０（工場の各設備）のセンサ群２１からの時系列センサデータをネットワーク１１０を経由して取り込む。

　特徴量抽出部１２は、後述する、処理「(P1)潜在的な動的パターンの多角的な検出」、及び「(P2)動的パターンに基づく特徴抽出」を実行する。予測部１３は、処理「(P3)l_sステップ先の長期予測」を実行する。本実施形態では、予測部１３は、パラメータ記憶部１０３からのパラメータを適用して予測処理を行う。各処理の詳細は後述する。

　機械学習装置３０は、プロセッサを内蔵するコンピュータからなる制御部３００、記憶部３１０を備えると共に、表示部３２１、操作部３２２を備える。記憶部３１０は、学習プログラム記憶部３１１、データストリーム記憶部３１２及びパラメータ記憶部３１３を備える。データストリーム記憶部３１２は、各センサ群２１から入力される時系列センサデータを通信で、または外部メモリを介して取り込んで、あるいはデータストリーム記憶部１０２に一旦書き込まれたデータを取り込んで記憶する。

　制御部３００は、学習プログラム記憶部３１１からの学習プログラムが実行されることで、データ取込処理部３０１、特徴量抽出部３０２及び機械学習部３０３として機能する。データ取込処理部３０１は、データ取込処理部１１と同様で、さらに取り込みデータの取り込み期間を適宜に自動乃至マニュアルで設定（例えば直近の１週間分など）可能である。特徴量抽出部３０２は、必要に応じて設けられ、例えば工場設備の変更その他の状況変化に応じて前記処理(P1)、(P2)の条件を適宜調整して処理を確認する。

　機械学習部３０３は、好ましくは直近の所定期間分の時系列センサデータに対して、例えば「教師あり学習」などを適用して機械学習を行い、学習結果であるパラメータをパラメータ記憶部３１３に保管し、かつ必要に応じてパラメータ更新部１４を介して、あるいは機械学習装置３０の操作部３２２からの指示を受けてパラメータ記憶部１０３を更新する。なお、機械学習は、別体の機械学習装置３０の態様の他、各種の態様が採用可能である。例えば、入力データは、データストリーム記憶部１０２から所定期間分を取り出すようにしてもよい。また、システム停止期間（例えば夜間）を利用するなどして、予測部１３を利用して学習を実行し、学習結果であるパラメータを更新する態様でもよい。

　次に、「提案モデル」の概要と必要な定義を、表１のように示す。

＜提案モデル＞
(P1) 潜在的な動的パターンの検出
　多次元時系列テンソルＸが与えられたとき、本予測システムはまず、Ｘをm個のセグメント集合Ｓ={s₁,. . . ,s_m}に分割してその特徴をとらえる。s_iはｉ番目のセグメントの開始点t_s、終了点t_e、設備番号で構成され（すなわち、s_i= {t_s,t_e,facilityID}）、各セグメントは重複がないものとする。そして、発見したセグメント集合を類似セグメントのグループに分類する。本予測システムではこれらのグループを「レジーム」と呼ぶ。

　・定義１（レジーム）
　rを最適なセグメントグループの個数とする。それぞれのセグメントsは、セグメントグループの１つに割り当てられる。さらに、各セグメントが所属するレジームを表現するため、新たにセグメントメンバーシップを定義する。

　・定義２（セグメントメンバーシップ）
　多次元時系列テンソルＸが与えられたとき、Ｆ={f₁, . . . ,f_m}を、m個の整数列とし、f_iをｉ番目のセグメントが所属するレジームの番号とする（1≦ f_i≦r）。

　これにより、多次元時系列テンソルＸをm個のセグメントとr個のレジームとで、{m,r,Ｓ,Θ,Ｆ} として表現することができる。次に、本予測システムは、得られたレジーム情報に基づき、多次元時系列テンソルＸを統計モデル化し、重要な特徴を抽出する。

(P2)動的パターンに基づく特徴抽出
　それぞれのレジームは、統計モデルΘ={θ₁, . . . ,θ_r,Δ_r×r}として表現される。本研究では、多次元時系列テンソルＸの振る舞いを表現するため、隠れマルコフモデル(HMM:Hidden Markov Model)を用いる。HMMは、隠れ状態を持つマルコフ過程を仮定した確率モデルの一種であり、音声認識を含む様々な分野において、時系列処理手法として広く利用されている。HMMは、初期確率Π={π_i}^k _i=1、遷移確率Ａ={a_ij}^k _i,j=1、出力確率Ｂ={b_i(x)}^k _i=1の３つ組で表現される（すなわち、θ={Π,Ａ,Ｂ}）。ここで、kは、HMMの潜在状態数を示す。本予測システムでは、出力確率Ｂが多次元ガウス分布から生成されるものとする。これにより多次元ベクトルのシーケンスを確率モデルで表現する（すなわちＢ～{Ｎ(μ_i,σ² _i)}^k _i=1)。HMMのモデルパラメータθ={Π,Ａ,Ｂ}と、入力データとしてあるユーザのシーケンスхが与えられた時、хの尤度Ｐ(х|θ)は、次式（数１）のように計算される。

　ここで、p_i(t)は、時刻tにおける潜在状態ｉの最大確率を示し、nは、хのシーケンス長である。この尤度は、図４に示す遷移図に基づき、動的計画法の一種であるビタビアルゴリズム（非特許文献７）を用いて計算される。ここでさらに、新たな概念としてレジーム遷移行列Δ_r×rを導入する。

　・定義３（レジーム遷移行列）
　Δ_r×rをr個のレジーム群の遷移行列と呼ぶ。ここで、要素δ_ij∈Δ は、ｉ番目のレジームからｊ番目のレジームへの遷移確率を示す。すなわち、0≦δ_ij≦1,Σ_jδ_ij= 1という条件を持つ。上記のモデルを用いて、多次元時系列テンソルＸを、以下に示すHMMの潜在状態系列Ｚとモデル化した際の誤差εとで要約し、特徴量化することで、高精度かつ長期的な予測を実現する。

　・定義４（潜在状態テンソル）
　設備ごとのHMMの潜在状態系列Ｚ={Z₁,. . . ,Z_w}を潜在状態テンソルと呼ぶ。ここで、Z_i={z_ij(1),. . . ,z_ij(n)}^d _j=1 であり、z_ij(t)は、自身と同じ潜在状態に属するデータ集合xの平均と分散の組{μ,σ}で構成される。

　・定義５（誤差テンソル）
　多次元時系列テンソルＸを潜在状態テンソルＺでモデル化した際の誤差ε={E₁, . . . ,E_w}を誤差テンソルと呼ぶ。本予測システムでは、HMMの出力確率Ｂが多次元ガウス分布に従うと仮定しているため、ｉ番目の設備のｊ番目のセンサにおける時刻tでの誤差e_ij(t) ∈ E_i は、以下の（数２）ように表現される。

　すなわち，時系列テンソルＸを、(Ｐ1)で得られたレジーム情報{m,r,Ｓ,Θ,Ｆ} に基づきＸ≒IGPDF(Ｚ,ε)となるような潜在状態テンソルＺと誤差テンソルεとによって要約し、重要な特徴を抽出する。ここで、IGPDF(Inverse　Gaussian　Probability　Density　Function) は、ガウス分布における確率密度関数の逆関数を表す。

(P3)lsステップ先の長期予測
　結論として、前記式（１）は、以下の式（２）のように書き換えられる。

　ここで、Ｆは、予測モデルを表す。すなわち、時系列テンソルＸが与えられたとき、提案手法は、Ｘを潜在状態テンソルＺと誤差テンソルεとで要約することで重要な特徴を抽出し、それらに提案モデルＦを適用し、l_sステップ先の長期的な予測を高精度に行う。

＜処理(P1),(P2),(P3)についてのアルゴリズム＞
　上記では、多次元時系列テンソルＸを要約し、効果的に予測するための提案モデルについて述べた。ここでは、前記式（１）を解決するためのアルゴリズムについて説明を行う。ここで問題となるのは、どのようにレジームやセグメントの数を決定するかである。本予測システムは、最小記述長（MDL:Minimum Description Length）の概念に基づき、適切なモデルを生成するための基準となる符号化スキームを導入する。

1.モデル選択とデータ圧縮
　直感的には、データが与えられたときのモデルのよさは、次の式（３）で表現できる。

　ここで，Cost_M(M)は、モデルMを表現するためのモデルコストを示し、Cost_C(X|M) は、モデルMが与えられたときのテンソルＸの符号化コストを示す。αは、符号化コストに対する重み（デフォルトでは、α＝1）であり、αの値が大きいほどより実データに正確なモデルを生成する（すなわち、セグメントの数m、レジームの数rが大きくなる）。

　・モデルコスト
　具体的には、本予測システムの全パラメータ集合の表現コストは、以下の要素で構成される。

　なお、上記^＊２に示すlog^＊は、整数のユニバーサル符号長を表し、log^＊(x)≒log_２(x)＋log_２log_２(x)＋…である（非特許文献２３）。また、浮動小数点のコストをc_Fとすると、k個の状態を持つ単一のレジームパラメータθは、Cost_M(θ)=log^＊(k)+c_F(k+k²+2kd)、レジーム遷移行列Δは、Cost_M(Δ)=c_Fr²のコストを要する。

・符号化コスト
　モデルパラメータが与えられたときのＸの符号化コストは、ハフマン符号を用いた情報圧縮により、負の対数尤度を用いて次の（数６）のように表現することができる。

　ここで、iと(i-1)番目のセグメントは、それぞれuとv番目のレジームに所属するものとし、Ｘ[s_i]は、Ｘに含まれるセグメントs_iで構成される部分シーケンスを表す。P(Ｘ[s_i]|θ_u)は、θ_uが与えられたときのＸ[s_i]の尤度とする。結論として、提案アルゴリズムは、前記式（３）を最小化するようにＸに含まれる時系列パターンの数rとその変化点の数mを決定する。

　次いで、データをコスト関数に基づき要約しながら、長期的なラベル予測を実現するための具体的なアルゴリズムについて詳述する。

2.アルゴリズムの概要
　本予測システムは、次のアルゴリズムで構成される。

　・REGIMEGENRATION (P1)：テンソルＸに含まれる時系列パターンの種類と変化点を検出する。各時系列パターンのダイナミクスをモデルパラメータΘとして表現し、モデルパラメータ集合{m,r,Ｓ,Θ,Ｆ}を得る。

　・FEATUREEXTRACTION (P2)：時系列パターンの要約情報{m,r,Ｓ,Θ,Ｆ}を用いて、オリジナルテンソルＸを潜在状態テンソルＺと誤差テンソルεとで表現する。

　・SPLITCAST (P3)：{Ｚ,ε}のうち、あるウインドウt_s:t_eの部分シーケンス{Ｚ(t_s:t_e),ε(t_s:t_e)}から故障の予兆となる特徴を抽出し、l_s先の故障ラベルｙ(t_e+l_s)を予測する。

　図３は、提案モデルの概要を示す。テンソルＸが与えられたとき、提案手法は、Ｘの時系列パターンの時間遷移と設備固有のパターンを捉え，それに基づいてＸを{Ｚ,ε}で要約する。最終的に、得られた{Ｚ,ε}からl_sステップ先でのアラートラベルを予測し、出力する。

3.RegimeGeneration(P1)
　ここではアルゴリズムの詳細を述べる。時系列解析における根本的な問題は、時系列データに内在する隠された構造があるかどうかである。ここで扱う多次元時系列テンソルＸは、複数の観点からの特徴を持つ。すなわち、時間ドメインの特徴と設備ドメインの特徴である。具体的には、スマート工場から得られる時系列センサデータは、各工程の時間遷移パターンと、設備固有のパターンとを持つ。そこで、以下では、与えられた時系列テンソルの根底にある構造を簡潔に要約した、多角的なパターン発見と、グループ化を同時に行う。

　ここで、時系列テンソルの多角的解析のためのアルゴリズムであるV-SplitとH-Splitを提案する。V-Splitは、時間方向の観点からレジームを推定し、H-Splitは、設備ごとの特性をレジームとして表現する。これら２つのアルゴリズムを任意方向に行うことで効率的かつ効果的に重要なパターンを多角的に発見し、レジームとして要約する。具体的には、式（３）に基づき、以下の２つのアルゴリズムを繰り返す。

　・V-Split：テンソルＸから時間遷移するパターンとその変化点を検出し、２つのグループ（すなわちレジーム）に分割する。それら２つのレジームに対し、モデルパラメータ{θ₁,θ₂,Δ}を推定する。

　・H-Split：テンソルＸに表れる、ある１つのレジームから設備ごとの特徴を抽出し、２つのレジームに分割後、それらのレジームのモデルパラメータを推定する。

　上記のアルゴリズムにより、r = 1, 2, . . . とレジーム数が変化していく。もし、レジームθ₀を２つのレジーム{θ₁,θ₂}に分割した際、コスト関数（式（３））の値が大きくなればθ₀は最適とみなし、それ以上分割しない。生成された全てのレジームについて同様にコスト計算を繰り返し、コストが下がらなくなるまで上記の分割アルゴリズムを繰り返す。最終的に、コストが収束したときのセグメント、レジーム、モデルパラメータ{m,r,Ｓ,Θ,Ｆ}を出力して、RegimeGenerationを終了する。

　続いて、分割アルゴリズムV-Split、H-Splitのそれぞれについて述べる。

　(3-1)V-Split
　多次元時系列テンソルＸが与えられたとき、V-Splitは時間遷移の観点から２つのレジームを検出し、それらのモデルパラメータ{θ₁,θ₂,Δ}を推定する。高精度なモデルを生成するため、本予測システムは、セグメント／レジームの検出とモデルパラメータの更新を以下のように繰り返し行う。

　・(Phase 1) V-Assignment：２つのモデルパラメータが与えられたとき、それらに基づいて２つのセグメントセット{Ｓ₁,Ｓ₂}とパターンの変化点とを抽出する。

　・(Phase 2) ModelEstimation：２つのセグメントセットが与えられたとき、それらに基づいてモデルパラメータ{θ₁,θ₂,Δ}を更新する。

　V-Splitの概要をアルゴリズム１（表２）に示す。上記のアルゴリズム１は期待値最大化法（EM:Expectation maximization）に基づいており、それぞれのフェーズがE，Mステップに対応している。

　まず、最も単純な部分問題として、テンソルＸと２つのモデルパラメータ{θ₁,θ₂,Δ}が与えられている場合を考える。V-Assignmentは、レジームのモデルパラメータに基づき、Ｘのパターンの変化点を検出することができる（表２のステップ５～７）。提案アルゴリズムの基本的な概念を説明するため、図４の遷移図を示す。２つのレジーム{θ₁,θ₂}の遷移を接続し、時刻ごとに２つのレジームの符号化コストを比較しながら、与えられたレジーム間のパターン遷移を推定する。本アルゴリズムは動的計画法の一種であるビタビアルゴリズム（非特許文献７）に基づき、符号化コストCost_T(Ｘ|Θ)=-ln P(Ｘ|Θ)を計算する。具体的には、尤度P(Ｘ|Θ)は、次の（数７）ように計算される。

　ここで、P(Ｘ|Θ)_iは、i番目のレジームθ_iへ遷移する時の尤度を示す。例として、P(Ｘ|Θ)₁は、次の（数８）ように計算される。

　ここで、p_1;i(t)は、時刻tでのレジームθ₁の潜在状態iの最大確率を表し、δ₂₁は、レジームθ₁からθ₂へのレジーム遷移確率、max_u{p_2;u(t-1)}は、前時刻t-1でのθ₂の尤もらしい潜在状態である確率、π_1;iは、θ₁の潜在状態iの初期確率、b_1;i(x(t))は、θ₁の潜在状態iに対するx(t)の出力確率、そしてa_1;jiは、θ₁の潜在状態iから潜在状態jへの遷移確率を表す。ここで、時刻t=1において、レジームθ₁である確率は、p_1;i(1)=δ₁₁π_1;ib_1;i(x(t))で与えられる。なお、モデルパラメータの推定には、BaumWelchアルゴリズム（非特許文献１）を用い、レジーム遷移確率Δ={δ₁₁,δ₁₂,δ₂₁,δ₂₂}を次の（数９）のように計算する。

　ここで、Σ_s∈S1 |s|は、レジームθ₁に所属するセグメントの長さの総和を表し、N₁₂は、θ₁からθ₂へのレジームの切り替え回数を示す。δ₂₁,δ₂₂についても同様に計算できる。

　(3-2)H-Split
　これまで、時系列テンソルＸの中から時間方向の特徴を捉えるためのアルゴリズム１のV-Splitについて説明した。現実問題として、時系列テンソルＸは、パターンの時間遷移だけでなく、設備ごとの個体差を持っている。例えば、ある２つの設備において、同じ部品を加工する場合であっても、工程ごとに設備間でのセンサデータの振る舞いに個体差が生じる。本予測システムでは、このような設備固有の特徴を捉え、効果的にモデル化するためのアルゴリズムであるH-Splitを提案する。直感的には、本アルゴリズム２は、V-Splitと同様に、（Phase 1）レジーム分割と（Phase 2）モデル推定との２つのフェーズを繰り返し行うことで、適切なレジームとそのモデルパラメータを推定する。V-Splitと異なるのは、設備固有の特徴を捉えるためのアルゴリズムH-Assignment（Phase 1）である。H-Assignmentの概要をアルゴリズム２（表３）に示す。なお、（表３）に示すアルゴリズムは、（表２）中のステップ５の「V-Assignment」に対応する部分に該当し、H-Splitは、H-Assignmentに置き換えた内容で（表２）を実行すればよい。

　これまでの典型的なクラスタリングアルゴリズムと異なり、H-Assignmentは、効果的に設備固有のパターンを抽出する。具体的には、テンソルＸとモデルパラメータ{θ₁,θ₂}が与えられたとき、アルゴリズム２は、設備iのセグメントをあるレジームθに割り当てたときの符号化コストを以下の（数１０）のように計算し、よりコストが小さくなるレジームに設備iのセグメントを割り当てる。

　ここで、X[i]={s₁, s₂,. . . }は、設備iのセグメントのセットである。すなわち、同じ設備のセグメントは同じレジームに属するよう制約されている。

4.FeatureExtraction(P2)
　ここまでは、多次元時系列テンソルから任意のタイミングで変化する時系列パターンを多角的に検出するためのアルゴリズムについて説明した。次に、故障発生の長期的な予測を実現するために、時系列データから故障の原因、あるいは予兆を示す特徴を抽出することである。一般に、高いサンプリングレートで収集されるセンサデータは、多くのノイズを含み、監視するシステムが複雑であるほどその正確なふるまいをモデル化することが難しくなる。そこで本予測システムでは、時系列パターンの特徴を利用してＸを抽象化し、故障の予兆を効果的に抽出する手法を提案する。具体的には、時系列テンソルＸとモデルパラメータ集合{m,r,Ｓ,Θ,Ｆ}とが与えられたとき、Ｘを時系列パターンに基づく潜在状態テンソルＺとモデル化した際の誤差テンソルεとに分割する。

　今、r個のレジーム集合Θ={θ₁, . . . ,θ_r}が与えられたとすると、各時刻tにおける、設備iのデータx_i(t)={x_ij(t)}^d _j=1は、Θ内のレジームのいずれかの状態z_i(t)に変換される。ここで、z_i(t)は、自身と同じ状態に属する全データポイントの平均と分散の組{μ,σ}を示す。すなわち、潜在状態テンソルの次元は、Ｚ∈R^w×2d×nとなる。続いて、Θが与えられたときの、時刻tにおける設備iのセンサjの計測値x_ij(t)∈Ｘの符号化誤差を事後確率p(x_ij(t)|θ)で表現する。すなわち、時系列テンソルＸ全体の符号化誤差は、ε∈R^w×d×nである。最終的に、２つの特徴を結合した系列Ｘ’∈R^w×3d×nを出力する。以上の処理により、入力データの情報を失うことなく、学習モデル推定の際に時系列方向の潜在的なふるまいを考慮することができる。

5.SPLITCAST(P3)
　本予測システムの最終的な目標は、与えられた時系列テンソルＸから、l_sステップ先の長期的な予測を高精度に行うことである。ラベル予測タスクの典型的な手法として、近年では深層学習に基づく手法が数多く提案されている。深層学習に基づく手法は、中間層を多層にしたり、中間層のユニット数を増やしたりすることで柔軟な学習を実現できる一方、層数やユニット数が増えるほど学習パラメータが多くなり計算時間が長くなる。また、過学習の問題もあり、問題を解決するためのテクニックが数多く存在する一方、どれも経験則に基づくものであり、人手を介した非常に細かなチューニングが必要となる。そこで本予測システムは、確率モデルに基づく特徴抽出手法と深層学習手法を組み合わせ、実データから抽出された特徴的な時系列パターンを学習することで、より小さなネットワークで学習でき、過学習の問題を軽減しながら効率的かつ効果的なアラートラベル予測を実現する。

　具体的には、テンソルＸ’={Ｚ,ε}の時間発展の様子をモデル化するために、図３に示すように、LSTM(Long-short　term　memory)（非特許文献９）を適用する。LSTMは、入力サンプルを時系列データとして扱い、高次元の非線形ダイナミクスを学習可能にする深層学習モデルのひとつである。LSTMは、RNN（Recurrent　neural　network) の中間層のユニットをメモリユニットと呼ばれる特殊な構造に置き換えたもので、入力ゲート、出力ゲート、忘却ゲートの３種類を使用して時刻tのユニット値c_tとユニットの出力値h_tとを制御する。各ゲートの出力値をそれぞれi_t, o_t, f_tとすると、LSTMの順伝播は、以下の式（数１１）で表される。

　本予測システムでは、活性化関数にsigmoid関数を使用する。LSTMは、公知のように、メモリユニットによって与えられた入力系列の長期依存性を学習することができるため、レジーム遷移とレジーム内部の状態遷移の過程で設備故障に対して特に重要な特徴を記憶しながら、設備の最新の稼働状況を要約した特徴ベクトルを抽出すると考えられる。

　最後に、h_tを用いてl_sステップ先のラベル予測を行う。本実施形態では、時刻tにおける最新の部分シーケンスからのl_s先の故障予測を２クラス分類タスクとして扱い、出力を時刻t+l_sにおける故障発生確率とする。したがって、本予測システムの最終的な出力は、（数１２）で示すようになる。

　また、本予測システムにおけるモデルが最小化すべき目的関数は、BCE(Binary cross entropy)となり、モデル学習時のバッチサイズをＮ、各入力サンプルiに対する本予測システムにおける出力値をy^{^} _iとすると、（数１３）で示すように表される。

　ここで重要な点として、本予測システムは、比較的小さなユニット数(=10)、かつシンプルな構造のモデルを用いながら、以下の評価実験に示すように、非常に高い性能を示している。

(5-1)理論的な分析
　本予測システムでの計算量は、データサイズに対し線形(O(wdn))である。以下、この補助（実質的な）定理について説明する。

　各反復処理において、V-Assignment、H-Assignment、およびModelEstimationは、符号化コストとモデルパラメータの推定のためにO(wdnk²)の計算量を要する。ここで、wは設備数、dは次元数、nは時系列の長さ、kはレジーム{θ_i}^r _i=1の中の隠れ状態の数を示す。よって、RegimeGeneration (P1)の計算量は、O(#iter wdnk²)である。ここで、反復回数#iterと隠れ状態の個数kとは非常に小さい定数であるため、無視することができる。よって、RegimeGeneration の計算量は、O(wdn)となる。FeatureExtraction (P2)においては、各設備、各センサ、各時刻の潜在状態とモデル化した際の誤差を出力するため、計算量はO(wdn)である。最終的に、得られたモデルをユニット数uのLSTMで学習する際、計算量はO(u² wdn)となる。ここで、本予測システムにおいては、複雑なニューラルネットワークを想定しておらず、ニューラルネットワークのユニット数uは、非常に小さい定数であるため無視できる。従って、本予測システムでの計算量はO(wdn)である。

＜評価実験＞
　本予測システムの有効性を検証するため、図２の具体例を適用して、実データを用いた実験を行った。本実験では、以下の項目について検証した。

(1)設備故障の長期的予測に対する提案手法の精度
(2)設備のリアルタイム監視に対する計算時間の検証
実験は128GBのメモリ、NVIDIA TITAN V 12GBのGPU搭載のLinux（登録商標）(Ubuntu 18.04 LTS)マシン上で実施した。また、データセットは、平均値と分散値で正規化(z-normalization)して使用した。

1.本予測システムの予測精度
　与えられた時系列テンソルに対する故障予測精度について検証した。比較例として、一般的な２値予測モデルであるロジスティック回帰(LR:Logistic regression)（非特許文献１）と再帰型ニューラルネットワークモデルであるRNN(Recurrent neural network)、GRU(Gated　recurrent　unit)（非特許文献４）、LSTMとを採用した。LRでは、他の再帰型モデルを推定する際にミニバッチとして与える部分シーケンスから平均値、分散値、最大値、最小値を算出し、４次元の特徴ベクトルとしてラベル予測を行った。RNN，GRU，LSTMでは、実データを入力としてラベル予測を行った。

　本予測システムに関して、予測ステップ数200、ウインドウサイズ400、符号化コストの重み(α=)1.0をデフォルトとして実験を行った。また、本予測システム(Proposed、図５)を含むすべての再帰型モデルについて、中間層のユニット数を10、出力層のユニット数は5とし、最適化アルゴリズムにはAdam（非特許文献１２）を使用した。評価指標にはAccuracyを使用し、５分割交差検証を行なった際の平均値を比較した。

　使用したデータセットは、三菱重工エンジン＆ターボチャージャ株式会社で2017年10月から3ヶ月間実際に稼働し、ベアリング・ハウジング加工を行っていた55の工場設備に取り付けられた、回転速度(Speed)、稼働電圧(Load)、設備温度(Temp) の３つのセンサによって５秒間隔で取得されたものである。スライディングウインドウで学習用サンプルを生成しており、設備自体が稼働していないときのサンプルは省いている。正常稼働時のサンプル数が62983、非常停止前のサンプル数が1069あり、学習に偏りが生じるため、非常停止時のサンプル数に正常稼働時のサンプル数を揃え、結果として1069×2サンプルを用い実験を行った。

　(1)予測先ステップ数を変化させたときの予測精度
　図５は、予測先のステップ数l_sを変化させたときの精度の比較図である。図中、比較例の種別表記とデータ表示順（左右）とは対応している。本実験は、異なるl_sごとにサンプルを生成し、学習と予測を行った。比較例は、ランダムに予測した場合と同程度(Accuracy=0.5)の予測精度を示す一方で、本予測システムでは、いずれの条件下でも優れた性能を示している。この結果から、非常停止の要因は、温度の上昇や稼働電圧の低下といった単純なものではなく、非線形性を有する複雑な事象だと考えられる。本予測システムは、実データに含まれる時系列パターンを考慮して各時刻のダイナミクスを捉えることができるため、他の再帰型モデルと比べて効果的に非常停止の要因を抽出することに成功した。

　(2)ウインドウサイズを変化させたときの予測精度
　図６は、ネットワーク学習時に使用するミニバッチのウインドウ幅を変化させたときの予測精度の比較図である。本予測システムは、異なるウインドウ幅のデータに対しても安定して高い性能を示している。

　(3)予測結果の適合率と再現率
　図７は、予測結果の適合率（Precision）と再現率（Recall）とを示す図である。適合率は、予測されたイベントの合計数とそのうち正解であったイベントの合計数の割合を示す。再現率は、全てのイベントの正解値の数と予測されたイベントの中で正解した合計数の割合を示す。両者とも、精度が高い場合には、１に近づく。本予測システムはどちらの指標に対しても優れた性能を示している。

　(4)発見セグメント数に対する予測精度
　図８は、検出セグメント数mに対する本予測システムの予測精度を示す図である。符号化コストの重みであるαを、0.1～10まで変化させながら、検出セグメント数を増減させた。図８に示すように、本予測システムによって分割したセグメントの数によって予測精度は大きく変化している。mが小さい場合、時系列データから十分な要約情報を得ることができず予測精度が低下している。また、mが大きい場合にも同様に、要約情報が実データに近づくため予測精度が低下している。この結果からも、時系列テンソルからのパターン検出が故障予測の精度向上に有効であると考えられる。本実験では、m=1000のとき、最も良い結果(Accuracy=0.88)が得られた。結論として、本予測システムは比較例に対し、平均して約６２％もの精度向上を達成した。

　(5)学習サンプル数と予測精度の関係
　実運用において、学習サンプルが少ない場合、十分な精度を得られない可能性がある。図９は、学習サンプル数と予測精度との関係性を示す図である。本予測システムは、少ないサンプル数においても比較例より高い性能を示しており、学習サンプル数が増大するにつれて、より高い精度で故障イベントを予測することができている。

2.提案手法の計算速度
　図１０は、設備数w、センサ数d、シーケンス長nをそれぞれ変化させたときの本予測システムの計算コストを示す図である。より具体的には、入力データを時系列パターンに分割し、モデルの学習を10 epoch分、終えたときの計算時間である。本予測システムは、与えられた時系列テンソルから効率的に時系列パターンを検出するため、すべての実験においてデータサイズに線形な計算量であり（すなわち、O(wdn)）、大規模センサデータの解析に適した手法であることが分かった。

　以上のように、本予測システムは、例えば工場設備で得られた実データを用いて実験を行い、本予測システムが複雑な時系列パターンを適切にモデル化し、長期的な故障予測を高精度に行えることが確認でき、さらに既存の比較例と比較して大幅な精度と性能の向上を達成していることが確認できた。

　なお、本発明は、工場設備に対するアラートイベントの予測に限らず、車載の各種センサを利用して各車両の走行状態による故障などのアラートラベル予測、各種の生体情報に基づくアラートラベルの予測などに適用可能である。また、アラートラベルは、不良、故障、品質低下の他、適用対象に応じて種々のアラート内容を設定することが可能である。また、予測処理は、人工知能（ＡＩ）に限定されず、他の手法を採用してもよい。

　以上説明したように、本発明に係るイベント予測システムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第１の特徴量抽出手段と、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第２の特徴量抽出手段と、前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段とを備えることが好ましい。

　また、本発明に係るイベント予測方法は、コンピュータの第１の特徴量抽出部が、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集され、記憶部に記憶された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行って前記記憶部に記憶し、前記コンピュータの第２の特徴量抽出部が、前記モデルパラメータ及び前記時系列センサデータを前記記憶部から読み出して、前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化して前記記憶部に記憶し、前記コンピュータの予測部が、前記要約情報を前記記憶部から読み出して入力とし、所定時間先での所定のイベントの発生確率を出力することが好ましい。

　また、本発明に係るプログラムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第１の特徴量抽出手段、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第２の特徴量抽出手段、及び前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段として、コンピュータを機能させることが好ましい。

　また、前記第１の特徴量抽出手段は、前記動的パターンを時間方向及び前記観測対象間におけるセグメント及びそのパターン化を行って検出することが好ましい。この構成によれば、動的パターンが多角的に抽出されるので、精度の低下を抑止しつつ処理に要するデータ量の低減が図れる。

　また、前記第１の特徴量抽出手段は、前記セグメントの個数の設定を、コスト関数を用いて行うことが好ましい。この構成によれば、時系列センサデータのセグメント化において、セグメント数がコスト関数によってデータ量及び処理時間を考慮した最適値に設定される。

　また、前記予測手段は、ニューラルネットワークモデルに設定されたパラメータに基づいて前記所定のイベントの発生確率を得ることが好ましい。この構成によれば、小型かつシンプルな構造のモデルで高精度の予測が可能となる。

　また、前記予測手段は、ニューラルネットワークモデルにLSTM(Long-short　term　memory)を適用することが好ましい。この構成によれば、LSTMによって、深層学習モデルでの適用が可能であり、また、入力系列の長期依存性を学習することができるため、長期間先の高精度での予測が可能となる。

　また、本発明は、前記第２の特徴量抽出手段で得た前記要約情報を所定期間分取り込み、前記予測手段と同一の構成を有する学習用予測手段で機械学習をさせ、学習結果で得られたパラメータを前記予測手段に更新する機械学習装置を備えることが好ましい。この構成によれば、予測精度を漸次向上させることが可能となる。

　１　イベント予測システム
　１１　データ取込処理部
　１２　特徴量抽出部（第１、第２の特徴量抽出手段）
　１３　予測部
　１４　パラメータ更新部
　１００　記憶部
　２０　観測対象
　２１　センサ群
　３０　機械学習装置

Claims

　複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第１の特徴量抽出手段と、
　前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第２の特徴量抽出手段と、
　前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段とを備えたイベント予測システム。
　前記第１の特徴量抽出手段は、前記動的パターンを時間方向及び前記観測対象間におけるセグメント及びそのパターン化を行って検出する請求項１に記載のイベント予測システム。
　前記第１の特徴量抽出手段は、前記セグメントの個数の設定を、コスト関数を用いて行う請求項２に記載のイベント予測システム。
　前記予測手段は、ニューラルネットワークモデルに設定されたパラメータに基づいて前記所定のイベントの発生確率を得る請求項１に記載のイベント予測システム。
　前記予測手段は、ニューラルネットワークモデルにLSTM(Long-short　term　memory)を適用することを特徴とする請求項４に記載のイベント予測システム。
　前記第２の特徴量抽出手段で得た前記要約情報を所定期間分取り込み、前記予測手段と同一の構成を有する学習用予測手段で機械学習をさせ、学習結果で得られたパラメータを前記予測手段に更新する機械学習装置を備えた請求項４に記載のイベント予測システム。
　コンピュータの第１の特徴量抽出部が、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集され、記憶部に記憶された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行って前記記憶部に記憶し、
　前記コンピュータの第２の特徴量抽出部が、前記モデルパラメータ及び前記時系列センサデータを前記記憶部から読み出して、前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化して前記記憶部に記憶し、
　前記コンピュータの予測部が、前記要約情報を前記記憶部から読み出して入力とし、所定時間先での所定のイベントの発生確率を出力するイベント予測方法。
　複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第１の特徴量抽出手段、
　前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第２の特徴量抽出手段、及び
　前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段として、コンピュータを機能させるプログラム。