JP2021163162A - 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体 - Google Patents

学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体 Download PDF

Info

Publication number
JP2021163162A
JP2021163162A JP2020063701A JP2020063701A JP2021163162A JP 2021163162 A JP2021163162 A JP 2021163162A JP 2020063701 A JP2020063701 A JP 2020063701A JP 2020063701 A JP2020063701 A JP 2020063701A JP 2021163162 A JP2021163162 A JP 2021163162A
Authority
JP
Japan
Prior art keywords
value
data
data processing
learning
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020063701A
Other languages
English (en)
Other versions
JP7205514B2 (ja
Inventor
善行 神宮
yoshiyuki Jingu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokogawa Electric Corp
Original Assignee
Yokogawa Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokogawa Electric Corp filed Critical Yokogawa Electric Corp
Priority to JP2020063701A priority Critical patent/JP7205514B2/ja
Priority to US17/206,731 priority patent/US20220036235A1/en
Priority to EP21164597.3A priority patent/EP3889850A1/en
Priority to CN202110351043.4A priority patent/CN113468151B/zh
Publication of JP2021163162A publication Critical patent/JP2021163162A/ja
Application granted granted Critical
Publication of JP7205514B2 publication Critical patent/JP7205514B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

【課題】学習データの品質を高めることができる学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体を提供する。
【解決手段】学習データ処理装置10は、学習モデルを生成する学習装置30において用いられる学習データを少なくとも1種類の測定値を含む時系列データに基づいて生成するデータ処理部12を備える。データ処理部12は、時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、所定期間に含まれる測定値のうち外れ値判定上限値以上又は外れ値判定下限値以下の少なくとも一方となる測定値を時系列データから除外する第1除外処理、又は、時系列データに含まれる測定値のうち所定条件を満たす測定値を時系列データから除外する第2除外処理のうち少なくとも一方の除外処理を実行する。
【選択図】図3

Description

本開示は、学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体に関する。
従来、教師データを学習して判定モデルを生成する学習データ処理装置が知られている(例えば、特許文献1参照)。
特開2018−77757号公報
判定モデルの精度を高めるために、判定モデルの学習のために用いられるという観点で学習データの品質を高めることが求められる。
本開示は、上述の点に鑑みてなされたものであり、学習データの品質を高めることができる学習データ処理装置、学習データ処理方法、及び学習データ処理プログラムを提供することを目的とする。
幾つかの実施形態に係る学習データ処理装置は、学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成するデータ処理部を備える。前記データ処理部は、前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ判定上限値又は外れ判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ判定上限値以上又は前記外れ判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1除外処理、又は、前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2除外処理のうち少なくとも一方の除外処理を実行する。このようにすることで、学習データ処理装置は、異常な測定値、又は、測定対象が稼働していない期間に得られる測定値を特定して学習データから除外できる。その結果、学習データの品質が高められる。
一実施形態に係る学習データ処理装置において、前記データ処理部は、前記第1除外処理及び前記第2除外処理を両方とも実行してよい。このようにすることで、学習データ処理装置は、第1除外処理又は第2除外処理の一方の除外処理だけを実行する場合と比較して、異常な測定値、及び、測定対象が稼働していない期間に得られる測定値を特定しやすくなる。その結果、学習データの品質が高められる。
一実施形態に係る学習データ処理装置において、前記第1除外処理は、測定値の前記統計値と、前記統計値に基づく外れ判定上限値又は外れ判定下限値の少なくとも一方とを算出し、前記複数の所定期間のそれぞれに含まれる測定値のうち前記外れ判定上限値以上又は前記外れ判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する処理を含んでよい。このようにすることで、時系列データに含まれる全ての測定値を対象として除外データを特定する場合と比較して、異常な測定値の検出精度が高められる。その結果、学習データの品質が高められる。
一実施形態に係る学習データ処理装置において、前記複数の所定期間は、第1所定期間と、前記第1所定期間のうちの一部の期間である第2所定期間とを含み、前記第1除外処理は、前記第1所定期間に含まれる測定値の第1統計値と、前記第1統計値に基づく第1外れ値判定上限値又は第1外れ値判定下限値の少なくとも一方を算出し、前記第1所定期間に含まれる測定値のうち前記第1外れ値判定上限値以上又は前記第1外れ値判定下限値以下の少なくとも一方となる測定値を除外する第3除外処理と、前記第3除外処理を実行することによって得られた除外後の測定値のうち前記第2所定期間に含まれる除外後の測定値の第2統計値と、前記第2統計値に基づく第2外れ値判定上限値又は第2外れ値判定下限値の少なくとも一方を算出し、前記第2所定期間に含まれる前記除外後の測定値のうち前記第2外れ値判定上限値以上又は前記第2外れ値判定下限値以下の少なくとも一方となる測定値を除外する第4除外処理とを含んでよい。このようにすることで、除外データとして特定されることが望まれる測定値を除外データとして特定しやすくする。つまり、異常な測定値の検出精度が高められる。その結果、学習データの品質が高められる。
一実施形態に係る学習データ処理装置において、前記データ処理部は、前記時系列データの自己相関に基づいて前記第2所定期間の長さを設定してよい。このようにすることで、異常な測定値の検出手段が時系列データに合わせて構成される。その結果、学習データの品質が高められる。
幾つかの実施形態に係る学習データ処理方法は、学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成する。前記学習データ処理方法は、前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ判定上限値又は外れ判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ判定上限値以上又は前記外れ判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1ステップ、又は、前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2ステップのうち少なくとも一方のステップを含む。このようにすることで、学習データ処理装置は、異常な測定値、又は、測定対象が稼働していない期間に得られる測定値を特定して学習データから除外できる。その結果、学習データの品質が高められる。
幾つかの実施形態に係る学習データ処理プログラムは、プロセッサに、学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データのうちの1つ又は複数の所定期間に基づいて生成させる。前記学習データ処理プログラムは、前記時系列データに含まれる測定値の統計値と、前記統計値に基づく外れ判定上限値又は外れ判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ判定上限値以上又は前記外れ判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1ステップ、又は、前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2ステップのうち少なくとも一方のステップを前記プロセッサに実行させる。このようにすることで、学習データ処理装置は、異常な測定値、又は、測定対象が稼働していない期間に得られる測定値を特定して学習データから除外できる。その結果、学習データの品質が高められる。
幾つかの実施形態に係る非一時的なコンピュータ読み取り可能な媒体は、プロセッサに、学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成させる学習データ処理プログラムを格納する。前記学習データ処理プログラムは、前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ値判定上限値以上又は前記外れ値判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1ステップ、又は、前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2ステップのうち少なくとも一方のステップを前記プロセッサに実行させる。このようにすることで、学習データ処理装置は、異常な測定値、又は、測定対象が稼働していない期間に得られる測定値を特定して学習データから除外できる。その結果、学習データの品質が高められる。
本開示によれば、学習データの品質を高めることができる学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体が提供される。
比較例に係る学習データ処理システムを示すブロック図である。 時系列データの一例を示すグラフである。 一実施形態に係る学習データ処理システムの構成例を示すブロック図である。 異常な測定値を含む時系列データの例を示すグラフである。 図4の時系列データに含まれる測定値の出現確率を正規分布で近似したグラフである。 時系列データ及び移動データの例を示すグラフである。 時系列データの自己相関の一例を示すグラフである。 学習データ処理方法の手順の一例を示すフローチャートである。
(比較例)
図1に示されるように、比較例に係る学習システム9は、測定対象から測定値を取得するデータ入出力装置92と、学習装置93と、学習モデル記憶装置94と、判定装置95とを備える。学習システム9は、測定値をモデルに適用することによって測定対象のメンテナンスのタイミングを判定する。学習システム9は、測定値を適用するモデルとして、学習データに基づく学習モデルを生成する。
データ入出力装置92は、測定値と時刻データとが対応づけられた時系列データを取得する。データ入出力装置92は、測定値を取得するセンサを含んでよい。データ入出力装置92は、センサに接続されるインタフェースを含んでもよい。センサは、測定対象の物理量を測定して測定値として出力する。時刻データは、センサが測定対象の物理量を測定した時刻に対応する。
学習装置93は、データ入出力装置92から学習データとなる時系列データを取得し、学習データに基づいて学習モデルを生成する。
学習モデル記憶装置94は、学習装置93が生成した学習モデルを格納する。
判定装置95は、データ入出力装置92から評価対象データとなる時系列データを取得し、評価対象データを学習モデルに基づいて評価する。
図2に、学習データとなる時系列データの一例が示される。図2の横軸は時刻を表す。縦軸は測定値を表す。時系列データは、期間P1と、期間P2と、期間P3とを含む。期間P1は、データ入出力装置92が測定対象又はセンサに接続されたり設置されたりしている期間に対応する。期間P2は、測定対象が稼働している期間に対応する。期間P3は、測定対象が停止している期間に対応する。
学習装置93は、期間P1、P2及びP3のデータを全て含む時系列データに基づいて、学習モデルを生成する。
ここで、判定装置95は、測定対象が稼働しているときに取得するデータに基づいて測定対象の状態を判定する。判定に用いられるモデルとして、測定対象の状態にかかわらず全てのデータに基づいて生成された学習モデルよりも、測定対象が稼働している期間P2のデータだけに基づいて生成された学習モデルが適している。言い換えれば、測定対象が稼働している期間P2のデータだけを抽出した学習データは、全てのデータを含む学習データよりも、学習モデルを生成することに適している。
学習装置93は、学習モデルの生成に適した学習データに基づいて学習モデルを生成することが求められる。つまり、学習モデルを生成する観点において学習データの品質を高めることが求められる。
また、仮に、学習データの抽出を手動で行う場合、多大な労力を費やす必要があり実現困難である。学習データの品質を簡便に高めることが求められる。
そこで、本開示は、学習データの品質を高めることができる学習データ処理装置10(図3参照)について説明する。
(実施形態)
図3に示されるように、本開示の一実施形態に係る学習システム1は、学習データ処理装置10と、データ入出力装置20と、学習装置30と、学習モデル記憶装置40と、判定装置50と、データ記憶装置60と、出力装置70とを備える。
<学習システム1の機能の概要>
学習システム1は、測定対象の物理量を測定して得られた測定値にモデルを適用することによって測定対象の状態を評価し、測定対象に対してとるべきアクションを判定する。測定対象は、例えばプラントの配管若しくはポンプ等の設備、又は、電気設備等を含んでよい。また、学習システム1は、プラントに限られず、センサによって物理量を測定する必要がある設備等を有するサイト等にも適用される。つまり、測定対象は、サイトの設備を含んでよい。
測定対象の物理量は、例えば、配管又はポンプ等の振動を表す加速度又は速度を含んでよい。測定対象の物理量は、例えば、配管又はポンプ等の表面温度を含んでもよい。測定対象の物理量は、例えば、電気設備に含まれる回路に流れる電流又は回路に印加される電圧等を含んでもよい。測定対象の物理量は、これらの例に限られず、圧力、流量、音圧、又はpH等の種々の物理量を含んでもよい。
測定対象の状態は、例えば、プラントが稼働しているときに配管を流れる液体又は気体の流量によって表されてよい。測定対象の状態は、例えば、プラントが稼働しているときの配管の振動の大きさによって表されてもよい。測定対象の状態は、プラントの管理者又は保全作業者等が視覚、聴覚、触覚又は嗅覚等の人間の感覚で認識できる状態を含んでもよいし、人間の感覚で認識できない状態を含んでもよい。測定対象に対してとるべきアクションは、例えば、プラントを停止させて点検することを含んでもよいし、清掃又は部品交換を含んでもよい。
学習システム1は、測定対象において測定された過去の測定値を含む学習データに基づく学習モデルを生成する。学習データは、測定対象の1つの物理量の測定値又は複数の物理量それぞれの測定値を含んでよい。つまり、学習データは、測定対象の少なくとも1種類の物理量の測定値を含んでよい。学習データは、測定対象の1つ又は複数の位置において測定された測定値を含んでよい。学習データは、1つ又は複数の時刻において測定された測定値を含んでよい。学習データは、測定対象の管理者又は保全作業者等が感覚で認識した測定対象の状態と、測定値とを対応づける情報を含んでよい。学習データは、測定対象の管理者又は保全作業者等が測定対象の状態を感覚で認識して判断できるアクションと、測定値とを対応づける情報を含んでよい。
学習システム1は、測定対象の測定値に学習モデルを適用することによって測定対象の状態を評価する。学習システム1は、測定対象の状態の評価結果を出力したり、評価結果に基づいて測定対象に対してとるべきアクションを判定したりする。
<学習システム1の各構成部の説明>
以下、学習システム1の各構成部の具体例が説明される。
データ入出力装置20は、測定値と時刻データとが対応づけられた時系列データを取得し、学習データ処理装置10に出力する。データ入出力装置20は、データ記憶装置60に接続され、データ記憶装置60に格納されている時系列データを取得してもよい。データ入出力装置20は、測定値を取得するセンサを含んでよい。データ入出力装置20は、センサに接続されるインタフェースを含んでもよい。データ入出力装置20は、センサから取得した測定値と、測定値を取得した時刻データとを対応づけて時系列データを生成してもよい。時系列データは、所定周期で取得された測定値を含んでもよい。所定周期は、例えば、1時間であってよいし、1日であってよいし、他の種々の値であってもよい。時系列データは、不定の間隔で取得された測定値を含んでもよい。
センサは、測定対象の物理量を測定して測定値として出力する。時刻データは、センサが測定対象の物理量を測定した時刻に対応する。センサは、配管等の振動を速度又は加速度として検出する振動センサを含んでよい。センサは、配管の表面等の温度を検出する温度センサを含んでよい。センサは、配管等に設けられている圧力ゲージから圧力を検出する圧力センサを含んでよい。センサは、これらの例に限られず、種々の物理量を検出するセンサを含んでよい。
データ入出力装置20は、測定対象の運転情報を取得し、学習データ処理装置10に出力してもよい。測定対象の運転情報は、測定対象が稼働しているか停止しているかを表す情報を含んでよい。
データ入出力装置20は、測定対象の測定値を判定装置50に出力し、測定対象の測定値の評価結果を判定装置50から取得する。
学習データ処理装置10は、データ処理部12を備える。データ処理部12は、データ入出力装置20から時系列データを取得し、時系列データを処理して学習装置30において用いられる学習データを生成する。データ処理部12は、生成した学習データを学習装置30に出力してよい。データ処理部12は、生成した学習データをデータ記憶装置60又は他の記憶装置に格納してよい。学習装置30は、データ記憶装置60又は他の記憶装置から学習データを取得してもよい。データ処理部12は、CPU(Central Processing Unit)等のプロセッサを含んで構成されてよい。データ処理部12は、所定のプログラムを実行することによって、学習データ処理装置10の種々の機能を実現してよい。
データ処理部12は、記憶部を備えてよい。記憶部は、データ処理部12の動作に用いられる各種情報、又は、データ処理部12の機能を実現するためのプログラム等を格納してよい。記憶部は、データ処理部12のワークメモリとして機能してよい。記憶部は、例えば半導体メモリ等で構成されてよい。記憶部は、データ処理部12と別体で構成されてもよい。
学習データ処理装置10は、必須ではないが、入力部14を更に備える。入力部14は、測定対象の管理者又は保全作業者等のユーザからの入力を受け付ける入力デバイスを含んでもよい。入力部14は、入力デバイスによって、例えば、データ処理部12が時系列データを処理する方法を定義する情報の入力を受け付けてよい。入力デバイスは、例えば、キーボード又は物理キーを含んでもよいし、タッチパネル若しくはタッチセンサ又はマウス等のポインティングデバイスを含んでもよい。入力デバイスは、これらの例に限られず、他の種々のデバイスを含んでもよい。
学習装置30は、学習データ処理装置10から学習データを取得し、学習データに基づいて学習モデルを生成し、学習モデル記憶装置40に出力する。学習装置30は、CPU等のプロセッサを含んで構成されてよい。
学習モデル記憶装置40は、学習装置30が生成した学習モデルを格納する。学習モデル記憶装置40は、磁気ディスク等の電磁記憶媒体を含んで構成されてよい。学習モデル記憶装置40は、半導体メモリ等を含んで構成されてもよい。
判定装置50は、学習モデル記憶装置40から学習モデルを取得する。判定装置50は、データ入出力装置20から評価対象データとなる測定対象の測定値を含む時系列データを取得する。判定装置50は、測定対象の測定値に学習モデルを適用することによって評価し、評価結果に基づいて測定対象の状態を判定する。判定装置50は、測定対象の測定値に学習モデルを適用することによって、測定対象の評価結果に関する情報を生成するともいえる。判定装置50は、測定対象の評価結果に関する情報をデータ入出力装置20に出力する。測定対象の評価結果に関する情報は、データ入出力装置20からデータ記憶装置60に出力され、データ記憶装置60に格納されてよい。判定装置50は、CPU等のプロセッサを含んで構成されてよい。
測定対象の状態は、モデルのパラメータによって表され得る。モデルは、複数のパラメータを有してもよい。判定装置50は、測定対象から取得した測定値をモデルに適用してモデルのパラメータを算出する。判定装置50は、モデルのパラメータに基づいて測定対象の状態を判定する。判定装置50は、測定対象の状態をスコアとして表してもよい。スコアは、例えば、測定対象の劣化度を表す数値であってよい。この場合、スコアが所定値以上となった場合に測定対象のメンテナンスが必要であると判断されてもよい。
データ記憶装置60は、レコーダ等の測定データを格納する装置を含んでよい。データ記憶装置60は、磁気ディスク等の電磁記憶媒体を含んで構成されてよい。データ記憶装置60は、半導体メモリ等を含んで構成されてもよい。
出力装置70は、判定装置50による測定対象の状態の判定結果を出力して測定対象の管理者又は保全作業者等のユーザに通知する。出力装置70は、表示デバイスを含んで構成されてよい。表示デバイスは、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)を含んでよい。表示デバイスは、例えば、有機EL(Electro-Luminescence)ディスプレイ又は無機ELディスプレイを含んでもよい。表示デバイスは、プラズマディスプレイ(PDP:Plasma Display Panel)を含んでもよい。表示デバイスは、これらのディスプレイに限られず、他の種々の方式のディスプレイを含んでもよい。表示デバイスは、LED(Light Emission Diode)等の発光デバイスを含んでもよい。出力装置70は、スピーカ等の音声出力デバイスを含んで構成されてもよい。
<学習データの処理>
学習システム1において、学習装置30が生成する学習モデルの精度が高いほど、判定装置50は、測定対象の状態を高精度で判定できる。学習モデルの精度は、測定対象から得られた測定値に基づいて判定される測定対象の状態が実際の状態と一致する確率に対応し得る。また、学習モデルの精度は、測定対象から得られた測定値に基づいて算出される測定対象の状態を表すスコアが実際の状態に対応するスコアにどの程度近いかに対応し得る。
学習装置30は、学習データに基づいて学習モデルを生成する。学習装置30は、例えば測定対象の状態とその状態における測定値とを対応づける学習データに基づいて、未知の測定値が得られた場合に測定対象の状態を推定する学習モデルを生成する。測定対象の状態に対してほとんど又は全く相関を有していないデータは、学習モデルの精度を低下させるノイズデータである。学習モデルを生成するために用いられる学習データに含まれるノイズデータが少ないほど、学習装置30で生成される学習モデルの精度は高められ得る。
ここで、データ入出力装置20は、センサの測定値として、図2に例示される時系列データを取得すると仮定する。時系列データの期間P1は、測定対象にセンサが接続されたり設置されたりしている期間に対応する。期間P2は、測定対象が稼働している期間に対応する。期間P3は、測定対象が停止している期間に対応する。期間P2の時系列データは、測定対象の状態に対して高い相関を有している可能性が高く、測定対象の状態を判定するために有用なデータである。一方で、期間P1又はP3の時系列データは、測定対象が稼働しているときに得られるデータとは異なるデータであり、測定対象の状態に対してほとんど又は全く相関を有していないデータである。よって、期間P2の時系列データだけを学習データとして生成される学習モデルは、期間P1、P2及びP3の全期間の時系列データを学習データとして生成される学習モデルよりも高精度になり得る。つまり、期間P2の時系列データは、全期間の時系列データよりも、学習モデルを生成するために用いられる学習データとして適している。
また、時系列データは、センサによる測定の異常又は通信の異常等によって異常な測定値を含むことがある。ここで、データ入出力装置20は、センサの測定値として、図4に例示される時系列データを取得すると仮定する。図4のグラフの横軸は時刻を表す。図4のグラフの縦軸は測定値を表す。図4のグラフにおいて、Xで表されるデータは、前後の時刻のデータと比較して異常に低い値となっており、異常な測定値であるといえる。異常な測定値は、測定対象の状態に対してほとんど又は全く相関を有していないデータである可能性が高い。よって、異常な測定値を除外した時系列データに基づいて生成される学習モデルは、異常な測定値を含む時系列データに基づいて生成される学習モデルよりも高精度になり得る。つまり、異常な測定値を除外した時系列データは、異常な測定値を含む時系列データよりも、学習モデルを生成するために用いられる学習データとして適している。
学習システム1において、学習データ処理装置10のデータ処理部12は、データ入出力装置20から時系列データを取得し、取得した時系列データを学習データとして処理して学習装置30に出力する。データ処理部12は、学習モデルを生成するために適した学習データを学習装置30に出力できるように、時系列データに含まれる測定値から、所定の条件を満たす測定値を除外する。所定の条件を満たす測定値は、除外データとも称される。除外データは、例えば、測定対象が稼働していないときに得られる測定値を含む。除外データは、例えば、異常値であると判定された測定値を含む。つまり、除外データは、学習モデルを生成する観点において学習データの品質を低下させる測定値に対応する。以下、データ処理部12が除外データを特定して時系列データから除外する処理が例示され説明される。
<<外れ値除外処理>>
データ処理部12は、時系列データに含まれる全ての測定値(例えば、図2のP1、P2及びP3を含む全期間の測定値)の統計値を算出する。本実施形態において、データ処理部12は、統計値として測定値の平均値及び標準偏差を算出する。データ処理部12は、統計値として、例えば中央値、最大値若しくは最小値、又は、第1四分位若しくは第3四分位等の他の種々の統計量を算出してもよい。
データ処理部12は、統計値に基づいて、異常な測定値を除外する。データ処理部12が異常な測定値を除外する処理は、外れ値除外処理とも称される。データ処理部12は、例えば以下の手順で外れ値除外処理を実行してもよい。データ処理部12は、統計値に基づいて測定値が異常ではない、つまり測定値が正常であるといえる範囲を算出する。データ処理部12は、算出した範囲から外れる測定値を異常な測定値であると判定して除外データとして特定する。データ処理部12が判定に用いる範囲は、外れ値判定範囲とも称される。外れ値判定範囲は、上限又は下限の少なくとも一方によって特定される。外れ値判定範囲の上限及び下限は、それぞれ外れ値判定上限値及び外れ値判定下限値とも称される。データ処理部12は、外れ値判定下限値以下の測定値を異常な測定値であると判定してよい。データ処理部12は、外れ値判定下限値未満の測定値を異常な測定値であると判定してよい。データ処理部12は、外れ値判定上限値以上の測定値を異常な測定値であると判定してよい。データ処理部12は、外れ値判定上限値を超える測定値を異常な測定値であると判定してよい。
データ処理部12は、以下の手順で外れ値除外処理を実行してもよい。データ処理部12は、各測定値と平均値との差の絶対値を算出する。データ処理部12は、算出した絶対値が標準偏差に所定係数を乗じた値以上となる測定値を除外データとして特定する。このようにすることで、データ処理部12は、異常な測定値を除外できる。所定係数は、外れ値判定係数又は第1係数とも称される。外れ値判定係数は、例えば2に設定されてよいし3に設定されてもよい。外れ値判定係数は、これらの例に限られず、任意の正の実数に設定されてよい。標準偏差に外れ値判定係数を乗じた値は、外れ値判定閾値とも称される。
データ処理部12は、外れ値除外処理を実行することによって、測定ミス又は外乱の入力等によって発生した異常な測定値を、学習データから除外できる。その結果、学習データの品質が高められる。外れ値除外処理は、第1除外処理とも称される。
<<停止時データ除外処理>>
データ処理部12は、時系列データに含まれる所定の物理量の測定値が所定条件を満たす場合、その測定値を除外データとして特定する。具体的には、データ処理部12は、測定対象が稼働していない可能性が高いときに取得されたデータを除外データとして特定して除外する停止時データ除外処理を実行する。
データ処理部12は、例えば、加速度の測定値が所定閾値未満である場合、その測定値が得られたときに測定対象が稼働していない可能性が高いと判定し、その測定値を除外データとして特定してよい。また、データ処理部12は、例えば、温度の測定値が稼働中の温度範囲である所定範囲に含まれない場合、その測定値が得られたときに測定対象が稼働していない可能性が高いと判定し、その測定値を除外データとして特定してよい。データ処理部12は、除外データとして特定された測定値と同じ時刻に取得された他の物理量の測定値も除外データとして特定してよい。このようにすることで、測定対象が稼働していない可能性が高いときに取得されたデータが除外される。その結果、学習モデルの精度が高められ得る。
データ処理部12は、時系列データに含まれる測定値の分布に基づいて、所定閾値又は所定範囲を設定してもよい。データ処理部12は、例えば、時系列データに含まれる測定値の度数分布が2つ以上のピークを有する場合、ある2つのピークの間の測定値を所定閾値に設定してもよい。データ処理部12は、例えば、時系列データに含まれる測定値の度数分布が2つ以上のピークを有する場合、所定のピークを除外するように所定範囲を設定してもよい。
データ処理部12は、例えば、ある時刻における加速度の測定値が所定閾値未満である場合に、その時刻における他の物理量の測定値が除外されるように他の物理量の閾値を設定してもよい。
データ処理部12は、測定対象が稼働しているか停止しているかを特定する情報をデータ入出力装置20から取得してもよい。データ処理部12は、測定対象が稼働しているか停止しているかを特定する情報に基づいて、時系列データに含まれる測定値が、測定対象が稼働しているときに得られたか、測定対象が停止しているときに得られたかを判定できる。データ処理部12は、測定対象が稼働していないときに得られたと判定できる測定値を、除外データとして特定してもよい。
データ処理部12は、測定対象が稼働しているか停止しているかを特定する情報を取得できない場合でも、測定値が所定条件を満たすか判定することによって、測定対象が稼働していないときに得られた測定値を除外データとして特定できる。その結果、学習データの品質が高められる。停止時データ除外処理は、第2除外処理とも称される。
<<瞬時値除外処理>>
例えば図4に示される時系列データにおいて、Xで表される測定値は、除外データとして特定されることが望まれる。Xで表される測定値は、期間P6に含まれる他の測定値に対して大きい差を有する。一方で、Xで表される測定値は、全期間(期間P4)に含まれる測定値の一部の測定値(期間P5に含まれる測定値)に対して小さい差しか有しない。そうしてみると、全期間(期間P4)に含まれる測定値に対して上述の外れ値除外処理が実行された場合、Xで表される測定値は、除外データとして特定されにくい。
以下に述べるように、データ処理部12は、時系列データのうちの複数の所定期間に含まれる測定値の統計値と、その統計値に基づく外れ値判定範囲とを算出し、外れ値判定範囲から外れる測定値を除外データとして特定してもよい。つまり、データ処理部12は、時系列データのうちの複数の所定期間に含まれる測定値を対象として外れ値除外処理と同様に判定し、除外データを特定してよい。データ処理部12が時系列データのうちの複数の所定期間に含まれる測定値を対象として外れ値除外処理と同様に判定し、除外データを特定する処理は、瞬時値除外処理とも称される。
具体的には、データ処理部12は、以下の手順で瞬時値除外処理を実行する。データ処理部12は、所定期間として時系列データのうちの全部の期間を設定してもよいし、一部の期間を設定してもよい。所定期間は、例えば図4の期間P4、又は、P5若しくはP6に対応する。データ処理部12は、所定期間に含まれる測定値を対象として外れ値除外処理と同様に判定する。データ処理部12は、異なる所定期間に変更して、その所定期間に含まれる測定値を対象として外れ値除外処理と同様に判定する。つまり、データ処理部12は、異なる複数の所定期間それぞれに含まれる測定値を対象として外れ値除外処理と同様に判定する。
データ処理部12は、異なる複数の所定期間として、時系列データのうちの全部の期間(期間P4)に対応する第1所定期間と、時系列データのうちの一部の期間(期間P5又はP6)に対応する第2所定期間とを設定してもよい。
データ処理部12は、第1所定期間に含まれる測定値の統計値として第1統計値を算出し、第1統計値に基づく外れ値判定範囲として第1外れ値判定範囲を算出し、第1外れ値判定範囲から外れる測定値を除外データとして特定してもよい。第1外れ値判定範囲の上限及び下限は、それぞれ第1外れ値判定上限値及び第1外れ値判定下限値とも称される。データ処理部12が第1所定期間に含まれる測定値を対象として実行する外れ値除外処理は、第3除外処理とも称される。
データ処理部12は、第2所定期間に含まれる測定値の統計値として第2統計値を算出し、第2統計値に基づく外れ値判定範囲として第2外れ値判定範囲を算出し、第2外れ値判定範囲から外れる測定値を除外データとして特定してもよい。第2外れ値判定範囲の上限及び下限は、それぞれ第2外れ値判定上限値及び第2外れ値判定下限値とも称される。データ処理部12が第2所定期間に含まれる測定値を対象として実行する外れ値除外処理は、第4除外処理とも称される。データ処理部12は、時系列データの全期間の中で第2所定期間をスライドさせながら第4除外処理を実行してもよい。
他に、データ処理部12は、以下の手順で瞬時値除外処理を実行してもよい。図4の時系列データに含まれる測定値に対して上述の外れ値除外処理が実行される場合、測定値の平均値と標準偏差とが算出される。図5に示されるように、算出した平均値と標準偏差とに基づいて、測定値の出現確率の分布が正規分布で近似される。実線のグラフは、全期間(期間P4)に含まれる測定値の出現確率の分布を表す。破線のグラフは、期間P6に含まれる測定値の出現確率の分布を表す。図5のグラフの横軸は測定値を表す。縦軸は各測定値の出現確率を表す。
全期間(期間P4)に含まれる測定値は、期間P6に含まれる測定値よりも広く分布する。したがって、期間P4に含まれる測定値の標準偏差(σ4)は、期間P6に含まれる測定値の標準偏差(σ6)より大きい。また、期間P4に含まれる測定値の平均値(Ave_P4)は、期間P5に含まれる測定値の影響を受けて、期間P6に含まれる測定値の平均値(Ave_P6)よりも小さい。
ここで、Xで表される測定値と期間P4に含まれる測定値の平均値(Ave_P4)との差の絶対値(|X−Ave_P4|)は、標準偏差(σ4)に係数(k)を乗じて得られる外れ値判定閾値(σ4×k)より小さい。そうしてみると、全期間(期間P4)に含まれる測定値に対して外れ値除外処理が実行される場合、Xで表される測定値は除外データとしての条件を満たさず、除外データとして特定されない。
一方で、Xで表される測定値と期間P6に含まれる測定値の平均値(Ave_P6)との差の絶対値(|X−Ave_P6|)は、標準偏差(σ6)に係数(k)を乗じて得られる外れ値判定閾値(σ6×k)より大きい。そうしてみると、期間P6に含まれる測定値に対して外れ値除外処理が実行される場合、Xで表される測定値は除外データとしての条件を満たし、除外データとして特定される。
時系列データのうち一部の期間にふくまれる測定値の平均値及び標準偏差はそれぞれ、部分平均値及び部分標準偏差とも称される。瞬時値除外処理で用いられる係数(k)は、瞬時値判定係数又は第2係数とも称される。瞬時値判定係数は、外れ値判定係数と同じ値に設定されてもよいし、異なる値に設定されてもよい。瞬時値判定係数は、例えば2に設定されてよいし3に設定されてもよい。瞬時値判定係数は、これらの例に限られず、任意の正の実数に設定されてよい。標準偏差に瞬時値判定係数を乗じた値は、瞬時値判定閾値とも称される。
このように、外れ値除外処理において平均値及び標準偏差等の統計値を算出する対象とする測定値を含む期間を変更することによって、ある測定値が除外データとして特定されたり特定されなかったりする。言い換えれば、ある期間に含まれる測定値を対象として外れ値除外処理を実行した場合に除外データとして特定される測定値が、異なる期間に含まれる測定値を対象として外れ値除外処理を実行することによって除外データとして特定されないことが起こり得る。
データ処理部12は、瞬時値除外処理を実行することによって、図4においてXで表される測定値のように除外データとして特定されることが望まれる測定値を除外データとして特定しやすくする。つまり、異常な測定値の検出精度が高められる。その結果、学習データの品質が高められる。
<<<判定対象期間の長さの設定例>>>
瞬時値除外処理において設定される一部の期間は、判定対象期間とも称される。データ処理部12は、瞬時値除外処理において除外データを適切に特定できるように、例えば以下に述べる方法によって判定対象期間の長さを設定してよい。
図6に時系列データの一例が実線で示される。図6において横軸は時刻を表す。時系列データは、0からYまでの時刻の測定値を含む。縦軸は測定値を表す。
データ処理部12は、図6に例示される時系列データに基づいて、時系列データの自己相関を算出する。時系列データの自己相関は、時系列データ自身を所定時間だけ移動させたデータとの相関として表される。
具体的には、データ処理部12は、時系列データをΔtで表される時間だけ移動させたデータを生成する。時系列データをΔtで表される時間だけ移動させたデータは、移動データと称され、図6において破線で示される。データ処理部12は、各時刻において時系列データの瞬時値と移動データの瞬時値との積を算出し、各時刻における瞬時値の積を全時刻にわたって加算することによって、時系列データと移動データとの相関係数を算出する。時系列データと移動データとの相関係数は、時系列データと移動データとが完全に一致する場合に最大になる。移動データは、時系列データをΔtだけ移動させたデータである。よって、時系列データと移動データとの相関係数は、時系列データの自己相関を表す。
データ処理部12は、Δtの値を0からY/2まで変更して、Δtのそれぞれの値について時系列データと移動データとの相関係数を算出する。図7のグラフに、Δtの値と、時系列データと移動データとの相関係数との関係、つまり時系列データの自己相関が示される。図7の横軸はΔtを表す。縦軸は相関係数を表す。
図7に示されるように、相関係数は、極大値を有する。相関係数が極大値となるときのΔtの値は、時系列データの周期の自然数倍の値に対応し得る。つまり、データ処理部12は、相関係数が極大値となるときのΔtの値を特定することによって、時系列データの周期を算出し得る。
ここで、Δt=0である場合、時系列データと移動データとが完全に一致するので、相関係数が最大になる。したがって、Δtが0に近い場合、相関係数は大きくなる傾向にある。データ処理部12は、相関係数の極大値を検出する際に、Δtが所定値未満である場合の相関係数を対象外とする。データ処理部12は、Δtが所定値以上である場合の相関係数を対象として極大値を検出し、相関係数が極大値となるときのΔtを特定する。データ処理部12は、相関係数の極大値を検出する範囲を定める所定値を、例えばY/20に設定してよい。この場合、図7に示されるようにΔtがY/20未満である場合の相関係数が対象外となる。データ処理部12は、Δtを0から大きくしていったときにはじめて相関係数の極小値が出現するときのΔtを、所定値として設定してもよい。
相関係数は、複数の極大値を有し得る。各極大値に対応するΔtの値のうち最小値がTで表されるとする。Tは、時系列データの周期に対応し得る。データ処理部12は、Tの値に基づいて、瞬時値除外処理で用いる判定対象期間の長さを設定してよい。データ処理部12は、例えば、判定対象期間の長さをTの値そのものに設定してよい。データ処理部12は、例えば、判定対象期間の長さをT/2に設定してよい。このようにすることで、半波の範囲内で瞬時値除外処理が実行され得る。
データ処理部12は、例えば、判定対象期間の長さをT/4に設定してもよい。このようにすることで、仮に時系列データが正弦波に近似される場合に、測定値が実効値以上となる範囲、つまり測定値の変化率が小さくなる範囲で瞬時値除外処理が実行され得る。その結果、除外データがより一層高精度に特定され得る。データ処理部12は、これらの例に限られず、判定対象期間の長さをTに基づく種々の値に設定してよい。
一方で、判定対象期間の長さが小さい値に設定されるほど、瞬時値除外処理の負荷が増大する。したがって、データ処理部12は、判定対象期間の長さを所定値以上に設定することによって、瞬時値除外処理の負荷を低減してよい。所定値は適宜定められてよい。
データ処理部12は、時系列データの自己相関を算出するだけでなく、時系列データをフーリエ変換等の他の手段で処理することによって、時系列データの周期を推定してもよい。データ処理部12は、フーリエ変換等の他の手段で推定した時系列データの周期に基づいて判定対象期間の長さを設定してもよい。
データ処理部12は、時系列データに基づいて判定対象期間の長さを適宜設定することによって、異常な測定値の検出手段を時系列データに合わせて構成できる。
<<除外データの特定例>>
時系列データは、例えば、以下の表1に示されるように、タグA、タグB及びタグCそれぞれの測定値を含むとする。タグは、測定値を取得するセンサの識別子である。タグA、タグB及びタグCはそれぞれ、測定対象の加速度、速度及び温度を測定するセンサに対応する。各タグの測定値は、時刻データと関連づけられる。表1において、時系列データは、TM1からTM5までの5つの時刻における各タグの測定値を含むとする。表1に示されるセルのうち、網掛けのハッチングが付されているセルの測定値は、除外データに対応する。
Figure 2021163162
データ処理部12は、時刻TM1におけるタグAの測定値が所定閾値以下であることに基づいて、時刻TM1におけるタグAの測定値を除外データとして特定する。ここで、タグAの測定値の判定に用いられる所定閾値は、例えば、0.01等の適切な値に設定されているとする。データ処理部12は、タグAが加速度に対応することに鑑みて、時刻TM1において測定対象が稼働していないと判定してもよい。データ処理部12は、測定対象が稼働していないと判定した時刻TM1におけるタグB及びタグCの測定値も除外データとして特定してもよい。つまり、データ処理部12は、停止時データ除外処理によって、時刻TM1における各タグの測定値を除外データとして特定する。
データ処理部12は、時刻TM1において測定対象が稼働しているか停止しているかにかかわらず、時刻TM1におけるタグBの測定値が所定閾値以下であることに基づいて、時刻TM1におけるタグBの測定値を除外データとして特定してもよい。タグBの測定値の判定に用いられる所定閾値は、適宜設定されてよい。データ処理部12は、時刻TM1におけるタグCの測定値が所定範囲外であることに基づいて、時刻TM1におけるタグCの測定値を除外データとして特定してもよい。タグCの測定値の判定に用いられる所定範囲は、適宜設定されてよい。
データ処理部12は、各時刻におけるタグCの測定値の平均値及び標準偏差を算出する。データ処理部12は、測定値と平均値との差の絶対値が標準偏差に所定係数を乗じた値より大きい場合、その測定値を除外データとして特定する。表1に例示されるデータにおいて、データ処理部12は、時刻TM3のタグCの測定値を除外データとして特定する。つまり、データ処理部12は、外れ値除外処理によって、時刻TM3におけるタグCの測定値を除外データとして特定する。
データ処理部12は、表1に示される時系列データに対して除外処理を実行して、表2に示される学習データを生成してよい。表2に示される学習データにおいて、タグA及びタブBの測定値が除外データの条件を満たすかにかかわらず、時刻TM3における全てのタグの測定値が除外されている。タグCの測定値が除外データとして特定されることによって、時刻TM3における他のタグ(タグA及びタグB)の測定値の信頼性が低下している可能性があるためである。
Figure 2021163162
<<小括>>
以上述べてきたように、本実施形態に係る学習システム1において、学習データ処理装置10は、異常な測定値、又は、測定対象が稼働していない期間に得られる測定値を特定して学習データから除外できる。その結果、学習モデルを生成するという観点において学習データの品質が高められる。また、測定対象の管理者又は保全作業者等のユーザが異常な測定値を指定したり測定対象が稼働していない期間の測定値を指定したりすることなく、学習データの品質が簡便に高められる。
学習データ処理装置10は、外れ値除外処理、停止時データ除外処理、又は瞬時値除外処理だけでなく、他の種々の除外処理を実行してよい。学習データ処理装置10は、外れ値除外処理、停止時データ除外処理、又は瞬時値除外処理のうち少なくとも1つの除外処理を実行してよい。このようにすることで、学習データの品質が高められる。
学習データ処理装置10は、外れ値除外処理及び停止時データ除外処理を両方とも実行してよい。このようにすることで、学習データ処理装置10は、一方の除外処理だけを実行する場合と比べて、異常な測定値、又は、測定対象が稼働していない期間に得られる測定値を特定しやすくなる。その結果、学習データの品質がより一層高められる。
学習データ処理装置10は、外れ値除外処理、停止時データ除外処理、又は瞬時値除外処理を任意の順序で実行してもよい。例えば、停止時データ除外処理は、外れ値除外処理よりも前に実行されてよい。このようにすることで、学習データ処理装置10は、時系列データの内容に合わせた処理を実行できる。また、学習データ処理装置10の動作の自由度が高められる。
学習データ処理装置10は、1つの除外処理で除外データを実際に除外した後で他の除外処理を実行してもよい。学習データ処理装置10は、1つの除外処理で除外データを特定するものの実際には除外せずに他の除外処理を実行し、全ての除外処理で除外データを特定した後で実際に除外データを除外してもよい。学習データ処理装置10は、除外処理の内容を適宜選択できることによって、時系列データの内容に適した処理を実行できる。
<学習データ処理方法のフローチャート例>
学習データ処理装置10は、時系列データを処理して学習データを生成する学習データ処理方法として、図8のフローチャートに例示される手順を実行してよい。図8のフローチャートに例示される手順は、学習データ処理装置10のデータ処理部12を構成するプロセッサに実行させる学習データ処理プログラムとして実現されてもよい。学習データ処理プログラムは、電磁記憶媒体等の非一時的なコンピュータ読み取り可能な媒体に格納されてもよい。
データ処理部12は、データ入出力装置20から時系列データを取得する(ステップS1)。
データ処理部12は、時系列データの中から除外データを特定する(ステップS2)。具体的には、データ処理部12は、外れ値除外処理を実行して除外データを特定してよい。データ処理部12は、停止時データ除外処理を実行して除外データを特定してよい。データ処理部12は、瞬時値除外処理を実行して除外データを特定してよい。データ処理部12は、外れ値除外処理、停止時データ除外処理、又は、瞬時値除外処理の少なくとも1つの処理を実行してよい。データ処理部12は、外れ値除外処理、停止時データ除外処理、及び、瞬時値除外処理の順番で処理を実行してよい。データ処理部12は、外れ値除外処理よりも先に停止時データ除外処理を実行してもよい。
データ処理部12は、除外データが有るか判定する(ステップS3)。データ処理部12は、除外データが無い場合(ステップS3:NO)、ステップS5の手順に進む。データ処理部12は、除外データが有る場合(ステップS3:YES)、除外処理を実行する(ステップS4)。データ処理部12は、除外処理として、時系列データに含まれる測定値のうち除外データとして特定された測定値を、時系列データから除外する。
データ処理部12は、学習データを学習装置30に出力する(ステップS5)。データ処理部12は、ステップS3の手順で除外データが無いと判定してステップS4の手順を実行しなかった場合、取得した時系列データをそのまま学習データとして出力する。データ処理部12は、ステップS4の手順を実行した場合、除外処理を実行した時系列データを学習データとして出力する。データ処理部12は、ステップS4の手順の実行後、図8のフローチャートの手順の実行を終了する。
以上述べてきたように、本実施形態に係る学習データ処理方法が実行されることによって、学習モデルを生成するという観点において学習データの品質が高められる。また、学習データの品質が簡便に高められる。
(他の実施形態)
一実施形態に係る学習システム1は、少なくとも一部の構成部を、クラウドコンピュータ上のハードウェア資源によって実現してもよい。例えば、学習装置30、学習モデル記憶装置40、又は判定装置50等は、クラウドコンピュータ上のサーバ又は記憶装置等のハードウェア資源によって実現されてよい。
また、学習データ処理装置10がクラウドコンピュータ上のサーバ等のハードウェア資源によって実現されてもよい。この場合、学習システム1は、学習データ処理プログラムをクラウドコンピュータ上のサーバ等に送信して実行させてよい。学習システム1は、学習データ処理プログラムの内容を変更することによって、学習データを生成する処理を適宜変更してよい。学習システム1は、測定対象の管理者又は保全作業者等のユーザからの入力に基づいて、学習データ処理プログラムの内容を変更してもよい。学習システム1は、外部装置からの入力に基づいて、学習データ処理プログラムの内容を変更してもよい。また、学習データ処理装置10、学習装置30、学習モデル記憶装置40、又は判定装置50等の少なくとも一部は、エッジコンピュータ又はレコーダ等で実現されてよい。
学習データ処理装置10のデータ処理部12は、除外処理の内容を定義する定義ファイルに基づいて時系列データを処理し、学習データを生成してもよい。データ処理部12は、定義ファイルの内容を測定対象の管理者又は保全作業者等のユーザからの入力に基づいて設定してもよいし、外部装置からの入力に基づいて設定してもよい。定義ファイルは、例えば、外れ値判定係数等の所定係数を設定する情報を含んでもよいし、外れ値判定閾値等の所定閾値を設定する情報を含んでもよい。定義ファイルは、例えば、停止時データ除外処理において用いられる所定条件を定義する情報を含んでもよい。定義ファイルは、データ処理部12が実行する除外処理の種類又は実行順序を特定する情報を含んでもよい。学習システム1は、学習データ処理装置10に定義ファイルを参照して学習データを生成させることによって、測定対象の構成に合わせた学習モデルを生成しやすくなる。その結果、測定対象の状態の判定精度が高められる。
以上、本開示に係る実施形態について、図面を参照して説明してきたが、具体的な構成はこの実施形態に限定されるものではなく、本開示の趣旨を逸脱しない範囲においての種々の変更も含まれる。
1 学習システム
10 学習データ処理装置(12:データ処理部、14:入力部)
20 データ入出力装置
30 学習装置
40 学習モデル記憶装置
50 判定装置
60 データ記憶装置
70 出力装置

Claims (8)

  1. 学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成するデータ処理部を備え、
    前記データ処理部は、前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ値判定上限値以上又は前記外れ値判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1除外処理、又は、
    前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2除外処理
    のうち少なくとも一方の除外処理を実行する、学習データ処理装置。
  2. 前記データ処理部は、前記第1除外処理及び前記第2除外処理を両方とも実行する、請求項1に記載の学習データ処理装置。
  3. 前記第1除外処理は、前記複数の所定期間における除外処理を行う場合に、前記時系列データのうちの異なる複数の所定期間に含まれる測定値の前記統計値と、前記統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、前記複数の所定期間のそれぞれに含まれる測定値のうち前記外れ値判定上限値以上又は前記外れ値判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する処理を含む、請求項1又は2に記載の学習データ処理装置。
  4. 前記複数の所定期間は、第1所定期間と、前記第1所定期間のうちの一部の期間である第2所定期間とを含み、
    前記第1除外処理は、
    前記第1所定期間に含まれる測定値の第1統計値と、前記第1統計値に基づく第1外れ値判定上限値又は第1外れ値判定下限値の少なくとも一方を算出し、前記第1所定期間に含まれる測定値のうち前記第1外れ値判定上限値以上又は前記第1外れ値判定下限値以下の少なくとも一方となる測定値を除外する第3除外処理と、
    前記第3除外処理を実行することによって得られた除外後の測定値のうち前記第2所定期間に含まれる除外後の測定値の第2統計値と、前記第2統計値に基づく第2外れ値判定上限値又は第2外れ値判定下限値の少なくとも一方を算出し、前記第2所定期間に含まれる前記除外後の測定値のうち前記第2外れ値判定上限値以上又は前記第2外れ値判定下限値以下の少なくとも一方となる測定値を除外する第4除外処理と
    を含む、請求項3に記載の学習データ処理装置。
  5. 前記データ処理部は、前記時系列データの自己相関に基づいて前記第2所定期間の長さを設定する、請求項4に記載の学習データ処理装置。
  6. 学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成する学習データ処理方法であって、
    前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ値判定上限値以上又は前記外れ値判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1ステップ、又は、
    前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2ステップ
    のうち少なくとも一方のステップを含む、学習データ処理方法。
  7. プロセッサに、学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成させる、学習データ処理プログラムであって、
    前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ値判定上限値以上又は前記外れ値判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1ステップ、又は、
    前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2ステップ
    のうち少なくとも一方のステップを前記プロセッサに実行させる、学習データ処理プログラム。
  8. プロセッサに、学習モデルを生成する学習装置において用いられる学習データを、少なくとも1種類の測定値を含む時系列データに基づいて生成させる学習データ処理プログラムを格納する非一時的なコンピュータ読み取り可能な媒体であって、
    前記学習データ処理プログラムは、
    前記時系列データのうちの1つ又は複数の所定期間に含まれる測定値の統計値と、前記統計値に基づく外れ値判定上限値又は外れ値判定下限値の少なくとも一方とを算出し、前記所定期間に含まれる測定値のうち前記外れ値判定上限値以上又は前記外れ値判定下限値以下の少なくとも一方となる測定値を前記時系列データから除外する第1ステップ、又は、
    前記時系列データに含まれる測定値のうち所定条件を満たす測定値を前記時系列データから除外する第2ステップ
    のうち少なくとも一方のステップを前記プロセッサに実行させる、非一時的なコンピュータ読み取り可能な媒体。
JP2020063701A 2020-03-31 2020-03-31 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体 Active JP7205514B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020063701A JP7205514B2 (ja) 2020-03-31 2020-03-31 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体
US17/206,731 US20220036235A1 (en) 2020-03-31 2021-03-19 Learning data processing device, learning data processing method and non-transitory computer-readable medium
EP21164597.3A EP3889850A1 (en) 2020-03-31 2021-03-24 Learning data processing device, learning data processing method and non-transitory computer-readable medium
CN202110351043.4A CN113468151B (zh) 2020-03-31 2021-03-31 学习数据处理装置、学习数据处理方法和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020063701A JP7205514B2 (ja) 2020-03-31 2020-03-31 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体

Publications (2)

Publication Number Publication Date
JP2021163162A true JP2021163162A (ja) 2021-10-11
JP7205514B2 JP7205514B2 (ja) 2023-01-17

Family

ID=75203210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020063701A Active JP7205514B2 (ja) 2020-03-31 2020-03-31 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体

Country Status (3)

Country Link
US (1) US20220036235A1 (ja)
EP (1) EP3889850A1 (ja)
JP (1) JP7205514B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014059910A (ja) * 2009-08-28 2014-04-03 Hitachi Ltd 設備状態監視方法
JP2016057651A (ja) * 2014-09-05 2016-04-21 株式会社明電舎 時系列データの解析方法及び時系列データの異常監視装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010324B1 (en) * 2005-05-09 2011-08-30 Sas Institute Inc. Computer-implemented system and method for storing data analysis models
US7346471B2 (en) * 2005-09-02 2008-03-18 Microsoft Corporation Web data outlier detection and mitigation
US20180107450A1 (en) * 2016-10-17 2018-04-19 Tata Consultancy Services Limited System and method for data pre-processing
JP2018077757A (ja) 2016-11-11 2018-05-17 横河電機株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US10636007B2 (en) * 2017-05-15 2020-04-28 Tata Consultancy Services Limited Method and system for data-based optimization of performance indicators in process and manufacturing industries
US12019433B2 (en) * 2018-08-03 2024-06-25 Nec Corporation Periodicity analysis apparatus, method and program recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014059910A (ja) * 2009-08-28 2014-04-03 Hitachi Ltd 設備状態監視方法
JP2016057651A (ja) * 2014-09-05 2016-04-21 株式会社明電舎 時系列データの解析方法及び時系列データの異常監視装置

Also Published As

Publication number Publication date
EP3889850A1 (en) 2021-10-06
JP7205514B2 (ja) 2023-01-17
CN113468151A (zh) 2021-10-01
US20220036235A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
CN107766299B (zh) 数据指标异常的监控方法及其***、存储介质、电子设备
JP6076571B1 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
US11067973B2 (en) Data collection system, abnormality detection method, and gateway device
TWI663510B (zh) 設備保養預測系統及其操作方法
Joekes et al. An improved attribute control chart for monitoring non-conforming proportion in high quality processes
US10585423B2 (en) Data processing apparatus, data processing system, data processing method, and program
US20140269339A1 (en) System for analysing network traffic and a method thereof
WO2020066052A1 (ja) 監視システム及び監視方法
JP2020052714A5 (ja)
WO2019229977A1 (ja) 推定システム、推定方法及び推定プログラム
JP6618846B2 (ja) 管理装置および制御方法
WO2019071438A1 (zh) 对流程行业中的设备进行状态监测的方法、装置及介质
JPWO2020188696A1 (ja) 異常検知装置および異常検知方法
JP6948197B2 (ja) プロセス監視装置
JP2011008756A (ja) シミュレーション評価システム
US10613830B2 (en) Data processing device, data processing method, and storage medium
JP6273835B2 (ja) 状態判定装置、状態判定方法および状態判定プログラム
JP2021163162A (ja) 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体
JP2015108953A (ja) 演算装置
CN113468151B (zh) 学习数据处理装置、学习数据处理方法和介质
CN110956193A (zh) 用于改进边界偏移检测的方法、***、制品和装置
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
KR101977214B1 (ko) 이상치 탐지 방법, 이를 이용하는 장치 및 시스템
WO2020261621A1 (ja) 監視システム、監視方法及びプログラム
KR20160053977A (ko) 모델 적응을 위한 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221014

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221014

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221101

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7205514

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150