JP7434073B2

JP7434073B2 - モデル運用支援システム及び方法

Info

Publication number: JP7434073B2
Application number: JP2020103530A
Authority: JP
Inventors: 慶行但馬; 大祐稲葉; 義則望月
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2024-02-20
Anticipated expiration: 2040-06-16
Also published as: JP2021196921A; US20230144809A1; WO2021256171A1

Description

本発明は、概して、学習モデルの運用支援のためのコンピュータ技術に関する。

近年、機械学習を用いたシステム及びサービスの導入が進んでいる。そのようなシステム及びサービスでは、通常、所定の対象について収集されたデータを入力とし当該データに基づく推定を表すデータを出力とする学習モデルが使用される。学習モデルの作成は、一般に、上記所定の対象は時間に依存するもののモデルの入出力は独立同分布であるという仮定、又は、上記所定の対象の時間依存性は短期間であるという仮定の下で行われる。しかし、実際には、コンセプトドリフトが生じ（すなわち、時間が経つにつれ上記所定の対象の傾向が変化し）、結果として、上述の仮定が崩れるため、学習モデルが劣化する（例えば、学習モデルの精度又は正解率が大きく低下する）。学習モデルの劣化前に学習モデルの再学習を行うといったメンテナンスが必要である。

特許文献１は、コンセプトドリフトの検出を検出しポストドリフトプロセスデータを用いて学習モデルを再学習する方法を開示している。

特表2018-513490号公報

特許文献１は、再学習に使用する訓練データをポストドリフトプロセスデータとすることを開示している。

しかし、機械学習を用いたシステム及びサービスでは、学習モデルの対象について頻繁にデータが収集され、結果として、大量のデータが蓄積され得る。このため、ポストドリフトプロセスデータが大量に存在し得る。大量のポストドリフトプロセスデータの全てを訓練データとすると、再学習に長い時間を要する。また、ポストドリフトプロセスデータの全てが訓練データとして適切であるとは限らない。

システムが、第１の期間の終了時刻から機械学習の学習モデルの再学習タイミングまでの期間である全体期間のうちの一つ以上の第２の期間の各々について、対象データとベースデータとの分布間距離を算出する。各第２の期間について、対象データは、全体データのうちの当該第２の期間分のデータである。全体データは、全体期間分のデータであって学習モデルに関わるデータである。ベースデータは、第１の期間分のデータであって学習モデルの作成に関わったデータである。システムが、各第２の期間について、算出された分布間距離が第１の閾値以上であるか否かを判定し、当該判定の結果が真の場合に当該第２の期間に従う時刻を変動点として特定する。システムが、一つ以上の変動点に基づいて全体データの一部又は全部から一つ以上の訓練データ候補を決定し、当該一つ以上の訓練データ候補又はそれのメタ情報を学習モデルの再学習のために出力する。

本発明によれば、学習モデルの再学習に適切な一つ以上の訓練データ候補を決定し当該一つ以上の訓練データ候補又はそれのメタ情報を出力できる。

実施形態の概要を示す。実施形態に係るモデル運用支援システムを含むシステム全体の構成例を示す。対象データの特定から分布間距離の算出までの処理の流れの一例を示す。疑似ラベルの生成の一例を模式的に示す。分布間距離の算出の一例を模式的に示す。分布間距離を算出する処理の詳細の流れの一例を示す。再学習タイミングが検出された場合に行われる処理の流れの一例を示す。運用支援ＵＩの一例を示す。運用支援ＵＩにおけるメタ情報リストの変形例を示す。

以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のＩ／Ｏ（Input/Output）インターフェースデバイス。Ｉ／Ｏ（Input/Output）インターフェースデバイスは、Ｉ／Ｏデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するＩ／Ｏインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのＩ／Ｏデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（Network Interface Card））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

また、以下の説明では、「永続記憶装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよく、具体的には、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＮＶＭＥ（Non-Volatile Memory Express）ドライブ、又は、ＳＣＭ（Storage Class Memory）でよい。

また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。

また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサデバイスでよいが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路（例えばＦＰＧＡ（Field-Programmable Gate Array）、ＣＰＬＤ（Complex Programmable Logic Device）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサデバイスでもよい。

また、以下の説明では、「ｙｙｙ部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路（例えばＦＰＧＡ又はＡＳＩＣ）によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／又はインターフェース装等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムを主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。また、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。

また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号のうちの共通符号を使用し、同種の要素を区別する場合は、参照符号を使用することがある。

また、以下の説明では、「モデル運用支援システム」は、一つ以上の物理的な計算機で構成されたシステムでもよいし、物理的な計算リソース群（例えば、クラウド基盤）上に実現されたシステム（例えば、クラウドコンピューティングシステム）でもよい。モデル運用支援システムが表示用情報を「表示する」ことは、計算機が有する表示デバイスに表示用情報を表示することであってもよいし、計算機が表示用計算機に表示用情報を送信することであってもよい（後者の場合は表示用計算機によって表示用情報が表示される）。

また、以下の実施形態では、「分布間距離」の一例として、輸送理論に基づくSliced Wasserstein Distanceが採用される。以下、「分布間距離」を、Sliced Wasserstein Distanceを略して「ＳＷＤ」と表記する。

図１は、実施形態の概要を示す。なお、以下の説明では、「ＵＩ」は、User Interfaceの略であるが、典型的にはＧＵＩ（Graphical User Interface）である。

モデル運用支援システム１００が、データストア１３１と、ＳＷＤ算出部２６１と、変動点特定部２６２と、候補決定部２６３と、結果出力部２６４とを備える。

データストア１３１には、データが格納される。データは、構造化データでも非構造化データでもよい。データストア１３１に格納されるデータとして、例えば、学習モデルに関わるデータがある。「学習モデルに関わるデータ」の例として、学習モデルの入力変数（入力データ）、潜在変数、出力変数（出力データ）、及び評価（例えば、精度、正解率）のうちのいずれも採用可能である。学習モデルは、例えばニューラルネットワークである。

学習モデルに関わるデータに含まれるデータの一例としては、学習モデルの対象について収集されたデータがある。当該収集されたデータは、時刻を表す情報と一つ以上の入力変数としての情報とを含む。

また、学習モデルに関わるデータに含まれるデータの一例としては、ベースデータがある。ベースデータは、第１の期間分のデータであって学習モデルの作成に関わったデータ（例えば、学習モデルの作成において入力された入力変数、出力された出力変数、及び、得られた評価、のうちの少なくとも一つを含んだデータ）である。第１の期間は、１年、半年又は１か月といった任意の期間でよい。

また、学習モデルに関わるデータに含まれるデータの一例としては、一つ以上の第２の期間の各々について対象データがある。一つ以上の第２の期間は、第１の期間の終了時刻から機械学習の学習モデルの再学習タイミングまでの期間である全体期間のうちの期間である。各第２の期間について、対象データは、データストア１３１内の全体データ（全体期間分のデータであって学習モデルに関わるデータ）のうちの当該第２の期間分のデータである。いずれの第２の期間も、第１の期間より将来の期間であるため、対象データは、学習モデルの作成に関わるベースデータよりも後に得られたデータである。一つ以上の第２の期間は、同じ長さの期間であってもよいし異なる長さの期間であってもよい。また、第２の期間は、第１の期間と同じ長さであってもよいし異なる長さであってもよい。典型的には、第２の期間は、第１の期間より短くてよい。例えば、ベースデータが、一年分のデータであって、対象データが、一か月分のデータでよい。

ベースデータも、各第２の期間の対象データも、複数の時刻（典型的には多数の時刻）にそれぞれ対応した複数のデータ要素（典型的には多数のデータ要素）の集合である。訓練データ候補をデータ要素の単位で決定し出力（例えば提示）することは困難である。

そこで、ＳＷＤ算出部２６１が、ベースデータと一つ以上の第２の期間の各々についての対象データとをデータストア１３１から取得し、一つ以上の第２の期間の各々について、対象データとベースデータとのＳＷＤを算出する。ＳＷＤ算出部２６１は、定期的に又は不定期的に（例えば、新たな第２の期間についての対象データがデータストア１３１に追加された場合に）、対象データとベースデータとのＳＷＤを算出してよい。

変動点特定部２６２が、一つ以上の第２の期間の各々について、算出されたＳＷＤが第１の閾値以上であるか否かを判定し、当該判定の結果が真の場合に当該第２の期間に従う時刻を変動点として特定する。候補決定部２６３は、データストア１３１内の全体データの一部又は全部から、上述の全体期間のうちの一つ以上の期間にそれぞれ対応した一つ以上の訓練データ候補を一つ以上の変動点に基づいて決定する。結果出力部２６４は、決定された一つ以上の訓練データ候補又はそれのメタ情報を学習モデルの再学習のために出力する。

このように、本実施形態では、第２の期間毎の部分データがベースデータと比較されることで第２の期間毎のＳＷＤが算出される。例えば連続した複数の第２の期間について、ＳＷＤが線形的に大きくなるとは限らない。ＳＷＤの傾向は、学習モデルの対象に依存する。ＳＷＤが第１の閾値以上である第２の期間に属する時刻が変動点として特定される。特定された複数（又は一つ）の変動点を基に、一つ以上の訓練データ候補が決定される。例えば、連続した全体期間分の全体データが複数（又は一つ）の変動点を境界として一つ又は複数のデータ集合に離散化されてよく、各訓練データ候補は、離散化された二つ以上のデータ集合の組合せでもよいし、一つのデータ集合から分割された複数のデータ集合のいずれかでもよい。このようにして、学習モデルの再学習に適切な一つ以上の訓練データ候補を決定し当該一つ以上の訓練データ候補又はそれのメタ情報を出力できる。一つの訓練データ候補は、一つ又は複数の対象データの集合でよい。当該訓練データ候補とベースデータとのＳＷＤが、当該訓練データ候補の要素である一つ又は複数の対象データの各々について算出されたＳＷＤに基づいてよい。

学習モデルの再学習のための出力の例として、図１が例示するように、決定された一つ以上の訓練データ候補又はそれのメタ情報を表示したＵＩである運用支援ＵＩ１１０を提供することがある。運用支援ＵＩ１１０は、一つ以上の訓練データ候補の各々の期間を提示するチャートを表示する。そのチャートは、時間軸を有し、複数の特定された変動点（複数の破線矢印）と、現在時刻（再学習タイミングの一例）から過去の期間のうちの一つ以上の訓練データ候補にそれぞれ対応した一つ以上の期間とを表す。期間を［ｐ，ｑ］（ｐは開始時刻、ｑは終了時刻）と表現すると次の通りである。すなわち、図１が示す例によれば、訓練データ候補として、Ｄ１～Ｄ４があり、Ｄ１に［ｔ４，ｔ５］が対応し、Ｄ２に［ｔ３，ｔ５］が対応し、Ｄ３に［ｔ２，ｔ５］が対応し、Ｄ４に［ｔ１，ｔ５］が対応する。このように訓練データ候補に対応した期間の基点は、現在時刻寄りの時刻（又は現在時刻と同一時刻）とされる。現在時刻に近いデータ程、学習モデルの対象の最新の傾向を表していることが期待されるからである。訓練データ候補に対応した期間の終了時刻は、必ずしもｔ５でなくてもよい。例えば、Ｄ２に対応した期間は、［ｔ３，ｔ４］でもよい。

なお、チャートにおける“ＴＥＳＴ”は、再学習後の学習モデルのテスト（評価チェック）に関わるテストデータである。テストデータに対応した期間を「テスト期間」と言う。図１が示す例によれば、時刻ｔ５は、現在時刻からテスト期間分過去の時刻である。テスト期間よりも過去の期間分のデータから訓練データ候補が決定される技術的意義は後述する。

また、後述するように、結果出力部２６４は、決定された一つ以上の訓練データ候補を学習モデルの再学習のために出力し、マニュアルでの指示に応答して又はマニュアルでの指示無しに、推論モデルを学習モデルから再学習後の学習モデルに差し替えることであるモデルデプロイを行う。このように、本実施形態では、一つ以上の訓練データ候補又はそれのメタ情報に代えて又は加えて、一つ以上の訓練データ候補を用いた再学習後の学習モデルのモデルデプロイが行われる。このため、利便性が高い。

以下、本実施形態を詳細に説明する。

図２は、モデル運用支援システム１００を含むシステム全体の構成例を示す。

モデル運用支援システム１００は、ネットワーク２００（例えば、インターネット）を介して、ユーザ端末２３０及び一つ又は複数の収集装置２１０（例えば、二つの収集装置２１０Ａ及び２１０Ｂ）と通信する。収集装置２１０は、一つ以上の対象装置２２０からデータを収集する。例えば、収集装置２１０Ａは、一つの対象装置２２０Ａからデータを収集し、収集装置２１０Ｂは、二つの対象装置２２０Ｂ１及び２２０Ｂ２からデータを収集する。例えば、モデル運用支援システム１００が、コアシステムの一例でよく、収集装置２１０が、エッジシステムの一例でよい。

ユーザ端末２３０は、ユーザの情報処理端末（例えば、パーソナルコンピュータ又はスマートフォン）である。「ユーザ」は、学習モデルの管理及び運用の少なくとも一つを行う者でよく、モデル運用支援システム１００の管理者でもよいし、モデル運用支援システム１００が提供するモデル運用支援サービスを利用する者でもよい。ユーザ端末２３０に、モデル運用支援システム１００が提供する上述のＵＩが表示される。

対象装置２２０は、学習モデルの対象としての装置である。収集装置２１０は、対象装置２２０についてのデータを収集し、収集されたデータをモデル運用支援システム１００に送信する。例えば、学習モデルが、アナログメータが指す値の検出のためのモデルである場合、対象装置２２０は、アナログメータでよく、収集装置２１０は、アナログメータを撮影するカメラ又は当該カメラから撮影画像を収集する装置でよく、収集されたデータは、アナログメータの撮影画像データでよい。

モデル運用支援システム１００が、インターフェース装置２５１、記憶装置２５２及びそれらに接続されたプロセッサ２５３を有する。インターフェース装置２５１を通じて、収集装置２１０からデータを受信したり、ユーザ端末２３０にＵＩが提供されたりする。記憶装置２５２が、データストア１３１の基である。データストア１３１に格納されたデータは、記憶装置２５２に格納される。また、記憶装置２５２には、コンピュータプログラムが格納される。

コンピュータプログラムがプロセッサ２５３により実行されることで、ＳＷＤ算出部２６１、変動点特定部２６２、候補決定部２６３、結果出力部２６４、モデル学習部２６５、モデル推論部２６６、疑似ラベル生成部２６７、モデル監視部２６８、データ収集部２６９、ユーザ入力部２７０及びテスト期間決定部２７１が実現される。これらの機能２６１～２７１のうちの少なくとも一部の機能、例えば、モデル学習部２６５及びモデル推論部２６６が、エッジシステムの一例である収集装置２１０に備えられてもよい。

機能２６１～２６４については上述した通りである。モデル学習部２６５は、学習モデルの生成（学習）と再学習を行う。モデル推論部２６６は、学習モデルを用いた推論を行う。疑似ラベル生成部２６７は、疑似ラベルを生成する。モデル監視部２６８は、推論モデルを用いた推論を監視する。データ収集部２６９は、収集装置２１０からデータを収集し収集されたデータをデータストア１３１に格納する。ユーザ入力部２７０は、入力ＵＩをユーザ端末２３０に提供し、入力ＵＩを介して入力を受け付ける。テスト期間決定部２７１は、テスト期間を決定する。これらの機能２６１～２７１の詳細は後述する。なお、「ラベル」は、データ要素における入力変数に対応した出力変数としての狭義のラベルでもよいが、本実施形態において、「ラベル」は、そのような狭義のラベルをカバーするラベル、すなわち、何らかの分類を表す概念としての広義のラベルである。例えば、二つのデータ要素がそれぞれ異なる二つの狭義のラベルを含んでいて、本実施形態におけるラベルが、それら二つの狭義のラベルをカバーする場合（例えば、二つの狭義のラベルが“２”及び“４”という整数であって本実施形態におけるラベルが“偶数”の場合）、それら二つのデータ要素は一つのラベルに属してよい。また逆に同じ狭義のラベルの属するデータ要素が広義のラベルに属してもよい。データ要素には、狭義のラベルに代えて又は加えて広義のラベルが関連付けられてよい。「疑似ラベル」は、本実施形態におけるラベルの疑似的なラベルである。

図３は、対象データの特定からＳＷＤの算出までの処理の流れの一例を示す。なお、以下の説明におけるベースデータ及び対象データは、データストア１３１から取得される。また、モデル学習部２６５が学習モデルを作成し、モデル推論部２６６が当該学習モデルを推論モデルとして使用しているとする。例えば、対象装置２２０について収集されたデータを収集装置２１０からデータ収集部２６９が受信し当該データをデータストア１３１に格納し、モデル推論部２６６が当該データにおける入力変数を推論モデルに入力することで出力変数を得るとする。

図３が例示する処理は、定期的に（又は不定期的に）行われる。例えば、現在がＳＷＤの算出のタイミングの場合にこの処理が行われる。「算出タイミング」は、前回ＳＷＤが算出されてから一定期間経過したときでもよいし、ＳＷＤが算出されていない対象データがデータストア１３１から検出されたタイミングでもよい。

ＳＷＤ算出部２６１が、ＳＷＤが算出されていない対象データを特定する（Ｓ３０１）。ラベルが関連付けられていないデータ要素が対象データにある場合、疑似ラベル生成部２６７が、ベースデータに対してクラスタリングした結果を疑似ラベルとし、ベースデータに対する疑似ラベルの関係をk近傍法などの識別モデルを学習しておくことで当該データ要素に付与する疑似ラベルを生成し（Ｓ３０２）、生成されたラベルを、データストア１３１内の当該データ要素に含める。ＳＷＤ算出部２６１が、ベースデータとＳ３０２で選択された対象データとのＳＷＤを算出し（Ｓ３０３）、当該算出された対象データを、対象データのメタ情報の少なくとも一部としてデータストア１３１に格納する。

この処理により、各第２の期間について、対象データとベースデータのＳＷＤが算出される。

なお、本実施形態では、対象データとベースデータ間のＳＷＤは、入力変数間のＳＷＤでよいが、入力変数間のＳＷＤに代えて又は加えて、潜在変数間のＳＷＤ、出力変数間のＳＷＤ、及び、評価（例えば、精度、正解率）間のＳＷＤ、のうちの少なくとも一つに基づいてよい。

図４は、疑似ラベルの生成の一例を模式的に示す。

入力変数を含むデータ要素にラベルが無いケースの一例として、学習モデルが教師データ無しの学習モデルであるケースがある。このようなケースでは、疑似ラベルの生成及び付与が有効である。ラベル別に、推論の監視が行われたり、当該ラベルを含むデータ要素の集合を訓練データ候補とするか否かが判定されたりしてよい。

疑似ラベルの生成は、例えば次のように行われてよい。すなわち、疑似ラベル生成部２６７が、学習モデルの作成に使用されたベースデータにおける複数のデータ要素を複数のデータ集合にクラスタ化し、各データ集合にクラスを割り当てる。疑似ラベル生成部２６７が、データ集合別に割り当てられたクラスを疑似ラベルとしたモデル（例えば、ニューラルネットワーク）を作成し、当該モデルである疑似ラベル生成モデルに自己教示学習をさせる。疑似ラベル生成部２６７は、学習された疑似ラベル生成モデルに、ラベルの無いデータ要素の入力変数を入力することで、当該入力変数に対応した出力変数を疑似ラベルとして取得する。疑似ラベル生成部２６７は、取得された疑似ラベルと、データ要素との関連付けを行う。例えば、疑似ラベル生成部２６７は、疑似ラベルを、データストア１３１内の当該データ要素に含める。このように、ベースデータを用いて学習モデルを作成するときに疑似ラベル生成モデルを作成し、学習モデルの再学習において、疑似ラベル生成モデルを利用することができる。

疑似ラベルを生成することで、データ要素にラベルが関連付けられていなくても、ラベル別にＳＷＤを算出したりラベル別に訓練データ候補を決定したりといった部分的データの活用が可能となる。

図５は、ＳＷＤの算出の一例を模式的に示す。

本実施形態において、ＳＷＤの算出には、ＳＷＤ（Sliced Wasserstein Distance）を利用した方法が採用される。ＳＷＤは、ワッサースタイン計量（輸送理論）の考え方に基づくＳＷＤの一つである。ＳＷＤについては、１次元のＷＤ（Wasserstein Distance）がクローズドフォームであるという特性があること、及び、ラドン変換との組み合わせることで学習無しでＳＷＤを算出することができることが知られている。また、ＳＷＤについては、Kullback-Leibler divergenceに比べると、分布の変化に対して緩やかに変化すること（例えば、ニューラルネットワークの学習に用いると勾配消失対策になること）が知られている。

ＳＷＤの特性として、例えば以下の特性がある。
・１次元離散分布の場合、二つのサンプルＡ及びＢに関し、それぞれがソートされ、element-wiseな差の絶対値の和が、ＳＷＤである。
・同じ分布からサンプリングされたサンプルのＳＷＤの大きさは、サンプルサイズ（集合における要素の数）に依存する。例えば、輸送される必要がある要素が多ければ、ＳＷＤは大きい。
・分布のばらつき具合にＳＷＤの大きさは依存する。例えば、輸送距離が長ければ、ＳＷＤは大きい。

図５が示す例は、ベースデータと或る対象データとのＳＷＤを説明する。ベースデータは、五つの白色ブロックであり、対象データは、五つの灰色ブロックである。各ブロックは、サンプル（データ要素の集合）である。五つの白色ブロックを五つの灰色ブロックの位置に移動するのに必要な合計移動距離の最小値である“６”が、輸送距離（ＳＷＤ）である。

図６は、ＳＷＤを算出する処理の詳細の流れの一例を示す。

図６（及び図５）によれば、本実施形態では、対象データ毎に、対象データ要素がラベル別に分けられ、サンプリングサイズが、固定であり、対象データ及びベースデータ間で、サンプリングサイズは同じである。また、ラベル間でも、サンプリングサイズは同じである。ラベル間で輸送距離のスケールがばらつかないようにするためである。一方、サンプル数は大きければ大きいほどＳＷＤの算出精度が向上するが、本実施形態ではすべて同じ値を用いる。或る対象データ（或る第２の期間）を例に取り、図６を詳細に説明する。

ＳＷＤ算出部２６１が、無効ラベルの有無を判定する。無効ラベルがあれば、ＳＷＤ算出部２６１が、複数のラベルから無効ラベルを除外する（Ｓ６０１）。残ったラベルが有効ラベルである。少なくとも一つの有効ラベル（又は無効ラベル）は、例えばユーザ入力部２７０が提供する入力ＵＩ経由で手動選択されてもよい。ここで、「無効ラベル」とは、対象データ要素（対象データにおけるデータ要素）の数が予め定めた値Ｌ未満（Ｌは自然数）であるラベルである。データ要素が少なすぎるとノイズの影響を大きく受けるなどＳＷＤ自体の信頼性に欠けるため、無効ラベルが除外される。

ＳＷＤ算出部２６１が、有効ラベル毎に、Ｓ６０２～Ｓ６０４を行う。一つの有効ラベルを例に取る。なお、対象データとベースデータ間で複数の有効ラベルが一致していない場合、共通の一つ以上の有効ラベルの各々について、Ｓ６０２～Ｓ６０４が行われる。具体的には、例えば、或るラベルについて、対象データでもベースデータでも有効ラベルとなっている場合、Ｓ６０２以降の処理が行われる。言い換えれば、当該或るラベルについて、対象データ及びベースデータの一方又は両方で無効となっている場合には、当該或るラベルについてＳ６０２以降は行われない。

ＳＷＤ算出部２６１が、Ｋ回（Ｋは自然数）、Ｓ６０２及びＳ６０３の組を行う。Ｓ６０２では、ＳＷＤ算出部２６１が、ベースデータと対象データの各々について、有効ラベルに関連付いている複数のデータ要素から、サンプルサイズＮのサンプル（データ要素の集合）を抽出する。Ｓ６０３では、ＳＷＤ算出部２６１が、Ｓ６０２で抽出したサンプル間の輸送距離を算出し、算出された輸送距離を表す情報をデータストア１３１に格納する。このようなＳ６０２及びＳ６０３がＫ回行われるため、ベースデータ及び対象データの各々からＫのサンプルが抽出され、有効ラベルについてＫの輸送距離が得られることになる。

その後、ＳＷＤ算出部２６１が、Ｋの輸送距離の平均値を算出する（Ｓ６０４）。Ｓ６０４で算出された平均値が、有効ラベルについて算出された輸送距離である。Ｋの輸送距離の平均値に代えて、Ｋの輸送距離に基づく他種の値、例えば、重み付き平均、最大値又は最小値が得られてもよい。

以上のＳ６０２～Ｓ６０４が、有効ラベル毎に行われるため、有効ラベル毎に輸送距離が得られる。ＳＷＤ算出部２６１が、二つ以上の有効ラベルにそれぞれ対応した二つ以上の輸送距離の平均値を算出する（Ｓ６０５）。Ｓ６０５で算出された平均値が、対象データについて算出された輸送距離である。二つ以上の輸送距離の平均値に代えて、二つ以上の輸送距離に基づく他種の値、例えば、重み付き平均、最大値又は最小値が得られてもよい。ＳＷＤ算出部２６１が、データストア１３１内の対象データに、Ｓ６０５で算出された輸送距離（ＳＷＤ）を関連付ける。これにより、当該対象データについて算出済の輸送距離をデータストア１３１から特定することが可能である。

図５及び図６を参照した説明によれば、例えば次の通りである。すなわち、ＳＷＤ算出部２６１は、一つ以上の第２の期間の各々について、複数の対象データ要素の複数のラベルのうち二つ以上の有効ラベルの各々について、Ｋ（Ｋは自然数）のサブ対象集合とＫのサブベース集合とのそれぞれの輸送距離であるＫの輸送距離（ＫのサブＳＷＤの一例）を算出し、Ｋの輸送距離を基に当該ラベルについて輸送距離を算出する。ＳＷＤ算出部２６１は、二つ以上のラベルにそれぞれ対応した二つ以上の輸送距離を基に、対象データとベースデータとのＳＷＤを算出する。各有効ラベルについて、Ｋのサブ対象集合は、当該有効ラベルが関連付いた対象データ要素の集合から抽出されたＫのサンプルであり、Ｋのサブベース集合は、当該有効ラベルが関連付いたベースデータ要素の集合から抽出されたＫのサンプルである。また、各有効ラベルについて、サブ対象集合毎の対象データ要素の数と、サブベース集合毎のベースデータ要素の数は、同数（同一のサンプルサイズ）である。このようにして、複数の対象データ要素の集合である対象データと複数のベースデータ要素の集合であるベースデータ間のＳＷＤを適切に算出することができる。

図７は、再学習タイミングが検出された場合に行われる処理の流れの一例を示す。

現在が学習モデルの再学習タイミングであることが検出された場合、この処理が行われる。例えば、モデル監視部２６８が、推論モデルへの入力と推論モデルからの出力とを含む推論の傾向の変化度合が一定度合以上になったか否かを監視してよい。再学習タイミングは、当該変化度合が一定度合以上であることが検出されたタイミングでよい。これにより、推論の傾向の変化度合が一定度合以上になったことを契機に自動的に適切な訓練データ候補を決定し学習モデルを再学習することができる。なお、「推論の傾向の変化度合」とは、推論において入力される入力変数の変化度合、推論において出力される出力変数の変化度合、及び、推論モデルの評価、のうちの少なくとも一つの変化度合でよい。また、「一定度合」は、コンセプトドリフトの検出のための値でよく、その値は、変動点の特定のためにＳＷＤと比較される上述の第１の閾値と同じでもよいが、典型的には、第１の値より高い値でよい。本実施形態では、対象データについて算出されたＳＷＤが、そのような一定度合よりも低い第１の閾値以上の場合に、当該対象データに対応した第２の期間に属する時刻が変動点として特定されてよい。すなわち、変動点は、コンセプトドリフト程に高い変動ではないがコンセプトドリフトの予兆と推定される時刻と言うことができる。

現在が学習モデルの再学習タイミングであることが検出された場合、変動点特定部２６２が、変動点を特定する（Ｓ７０１）。具体的には、例えば、変動点特定部２６２が、全体期間における第２の期間毎に（データストア１３１内の対象データ毎に）、算出済のＳＷＤを特定し、当該ＳＷＤが第１の閾値以上か否かを判定する。第１の閾値以上のＳＷＤが算出された第２の期間に属する時刻が、変動点として特定される。

テスト期間決定部２７１が、テスト期間を決定することでデータストア１３１からテストデータを選定する（Ｓ７０２）。テストデータは、学習モデルに関わるデータのうち、テスト期間分のデータである。

テスト期間は、再学習タイミングを終了時刻とする過去の期間でよい。テスト期間の長さは、第１の期間の終了時刻（例えば、学習モデルの生成又は直前回の再学習の終了時刻）から再学習タイミングまでの期間である全体期間に基づき決定されてよい（例えば、全体期間の所定割合分の長さでよい）。

テスト期間の決定に代えて又は加えて、テストデータに含まれるデータが、ユーザ入力部２７０が提供する入力ＵＩを介して指定されてもよい。例えば、推論において必ず入力される入力変数と同じ入力変数を含んだデータが入力ＵＩを介し指定されてよい。

候補決定部２６３が、除外期間を決定する（Ｓ７０３）。具体的には、例えば、候補決定部２６３は、或る連続した二つ以上の第２の期間にそれぞれ対応した二つ以上のＳＷＤの各々が、第１の閾値未満であるが第２の閾値以上であれば、当該連続した二つ以上の第２の期間の開始時刻から終了時刻までを、除外期間に決定する。このような期間は、対象装置２２０の整備、保守又はキャリブレーション中の期間である可能性が高く、このような期間中に収集されたデータは、対象装置２２０の傾向を表すデータではない。除外期間以外の期間分のデータから訓練データ候補が決定されるので、訓練データとして不適切なデータが訓練データ候補として決定されることを避けることができる。

候補決定部２６３が、全体期間のうちのテスト期間以外の期間に属する一つ以上の変動点（Ｓ７０１で特定された変動点）を基に、一つ以上の訓練データ候補を決定する（Ｓ７０４）。

各訓練データ候補に対応した期間の開始時刻及び終了時刻の少なくとも一つは、いずれかの変動点である。但し、一部の変動点が除外期間に含まれている場合、或る訓練データ候補に対応した期間の開始時刻及び終了時刻の一方は、除外期間の開始時刻又は終了時刻でよい。

また、決定された一つ以上の訓練データ候補は、ラベル別に異なる期間の訓練データ候補でよい。つまり、同一期間分のデータから、ラベル別に、訓練データ候補とするか否かが決定されてよい。これにより、或るラベルについては、一か月分のデータが訓練データ候補とされ、別のラベルについては、二か月分のデータが訓練データ候補とされるといったことがあり得る。ラベルは、入力変数に対する出力変数それ自体又は当該出力変数に対応するため、ラベル別の訓練データ候補決定は、訓練データ候補の適切性の向上に寄与し得る。

結果出力部２６４が、Ｓ７０４で決定された一つ以上の訓練データ候補を再学習のために出力する。具体的には、結果出力部２６４が、モデル学習部２６５に対して、Ｓ７０４で決定された一つ以上の訓練データ候補を出力し、モデル学習部２６５が、当該一つ以上の訓練データ候補を用いて学習モデルを再学習する（Ｓ７０５）。

候補決定部２６３が、訓練データ候補の再決定を行うか否かを判定する（Ｓ７０６）。

Ｓ７０６の判定の結果が偽のケースは、例えば次のケース、すなわち、テスト期間の終了時刻のような基点から、過去へと、基点（又は変動点）から次の変動点間の期間の単位で、期間（除外期間を除く）が追加され、期間追加後の期間分のデータが訓練データ候補の一つとされるケースである。この場合、Ｓ７０６：ＮＯとなり、処理がＳ７０７へ進む。

Ｓ７０６の判定の結果が真のケースは、例えば次のケース、すなわち、再学習後の学習モデルの評価が所定の評価（例えば、後述の第１の評価）に満たないケースである。具体的には、例えば、結果出力部２６４が、出力された一つ以上の訓練データ候補を用いた再学習後の学習モデルを評価する。当該評価が所定の評価未満の場合、Ｓ７０６：ＹＥＳとなり、処理がＳ７０４に戻る。候補決定部２６３が、直前回のＳ７０４で決定された一つ以上の訓練データ候補の少なくとも一つの訓練データ候補に対応した期間を当該期間の次の変動点まで延ばす又は縮めることで、新たな一つ以上の訓練データ候補を決定する。期間を延ばす例によれば、期間が、［ｔ３，ｔ４］から［ｔ３，ｔ５］になる。期間を縮める例によれば、期間が、［ｔ３，ｔ５］から［ｔ３，ｔ４］になる。このケースでは、最初に訓練データ候補はランダムに決定されてよい。このように、訓練データ候補の決定、再学習及び評価が繰り返されることで、最適な学習モデルが再学習後の学習モデルとして得られる訓練データ候補の決定が期待できる。

結果出力部２６４が、再学習後の学習モデルを自動デプロイするか否かを判定する（Ｓ７０７）。具体的には、例えば、下記の通りである。
・Ｓ７０７の判定結果が真でるか偽であるかは、自動デプロイすることが予め設定されているか否かでよい。
・Ｓ７０７の判定結果が真でるか偽であるかは、再学習後の学習モデルの評価が、第２の評価以上であるか、或いは、第１の評価以上であるが第２の評価未満であるかでよい。

Ｓ７０７の判定の結果が偽の場合（Ｓ７０７：ＮＯ）、例えば、再学習後の学習モデルの評価が、第１の評価以上であるが第２の評価未満である場合、結果出力部２６４が、Ｓ７０４で決定された一つ以上の訓練データ候補又はそれのメタ情報を表示した運用支援ＵＩ１１０を提供する（Ｓ７０８）。

一方、Ｓ７０７の判定の結果が真の場合（Ｓ７０７：ＹＥＳ）、例えば、再学習後の学習モデルの評価が、第２の評価以上である場合、結果出力部２６４が、運用支援ＵＩ１１０を提示すること無しに、推論モデルを学習モデルから再学習後の学習モデルに差し替えることであるモデルデプロイを行う（Ｓ７０９）。例えば、再学習後の学習モデルの評価が第２の評価以上であるという高評価の場合に自動で（バックグラウンドで）モデルデプロイが行われるので、利便性が高い。Ｓ７０９が行われた場合、結果出力部２６４が、自動デプロイの結果の参考情報（例えば、自動デプロイ後の推論の結果を表す情報）を表示したＵＩを提供する（Ｓ７１０）。なお、Ｓ７０９は、Ｓ７０８で提示した運用支援ＵＩ１１０に対してユーザがデプロイの指示を入力した場合に行われてもよい。

図８は、運用支援ＵＩ１１０の一例を示す。

運用支援ＵＩ１１０は、候補提示チャート１１１とメタ情報リスト１１２とのうちの少なくとも一つを表示する。運用支援ＵＩ１１１は、評価情報１１３を表示してよい。

候補提示チャート１１１は、一つ以上の訓練データ候補の各々の期間を提示するチャートである。候補提示チャート１１１は、時間軸を有し、複数の特定された変動点（複数の破線矢印）と、現在時刻（再学習タイミングの一例）から過去の期間のうちの一つ以上の訓練データ候補にそれぞれ対応した一つ以上の期間とを表す。

候補提示チャート１１１における“ＴＥＳＴ”は、再学習後の学習モデルのテストに関わるテストデータである。図８が示す例によれば、時刻ｔ５は、現在時刻からテスト期間分過去の時刻である。図８が示す例によれば、訓練データ候補は、テスト期間より過去の期間に対応したデータから決定される。テストデータよりも将来の訓練データ候補があると、当該訓練データ候補が、テストデータにおける入力変数と当該入力変数に対する正解としての出力変数とを含んでいる可能性がある。全体期間に対応した全体データが時系列データである場合には、その可能性が高い。そのような訓練データ候補を用いて学習モデルの再学習が行われると、再学習後の学習モデルは、テストデータにおける入力変数に対して正解の出力変数が出力される学習モデルとなり、結果として、テストデータを用いたテストの意義が低下するおそれがある。本実施形態によれば、テスト期間は現在時刻を起点とした過去の期間とされ、訓練データ候補に対応した期間は、当該過去の期間（テスト期間）の開始時刻より過去の期間である。このため、テストデータよりも将来のデータが訓練データ候補として決定されることが無い。

メタ情報リスト１１２は、訓練データ候補のメタ情報のリストである。例えば、メタ情報リスト１１２は、訓練データ候補毎に、候補のＩＤ、当該候補に対応した期間の開始時刻、当該期間の終了時刻、当該候補についてのＳＷＤ、及び、当該期間中の除外期間を表す。

訓練データ候補毎のＳＷＤの例は、次の通りでよい。すなわち、訓練データ候補に対応した期間が、いずれかの第２の期間に該当する場合、当該訓練データ候補についてのＳＷＤは、当該第２の期間に対応したＳＷＤでよい。訓練データ候補に対応した期間が、連続した二つ以上の第２の期間に該当する場合、当該訓練データ候補についてのＳＷＤは、当該二つ以上の第２の期間に対応した二つ以上のＳＷＤに基づくＳＷＤでよい。

また、候補ＩＤ“Ｄ４”に対応した除外期間“［ｔ１．３，ｔ１．５］は、変動点ｔ１と変動点ｔ２の間の期間である。候補提示チャート１１１によれば、Ｄ４は、期間［ｔ１，ｔ５］分のデータであるが、メタ情報リスト１１２によれば、Ｄ４は、当該期間［ｔ１，ｔ５］分のデータから除外期間“［ｔ１．３，ｔ１．５］分のデータが除かれたデータである。

評価情報１１３は、訓練データ候補毎に、当該候補を用いた再学習後の学習モデルの評価（例えば、精度や正解率）を表す情報でよい。

以上のような運用支援ＵＩ１１０から、ユーザは、現在時刻（再学習タイミングの一例と訓練データ候補毎の期間とテスト期間との関係を俯瞰しつつ、各訓練データ候補のメタ情報を確認できる。

以上、一実施形態を説明したが、これは本発明の説明のための例示であって、本発明の範囲をこの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。

例えば、テスト期間及び除外期間のうちの少なくとも一つが無くてもよい。

また、運用支援ＵＩ１１０では、図８が示したメタ情報リスト１１２に代えて、図９が示すメタ情報リスト９００が採用されてもよい。図９が示す例によれば、各訓練データ候補について、ラベル別に、開始時刻、終了時刻及びＳＷＤを含んだメタ情報が表示される。

１００：モデル運用支援システム

Claims

第１の期間の終了時刻から機械学習の学習モデルの再学習タイミングまでの期間である全体期間のうちの一つ以上の第２の期間の各々について、対象データとベースデータとの分布間距離を算出する分布間距離算出部と、
前記一つ以上の第２の期間の各々について、前記対象データは、全体データのうちの当該第２の期間分のデータであり、
前記全体データは、前記全体期間分のデータであって前記学習モデルに関わるデータであり、
前記ベースデータは、前記第１の期間分のデータであって前記学習モデルの作成に関わったデータであり、
前記一つ以上の第２の期間の各々について、前記算出された分布間距離が第１の閾値以上であるか否かを判定し、当該判定の結果が真の場合に当該第２の期間に従う時刻を変動点として特定する変動点特定部と、
前記全体データの一部又は全部から前記全体期間のうちの一つ以上の期間にそれぞれ対応した一つ以上の訓練データ候補を一つ以上の変動点に基づいて決定する候補決定部と、
前記決定された一つ以上の訓練データ候補又はそれのメタ情報を前記学習モデルの再学習のために出力する結果出力部と
を備えるモデル運用支援システム。
前記結果出力部は、前記決定された一つ以上の訓練データ候補又はそれのメタ情報を表示したユーザインターフェースを提供し、
前記メタ情報は、前記決定された一つ以上の訓練データ候補の各々について、当該訓練データ候補に対応した期間の開始時刻及び終了時刻を表す情報を含み、
前記決定された一つ以上の訓練データ候補の各々について、当該訓練データ候補に対応した期間の開始時刻及び終了時刻のうちの少なくとも一方が、いずれかの変動点である、
請求項１に記載のモデル運用支援システム。
前記分布間距離算出部は、前記一つ以上の第２の期間の各々について、前記対象データのうちの複数のサブ対象データ集合と、前記ベースデータのうちの複数のサブベースデータ集合とのそれぞれの分布間距離を基に、前記対象データと前記ベースデータとの分布間距離を算出し、
前記候補決定部が、分布間距離が連続的に第１の閾値未満第２の閾値以上である期間があれば、前記全体期間から当該期間を除いた期間分のデータから、訓練データ候補を決定する、
請求項１に記載のモデル運用支援システム。
前記一つ以上の第２の期間の各々について、前記対象データは、当該第２の期間に属する複数の対象データ要素の集合であり、
前記ベースデータは、複数のベースデータ要素の集合であり、
前記分布間距離算出部は、前記一つ以上の第２の期間の各々について、
前記複数の対象データ要素の複数のラベルのうち二つ以上のラベルの各々について、Ｋ（Ｋは自然数）のサブ対象集合とＫのサブベース集合とのそれぞれの分布間距離であるＫのサブ分布間距離を算出し、Ｋのサブ分布間距離を基に当該ラベルについて分布間距離を算出し、
前記二つ以上のラベルにそれぞれ対応した二つ以上の分布間距離を基に、前記対象データと前記ベースデータとの分布間距離を算出し、
前記複数のラベルの各々について、
Ｋのサブ対象集合は、当該ラベルが関連付いた対象データ要素の集合におけるＫの集合であり、
Ｋのサブベース集合は、当該ラベルが関連付いたベースデータ要素の集合におけるＫの集合であり、
サブ対象集合毎の対象データ要素の数と、サブベース集合毎のベースデータ要素の数は、同数である、
請求項１に記載のモデル運用支援システム。
一つ以上の無効ラベルがあれば、前記二つ以上のラベルは、前記複数のラベルのうちの前記一つ以上の無効ラベル以外のラベルである二つ以上の有効ラベルであり、
各無効ラベルは、対象データ要素の数が所定数未満であるラベルである、
請求項４に記載のモデル運用支援システム。
推論モデルへの入力と推論モデルからの出力とを含む推論の傾向の変化度合が一定度合以上になったか否かを監視するモデル監視部、
を更に備え、
前記再学習タイミングは、前記変化度合が前記一定度合以上であることが検出されたタイミングであり、
前記変化度合が前記一定度合以上になったことが検出された場合、前記一つ以上の変動点の特定、及び、前記一つ以上の訓練データ候補の決定が行われる、
請求項１に記載のモデル運用支援システム。
前記再学習タイミングが検出された場合、
前記結果出力部が、前記決定された一つ以上の訓練データ候補を前記学習モデルの再学習のために出力し、
前記結果出力部が、当該再学習後の学習モデルの評価を行い、
当該評価が第１の評価以上であり第２の評価未満の場合、前記結果出力部が、前記決定された一つ以上の訓練データ候補又はそれのメタ情報を提示し、
当該評価が前記第２の評価以上の場合、前記決定された一つ以上の訓練データ候補又はそれのメタ情報を提示すること無しに、前記結果出力部が、推論モデルを前記学習モデルから前記再学習後の学習モデルに差し替えることであるモデルデプロイを行う、
請求項１に記載のモデル運用支援システム。
前記一つ以上の訓練データ候補は、ラベル別に異なる期間の訓練データ候補である、
請求項１に記載のモデル運用支援システム。
ラベルの無い対象データ要素がある場合、当該対象データ要素に対する疑似ラベルを生成する疑似ラベル生成部、
を更に備える請求項４に記載のモデル運用支援システム。
前記結果出力部が、一つ以上の訓練データ候補が決定された場合、当該一つ以上の訓練データ候補を前記学習モデルの再学習のために出力して、当該再学習後の学習モデルの評価を行い、
当該評価が所定の評価未満の場合、前記候補決定部が、前記一つ以上の訓練データ候補の少なくとも一つの訓練データ候補に対応した期間を当該期間の次の変動点まで延ばす又は縮めることで、新たな一つ以上の訓練データ候補を決定する、
請求項１に記載のモデル運用支援システム。
前記結果出力部が、
前記一つ以上の訓練データ候補を前記学習モデルの再学習のために出力し、
マニュアルでの指示に応答して又はマニュアルでの指示無しに、推論モデルを前記学習モデルから前記再学習後の学習モデルに差し替えることであるモデルデプロイを行う、
請求項１に記載のモデル運用支援システム。
前記再学習タイミングを終了時刻とする過去の期間をテスト期間とするテスト期間決定部、
を更に備え、
前記候補決定部は、前記テスト期間の開始時刻から当該開始時刻より過去の一つ又は複数の変動点を基に、前記全体期間のうちの前記テスト期間以外の期間分のデータから一つ以上の訓練データ候補を決定し、
当該一つ以上の訓練データ候補の各々について、当該訓練データ候補に対応した期間の開始時刻及び終了時刻の少なくとも一つは、いずれかの変動点である、
請求項１に記載のモデル運用支援システム。
コンピュータが、第１の期間の終了時刻から機械学習の学習モデルの再学習タイミングまでの期間である全体期間のうちの一つ以上の第２の期間の各々について、対象データとベースデータとの分布間距離を算出し、
前記一つ以上の第２の期間の各々について、前記対象データは、全体データのうちの当該第２の期間分のデータであり、
前記全体データは、前記全体期間分のデータであって前記学習モデルに関わるデータであり、
前記ベースデータは、前記第１の期間分のデータであって前記学習モデルの作成に関わったデータであり、
コンピュータが、前記一つ以上の第２の期間の各々について、前記算出された分布間距離が閾値以上であるか否かを判定し、当該判定の結果が真の場合に当該第２の期間に従う時刻を変動点として特定し、
コンピュータが、前記全体データの一部又は全部から前記全体期間のうちの一つ以上の期間にそれぞれ対応した一つ以上の訓練データ候補を一つ以上の変動点に基づいて決定し、
コンピュータが、前記決定された一つ以上の訓練データ候補又はそれのメタ情報を前記学習モデルの再学習のために出力する、
モデル運用支援方法。