JP7239519B2

JP7239519B2 - 機械学習モデル運用管理システムおよび運用管理方法

Info

Publication number: JP7239519B2
Application number: JP2020054839A
Authority: JP
Inventors: 聡一高重; 大輔小牧; 伸手塚
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-03-14
Anticipated expiration: 2040-03-25
Also published as: JP2021157313A; JP2023060106A; US20210304070A1; JP7538272B2

Description

本発明は、機械学習モデル運用管理システム、運用管理方法及びコンピュータプログラムに関する。

本発明は、機械学習モデルを開発し、デプロイする運用ライフサイクル（MLOps：Machine Learning/Operations）を管理する技術の中で、特に運用監視の技術に好ましく適用される。

機械学習において、開発したモデルをシステムに導入した後に、そのモデルの精度や特定の状況における推論結果に問題が発生しているかを恒常的、定期的に確認することが重要となる。この際、モデルに問題が発生しているかを監視し、精度などに問題がある場合にそれを検出して対応するシステムが必要となる。

本技術に関連するものとして、例えば特許文献１に開示されたものがある。この特許文献１には、推論システムの精度を収集、監視し、精度のより高いモデルをデプロイする方式が開示されている。

米国特許出願公開第２０１９／０１５６４２７号明細書

特許文献１に記載の技術では、推論結果を用いた業務のＫＰＩに問題があった場合、業務と推論の結果の関連性がわからず、モデル・データのいずれかに問題があるかを特定するために、関連データをすべて探し出して、内容を確認する必要がある。これを支援する技術がないと、業務とモデルの実績の間の相関関係やトランザクションレベルでの１：１のデータの対応付けなどを、膨大なデータの中から人手で行う必要があり、膨大なコストがかかる。

本発明は上記の課題に鑑みてなされたもので、業務と推論データの間の関係づけを支援し、問題となるデータの抽出を迅速に行うことが可能な機械学習モデル運用管理システム、運用管理方法及びコンピュータプログラムを提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う機械学習モデルの運用管理を行うシステムは、機械学習モデルを呼び出すシステムによる業務の内容を出力するシステムデータ列と、機械学習モデルの推論を処理する場合の入出力データである記録データ列とに基づいて、システムデータ列と記録データ列の対応付けを、システムと機械学習モデルとの依存関係を表す構成情報からこれらシステムデータ列と記録データ列との対応付けを算出する業務推論対応付け部を備えることを特徴とする。

本発明によれば、業務と推論データの間の関係づけを支援し、問題となるデータの抽出を迅速に行うことが可能な機械学習モデル運用管理システム、運用管理方法及びコンピュータプログラムを実現することができる。

実施例１に係る機械学習モデル運用管理システムの概略の全体構成を示す図である。実施例１に係る機械学習モデル運用管理システムのハードウェア構成を示すブロック図である。実施例１に係る機械学習モデル運用管理システムにおける実験管理ログ及びバージョン管理部の一例を示す図である。実施例１に係る機械学習モデル運用管理システムにおける推論ログおよび業務ログの一例を示す図である。実施例１に係る機械学習モデル運用管理システムにおけるデータフロー情報の一例を示す図である。実施例１に係る機械学習モデル運用管理システムにおけるフィードバックパターン定義の一例を示す図である。実施例１に係る機械学習モデル運用管理システムの業務―推論ＩＤ対応付け部処理の一例を示すフローチャートである。実施例１に係る機械学習モデル運用管理システムのモデル関係特定処理の一例を示すフローチャートである。実施例１に係る機械学習モデル運用管理システムの紐づけ対象データソース特定処理の一例を示すフローチャートである。実施例１に係る機械学習モデル運用管理システムのログ内対応付け特定処理の一例を示すフローチャートである。実施例２に係る機械学習モデル運用管理システムの概略の全体構成を示す図である。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。

また、以下の説明では、情報の一例として「ｘｘｘデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘデータ」を「ｘｘｘテーブル」と言うことができる。さらに、「ｘｘｘデータ」を単に「ｘｘｘ」と言うこともある。そして、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。

ＡＩシステムの業務ログ情報と推論ログ情報を管理する、本実施例の機械学習モデル運用管理システムの構成例を図１に示す。図１はシステムの論理的な構成情報を示している。

本実施例において、機械学習の学習に関する処理データ、および推論時に利用する実績のデータはともにモデル管理サーバ０１において管理される。モデル管理サーバ０１は、学習処理サーバ１６、推論処理サーバ１４、および、推論結果を利用するその他の業務処理サーバ１５と連携して、機械学習モデルに関する情報の管理を行う。これらのシステムは図２にあるように、ＣＰＵ、ストレージ、メモリ、およびネットワーク装置などで構成されるサーバ装置などによって構成される。

モデル管理・学習サーバ０１、１６、推論処理サーバ１４及び業務処理サーバ１５は、各種情報処理が可能な装置、一例としてコンピュータ等の情報処理装置である。情報処理装置は、演算素子、記憶媒体及び通信インターフェースを有し、さらに、マウス、キーボード等の入力装置、ディスプレイ等の表示装置、ネットワーク装置等を有する。

演算素子は、例えばＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array）等である。記憶媒体は、例えばＨＤＤ（Hard Disk Drive）などの磁気記憶媒体、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＳＳＤ（Solid State Drive）などの半導体記憶媒体等を有する。また、ＤＶＤ（Digital Versatile Disk）等の光ディスク及び光ディスクドライブの組み合わせも記憶媒体として用いられる。その他、磁気テープメディアなどの公知の記憶媒体も記憶媒体として用いられる。

記憶媒体には、ファームウェアなどのプログラムが格納されている。サーバの動作開始時（例えば電源投入時）にファームウェア等のプログラムをこの記憶媒体から読み出して実行し、サーバの全体制御を行う。また、記憶媒体には、プログラム以外にも、サーバの各処理に必要なデータ等が格納されている。

なお、本実施例のサーバ装置は、それぞれ、情報処理装置が通信ネットワークを介して通信可能に構成された、いわゆるクラウドにより構成されてもよい。

学習処理サーバ１６は、機械学習で利用する学習データを入力として、機械学習モデルを構築する学習処理を実行し、その結果として、何らかの推論処理を行うモデルを生成する。その際、モデル学習に利用した学習データ１６１と、その結果として生成されたモデル１６３を実験管理ログ１１としてモデル管理サーバ０１に送信する。

推論処理サーバ１４は、学習処理サーバ１６で生成された機械学習モデルを利用し、外部から推論用のデータを入力として受け取り、推論処理を行ってその結果を外部に返す。例えば、流通業務における、商品の需要予測処理などがある。別の例としては、ある顧客に対するセグメンテーションを行うなど、マーケティングに利用するシステムが挙げられる。

推論処理サーバ１４はその処理の入力として推論データ１４３を受け取り、そのデータに対して何らかの数学的処理を行った結果として推論結果１４５を生成する。ログ収集機能１４１は、その組み合わせを常に監視し、推論ログ１２をモデル管理サーバ０１に送信する。

業務処理サーバ１５は、推論処理サーバ１４を利用して、業務に対する処理を実行する一般的な情報処理システムである。その業務処理において、業務上の記録を業務ログ１３として出力する。この業務ログ１３の例としては、ある需要の推移などを記録したものである。この結果は推論結果１４５と比較することができる。一方で、顧客のセグメンテーションにおいては、正解は存在せず、その結果を人間が正否判定するなどの処理が必要である。この正否判定ログが業務ログ１３に相当する。このように、業務ログ１３は業務に依存して異なる内容を含む。

モデル管理サーバ０１では、このような業務ログ１３と推論ログ１２の間の対応付けを管理する。

機械学習の学習を行う機器（学習処理サーバ１６）及び、モデル管理サーバ０１は、業務－推論ＩＤ対応付け部１０、実験管理ログ１１、推論ログ１２、業務ログ１３及びバージョン管理部１９で構成される。実験管理ログ１１、推論ログ１２および業務ログ１３は、それぞれ学習処理サーバ１６、推論処理サーバ１４および、業務処理サーバ１５から収集されたログ情報である。

推論ログ１２および業務ログ１３は、収集対象となった推論処理システムに含まれる個別の推論モデル、および個別の業務システムに対して１つずつ個別のファイルもしくはテーブルとして保存される。そのため、モデルに対応する推論の履歴などを、対応する推論ログファイルを取得することで参照することができる。業務ログ１３においても同様に業務ログファイルを取得することで、特定の業務における業務指標などの履歴を取得することができる。

バージョン管理部１９は、実際にシステムで利用しているモデルのバージョンと、そのモデルをどの実験の結果を用いているかを特定するための構成管理情報である。

業務－推論ＩＤ対応付け部１０は、推論ログ１２の特定のログ行のグループと、業務ログ１３の特定のログ行のグループとの間の対応付けを、問題定義情報（データフロー定義１０１およびフィードバックパターン定義１０３）を用いて実施する。

実験管理ログ１１の論理的な構成例を図３（Ａ）に示す。実験管理ログ１１はモデルＩＤ３０１、ＵＵＩＤ（Universally Unique Identifier）３０２、学習モデルソースコードＩＤ３０３、ハイパーパラメータ３０４、学習データ３０５、検証データ３０６、及び検証精度３０７で構成される。

モデルＩＤ３０１は、モデルの特性を表し、モデルの構築をする設計者が他のモデルと区別するために割り当てる一意な識別子である。例えば「業務Ａ向け回帰アルゴリズム」「業務Ｂ向けクラスタリングモデル」などである。ＵＵＩＤ３０２は、繰り返しモデルのチューニングを行う場合に、その繰り返しの中であるモデルを特定するための一意な識別子である。

学習モデルソースコードＩＤ３０３～学習データ３０５は、学習モデルを生成するために用いたプログラムおよびデータを特定するための情報である。プログラムのソースコードの実体であったり、外部のリポジトリ中のＩＤであったりといった情報が入れ込まれる。学習データについても同様に、ＣＳＶデータなどの実体であったり、外部のリポジトリ中のＩＤであったりといった情報を記載する。検証データ３０６および検証精度３０７は、生成した機械学習モデルの推論性能を検証するために利用したデータおよび、その検証結果を示す情報であり、生成されたモデルの優劣を比較するなどの目的において利用する。

バージョン管理部１９の論理的な構成例を図３（Ｂ）に示す。バージョン管理部１９は、モデルＩＤ３９１、バージョン３９２、エンドポイント３９３、デプロイ日３９４、及び廃棄日３９５で構成される。

モデルＩＤ３９１は、システムにおいてモデルが使われる用途、コンポーネントの位置などを一意に特定するための識別子である。例えば「ＸＸ業務向け需要予測モデル」などのように用いられる。

バージョン３９２は、そのモデルの更新来歴を表し、モデルのアルゴリズムやパラメータが更新されるたびに、新しく採番される識別子である。エンドポイント３９３は、そのモデルがデプロイされたシステムを表す識別子である。例えば、Ｗｅｂサービスとしてモデルが実装される場合、そのＷｅｂサービスのアクセス先のＵＲＬなどを入れる。これを利用することで、複数のサービスにそれぞれ同一ＩＤのモデルがある場合にも、どのインスタンスの構成情報であるかを管理することができる。

デプロイ日３９４と廃棄日３９５は、それぞれモデルがシステムに対して組み込まれたデプロイ日時と、他のバージョンのモデルに更新されることに伴い廃棄された日時を表す。

推論ログ１２の論理的な構成例を図４（Ａ）に示す。推論ログ１２はトランザクションＩＤ４０１、モデルＩＤ４０２、タイムスタンプ４０４、入力値４０５、および出力値４０６で構成される。

トランザクションＩＤ４０１は、ログ行を一意に特定する識別子である。モデルＩＤ４０２はモデルを一意に特定するための識別子であり、モデルＩＤ３０１と同様の値が入る。学習時の識別子と、推論時の識別子とを突き合わせることで、学習時のデータと推論時のデータの分布が一致しているかを確認するために利用することができる。タイムスタンプ４０４は、推論処理が実施された時刻を表す。入力値４０５と出力値４０６は、推論の入力と出力のデータをそのまま記録したものである。入力値と出力値の対応付けを確認することで、モデルが正常に動作しているか、モデルの入力データが異常値となっているか、などを確認することができる。

業務ログ１３の論理的な構成例を図４（Ｂ）に示す。業務ログ１３はログＩＤ４１１、タイムスタンプ４１、ログメッセージ４１３で構成される。

ログＩＤ４１１はログ行を一意に特定する識別子で、タイムスタンプ４１２は、ログが生成された時刻を表す。ログメッセージ４１３はログの内容を表すメッセージである。ログメッセージ４１３は業務ごとに依存する内容となるが、例えば「ある時刻における需要の実際の値」であったり、「顧客のセグメンテーションの正否を業務従事者が判断した正否情報」などが記録されることを想定している。

次に、業務－推論ＩＤ対応付け部１０が利用する問題定義情報について説明する。

データフロー定義１０１の構成例を図５に示す。データフロー定義１０１は、入力のデータが処理をされて、出力される処理の流れを示す。これにより、あるモデルＩＤで示される機械学習モデルが、全体システムの中のどの処理として実行されているかを把握することができる。

データフロー定義１０１は学習時処理フロー５０１および、推論時処理フロー５０２で構成される。それぞれ、学習処理サーバ１６および推論処理サーバ１４で実行される処理のフローを表している。

学習時処理フロー５０１は、学習データ情報５１１、処理フロー５１２、および、生成モデルＩＤ５１３で構成される。この情報から、ある生成モデルＩＤ５１３で識別される処理が、どの学習データ情報５１１から生成されるかの対応付けを把握することができる。

推論時処理フロー５０２は、入力データストアＩＤ５２１、処理フロー５２２、モデル識別子５２３、出力データストアＩＤ５２４、および業務処理ＩＤ５２５で構成される。この情報から、あるモデル識別子５２３であらわされる機械学習モデルの入力値を格納するログデータファイル、出力値を格納するデータファイルを特定することができる。ログデータファイルに記載される内容は、図４（Ａ）に記載される推論ログ１２と同等、もしくは、その中の入力値、出力値のどちらかをペイロードとして保持する情報である。

同様に、上記推論処理フローによって、業務処理ＩＤ５２５で示される業務処理が出力するファイルの情報も特定することができる。業務処理の出力情報は、図４（Ｂ）に示される情報と同等である。

もう１つの問題定義情報である、フィードバックパターン定義１０３の構成例を図６に示す。フィードバックパターン定義１０３はモデルＩＤ６０１、業務ＩＤ６０２、結合関係６０３および結合関係プロパティ６０４で構成される、コンポーネント間の依存関係を表すグラフ構造である。コンポーネントはモデルＩＤ６０１もしくは業務ＩＤ６０２で識別される、グラフ構造上のノードである。

モデルＩＤ６０１および業務ＩＤ６０２は、推論処理、もしくは業務処理を一意に識別するＩＤである。これらのＩＤは、データフロー定義１０１における生成モデルＩＤ５１３、モデル識別子５２３、業務処理ＩＤ５２５と同じ情報であり、これらのＩＤを利用して、互いの定義情報の中で同一のＩＤを含む情報を抽出することができる。

結合関係６０３は、推論処理および業務処理で用いられるデータの依存関係を示すグラフ構造中のリンクに相当する情報である。ある処理が前段、あるいは後段のどの処理に関連づいているかを示す。この情報により、どの推論処理と、どの業務処理のログを対応づけて管理する必要があるかを特定することができる。

結合関係プロパティ６０４は、これらのログの中のどのデータ同士を対応付けて管理すべきかを表す情報であり、推論処理と業務処理の間のデータの相関関係を表す情報である。これは対応付け関係情報、キー情報、および評価情報で構成される。

対応付け情報は、両者のログ行が１：１で対応づくか、Ｎ：１もしくは１：Ｎで対応づくかを示す。

キー情報は、両者のログ行の中で、ログ行の対応付けを行うためのルールを示す情報である。例えば「トランザクションＩＤ」の場合は、両者のＩＤが同一の情報を対応付け、「時刻（＋Ｘ）」の場合は、一定の時刻（Ｘ）が過ぎた時点に最も近い情報を対応付け、「参照マップ」の場合は、外部にあるデータベースの情報を参照して、片方のＩＤに対応する他方のＩＤを検索して対応付け、「計算式ｆ（Ｘ），ｇ（Ｙ）」の場合は、結合元のＩＤがＸであるときにｆ（Ｘ）で結合先のＩＤを計算して、結合先のＩＤがＹであるときに結合元のＩＤをｇ（Ｙ）の計算式で計算する、といった情報となる。

評価情報は、業務ログ１３におけるログ行の情報が推論処理に対してどのようなフィードバックを与えているかを示す情報である。例えば「誤判定検知」の場合は、人間が手動で推論結果を誤判定とした場合にログ行が生成され、「即値比較」の場合は業務ログ１３と推論ログ１２の出力値を直接比較する内容が生成され、「スコア値」の場合は、直接比較できないが、値の高低が連動する値を含むログが生成され、「精度伝播」の場合は、後段の処理の内容を間接的に該当モデルの出力値の評価と連動する業務ログ１３とみなす必要がある場合を示す。

図６には３つのパターンの構成例を示している。例（Ａ）は、出力の値を直接評価することができず、人間による正否判定を伝えるシステムの例である。例（Ｂ）は、あるモデルがさらに後段の推論処理の入力となり、さらにそのモデルの推論処理が業務１の処理に影響を与えるものであることを示している。その結果は一定時刻を経過した業務上の実測値と直接比較することができることを表している。需要予測などにおいてあり得る構成である。例（Ｃ）は、その推論結果は業務上の何らかの指標で評価できるが、推論結果とは直接比較できない事例をあらわす。制御モデルと、その制御結果のパフォーマンスを測定する、などの場合があり得る。

このように、機械学習を適用する様々なケースにおいて、そのログ情報を統一的な手順で結びつけるために、この問題定義情報を用いる。

データフロー定義１０１およびフィードバックパターン定義１０３は、ともにあるシステムにおいて固有の情報である。これらの情報は、システム構築者によって明示的に定義することを基本とする。

ただし、データのＩＤに同一のトランザクションＩＤを用いてデータフローを構成するようなシステムにおいては、このトランザクションＩＤを用いて、双方の問題定義情報の一部もしくは全体を、推論ログ１２および実験管理ログ１１から推定することも可能である。この場合、両者のログから同一のモデルＩＤ、バージョンＩＤ、およびトランザクションＩＤを用いているログ行を取り出し、その順序関係を比較して、時刻が早いものから、時刻が遅いものへの結合関係を推定することで、ログ情報とモデル情報の対応付け、および、結合関係６０３を推定する。

データフロー定義１０１は実装の担当者が入力し、フィードバックパターン定義１０３は上位のシステム設計者もしくはデータサイエンティストや業務知識に詳しい設計者が入力するなど、ロールに応じた知識を入力することができ、それらの合成情報から自動的にログデータ間の対応付けを行うことが本実施例の特徴であるといえる。

次に、業務－推論ＩＤ対応付け部１０の処理の流れについて説明する。

図７は業務－推論ＩＤ対応付け部１０が収集した推論ログ１２の各ログ行に対して実行する処理の概要を示す。この処理では、モデル関係の特定ステップ７０１、紐づけ対象データソース特定処理７０２、およびログ内対応付け処理７０３を順に実施する。

図7のモデル関係の特定ステップ７０１の処理フローの例を図８に示す。本処理では、ある機械学習モデルを利用した推論処理のデータの分布と、そのモデルの学習時のデータを比較するための処理を実施する。

（ステップ８０１）各推論ログのログ行を参照し、その推論を実行したモデルのモデルＩＤ４０２を特定する。次にデータフロー定義１０１を参照し、フロー定義中にモデルＩＤ４０２をモデルＩＤ５１３として含むフロー情報８００１を取得する。

（ステップ８０２）ステップＳ８０１で取得したフロー情報を参照し、モデルＩＤに関連する入力データストアおよび出力データを含むデータファイル（もしくはテーブル名）を特定する。

（ステップ８０３）推論ログ１２中のタイムスタンプから、その時にデプロイされていたモデルのバージョン情報を取得する。これは、バージョン管理部１９から、該当するモデルＩＤと、対象とするシステムのエンドポイントをキーにしてレコードを抽出し、そこに記載されているバージョン３９２を取得することによって実現できる。また、同一のレコードからＵＵＩＤ３０２も併せて取得する。

（ステップ８０４）モデルＩＤ４０２およびモデルバージョン４０３をキーとして、推論ログ１２を含むデータファイルから、キー情報が一致するログ行をすべて抽出する。
（ステップ８０５）モデルＩＤ４０２およびモデルバージョン４０３をキーとして、実験管理ログ１１から、該当するＵＵＩＤ３０２のログ行からキーが一致する情報を取得し、そこに含まれる学習データ３０５を抽出する。

ステップ８０４の結果として１つ以上の推論入出力データを含むデータセットを取得し、ステップ８０５の結果として１つ以上の学習データを含むデータセットを取得することができる。これらを比較することにより、データの異常が発生しているかを調査することができるようになる。

対応付けられた結果は、図１に示すようにグラフとして表示する、あるいは、対応付けられたデータセット同士を特定のディレクトリにファイルとして出力する、などの方法により、後続の分析処理に利用できる。これらの処理を、システムに組み込みの処理として実装する、あるいは、対応付けたデータをプログラムにプラグインされた関数に渡して任意の処理を実行させる、などの方法で分析に用いることができるシステムを合わせて実装する。これらの処理は既存のプログラミングの処理を用いて実現することが可能である。

図７の紐づけ対象データソース特定処理７０２の処理フローの例を図９に示す。本処理では、新しく取得された推論ログ１２の各ログ行に対して、どの業務処理のログ情報と突き合わせる必要があるかをファイルレベルで特定する。その後、図１０で示す処理によって、各ＩＤで特定される１つ以上のログ行で構成されるデータセットの中で、どのログ行を、他方のどのログ行に対応付けて管理すべきかを決定する。

まず、要素を含まない空列のリスト構造のデータを作成し、「結合関係プロパティリスト９００３」とする。

（ステップ９０１）対象とするログ行のモデルＩＤ４０２を取得する。フィードバックパターン定義１０３を参照し、該当するモデルＩＤ４０２を含むノード９０００を抽出する。

（ステップ９０２）ステップＳ９０１で抽出したノード９０００から紐付けられる結合関係６０３を抽出し、その結合関係６０３に含まれる結合情報プロパティ９００１を取得する。また、結合関係６０３に接続されている結合先ノード９０１０を取得する。

（ステップ９０３、９０７、９０８）ステップＳ９０２で取得した結合情報プロパティ９００１の「評価情報」が伝播であった場合、その結合情報プロパティ９００１を、プロパティのリスト情報９００３に新規項目として追加する。その後、ノード９０１０および、該当ノードに割り当てられたモデルＩＤ４０２を取得し、その情報を当初のログ行におけるモデルＩＤとみなしてステップ９０１からの処理を再び実施する。

（ステップ９０４）ステップＳ９０２で取得した結合情報プロパティ９００１の「評価情報」が伝播ではなかった場合、結合関係６０３の結合先ノード９０１０は業務処理を表すとみなす。そのノード９０１０に割り当てられた業務ＩＤが出力する業務ログ１３の情報からデータフロー定義１０１を取得する。この処理は、業務ＩＤを含むデータフロー定義１０１を抽出したのちに、そのフローに含まれる業務ログ１３を特定する出力ログ情報９００２（図５中の５２１および５２４）を、フロー情報をたどって取得することによって実行できる。同様に、ステップ９０１で取得したモデルＩＤ４０２に対応する推論ログ１２（同じく図５中の５２１および５２４）に該当する出力ログ情報９００２を、データフロー定義１０１をたどって取得する。

（ステップ９０５）結合情報プロパティ９００１を結合関係プロパティのリスト９００３に追加する。

（ステップ９０６）現在注目しているログ行のモデルＩＤ４０２、結合関係プロパティリスト９００３および、ステップ９０４で特定したモデルと業務のログファイル情報９００２を返す。

最後にログ内対応付け処理によって、図９で特定された対応ログファイル内のログ行レベルでの対応付けの処理フローを図１０に示す。この処理フローでは、入力として図９の処理フローの処理結果として取得した注目するモデルＩＤ、結合関係プロパティリスト９００３および、出力ログ情報９００２を入力として受け取り、そのファイル群の中において対応付ける必要があるログ行を特定する。

（ステップ１００１）結合関係プロパティリスト９００３中の結合情報プロパティ９００１を、リストの逆順に取り出し、ステップ１００２～１０１１を実行する。

（ステップ１００２）フィードバックパターン定義１０３から、注目するモデルＩＤ６０１を含むノードを抽出する。そのノードを結合先として持つ結合関係６０３を抽出して、その数を調べる。その数が１である場合はステップ１００３～１００７を実行し、その数が１以上である場合はステップ１００８～１０１０を実行する。

（ステップ１００３）結合情報プロパティ９００１の中の「キー」の値に従って、それぞれステップ１００４～１００７を実行する。

（ステップ１００４）「キー」の値が「トランザクションＩＤ」である場合、推論ログファイル情報９００２中の各ログ行に対して、業務ログファイル情報９００２に含まれるログ行の中で、同一ＩＤを持つログ行を抽出して対応付ける。

（ステップ１００５）「キー」の値が「時刻（Ｘ）」である場合、推論ログファイル情報の各ログ行に対して、業務ログ１３中の各ログ行のタイムスタンプを取得し、その値の差がＸに最も近いログ行を抽出して対応付ける。

（ステップ１００６）「キー」の値が「参照マップ」である場合、参照マップで指定されるデータベースもしくは辞書型のデータ構造を取得し、次にそのマップ情報を参照して、推論ログ１２中の各ログ行に含まれるトランザクションＩＤ４０１に対応する業務ログＩＤ１００００を取得する。そして、業務ログ１３の中から、業務ログＩＤ１００００を含むログ行を抽出して対応付ける。

（ステップ１００７）「キー」の値が「計算式ｆ（Ｘ），ｇ（Ｙ）」である場合、推論ログ１２中の各ログ行に対して、各ログ行に含まれるトランザクションＩＤ４０１を取得し、そのＩＤをＸとした場合の業務ログ１３のＩＤＹをＹ＝ｆ（Ｘ）として計算する。そして、業務ログ１３の中から、業務ログＩＤ（Ｙ）を含むログ行を抽出して対応付ける。

（ステップ１００８－ステップ１０１０）結合元のコンポーネントの数が１以上のグラフ構造である場合、これは他の複数のログファイルのログ行と、注目するモデルＩＤに対応する推論ファイルの１行と対応付けられることを意味している。（図６中のモデル３にモデル１、モデル２の２つが結合している部分に対応する）この場合、モデル３の１行に対して、少なくともモデル１の１行（もしくは複数行）、モデル２の１行（もしくは複数行）が対応づけられることを示す。この場合、モデル１、モデル２のそれぞれを参照し、モデル３のあるログ行Ｘが持つトランザクションＩＤ４０１を「業務ログＩＤ１０００２」とみなし、そのトランザクション行と対応付けるべきモデル１、およびモデル２のログ行１０００３を特定して対応付ける。この処理は、モデル１、モデル２の各行に対してステップ１００３～１００７を実行して、対応付けられるＩＤを導出し、その値が前記の業務ログＩＤ１０００２に合致するようなログ行１０００３を抽出することで実現できる。

上記の処理によって対応付けられたログ行同士は、１つの対応付けられたデータとして画面に表示したり、データを結合した新しいログ行として別個のデータストアに関連付けて保存したりといった方法で分析処理を実施することができる。これらの処理をシステムに組み込みの処理として実施する、あるいは、対応付けたデータをプログラムにプラグインされた関数に渡して任意の処理を実行させる、などの方法で分析に用いることができるシステムを合わせて実装する。これらの処理は既存のプログラミングの処理を用いて実現することが可能である。

本実施例によって、図９および図１０に示す処理フローを利用して対応付けられたログ行は、業務ログのある１行以上のログ行（業務指標を示す）が、推論入出力のある１行以上のログ行（推論の結果などを示す）に対応付けられる。この結果を用いて、例えば図１中のグラフ１８に示すように、業務指標と推論結果を対応付けた情報の散布図として表示することができ、推論結果が業務結果に影響を及ぼしているかを確認することができるようになる。

また、図８に示す処理フローを利用して、そのモデルの、あるバージョンにおける推論における入力データが学習データのセットと関連付けられるため、これらのデータの分布を比較して、データが学習時と推論時で変化しているかを検知することができる。

これらの表示はモデルの分析においては最もよく用いられる基本的な分析であるが、これまでは、モデルの特性を十分に理解したうえで、個別のデータを突き合わせる処理を個別に実装する必要があった。本発明により、システムの構成に依らない統一的な手順によってこれらの対応付けを行ことができるようになった。

実施例２においては、実施例１のシステム構成とサーバの配置が異なる。図１１に構成例を示す。モデル管理サーバ０１は学習および、推論のシステムで分割して配備する。学習サーバ０２とモデル管理サーバ０１の間では通信を行うことによって、相互の実験管理部のデータの特定を行う。処理の論理的な構成、および処理フローは実施例１と同等である。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

一例として、上記した実施例における図４及び図５に示す表示画面Ｄ３、Ｄ４において、優先度（色分け）毎に表示内容を絞り込んだ表示を行うことも可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラムまたはスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

０１…モデル管理サーバ０２…学習サーバ１０…業務－推論ＩＤ対応付け部１１…実験管理ログ１２…推論ログ１３…業務ログ１４…推論処理サーバ１５…業務処理サーバ１６…学習処理サーバ１９…バージョン管理部１０１…データフロー定義１０３…フィードバックパターン定義

Claims

業務に対する処理を実行し、業務内容に関する複数の種類のデータをそれぞれ含む複数のログ行を含む業務内容ログを出力する業務処理サーバと接続され、機械学習モデルの運用管理を行う機械学習モデル運用管理システムであって、
前記機械学習モデルに基づく推論を行い、当該推論の推論結果と当該推論に用いた機械学習モデルの識別子とを含む、推論結果に関する複数の種類のデータをそれぞれ含む複数のログ行を含む推論結果ログを出力する推論処理サーバと、
前記推論結果に関する特定のログ行と前記業務内容に関する特定のログ行とを対応付ける情報であるキー情報に基づいて、前記推論結果に対する前記複数のログ行と、前記業務内容に関する前記複数のログ行を対応付ける業務推論対応付け部を有するモデル管理サーバと、
を備える機械学習モデル運用管理システム。
前記キー情報は、業務処理を一意に識別する業務ＩＤを含み推論結果に関するログ行を一意に特定する識別子であるトランザクションＩＤであり、
前記機械学習モデルは、前記業務ＩＤを含む複数の業務内容ログから生成されたものであり、
前記業務推論対応付け部は、前記トランザクションＩＤが互いに一致する前記推論結果に対する前記複数のログ行と前記業務内容に関する前記複数のログ行とを対応付ける、
請求項１に記載の機械学習モデル運用管理システム。
前記モデル管理サーバは、推論処理と業務処理の対応付けを特定するための処理の前後関係を示す結合関係情報を保持する、
請求項１に記載の機械学習モデル運用管理システム。
前記業務推論対応付け部は、前記推論結果ログと前記業務内容ログとを比較する情報を出力し、推論処理に対するフィードバックの情報である評価情報の入力を受け付ける、
請求項１に記載の機械学習モデル運用管理システム。
推論処理サーバと、業務推論対応付け部を有するモデル管理サーバと、を備え、業務に対する処理を実行し、業務内容に関する複数の種類のデータをそれぞれ含む複数のログ行を含む業務内容ログを出力する業務処理サーバと接続される機械学習モデル運用管理システムにより、機械学習モデルの運用管理を行うための運用管理方法であって、
前記推論処理サーバが、前記機械学習モデルに基づく推論を行い、当該推論の推論結果と当該推論に用いた機械学習モデルの識別子とを含む、推論結果に関する複数の種類のデータをそれぞれ含む複数のログ行を含む推論結果ログを出力し、
前記業務推論対応付け部が、前記推論結果に関する特定のログ行と前記業務内容に関する特定のログ行とを対応付ける情報であるキー情報に基づいて、前記推論結果に対する前記複数のログ行と、前記業務内容に関する前記複数のログ行を対応付ける、
運用管理方法。