JP7313942B2

JP7313942B2 - 評価支援方法、評価支援システム、プログラム

Info

Publication number: JP7313942B2
Application number: JP2019131832A
Authority: JP
Inventors: 勲坂根
Original assignee: Evident Corp
Current assignee: Evident Corp
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2023-07-25
Anticipated expiration: 2039-07-17
Also published as: US20210019580A1; JP2021018459A; US11373422B2; CN112241678A

Description

本明細書の開示は、評価支援方法、評価支援システム、プログラムに関する。

近年、様々な分野で機械学習が注目されている。病理診断の分野では、病変部分を認識するように訓練された訓練済みの学習モデル（以降、学習済みモデルと記す。）を用いることで、病理医の負担を軽減することができると期待されている。また、細胞培養の分野では、細胞の状態を認識するように訓練された学習済みモデルを用いることで、培養中の細胞を非破壊的に検査することができると期待されている。例えば、ｉＰＳ細胞の分化・未分化の状態を非破壊的に検査して成長状態を把握することができるとすれば、ｉＰＳ細胞を用いた手術のスケジュールをより適切に決定することが可能となる。

このような機械学習に関連する技術は、例えば、特許文献１に記載されている。特許文献１には、学習済みモデルの構築を支援する技術が記載されている。特許文献１に記載の技術を用いることで、機械学習について高度な知識を有しないものであっても、比較的容易に学習済みモデルを構築することが可能である。

特開２０１８－２０５０６９号公報

学習済みモデルの構築を支援するサービスが存在する一方で、学習済みモデルそのものを提供するサービスも存在している。他者が提供する学習済みモデルを利用することで、学習済みモデルの構築の手間を省くことができる。

しかしながら、学習済みモデルの良し悪しを判断することは必ずしも容易ではない。例えば、細胞の生死の判断基準は必ずしも一律ではない。このため、細胞の生死を識別するように訓練された学習済みモデルは、ある利用者にとっては良いモデルであるが、別のある利用者にとっては十分に良いモデルではないといったことが起こり得る。

以上のような実情を踏まえ、本発明の一側面に係る目的は、学習済みモデルの評価を支援する技術を提供することである。

本発明の一態様に係る評価支援方法は、学習済みモデルの性能評価に用いられる第１の画像を取得する工程であって、前記第１の画像を含む複数の第１の画像を取得する工程を含む、という工程と、複数の第２の画像を生成する工程であって、前記複数の第２の画像の各々は、複数の学習済みモデルの各々による前記第１の画像の処理結果である、という工程と、複数の第１のラベル情報を取得する工程であって、前記複数の第１のラベル情報の各々は、前記複数の第１の画像の各々に対して期待する処理結果を示す、という工程と、前記複数の第２の画像に対応する複数の第１の評価情報を生成する工程であって、前記複数の第１の評価情報は、前記複数の第２の画像と前記複数の第１のラベル情報とに基づいて生成される、という工程と、前記複数の第２の画像を生成する工程と前記複数の第１の評価情報を生成する工程の両工程後に、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像に関連付けて表示する工程と、を含む。前記複数の第２の画像を生成する工程は、前記複数の第１の画像の各々に対して複数の第２の画像を生成する工程を含み、前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、前記複数の第１の評価情報のうちの前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する工程を含む。

本発明の一態様に係る学習済みモデルの評価支援システムは、複数の学習済みモデルが格納された非一過性のコンピュータ読取可能記憶媒体と、少なくとも１つのプロセッサと、を備え、前記プロセッサは、学習済みモデルの性能評価に用いられる第１の画像を取得する工程であって、前記第１の画像を含む複数の第１の画像を取得する工程を含む、という工程と、複数の第２の画像を生成する工程であって、前記複数の第２の画像の各々は、前記複数の学習済みモデルの各々による前記第１の画像の処理結果である、という工程と、複数の第１のラベル情報を取得する工程であって、前記複数の第１のラベル情報の各々は、前記複数の第１の画像の各々に対して期待する処理結果を示す、という工程と、前記複数の第２の画像に対応する複数の第１の評価情報を生成する工程であって、前記複数の第１の評価情報は、前記複数の第２の画像と前記複数の第１のラベル情報とに基づいて生成される、という工程と、前記複数の第２の画像を生成する工程と前記複数の第１の評価情報を生成する工程の両工程後に、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像に関連付けて表示する工程と、を行う。前記複数の第２の画像を生成する工程は、前記複数の第１の画像の各々に対して複数の第２の画像を生成する工程を含み、前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、前記複数の第１の評価情報のうちの前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する工程を含む。

本発明の一態様に係るプログラムは、学習済みモデルの性能評価に用いられる第１の画像を取得する手順であって、前記第１の画像を含む複数の第１の画像を取得する手順を含む、という手順と、複数の第２の画像を生成する手順であって、前記複数の第２の画像の各々は、複数の学習済みモデルの各々による前記第１の画像の処理結果である、という手順と、複数の第１のラベル情報を取得する手順であって、前記複数の第１のラベル情報の各々は、前記複数の第１の画像の各々に対して期待する処理結果を示す、という手順と、前記複数の第２の画像に対応する複数の第１の評価情報を生成する手順であって、前記複数の第１の評価情報は、前記複数の第２の画像と前記複数の第１のラベル情報とに基づいて生成される、という手順と、前記複数の第２の画像を生成する手順と前記複数の第１の評価情報を生成する手順の両手順後に、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像に関連付けて表示する手順と、をコンピュータに実行させる。前記複数の第２の画像を生成する手順は、前記複数の第１の画像の各々に対して複数の第２の画像を生成する手順を含み、前記複数の学習済みモデルの各々を表示する手順は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、前記複数の第１の評価情報のうちの前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する手順を含む。

上記の態様によれば、学習済みモデルの評価を支援することができる。

システム１の構成の一例を示した図である。サービス提供装置５のハードウェア構成の一例を示した図である。システム１が提供するサービスを説明するためのシーケンス図の一例である。モデル提供装置が提供するデータを説明するための図である。サンプルラベル情報３０を説明するための図である。メタデータ４０を説明するための図である。第１の実施形態に係る評価支援処理のフローチャートである。入力画面の一例を示す図である。入力画面の別の例を示す図である。結果画像７０の生成手順を説明するための図である。学習済みモデル一覧画面の一例を示す図である。第２の実施形態に係る評価支援処理のフローチャートである。学習済みモデル一覧画面の別の例を示す図である。第３の実施形態に係る評価支援処理のフローチャートである。参照画像９０の生成手順を説明するための図である。学習済みモデル一覧画面の更に別の例を示す図である。学習済みモデル詳細画面の一例を示す図である。第４の実施形態に係る評価支援処理のフローチャートである。学習済みモデル一覧画面の更に別の例を示す図である。学習済みモデル一覧画面の更に別の例を示す図である。評価情報の生成方法について説明するための図である。システム１が提供するサービスを説明するためのシーケンス図の別の例である。利用装置が提供するデータを説明するための図である。第５の実施形態に係る評価支援処理のフローチャートである。テスト結果一覧画面の一例を示す図である。テスト結果一覧画面の別の例を示す図である。第６の実施形態に係る評価支援処理のフローチャートである。テスト結果一覧画面の更に別の例を示す図である。テスト結果一覧画面の更に別の例を示す図である。テスト結果一覧画面の更に別の例を示す図である。テスト結果画像のバリエーションを説明するための図である。ディテクションタイプの学習済みモデルによって生成されるテスト結果画像を説明するための図である。クラシフィケーションタイプの学習済みモデルによって生成されるテスト結果画像を説明するための図である。

図１は、システム１の構成の一例を示した図である。図１に示すシステム１は、学習済みモデルの評価を支援する評価支援システムである。システム１は、モデル提供装置（モデル提供装置２、モデル提供装置３、モデル提供装置４、・・・）と、サービス提供装置５と、利用装置６を含んでいる。

モデル提供装置は、学習済みモデルを提供する装置である。モデル提供装置は、例えば、通信ネットワークに接続されたコンピュータである。モデル提供装置は、サービス提供装置５に１つ以上の学習済みモデルを提供する。

サービス提供装置５は、モデル提供装置によって提供された学習済みモデルの評価を支援するサービスを提供する装置である。サービス提供装置５は、例えば、通信ネットワークに接続されたコンピュータである。サービス提供装置５は、複数の学習済みモデルが格納された非一過性のコンピュータ読取可能記憶媒体と、少なくとも１つのプロセッサを含んでいればよい。

利用装置６は、サービス提供装置５によって提供される評価支援サービスを利用する利用装置であり、また、モデル提供装置からサービス提供装置５に提供された学習済みモデルを利用する利用装置でもある。利用装置６は、表示装置６ａを備えている。利用装置６は、サービス提供装置５から提供された学習済みモデルの評価を支援するための画面情報を表示装置６ａに表示することで、利用装置６の利用者に利用者自身の基準で学習済みモデルを評価させる。

図２は、サービス提供装置５のハードウェア構成の一例を示した図である。プロセッサ５ａは、例えば、ＣＰＵ（Central Processing Unit）を含む任意の処理回路であり、補
助記憶装置５ｃ又は可搬記憶媒体５ｈに格納されているプログラムをメモリ５ｂに展開して実行することでプログラムされた処理を行う。プロセッサ５ａは、ＧＰＵ（Graphics Processing Unit）を含んでもよい。プロセッサ５ａは、プログラムを実行してプログラムされた処理を行うことで、例えば、後述する評価支援処理を行う。

メモリ５ｂは、例えば、ＲＡＭ（Random Access Memory）である。メモリ５ｂは、プログラムの実行の際に、補助記憶装置５ｃ又は可搬記憶媒体５ｈに格納されているプログラムまたはデータを記憶するワークメモリとして機能する。補助記憶装置５ｃは、例えば、ハードディスク、フラッシュメモリなどであり、主に各種データ及びプログラムの格納に用いられる。媒体駆動装置５ｅは、光ディスク、コンパクトフラッシュ（登録商標）等の可搬記憶媒体５ｈを収容するものである。補助記憶装置５ｃと可搬記憶媒体５ｈは、それぞれプログラムを記憶した非一過性のコンピュータ読取可能記憶媒体の一例である。

Ｉ／Ｏ（Input/Output）インタフェース５ｄは、例えば、ＵＳＢ（UniversalSerial Bus）インタフェース回路、ＨＤＭＩ（High-Definition MultimediaInterface）回路などである。Ｉ／Ｏインタフェース５ｄには、例えば、図示しない入力装置、表示装置等が接続されていてもよい。

ＮＷ（Network）インタフェース５ｆは、例えば、無線通信モジュールであってもよく
、ＬＡＮ（LocalArea Network）カードなどであってもよい。サービス提供装置５は、Ｎ
Ｗインタフェース５ｆを経由してモデル提供装置から学習済みモデルを受信し、ＮＷインタフェース５ｆを経由して利用装置６にサービス提供に必要な画面情報へ送信する。

なお、図２に示す構成は、サービス提供装置５のハードウェア構成の一例であり、サービス提供装置５はこの構成に限定されるものではない。サービス提供装置５は、汎用装置ではなく専用装置であってもよい。サービス提供装置５は、例えば、専用設計の電気回路、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）などを備えてもよい
。また、サービス提供装置５は、ＦＰＧＡ（Field-Programmable Gate Array）を用いて
構成されてもよい。

図３は、システム１が提供するサービスを説明するためのシーケンス図の一例である。図４は、モデル提供装置が提供するデータを説明するための図である。図５は、サンプルラベル情報３０を説明するための図である。図６は、メタデータ４０を説明するための図である。以下、図３から図６を参照しながら、システム１が行う学習済みモデルの評価支援方法について説明する。

システム１では、まず、モデル提供装置が学習済みモデルをサービス提供装置５に提供する（ステップＳ１）。サービス提供装置５は、受け入れ条件として、学習済みモデルとともに教師データセットとメタデータを提供することをモデル提供装置に予め要求している。このため、ステップＳ１では、モデル提供装置は、受け入れ条件に従って、図４に示すように、学習済みモデル１０に加えて、教師データセットとメタデータ４０を、サービス提供装置５に提供する。教師データセットには、サンプル画像２０とサンプルラベル情報３０が含まれている。

なお、学習済みモデルとは、訓練画像と訓練画像に対応する正解情報とを用いて訓練された学習モデルのことである。つまり、学習済みモデルは、訓練画像の入力に対する出力が訓練画像に対応する正解情報に近くなるように訓練され、さらに、検証画像の入力に対する出力が検証画像に対応する正解情報に近いことが検証されている学習モデルである。

ステップＳ１でサービス提供装置５によって提供される学習済みモデル１０は、画像認識用の学習済みモデルであり、特に限定しないが、例えば、ディープラーニングを用いた学習済みモデルである。以降では、学習済みモデル１０が画像に含まれる特定の領域を推定して識別するモデルである場合を例に説明する。より具体的には、学習済みモデル１０が、画像に含まれる陽性領域又は陰性領域であると推定した推定領域を識別する識別情報
を出力する場合を例に説明する。例えば、学習済みモデルがｉＰＳ細胞の分化状態を識別するモデルの場合であれば、ｉＰＳ細胞の分化領域が陽性領域に該当し、未分化領域が陰性領域に該当する。また、学習済みモデルは細胞の剥離判定を行うモデルであってもよく、細胞の生死判定を行うモデルであってもよい。

サービス提供装置５によって提供されるサンプル画像２０は、学習済みモデル１０の訓練過程で使用された１つ以上の画像であり、望ましくは複数の画像である。サンプル画像２０は、学習済みモデル１０の訓練過程で使用された複数の画像の一部（例えば、１０枚）でよい。なお、サンプル画像２０は、訓練過程で使用された訓練画像であってもよく、訓練過程で使用された検証画像であってもよい。また、サンプル画像２０は、訓練画像と検証画像の両方を含んでもよい。

サービス提供装置５によって提供されるサンプルラベル情報３０は、学習済みモデル１０の訓練過程で使用された正解情報であり、サンプル画像２０の入力に対する出力としての正解を示す情報である。つまり、サンプルラベル情報３０は、図５に示すように、サンプル画像２０に含まれる陽性領域又は陰性領域である正解領域Ｃを識別する識別情報である。なお、サンプルラベル情報３０は、訓練画像に対応する正解情報であってもよく、検証画像に対応する正解情報であってもよい。また、サンプルラベル情報３０は、訓練画像と検証画像に対応する正解情報の両方を含んでもよい。サンプルラベル情報３０は、例えば、モデル提供者が自ら手動で領域指定を行うことで作成された情報である。サンプル画像２０が顕微鏡画像であれば、サンプルラベル情報３０は、蛍光染色したサンプルを撮像することで作成された画像であってもよい。また、サンプル画像２０が軟性内視鏡、硬性内視鏡で取得した画像であれば、サンプルラベル情報３０は、ヨード染色、メチレンブルー（ＭＢ）染色を行ったサンプルを撮像することで作成された画像であってもよい。また、サンプル画像２０がＮＢＩ（Narrow Band Imaging）内視鏡で取得した画像であれば、
ＮＢＩ内視鏡で得られる画像の光り方を模した情報であってもよい。

サービス提供装置５によって提供されるメタデータ４０は、図６に示すように、学習済みモデル１０由来のメタデータであってもよく、サンプル画像２０由来のメタデータであってもよい。また、メタデータ４０は、サンプルラベル情報３０由来のメタデータであってもよい。学習済みモデル１０由来のメタデータとしては、例えば、学習済みモデル１０がディープラーニングを利用している場合であれば、ネットワーク構造、最適化アルゴリズム、エポック数などが挙げられる。サンプル画像２０由来のメタデータとしては、例えば、細胞種、細胞の入手経路、遺伝子導入の有無、培養条件などが挙げられる。また、サンプル画像２０を取得した装置の情報、例えば、撮像条件、装置の種類、検鏡法などもサンプル画像２０由来のメタデータの一例である。医療画像の場合は、対象臓器の名称や被験体の名称または識別番号、適用ガイドラインの情報などがメタデータとして用いられても良い。さらに、画像サイズや画像枚数などもメタデータとして提供されてもよい。サンプルラベル情報３０由来のメタデータとしては、試薬・染色の使用の有無、試薬・染色条件の情報、陽性又は陰性領域を判断する基準、作業者名などが挙げられる。さらに、メタデータ４０は、モデル提供装置由来のメタデータであってもよく、例えば、学習済みモデル１０を構築した企業、研究所、大学などを特定する作成者情報などを含んでもよい。

なお、メタデータ４０は、上述した例に限らない。メタデータ４０は、後述するように、サービス提供装置５が利用装置６に提供する学習済みモデル１０を選択する際に利用される。このため、サービス提供装置５は、学習済みモデル１０の選択に資する任意の情報をメタデータ４０に含めることをモデル提供装置に受け入れ条件として要求してもよい。

モデル提供装置から学習済みモデルが提供されると、サービス提供装置５は、提供された学習済みモデルを受け入れる（ステップＳ２）。ここでは、サービス提供装置５は、学
習済みモデル１０とともに、教師データセットとメタデータ４０を受け入れて、非一過性のコンピュータ読取可能記憶媒体に構築されたデータベースに登録する。

なお、学習済みモデル１０は、データベース登録前に共通フォーマットに変換することが望ましい。これにより、様々なモデル提供装置の下で様々なフレームワークを用いて構築された学習済みモデル１０を、サービス提供装置５及び利用装置６が使用するフレームワーク上で動作させることが可能となる。サービス提供装置５は、複数のモデル提供装置からモデルの提供を受けて、それらのモデルの受け入れを繰り返すことが望ましい。これにより、サービス提供装置５のデータベースには、複数の学習済みモデル１０が登録されることになる。

その後、利用装置６は、サービス提供装置５に登録されている学習済みモデル１０の中から利用装置６の利用者の目的に適う学習済みモデルを探すために、学習済みモデルに求める条件と、学習済みモデルによって検査されるべき対象である検査画像とを、サービス提供装置５に提供する（ステップＳ３）。検査画像は１つ以上の画像であればよく１つの画像であっても複数の画像であってもよい。検査画像は学習済みモデル１０の性能評価に用いられる第１の画像の一例である。また、ステップＳ３は、学習済みモデルの性能評価に用いられる第１の画像を取得する工程の一例である。なお、以降では、検査画像が顕微鏡で取得した細胞の画像である場合を例に説明するが、検査画像は、顕微鏡で取得した細胞の画像に限らない。例えば、内視鏡で取得した体腔内の器官の画像であってもよい。内視鏡は、軟性内視鏡、硬性内視鏡、ＮＢＩ内視鏡であってもよい。また、顕微鏡で取得した細胞の画像は、培養細胞の画像であってもよく、病理診断で使用される被検者から採取された細胞の画像であってもよい。また、顕微鏡で取得した画像は、任意の検鏡法で取得され得る。例えば、蛍光検鏡法、明視野検鏡法、暗視野検鏡法、位相差検鏡法、微分干渉検鏡法、偏光検鏡法などで画像を取得してもよい。

学習済みモデルに求める条件と検査画像とが利用装置６から提供されると、サービス提供装置５は、モデル評価支援情報を生成する（ステップＳ４）。ここでは、サービス提供装置５は、学習済みモデルに求める条件に基づいて、データベースに登録されているメタデータを検索し、利用装置６が学習済みモデルに求める条件に合う複数の学習済みモデルを抽出する。さらに、サービス提供装置５は、抽出した複数の学習済みモデルに検査画像を適用することで、検査画像に対する複数の検査結果を含むモデル評価支援情報を生成する。なお、モデル評価支援情報は、利用装置６による学習済みモデルの評価を支援するための情報である。

モデル評価支援情報を生成したサービス提供装置５は、モデル評価支援情報を利用装置６に提供する（ステップＳ５）。その後、利用装置６の利用者は、利用装置６の表示装置６ａに表示されたモデル評価支援情報を参照することで、サービス提供装置５が提示した学習済みモデルの中から利用者の目的に適う学習済みモデルを選択する。そして、利用装置６は、利用者が選択した学習済みモデルの提供をサービス提供装置５に要求する（ステップＳ６）。最後に、サービス提供装置５が、利用装置６から要求された学習済みモデルを利用装置６に引き渡す（ステップＳ７）。

以上のように、システム１では、サービス提供装置５は、利用装置６から検査対象として指定された検査画像を複数の学習済みモデルに適用することで複数の検査結果を生成し、それらの検査結果を利用装置６に提供する。これにより、利用装置６の利用者は、複数の検査結果を比較することで、サービス提供装置５に登録されている複数の学習済みモデルを利用者の基準で評価することができる。以下、各実施形態において、図３のステップＳ３からステップＳ５の工程の具体例について詳細に説明する。

［第１の実施形態］
図７は、本実施形態に係る評価支援処理のフローチャートである。図８及び図９は、入力画面を例示した図である。図１０は、結果画像７０の生成手順を説明するための図である。図１１は、学習済みモデル一覧画面の一例を示す図である。なお、図７に示す処理は、例えば、サービス提供装置５が所定のプログラムを実行することによって行われる。

なお、結果画像とは、検査画像に対しての学習済みモデルの適用結果である。また、結果画像は、学習済みモデルによる第１の画像の処理結果である第２の画像の一例である。結果画像は、検査画像に対してモデル作成者がどの領域を陽性領域と判断するかの学習結果、つまりモデル作成者の判断基準を表す。例えば、特定のモデル作成者による細胞の剥離判定の基準を学習させた学習済みモデルを用いる場合であれば、結果画像における陽性領域は、容器底面等から剥離した細胞の領域を示す。病理診断用途の学習済みモデルであれば、陽性領域は、モデル作成者によって病変部位と判断された領域を示す。

サービス提供装置５は、図７に示す処理を開始すると、利用装置６から提供された、学習済みモデルに求める条件と検査画像５０とを取得する（ステップＳ１１）。ここでは、例えばサービス提供装置５が提供するＷｅｂサイトに利用装置６がアクセスすることによって、サービス提供装置５は、図８に示す画面１００の情報を利用装置６に送信し、利用装置６の表示装置６ａに画面１００を表示させる。画面１００は、評価支援システムの入力画面であり、学習済みモデルに求める条件と検査画像とを入力する画面である。

なお、画面１００に設けられたタブ１１０は、病理診断用途の学習済みモデルに求める条件を入力する場合に選択される。領域１１１では癌腫を、領域１１２では染色法を、領域１１３では腫瘍マーカーを指定することができる。また、タブ１２０は、細胞培養用途の学習済みモデルに求める条件を入力する場合に選択される。また、タブ１３０は、制約なしに学習済みモデルに求める条件を入力する場合に選択される。その他、準拠する診断ガイドラインを選択するタブが設けられてもよい。

図９には、タブ１３０が選択された状態における画面１００が示されている。以降では、ヒトの乳がん検査に適した学習済みモデルを評価するために、図９に示すように、“ヒト、乳がん、○○領域”がテキストボックス１３１に入力され、ボタン１４０を押下することで検査画像５０が選択され、その後、ボタン１６０が押下された場合を例に説明する。ボタン１６０が押下されると、学習済みモデルに求める条件（“ヒト、乳がん、○○領域”）と検査画像５０がサービス提供装置５にアップロードされる。これにより、サービス提供装置５は、学習済みモデルに求める条件と検査画像５０を取得する。サービス提供装置５は、複数の検査画像５０を取得してもよい。即ち、ステップＳ１１は、複数の第１の画像を取得する工程の一例であってもよい。

なお、検査画像５０は、学習済みモデル検索の度にアップロードするのではなく、従前のモデル検索処理において提供した画像を再利用してもよい。例えば、以前に提供した検査画像５０をサービス提供装置５に登録しておき、その登録された画像への参照（検査画像ＩＤ）を指定することで、サービス提供装置５に登録された画像を検査画像５０として読み込ませて取得させてもよい。

次に、サービス提供装置５は、複数の学習済みモデル１０を選択し、取得する（ステップＳ１２）。ここでは、サービス提供装置５は、ステップＳ１１で取得した条件に基づいて、学習済みモデル１０に付随してデータベースに予め登録されているメタデータ４０を検索する。そして、利用者が学習済みモデルに求める条件に合う複数の学習済みモデル１０を抽出する。即ち、ステップＳ１２は、予め登録された学習済みモデル１０に付随するメタデータ４０に基づいて、予め登録された学習済みモデル１０から複数の学習済みモデ
ル１０を選択する工程である。

複数の学習済みモデル１０を取得すると、サービス提供装置５は、複数の第１の識別情報を生成する（ステップＳ１３）。ここでは、サービス提供装置５は、図１０に示すように、ステップＳ１１で取得した検査画像５０をステップＳ１２で取得した複数の学習済みモデル１０（学習済みモデル１１、学習済みモデル１２、学習済みモデル１３）の各々に適用することによって、複数の第１の識別情報（第１の識別情報６１、第１の識別情報６２、第１の識別情報６３）を生成する。なお、この例では、複数の第１の識別情報の各々は、対応する学習済みモデル１０によって陽性領域として推定された領域を識別する情報である。

第１の識別情報は、ステップＳ１２で取得した学習済みモデル毎に検査画像５０と同数だけ生成される。このため、図１０では学習済みモデル毎に１つの第１の識別情報が生成される例を示したが、ステップＳ１１で複数の検査画像５０が取得されている場合には、学習済みモデル毎に複数の第１の識別情報が生成される。

その後、サービス提供装置５は、複数の結果画像を生成する（ステップＳ１４）。ここでは、サービス提供装置５は、図１０に示すように、ステップＳ１３で生成した複数の第１の識別情報の各々をステップＳ１１で取得した検査画像５０に重畳することによって、複数の結果画像（結果画像７１、結果画像７２、結果画像７３）を生成する。即ち、ステップＳ１４は、複数の第２の画像を生成する工程の一例である。また、ステップＳ１１で複数の第１の画像が取得されている場合には、ステップＳ１４は、複数の第１の画像の各々に対して複数の第２の画像を生成する工程の一例である。

最後に、サービス提供装置５は、複数の結果画像を出力する（ステップＳ１５）。ここでは、サービス提供装置５は、ステップＳ１４で生成した複数の結果画像の各々をステップＳ１２で選択した複数の学習済みモデル１０のうちの対応する学習済みモデル１０に関連付けて出力する。具体的には、サービス提供装置５は、図１１に示す画面２００を利用装置６に送信し、利用装置６の表示装置６ａに画面２００を表示させる。画面２００は、評価支援システムの学習済みモデル一覧画面であり、複数の学習済みモデル１０を用いて生成された複数の結果画像を並べて表示する画面である。

図１１に示す画面２００には、モデル条件欄２０１の下側に、学習済みモデルの識別情報（モデルＩＤ）とメタデータ（作成者、細胞種、方法）と結果画像の組み合わせが、ステップＳ１２で選択された学習済みモデルの数だけ並べて表示されている。即ち、ステップＳ１５は、複数の学習済みモデルの各々を、複数の第２の画像のうちの対応する第２の画像に関連付けて表示する工程の一例である。また、ステップＳ１１で複数の第１の画像が取得されている場合には、ステップＳ１５は、複数の学習済みモデルの各々を、複数の第２の画像のうちの対応する少なくとも１つの第２の画像に関連付けて表示する工程の一例であり、複数の第１の画像の各々に対して、複数の第２の画像から少なくとも１つの第２の画像を選別する工程を含んでいる。また、組み合わせにはメタデータも含まれていることから、ステップＳ１５は、複数の学習済みモデルの各々を、複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、複数の学習済みモデルのうちの対応する学習モデルに付随するメタデータとに関連付けて表示する工程の一例でもある。

組み合わせの並び順は、学習済みモデルの利用者が求める条件への合致度に基づいて決定されてもよい。例えば、ある培養条件が指定されている場合であれば、指定された培養条件に近い培養条件で培養された細胞の画像によって訓練された学習済みモデルである程、優先して並べてもよい。即ち、ステップＳ１５は、複数の学習済みモデルに付随する複数のメタデータに基づいて、複数の組み合わせに対して優先順位を割り当てる工程を含ん
でもよく、さらに、優先順位に従った並び順で複数の組み合わせを表示する工程を含んでもよい。ここで、複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像とメタデータとの組み合わせである。なお、並び順は、画面２００上に提供されているソートボタンが押下されることで、利用者が優先する条件に従って変更されてもよい。

以上のように、システム１が本実施形態に係る評価支援処理を行うことで、検査画像に対する複数の学習済みモデルの画像認識結果が複数の結果画像として出力されるため、利用者は、複数の結果画像を容易に比較することができる。検査画像は、利用者によって指定された画像であり、検査画像を入力することで得られる結果画像が示す良好な認識結果は、利用者が自身の目的下で学習済みモデルを使用した場合における高い性能を強く示唆するものである。このため、検査画像に基づいて生成された複数の結果画像を比較しながら、各結果画像が示す認識結果と利用者自身の評価基準に従った認識結果との差異を確認することで、利用者は、利用者の目的に対する各学習済みモデルの適合具合を把握することができる。従って、利用者の目的に適う学習済みモデルを容易に特定することが可能である。このように、本実施形態に係る評価支援方法によれば、他者が構築した学習済みモデルを利用者自身の基準で評価することを支援することができる。

なお、図１１では、複数の学習モデルの各々を、その学習済みモデルに対応する少なくとも１つの第２の画像と関連付けて表示する例を示したが、さらに、第１の画像を表示してもよい。即ち、ステップＳ１５は、複数の学習モデルの各々を、その学習済みモデルに対応する少なくとも１つの第２の画像と、少なくとも１つの第２の画像に対応する少なくとも１つの第１の画像に関連付けて表示してもよい。第２の画像とともに第１の画像を表示することで、第２の画像をより適切に評価することが可能となり、その結果、学習済みモデルより適切に評価することができる。

また、図１１では、複数の学習モデルの各々を、その学習済みモデルに対応する少なくとも１つの第２の画像と関連付けて表示する例を示したが、さらに、第２の画像の信頼度を表示してもよい。即ち、ステップＳ１５は、複数の学習モデルの各々を、その学習済みモデルに対応する少なくとも１つの第２の画像と、少なくとも１つの第２の画像の各々の信頼度とに、関連付けて表示してもよい。信頼度とは、学習済みモデルが生成した結果画像の信頼度であり、より詳細には、学習済みモデルが結果画像を生成するにあたり出力した第１の識別情報の信頼度のことである。即ち、信頼度は、どの程度の確証をもって学習済みモデルが第１の識別情報を生成したかを示している。第２の画像とともに信頼度を表示することで、学習済みモデルをより適切に評価することが可能となる。

サービス提供装置５は、信頼度を表示する場合、複数の第２の画像の信頼度に基づいて、複数の組み合わせに対して優先順位を割り当てもよく、さらに、優先順位に従った並び順で複数の組み合わせを表示してもよい。ここで、複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像と少なくとも１つの第２の画像の各々の信頼度との組み合わせである。信頼度が高いほど高い優先順位を割り当ててもよく、反対に、信頼度を低いほど高い優先順位を割り当ててもよい。信頼度が低いほど高い優先順位を割り当てることで学習済みモデルの性能を過大評価する可能性を抑制することができる。また、信頼度を表示せずに、信頼度を優先順位の割り当てにのみ使用してもよい。

［第２の実施形態］
図１２は、本実施形態に係る評価支援処理のフローチャートである。図１３は、学習済みモデル一覧画面の別の例を示す図である。なお、図１２に示す処理は、例えば、サービス提供装置５が所定のプログラムを実行することによって行われる。

サービス提供装置５は、図１２に示す処理を開始すると、利用装置６から提供された、学習済みモデルに求める条件と検査画像５０と検査ラベル情報を取得する（ステップＳ２１）。ステップＳ２１の処理は、検査ラベル情報を取得する点が図７のステップＳ１１の処理とは異なるが、学習済みモデルに求める条件と検査画像５０とを取得する点はステップＳ１１の処理と同様である。

検査ラベル情報は、第１の画像に対して期待する処理結果を示す第１のラベル情報の一例である。検査ラベル情報は、例えば、検査画像５０に含まれる陽性領域又は陰性領域である正解領域を識別する情報である。検査ラベル情報は、図９に示す画面１００のボタン１５０を押下することで指定可能であり、例えば、学習済みモデルに求める条件（“ヒト、乳がん、○○領域”）と検査画像５０とともに、サービス提供装置５にアップロードされる。これにより、サービス提供装置５は、学習済みモデルに求める条件と検査画像５０と検査ラベル情報を取得する。なお、ステップＳ２１では、複数の第１の画像が取得される場合には、複数の第１の画像に対応する複数の第１のラベル情報を取得する。

なお、検査ラベル情報は、学習済みモデル検索の度にアップロードするのではなく、従前のモデル検索処理において提供した検査ラベル情報を再利用してもよい。例えば、以前に提供した検査ラベル情報をサービス提供装置５に登録しておき、その登録された情報への参照（検査ラベル情報ＩＤ）を指定することで、サービス提供装置５に登録された検査ラベル情報を読み込ませて取得させてもよい。

その後、サービス提供装置５は、複数の学習済みモデル１０を取得し（ステップＳ２２）、複数の第１の識別情報を生成し（ステップＳ２３）、複数の結果画像を生成する（ステップＳ２４）。つまり、学習済みモデル毎に、第１の識別情報と結果画像を生成する。なお、ステップＳ２２からステップＳ２４の処理は、図７のステップＳ１２からステップＳ１４の処理と同様である。

さらに、サービス提供装置５は、複数の第１の評価情報を生成する（ステップＳ２５）。複数の第１の評価情報の各々は、ステップＳ２３で生成された複数の第１の識別情報の各々と、ステップＳ２１で取得した検査ラベル情報と、に基づいて生成される。つまり、サービス提供装置５は、学習済みモデル毎に第１の評価情報を算出する。ステップＳ２５は、複数の第２の画像に対応する複数の第１の評価情報を生成する工程の一例である。なお、ステップＳ２１において、複数の第１の画像と複数の第１のラベル情報が取得される場合には、複数の第１の評価情報は、複数の第２の画像と複数の第１のラベル情報とに基づいて生成される。

なお、第１の評価情報は、検査ラベル情報に基づいて学習済みモデル１０を定量的に評価した情報であり、例えば、適合率、再現率、適合率と再現率との調和平均であるＦ値である。その他、特異度、正確度などであってもよい。なお、第１の評価情報は、値が高いほど良いものに限らない。例えば、偽陰性率、偽陽性率などであってもよい。また、第１の評価情報は、単一の指標に限らず、上述した複数の指標の任意の組み合わせであってもよい。

ステップＳ２５では、サービス提供装置５は、まず、ともに画像上の領域を特定する情報である検査ラベル情報と第１の識別情報とを比較することで、真陽性、偽陽性、偽陰性、真陰性のそれぞれに対応する領域を特定する。これらの領域が特定されると、サービス提供装置５は、これらの領域の面積を用いて第１の評価情報を算出する。

なお、検査画像は１つ以上の画像であればよく１つの画像であっても複数の画像であってもよい。検査画像が複数である場合、それぞれの検査画像に対応する複数の検査ラベル
情報から算出された複数の第１の評価情報の値に加えて、複数の第１の評価情報の代表値を算出してもよい。代表値としては、例えば平均値であってもよく、中央値であってもよい。

最後に、サービス提供装置５は、複数の結果画像と複数の第１の評価情報を出力する（ステップＳ２６）。ここでは、サービス提供装置５は、ステップＳ２４で生成した複数の結果画像の各々を、ステップＳ２２で選択した複数の学習済みモデル１０のうちの対応する学習済みモデル１０と、ステップＳ２５で生成した複数の第１の評価情報のうちの対応する第１の評価情報とに関連付けて出力する。具体的には、サービス提供装置５は、図１３に示す画面３００を利用装置６に送信し、利用装置６の表示装置６ａに画面３００を表示させる。画面３００は、評価支援システムの学習済みモデル一覧画面であり、複数の学習済みモデル１０を用いて生成された複数の結果画像を、複数の結果画像に関する複数の第１の評価情報とともに、並べて表示する画面である。

ステップＳ２１において複数の検査画像が取得された場合、複数の学習済みモデル１０の各々について、複数の結果画像が生成される。その場合、学習済みモデル１０毎に、１つ以上の結果画像を表示してもよい。また、複数の学習済みモデルの各々について、複数の検査画像から算出された複数の第１の評価情報と、それら複数の第１の評価情報の代表値とをもとに、表示すべき１つ以上の結果画像を選択してもよい。例えば、検査画像毎に算出されるＦ値の高いほうから１つ以上選択し、選択した１つ以上のＦ値に対応する１つ以上の結果画像を選択してもよい。また、例えば、複数の第１の評価情報の代表値に最も近い第１の評価情報に対応した１つ以上の結果画像を選択し、選択した１つ以上の結果画像を表示してもよい。学習済みモデル毎に複数の結果画像を表示する場合、例えば図１３の結果画像が表示されている場所に複数の結果画像を並べて表示してもよい。また、画像の下にスライダーバーを表示することで複数の結果画像からユーザーが指定した画像のみを選択的に表示させてもよい。

図１３に示す画面３００には、モデル条件欄３０１の下側に、学習済みモデルの識別情報（モデルＩＤ）とメタデータ（作成者、細胞種、方法）と結果画像と第１の評価情報（スコア）の組み合わせが、ステップＳ２２で選択された学習済みモデルの数だけ並べて表示されている。即ち、ステップＳ２６は、複数の学習済みモデルの各々を、少なくとも１つの第２の画像と、複数の第１の評価情報のうちの少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する工程の一例である。

なお、ステップＳ２６には、複数の第１の評価情報に基づいて複数の組み合わせに対して優先順位を割り当てる工程が含まれてもよく、優先順位に従って複数の結果画像の各々を、対応する学習済みモデルと、対応する第１の評価情報と、の両方に関連付けて出力してもよい。即ち、画面３００における組み合わせの並び順は、割り当てられた優先順位に従って決定されてもよく、優先順位に従った並び順で複数の組み合わせを表示してもよい。なお、並び順は、画面３００上に提供されているソートボタンが押下されることで、利用者が優先する条件に従って変更されてもよい。

例えば、第１の評価情報が値が高いほど良い指標、例えば、Ｆ値など、である場合には、サービス提供装置５は、より高い第１の評価情報を含む組み合わせほど、より高い優先順位を割り当てても良い。また、第１の評価情報が値が低いほど良い指標である場合には、サービス提供装置５は、より低い第１の評価情報を含む組み合わせほど、より高い優先順位を割り当てても良い。なお、図１３には、第１の評価情報が高い学習済みモデルを優先的に表示した例が示されている。

さらに、複数の検査画像が取得され、且つ、第１の評価情報が値が高いほど良い指標で
ある場合には、サービス提供装置５は、複数の学習済みモデルの各々毎に、より高い第１の評価情報に対応する１つ以上の結果画像を選択してもよい。また、複数の検査画像が取得され、且つ、第１の評価情報が値が低いほど良い指標である場合には、サービス提供装置５は、複数の学習済みモデルの各々毎に、より低い第１の評価情報に対応する１つ以上の結果画像を選択してもよい。なお、結果画像の選択基準は、画面３００上に提供されているソートボタンと連動していてもよい。

また、サービス提供装置５は、複数の学習済みモデルの利用頻度に基づいて、複数の組み合わせに対して優先順位を割り当てもよく、さらに、優先順位に従った並び順で複数の組み合わせを表示してもよい。ここで、複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像と少なくとも１つの第１の評価情報との組み合わせである。なお、利用頻度は、例えば、図３のステップＳ６のモデル提供要求の回数で代用されてもよい。

システム１が本実施形態に係る評価支援処理を行うことによっても、第１の実施形態と同様に、複数の結果画像が出力される。このため、利用者は、各結果画像が示す認識結果と利用者自身の評価基準に従った認識結果との差異を確認することで、利用者の目的に対する各学習済みモデルの適合具合を把握することができる。

さらに、本実施形態では、複数の結果画像とともに複数の第１の評価情報が出力される。このため、複数の第１の評価情報によって複数の学習済みモデルを定量的に比較して評価することができる。検査ラベル情報は、利用者が利用者の評価基準で正解とした領域の情報であるから、検査ラベル情報に基づいて学習済みモデルを評価した第１の評価情報は、利用者が自身の目的下で学習済みモデルを使用した場合におけるその学習済みモデルの性能と強い相関があると考えられる。従って、本実施形態によれば、第１の実施形態よりも容易に利用者の目的に適う学習済みモデルを特定することが可能である。さらに、第１の評価情報に基づく優先順位に従って複数の結果画像が出力されることで、利用者の目的に適う学習済みモデルの特定に要する時間を短縮することができる。このように、本実施形態に係る評価支援方法によっても、他者が構築した学習済みモデルを利用者自身の基準で評価することを支援することができる。

［第３の実施形態］
図１４は、本実施形態に係る評価支援処理のフローチャートである。図１５は、参照画像９０の生成手順を説明するための図である。図１６は、学習済みモデル一覧画面の更に別の例を示す図である。図１７は、学習済みモデル詳細画面の一例を示す図である。なお、図１４に示す処理は、例えば、サービス提供装置５が所定のプログラムを実行することによって行われる。

サービス提供装置５は、図１４に示す処理を開始すると、利用装置６から提供された、学習済みモデルに求める条件と検査画像５０を取得する（ステップＳ３１）。その後、サービス提供装置５は、複数の学習済みモデル１０を取得し（ステップＳ３２）、複数の第１の識別情報を生成し（ステップＳ３３）、複数の結果画像を生成する（ステップＳ３４）。つまり、学習済みモデル毎に、第１の識別情報と結果画像を生成する。なお、ステップＳ３１からステップＳ３４の処理は、図７のステップＳ１１からステップＳ１４の処理と同様である。

さらに、サービス提供装置５は、複数のサンプル画像を取得する（ステップＳ３５）。複数のサンプル画像の各々は、ステップＳ３２で取得した複数の学習済みモデルのうちの対応する学習済みモデルの訓練過程で使用された画像である第３の画像の一例である。即ち、ステップＳ３５は、複数の第３の画像を取得する工程の一例である。サンプル画像は
、学習済みモデルとともに予めデータベースに登録されている。なお、ステップＳ３５では、学習済みモデル毎に、少なくとも１つのサンプル画像を取得すればよく、学習済みモデル毎に複数のサンプル画像を取得してもよい。以降では、学習済みモデル毎に１つのサンプル画像を取得した場合を例に説明する。

複数のサンプル画像を取得すると、サービス提供装置５は、複数の第２の識別情報を生成する（ステップＳ３６）。ここでは、サービス提供装置５は、図１５に示すように、ステップＳ３２で取得した複数の学習済みモデル１０（学習済みモデル１１、学習済みモデル１２、学習済みモデル１３）の各々に、ステップＳ３５で取得した複数のサンプル画像（サンプル画像２１、サンプル画像２２、サンプル画像２３）のうちの対応するサンプル画像を適用することによって、複数の第２の識別情報（第２の識別情報８１、第２の識別情報８２、第２の識別情報８３）を生成する。なお、この例では、複数の第２の識別情報の各々は、対応する学習済みモデル１０によって陽性領域として推定された領域を識別する情報である。第２の識別情報は、サンプル画像と同数だけ生成される。

その後、サービス提供装置５は、複数の参照画像を生成する（ステップＳ３７）。複数の参照画像の各々は、複数の学習済みモデルのうちの対応する学習済みモデルによる複数の第３の画像のうちの対応する第３の画像の処理結果である第４の画像の一例である。即ち、ステップＳ３７は、複数の第４の画像を生成する工程の一例である。ここでは、サービス提供装置５は、図１５に示すように、ステップＳ３６で生成した複数の第２の識別情報の各々をステップＳ３５で取得したサンプル画像のうちの対応するサンプル画像に重畳することによって、複数の参照画像（参照画像９１、参照画像９２、参照画像９３）を生成する。

最後に、サービス提供装置５は、複数の結果画像と複数の参照画像を出力する（ステップＳ３８）。ここでは、サービス提供装置５は、ステップＳ３４で生成した複数の結果画像の各々を、ステップＳ３２で選択した複数の学習済みモデル１０のうちの対応する学習済みモデル１０と、ステップＳ３７で生成した複数の参照画像のうちの対応する参照画像に関連付けて出力する。具体的には、サービス提供装置５は、図１６に示す画面４００を利用装置６に送信し、利用装置６の表示装置６ａに画面４００を表示させる。画面４００は、評価支援システムの学習済みモデル一覧画面であり、複数の学習済みモデル１０を用いて生成された複数の結果画像と複数の参照画像を並べて表示する画面である。

図１６に示す画面４００には、モデル条件欄４０１の下側に、学習済みモデルの識別情報（モデルＩＤ）とメタデータ（作成者、細胞種、方法）と結果画像と参照画像の組み合わせが、ステップＳ３２で選択された学習済みモデルの数だけ並べて表示されている。即ち、ステップＳ３８は、複数の学習済みモデルの各々を、複数の第２の画像のうちの対応する第２の画像と、複数の第４の画像のうちの対応する第４の画像に関連付けて表示する工程の一例である。組み合わせの並び順は、学習済みモデルの利用者が求める条件への合致度に基づいて決定されてもよい。なお、並び順は、画面４００上に提供されているソートボタンが押下されることで、利用者が優先する条件に従って変更されてもよい。

さらに、本実施形態では、複数の結果画像とともに複数の参照画像が出力される。複数の参照画像は、サンプル画像に第２の識別情報を重畳した画像である。サンプル画像は、モデル提供者自身が選択したサンプル画像であるから、参照画像を確認することで、利用
者は、モデル提供者がどのようなサンプルに対する学習済みモデルの構築を狙ったのかを把握することができる。さらに、第２の識別情報は、モデル提供者がモデル提供者の評価基準で正解とした領域の情報を用いて訓練した学習済みモデルの出力結果であるから、参照画像を確認することで、利用者は、モデル提供者がどのような判断基準で学習済みモデルを訓練したのかを把握することができる。このように、利用者は、参照画像を確認することでモデル提供者の狙いを把握することができるため、利用者の目的に対する学習済みモデルの適合具合を予想する材料として参照画像を利用することができる。従って、本実施形態によれば、偶然に利用者の認識に近い結果を示す結果画像を生成した学習済みモデルを選択してしまうことを避けることができるため、第１の実施形態よりも高い精度で、利用者の目的に適う学習済みモデルを特定することが可能である。

なお、本実施形態では、ステップＳ３５で取得するサンプル画像は、検証画像であることが望ましい。サンプル画像として検証画像を取得することで、訓練画像を取得した場合に比べて、学習済みモデルの性能をより公平に評価することが可能となるからである。

また、本実施形態では、ステップＳ３６で第２の識別情報を生成する例を示したが、ステップＳ３６では、予め生成された第２の識別情報を取得してもよい。第２の識別情報は、データベースに登録されている学習済みモデルとサンプル画像から生成可能であり、利用者からの要求がサービス提供装置５に入力される前に生成することができるからである。なお、第２の識別情報は、サービス提供装置５がモデルの受け入れ時に生成してもよく、モデル受け入れ後の任意のタイミングで生成されてもよい。また、第２の識別情報は、サービス提供装置５ではなくモデル提供装置で生成されてもよく、モデル提供時に、学習済みモデルなどとともにサービス提供装置５にアップロードされてもよい。予め生成された第２の識別情報を利用することで、利用者の要求に対してより高速に応答することが可能となる。

また、本実施形態では、画面４００上に提供されている詳細ボタンが押下されることで、例えば、図１７に示す画面５００がサービス提供装置５から出力されてもよい。画面５００は、評価支援システムの学習済みモデル詳細画面であり、選択された学習済みモデル１０についてのより詳しい情報を表示する画面である。

図１７に示す画面５００には、モデル条件欄５０１及びモデル情報欄５０２の下側に、複数のタブ（タブ５１０、タブ５２０、タブ５３０、タブ５４０、タブ５５０）が設けられている。図１７には、タブ５１０が選択された状態が示されていて、学習済みモデルの構築に使用された複数のサンプル画像（サンプル画像２１、サンプル画像２４、サンプル画像２５）と対応する複数の第２の識別情報（第２の識別情報８１、第２の識別情報８４、第２の識別情報８５）が表示されている。さらに、第２の評価情報として、再現率、適合率、Ｆ値などの主要な評価指標も表示されている。これらを参照することで、利用者は、モデル提供者の狙いをよりよく把握することができる。

なお、タブ５２０が選択されることで、学習済みモデルに検査画像を適用することで得られる種々の情報が表示される。タブ５３０が選択されることで、細胞情報及び撮影情報の詳細が表示される。タブ５４０が選択されることで、染色情報及び判定条件の詳細が表示される。タブ５５０が選択されることで、学習条件の詳細が表示される。

［第４の実施形態］
図１８は、本実施形態に係る評価支援処理のフローチャートである。図１９及び図２０は、学習済みモデル一覧画面の更に別の例を示す図である。図２１は、評価情報の生成方法について説明するための図である。なお、図１８に示す処理は、例えば、サービス提供装置５が所定のプログラムを実行することによって行われる。

サービス提供装置５は、図１８に示す処理を開始すると、利用装置６から提供された、学習済みモデルに求める条件と検査画像５０と検査ラベル情報を取得する（ステップＳ４１）。その後、サービス提供装置５は、複数の学習済みモデル１０を取得し（ステップＳ４２）、複数の第１の識別情報を生成し（ステップＳ４３）、複数の結果画像を生成し（ステップＳ４４）、複数の第１の評価情報を生成する（ステップＳ４５）。つまり、学習済みモデル毎に、第１の識別情報と結果画像と第１の評価情報を生成する。なお、ステップＳ４１からステップＳ４５の処理は、図１２のステップＳ２１からステップＳ２５の処理と同様である。

さらに、サービス提供装置５は、複数のサンプル画像と複数のサンプルラベル情報を取得する（ステップＳ４６）。複数のサンプル画像の各々は、ステップＳ４２で取得した複数の学習済みモデルのうちの対応する学習済みモデルの訓練過程で使用された画像である。また、複数のサンプルラベル情報の各々は、複数のサンプル画像の各々に含まれる陽性領域又は陰性領域である正解領域を識別する情報である。サンプルラベル情報は、学習済みモデルとサンプル画像とともに予めデータベースに登録されている。なお、ステップＳ４６では、学習済みモデル毎に、少なくとも１つのサンプル画像とサンプルラベル情報の組み合わせを取得すればよく、学習済みモデル毎に複数のサンプル画像とサンプルラベル情報の組み合わせを取得してもよい。以降では、学習済みモデル毎に１つのサンプル画像とサンプルラベル情報の組み合わせを取得した場合を例に説明する。

複数のサンプル画像と複数のサンプルラベル情報とを取得すると、サービス提供装置５は、複数の第２の識別情報を生成し（ステップＳ４７）、複数の参照画像を生成する（ステップＳ４８）。なお、ステップＳ４７及びステップＳ４８の処理は、図１４のステップＳ３６及びステップＳ３７の処理と同様である。

その後、サービス提供装置５は、複数の第２の評価情報を生成する（ステップＳ４９）。複数の第２の評価情報の各々は、ステップＳ４７で生成された複数の第２の識別情報の各々と、ステップＳ４６で取得した複数のサンプルラベル情報の各々と、に基づいて生成される。

なお、第２の評価情報は、サンプルラベル情報に基づいて学習済みモデル１０を定量的に評価した情報である点を除き、第１の評価情報と同様である。即ち、第２の評価情報は、例えば、適合率、再現率、Ｆ値、特異度、正確度などであってもよく、偽陰性率、偽陽性率などであってもよい。また、第２の評価情報は、単一の指標に限らず、上述した複数の指標の任意の組み合わせであってもよい。

ステップＳ４９では、サービス提供装置５は、まず、ともに画像上の領域を特定する情報であるサンプルラベル情報と第２の識別情報とを比較することで、真陽性、偽陽性、偽陰性、真陰性のそれぞれに対応する領域を特定する。これらの領域が特定されると、サービス提供装置５は、これらの領域の面積を用いて第２の評価情報を算出する。

なお、学習済みモデル毎に、少なくとも１つのサンプル画像を取得すればよく、学習済みモデル毎に複数のサンプル画像を取得してもよい。学習済みモデル毎に複数のサンプル画像を取得した場合、学習済みモデル毎に、複数のサンプル画像に対応する複数のサンプルラベル情報から算出された複数の第２の評価情報の値に加えて、複数の第２の評価情報の代表値を算出してもよい。代表値としては、例えば平均値であってもよく、中央値であってもよい。

最後に、サービス提供装置５は、複数の結果画像と複数の第１の評価情報と複数の第２
の評価情報を出力する（ステップＳ５０）。ここでは、サービス提供装置５は、ステップＳ４４で生成した複数の結果画像の各々を、ステップＳ４２で選択した複数の学習済みモデル１０のうちの対応する学習済みモデル１０と、ステップＳ４５で生成した複数の第１の評価情報のうちの対応する第１の評価情報と、ステップＳ４８で生成した複数の参照画像のうちの対応する参照画像と、ステップＳ４９で生成した複数の第２の評価情報のうちの対応する第２の評価情報と、に関連付けて出力する。具体的には、サービス提供装置５は、図１９に示す画面６００を利用装置６に送信し、利用装置６の表示装置６ａに画面６００を表示させる。画面６００は、評価支援システムの学習済みモデル一覧画面であり、複数の学習済みモデル１０を用いて生成された複数の結果画像と複数の参照画像を、複数の結果画像に関する複数の第１の評価情報と複数の参照画像に関する複数の第２の評価情報とともに、並べて表示する画面である。

複数の検査画像が取得された場合、複数の学習済みモデル１０の各々について、複数の結果画像が生成される。その場合、学習済みモデル１０毎に、１つ以上の結果画像を表示してもよい。また、複数の学習済みモデルの各々について、複数の検査画像から算出された複数の第１の評価情報と、それら複数の第１の評価情報の代表値とをもとに、表示する結果画像を１つ以上選択してもよい。例えば、検査画像毎に算出されるＦ値の高いほうから１つ以上選択し、選択した１つ以上のＦ値に対応する１つ以上の結果画像を表示してもよい。また、例えば、複数の第１の評価情報の代表値に最も近い第１の評価情報に対応した１つ以上の結果画像を選択し、選択した１つ以上の結果画像を表示してもよい。

複数の学習済みモデル１０の各々について、複数のサンプル画像と複数のサンプルラベル情報が存在する場合、サンプル画像とサンプルラベル情報の組合わせ毎に参照画像が生成される。その結果、学習済みモデル１０毎に、複数の参照画像が生成される。その場合、学習済みモデル１０毎に、１つ以上の参照画像を表示してもよい。また、複数の学習済みモデル１０の各々について、複数のサンプル画像から算出された複数の第２の評価情報と、それら複数の第２の評価情報の代表値とをもとに、表示する参照画像を１つ以上選択してもよい。例えば、サンプル画像毎に算出されたＦ値の高いほうから１つ以上選択し、選択した１つ以上のＦ値に対応する参照画像を表示してもよい。また、例えば、複数の第２の評価情報の代表値に最も近い第２の評価情報に対応した１つ以上の参照画像を選択し、選択した１つ以上の参照画像を表示してもよい。

図１９に示す画面６００には、モデル条件欄６０１の下側に、学習済みモデルの識別情報（モデルＩＤ）とメタデータ（作成者、細胞種、方法）と結果画像と第１の評価情報（スコア）と参照画像と第２の評価情報（スコア）の組み合わせが、ステップＳ４２で選択された学習済みモデルの数だけ並べて表示されている。なお、ステップＳ５０には、複数の第１の評価情報と複数の第２の評価情報に基づいて複数の組み合わせに対して優先順位を割り当てる工程が含まれてもよく、優先順位に従って複数の結果画像の各々を、対応する学習済みモデルと対応する第１の評価情報と対応する参照画像と対応する第２の評価情報に関連付けて出力してもよい。即ち、画面６００における組み合わせの並び順は、割り当てられた優先順位に従って決定されてもよい。なお、並び順は、画面６００上に提供されているソートボタンが押下されることで、利用者が優先する条件に従って変更されてもよい。

例えば、第１の評価情報と第２の評価情報がＦ値などの値が高いほど良い指標である場合には、サービス提供装置５は、より高い第１の評価情報と第２の評価情報を含む組み合わせほど、より高い優先順位を割り当てても良い。また、第１の評価情報と第２の評価情報が値が低いほど良い指標である場合には、サービス提供装置５は、より低い第１の評価情報と第２の評価情報を含む組み合わせほど、より高い優先順位を割り当てても良い。

なお、学習済みモデル毎に複数の第２の評価情報が生成されている場合には、学習済みモデル毎に最も高い値を示す第２の評価情報に基づいて優先順位を決定してもよく、その場合、図１９に示すように、学習済みモデル毎に最も高い値を示す第２の評価情報に対応する参照画像を画面６００に表示してもよい。

また、学習済みモデル毎に複数の第２の評価情報が生成されている場合には、学習済みモデル毎に最も低い値を示す第２の評価情報に基づいて優先順位を決定してもよく、その場合、図２０に示すように、学習済みモデル毎に最も低い値を示す第２の評価情報に対応する参照画像を画面６００に表示してもよい。これにより、利用者は、学習済みモデル毎に最も出来の悪い結果に基づいて学習済みモデルを評価することが可能となるため、偶然に得られた良い結果に基づいて誤った評価を行うことを回避することができる。

なお、学習済みモデル毎に最もよい結果と最も悪い結果のどちらを表示するかについては、例えば、参照画像の近く設けられたラジオボタンによって利用者の選択によって切り替えられてもよい。また、学習済みモデル毎に複数の第１の評価情報が生成されている場合、つまり、複数の検証画像が提供されている場合には、結果画像についても参照画像と同様に、最も良い結果と最も悪い結果を切り替えて表示してもよい。また、最も良い結果と最も悪い結果に加えて、これらの間の中間的な結果を表示するように選択可能であってもよい。中間的な結果で評価を行うことで偶然に左右されずに公平な評価を行うことができる。

また、本実施形態では、第２の実施形態と同様に、複数の結果画像とともに複数の第１の評価情報が出力される。このため、利用者は、複数の第１の評価情報によって複数の学習済みモデルを定量的に比較して評価することが可能であり、より容易に利用者の目的に適う学習済みモデルを特定することが可能である。

また、本実施形態では、第３の実施形態と同様に、複数の結果画像とともに複数の参照画像が出力される。このため、利用者は、参照画像を確認することでモデル提供者の狙いを把握することができるため、より高い精度で、利用者の目的に適う学習済みモデルを特定することができる。

さらに、本実施形態では、複数の第1の評価情報とともに複数の第２の評価情報が出力
される。このため、第１の評価情報と第２の評価情報を比較することで、第１の評価情報の信頼性を評価することができるため、より高い精度で、利用者の目的に適う学習済みモデルを特定することができる。

第４の実施形態では、第１の評価情報と第２の評価情報の両方を生成する例を示したが、第２の評価情報のみを生成し、出力してもよい。その場合、第２の評価情報に基づいて割り当てた優先順位に従って結果画像を含む学習済みモデルに関連する情報を出力してもよい。また、第２の実施形態と第4の実施形態では、生成した評価情報を表示装置６ａに
表示する例を示したが、評価情報は必ずしも表示されなくてもよく、例えば、優先順位の決定にのみ使用されてもよい。

また、第２の実施形態と第４の実施形態では、図２１に示すように、検査画像５０に含まれる陽性領域又は陰性領域をもれなく識別した検査ラベル情報Ｌ１を第１の識別情報と
比較することで、第１の評価情報を算出する例を示した。しかしながら、検査画像５０に含まれる陽性領域又は陰性領域をもれなく指定する作業は、利用者に大きな負担を強いる可能性がある。このため、例えば、図２１に示すような、検査画像５０に含まれる陽性領域と陰性領域の少なくとも一方を部分的に識別した検査ラベル情報Ｌ２を第１の識別情報と比較することで、第１の評価情報を算出してもよい。このような検査ラベル情報Ｌ２を用いることで、利用者の作業負担を大幅に軽減することが可能となる。また、利用者は、学習済みモデルの評価に直結するような重要な部分（例えば、絶対に判断を誤って欲しくない部分、特に判断が難しい部分など）のみを指定することによって検査ラベル情報Ｌ２を生成してもよい。これにより、第１の評価情報が比較的重要度の低い情報によって希釈化されることないため、第１の評価情報に基づいてより適切な評価を行うことが可能となる。なお、図２１では、検査ラベル情報について例示したが、サンプルラベル情報についても、サンプル画像に含まれる陽性領域と陰性領域の少なくとも一方を部分的に識別したサンプルラベル情報が用いられてもよい。この場合、モデル提供者の負担を大幅に軽減することができる。

また、以上の実施形態では、複数の学習済みモデルを比較して評価する例を示したが、サービス提供装置５は、１つの学習済みモデルに対する評価を支援してもよい。即ち、サービス提供装置５は、１つの学習済みモデルに対応する結果画像と参照画像を出力してもよい。結果画像と参照画像を関連付けて出力することで、利用者は、モデル提供者の狙いと、各結果画像が示す認識結果と利用者自身の評価基準に従った認識結果との差異と、を確認することで、利用者の目的に対する各学習済みモデルの適合具合を把握することができる。

以上では、利用装置６が学習済みモデルを評価することを支援するサービスをサービス提供装置５が提供する例を示したが、サービス提供装置５が提供するサービスは、この例に限らない。サービス提供装置５は、モデル提供装置が学習済みモデルを評価することを支援するサービスを提供してもよい。以降では、モデル提供装置が学習済みモデルをサービス提供装置５に仮登録し、サービス提供装置５が提供するサービスを利用して仮登録した自身の学習済みモデルを評価する例について説明する。なお、仮登録とは、一般に公開しない形で学習済みモデルをサービス提供装置５のデータベースに登録することをいう。これにより、モデル提供装置は、一般に公開する前に、自身の学習済みモデルを評価することができる。

図２２は、システム１が提供するサービスを説明するためのシーケンス図の別の例である。図２３は、利用装置が提供するデータを説明するための図である。以下、図２２及び図２３を参照しながら、システム１が行う学習済みモデルの評価支援方法について説明する。

システム１では、まず、利用装置６がテスト画像１７０をサービス提供装置５に提供する（ステップＳ５１）。サービス提供装置５は、受け入れ条件として、テスト画像１７０とともにテストラベル情報１８０とメタデータ１９０を提供することを利用装置６に予め要求している。このため、ステップＳ５１では、利用装置６は、受け入れ条件に従って、図２３に示すように、テスト画像１７０とテストラベル情報１８０とメタデータ１９０を、サービス提供装置５に提供する。テスト画像１７０とテストラベル情報１８０は、テストデータセットを構成する。

なお、テスト画像１７０は、学習済みモデルの性能評価のために用意された第１の画像の一例である。利用装置６の利用者は、未知の学習済みモデルの性能評価のためにテスト画像１７０をサービス提供装置５に提供することで、自身の提供したデータ（テスト画像）に適した学習済みモデルがサービス提供装置５に供給される可能性を高めることができ
る。

利用装置６によって提供されるテストラベル情報１８０は、テスト画像１７０の入力に対する出力としての正解を示す情報である。つまり、テストラベル情報１８０は、例えば、テスト画像１７０に含まれる陽性領域又は陰性領域である正解領域を識別する識別情報である。

利用装置６によって提供されるメタデータ１９０は、サービス提供装置５が学習済みモデルの評価のために使用するテストデータを選択する際に利用される。メタデータ１９０としては、テスト画像１７０が細胞の画像の場合であれば、例えば、細胞種、細胞の入手経路、遺伝子導入の有無、培養条件などが含まれ得る。また、テスト画像１７０を取得した装置の情報である撮像条件、画像サイズ、画像枚数なども含まれ得る。さらに、試薬・染色の使用の有無、試薬・染色条件の情報、陽性又は陰性領域を判断する基準、画像の作成者情報などを含んでもよい。

モデル提供装置からテスト画像１７０が提供されると、サービス提供装置５は、提供されたテスト画像１７０を受け入れる（ステップＳ５２）。ここでは、サービス提供装置５は、テスト画像１７０とともに、テストラベル情報１８０とメタデータ１９０を受け入れて、非一過性のコンピュータ読取可能記憶媒体に構築されたデータベースに登録する。

ステップＳ５１の画像提供処理が複数の利用装置によって行われることで、サービス提供装置５には、多数のテスト画像１７０が登録される。

その後、モデル提供装置は、学習済みモデルを評価するために、学習済みモデルをサービス提供装置５に提供する（ステップＳ５３）。なお、ステップＳ５３の処理は、図３のステップＳ１の処理と同様である。

モデル提供装置から学習済みモデルが提供されると、サービス提供装置５は、提供された学習済みモデルを受け入れる（ステップＳ５４）。ここでは、サービス提供装置５は、学習済みモデル１０とともに、教師データセットとメタデータ４０を受け入れて、非一過性のコンピュータ読取可能記憶媒体に構築されたデータベースに、一般には公開されない形で登録する。なお、ステップＳ５４の処理は、学習済みモデル１０が一般には公開されない形で登録される、つまり、仮登録される点を除き、図３のステップＳ２の処理と同様である。

その後、モデル提供装置は、サービス提供装置５に提供した学習済みモデルを評価するために、画像条件をサービス提供装置５に提供する（ステップＳ５５）。画像条件は、学習済みモデルの評価に使用するテスト画像１７０に求める条件である。

画像条件がモデル提供装置から提供されると、サービス提供装置５は、モデル評価支援情報を生成する（ステップＳ５６）。ここでは、サービス提供装置５は、画像条件に基づいてデータベースに登録されているメタデータを検索し、モデル提供装置が求める条件に合う複数のテスト画像１７０を抽出する。さらに、サービス提供装置５は、モデル提供装置から提供された学習済みモデルにテスト画像を適用することで、テスト画像に対する複数のテスト結果を含むモデル評価支援情報を生成する。なお、モデル評価支援情報は、モデル提供装置による学習済みモデルの評価を支援するための情報である。

モデル評価支援情報を生成したサービス提供装置５は、モデル評価支援情報をモデル提供装置に提供する（ステップＳ５７）。その後、モデル提供装置の利用者、つまり、モデル提供者は、モデル提供装置の表示装置に表示されたモデル評価支援情報を参照すること
で、自身の学習済みモデルの性能を評価する。

以上のように、システム１では、サービス提供装置５は、学習済みモデルに複数のテスト画像を適用することで複数のテスト結果を生成し、それらのテスト結果をモデル提供装置に提供する。これにより、モデル提供者は、複数のテスト結果を参照することで、自身の学習済みモデルの性能を評価することができる。以下、各実施形態において、図２２のステップＳ５５からステップＳ５７の工程の具体例について詳細に説明する。

［第５の実施形態］
図２４は、本実施形態に係る評価支援処理のフローチャートである。図２５は、テスト結果一覧画面の一例を示す図である。なお、図２４に示す処理は、例えば、サービス提供装置５が所定のプログラムを実行することによって行われる。

サービス提供装置５は、図２４に示す処理を開始するとモデル提供装置から提供された画像条件を取得する（ステップＳ６１）。ここでは、例えばサービス提供装置５が提供するＷｅｂサイトにモデル提供装置がアクセスすることによって、サービス提供装置５は、画像データ入力画面をモデル提供装置に送信し、モデル提供装置の表示装置に画像データ入力画面を表示させる。そして、入力画面にモデル提供者によって入力された画像条件をモデル提供装置がサービス提供装置５に送信することで、サービス提供装置５が画像条件を取得する。なお、以降では、サービス提供装置５が画像条件として“ヒト、乳がん、○○領域”を取得した場合を例に説明する。

次に、サービス提供装置５は、複数のテスト画像１７０を選択し、取得する（ステップＳ６２）。ここでは、サービス提供装置５は、ステップＳ５１で取得した画像条件に基づいて、テスト画像１７０に付随してデータベースに予め登録されているメタデータ１９０を検索する。そして、利用者が求める条件に合う複数のテスト画像１７０を抽出する。即ち、ステップＳ６２は、学習済みモデルの性能評価に用いられる複数の第１の画像を取得する工程である。

複数のテスト画像１７０を取得すると、サービス提供装置５は、複数の第３の識別情報を生成する（ステップＳ６３）。ここでは、サービス提供装置５は、ステップＳ６２で取得した複数のテスト画像１７０の各々をステップＳ５４で受け入れた学習済みモデル１０に適用することによって、複数のテスト画像１７０に対応する複数の第３の識別情報を生成する。第３の識別情報は、ステップＳ６２で取得したテスト画像１７０と同数だけ生成される。なお、この例では、複数の第３の識別情報の各々は、学習済みモデル１０によって陽性領域として推定された領域を識別する情報である。

その後、サービス提供装置５は、複数のテスト結果画像７１０を生成する（ステップＳ６４）。なお、テスト結果画像７１０は、学習済みモデルによるテスト画像１７０の処理結果である第２の画像の一例である。ここでは、サービス提供装置５は、ステップＳ６３で生成した複数の第３の識別情報の各々をステップＳ６２で取得したテスト画像１７０に重畳することによって、複数のテスト結果画像７１０（テスト結果画像７１１、テスト結果画像７１２、テスト結果画像７１３）を生成する。

最後に、サービス提供装置５は、複数のテスト結果画像を出力する（ステップＳ６５）。ここでは、サービス提供装置５は、ステップＳ６４で生成した複数のテスト結果画像の各々をステップＳ５４で受け入れた学習済みモデル１０に関連付けて出力する。具体的には、サービス提供装置５は、図２５に示す画面７００をモデル提供装置に送信し、モデル提供装置の表示装置に画面７００を表示させる。即ち、ステップＳ６５は、学習済みモデルを複数の第２の画像に関連付けて表示する工程である。画面７００は、評価支援システ
ムのテスト結果一覧画面であり、複数のテスト画像１７０を用いて生成された複数のテスト結果画像７１０を並べて表示する画面である。

図２５に示す画面７００には、学習済みモデルの情報を表示するモデル欄７０１と、画像条件の情報を表示する画像条件欄７０２の下側に、テスト画像の識別情報（データＩＤ）とメタデータ（作成者、細胞種、方法）とテスト結果画像の組み合わせが、ステップＳ６２で選択されたテスト画像の数だけ並べて表示されている。組み合わせの並び順は、学習済みモデルの提供者が求める条件への合致度に基づいて決定されてもよい。また、並び順は、画面７００上に提供されているソートボタンが押下されることで、モデル提供者が優先する条件に従って変更されてもよい。

以上のように、システム１が本実施形態に係る評価支援処理を行うことで、第３者によって提供された複数のテスト画像に対するテスト結果が複数のテスト結果画像として出力される。このため、モデル提供者は、複数のテスト結果画像を参照することで、自身の学習済みモデルを客観的に評価することができる。従って、本実施形態に係る評価支援方法によれば、自身が構築した学習済みモデルの性能を第３者のデータを用いて検証して客観的に評価することができる。

システム１は、ステップＳ６５において、図２５に示す画面７００の代わりに、図２６に示す画面８００を出力してもよい。画面８００は、テスト結果画像７１０（テスト結果画像７１１、テスト結果画像７１２、テスト結果画像７１３）の隣に、テスト画像１７０（テスト画像１７１、テスト画像１７２、テスト画像１７３）が表示されている点が、画面７００とは異なる。即ち、ステップＳ６５は、複数の第２の画像の各々を対応する第１の画像に関連付けて表示する工程である。

図２６に示す画面８００が表示されることで、モデル提供者は、各テスト画像に対するテスト結果をよりはっきり認識することが可能となるため、学習済みモデルのより適切な評価が可能となる。

［第６の実施形態］
図２７は、本実施形態に係る評価支援処理のフローチャートである。図２８は、テスト結果一覧画面の別の例を示す図である。なお、図２７に示す処理は、例えば、サービス提供装置５が所定のプログラムを実行することによって行われる。

サービス提供装置５は、図２７に示す処理を開始すると、モデル提供装置から提供された画像条件を取得する（ステップＳ７１）。ステップＳ７１の処理は、図２４のステップＳ６１の処理と同様である。

次に、サービス提供装置５は、複数のテスト画像１７０と複数のテストラベル情報１８０を選択し、取得する（ステップＳ７２）。ここでは、サービス提供装置５は、テスト画像１７０とともにテスト画像１７０に関連付けて登録されているテストラベル情報１８０を取得する。ステップＳ７２の処理は、テストラベル情報１８０を取得する点を除き、図２４のステップＳ６２の処理と同様である。

複数のテスト画像１７０を取得すると、サービス提供装置５は、複数の第３の識別情報を生成し（ステップＳ７３）、複数のテスト結果画像７１０を生成する（ステップＳ７４）。ステップＳ７３及びステップＳ７４の処理は、図２４のステップＳ６３及びステップＳ６４の処理と同様である。

その後、サービス提供装置５は、複数の第３の評価情報を生成する（ステップＳ７５）
。複数の第３の評価情報の各々は、ステップＳ７３で生成された複数の第３の識別情報の各々と、ステップＳ７２で取得した複数のテストラベル情報のうちの対応するテストラベル情報と、に基づいて生成される。つまり、サービス提供装置５は、テスト結果画像７１０毎に第３の評価情報を算出する。

なお、第３の評価情報は、第１の評価情報と同様に、例えば、適合率、再現率、適合率と再現率との調和平均であるＦ値である。その他、特異度、正確度などであってもよい。なお、第３の評価情報は、値が高いほど良いものに限らない点も、第１の評価情報と同様である。第３の評価情報は、例えば、偽陰性率、偽陽性率などであってもよい。また、第３の評価情報は、単一の指標に限らず、上述した複数の指標の任意の組み合わせであってもよい。

また、ステップＳ７５では、サービス提供装置５は、複数の第３の評価情報に基づいて、複数の第３の評価情報の代表値を算出してもよい。代表値としては、例えば平均値であってもよく、中央値であってもよい。

最後に、サービス提供装置５は、複数のテスト結果画像と複数の第３の評価情報を出力する（ステップＳ７６）。ここでは、サービス提供装置５は、ステップＳ７４で生成した複数のテスト結果画像の各々をステップＳ５４で受け入れた学習済みモデル１０と、ステップＳ７５生成した複数の第３の評価情報のうちの対応する第３の評価情報とに関連付けて出力する。具体的には、サービス提供装置５は、図２８に示す画面９００をモデル提供装置に送信し、モデル提供装置の表示装置に画面９００を表示させる。

画面９００は、テスト結果画像７１０（テスト結果画像７１１、テスト結果画像７１２、テスト結果画像７１３）の隣に、第３の評価情報であるスコアが表示されている点が、画面７００とは異なる。

以上のように、システム１が本実施形態に係る評価支援処理を行うことで、第３者によって提供された複数のテスト画像に対するテスト結果が複数のテスト結果画像と複数のスコアとして出力される。このため、モデル提供者は、複数のテスト結果画像と複数のスコアを参照することで、自身の学習済みモデルを客観的に評価することができる。従って、本実施形態に係る評価支援方法によっても、自身が構築した学習済みモデルの性能を第３者のデータを用いて検証して客観的に評価することができる。特に、テスト結果画像ともにスコアが表示されることで、テスト結果画像を定量的に評価することができる。

システム１は、ステップＳ７６において、図２８に示す画面９００の代わりに、図２９に示す画面１０００を出力してもよい。画面１０００は、テスト結果画像７１０（テスト結果画像７１１、テスト結果画像７１２、テスト結果画像７１３）の隣に、テスト画像１７０（テスト画像１７１、テスト画像１７２、テスト画像１７３）と合成画像（合成画像１００１、合成画像１００２、合成画像１００３）が表示されている点が、画面９００とは異なる。なお、合成画像は、テスト画像上にテストラベル情報を重畳した画像である。

図２９に示す画面１０００が表示されることで、モデル提供者は、スコアの根拠となる情報が各テスト画像に対するテスト結果（テスト結果画像及びスコア）とともに表示されることで、学習済みモデルのより適切な評価が可能となる。

また、システム１は、ステップＳ７６において、図２８に示す画面９００の代わりに、図３０に示す画面１１００を出力してもよい。画面１１００は、テスト結果画像７１０（テスト結果画像７１１、テスト結果画像７１２、テスト結果画像７１３）の隣に、スコア（第３の評価情報）に加えて信頼度が表示されている点が、画面９００とは異なる。なお
、信頼度は、学習済みモデルが生成したテスト結果画像の信頼度であり、より詳細には、学習済みモデルがテスト結果画像を生成するにあたり出力した第３の識別情報の信頼度のことである。

図３０に示す画面１０００が表示されることで、モデル提供者は、各テスト画像に対するテスト結果（テスト結果画像、スコア及び信頼度）をよりはっきり認識することが可能となるため、学習済みモデルのより適切な評価が可能となる。特に、スコアと信頼度を表示することで学習済みモデルをより詳細に評価することができる。例えば、同じ低いスコアを有するテスト結果画像を出力した場合であっても、高い信頼度で出力している場合と低い信頼度で出力している場合では、モデル提供者は、学習済みモデルの性能評価を異ならせることができる。

第５の実施形態と第６の実施形態では、学習済みモデル１０が正解領域を識別する第３の識別情報７２０を出力し、第３の識別情報７２０をテスト画像１７０に重畳することでテスト結果画像７１０を生成する例を示したが、テスト結果画像の生成方法は、この例に限らない。例えば、図３１に示すように、第３の識別情報７２０そのものをテスト結果画像として出力してもよい。また、図３１に示すように、学習済みモデル１０は、ヒートマップであるテスト結果画像７３０を生成してもよい。テスト結果画像７３０は、画像の各領域が正解領域である確率を信頼度として出力し、その信頼度を可視化することで生成されてもよい。なお、第１の実施形態から第４の実施形態に示す結果画像及び参照画像についても、識別情報を検査画像及びサンプル画像に重畳することにより生成された画像に限らず、識別情報そのものであってもよく、ヒートマップであってもよい。

また、上述した実施形態では、画像をピクセル単位でラベル付けするセグメンテーションタイプの学習済みモデルを例示したが、学習済みモデルは、セグメンテーションタイプに限らない。学習済みモデルは、図３２に示すように、画像中のどこに何があるのかを特定するディテクションタイプの学習済みモデルであってもよい。図３２には、内視鏡で取得した体腔内の画像であるテスト画像２７０を学習済みモデル１０に入力して、画像中から腫瘍を検出する例が示されている。学習済みモデル１０から出力されたテスト結果画像２８０には、腫瘍の位置を特定する枠２８１が表示されている。

また、学習済みモデルは、図３３に示すように、画像を分類するクラシフィケーションタイプの学習済みモデルであってもよい。図３３には、テスト画像２７０を学習済みモデル１０に入力して、画像を確率付きで分類する例が示されている。学習済みモデル１０は、分類情報２９１そのものをテスト結果画像として出力してもよく、分類情報２９１を画像に変換したテスト結果画像２９０を出力してもよい。また、各確率をグラフで表現したものをテスト結果画像として出力してもよい。具体的には、円グラフであてもよく、横軸に各種分類名称、縦軸に各分類の確率を記載したヒストグラムとしてもよい。

上述した実施形態では、静止画を扱う例を示したが、学習済みモデルは動画を扱ってもよい。画面に表示される各画像は動画であってもよい。例えば、動画中の特に重要な数秒程度の部分を繰り返し表示してもよい、また、動画は、画像表示領域をクリックすることによって開始されてもよく、例えば、クリック後、数秒など一定時間だけ動画が再生されてもよい。動画が表示されることで、臓器の蠕動運動、細胞の移動などある特定時間の前後の情報を反映しながら識別情報を参照することが可能となる。また、動画中の一部の画像を表示することとしても良く、具体的には、動画中の特定のフレームだけを抜き出して、静止画として表示してもよい。なお、動画を利用する場合は、あらかじめ動画を学習させた学習済みモデルを使用する。識別情報が移動するケースが想定される場合、ディテクションタイプの学習済みモデルを使用することが望ましい。

上述した実施形態は、発明の理解を容易にするための具体例を示したものであり、本発明の実施形態はこれらに限定されるものではない。上述した実施形態の一部を他の実施形態に適用しても良い。学習済みモデルの評価支援方法、評価支援システム、及び、プログラムは、特許請求の範囲の記載を逸脱しない範囲において、さまざまな変形、変更が可能である。

第５の実施形態及び第６の実施形態によれば、学習済みモデル提供者は、不特定多数の利用者に対して不必要に自らが作成した学習済みモデルの詳細を開示することなく、自身の学習済みモデルの評価が可能になる。また、第１の実施形態から第４の実施形態によれば、学習済みモデル利用者は、自身の取得した画像を不特定多数の利用者に対して不必要に公開することなく、所望の学習済みモデルの評価が可能になる。つまり、提供者と利用者ともに秘匿したい核心情報を公開することなく学習済みモデルの評価が可能となる。これにより、医療画像などのプライバシーを保護する必要がある画像に適した学習済みモデルの検索が可能になる。

上述した実施形態に関して、さらに以下の付記を開示する。
［付記１］
訓練済みの学習モデルの評価支援方法であって、
検査対象として入力された検査画像を取得する工程と、
複数の第１の識別情報を生成する工程であって、前記複数の第１の識別情報の各々は、複数の訓練済みの学習モデルの各々に前記検査画像を適用することによって生成され、前記複数の訓練済みの学習モデルの各々は、画像に含まれる陽性領域又は陰性領域であると推定した推定領域を識別する識別情報を出力するためのモデルである、という工程と、
複数の結果画像を生成する工程であって、前記複数の結果画像の各々は、前記複数の第１の識別情報の各々を前記検査画像に重畳することによって生成される、という工程と、
前記複数の結果画像の各々を前記複数の訓練済みの学習モデルのうちの対応する学習モデルに関連付けて出力する工程と、を含む
ことを特徴とする評価支援方法。
［付記２］
付記１に記載の評価支援方法において、さらに、
複数のサンプル画像を取得する工程であって、前記複数のサンプル画像の各々は、前記複数の訓練済みの学習モデルのうちの対応する学習モデルの訓練過程で使用された画像である、という工程と、
複数の第２の識別情報を生成する工程であって、前記複数の第２の識別情報の各々は、前記複数の訓練済みの学習モデルの各々に前記複数のサンプル画像のうちの対応するサンプル画像を適用することによって生成される、という工程と、
複数の参照画像を生成する工程であって、前記複数の参照画像の各々は、前記複数の第２の識別情報の各々を前記複数のサンプル画像のうちの対応するサンプル画像に重畳することによって生成される、という工程と、を含み、
前記複数の結果画像の各々を出力する工程は、前記複数の結果画像の各々を、前記対応する学習モデルと前記複数の参照画像のうちの対応する参照画像とに関連付けて出力する工程を含む
ことを特徴とする評価支援方法。
［付記３］
付記１に記載の評価支援方法において、さらに、
前記検査画像に含まれる前記陽性領域又は前記陰性領域である正解領域を識別する検査ラベル情報を取得する工程と、
複数の第１の評価情報を生成する工程であって、前記複数の第１の評価情報の各々は、前記複数の第１の識別情報の各々と前記検査ラベル情報とに基づいて生成される、という工程と、を含み、
前記複数の結果画像の各々を出力する工程は、前記複数の結果画像の各々を、前記対応する学習モデルと前記複数の第１の評価情報のうちの対応する第１の評価情報とに関連付けて出力する工程を含む
ことを特徴とする評価支援方法。
［付記４］
付記２に記載の評価支援方法において、さらに、
前記検査画像に含まれる前記陽性領域又は前記陰性領域である正解領域を識別する検査ラベル情報を取得する工程と、
複数のサンプルラベル情報を取得する工程であって、前記複数のサンプルラベル情報の各々は、前記複数のサンプル画像の各々に含まれる前記陽性領域又は前記陰性領域である正解領域を識別する情報である、という工程と、
複数の第１の評価情報を生成する工程であって、前記複数の第１の評価情報の各々は、前記複数の第１の識別情報の各々と前記検査ラベル情報とに基づいて生成される、という工程と、
複数の第２の評価情報を生成する工程であって、前記複数の第２の評価情報の各々は、前記複数の第２の識別情報の各々と前記複数のサンプルラベル情報の各々とに基づいて生成される、という工程と、を含み、
前記複数の結果画像の各々を出力する工程は、前記複数の結果画像の各々を、前記対応する学習モデルと、前記複数の参照画像のうちの対応する参照画像と、前記複数の第１の評価情報のうちの対応する第１の評価情報と、前記複数の第２の評価情報のうちの対応する第２の評価情報とに関連付けて出力する工程を含む
ことを特徴とする評価支援方法。
［付記５］
付記３に記載の評価支援方法において、さらに、
前記複数の第１の評価情報に基づいて複数の組み合わせに対して優先順位を割り当てる工程であって、前記複数の組み合わせの各々は、互いに対応する結果画像と第１の評価情報と学習モデルとの組み合わせである、という工程を含み、
前記複数の結果画像の各々を出力する工程は、前記優先順位に従って、前記複数の結果画像の各々を、前記対応する学習モデルと前記対応する第１の評価情報とに関連付けて出力する工程を含む
ことを特徴とする評価支援方法。
［付記６］
付記４に記載の評価支援方法において、さらに、
前記複数の第１の評価情報と前記複数の第２の評価情報に基づいて複数の組み合わせに対して優先順位を割り当てる工程であって、前記複数の組み合わせの各々は、互いに対応する結果画像と参照画像と第１の評価情報と第２の評価情報と学習モデルとの組み合わせである、という工程を含み、
前記複数の結果画像の各々を出力する工程は、前記優先順位に従って、前記複数の結果画像の各々を、前記対応する学習モデルと前記対応する参照画像と前記対応する第１の評価情報と前記対応する第２の評価情報とに関連付けて出力する工程を含む
ことを特徴とする評価支援方法。
［付記７］
付記３に記載の評価支援方法において、
入力された検査画像が複数であった場合に、複数の検査画像ごとに生成された第１の評価情報の高低に基づき、出力する結果画像を選別する
ことを特徴とする評価支援方法。
［付記８］
付記４に記載の評価支援方法において、
検証画像およびサンプル画像の入力が複数であった場合に、複数の検証画像およびサンプル画像ごとに生成された第１の評価情報および第２の評価情報の高低に基づき、出力す
る結果画像および参照画像を選別する
ことを特徴とする評価支援方法。
［付記９］
付記１乃至付記８のいずれか１つに記載の評価支援方法において、さらに、
予め登録された訓練済みの学習モデルに付随するメタデータに基づいて、前記予め登録された訓練済みの学習モデルから前記複数の訓練済みの学習モデルを選択する工程を含むことを特徴とする評価支援方法。
［付記１０］
訓練済みの学習モデルの評価支援システムであって、
複数の訓練済みの学習モデルが格納された非一過性のコンピュータ読取可能記憶媒体と、
少なくとも１つのプロセッサと、を備え、
前記プロセッサは、
検査対象として入力された検査画像を取得する工程と、
複数の第１の識別情報を生成する工程であって、前記複数の第１の識別情報の各々は、複数の訓練済みの学習モデルの各々に前記検査画像を適用することによって生成され、前記複数の訓練済みの学習モデルの各々は、画像に含まれる陽性領域又は陰性領域であると推定した推定領域を識別する識別情報を出力するためのモデルである、という工程と、
複数の結果画像を生成する工程であって、前記複数の結果画像の各々は、前記複数の第１の識別情報の各々を前記検査画像に重畳することによって生成される、という工程と、
前記複数の結果画像の各々を前記複数の訓練済みの学習モデルのうちの対応する学習モデルに関連付けて出力する工程と、を行う
ことを特徴とする評価支援システム。
［付記１１］
訓練済みの学習モデルの評価支援システムであって、
複数の訓練済みの学習モデルが格納された非一過性のコンピュータ読取可能記憶媒体と、
少なくとも１つのプロセッサと、を備え、
前記プロセッサは、
検査対象として入力された検査画像を取得する工程と、
複数のサンプル画像を取得する工程であって、前記複数のサンプル画像の各々は、前記複数の訓練済みの学習モデルのうちの対応する学習モデルの訓練過程で使用された画像である、という工程と、
複数の第１の識別情報を生成する工程であって、前記複数の第１の識別情報の各々は、複数の訓練済みの学習モデルの各々に前記検査画像を適用することによって生成され、前記複数の訓練済みの学習モデルの各々は、画像に含まれる陽性領域又は陰性領域であると推定した推定領域を識別する識別情報を出力するためのモデルである、という工程と、複数の第２の識別情報を生成する工程であって、前記複数の第２の識別情報の各々は、前記複数の訓練済みの学習モデルの各々に前記複数のサンプル画像のうちの対応するサンプル画像を適用することによって生成される、という工程と、
複数の結果画像を生成する工程であって、前記複数の結果画像の各々は、前記複数の第１の識別情報の各々を前記検査画像に重畳することによって生成される、という工程と、
複数の参照画像を生成する工程であって、前記複数の参照画像の各々は、前記複数の
第２の識別情報の各々を前記複数のサンプル画像のうちの対応するサンプル画像に重畳することによって生成される、という工程と、
前記複数の結果画像の各々を出力する工程は、前記複数の結果画像の各々を、前記対応する学習モデルと、前記複数の参照画像のうちの対応する参照画像とに関連付けて出力する工程と、を行う
ことを特徴とする評価支援システム。
［付記１２］
付記１０に記載の評価支援システムにおいて、さらに、
表示装置を備え、
前記表示装置は、前記プロセッサが関連付けて出力した互いに対応する結果画像と学習モデルとを表示する
ことを特徴とする評価支援システム。
［付記１３］
付記１２に記載の評価支援システムにおいて、さらに、
表示装置を備え、
前記表示装置は、前期プロセッサが関連付けて出力した互いに対応する結果画像および参照画像と学習モデルとを表示する
ことを特徴とする評価支援システム。
［付記１４］
検査対象として入力された検査画像を取得する手順と、
複数の第１の識別情報を生成する手順であって、前記複数の第１の識別情報の各々は、複数の訓練済みの学習モデルの各々に前記検査画像を適用することによって生成され、前記複数の訓練済みの学習モデルの各々は、画像に含まれる陽性領域又は陰性領域であると推定した推定領域を識別する識別情報を出力するためのモデルである、という手順と、
複数の結果画像を生成する手順であって、前記複数の結果画像の各々は、前記複数の第１の識別情報の各々を前記検査画像に重畳することによって生成される、という手順と、
前記複数の結果画像の各々を前記複数の訓練済みの学習モデルのうちの対応する学習モデルに関連付けて出力する手順と、を
コンピュータに実行させることを特徴とするプログラム。
［付記１５］
訓練済みの学習モデルの評価支援方法であって、
検査対象として入力された検査画像を取得する工程と、
訓練済みの学習モデルとサンプル画像を取得する工程であって、前記訓練済みの学習モデルは、画像に含まれる陽性領域又は陰性領域であると推定した推定領域を識別する識別情報を出力するためのモデルであり、前記サンプル画像は、前記訓練済みの学習モデルの訓練過程で使用された画像である、という工程と、
前記訓練済みの学習モデルに前記検査画像を適用することによって第１の識別情報を生成する工程と、
前記訓練済みの学習モデルに前記サンプル画像を適用することによって第２の識別情報を生成する工程と、
前記第１識別情報を前記検査画像に重畳することによって結果画像を生成する工程と、
前記第２識別情報を前記サンプル画像に重畳することによって参照画像を生成する工程と、
前記結果画像と前記参照画像を関連付けて出力する工程と、を備える
ことを特徴とする評価支援方法。

１システム
２～４モデル提供装置
５サービス提供装置
５ａプロセッサ
５ｂメモリ
５ｃ補助記憶装置
５ｄＩ／Ｏインタフェース
５ｅ媒体駆動装置
５ｆＮＷインタフェース
５ｇバス
５ｈ可搬記憶媒体
６利用装置
１０～１３学習済みモデル
２０～２５サンプル画像
３０サンプルラベル情報
４０、１９０メタデータ
５０検査画像
６１～６３第１の識別情報
７１～７３結果画像
８１～８５第２の識別情報
９１～９６参照画像
１７０～１７３、２７０テスト画像
１８０テストラベル情報
２８０、２９０、７１０～７１３、７３０テスト結果画像
７２０第３の識別情報
Ｌ１、Ｌ２検査ラベル情報
Ｃ正解領域

Claims

学習済みモデルの性能評価に用いられる第１の画像を取得する工程であって、前記第１の画像を含む複数の第１の画像を取得する工程を含む、という工程と、
複数の第２の画像を生成する工程であって、前記複数の第２の画像の各々は、複数の学習済みモデルの各々による前記第１の画像の処理結果である、という工程と、
複数の第１のラベル情報を取得する工程であって、前記複数の第１のラベル情報の各々は、前記複数の第１の画像の各々に対して期待する処理結果を示す、という工程と、
前記複数の第２の画像に対応する複数の第１の評価情報を生成する工程であって、前記複数の第１の評価情報は、前記複数の第２の画像と前記複数の第１のラベル情報とに基づいて生成される、という工程と、
前記複数の第２の画像を生成する工程と前記複数の第１の評価情報を生成する工程の両工程後に、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像に関連付けて表示する工程と、を含み、
前記複数の第２の画像を生成する工程は、前記複数の第１の画像の各々に対して複数の第２の画像を生成する工程を含み、
前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、前記複数の第１の評価情報のうちの前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、
前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記少なくとも１つの第２の画像と、前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の画像と、に関連付けて表示する工程と、を含み、
前記少なくとも１つの第１の画像は、前記複数の第１の画像に含まれる
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、
前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記少なくとも１つの第２の画像と、前記複数の学習済みモデルのうちの対応する学習済みモデルに付随するメタデータと、に関連付けて表示する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、さらに、
前記複数の学習済みモデルに付随する複数のメタデータに基づいて、複数の組み合わせに対して優先順位を割り当てる工程であって、前記複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像とメタデータとの組み合わせである、という工程を含み、
前記複数の学習済みモデルの各々を表示する工程は、前記優先順位に従った並び順で前記複数の組み合わせを表示する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、
前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記少なくとも１つの第２の画像と、前記少なくとも１つの第２の画像の各々の信頼度と、に関連付けて表示する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、さらに、
前記複数の第２の画像に対応する複数の信頼度に基づいて、複数の組み合わせに対して優先順位を割り当てる工程であって、前記複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像と前記少なくとも１つの第２の画像の各々の信頼度との組み合わせである、という工程を含み、
前記複数の学習済みモデルの各々を表示する工程は、前記優先順位に従った並び順で前記複数の組み合わせを表示する工程を含む
ことを特徴とする評価支援方法。
請求項６に記載の評価支援方法において、
前記優先順位を割り当てる工程は、組み合わせを構成する信頼度が低いほど前記組み合わせに高い優先順位を割り当てる工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、さらに、
前記複数の第１の評価情報に基づいて、複数の組み合わせに対して優先順位を割り当てる工程であって、前記複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像と少なくとも１つの第１の評価情報との組み合わせである、という工程を含み、
前記複数の学習済みモデルの各々を表示する工程は、前記優先順位に従った並び順で前記複数の組み合わせを表示する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、さらに、
前記複数の学習済みモデルの利用頻度に基づいて、複数の組み合わせに対して優先順位を割り当てる工程であって、前記複数の組み合わせの各々は、互いに対応する学習済みモデルと少なくとも１つの第２の画像と少なくとも１つの第１の評価情報との組み合わせである、という工程を含み、
前記複数の学習済みモデルの各々を表示する工程は、前記優先順位に従った並び順で前記複数の組み合わせを表示する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、さらに、
前記複数の第１の画像の各々に対して、前記複数の第２の画像から前記少なくとも１つの第２の画像を選別する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、さらに、
複数の第３の画像を取得する工程であって、前記複数の第３の画像の各々は、前記複数の学習済みモデルのうちの対応する学習済みモデルの訓練過程で使用された画像である、という工程と、
複数の第４の画像を生成する工程であって、前記複数の第４の画像の各々は、前記複数の学習済みモデルのうちの対応する学習済みモデルによる前記複数の第３の画像のうちの対応する第３の画像の処理結果である、という工程と、
前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像と、前記複数の第４の画像のうちの対応する第４の画像に関連付けて表示する工程と、を含む
ことを特徴とする評価支援方法。
請求項１乃至請求項１１のいずれか１項に記載の評価支援方法において、
前記複数の第２の画像の各々は、ヒートマップである
ことを特徴とする評価支援方法。
請求項１乃至請求項１２のいずれか１項に記載の評価支援方法において、さらに、
学習済みモデルに付随するメタデータに基づいて、前記複数の学習済みモデルを選択する工程を含む
ことを特徴とする評価支援方法。
請求項１に記載の評価支援方法において、
前記学習済みモデルが、セグメンテーションタイプ、ディテクションタイプ、クラシフィケーションタイプのいずれかである
ことを特徴とする評価支援方法。
学習済みモデルの評価支援システムであって、
複数の学習済みモデルが格納された非一過性のコンピュータ読取可能記憶媒体と、
少なくとも１つのプロセッサと、を備え、
前記プロセッサは、
学習済みモデルの性能評価に用いられる第１の画像を取得する工程であって、前記第１の画像を含む複数の第１の画像を取得する工程を含む、という工程と、
複数の第２の画像を生成する工程であって、前記複数の第２の画像の各々は、前記複数の学習済みモデルの各々による前記第１の画像の処理結果である、という工程と、
複数の第１のラベル情報を取得する工程であって、前記複数の第１のラベル情報の各々は、前記複数の第１の画像の各々に対して期待する処理結果を示す、という工程と、
前記複数の第２の画像に対応する複数の第１の評価情報を生成する工程であって、前記複数の第１の評価情報は、前記複数の第２の画像と前記複数の第１のラベル情報とに基づいて生成される、という工程と、
前記複数の第２の画像を生成する工程と前記複数の第１の評価情報を生成する工程の両工程後に、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像に関連付けて表示する工程と、を行い、
前記複数の第２の画像を生成する工程は、前記複数の第１の画像の各々に対して複数の第２の画像を生成する工程を含み、
前記複数の学習済みモデルの各々を表示する工程は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、前記複数の第１の評価情報のうちの前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する工程を含む
ことを特徴とする評価支援システム。
請求項１５に記載の評価支援システムにおいて、さらに、
表示装置を備え、
前記表示装置は、前記学習済みモデルの各々を、前記複数の第２の画像の内の対応する第２の画像と共に関連付けて表示する
ことを特徴とする評価支援システム。
請求項１５に記載の評価支援システムにおいて、さらに、
データベースを備え、
前記プロセッサは、前記データベースから前記データベースに登録された前記複数の学習済みモデルの抽出を行う
ことを特徴とする評価支援システム。
学習済みモデルの性能評価に用いられる第１の画像を取得する手順であって、前記第１の画像を含む複数の第１の画像を取得する手順を含む、という手順と、
複数の第２の画像を生成する手順であって、前記複数の第２の画像の各々は、複数の学習済みモデルの各々による前記第１の画像の処理結果である、という手順と、
複数の第１のラベル情報を取得する手順であって、前記複数の第１のラベル情報の各々は、前記複数の第１の画像の各々に対して期待する処理結果を示す、という手順と、
前記複数の第２の画像に対応する複数の第１の評価情報を生成する手順であって、前記複数の第１の評価情報は、前記複数の第２の画像と前記複数の第１のラベル情報とに基づいて生成される、という手順と、
前記複数の第２の画像を生成する手順と前記複数の第１の評価情報を生成する手順の両手順後に、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する第２の画像に関連付けて表示する手順と、
をコンピュータに実行させ、
前記複数の第２の画像を生成する手順は、前記複数の第１の画像の各々に対して複数の第２の画像を生成する手順を含み、
前記複数の学習済みモデルの各々を表示する手順は、前記複数の学習済みモデルの各々を、前記複数の第２の画像のうちの対応する少なくとも１つの第２の画像と、前記複数の第１の評価情報のうちの前記少なくとも１つの第２の画像に対応する少なくとも１つの第１の評価情報と、に関連付けて表示する手順を含む
ることを特徴とするプログラム。