JP2019101535A

JP2019101535A - 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法

Info

Publication number: JP2019101535A
Application number: JP2017228896A
Authority: JP
Inventors: 宏大和; Hiroshi Yamato
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-06-24

Abstract

【課題】各画素ごとにより精度良く正解ラベルを付した画像（教師データ）を作成できる教師データ作成装置、該方法、画像セグメンテーション装置および該方法を提供する。【解決手段】本発明の教師データ作成装置Ｄは、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって画像セグメンテーションの第１機械学習モデルを生成し、前記第１機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションして前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求め、前記複数の画像それぞれについて、当該画像の第１画像セグメンテーション結果に基づき当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する。【選択図】図１

Description

本発明は、機械学習する際に用いられる教師データ（正解付き学習データ）を作成する教師データ作成装置および教師データ作成方法、ならびに、前記教師データ作成装置および前記教師データ作成方法それぞれを備え、画像をセグメンテーション（Ｓｅｇｍｅｎｔａｔｉｏｎ）する画像セグメンテーション装置および画像セグメンテーション方法に関する。

画像セグメンテーションは、画像を各画素（ピクセル）ごとに意味付けすることである。この画像セグメンテーションは、例えばレントゲン写真の減色処理や、画像から、道路、車両および人物島の抽出処理等の多種に応用でき、重要な処理である。近年では、いわゆる深層学習（ディープラーニング、ＤｅｅｐＬｅａｒｎｉｎｇ）を利用することによって画像セグメンテーションを行う技術が提案されている（非特許文献１ないし非特許文献３）。

このような深層学習を利用した画像セグメンテーションでは、機械学習に大量な教師データ（正解付き学習データ）が必要である。画像セグメンテーションの教師データは、各画素ごとに正解ラベル（ターゲットとなるクラスのオブジェクト情報）を付した画像である。高精度に画像セグメンテーションを実施するためには、高精度に各画素ごとにラベル付けが実施されなければならず、しかもこのようなラベル付けした画像が大量に必要である。これを人手で作成すると、大幅な手間と時間とが掛かるため、自動化が望まれ、例えば特許文献１に開示された画像処理装置が利用できる。

この特許文献１に開示された画像処理装置は、入力画像を読み込む読み込み手段と、前記読み込んだ入力画像を複数の小領域に分割する第１の分割手段と、前記分割された小領域のうち複数のクラスが混在する小領域を、前記複数のクラスに関する混在領域として識別する識別手段と、を有する。

特開２０１７−１１７０１９号公報

ＪｏｎａｔｈａｎＬｏｎｇ、ＥｖａｎＳｈｅｌｈａｍｅｒ、ＴｒｅｖｏｒＤａｒｒｅｌｌ、"ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓＦｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ"、［平成２９年１１月１２日検索］、インターネット（ＵＲＬ：ｈｔｔｐｓ：／／ｐｅｏｐｌｅ．ｅｅｃｓ．ｂｅｒｋｅｌｅｙ．ｅｄｕ／〜ｊｏｎｌｏｎｇ／ｌｏｎｇ＿ｓｈｅｌｈａｍｅｒ＿ｆｃｎ．ｐｄｆ＃ｓｅａｒｃｈ＝％２７Ｆｕｌｌｙ＋Ｃｏｎｖｏｌｕｔｉｏｎａｌ＋Ｎｅｔｗｏｒｋｓ＋ｆｏｒ＋ｓｅｍａｎｔｉｃ＋Ｓｅｇｍｅｎｔａｔｉｏｎ％２７）ＶｉｊａｙＢａｄｒｉｎａｒａｙａｎａｎ、ＡｌｅｘＫｅｎｄａｌｌ、ＲｏｂｅｒｔｏＣｉｐｏｌｌａ、"ＳｅｇＮｅｔ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｎａｌＥｎｃｏｄｅｒ−ＤｅｃｏｄｅｒＡｒｃｈｉｔｅｃｔｕｒｅＦｏｒＬｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ"、［平成２９年１１月１２日検索］、インターネット（ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５１１．００５６１．ｐｄｆ）ＯｌａｆＲｏｎｎｅｂｅｒｇｅｒ、ＰｈｉｌｉｐｐＦｉｓｃｈｅｒ、ＴｈｏｍａｓＢｒｏｘ、"Ｕ−Ｎｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ"、［平成２９年１１月１２日検索］、インターネット（ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５１１．００５６１．ｐｄｆ）

ところで、前記特許文献１に開示された画像処理装置は、複数のクラスが混在する小領域を、混在領域とラベル付けしてしまうため、第１ラベルでラベル付けされた第１領域と前記第１ラベルと異なる第２ラベルでラベル付けされた第２領域との境界領域は、混在領域とラベル付けされてしまい、精度良くラベル付けできない。

本発明は、上述の事情に鑑みて為された発明であり、その目的は、各画素ごとにより精度良く正解ラベルを付した画像（教師データ）を作成できる教師データ作成装置および教師データ作成方法、ならびに、前記教師データ作成装置および前記教師データ作成方法それぞれを備える画像セグメンテーション装置および画像セグメンテーション方法を提供することである。

本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる教師データ作成装置は、第１機械学習処理として、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第１機械学習モデルを生成する第１機械学習部と、第１画像セグメンテーション処理として、前記第１機械学習部で生成された第１機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める第１画像セグメンテーション部と、正解ラベル修正処理として、前記複数の画像それぞれについて、前記第１画像セグメンテーション部で求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正部と、修正教師データ作成処理として、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成部とを備える。好ましくは、上述の画像セグメンテーション装置において、前記第１画像セグメンテーション部で画像セグメンテーションする複数の画像は、初期教師データにおける複数の画像である。好ましくは、上述の画像セグメンテーション装置において、前記第１機械学習モデルは、ニューラルネットワークである。好ましくは、上述の画像セグメンテーション装置において、前記第１機械学習モデルは、深層学習で用いられるニューラルネットワークである。好ましくは、上述の画像セグメンテーション装置において、前記第１画像セグメンテーション部で求められる前記第１画像セグメンテーション結果は、各画素ごとの、複数のラベル（クラス）と前記複数のラベル（クラス）それぞれにおける複数の信頼度とである。前記信頼度は、当該ラベルの正解らしさを表す指標であり、例えば、スコア、確からしさおよび確率等によって表される。

このような教師データ作成装置は、初期教師データを用いた機械学習によって第１機械学習モデルを生成し、この第１機械学習モデルを用いて前記初期教師データにおける複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める。そして、上記教師データ作成装置は、前記複数の画像それぞれについて、当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、当該画像と当該画像における各画素ごとに付された各修正正解ラベルとから成る当該画像の修正教師データを作成する。このように上記教師データ作成装置は、初期教師データから、初期正解ラベルを修正した修正正解ラベルを持つ修正教師データを教師データとして作成する。したがって、上記教師データ作成装置は、初期教師データの初期正解ラベルを、前記初期教師データで機械学習した第１機械学習モデルを用いて修正するので、各画素ごとにより精度良く正解ラベルを付した画像（教師データ）を作成できる。

他の一態様では、上述の教師データ作成装置において、前記第１画像セグメンテーション部で求められる前記第１画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとし、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、所定の第１閾値以上である場合には、前記第１画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとし、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第１閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする。

これによれば、第１画像セグメンテーション結果における信頼度の閾値判定によって修正正解ラベルが比較的簡易に求められる。

他の一態様では、上述の教師データ作成装置において、前記正解ラベル修正部は、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第１閾値未満である場合において、前記差が、前記第１閾値より小さい所定の第２閾値以上である場合には、新たなラベルを新設し、前記新たなラベルを前記修正正解ラベルとし、前記差が、前記第２閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする。

このような教師データ作成装置は、新たなラベル（クラス）を新設できる。例えば、画像に写り込んだ物体の境界の領域がエッジラベル（エッジクラス）として新設できる。

他の一態様では、上述の教師データ作成装置において、前記正解ラベル修正部は、前記画像セグメンテーション結果における最も信頼度の高いラベルに対応する所定の重みを前記第１閾値に重み付けした重み付き第１閾値を求め、前記求めた重み付き第１閾値を前記第１閾値の代わりに用いる。好ましくは、上述の画像セグメンテーション装置において、前記所定の重みは、当該画像に対する第１画像セグメンテーション結果での前記ラベルを持つ画素の画素占有割合（Ｗ２）を前記初期教師データの当該画像での前記ラベルを持つ画素の画素占有割合（Ｗ１）で除算した除算結果（Ｗ２／Ｗ１）である。好ましくは、上述の画像セグメンテーション装置において、前記所定の重みは、前記初期教師データの前記複数の画像それぞれについて前記ラベルの各画素占有割合を求め、前記求めた各画素占有割合の中央値である。

このような教師データ作成装置は、重み付き信頼度を用いるので、前記所定の重みを調整することで、ラベル間の画素数の偏りを調整できる。

他の一態様では、上述の教師データ作成装置において、前記第１画像セグメンテーション部で求められる前記第１画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像における水平方向、垂直方向および前記信頼度それぞれを互いに直交するＸ軸、Ｙ軸およびＺ軸とするＸＹＺ直交座標系を設定し、当該画像に設定したＸＹＺ直交座標系において、当該画像における第１画像セグメンテーション結果の信頼度にフィットする軸対称なフィッティング関数を求め、前記求めたフィッティング関数の対称軸の位置をラベル間の境界位置として当該画像の各画素ごとに前記修正正解ラベルを求める。

これによれば、修正正解ラベルを求める画素の周辺に位置する各画素の各信頼度で形成される信頼度の勾配を考慮した修正正解ラベルが求められる。

他の一態様では、これら上述の教師データ作成装置において、前記複数の画像それぞれをグラフカット法で画像セグメンテーションすることで前記初期教師データを求める初期教師データ生成部をさらに備え、前記初期教師データ生成部は、正解ラベルを付したテンプレートを用いたテンプレートマッチングによって種子点（ｓｅｅｄＰｏｉｎｔ）を求め、前記求めた種子点に前記正解ラベルを付与する。好ましくは、上述の画像セグメンテーション装置において、前記初期教師データ生成部は、前記テンプレートの中心位置に対応する、前記画像の画素を、前記種子点とする。

このような教師データ作成装置は、初期教師データ生成部をさらに備えるので、自動的に初期教師データを生成できる。

他の一態様では、これら上述の教師データ作成装置において、前記修正教師データを前記初期教師データとして、前記第１機械学習部、前記第１画像セグメンテーション部、前記正解ラベル修正部および前記修正教師データ作成部それぞれに、前記第１機械学習処理、前記第１画像セグメンテーション処理、前記正解ラベル修正処理および前記修正教師データ作成処理を、繰り返し行わせる繰返し制御部をさらに備える。

このような教師データ作成装置は、繰返し制御部をさらに備えるので、繰り返し正解ラベルを修正することで、より精度良く正解ラベルを求めることができる。

本発明の他の一態様にかかる教師データ作成方法は、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第１機械学習モデルを生成する第１機械学習工程と、前記第１機械学習工程で生成された第１機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める第１画像セグメンテーション工程と、前記複数の画像それぞれについて、前記第１画像セグメンテーション工程で求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正工程と、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成工程とを備える。

このような教師データ作成方法は、初期教師データを用いた機械学習によって第１機械学習モデルを生成し、この第１機械学習モデルを用いて前記初期教師データにおける複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める。そして、上記教師データ作成方法は、前記複数の画像それぞれについて、当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、当該画像と当該画像における各画素ごとに付された各修正正解ラベルとから成る当該画像の修正教師データを作成する。このように上記教師データ作成方法は、初期教師データから、初期正解ラベルを修正した修正正解ラベルを持つ修正教師データを教師データとして作成する。したがって、上記教師データ作成方法は、初期教師データの初期正解ラベルを、前記初期教師データで機械学習した第１機械学習モデルを用いて修正するので、各画素ごとにより精度良く正解ラベルを付した画像（教師データ）を作成できる。

本発明の他の一態様にかかる画像セグメンテーション装置は、これら上述のいずれかの教師データ作成装置と、前記修正教師データ作成部で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第２機械学習モデルを生成する第２機械学習部と、前記第２機械学習部で生成された第２機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求める第２画像セグメンテーション部とを備える。好ましくは、上述の画像セグメンテーション装置において、前記第２機械学習部は、前記修正教師データを、前記第１機械学習部で機械学習する前の初期機械学習モデルを用いた機械学習によって、前記初期機械学習モデルから前記第２機械学習モデルを生成する。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用いるので、第１機械学習モデルより精度の高い第２機械学習モデルが生成できる。好ましくは、上述の画像セグメンテーション装置において、前記第２機械学習部は、前記修正教師データを、前記第１機械学習部で生成された前記第１機械学習モデルを用いた機械学習によって、前記第１機械学習モデルから前記第２機械学習モデルを生成する。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用い、かつ、第１機械学習モデルから生成するので、第１機械学習モデルよりさらに精度の高い第２機械学習モデルが生成できる。好ましくは、上述の画像セグメンテーション装置において、前記第１および第２機械学習部は、同じ構造の第１および第２機械学習モデルを生成する。好ましくは、上述の画像セグメンテーション装置において、前記第２機械学習部は、前記第１機械学習モデルの構造より深い構造の前記第２機械学習モデルを生成する。

これによれば、これら上述のいずれかの教師データ作成装置を備える画像セグメンテーション装置が提供できる。このような画像セグメンテーション装置は、各画素ごとにより精度良く正解ラベルを付した教師データを用いて第２機械学習モデルを生成でき、この第２機械学習モデルを用いるので、前記対象画像をより精度良く画像セグメンテーションできる。

本発明の他の一態様にかかる画像セグメンテーション方法は、上述の教師データ作成方法と、前記修正教師データ作成工程で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第２機械学習モデルを生成する第２機械学習工程と、前記第２機械学習工程で生成された第２機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求める第２画像セグメンテーション工程とを備える。

これによれば、上述の教師データ作成方法を備える画像セグメンテーション方法が提供できる。このような画像セグメンテーション方法は、各画素ごとにより精度良く正解ラベルを付した教師データを用いて第２機械学習モデルを生成でき、この第２機械学習モデルを用いるので、前記対象画像をより精度良く画像セグメンテーションできる。

本発明にかかる教師データ作成装置および教師データ作成方法は、各画素ごとにより精度良く正解ラベルを付した画像（教師データ）を作成できる。本発明によれば、このような教師データ作成装置および教師データ作成方法それぞれを備えた画像セグメンテーション装置および画像セグメンテーション方法が提供できる。

実施形態における、教師データ作成装置を備えた画像セグメンテーション装置の構成を示すブロック図である。前記画像セグメンテーション装置を実装したコンピュータの構成を示すブロック図である。前記画像セグメンテーション装置の動作を示すフローチャートである。初期教師データの生成を説明するための図である。画像の画素位置に対する信頼度の分布の一例を示すグラフである。信頼度の勾配による境界位置の決定を説明するための図である。

以下、図面を参照して、本発明の１または複数の実施形態が説明される。しかしながら、発明の範囲は、開示された実施形態に限定されない。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。

図１は、実施形態における、教師データ作成装置を備えた画像セグメンテーション装置の構成を示すブロック図である。図２は、前記画像セグメンテーション装置を実装したコンピュータの構成を示すブロック図である。

実施形態における画像セグメンテーション装置は、機械学習により生成された機械学習モデルで画像をセグメンテーション（Ｓｅｇｍｅｎｔａｔｉｏｎ）する装置であり、前記機械学習する際に用いられる教師データ（正解付き学習データ）を作成する教師データ作成装置を備える。

このような教師データ作成装置Ｄを備える画像セグメンテーション装置Ｓは、例えば、図１に示すように、制御処理部１と、入力部２と、出力部３と、インターフェース部４と、記憶部５とを備える。

入力部２は、制御処理部１に接続され、例えば、修正教師データの作成の開始を指示するコマンドや画像セグメンテーションの開始を指示するコマンド等の各種コマンド、および、例えば初期教師データの入力や画像セグメンテーションの対象である対象画像の入力等の、修正教師データの生成上や画像セグメンテーションの実施上で必要な各種データを画像セグメンテーション装置Ｓに入力する装置であり、例えば、所定の機能を割り付けられた複数の入力スイッチ、キーボードおよびマウス等である。

出力部３は、制御処理部１に接続され、制御処理部１の制御に従って、入力部２から入力されたコマンドやデータ、および、当該画像セグメンテーション装置Ｓによって生成された修正教師データや画像セグメンテーション結果等を出力する装置であり、例えばＣＲＴディスプレイ、ＬＣＤ（液晶表示装置）および有機ＥＬディスプレイ等の表示装置や、プリンタ等の印刷装置である。

なお、入力部２および出力部３からタッチパネルが構成されても良い。このタッチパネルを構成する場合において、入力部２は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部３は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な１または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置を触れると、位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として画像セグメンテーション装置Ｓに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い画像セグメンテーション装置Ｓが提供される。

ＩＦ部４は、例えば、外部の機器との間でデータを入出力する回路であり、例えば、シリアル通信方式であるＲＳ−２３２Ｃのインターフェース回路、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格を用いたインターフェース回路、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｃｏｉａｔｉｏｎ）規格等の赤外線通信を行うインターフェース回路、および、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格を用いたインターフェース回路等である。なお、ＩＦ部４は、通信網（ネットワーク）を介して外部の機器と通信を行う回路であっても良く、例えば、データ通信カードや、ＩＥＥＥ８０２．１１規格等に従った通信インターフェース回路等であっても良い。

記憶部５は、制御処理部１に接続され、制御処理部１の制御に従って、各種の所定のプログラムおよび各種の所定のデータを記憶する回路である。前記各種の所定のプログラムには、例えば、制御処理プログラム等が含まれる。この制御処理プログラムは、画像セグメンテーション装置Ｓの各部２〜５を当該各部２〜５の機能に応じてそれぞれ制御する制御プログラムや、マニュアルで、あるいは、自動的に生成された初期教師データを修正した修正教師データを作成する教師データ作成プログラムや、前記修正教師データ作成プログラムで作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第２機械学習モデルを生成する第２機械学習プログラムや、前記第２機械学習プログラムで生成された第２機械学習モデルを用いて、所定の対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求める第２画像セグメンテーションプログラム等を含む。前記教師データ作成プログラムは、初期教師データを用いた機械学習によって、画像セグメンテーションを行う第１機械学習モデルを生成する第１機械学習プログラムや、前記第１機械学習プログラムで生成された第１機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める第１画像セグメンテーションプログラムや、前記複数の画像それぞれについて、前記第１画像セグメンテーションプログラムで求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正プログラムや、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成プログラム等を含む。前記各種の所定のデータには、例えば初期教師データや修正教師データや対象画像等の、各プログラムを実行する上で必要なデータ等が含まれる。記憶部５は、例えば不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）や書き換え可能な不揮発性の記憶素子であるＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備える。記憶部５は、前記所定のプログラムの実行中に生じるデータ等を記憶するいわゆる制御処理部１のワーキングメモリとなるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等を含む。そして、記憶部５は、初期教師データや修正教師データを記憶するために、初期教師データ記憶部５１および修正教師データ記憶部５２を機能的に備える。

初期教師データ記憶部５１は、初期教師データを記憶するものである。前記初期教師データは、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る。すなわち、前記初期教師データは、各画素ごとに初期正解ラベルを持つ画像を、複数、備える。

修正教師データ記憶部５２は、修正教師データを記憶するものである。前記修正教師データは、後述のように、前記初期教師データの初期正解ラベルを修正したものである。すなわち、前記修正教師データは、前記初期教師データにおける複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成り、前記修正正解ラベルは、当該修正正解ラベルに対応する初期正解ラベルを後述のように修正したものである。

制御処理部１は、画像セグメンテーション装置Ｓの各部２〜５を当該各部２〜５の機能に応じてそれぞれ制御し、初期教師データから修正教師データを作成し、前記修正教師データを用いた機械学習により生成した第２機械学習モデルで対象画像を画像セグメンテーションするための回路である。制御処理部１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）およびその周辺回路を備えて構成される。制御処理部１は、前記制御処理プログラムが実行されることによって、制御部１１、第１機械学習部１２、第１画像セグメンテーション部１３，正解ラベル修正部１４、修正教師データ作成部１５、第２機械学習部１８および第２画像セグメンテーション部１９を機能的に備える。

制御部１１は、画像セグメンテーション装置Ｓの各部２〜５を当該各部２〜５の機能に応じてそれぞれ制御し、画像セグメンテーション装置Ｓ全体の制御を司るものである。

第１機械学習部１２は、第１機械学習処理として、初期教師データを用いた機械学習によって、画像セグメンテーションを行う第１機械学習モデルを生成するものである。前記第１機械学習モデルは、ニューラルネットワークであり、好ましくは、深層学習で用いられるニューラルネットワークである。前記第１機械学習モデルには、例えば、上述の非特許文献１ないし非特許文献３等に開示されたネットワークが利用できる。

第１画像セグメンテーション部１３は、第１画像セグメンテーション処理として、第１機械学習部１２で生成された第１機械学習モデルを用いて前記初期教師データにおける前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求めるものである。すなわち、第１画像セグメンテーション部１３で画像セグメンテーションする複数の画像は、初期教師データにおける複数の画像である。第１画像セグメンテーション部１３で求められる前記第１画像セグメンテーション結果は、各画素ごとの、複数のラベル（クラス）と前記複数のラベル（クラス）それぞれにおける複数の信頼度とである。前記信頼度は、当該ラベルの正解らしさ（信頼の度合い）を表す指標であり、例えば、スコア、確からしさおよび確率等によって表される。

正解ラベル修正部１４は、正解ラベル修正処理として、前記複数の画像それぞれについて、第１画像セグメンテーション部１３で求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求めるものである。より具体的には、正解ラベル修正部１４は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとし、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度（Ｔｒ１）と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度（Ｔｒ２）と、の差（Ｔｒ１−Ｔｒ２）が、所定の第１閾値（Ｔｈ１）以上である場合（（Ｔｒ１−Ｔｒ２）≧Ｔｈ１）には、前記第１画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとし、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第１閾値未満である場合（（Ｔｒ１−Ｔｒ２）＜Ｔｈ１）には、前記初期正解ラベルを前記修正正解ラベルとする。このように本実施形態では、閾値判定によって修正正解ラベルが求められる。前記閾値（Ｔｈ１）は、例えば複数のサンプルを用いることによって予め適宜に設定される。

修正教師データ作成部１５は、修正教師データ作成処理として、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成するものである。

第２機械学習部１８は、修正教師データ作成部１５で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第２機械学習モデルを生成するものである。前記第２機械学習モデルは、前記第第１機械学習モデルと同様に、ニューラルネットワークであり、好ましくは、深層学習で用いられるニューラルネットワークである。

第１および第２機械学習部１２、１８は、同じ構造の第１および第２機械学習モデルを生成して良く、あるいは、第２機械学習部１８は、第１機械学習モデルの構造より深い構造の第２機械学習モデルを生成して良い。

また、第２機械学習部１８は、前記修正教師データを、第１機械学習部１２で機械学習する前の初期機械学習モデルを用いた機械学習によって、前記初期機械学習モデルから前記第２機械学習モデルを生成して良い。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用いるので、第１機械学習モデルより精度の高い第２機械学習モデルが生成できる。あるいは、第２機械学習部１８は、前記修正教師データを、前記第１機械学習部１２で生成された前記第１機械学習モデルを用いた機械学習によって、前記第１機械学習モデルから前記第２機械学習モデルを生成して良い。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用い、かつ、第１機械学習モデルから生成するので、第１機械学習モデルよりさらに精度の高い第２機械学習モデルが生成できる。

第２画像セグメンテーション部１９は、第２機械学習部１８で生成された第２機械学習モデルを用いて、所定の対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求めるものである。第２画像セグメンテーション部１９は、前記第２画像セグメンテーション結果として、前記第１画像セグメンテーション結果と同様に、各画素ごとの、複数のラベル（クラス）と前記複数のラベル（クラス）それぞれにおける複数の信頼度を出力して良い。あるいは、第２画像セグメンテーション部１９は、前記第２画像セグメンテーション結果として、前記複数の信頼度の中で最も高い信頼度を持つラベルを各画素ごとに出力して良い。

ここで、このような構成の画像セグメンテーション装置Ｓでは、制御処理部１における第１機械学習部１２、第１画像セグメンテーション部１３、正解ラベル修正部１４および修正教師データ作成部１５、入力部２、出力部３、ＩＦ部４、ならびに、記憶部５から教師データ作成装置Ｄが構成される。

このような教師データ作成装置Ｄを備えた画像セグメンテーション装置Ｓは、一例では、図２に示すように、ＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、ハードディスクドライブ（ＨＤＤ）１１４、ＬＣＤ１１６、キーボード１１７、マウス１１８、ＵＳＢインターフェース１１９、および、これらＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、ＨＤＤ１１４、ＬＣＤ１１６、キーボード１１７、マウス１１８およびＵＳＢインターフェース１１９を相互に接続するバス１１５を備える、例えば、デスクトップ型やノード型のコンピュータによって構成可能である。

次に、本実施形態の動作について説明する。図３は、前記画像セグメンテーション装置の動作を示すフローチャートである。図４は、初期教師データの生成を説明するための図である。図４Ａは、画像の一例として右胸部レントゲン写真を示し、図４Ｂは、図４Ａに示すｘ１ｘ２線での画素値プロファイルを示し、その横軸は、前記ｘ１ｘ２線上での画素位置を表し、その縦軸は、画素値を表す。

このような構成の画像セグメンテーション装置Ｓは、その電源が投入されると、必要な各部の初期化を実行し、その稼働を始める。その制御処理プログラムの実行によって、制御処理部１には、制御部１１、第１機械学習部１２、第１画像セグメンテーション部１３、正解ラベル修正部１４、修正教師データ作成部１５、第２機械学習部１８および第２画像セグメンテーション部１９が機能的に構成される。

教師データの作成では、図３において、まず、初期教師データが作成され、初期教師データ記憶部５１に記憶される（Ｓ１１）。例えば、初期教師データは、マニュアルで作成される。一例では、初期教師データの画像に対し、１ラインずつ画素値プロファイルが作成され、各画素値プロファイルから各領域の境界位置を示す画素位置が特定され、これによって前記画像が領域ごとに区分け（クラス分け）される。例えば、図４Ａに示すレントゲン写真におけるｘ１ｘ２線での画素値プロファイルが図４Ｂに示すように作成され、この画素値プロファイルのピーク位置（一例では図４Ｂで○印を付されたピークの画素位置）が１つの骨の境界位置として求められる。そして、この区分けされた領域ごとに異なるラベルが付され、同一領域に属する各画素に当該領域のラベルが初期正解ラベルとして付され、これによって画像と前記画像の各画素に付された初期正解ラベルとから成る、初期教師データにおける１個のデータが生成される。このような処理が学習用に用意された複数の画像それぞれについて実施され、初期教師データが生成される。なお、後述するように、初期教師データは、公知の手法を用いることによって、学習用に用意された複数の画像から自動的に生成されても良い。

続いて、初期教師データ記憶部５１に初期教師データが記憶されると、画像セグメンテーション装置Ｓ（教師データ作成装置Ｄ）は、前記初期教師データで第１機械学習を実行する（Ｓ１２、第１機械学習処理）。より具体的には、第１機械学習部１２は、前記初期教師データを用いた機械学習によって、第１機械学習モデルを生成する。

続いて、画像セグメンテーション装置Ｓ（教師データ作成装置Ｄ）は、前記第１機械学習モデルを用いて第１画像セグメンテーションを実行する（Ｓ１３、第１画像セグメンテーション処理）。より具体的には、第１画像セグメンテーション部１３は、第１機械学習部１２で生成された第１機械学習モデルを用いて前記初期教師データにおける前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める。

続いて、画像セグメンテーション装置Ｓ（教師データ作成装置Ｄ）は、前記第１画像セグメンテーション結果を用いて修正正解ラベルを求め、正解ラベルを修正する（Ｓ１４、正解ラベル修正処理）。より具体的には、正解ラベル修正部１４は、前記初期教師データにおける前記複数の画像それぞれについて、第１画像セグメンテーション部１３で求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める。

より詳しくは、正解ラベル修正部１４は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、次の処理を実行することで、前記各画素ごとの各修正正解ラベルを求める。まず、正解ラベル修正部１４は、当該画素において、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとする。次に、正解ラベル修正部１４は、当該画素において、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度（Ｔｒ１）と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度（Ｔｒ２）と、の差（Ｔｒ１−Ｔｒ２）が、所定の第１閾値（Ｔｈ１）以上である場合（（Ｔｒ１−Ｔｒ２）≧Ｔｈ１）には、前記第１画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとする。そして、正解ラベル修正部１４は、当該画素において、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第１閾値未満である場合（（Ｔｒ１−Ｔｒ２）＜Ｔｈ１）には、前記初期正解ラベルを前記修正正解ラベルとする。このように、第１画像セグメンテーション結果における信頼度の閾値判定によって修正正解ラベルが比較的簡易に求められる。

続いて、画像セグメンテーション装置Ｓ（教師データ作成装置Ｄ）は、処理Ｓ１４の結果を用いて修正教師データを作成し、修正教師データ記憶部５２に記憶する（Ｓ１５、修正教師データ作成処理）。より具体的には、修正教師データ作成部１５は、前記初期教師データにおける前記複数の画像と前記複数の画像それぞれについて各画素ごとに前記処理Ｓ１４で付された複数の各修正正解ラベルとから成る修正教師データを作成し、これを修正教師データ記憶部５２に記憶する。

このような動作によって修正された、初期教師データより精度良く正解ラベルを各画素ごとに付した教師データ（＝修正教師データ）が作成される。

続いて、対象画像の画像セグメンテーションでは、画像セグメンテーション装置Ｓは、前記修正教師データで第２機械学習を実行する（Ｓ１６）。より具体的には、第２機械学習部１８は、修正教師データ作成部１５で作成された修正教師データを用いた機械学習によって、第２機械学習モデルを生成する。

続いて、画像セグメンテーション装置Ｓは、予め記憶部５に記憶された対象画像、あるいは、入力部２から入力された対象画像、あるいは、ＩＦ部４から入力された対象画像に対し、前記第２機械学習モデルを用いて第２画像セグメンテーションを実行し、第２画像セグメンテーション結果を記憶部５に記憶して出力部３に出力し、本処理を終了する（Ｓ１７）。より具体的には、第２画像セグメンテーション部１９は、第２機械学習部１８で生成された第２機械学習モデルを用いて、所定の対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求める。

このような動作によって対象画像が画像セグメンテーションされる。

以上説明したように、本実施形態における教師データ作成装置Ｄおよびこれに実装された教師データ作成方法は、初期教師データを用いた機械学習によって第１機械学習モデルを生成し、この第１機械学習モデルを用いて前記初期教師データにおける複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める。そして、上記教師データ作成装置Ｄおよび教師データ作成方法は、前記複数の画像それぞれについて、当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、当該画像と当該画像における各画素ごとに付された各修正正解ラベルとから成る当該画像の修正教師データを作成する。このように上記教師データ作成装置Ｄおよび教師データ作成方法は、初期教師データから、初期正解ラベルを修正した修正正解ラベルを持つ修正教師データを教師データとして作成する。すなわち、初期教師データおよび修正教師データの２段階で教師データが作成される。したがって、上記教師データ作成装置Ｄおよび教師データ作成方法は、初期教師データの初期正解ラベルを、前記初期教師データで機械学習した第１機械学習モデルを用いて修正するので、各画素ごとにより精度良く正解ラベルを付した画像（教師データ）を作成できる。特に、初期教師データでは、領域間の領域境界付近で、領域が真の領域からはみ出したり、欠落したり等のバラツキが生じている虞があるが、修正教師データでは、これを改善できる。

本実施形態における画像セグメンテーション装置Ｓおよびこれに実装された画像セグメンテーション方法は、各画素ごとにより精度良く正解ラベルを付した修正教師データを用いて第２機械学習モデルを生成でき、この第２機械学習モデルを用いるので、前記対象画像をより精度良く画像セグメンテーションできる。

なお、上述の実施形態では、学習用に用意された複数の画像それぞれからマニュアルで初期教師データが作成されたが、学習用に用意された前記複数の画像から自動的に初期教師データが生成されても良い。この場合では、制御処理部１には、図１に破線で示すように、学習用に用意された前記複数の画像それぞれを公知の手法で画像セグメンテーションすることで前記初期教師データを求める初期教師データ生成部１６が機能的にさらに備えられる。これによれば、自動的に初期教師データが生成でき、マニュアルで生成する場合に較べて生成時間を短縮でき、複数人で生成する場合に生じる個々人の作業バラツキが防止できる。

画像セグメンテーションを行う公知の手法として、例えばグラフカット法、レベルセット法、領域拡張法およびｇｒｏｗｃｕｔ法等が挙げられる。

グラフカット法（ｇｒａｐｈｃｕｔｍｅｔｈｏｄ）は、コスト（重み）を付けたグラフを最小のコストで分離して１つの領域として纏めてラベル付けする方法である。このグラフカット法では、まず、隣接画素間に辺を設定したグラフが構築され、類似した画素間をなるべく分離しないように、例えば隣接画素間の画素値差の逆数で前記隣接画素間の辺におけるコストが設定され、マニュアルで或る点にラベル付けが実施される（前記或る点＝種子点、ｓｅｅｄｐｏｉｎｔ）。そして、前記種子点を、最小のコストで分離する境界が求められ、前記境界内の領域に前記種子点のラベルが付される。なお、このグラフカット法を用いる初期教師データ生成部１６は、正解ラベルを付したテンプレートを用いたテンプレートマッチングによって画像から種子点（ｓｅｅｄＰｏｉｎｔ）を求め、前記求めた種子点に前記正解ラベルを付与しても良い。例えば、初期教師データ生成部１６は、前記テンプレートの中心位置に対応する、前記画像の画素を、前記種子点とする。これによれば、正解レベルを付した種子点が自動的に設定できる。

レベルセット法（Ｌｅｖｅｌｓｅｔｍｅｔｈｏｄ）は、検出する境界を１次元高い補助関数のゼロ等高面とみなし、境界の進行条件である偏微分方程式を数値的に解いて補助関数の形状を変更し、そのゼロ等高面を次々に検出することで、境界形状を求める方法である。

領域拡張法（ｒｅｇｉｏｎｇｒｏｗｉｎｇｍｅｔｈｏｄ）は、予め設定した画素値に関する条件を満たす、空間的に連続する領域を１つの領域として纏めてラベル付けする方法である。この領域拡張法では、まず、画素値に関する前記条件を満たす画素がマニュアルによって決定され、ラベル付けが実施される（種子点、ｓｅｅｄｐｏｉｎｔ）。そして、種子点を注目画素として隣接画素で前記条件を満たす画素に前記注目画素と同一のラベルを付け、この同一のラベルを付けられた画素を新たな注目画素としてこれが繰り返される。

ｇｒｏｗｃｕｔ法は、画像における各画素ごとに侵略プロセスを繰り返し実行することによってラベル付けする方法である。このｇｒｏｗｃｕｔ法では、各画素に攻撃力が付与されており、１回の侵略プロセスでは、注目画素の攻撃力と隣接画素の攻撃力との差が注目画素の防御力として求められ、この注目画素の防御力が隣接画素の攻撃力より下回る場合に注目画素のラベルが隣接画素のラベルに置き換えられ（侵略）、注目画素の攻撃力が更新される。

また、これら上述の実施形態において、正解ラベル修正部１４は、さらに、前記第１画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第１画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度（Ｔｒ１）と、前記第１画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度（Ｔｒ２）と、の差（Ｔｒ１−Ｔｒ２）が、前記第１閾値未満である場合（（Ｔｒ１−Ｔｒ２）＜Ｔｈ１）において、前記差（Ｔｒ１−Ｔｒ２）が、前記第１閾値（Ｔｈ１）より小さい所定の第２閾値（Ｔｈ２）以上である場合（（Ｔｒ１−Ｔｒ２）≧Ｔｈ２）には、新たなラベル（クラス）を新設し、前記新たなラベルを前記修正正解ラベルとし、前記差（Ｔｒ１−Ｔｒ２）が、前記第２閾値（Ｔｈ２）未満である場合（（Ｔｒ１−Ｔｒ２）＜Ｔｈ２）には、前記初期正解ラベルを前記修正正解ラベルとしても良い。前記閾値（Ｔｈ２）は、例えば複数のサンプルを用いることによって予め適宜に設定される。このような教師データ作成装置Ｄおよび教師データ作成方法は、新たなラベル（クラス）を新設できる。例えば、画像に写り込んだ物体の境界の領域がエッジラベル（エッジクラス）として新設できる。

また、これら上述の実施形態において、正解ラベル修正部１４は、前記画像セグメンテーション結果における最も信頼度の高いラベルに対応する所定の重みを前記第１閾値に重み付けした重み付き第１閾値を求め、この求めた重み付き第１閾値を前記第１閾値の代わりに用いても良い。このような教師データ作成装置Ｄおよび教師データ作成方法は、重み付き信頼度を用いるので、前記所定の重みを調整することで、ラベル（クラス）間の画素数の偏りを調整できる。前記所定の重みは、例えば、当該画像に対する第１画像セグメンテーション結果での前記ラベルを持つ画素の画素占有割合（Ｗ２）を前記初期教師データの当該画像での前記ラベルを持つ画素の画素占有割合（Ｗ１）で除算した除算結果（Ｗ２／Ｗ１）である。前記画素占有割合（Ｗ２）は、当該画像に対する第１画像セグメンテーション結果での前記ラベルを持つ画素の画素数（Ｎｒ２）を、当該画像に対する第１画像セグメンテーション結果での総画素数（Ｎ２）で除算することによって求められる（Ｗ２＝Ｎｒ２／Ｎ２）。前記画素占有割合（Ｗ１）は、前記初期教師データの当該画像での前記ラベルを持つ画素の画素数（Ｎｒ１）を、前記初期教師データの当該画像での総画素数（Ｎ１）で除算することによって求められる（Ｗ１＝Ｎｒ１／Ｎ１）。この場合では、第１閾値（Ｔｈ１）に、前記除算結果（重み）（Ｗ２／Ｗ１）を乗算することで、前記重み付き第１閾値が求められる。あるいは、前記所定の重みは、例えば、前記初期教師データの前記複数の画像それぞれについて前記ラベルの各画素占有割合を求め、これら求めた各画素占有割合の中央値（Ｗ３）である。この場合では、第１閾値（Ｔｈ１）に、前記中央値（重み）Ｗ３を乗算することで、前記重み付き第１閾値が求められる。

また、上述の実施形態では、正解ラベル修正部１４は、信頼度の閾値判定によって修正正解ラベルを求めたが、次のように、修正正解ラベルを求めても良い。

図５は、画像の画素位置に対する信頼度の分布の一例を示すグラフである。図６は、信頼度の勾配による境界位置の決定を説明するための図である。図６Ａは、等角直線フィッティング法の場合を示し、図６Ｂは、パラボラフィッティング法の場合を示す。図６Ａおよび図６Ｂにおける横軸は、画素位置（Ｘ軸またはＹ軸）を表し、これら各縦軸は、信頼度を表す。

正解ラベル修正部１４は、前記複数の画像それぞれについて、例えば図５に示すように、当該画像における水平方向、垂直方向および前記信頼度それぞれを互いに直交するＸ軸、Ｙ軸およびＺ軸とするＸＹＺ直交座標系を設定し、当該画像に設定したＸＹＺ直交座標系において、例えば図６Ａに示す等角直線フィッティング法や図６Ｂに示すパラボラフィッティング法等を用いることで、当該画像における第１画像セグメンテーション結果の信頼度にフィットする軸対称なフィッティング関数を求め、この求めたフィッティング関数の対称軸の位置をラベル間の境界位置として当該画像の各画素ごとに前記修正正解ラベルを求める。これによれば、修正正解ラベルを求める画素の周辺に位置する各画素の各信頼度で形成される信頼度の勾配を考慮した修正正解ラベルが求められる。

前記等角直線フィッティング法は、図６Ａに示すように、最小の信頼度と３番目に小さい信頼度とを通る直線α１を求め、この求めた直線α１の傾きの符号を反転した傾きで２番目に小さい信頼度を通る直線α２を求め、これによって前記軸対称なフィッティング関数α（＝α１＋α２）を求める手法である。そして、これら２つの直線α１、α２の交点を求めることでフィッティング関数αの対称軸の位置ＢＰ１がラベル間（クラス間、領域間）の境界位置として求められる。画素が前記境界位置に対しいずれかの領域（図６Ａでは境界位置ＢＰ１に対し紙面右側の領域か紙面左側の領域）に属するかによって、前記画素の修正正解ラベルが求められる。例えば、画素が図６Ａに示す紙面右側に属する場合には、前記画素に紙面右側の領域に付されたラベルが修正正解ラベルとされ、画素が図６Ａに示す紙面左側に属する場合には、前記画素に紙面左側の領域に付されたラベルが修正正解ラベルとされる。なお、上述では、２番目に小さい信頼度と３番目に小さい信頼度が用いられたが、所定の閾値（Ｔｈ３）以上の信頼度の中から２個の信頼度が選定され用いられても良い。

前記パラボラフィッティング法は、図６Ｂに示すように、２次関数をフィッティング関数とするものである。前記信頼度にフィッティングする２次関数βが求められ、この求めた２次関数βの対称軸（極小点を通るＺ軸に平行な直線）の位置ＢＰ２がラベル間（クラス間、領域間）の境界位置として求められる。画素が前記境界位置に対しいずれかの領域（図６Ｂでは境界位置ＢＰ２に対し紙面右側の領域か紙面左側の領域）に属するかによって、前記画素の修正正解ラベルが求められる。

本来、高精度な正解ラベルを持つ教師データで機械学習によって求められた機械学習モデルでの信頼度は、領域境界へ向かうほど隣接領域の情報が影響するため、領域の中心からエッジ（領域境界）に向けてスコアが小さくなる傾向がある。しかしながら、初期教師データで機械学習によって求められた第１機械学習モデルでの信頼度は、領域境界の精度が低いため、このような状況にならない場合がある。そこで、上述のように、領域境界周辺（近傍）における信頼度の情報による勾配で境界位置ＢＰが求められ、修正正解ラベルが求められる。

また、上述の実施形態において、教師データ作成装置Ｄは、図１に破線で示すように、制御処理部１に繰返し制御部１７を機能的にさらに備えても良い。この繰返し制御部１７は、前記修正教師データを前記初期教師データとして、前記第１機械学習部１２、前記第１画像セグメンテーション部１３、前記正解ラベル修正部１４および前記修正教師データ作成部１５それぞれに、前記第１機械学習処理、前記第１画像セグメンテーション処理、前記正解ラベル修正処理および前記修正教師データ作成処理を、所定の回数、繰り返し行わせるものである。この場合では、図３に破線で示すように、上述の処理Ｓ１５と処理Ｓ１６との間に、繰り返しを終了するか否かを判定する処理Ｓ２１がさらに実行され、前記判定の結果、繰り返しの終了ではない場合（Ｎｏ）には、繰返し制御部１７は、前記修正教師データを前記初期教師データとして、処理を処理Ｓ１２に戻し、一方、前記判定の結果、繰り返しの終了である場合（Ｙｅｓ）には、繰返し制御部１７は、次に、処理を処理Ｓ１６に進める。繰り返しの終了の判定は、例えば、予め設定された繰り返し回数に達したか否かによって実施されて良く、あるいは、例えば、初期正解ラベルと修正正解ラベルとの相違する画素数が予め設定された所定の閾値（Ｔｈ４）以下に達したか否かによって実施されて良い。このような教師データ作成装置Ｄは、繰返し制御部１７をさらに備えるので、繰り返し正解ラベルを修正することで、より精度良く正解ラベルを求めることができる。

本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および／または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

Ｓ画像セグメンテーション装置
Ｄ教師データ作成装置
１制御処理部
５記憶部
１１制御部
１２第１機械学習部
１３第２画像セグメンテーション部
１４正解ラベル修正部
１５修正教師データ作成部
１６初期教師データ作成部
１７繰返し制御部
１８第２機械学習部
１９第２画像セグメンテーション部
５１初期教師データ記憶部
５２修正教師データ記憶部

Claims

第１機械学習処理として、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第１機械学習モデルを生成する第１機械学習部と、
第１画像セグメンテーション処理として、前記第１機械学習部で生成された第１機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める第１画像セグメンテーション部と、
正解ラベル修正処理として、前記複数の画像それぞれについて、前記第１画像セグメンテーション部で求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正部と、
修正教師データ作成処理として、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成部とを備える、
教師データ作成装置。
前記第１画像セグメンテーション部で求められる前記画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、
前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、
前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとし、
前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、所定の第１閾値以上である場合には、前記画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとし、
前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第１閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする、
請求項１に記載の教師データ作成装置。
前記正解ラベル修正部は、前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第１閾値未満である場合において、前記差が、前記第１閾値より小さい所定の第２閾値以上である場合には、新たなラベルを新設し、前記新たなラベルを前記修正正解ラベルとし、前記差が、前記第２閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする、
請求項２に記載の教師データ作成装置。
前記正解ラベル修正部は、前記画像セグメンテーション結果における最も信頼度の高いラベルに対応する所定の重みを前記第１閾値に重み付けした重み付き第１閾値を求め、前記求めた重み付き第１閾値を前記第１閾値の代わりに用いる、
請求項２に記載の教師データ作成装置。
前記第１画像セグメンテーション部で求められる前記画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、
前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像における水平方向、垂直方向および前記信頼度それぞれを互いに直交するＸ軸、Ｙ軸およびＺ軸とするＸＹＺ直交座標系を設定し、当該画像に設定したＸＹＺ直交座標系において、当該画像における第１画像セグメンテーション結果の信頼度にフィットする軸対称なフィッティング関数を求め、前記求めたフィッティング関数の対称軸の位置をラベル間の境界位置として当該画像の各画素ごとに前記修正正解ラベルを求める、
請求項１に記載の教師データ作成装置。
前記複数の画像それぞれをグラフカット法で画像セグメンテーションすることで前記初期教師データを求める初期教師データ生成部をさらに備え、
前記初期教師データ生成部は、正解ラベルを付したテンプレートを用いたテンプレートマッチングによって種子点を求め、前記求めた種子点に前記正解ラベルを付与する、
請求項１ないし請求項５のいずれか１項に記載の教師データ作成装置。
前記修正教師データを前記初期教師データとして、前記第１機械学習部、前記第１画像セグメンテーション部、前記正解ラベル修正部および前記修正教師データ作成部それぞれに、前記第１機械学習処理、前記第１画像セグメンテーション処理、前記正解ラベル修正処理および前記修正教師データ作成処理を、繰り返し行わせる繰返し制御部をさらに備える、
請求項１ないし請求項６のいずれか１項に記載の教師データ作成装置。
複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第１機械学習モデルを生成する第１機械学習工程と、
前記第１機械学習工程で生成された第１機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第１画像セグメンテーション結果を求める第１画像セグメンテーション工程と、
前記複数の画像それぞれについて、前記第１画像セグメンテーション工程で求めた当該画像の第１画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正工程と、
前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成工程とを備える、
教師データ作成方法。
請求項１ないし請求項７のいずれか１項に記載の教師データ作成装置と、
前記修正教師データ作成部で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第２機械学習モデルを生成する第２機械学習部と、
前記第２機械学習部で生成された第２機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求める第２画像セグメンテーション部とを備える、
画像セグメンテーション装置。
請求項８に記載の教師データ作成方法と、
前記修正教師データ作成工程で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第２機械学習モデルを生成する第２機械学習工程と、
前記第２機械学習工程で生成された第２機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第２画像セグメンテーション結果を求める第２画像セグメンテーション工程とを備える、
画像セグメンテーション方法。