JP2019101535A - 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法 - Google Patents

教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法 Download PDF

Info

Publication number
JP2019101535A
JP2019101535A JP2017228896A JP2017228896A JP2019101535A JP 2019101535 A JP2019101535 A JP 2019101535A JP 2017228896 A JP2017228896 A JP 2017228896A JP 2017228896 A JP2017228896 A JP 2017228896A JP 2019101535 A JP2019101535 A JP 2019101535A
Authority
JP
Japan
Prior art keywords
image segmentation
label
teacher data
machine learning
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017228896A
Other languages
English (en)
Inventor
宏 大和
Hiroshi Yamato
宏 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017228896A priority Critical patent/JP2019101535A/ja
Publication of JP2019101535A publication Critical patent/JP2019101535A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】各画素ごとにより精度良く正解ラベルを付した画像(教師データ)を作成できる教師データ作成装置、該方法、画像セグメンテーション装置および該方法を提供する。【解決手段】本発明の教師データ作成装置Dは、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって画像セグメンテーションの第1機械学習モデルを生成し、前記第1機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションして前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求め、前記複数の画像それぞれについて、当該画像の第1画像セグメンテーション結果に基づき当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する。【選択図】図1

Description

本発明は、機械学習する際に用いられる教師データ(正解付き学習データ)を作成する教師データ作成装置および教師データ作成方法、ならびに、前記教師データ作成装置および前記教師データ作成方法それぞれを備え、画像をセグメンテーション(Segmentation)する画像セグメンテーション装置および画像セグメンテーション方法に関する。
画像セグメンテーションは、画像を各画素(ピクセル)ごとに意味付けすることである。この画像セグメンテーションは、例えばレントゲン写真の減色処理や、画像から、道路、車両および人物島の抽出処理等の多種に応用でき、重要な処理である。近年では、いわゆる深層学習(ディープラーニング、Deep Learning)を利用することによって画像セグメンテーションを行う技術が提案されている(非特許文献1ないし非特許文献3)。
このような深層学習を利用した画像セグメンテーションでは、機械学習に大量な教師データ(正解付き学習データ)が必要である。画像セグメンテーションの教師データは、各画素ごとに正解ラベル(ターゲットとなるクラスのオブジェクト情報)を付した画像である。高精度に画像セグメンテーションを実施するためには、高精度に各画素ごとにラベル付けが実施されなければならず、しかもこのようなラベル付けした画像が大量に必要である。これを人手で作成すると、大幅な手間と時間とが掛かるため、自動化が望まれ、例えば特許文献1に開示された画像処理装置が利用できる。
この特許文献1に開示された画像処理装置は、入力画像を読み込む読み込み手段と、前記読み込んだ入力画像を複数の小領域に分割する第1の分割手段と、前記分割された小領域のうち複数のクラスが混在する小領域を、前記複数のクラスに関する混在領域として識別する識別手段と、を有する。
特開2017−117019号公報
Jonathan Long、Evan Shelhamer、Trevor Darrell、"Fully Convolutional Networks For Semantic Segmentation"、[平成29年11月12日検索]、インターネット(URL:https://people.eecs.berkeley.edu/〜jonlong/long_shelhamer_fcn.pdf#search=%27Fully+Convolutional+Networks+for+semantic+Segmentation%27) Vijay Badrinarayanan、Alex Kendall、Roberto Cipolla、"SegNet:A Deep Convolutinal Encoder−Decoder Architecture For Lmage Segmentation"、[平成29年11月12日検索]、インターネット(URL:https://arxiv.org/pdf/1511.00561.pdf) Olaf Ronneberger、Philipp Fischer、Thomas Brox、"U−Net:Convolutional Networks for Biomedical Image Segmentation"、[平成29年11月12日検索]、インターネット(URL:https://arxiv.org/pdf/1511.00561.pdf)
ところで、前記特許文献1に開示された画像処理装置は、複数のクラスが混在する小領域を、混在領域とラベル付けしてしまうため、第1ラベルでラベル付けされた第1領域と前記第1ラベルと異なる第2ラベルでラベル付けされた第2領域との境界領域は、混在領域とラベル付けされてしまい、精度良くラベル付けできない。
本発明は、上述の事情に鑑みて為された発明であり、その目的は、各画素ごとにより精度良く正解ラベルを付した画像(教師データ)を作成できる教師データ作成装置および教師データ作成方法、ならびに、前記教師データ作成装置および前記教師データ作成方法それぞれを備える画像セグメンテーション装置および画像セグメンテーション方法を提供することである。
本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる教師データ作成装置は、第1機械学習処理として、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第1機械学習モデルを生成する第1機械学習部と、第1画像セグメンテーション処理として、前記第1機械学習部で生成された第1機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める第1画像セグメンテーション部と、正解ラベル修正処理として、前記複数の画像それぞれについて、前記第1画像セグメンテーション部で求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正部と、修正教師データ作成処理として、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成部とを備える。好ましくは、上述の画像セグメンテーション装置において、前記第1画像セグメンテーション部で画像セグメンテーションする複数の画像は、初期教師データにおける複数の画像である。好ましくは、上述の画像セグメンテーション装置において、前記第1機械学習モデルは、ニューラルネットワークである。好ましくは、上述の画像セグメンテーション装置において、前記第1機械学習モデルは、深層学習で用いられるニューラルネットワークである。好ましくは、上述の画像セグメンテーション装置において、前記第1画像セグメンテーション部で求められる前記第1画像セグメンテーション結果は、各画素ごとの、複数のラベル(クラス)と前記複数のラベル(クラス)それぞれにおける複数の信頼度とである。前記信頼度は、当該ラベルの正解らしさを表す指標であり、例えば、スコア、確からしさおよび確率等によって表される。
このような教師データ作成装置は、初期教師データを用いた機械学習によって第1機械学習モデルを生成し、この第1機械学習モデルを用いて前記初期教師データにおける複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める。そして、上記教師データ作成装置は、前記複数の画像それぞれについて、当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、当該画像と当該画像における各画素ごとに付された各修正正解ラベルとから成る当該画像の修正教師データを作成する。このように上記教師データ作成装置は、初期教師データから、初期正解ラベルを修正した修正正解ラベルを持つ修正教師データを教師データとして作成する。したがって、上記教師データ作成装置は、初期教師データの初期正解ラベルを、前記初期教師データで機械学習した第1機械学習モデルを用いて修正するので、各画素ごとにより精度良く正解ラベルを付した画像(教師データ)を作成できる。
他の一態様では、上述の教師データ作成装置において、前記第1画像セグメンテーション部で求められる前記第1画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとし、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、所定の第1閾値以上である場合には、前記第1画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとし、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第1閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする。
これによれば、第1画像セグメンテーション結果における信頼度の閾値判定によって修正正解ラベルが比較的簡易に求められる。
他の一態様では、上述の教師データ作成装置において、前記正解ラベル修正部は、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第1閾値未満である場合において、前記差が、前記第1閾値より小さい所定の第2閾値以上である場合には、新たなラベルを新設し、前記新たなラベルを前記修正正解ラベルとし、前記差が、前記第2閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする。
このような教師データ作成装置は、新たなラベル(クラス)を新設できる。例えば、画像に写り込んだ物体の境界の領域がエッジラベル(エッジクラス)として新設できる。
他の一態様では、上述の教師データ作成装置において、前記正解ラベル修正部は、前記画像セグメンテーション結果における最も信頼度の高いラベルに対応する所定の重みを前記第1閾値に重み付けした重み付き第1閾値を求め、前記求めた重み付き第1閾値を前記第1閾値の代わりに用いる。好ましくは、上述の画像セグメンテーション装置において、前記所定の重みは、当該画像に対する第1画像セグメンテーション結果での前記ラベルを持つ画素の画素占有割合(W2)を前記初期教師データの当該画像での前記ラベルを持つ画素の画素占有割合(W1)で除算した除算結果(W2/W1)である。好ましくは、上述の画像セグメンテーション装置において、前記所定の重みは、前記初期教師データの前記複数の画像それぞれについて前記ラベルの各画素占有割合を求め、前記求めた各画素占有割合の中央値である。
このような教師データ作成装置は、重み付き信頼度を用いるので、前記所定の重みを調整することで、ラベル間の画素数の偏りを調整できる。
他の一態様では、上述の教師データ作成装置において、前記第1画像セグメンテーション部で求められる前記第1画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像における水平方向、垂直方向および前記信頼度それぞれを互いに直交するX軸、Y軸およびZ軸とするXYZ直交座標系を設定し、当該画像に設定したXYZ直交座標系において、当該画像における第1画像セグメンテーション結果の信頼度にフィットする軸対称なフィッティング関数を求め、前記求めたフィッティング関数の対称軸の位置をラベル間の境界位置として当該画像の各画素ごとに前記修正正解ラベルを求める。
これによれば、修正正解ラベルを求める画素の周辺に位置する各画素の各信頼度で形成される信頼度の勾配を考慮した修正正解ラベルが求められる。
他の一態様では、これら上述の教師データ作成装置において、前記複数の画像それぞれをグラフカット法で画像セグメンテーションすることで前記初期教師データを求める初期教師データ生成部をさらに備え、前記初期教師データ生成部は、正解ラベルを付したテンプレートを用いたテンプレートマッチングによって種子点(seed Point)を求め、前記求めた種子点に前記正解ラベルを付与する。好ましくは、上述の画像セグメンテーション装置において、前記初期教師データ生成部は、前記テンプレートの中心位置に対応する、前記画像の画素を、前記種子点とする。
このような教師データ作成装置は、初期教師データ生成部をさらに備えるので、自動的に初期教師データを生成できる。
他の一態様では、これら上述の教師データ作成装置において、前記修正教師データを前記初期教師データとして、前記第1機械学習部、前記第1画像セグメンテーション部、前記正解ラベル修正部および前記修正教師データ作成部それぞれに、前記第1機械学習処理、前記第1画像セグメンテーション処理、前記正解ラベル修正処理および前記修正教師データ作成処理を、繰り返し行わせる繰返し制御部をさらに備える。
このような教師データ作成装置は、繰返し制御部をさらに備えるので、繰り返し正解ラベルを修正することで、より精度良く正解ラベルを求めることができる。
本発明の他の一態様にかかる教師データ作成方法は、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第1機械学習モデルを生成する第1機械学習工程と、前記第1機械学習工程で生成された第1機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める第1画像セグメンテーション工程と、前記複数の画像それぞれについて、前記第1画像セグメンテーション工程で求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正工程と、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成工程とを備える。
このような教師データ作成方法は、初期教師データを用いた機械学習によって第1機械学習モデルを生成し、この第1機械学習モデルを用いて前記初期教師データにおける複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める。そして、上記教師データ作成方法は、前記複数の画像それぞれについて、当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、当該画像と当該画像における各画素ごとに付された各修正正解ラベルとから成る当該画像の修正教師データを作成する。このように上記教師データ作成方法は、初期教師データから、初期正解ラベルを修正した修正正解ラベルを持つ修正教師データを教師データとして作成する。したがって、上記教師データ作成方法は、初期教師データの初期正解ラベルを、前記初期教師データで機械学習した第1機械学習モデルを用いて修正するので、各画素ごとにより精度良く正解ラベルを付した画像(教師データ)を作成できる。
本発明の他の一態様にかかる画像セグメンテーション装置は、これら上述のいずれかの教師データ作成装置と、前記修正教師データ作成部で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第2機械学習モデルを生成する第2機械学習部と、前記第2機械学習部で生成された第2機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求める第2画像セグメンテーション部とを備える。好ましくは、上述の画像セグメンテーション装置において、前記第2機械学習部は、前記修正教師データを、前記第1機械学習部で機械学習する前の初期機械学習モデルを用いた機械学習によって、前記初期機械学習モデルから前記第2機械学習モデルを生成する。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用いるので、第1機械学習モデルより精度の高い第2機械学習モデルが生成できる。好ましくは、上述の画像セグメンテーション装置において、前記第2機械学習部は、前記修正教師データを、前記第1機械学習部で生成された前記第1機械学習モデルを用いた機械学習によって、前記第1機械学習モデルから前記第2機械学習モデルを生成する。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用い、かつ、第1機械学習モデルから生成するので、第1機械学習モデルよりさらに精度の高い第2機械学習モデルが生成できる。好ましくは、上述の画像セグメンテーション装置において、前記第1および第2機械学習部は、同じ構造の第1および第2機械学習モデルを生成する。好ましくは、上述の画像セグメンテーション装置において、前記第2機械学習部は、前記第1機械学習モデルの構造より深い構造の前記第2機械学習モデルを生成する。
これによれば、これら上述のいずれかの教師データ作成装置を備える画像セグメンテーション装置が提供できる。このような画像セグメンテーション装置は、各画素ごとにより精度良く正解ラベルを付した教師データを用いて第2機械学習モデルを生成でき、この第2機械学習モデルを用いるので、前記対象画像をより精度良く画像セグメンテーションできる。
本発明の他の一態様にかかる画像セグメンテーション方法は、上述の教師データ作成方法と、前記修正教師データ作成工程で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第2機械学習モデルを生成する第2機械学習工程と、前記第2機械学習工程で生成された第2機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求める第2画像セグメンテーション工程とを備える。
これによれば、上述の教師データ作成方法を備える画像セグメンテーション方法が提供できる。このような画像セグメンテーション方法は、各画素ごとにより精度良く正解ラベルを付した教師データを用いて第2機械学習モデルを生成でき、この第2機械学習モデルを用いるので、前記対象画像をより精度良く画像セグメンテーションできる。
本発明にかかる教師データ作成装置および教師データ作成方法は、各画素ごとにより精度良く正解ラベルを付した画像(教師データ)を作成できる。本発明によれば、このような教師データ作成装置および教師データ作成方法それぞれを備えた画像セグメンテーション装置および画像セグメンテーション方法が提供できる。
実施形態における、教師データ作成装置を備えた画像セグメンテーション装置の構成を示すブロック図である。 前記画像セグメンテーション装置を実装したコンピュータの構成を示すブロック図である。 前記画像セグメンテーション装置の動作を示すフローチャートである。 初期教師データの生成を説明するための図である。 画像の画素位置に対する信頼度の分布の一例を示すグラフである。 信頼度の勾配による境界位置の決定を説明するための図である。
以下、図面を参照して、本発明の1または複数の実施形態が説明される。しかしながら、発明の範囲は、開示された実施形態に限定されない。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
図1は、実施形態における、教師データ作成装置を備えた画像セグメンテーション装置の構成を示すブロック図である。図2は、前記画像セグメンテーション装置を実装したコンピュータの構成を示すブロック図である。
実施形態における画像セグメンテーション装置は、機械学習により生成された機械学習モデルで画像をセグメンテーション(Segmentation)する装置であり、前記機械学習する際に用いられる教師データ(正解付き学習データ)を作成する教師データ作成装置を備える。
このような教師データ作成装置Dを備える画像セグメンテーション装置Sは、例えば、図1に示すように、制御処理部1と、入力部2と、出力部3と、インターフェース部4と、記憶部5とを備える。
入力部2は、制御処理部1に接続され、例えば、修正教師データの作成の開始を指示するコマンドや画像セグメンテーションの開始を指示するコマンド等の各種コマンド、および、例えば初期教師データの入力や画像セグメンテーションの対象である対象画像の入力等の、修正教師データの生成上や画像セグメンテーションの実施上で必要な各種データを画像セグメンテーション装置Sに入力する装置であり、例えば、所定の機能を割り付けられた複数の入力スイッチ、キーボードおよびマウス等である。
出力部3は、制御処理部1に接続され、制御処理部1の制御に従って、入力部2から入力されたコマンドやデータ、および、当該画像セグメンテーション装置Sによって生成された修正教師データや画像セグメンテーション結果等を出力する装置であり、例えばCRTディスプレイ、LCD(液晶表示装置)および有機ELディスプレイ等の表示装置や、プリンタ等の印刷装置である。
なお、入力部2および出力部3からタッチパネルが構成されても良い。このタッチパネルを構成する場合において、入力部2は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部3は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置を触れると、位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として画像セグメンテーション装置Sに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い画像セグメンテーション装置Sが提供される。
IF部4は、例えば、外部の機器との間でデータを入出力する回路であり、例えば、シリアル通信方式であるRS−232Cのインターフェース回路、Bluetooth(登録商標)規格を用いたインターフェース回路、IrDA(Infrared Data Asscoiation)規格等の赤外線通信を行うインターフェース回路、および、USB(Universal Serial Bus)規格を用いたインターフェース回路等である。なお、IF部4は、通信網(ネットワーク)を介して外部の機器と通信を行う回路であっても良く、例えば、データ通信カードや、IEEE802.11規格等に従った通信インターフェース回路等であっても良い。
記憶部5は、制御処理部1に接続され、制御処理部1の制御に従って、各種の所定のプログラムおよび各種の所定のデータを記憶する回路である。前記各種の所定のプログラムには、例えば、制御処理プログラム等が含まれる。この制御処理プログラムは、画像セグメンテーション装置Sの各部2〜5を当該各部2〜5の機能に応じてそれぞれ制御する制御プログラムや、マニュアルで、あるいは、自動的に生成された初期教師データを修正した修正教師データを作成する教師データ作成プログラムや、前記修正教師データ作成プログラムで作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第2機械学習モデルを生成する第2機械学習プログラムや、前記第2機械学習プログラムで生成された第2機械学習モデルを用いて、所定の対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求める第2画像セグメンテーションプログラム等を含む。前記教師データ作成プログラムは、初期教師データを用いた機械学習によって、画像セグメンテーションを行う第1機械学習モデルを生成する第1機械学習プログラムや、前記第1機械学習プログラムで生成された第1機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める第1画像セグメンテーションプログラムや、前記複数の画像それぞれについて、前記第1画像セグメンテーションプログラムで求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正プログラムや、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成プログラム等を含む。前記各種の所定のデータには、例えば初期教師データや修正教師データや対象画像等の、各プログラムを実行する上で必要なデータ等が含まれる。記憶部5は、例えば不揮発性の記憶素子であるROM(Read Only Memory)や書き換え可能な不揮発性の記憶素子であるEEPROM(Electrically Erasable Programmable Read Only Memory)等を備える。記憶部5は、前記所定のプログラムの実行中に生じるデータ等を記憶するいわゆる制御処理部1のワーキングメモリとなるRAM(Random Access Memory)等を含む。そして、記憶部5は、初期教師データや修正教師データを記憶するために、初期教師データ記憶部51および修正教師データ記憶部52を機能的に備える。
初期教師データ記憶部51は、初期教師データを記憶するものである。前記初期教師データは、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る。すなわち、前記初期教師データは、各画素ごとに初期正解ラベルを持つ画像を、複数、備える。
修正教師データ記憶部52は、修正教師データを記憶するものである。前記修正教師データは、後述のように、前記初期教師データの初期正解ラベルを修正したものである。すなわち、前記修正教師データは、前記初期教師データにおける複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成り、前記修正正解ラベルは、当該修正正解ラベルに対応する初期正解ラベルを後述のように修正したものである。
制御処理部1は、画像セグメンテーション装置Sの各部2〜5を当該各部2〜5の機能に応じてそれぞれ制御し、初期教師データから修正教師データを作成し、前記修正教師データを用いた機械学習により生成した第2機械学習モデルで対象画像を画像セグメンテーションするための回路である。制御処理部1は、例えば、CPU(Central Processing Unit)およびその周辺回路を備えて構成される。制御処理部1は、前記制御処理プログラムが実行されることによって、制御部11、第1機械学習部12、第1画像セグメンテーション部13,正解ラベル修正部14、修正教師データ作成部15、第2機械学習部18および第2画像セグメンテーション部19を機能的に備える。
制御部11は、画像セグメンテーション装置Sの各部2〜5を当該各部2〜5の機能に応じてそれぞれ制御し、画像セグメンテーション装置S全体の制御を司るものである。
第1機械学習部12は、第1機械学習処理として、初期教師データを用いた機械学習によって、画像セグメンテーションを行う第1機械学習モデルを生成するものである。前記第1機械学習モデルは、ニューラルネットワークであり、好ましくは、深層学習で用いられるニューラルネットワークである。前記第1機械学習モデルには、例えば、上述の非特許文献1ないし非特許文献3等に開示されたネットワークが利用できる。
第1画像セグメンテーション部13は、第1画像セグメンテーション処理として、第1機械学習部12で生成された第1機械学習モデルを用いて前記初期教師データにおける前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求めるものである。すなわち、第1画像セグメンテーション部13で画像セグメンテーションする複数の画像は、初期教師データにおける複数の画像である。第1画像セグメンテーション部13で求められる前記第1画像セグメンテーション結果は、各画素ごとの、複数のラベル(クラス)と前記複数のラベル(クラス)それぞれにおける複数の信頼度とである。前記信頼度は、当該ラベルの正解らしさ(信頼の度合い)を表す指標であり、例えば、スコア、確からしさおよび確率等によって表される。
正解ラベル修正部14は、正解ラベル修正処理として、前記複数の画像それぞれについて、第1画像セグメンテーション部13で求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求めるものである。より具体的には、正解ラベル修正部14は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとし、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度(Tr1)と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度(Tr2)と、の差(Tr1−Tr2)が、所定の第1閾値(Th1)以上である場合((Tr1−Tr2)≧Th1)には、前記第1画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとし、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第1閾値未満である場合((Tr1−Tr2)<Th1)には、前記初期正解ラベルを前記修正正解ラベルとする。このように本実施形態では、閾値判定によって修正正解ラベルが求められる。前記閾値(Th1)は、例えば複数のサンプルを用いることによって予め適宜に設定される。
修正教師データ作成部15は、修正教師データ作成処理として、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成するものである。
第2機械学習部18は、修正教師データ作成部15で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第2機械学習モデルを生成するものである。前記第2機械学習モデルは、前記第第1機械学習モデルと同様に、ニューラルネットワークであり、好ましくは、深層学習で用いられるニューラルネットワークである。
第1および第2機械学習部12、18は、同じ構造の第1および第2機械学習モデルを生成して良く、あるいは、第2機械学習部18は、第1機械学習モデルの構造より深い構造の第2機械学習モデルを生成して良い。
また、第2機械学習部18は、前記修正教師データを、第1機械学習部12で機械学習する前の初期機械学習モデルを用いた機械学習によって、前記初期機械学習モデルから前記第2機械学習モデルを生成して良い。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用いるので、第1機械学習モデルより精度の高い第2機械学習モデルが生成できる。あるいは、第2機械学習部18は、前記修正教師データを、前記第1機械学習部12で生成された前記第1機械学習モデルを用いた機械学習によって、前記第1機械学習モデルから前記第2機械学習モデルを生成して良い。これによれば初期正解ラベルが修正正解ラベルに修正された修正教師データを用い、かつ、第1機械学習モデルから生成するので、第1機械学習モデルよりさらに精度の高い第2機械学習モデルが生成できる。
第2画像セグメンテーション部19は、第2機械学習部18で生成された第2機械学習モデルを用いて、所定の対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求めるものである。第2画像セグメンテーション部19は、前記第2画像セグメンテーション結果として、前記第1画像セグメンテーション結果と同様に、各画素ごとの、複数のラベル(クラス)と前記複数のラベル(クラス)それぞれにおける複数の信頼度を出力して良い。あるいは、第2画像セグメンテーション部19は、前記第2画像セグメンテーション結果として、前記複数の信頼度の中で最も高い信頼度を持つラベルを各画素ごとに出力して良い。
ここで、このような構成の画像セグメンテーション装置Sでは、制御処理部1における第1機械学習部12、第1画像セグメンテーション部13、正解ラベル修正部14および修正教師データ作成部15、入力部2、出力部3、IF部4、ならびに、記憶部5から教師データ作成装置Dが構成される。
このような教師データ作成装置Dを備えた画像セグメンテーション装置Sは、一例では、図2に示すように、CPU111、RAM112、ROM113、ハードディスクドライブ(HDD)114、LCD116、キーボード117、マウス118、USBインターフェース119、および、これらCPU111、RAM112、ROM113、HDD114、LCD116、キーボード117、マウス118およびUSBインターフェース119を相互に接続するバス115を備える、例えば、デスクトップ型やノード型のコンピュータによって構成可能である。
次に、本実施形態の動作について説明する。図3は、前記画像セグメンテーション装置の動作を示すフローチャートである。図4は、初期教師データの生成を説明するための図である。図4Aは、画像の一例として右胸部レントゲン写真を示し、図4Bは、図4Aに示すx1x2線での画素値プロファイルを示し、その横軸は、前記x1x2線上での画素位置を表し、その縦軸は、画素値を表す。
このような構成の画像セグメンテーション装置Sは、その電源が投入されると、必要な各部の初期化を実行し、その稼働を始める。その制御処理プログラムの実行によって、制御処理部1には、制御部11、第1機械学習部12、第1画像セグメンテーション部13、正解ラベル修正部14、修正教師データ作成部15、第2機械学習部18および第2画像セグメンテーション部19が機能的に構成される。
教師データの作成では、図3において、まず、初期教師データが作成され、初期教師データ記憶部51に記憶される(S11)。例えば、初期教師データは、マニュアルで作成される。一例では、初期教師データの画像に対し、1ラインずつ画素値プロファイルが作成され、各画素値プロファイルから各領域の境界位置を示す画素位置が特定され、これによって前記画像が領域ごとに区分け(クラス分け)される。例えば、図4Aに示すレントゲン写真におけるx1x2線での画素値プロファイルが図4Bに示すように作成され、この画素値プロファイルのピーク位置(一例では図4Bで○印を付されたピークの画素位置)が1つの骨の境界位置として求められる。そして、この区分けされた領域ごとに異なるラベルが付され、同一領域に属する各画素に当該領域のラベルが初期正解ラベルとして付され、これによって画像と前記画像の各画素に付された初期正解ラベルとから成る、初期教師データにおける1個のデータが生成される。このような処理が学習用に用意された複数の画像それぞれについて実施され、初期教師データが生成される。なお、後述するように、初期教師データは、公知の手法を用いることによって、学習用に用意された複数の画像から自動的に生成されても良い。
続いて、初期教師データ記憶部51に初期教師データが記憶されると、画像セグメンテーション装置S(教師データ作成装置D)は、前記初期教師データで第1機械学習を実行する(S12、第1機械学習処理)。より具体的には、第1機械学習部12は、前記初期教師データを用いた機械学習によって、第1機械学習モデルを生成する。
続いて、画像セグメンテーション装置S(教師データ作成装置D)は、前記第1機械学習モデルを用いて第1画像セグメンテーションを実行する(S13、第1画像セグメンテーション処理)。より具体的には、第1画像セグメンテーション部13は、第1機械学習部12で生成された第1機械学習モデルを用いて前記初期教師データにおける前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める。
続いて、画像セグメンテーション装置S(教師データ作成装置D)は、前記第1画像セグメンテーション結果を用いて修正正解ラベルを求め、正解ラベルを修正する(S14、正解ラベル修正処理)。より具体的には、正解ラベル修正部14は、前記初期教師データにおける前記複数の画像それぞれについて、第1画像セグメンテーション部13で求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める。
より詳しくは、正解ラベル修正部14は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、次の処理を実行することで、前記各画素ごとの各修正正解ラベルを求める。まず、正解ラベル修正部14は、当該画素において、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとする。次に、正解ラベル修正部14は、当該画素において、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度(Tr1)と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度(Tr2)と、の差(Tr1−Tr2)が、所定の第1閾値(Th1)以上である場合((Tr1−Tr2)≧Th1)には、前記第1画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとする。そして、正解ラベル修正部14は、当該画素において、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第1閾値未満である場合((Tr1−Tr2)<Th1)には、前記初期正解ラベルを前記修正正解ラベルとする。このように、第1画像セグメンテーション結果における信頼度の閾値判定によって修正正解ラベルが比較的簡易に求められる。
続いて、画像セグメンテーション装置S(教師データ作成装置D)は、処理S14の結果を用いて修正教師データを作成し、修正教師データ記憶部52に記憶する(S15、修正教師データ作成処理)。より具体的には、修正教師データ作成部15は、前記初期教師データにおける前記複数の画像と前記複数の画像それぞれについて各画素ごとに前記処理S14で付された複数の各修正正解ラベルとから成る修正教師データを作成し、これを修正教師データ記憶部52に記憶する。
このような動作によって修正された、初期教師データより精度良く正解ラベルを各画素ごとに付した教師データ(=修正教師データ)が作成される。
続いて、対象画像の画像セグメンテーションでは、画像セグメンテーション装置Sは、前記修正教師データで第2機械学習を実行する(S16)。より具体的には、第2機械学習部18は、修正教師データ作成部15で作成された修正教師データを用いた機械学習によって、第2機械学習モデルを生成する。
続いて、画像セグメンテーション装置Sは、予め記憶部5に記憶された対象画像、あるいは、入力部2から入力された対象画像、あるいは、IF部4から入力された対象画像に対し、前記第2機械学習モデルを用いて第2画像セグメンテーションを実行し、第2画像セグメンテーション結果を記憶部5に記憶して出力部3に出力し、本処理を終了する(S17)。より具体的には、第2画像セグメンテーション部19は、第2機械学習部18で生成された第2機械学習モデルを用いて、所定の対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求める。
このような動作によって対象画像が画像セグメンテーションされる。
以上説明したように、本実施形態における教師データ作成装置Dおよびこれに実装された教師データ作成方法は、初期教師データを用いた機械学習によって第1機械学習モデルを生成し、この第1機械学習モデルを用いて前記初期教師データにおける複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める。そして、上記教師データ作成装置Dおよび教師データ作成方法は、前記複数の画像それぞれについて、当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求め、当該画像と当該画像における各画素ごとに付された各修正正解ラベルとから成る当該画像の修正教師データを作成する。このように上記教師データ作成装置Dおよび教師データ作成方法は、初期教師データから、初期正解ラベルを修正した修正正解ラベルを持つ修正教師データを教師データとして作成する。すなわち、初期教師データおよび修正教師データの2段階で教師データが作成される。したがって、上記教師データ作成装置Dおよび教師データ作成方法は、初期教師データの初期正解ラベルを、前記初期教師データで機械学習した第1機械学習モデルを用いて修正するので、各画素ごとにより精度良く正解ラベルを付した画像(教師データ)を作成できる。特に、初期教師データでは、領域間の領域境界付近で、領域が真の領域からはみ出したり、欠落したり等のバラツキが生じている虞があるが、修正教師データでは、これを改善できる。
本実施形態における画像セグメンテーション装置Sおよびこれに実装された画像セグメンテーション方法は、各画素ごとにより精度良く正解ラベルを付した修正教師データを用いて第2機械学習モデルを生成でき、この第2機械学習モデルを用いるので、前記対象画像をより精度良く画像セグメンテーションできる。
なお、上述の実施形態では、学習用に用意された複数の画像それぞれからマニュアルで初期教師データが作成されたが、学習用に用意された前記複数の画像から自動的に初期教師データが生成されても良い。この場合では、制御処理部1には、図1に破線で示すように、学習用に用意された前記複数の画像それぞれを公知の手法で画像セグメンテーションすることで前記初期教師データを求める初期教師データ生成部16が機能的にさらに備えられる。これによれば、自動的に初期教師データが生成でき、マニュアルで生成する場合に較べて生成時間を短縮でき、複数人で生成する場合に生じる個々人の作業バラツキが防止できる。
画像セグメンテーションを行う公知の手法として、例えばグラフカット法、レベルセット法、領域拡張法およびgrowcut法等が挙げられる。
グラフカット法(graph cut method)は、コスト(重み)を付けたグラフを最小のコストで分離して1つの領域として纏めてラベル付けする方法である。このグラフカット法では、まず、隣接画素間に辺を設定したグラフが構築され、類似した画素間をなるべく分離しないように、例えば隣接画素間の画素値差の逆数で前記隣接画素間の辺におけるコストが設定され、マニュアルで或る点にラベル付けが実施される(前記或る点=種子点、seed point)。そして、前記種子点を、最小のコストで分離する境界が求められ、前記境界内の領域に前記種子点のラベルが付される。なお、このグラフカット法を用いる初期教師データ生成部16は、正解ラベルを付したテンプレートを用いたテンプレートマッチングによって画像から種子点(seed Point)を求め、前記求めた種子点に前記正解ラベルを付与しても良い。例えば、初期教師データ生成部16は、前記テンプレートの中心位置に対応する、前記画像の画素を、前記種子点とする。これによれば、正解レベルを付した種子点が自動的に設定できる。
レベルセット法(Level set method)は、検出する境界を1次元高い補助関数のゼロ等高面とみなし、境界の進行条件である偏微分方程式を数値的に解いて補助関数の形状を変更し、そのゼロ等高面を次々に検出することで、境界形状を求める方法である。
領域拡張法(region growing method)は、予め設定した画素値に関する条件を満たす、空間的に連続する領域を1つの領域として纏めてラベル付けする方法である。この領域拡張法では、まず、画素値に関する前記条件を満たす画素がマニュアルによって決定され、ラベル付けが実施される(種子点、seed point)。そして、種子点を注目画素として隣接画素で前記条件を満たす画素に前記注目画素と同一のラベルを付け、この同一のラベルを付けられた画素を新たな注目画素としてこれが繰り返される。
growcut法は、画像における各画素ごとに侵略プロセスを繰り返し実行することによってラベル付けする方法である。このgrowcut法では、各画素に攻撃力が付与されており、1回の侵略プロセスでは、注目画素の攻撃力と隣接画素の攻撃力との差が注目画素の防御力として求められ、この注目画素の防御力が隣接画素の攻撃力より下回る場合に注目画素のラベルが隣接画素のラベルに置き換えられ(侵略)、注目画素の攻撃力が更新される。
また、これら上述の実施形態において、正解ラベル修正部14は、さらに、前記第1画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記第1画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度(Tr1)と、前記第1画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度(Tr2)と、の差(Tr1−Tr2)が、前記第1閾値未満である場合((Tr1−Tr2)<Th1)において、前記差(Tr1−Tr2)が、前記第1閾値(Th1)より小さい所定の第2閾値(Th2)以上である場合((Tr1−Tr2)≧Th2)には、新たなラベル(クラス)を新設し、前記新たなラベルを前記修正正解ラベルとし、前記差(Tr1−Tr2)が、前記第2閾値(Th2)未満である場合((Tr1−Tr2)<Th2)には、前記初期正解ラベルを前記修正正解ラベルとしても良い。前記閾値(Th2)は、例えば複数のサンプルを用いることによって予め適宜に設定される。このような教師データ作成装置Dおよび教師データ作成方法は、新たなラベル(クラス)を新設できる。例えば、画像に写り込んだ物体の境界の領域がエッジラベル(エッジクラス)として新設できる。
また、これら上述の実施形態において、正解ラベル修正部14は、前記画像セグメンテーション結果における最も信頼度の高いラベルに対応する所定の重みを前記第1閾値に重み付けした重み付き第1閾値を求め、この求めた重み付き第1閾値を前記第1閾値の代わりに用いても良い。このような教師データ作成装置Dおよび教師データ作成方法は、重み付き信頼度を用いるので、前記所定の重みを調整することで、ラベル(クラス)間の画素数の偏りを調整できる。前記所定の重みは、例えば、当該画像に対する第1画像セグメンテーション結果での前記ラベルを持つ画素の画素占有割合(W2)を前記初期教師データの当該画像での前記ラベルを持つ画素の画素占有割合(W1)で除算した除算結果(W2/W1)である。前記画素占有割合(W2)は、当該画像に対する第1画像セグメンテーション結果での前記ラベルを持つ画素の画素数(Nr2)を、当該画像に対する第1画像セグメンテーション結果での総画素数(N2)で除算することによって求められる(W2=Nr2/N2)。前記画素占有割合(W1)は、前記初期教師データの当該画像での前記ラベルを持つ画素の画素数(Nr1)を、前記初期教師データの当該画像での総画素数(N1)で除算することによって求められる(W1=Nr1/N1)。この場合では、第1閾値(Th1)に、前記除算結果(重み)(W2/W1)を乗算することで、前記重み付き第1閾値が求められる。あるいは、前記所定の重みは、例えば、前記初期教師データの前記複数の画像それぞれについて前記ラベルの各画素占有割合を求め、これら求めた各画素占有割合の中央値(W3)である。この場合では、第1閾値(Th1)に、前記中央値(重み)W3を乗算することで、前記重み付き第1閾値が求められる。
また、上述の実施形態では、正解ラベル修正部14は、信頼度の閾値判定によって修正正解ラベルを求めたが、次のように、修正正解ラベルを求めても良い。
図5は、画像の画素位置に対する信頼度の分布の一例を示すグラフである。図6は、信頼度の勾配による境界位置の決定を説明するための図である。図6Aは、等角直線フィッティング法の場合を示し、図6Bは、パラボラフィッティング法の場合を示す。図6Aおよび図6Bにおける横軸は、画素位置(X軸またはY軸)を表し、これら各縦軸は、信頼度を表す。
正解ラベル修正部14は、前記複数の画像それぞれについて、例えば図5に示すように、当該画像における水平方向、垂直方向および前記信頼度それぞれを互いに直交するX軸、Y軸およびZ軸とするXYZ直交座標系を設定し、当該画像に設定したXYZ直交座標系において、例えば図6Aに示す等角直線フィッティング法や図6Bに示すパラボラフィッティング法等を用いることで、当該画像における第1画像セグメンテーション結果の信頼度にフィットする軸対称なフィッティング関数を求め、この求めたフィッティング関数の対称軸の位置をラベル間の境界位置として当該画像の各画素ごとに前記修正正解ラベルを求める。これによれば、修正正解ラベルを求める画素の周辺に位置する各画素の各信頼度で形成される信頼度の勾配を考慮した修正正解ラベルが求められる。
前記等角直線フィッティング法は、図6Aに示すように、最小の信頼度と3番目に小さい信頼度とを通る直線α1を求め、この求めた直線α1の傾きの符号を反転した傾きで2番目に小さい信頼度を通る直線α2を求め、これによって前記軸対称なフィッティング関数α(=α1+α2)を求める手法である。そして、これら2つの直線α1、α2の交点を求めることでフィッティング関数αの対称軸の位置BP1がラベル間(クラス間、領域間)の境界位置として求められる。画素が前記境界位置に対しいずれかの領域(図6Aでは境界位置BP1に対し紙面右側の領域か紙面左側の領域)に属するかによって、前記画素の修正正解ラベルが求められる。例えば、画素が図6Aに示す紙面右側に属する場合には、前記画素に紙面右側の領域に付されたラベルが修正正解ラベルとされ、画素が図6Aに示す紙面左側に属する場合には、前記画素に紙面左側の領域に付されたラベルが修正正解ラベルとされる。なお、上述では、2番目に小さい信頼度と3番目に小さい信頼度が用いられたが、所定の閾値(Th3)以上の信頼度の中から2個の信頼度が選定され用いられても良い。
前記パラボラフィッティング法は、図6Bに示すように、2次関数をフィッティング関数とするものである。前記信頼度にフィッティングする2次関数βが求められ、この求めた2次関数βの対称軸(極小点を通るZ軸に平行な直線)の位置BP2がラベル間(クラス間、領域間)の境界位置として求められる。画素が前記境界位置に対しいずれかの領域(図6Bでは境界位置BP2に対し紙面右側の領域か紙面左側の領域)に属するかによって、前記画素の修正正解ラベルが求められる。
本来、高精度な正解ラベルを持つ教師データで機械学習によって求められた機械学習モデルでの信頼度は、領域境界へ向かうほど隣接領域の情報が影響するため、領域の中心からエッジ(領域境界)に向けてスコアが小さくなる傾向がある。しかしながら、初期教師データで機械学習によって求められた第1機械学習モデルでの信頼度は、領域境界の精度が低いため、このような状況にならない場合がある。そこで、上述のように、領域境界周辺(近傍)における信頼度の情報による勾配で境界位置BPが求められ、修正正解ラベルが求められる。
また、上述の実施形態において、教師データ作成装置Dは、図1に破線で示すように、制御処理部1に繰返し制御部17を機能的にさらに備えても良い。この繰返し制御部17は、前記修正教師データを前記初期教師データとして、前記第1機械学習部12、前記第1画像セグメンテーション部13、前記正解ラベル修正部14および前記修正教師データ作成部15それぞれに、前記第1機械学習処理、前記第1画像セグメンテーション処理、前記正解ラベル修正処理および前記修正教師データ作成処理を、所定の回数、繰り返し行わせるものである。この場合では、図3に破線で示すように、上述の処理S15と処理S16との間に、繰り返しを終了するか否かを判定する処理S21がさらに実行され、前記判定の結果、繰り返しの終了ではない場合(No)には、繰返し制御部17は、前記修正教師データを前記初期教師データとして、処理を処理S12に戻し、一方、前記判定の結果、繰り返しの終了である場合(Yes)には、繰返し制御部17は、次に、処理を処理S16に進める。繰り返しの終了の判定は、例えば、予め設定された繰り返し回数に達したか否かによって実施されて良く、あるいは、例えば、初期正解ラベルと修正正解ラベルとの相違する画素数が予め設定された所定の閾値(Th4)以下に達したか否かによって実施されて良い。このような教師データ作成装置Dは、繰返し制御部17をさらに備えるので、繰り返し正解ラベルを修正することで、より精度良く正解ラベルを求めることができる。
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
S 画像セグメンテーション装置
D 教師データ作成装置
1 制御処理部
5 記憶部
11 制御部
12 第1機械学習部
13 第2画像セグメンテーション部
14 正解ラベル修正部
15 修正教師データ作成部
16 初期教師データ作成部
17 繰返し制御部
18 第2機械学習部
19 第2画像セグメンテーション部
51 初期教師データ記憶部
52 修正教師データ記憶部

Claims (10)

  1. 第1機械学習処理として、複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第1機械学習モデルを生成する第1機械学習部と、
    第1画像セグメンテーション処理として、前記第1機械学習部で生成された第1機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める第1画像セグメンテーション部と、
    正解ラベル修正処理として、前記複数の画像それぞれについて、前記第1画像セグメンテーション部で求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正部と、
    修正教師データ作成処理として、前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成部とを備える、
    教師データ作成装置。
  2. 前記第1画像セグメンテーション部で求められる前記画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、
    前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像の各画素ごとにおいて、
    前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致する場合には、前記初期正解ラベルを前記修正正解ラベルとし、
    前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、所定の第1閾値以上である場合には、前記画像セグメンテーション結果における最も信頼度の高い前記ラベルを前記修正正解ラベルとし、
    前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第1閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする、
    請求項1に記載の教師データ作成装置。
  3. 前記正解ラベル修正部は、前記画像セグメンテーション結果における最も信頼度の高いラベルと初期正解ラベルとが一致しない場合であって、かつ、前記画像セグメンテーション結果における最も信頼度の高いラベルの前記信頼度と、前記画像セグメンテーション結果における前記初期正解ラベルに対応するラベルの信頼度と、の差が、前記第1閾値未満である場合において、前記差が、前記第1閾値より小さい所定の第2閾値以上である場合には、新たなラベルを新設し、前記新たなラベルを前記修正正解ラベルとし、前記差が、前記第2閾値未満である場合には、前記初期正解ラベルを前記修正正解ラベルとする、
    請求項2に記載の教師データ作成装置。
  4. 前記正解ラベル修正部は、前記画像セグメンテーション結果における最も信頼度の高いラベルに対応する所定の重みを前記第1閾値に重み付けした重み付き第1閾値を求め、前記求めた重み付き第1閾値を前記第1閾値の代わりに用いる、
    請求項2に記載の教師データ作成装置。
  5. 前記第1画像セグメンテーション部で求められる前記画像セグメンテーション結果は、各画素ごとの、複数のラベルと前記複数のラベルそれぞれにおける複数の信頼度とであり、
    前記正解ラベル修正部は、前記複数の画像それぞれについて、当該画像における水平方向、垂直方向および前記信頼度それぞれを互いに直交するX軸、Y軸およびZ軸とするXYZ直交座標系を設定し、当該画像に設定したXYZ直交座標系において、当該画像における第1画像セグメンテーション結果の信頼度にフィットする軸対称なフィッティング関数を求め、前記求めたフィッティング関数の対称軸の位置をラベル間の境界位置として当該画像の各画素ごとに前記修正正解ラベルを求める、
    請求項1に記載の教師データ作成装置。
  6. 前記複数の画像それぞれをグラフカット法で画像セグメンテーションすることで前記初期教師データを求める初期教師データ生成部をさらに備え、
    前記初期教師データ生成部は、正解ラベルを付したテンプレートを用いたテンプレートマッチングによって種子点を求め、前記求めた種子点に前記正解ラベルを付与する、
    請求項1ないし請求項5のいずれか1項に記載の教師データ作成装置。
  7. 前記修正教師データを前記初期教師データとして、前記第1機械学習部、前記第1画像セグメンテーション部、前記正解ラベル修正部および前記修正教師データ作成部それぞれに、前記第1機械学習処理、前記第1画像セグメンテーション処理、前記正解ラベル修正処理および前記修正教師データ作成処理を、繰り返し行わせる繰返し制御部をさらに備える、
    請求項1ないし請求項6のいずれか1項に記載の教師データ作成装置。
  8. 複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各初期正解ラベルとから成る初期教師データを用いた機械学習によって、画像セグメンテーションを行う第1機械学習モデルを生成する第1機械学習工程と、
    前記第1機械学習工程で生成された第1機械学習モデルを用いて前記複数の画像それぞれを画像セグメンテーションすることによって、前記複数の画像それぞれにおける各第1画像セグメンテーション結果を求める第1画像セグメンテーション工程と、
    前記複数の画像それぞれについて、前記第1画像セグメンテーション工程で求めた当該画像の第1画像セグメンテーション結果に基づいて当該画像にける各画素ごとの各修正正解ラベルをそれぞれ求める正解ラベル修正工程と、
    前記複数の画像と前記複数の画像それぞれについて各画素ごとに付された複数の各修正正解ラベルとから成る修正教師データを作成する修正教師データ作成工程とを備える、
    教師データ作成方法。
  9. 請求項1ないし請求項7のいずれか1項に記載の教師データ作成装置と、
    前記修正教師データ作成部で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第2機械学習モデルを生成する第2機械学習部と、
    前記第2機械学習部で生成された第2機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求める第2画像セグメンテーション部とを備える、
    画像セグメンテーション装置。
  10. 請求項8に記載の教師データ作成方法と、
    前記修正教師データ作成工程で作成された修正教師データを用いた機械学習によって、画像セグメンテーションを行う第2機械学習モデルを生成する第2機械学習工程と、
    前記第2機械学習工程で生成された第2機械学習モデルを用いて、画像セグメンテーションの対象となる対象画像を画像セグメンテーションすることによって、前記対象画像における第2画像セグメンテーション結果を求める第2画像セグメンテーション工程とを備える、
    画像セグメンテーション方法。
JP2017228896A 2017-11-29 2017-11-29 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法 Pending JP2019101535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017228896A JP2019101535A (ja) 2017-11-29 2017-11-29 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017228896A JP2019101535A (ja) 2017-11-29 2017-11-29 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法

Publications (1)

Publication Number Publication Date
JP2019101535A true JP2019101535A (ja) 2019-06-24

Family

ID=66973647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017228896A Pending JP2019101535A (ja) 2017-11-29 2017-11-29 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法

Country Status (1)

Country Link
JP (1) JP2019101535A (ja)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259898A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于无人机航拍图像的农作物分割方法
CN111753922A (zh) * 2020-06-30 2020-10-09 北京联想软件有限公司 一种模型训练标签的处理方法、装置及电子设备
JPWO2021090394A1 (ja) * 2019-11-06 2021-05-14
JP2021111279A (ja) * 2020-01-15 2021-08-02 京セラ株式会社 ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
WO2021152727A1 (ja) * 2020-01-29 2021-08-05 楽天グループ株式会社 物体認識システム、位置情報取得方法、及びプログラム
WO2021161410A1 (ja) * 2020-02-12 2021-08-19 三菱電機株式会社 物体認識装置、運転支援装置、サーバ、および、物体認識方法
US20210272288A1 (en) * 2018-08-06 2021-09-02 Shimadzu Corporation Training Label Image Correction Method, Trained Model Creation Method, and Image Analysis Device
JP2022079775A (ja) * 2020-01-29 2022-05-26 楽天グループ株式会社 物体認識システム、位置情報取得方法、及びプログラム
KR20220085115A (ko) * 2020-12-14 2022-06-22 주식회사 아이디알인비전 생산부품의 스마트 비전검사를 위한 인공지능머신의 라벨링 학습방법
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
WO2022249997A1 (ja) 2021-05-24 2022-12-01 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
WO2022254859A1 (ja) 2021-06-03 2022-12-08 古野電気株式会社 コンピュータプログラム、学習モデル生成方法、画像処理方法及び画像処理装置
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
CN116188511A (zh) * 2023-04-26 2023-05-30 湖南马栏山视频先进技术研究院有限公司 一种基于边缘检测优化人类标签的方法及装置
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US12014553B2 (en) 2019-02-01 2024-06-18 Tesla, Inc. Predicting three-dimensional features for autonomous driving

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US12020476B2 (en) 2017-03-23 2024-06-25 Tesla, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11797304B2 (en) 2018-02-01 2023-10-24 Tesla, Inc. Instruction set architecture for a vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11830195B2 (en) * 2018-08-06 2023-11-28 Shimadzu Corporation Training label image correction method, trained model creation method, and image analysis device
US20210272288A1 (en) * 2018-08-06 2021-09-02 Shimadzu Corporation Training Label Image Correction Method, Trained Model Creation Method, and Image Analysis Device
US11983630B2 (en) 2018-09-03 2024-05-14 Tesla, Inc. Neural networks for embedded devices
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11908171B2 (en) 2018-12-04 2024-02-20 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US12014553B2 (en) 2019-02-01 2024-06-18 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
JPWO2021090394A1 (ja) * 2019-11-06 2021-05-14
WO2021090394A1 (ja) * 2019-11-06 2021-05-14 本田技研工業株式会社 知的財産権の評価システム、知的財産権の評価方法、評価用プログラム、及び修正用データ
JP7270059B2 (ja) 2019-11-06 2023-05-09 本田技研工業株式会社 知的財産権の評価システム、知的財産権の評価方法、及び評価用プログラム
CN111259898A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于无人机航拍图像的农作物分割方法
CN111259898B (zh) * 2020-01-08 2023-03-24 西安电子科技大学 基于无人机航拍图像的农作物分割方法
JP7422548B2 (ja) 2020-01-15 2024-01-26 京セラ株式会社 ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
JP2021111279A (ja) * 2020-01-15 2021-08-02 京セラ株式会社 ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
JP7267483B2 (ja) 2020-01-29 2023-05-01 楽天グループ株式会社 物体認識システム、位置情報取得方法、及びプログラム
JPWO2021152727A1 (ja) * 2020-01-29 2021-08-05
US11989906B2 (en) 2020-01-29 2024-05-21 Rakuten Group, Inc. Object recognition system, position information acquisition method, and program
JP2022079775A (ja) * 2020-01-29 2022-05-26 楽天グループ株式会社 物体認識システム、位置情報取得方法、及びプログラム
JP7054760B2 (ja) 2020-01-29 2022-04-14 楽天グループ株式会社 物体認識システム、位置情報取得方法、及びプログラム
WO2021152727A1 (ja) * 2020-01-29 2021-08-05 楽天グループ株式会社 物体認識システム、位置情報取得方法、及びプログラム
WO2021161410A1 (ja) * 2020-02-12 2021-08-19 三菱電機株式会社 物体認識装置、運転支援装置、サーバ、および、物体認識方法
JPWO2021161410A1 (ja) * 2020-02-12 2021-08-19
JP7214018B2 (ja) 2020-02-12 2023-01-27 三菱電機株式会社 物体認識装置、運転支援装置、サーバ、および、物体認識方法
CN111753922A (zh) * 2020-06-30 2020-10-09 北京联想软件有限公司 一种模型训练标签的处理方法、装置及电子设备
KR20220085115A (ko) * 2020-12-14 2022-06-22 주식회사 아이디알인비전 생산부품의 스마트 비전검사를 위한 인공지능머신의 라벨링 학습방법
KR102524151B1 (ko) * 2020-12-14 2023-04-21 주식회사 아이디알인비전 생산부품의 스마트 비전검사를 위한 인공지능머신의 라벨링 학습방법
WO2022249997A1 (ja) 2021-05-24 2022-12-01 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
WO2022254859A1 (ja) 2021-06-03 2022-12-08 古野電気株式会社 コンピュータプログラム、学習モデル生成方法、画像処理方法及び画像処理装置
CN116188511A (zh) * 2023-04-26 2023-05-30 湖南马栏山视频先进技术研究院有限公司 一种基于边缘检测优化人类标签的方法及装置

Similar Documents

Publication Publication Date Title
JP2019101535A (ja) 教師データ作成装置および該方法ならびに画像セグメンテーション装置および該方法
US11301733B2 (en) Learning data augmentation strategies for object detection
CN114663397B (zh) 可行驶区域的检测方法、装置、设备及存储介质
US20150242761A1 (en) Interactive visualization of machine-learning performance
CN111488925B (zh) 一种数据标注方法、装置、电子设备及存储介质
US20180247183A1 (en) Method and system for generative model learning, and recording medium
CN110390261B (zh) 目标检测方法、装置、计算机可读存储介质及电子设备
US11636602B1 (en) Prelabeling for semantic segmentation tasks
JP6612486B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP2009110064A (ja) 分類モデル学習装置および分類モデル学習方法
CN111881908A (zh) 目标检测模型的修正方法、检测方法、装置、设备及介质
CN112101355B (zh) 图像中文本检测方法、装置、电子设备以及计算机介质
CN112287924A (zh) 文本区域检测方法、装置、电子设备和计算机存储介质
JP2020194446A (ja) プログラム、情報処理方法及び情報処理装置
CN111709428B (zh) 图像中关键点位置的识别方法、装置、电子设备及介质
JP2022166215A (ja) 文字位置決めモデルのトレーニング方法及び文字位置決め方法
US9538920B2 (en) Standalone annotations of axial-view spine images
JP2019067299A (ja) ラベル推定装置及びラベル推定プログラム
CN111679829B (zh) 用户界面设计的确定方法和装置
CN113610809A (zh) 骨折检测方法、装置、电子设备以及存储介质
CN113033774A (zh) 图处理网络模型的训练方法、装置、电子设备和存储介质
JPWO2019180868A1 (ja) 画像生成装置、画像生成方法および画像生成プログラム
CN114548192A (zh) 样本数据处理方法、装置、电子设备及介质
CN110717576B (zh) 图像处理方法、装置和设备