JP2021086462A

JP2021086462A - データ生成方法、データ生成装置、モデル生成方法、モデル生成装置及びプログラム

Info

Publication number: JP2021086462A
Application number: JP2019215846A
Authority: JP
Inventors: ミンジュンリ; Ming-Jun Li; カシュンシュ; Huachun Zhu; ヤンハジン; Yanghua Jin; 泰山米辻; Taizan YONETSUJI
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-06-03
Anticipated expiration: 2039-11-28
Also published as: CN114762004A; JP7482620B2; WO2021106855A1; US20220292690A1

Abstract

【課題】ユーザフレンドリなセグメンテーションマップを利用したデータ生成技術を提供する。【解決手段】データ生成装置において、訓練処理は、１つ以上のプロセッサが、訓練対象のエンコーダを利用して訓練用の第１の画像から第１の特徴マップを取得し、訓練対象のデコーダを利用して前記第１の特徴マップと訓練用のレイヤ化されたセグメンテーションマップとから第２の画像を取得し、第１の画像と訓練用のレイヤ化されたセグメンテーションマップとの第１のペアと、第２の画像と訓練用のレイヤ化されたセグメンテーションマップとの第２のペアとの何れかを判別器に入力し、判別器の判別結果に基づき決定された第１の損失値に応じて判別器のパラメータを更新し、第１の画像と第２の画像との特徴量の差を示す第２の損失値を決定し、決定された第２の損失値に応じてエンコーダとデコーダとのパラメータを更新する。【選択図】図２３

Description

本開示は、データ生成方法、データ生成装置、モデル生成方法、モデル生成装置及びプログラムに関する。

深層学習の進展によって、様々なニューラルネットワークアーキテクチャ及び訓練手法が提案され、様々な用途に利用されてきている。例えば、画像処理の分野では、深層学習の利用によって、画像認識、物体検出、画像合成などについて様々な研究成果があがっている。

例えば、画像合成の分野では、ＧａｕＧＡＮやＰｉｘ２ＰｉｘＨＤなどの様々な画像合成ツールが開発されている。これらのツールでは、例えば、風景画像を空、山、海などによってセグメント化し、各セグメントに空、山、海などをラベル付けしたセグメンテーションマップを利用して、画像合成を行うことができる。

https://arxiv.org/abs/1903.07291 http://nvidia-research-mingyuliu.com/gaugan https://tcwang0509.github.io/pix2pixHD/

本開示の課題は、ユーザフレンドリなセグメンテーションマップを利用したデータ生成技術を提供することである。

上記課題を解決するため、本開示の一態様は、
１つ以上のプロセッサが、第１のデータの特徴マップと、レイヤ化されたセグメンテーションマップとに基づいて、第２のデータを取得するステップを含む、データ生成方法に関する。

本開示の他の態様は、
１つ以上のプロセッサが、訓練対象のエンコーダを利用して訓練用の第１の画像から第１の特徴マップを取得するステップと、
前記１つ以上のプロセッサが、訓練対象のデコーダを利用して前記第１の特徴マップと訓練用のレイヤ化されたセグメンテーションマップとから第２の画像を取得するステップと、
前記１つ以上のプロセッサが、前記第１の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第１のペアと、前記第２の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第２のペアとの何れかを判別器に入力し、前記判別器の判別結果に基づき決定された第１の損失値に応じて前記判別器のパラメータを更新するステップと、
前記１つ以上のプロセッサが、前記第１の画像と前記第２の画像との特徴量の差を示す第２の損失値を決定し、前記決定された第２の損失値に応じて前記エンコーダと前記デコーダとのパラメータを更新するステップと、
を有するモデル生成方法に関する。

本開示の一実施例によるデータ生成処理を示す概略図である。本開示の一実施例によるデータ生成装置の機能構成を示すブロック図である。本開示の一実施例による一例となるレイヤ化されたセグメンテーションマップを示す図である。本開示の一実施例による一例となるデータ生成処理を示す図である。本開示の一実施例によるセグメンテーションマップによる特徴マップの変換処理を示す図である。本開示の一実施例によるデータ生成処理の変形例を示す図である。本開示の一実施例によるデータ生成処理の変形例を示す図である。本開示の一実施例によるデータ生成処理の変形例を示す図である。本開示の一実施例によるデータ生成処理を示すフローチャートである。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となるユーザインタフェースを示す図である。本開示の一実施例による一例となる訓練装置の機能構成を示すブロック図である。本開示の一実施例によるセグメンテーションマップによる特徴マップの変換処理を示す図である。本開示の一実施例によるセグメンテーションモデルのニューラルネットワークアーキテクチャを示す図である。本開示の一実施例による訓練処理を示すフローチャートである。本開示の一実施例によるデータ生成装置及び訓練装置のハードウェア構成を示すブロック図である。

以下、図面に基づいて本開示の実施の形態を説明する。以下の実施例では、セグメンテーションマップを利用したデータ生成装置と、当該データ生成装置のエンコーダ及びデコーダを訓練する訓練装置とが開示される。
［本開示の概略］
図１に示されるように、本開示の実施例によるデータ生成装置１００は、例えば、ニューラルネットワークなどの何れかのタイプの機械学習モデルとして実現されるエンコーダ、セグメンテーションモデル及びデコーダを有する。データ生成装置１００は、エンコーダを利用して入力画像から生成された特徴マップと、セグメンテーションモデルを利用して入力画像から生成したレイヤ化されたセグメンテーションマップ（第１のセグメンテーションマップ）をユーザに提示し、ユーザによって編集されたレイヤ化されたセグメンテーションマップ（第１のセグメンテーションマップと異なる第２のセグメンテーションマップ）（図示された例では、セグメンテーションマップの画像から両耳が削除されている）とに基づき出力画像をデコーダから取得する。当該出力画像は、編集済みのレイヤ化されたセグメンテーションマップの編集内容を入力画像に反映することによって生成される。

訓練装置２００は、データベース３００に格納されている訓練データを利用して、データ生成装置１００に提供されるエンコーダ及びデコーダを訓練し、訓練済みエンコーダ及びデコーダをデータ生成装置１００に提供する。例えば、訓練データは、後述されるような画像とレイヤ化されたセグメンテーションマップとのペアから構成されうる。
［データ生成装置］
図２〜５を参照して、本開示の一実施例によるデータ生成装置１００を説明する。図２は、本開示の一実施例によるデータ生成装置１００の機能構成を示すブロック図である。

図２に示されるように、データ生成装置１００は、エンコーダ１１０、セグメンテーションモデル１２０及びデコーダ１３０を有する。

エンコーダ１１０は、入力画像などのデータの特徴マップを生成する。エンコーダ１１０は、訓練装置２００による訓練済みニューラルネットワークから構成され、当該ニューラルネットワークは、例えば、畳み込みニューラルネットワークとして実現されてもよい。

セグメンテーションモデルは、入力画像などのデータのレイヤ化されたセグメンテーションマップを生成する。レイヤ化されたセグメンテーションマップでは、例えば、画像の各画素に対して１つ以上のラベルが付与されうる。例えば、図２に示されるようなキャラクタの入力画像について、前髪の領域には、前髪に覆われた顔が隠されており、さらにその後方には背景がある。レイヤ化されたセグメンテーションマップは、前髪を示すレイヤ、顔を示すレイヤ及び背景を示すレイヤが重畳されたレイヤ構造から構成される。この場合、レイヤ化されたセグメンテーションマップのレイヤ構造は、図３に示されるようなデータ構造によって表現されうる。例えば、背景が表示される領域の画素は"１，０，０"により表される。また、背景に顔が重畳されている領域の画素は"１，１，０"により表される。また、背景に髪が重畳されている領域の画素は"１，０，１"により表される。さらに、背景に顔が重畳され、更に顔に髪が重畳されている領域の画素は"１，１，１"により表される。例えば、各レイヤは、最上位に重畳されているオブジェクト（図示されたキャラクタでは、髪）から最下位に重畳されているオブジェクト（図示されたキャラクタでは、背景）までのレイヤ構造によって保持される。このようなレイヤ化されたセグメンテーションマップによると、ユーザが前髪を削除するようレイヤ化されたセグメンテーションマップを編集した場合、次のレイヤの顔が、削除された前髪領域に表示されることになる。

なお、セグメンテーションモデル１２０は、訓練装置２００による訓練済みニューラルネットワークから構成され、当該ニューラルネットワークは、例えば、後述されるようなＵ−Ｎｅｔ型などの畳み込みニューラルネットワークとして実現されてもよい。また、セグメンテーションの生成と、レイヤ化とは一つのモデルで行われてもよく、異なるモデル等を用いて行われてもよい。

デコーダ１３０は、レイヤ化されたセグメンテーションマップと特徴マップとから出力画像を生成する。ここで、当該出力画像は、レイヤ化されたセグメンテーションマップでの編集内容を入力画像に反映するものを生成されうる。例えば、ユーザが入力画像のレイヤ化されたセグメンテーションマップの画像の眉を削除し、削除部分を次レイヤの顔（顔の肌）により置換するようレイヤ化されたセグメンテーションマップを編集した場合、デコーダ１３０は、入力画像の眉部分を顔によって置換した出力画像を生成する。

一実施例では、図４に示されるように、エンコーダ１１０によって生成された特徴マップが、セグメンテーションモデル１２０によって生成されたレイヤ化されたセグメンテーションマップとプーリング化（例えば、平均プーリングなど）され、特徴ベクトルが導出される。この導出された特徴ベクトルが編集済みレイヤ化されたセグメンテーションマップによって展開され、編集された特徴マップが導出される。編集された特徴マップはデコーダ１３０に入力され、編集領域に対する編集内容が入力画像の対応領域に反映された出力画像が生成される。

具体的には、図５に示されるように、エンコーダ１１０が図示されるような入力画像の特徴マップを生成し、セグメンテーションモデル１２０が図示されるようなレイヤ化されたセグメンテーションマップを生成すると、生成された特徴マップとレイヤ化されたセグメンテーションマップの最上位レイヤとに対して平均プーリングが実行され、図示されるような特徴ベクトルが導出される。そして、導出された特徴ベクトルが図示されるような編集済みのレイヤ化されたセグメンテーションマップによって展開され、デコーダ１３０への入力用の図示されるような特徴マップが導出される。

デコーダ１３０は、訓練装置２００による訓練済みニューラルネットワークから構成され、当該ニューラルネットワークは、例えば、畳み込みニューラルネットワークとして実現されてもよい。
［変形例］
次に、図６〜８を参照して、本開示の一実施例によるデータ生成装置１００のデータ生成処理の各種変形例を説明する。

図６は、本開示の一実施例によるデータ生成装置１００のデータ生成処理の変形例を示す図である。図６に示されるように、セグメンテーションモデル１２０は、入力画像のレイヤ化されたセグメンテーションマップを生成し、デコーダ１３０は、入力画像と異なるリファレンス画像（第３のデータ）の特徴マップと、入力画像から生成されたレイヤ化されたセグメンテーションマップとから、図示されるように、レイヤ化されたセグメンテーションマップの最上位レイヤの内容をリファレンス画像に反映させた出力画像を生成する。

リファレンス画像とは、ユーザの利用に供するためデータ生成装置１００が予め保持している画像であり、ユーザは自ら提供した入力画像とリファレンス画像とを合成することが可能である。図示された実施例では、レイヤ化されたセグメンテーションマップは編集されていないが、リファレンス画像と合成されるレイヤ化されたセグメンテーションマップは編集されてもよい。この場合、出力画像は、編集済みのレイヤ化されたセグメンテーションマップの編集領域に対する編集内容をリファレンス画像の対応する領域に反映することによって生成されてもよい。

本変形例によると、入力画像がセグメンテーションモデル１２０に入力され、レイヤ化されたセグメンテーションマップが取得される。エンコーダ１１０によって生成されたリファレンス画像の特徴マップと、当該レイヤ化されたセグメンテーションマップ又は当該レイヤ化されたセグメンテーションマップに対する編集済みのレイヤ化されたセグメンテーションマップとに基づき、デコーダ１３０から出力画像が生成される。

図７は、本開示の一実施例によるデータ生成装置１００のデータ生成処理の他の変形例を示す図である。図７に示されるように、セグメンテーションモデル１２０は、入力画像とリファレンス画像とのそれぞれのレイヤ化されたセグメンテーションマップを生成し、デコーダ１３０は、入力画像と異なるリファレンス画像の特徴マップと、２つのレイヤ化されたセグメンテーションマップの一方又は双方に対してユーザによって編集されたレイヤ化されたセグメンテーションマップとから、図示されるように、編集済みのレイヤ化されたセグメンテーションマップの内容をリファレンス画像に反映させた出力画像を生成する。なお、２つのレイヤ化されたセグメンテーションマップの利用については、図８に示されるように、例えば、リファレンス画像のレイヤ化されたセグメンテーションマップによってリファレンス画像の特徴マップがプーリングされ、導出された特徴ベクトルが入力画像のレイヤ化されたセグメンテーションマップによって展開されてもよい。

本変形例によると、入力画像とリファレンス画像とがセグメンテーションモデル１２０に入力され、各自のレイヤ化されたセグメンテーションマップが取得される。エンコーダ１１０によって生成されたリファレンス画像の特徴マップと、当該レイヤ化されたセグメンテーションマップに対する編集済みのレイヤ化されたセグメンテーションマップの一方又は双方とがデコーダ１３０に入力され、出力画像が生成される。

ここで、リファレンス画像を利用する場合、リファレンス画像から抽出された特徴の全てが、出力画像を生成するのに利用される必要はなく、一部の特徴（例えば、髪など）のみが利用されてもよい。また、リファレンス画像の特徴マップと入力画像の特徴マップとの何れかの組み合わせ（例えば、加重平均、右半分の髪と左半分の髪の特徴のみ組み合わせなど）が、出力画像を生成するのに利用されてもよい。また、複数のリファレンス画像が、出力画像を生成するのに利用されてもよい。

上述した実施例は、画像に対する生成処理に着目して説明されたが、本開示による処理対象のデータはこれに限定されず、本開示によるデータ生成装置１００は、他の何れか適切なデータ形式に適用されてもよい。
［データ生成処理］
次に、図９を参照して、本開示の一実施例によるデータ生成処理を説明する。当該データ生成処理は、上述したデータ生成装置１００によって実現され、例えば、データ生成装置１００の１つ以上のプロセッサ又は処理回路がプログラム又は命令を実行することによって実現されてもよい。図９は、本開示の一実施例によるデータ生成処理を示すフローチャートである。

図９に示されるように、ステップＳ１０１において、データ生成装置１００は、入力画像から特徴マップを取得する。具体的には、データ生成装置１００は、ユーザなどから受け付けた入力画像をエンコーダ１１０に入力し、エンコーダ１１０から出力画像を取得する。

ステップＳ１０２において、データ生成装置１００は、入力画像からレイヤ化されたセグメンテーションマップを取得する。具体的には、データ生成装置１００は、入力画像をセグメンテーションモデル１２０に入力し、セグメンテーションモデル１２０からレイヤ化されたセグメンテーションマップを取得する。

ステップＳ１０３において、データ生成装置１００は、編集済みのレイヤ化されたセグメンテーションマップを取得する。例えば、ステップＳ１０２において生成されたレイヤ化されたセグメンテーションマップがユーザ端末に提示され、ユーザがユーザ端末上でレイヤ化されたセグメンテーションマップを編集すると、データ生成装置１００は、ユーザ端末から編集済みレイヤ化されたセグメンテーションマップを受信する。

ステップＳ１０４において、データ生成装置１００は、特徴マップと編集済みのレイヤ化されたセグメンテーションマップとから出力画像を取得する。具体的には、データ生成装置１００は、ステップＳ１０１において取得した特徴マップと、ステップＳ１０２において取得したレイヤ化されたセグメンテーションマップとに対して平均プーリングなどのプーリングを実行し、特徴ベクトルを導出する。そして、データ生成装置１００は、ステップＳ１０３において取得した編集済みのレイヤ化されたセグメンテーションマップによって特徴ベクトルを展開し、展開された特徴マップをデコーダ１３０に入力し、デコーダ１３０から出力画像を取得する。

なお、上述した実施例では、特徴マップとレイヤ化されたセグメンテーションマップとに対してプーリングが実行されたが、本開示はこれに限定されるものでない。例えば、エンコーダ１１０は、画像の各物体及び／又はパーツの特徴を抽出可能な何れか適切なモデルであってもよい。例えば、エンコーダ１１０は、Ｐｉｘ２ＰｉｘＨＤのエンコーダであってもよく、最後の特徴マップでインスタンスごとに平均プーリングではなく、最大プーリング、最小プーリング、アテンションプーリングなどが実行されてもよい。また、Ｐｉｘ２ＰｉｘＨＤのエンコーダを利用して、最後の特徴マップでインスタンスごとにＣＮＮなどにより特徴ベクトルが抽出されてもよい。
［ユーザインタフェース］
次に、図１０〜１９を参照して、本開示の一実施例によるデータ生成装置１００によって提供されるユーザインタフェースを説明する。当該ユーザインタフェースは、例えば、データ生成装置１００によってユーザ端末に提供される操作画面として実現されうる。

図１０に示されるユーザインタフェース画面は、ユーザによってリファレンス画像が選択された際に表示される。すなわち、ユーザが図示されるリファレンス画像を選択すると、選択された画像に対して編集可能なパーツがレイヤ一覧として表示され、また、リファレンス画像から生成された編集前のレイヤ化されたセグメンテーションマップ又は編集されたレイヤ化されたセグメンテーションマップに基づき生成される出力画像が表示される。つまり、本実施形態においては、セグメンテーションが行われた各パーツごとにセグメンテーションがレイヤ分けされている。つまり、認識された物体のグループごとにレイヤ分けがされている。このように、レイヤ化されたセグメンテーションマップは、少なくとも２つ以上のレイヤを備え、表示装置上において各レイヤの表示と非表示を切り替えることが可能である。これにより、後述するように、各パーツのセグメンテーションマップの編集を容易に行うことができる。

図１１に示されるように、ユーザがレイヤ化されたセグメンテーションマップの目の部分をフォーカスし、レイヤ一覧から白目のレイヤを選択すると、白目のレイヤが露出されたレイヤ化されたセグメンテーションマップが表示される。

また、図１２に示されるように、ユーザがレイヤ化されたセグメンテーションマップの目の部分をフォーカスし、レイヤ一覧からまつげ、黒目及び白目を選択し、更にこれらのパーツを不可視化すると、これらのパーツが不可視化されて、次レイヤの顔が露出されたレイヤ化されたセグメンテーションマップが表示される。

また、図１３に示されるように、ユーザがレイヤ一覧から黒目を選択し、更に矩形選択を選択すると、矩形の黒目の部分が露出されたレイヤ化されたセグメンテーションマップが表示される。さらに、図１４に示されるように、ユーザはレイヤ化されたセグメンテーションマップの矩形の黒目部分を移動させることも可能である。さらに、図１５に示されるように、ユーザが適用ボタンを押下すると、編集済みのレイヤ化されたセグメンテーションマップが反映された出力画像が表示される。

また、図１６に示されるように、ユーザがキャラクタの髪を伸ばすために図示されるようにレイヤ化されたセグメンテーションマップを編集したとき、伸ばした髪が服を覆うことになる。ユーザが伸ばした髪によって服が隠れてしまうことを防ぐため、図１７に示されるようにレイヤ一覧の服のレイヤを選択すると、図示されるように、伸ばした髪によって服が隠れないようにレイヤ化されたセグメンテーションマップが編集される。

ここで、図１８に示されるように、ユーザはデータ生成装置１００によって保持される複数のリファレンス画像から所望の画像を選択することが可能である。例えば、図１９に示されるように、選択したリファレンス画像の特徴を入力画像に適用し、出力画像を生成することも可能である。
［訓練装置（モデル生成装置）］
次に、図２０〜２２を参照して、本開示の一実施例による訓練装置２００を説明する。訓練装置２００は、データベース３００に格納されている訓練データを利用して、訓練対象のエンコーダ２１０、セグメンテーションモデル２２０、デコーダ２３０及び判別器２４０をエンド・ツー・エンド方式で訓練する。図２０は、本開示の一実施例による訓練装置２００を示すブロック図である。

図２０に示されるように、訓練装置２００は、訓練用の画像及びレイヤ化されたセグメンテーションマップを利用して、訓練対象のエンコーダ２１０、セグメンテーションモデル２２０及びデコーダ２３０をＧＡＮｓ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）に基づくエンド・ツー・エンド方式によって訓練し、訓練完了後のエンコーダ２１０、セグメンテーションモデル２２０及びデコーダ２３０を訓練済みエンコーダ１１０、セグメンテーションモデル１２０及びデコーダ１３０としてデータ生成装置１００に提供する。

具体的には、訓練装置２００は、訓練用の画像をエンコーダ２１０に入力し、特徴マップを取得し、取得した特徴マップと訓練用のレイヤ化されたセグメンテーションマップとに基づきデコーダ２３０から出力画像を取得する。具体的には、図２１に示されるように、訓練装置２００は、エンコーダ２１０から取得した特徴マップと訓練用のレイヤ化されたセグメンテーションマップとに対して平均プーリングなどのプーリングを実行し、特徴ベクトルを導出する。そして、訓練装置２００は、導出した特徴ベクトルを当該レイヤ化されたセグメンテーションマップによって展開し、導出された特徴マップをデコーダ２３０に入力し、デコーダ２３０から出力画像を取得する。

そして、訓練装置２００は、デコーダ２３０から生成された出力画像と訓練用のレイヤ化されたセグメンテーションマップとのペアと、入力画像と訓練用のレイヤ化されたセグメンテーションマップとのペアとの何れかを判別器２４０に入力し、判別器２４０の判別結果に基づき損失値を取得する。具体的には、判別器２４０が入力されたペアを正しく判別した場合、損失値はゼロなどに設定され、判別器２４０が入力されたペアを誤って判別した場合、損失値は非ゼロの正値に設定されてもよい。あるいは、訓練装置２００は、デコーダ２３０から生成された出力画像と、入力画像との何れかを判別器２４０に入力し、判別器２４０の判別結果に基づき損失値を取得してもよい。

一方、訓練装置２００は、出力画像と入力画像との特徴マップから特徴量の差を示す損失値を取得する。当該損失値は、特徴量の差が小さい場合には小さくなるように設定され、他方、特徴量の差が大きい場合には大きくなるように設定されてもよい。

訓練装置２００は、取得した２つの損失値に基づきエンコーダ２１０、デコーダ２３０及び識別器２４０の各パラメータを更新する。用意された全ての訓練データに対して上述した手順の実行が完了したなどの所定の終了条件を充足すると、訓練装置２００は、最終的に獲得されたエンコーダ２１０及びデコーダ２３０を訓練済みエンコーダ１１０及びデコーダ１３０としてデータ生成装置１００に提供する。

他方、訓練装置２００は、訓練用の画像とレイヤ化されたセグメンテーションマップとのペアを利用してセグメンテーションモデル２２０を訓練する。例えば、人手によって画像に含まれる各オブジェクトがセグメント化され、各セグメントに当該オブジェクトのラベルが付与されることによって、訓練用のレイヤ化されたセグメンテーションマップが作成されてもよい。

例えば、セグメンテーションモデル２２０は、図２２に示されるようなＵ−Ｎｅｔ型のニューラルネットワークアーキテクチャを有してもよい。訓練装置２００は、セグメンテーションモデル２２０に訓練用の画像を入力し、レイヤ化されたセグメンテーションマップを取得する。訓練装置２００は、セグメンテーションモデル２２０から取得したレイヤ化されたセグメンテーションマップと訓練用のレイヤ化されたセグメンテーションマップとの誤差に従ってセグメンテーションモデル２２０のパラメータを更新する。用意された全ての訓練データに対して上述した手順の実行が完了したなどの所定の終了条件を充足すると、訓練装置２００は、最終的に獲得されたセグメンテーションモデル２２０を訓練済みセグメンテーションモデル１２０としてデータ生成装置１００に提供する。

なお、訓練対象のエンコーダ２１０、セグメンテーションモデル２２０及びデコーダ２３０の１つ以上は事前訓練されたものであってもよい。この場合、より少ない訓練データによってエンコーダ２１０、セグメンテーションモデル２２０及びデコーダ２３０を訓練することが可能になりうる。
［訓練処理（モデル生成処理）］
次に、図２３を参照して、本開示の一実施例による訓練処理を説明する。当該訓練処理は、上述した訓練装置２００によって実現され、例えば、訓練装置２００の１つ以上のプロセッサ又は処理回路がプログラム又は命令を実行することによって実現されてもよい。図２３は、本開示の一実施例による訓練処理を示すフローチャートである。

図２３に示されるように、ステップＳ２０１において、訓練装置２００は、訓練用の入力画像から特徴マップを取得する。具体的には、訓練装置２００は、訓練用の入力画像を訓練対象のエンコーダ２１０に入力し、エンコーダ２１０から特徴マップを取得する。

ステップＳ２０２において、訓練装置２００は、取得した特徴マップと訓練用のレイヤ化されたセグメンテーションマップとから出力画像を取得する。具体的には、訓練装置２００は、エンコーダ２１０から取得した特徴マップと訓練用のレイヤ化されたセグメンテーションマップとに対して平均プーリングなどのプーリングを実行し、特徴ベクトルを導出する。そして、訓練装置２００は、導出した特徴ベクトルを訓練用のレイヤ化されたセグメンテーションマップによって展開し、特徴マップを導出する。そして、訓練装置２００は、導出した特徴マップを訓練対象のデコーダ２３０に入力し、デコーダ２３０から出力画像を取得する。

ステップＳ２０３において、訓練装置２００は、入力画像と訓練用のレイヤ化されたセグメンテーションマップとのペア、又は出力画像と訓練用のレイヤ化されたセグメンテーションマップとのペアの何れかを訓練対象の判別器２４０に入力し、入力されたペアが入力画像と訓練用のレイヤ化されたセグメンテーションマップとのペアと、出力画像と訓練用のレイヤ化されたセグメンテーションマップとのペアとの何れであるか判別器２４０に判別させる。訓練装置２００は、判別器２４０の判別結果の正誤に対応して判別器２４０の損失値を決定し、決定した損失値に従って判別器２４０のパラメータを更新する。

ステップＳ２０４において、訓練装置２００は、入力画像と出力画像との特徴マップの誤差に応じて損失値を決定し、決定した損失値に従ってエンコーダ２１０及びデコーダ２３０のパラメータを更新する。

ステップＳ２０５において、訓練装置２００は、終了条件が充足されたか判断し、終了条件が充足された場合（Ｓ２０５：ＹＥＳ）、当該訓練処理を終了する。他方、終了条件が充足されていない場合（Ｓ２０５：ＮＯ）、訓練装置２００は、次の訓練データに対してステップＳ２０１〜Ｓ２０５を実行する。ここで、当該終了条件は、用意された全ての訓練データに対してステップＳ２０１〜Ｓ２０５が実行されたことなどであってもよい。
［ハードウェア構成］
前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）の一部又は全部は、ハードウェアで構成されていてもよいし、ＣＰＵ（Central Processing Unit）、又はＧＰＵ（Graphics Processing Unit）等が実行するソフトウェア（プログラム）の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）、又はＵＳＢ（Universal Serial Bus）メモリ等の非一時的な記憶媒体（非一時的なコンピュータ可読媒体）に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがＡＳＩＣ（Application Specific Integrated Circuit）、又はＦＰＧＡ（Field Programmable Gate Array）等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。

ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。

図２４は、前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）のハードウェア構成の一例を示すブロック図である。各装置は、一例として、プロセッサ１０１と、主記憶装置１０２（メモリ）と、補助記憶装置１０３（メモリ）と、ネットワークインタフェース１０４と、デバイスインタフェース１０５と、を備え、これらがバス１０６を介して接続されたコンピュータ１０７として実現されてもよい。

図２４のコンピュータ１０７は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図２４では、１台のコンピュータ１０７が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース１０４等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）は、１又は複数の記憶装置に記憶された命令を１台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。

前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）の各種演算は、１又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ１０７と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における各装置は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

プロセッサ１０１は、コンピュータの制御装置及び演算装置を含む電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、又はＡＳＩＣ等）であってもよい。また、プロセッサ１０１は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ１０１は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ１０１は、量子コンピューティングに基づく演算機能を含むものであってもよい。

プロセッサ１０１は、コンピュータ１０７の内部構成の各装置等から入力されたデータやソフトウェア（プログラム）に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ１０１は、コンピュータ７のＯＳ（Operating System）や、アプリケーション等を実行することにより、コンピュータ１０７を構成する各構成要素を制御してもよい。

前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）は、１又は複数のプロセッサ１０１により実現されてもよい。ここで、プロセッサ１０１は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいは２つ以上のデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

主記憶装置１０２は、プロセッサ１０１が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置１０２に記憶された情報がプロセッサ１０１により読み出される。補助記憶装置１０３は、主記憶装置１０２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）において各種データを保存するための記憶装置は、主記憶装置１０２又は補助記憶装置１０３により実現されてもよく、プロセッサ１０１に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態における記憶部は、主記憶装置１０２又は補助記憶装置１０３により実現されてもよい。

記憶装置（メモリ）１つに対して、複数のプロセッサが接続（結合）されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ１つに対して、複数の記憶装置（メモリ）が接続（結合）されてもよい。前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）が、少なくとも１つの記憶装置（メモリ）とこの少なくとも１つの記憶装置（メモリ）に接続（結合）される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも１つのプロセッサが、少なくとも１つの記憶装置（メモリ）に接続（結合）される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置（メモリ））とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置（メモリ）がプロセッサと一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

ネットワークインタフェース１０４は、無線又は有線により、通信ネットワーク１０８に接続するためのインタフェースである。ネットワークインタフェース１０４は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース１０４により、通信ネットワーク１０８を介して接続された外部装置１０９Ａと情報のやり取りが行われてもよい。なお、通信ネットワーク１０８は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等の何れか、又は、それらの組み合わせであってよく、コンピュータ１０７と外部装置１０９Ａとの間で情報のやり取りが行われるものであればよい。ＷＡＮの一例としてインターネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット（登録商標）等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標）やＮＦＣ（Near Field Communication）等がある。

デバイスインタフェース１０５は、外部装置１０９Ｂと直接接続するＵＳＢ等のインタフェースである。

外部装置１０９Ａはコンピュータ１０７とネットワークを介して接続されている装置である。外部装置１０９Ｂはコンピュータ１０７と直接接続されている装置である。

外部装置１０９Ａ又は外部装置１０９Ｂは、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータ１０７に与える。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。

また、外部装置１０９Ａ又は外部装置１０９Ｂは、一例として、出力装置でもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）、ＰＤＰ（Plasma Display Panel）、又は有機ＥＬ（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。

また、外部装置１０９Ａまた外部装置１０９Ｂは、記憶装置（メモリ）であってもよい。例えば、外部装置１０９Ａはネットワークストレージ等であってもよく、外部装置１０９ＢはＨＤＤ等のストレージであってもよい。

また、外部装置１０９Ａ又は外部装置１０９Ｂは、前述した実施形態における各装置（データ生成装置１００、又は訓練装置２００）の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ１０７は、外部装置１０９Ａ又は外部装置１０９Ｂの処理結果の一部又は全部を送信又は受信してもよい。

本明細書（請求項を含む）において、「a、b及びcの少なくとも1つ（一方）」又は「a、b又はcの少なくとも1つ（一方）」の表現（同様な表現を含む）が用いられる場合は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素（a、b及びc）以外の他の要素を加えることも含む。

本明細書（請求項を含む）において、「データを入力として／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を入力として用いる場合を含む。また「データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び／又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を出力とする場合も含む。

本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現が用いられる場合は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Ｂを実際に実行するように構築（implemented）されていればよい。

本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」及び有する「（having）等）」が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」又は「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

本明細書において、ある実施例の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び／又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び／又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

本明細書（請求項を含む）において、「最大化（maximize）」等の用語が用いられる場合は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化（minimize）」等の用語が用いられる場合は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化（optimize）」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。

本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は電子回路を含む装置等を含んでよい。

本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置（メモリ）のうち個々の記憶装置（メモリ）は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

１００データ生成装置
１０１プロセッサ
１０２主記憶装置
１０３補助記憶装置
１０４ネットワークインタフェース
１０５デバイスインタフェース
１０６バス
１０８通信ネットワーク
１０９Ａ，Ｂ外部装置
１１０、２１０エンコーダ
１２０、２２０セグメンテーションモデル
１３０、２３０デコーダ
２００訓練装置
２４０識別器

Claims

１つ以上のプロセッサが、第１のデータの特徴マップと、レイヤ化されたセグメンテーションマップとに基づいて、第２のデータを取得するステップを含む、データ生成方法。
前記第１のデータ及び前記第２のデータがそれぞれ画像である、請求項１記載のデータ生成方法。
前記１つ以上のプロセッサが、エンコーダにより取得された第１の画像の第１の特徴マップと、前記レイヤ化されたセグメンテーションマップとから、デコーダを用いて第２の画像を取得するステップを更にを有する、請求項２記載のデータ生成方法。
前記１つ以上のプロセッサが、セグメンテーションモデルを利用して前記第１の画像から前記レイヤ化されたセグメンテーションマップを取得するステップを更に有する、請求項３記載のデータ生成方法。
前記１つ以上のプロセッサが、第３の画像から前記レイヤ化されたセグメンテーションマップを取得するステップを更に有する、請求項３又は４記載のデータ生成方法。
前記１つ以上のプロセッサが、前記レイヤ化されたセグメンテーションマップに対する編集を受け付けるステップを更に有し、
前記第２の画像を取得するステップは、前記デコーダを利用して前記第１の特徴マップと前記編集されたレイヤ化されたセグメンテーションマップとから前記第２の画像を取得する、請求項３乃至５何れか一項記載のデータ生成方法。
前記第２の画像は、前記編集されたレイヤ化されたセグメンテーションマップに対する編集内容を前記第１の画像に反映することによって生成される、請求項６記載のデータ生成方法。
前記第２の画像を取得するステップは、前記第１の特徴マップと第１のレイヤ化されたセグメンテーションマップとに対してプーリングを実行することによって特徴ベクトルを導出し、前記導出した特徴ベクトルを第２のレイヤ化されたセグメンテーションマップによって展開することによって第２の特徴マップを導出し、前記導出した第２の特徴マップを前記デコーダに入力し、前記デコーダから前記第２の画像を取得する、請求項３乃至７何れか一項記載のデータ生成方法。
１つ以上のメモリと、
１つ以上のプロセッサと、
を有し、
前記１つ以上のプロセッサは、
第１のデータの特徴マップと、レイヤ化されたセグメンテーションマップとに基づいて、第２のデータを取得するデータ生成装置。
前記第１のデータ及び前記第２のデータがそれぞれ画像である、請求項９記載のデータ生成装置。
前記１つ以上のプロセッサは更に、エンコーダにより取得された第１の画像の第１の特徴マップと、前記レイヤ化されたセグメンテーションマップとから、デコーダを用いて第２の画像を取得する、請求項１０記載のデータ生成装置。
前記１つ以上のプロセッサは更に、セグメンテーションモデルを利用して前記第１の画像から前記レイヤ化されたセグメンテーションマップを取得する、請求項１１記載のデータ生成装置。
前記１つ以上のプロセッサは更に、第３の画像から前記レイヤ化されたセグメンテーションマップを取得する、請求項１１又は１２記載のデータ生成装置。
前記１つ以上のプロセッサは更に、前記レイヤ化されたセグメンテーションマップに対する編集を受け付け、
前記１つ以上のプロセッサは、前記デコーダを利用して前記第１の特徴マップと前記編集されたレイヤ化されたセグメンテーションマップとから前記第２の画像を取得する、請求項１１乃至１３何れか一項記載のデータ生成装置。
前記第２の画像は、前記編集されたレイヤ化されたセグメンテーションマップの編集内容を前記第１の画像に反映することによって生成される、請求項１４記載のデータ生成装置。
前記１つ以上のプロセッサは、前記第１の特徴マップと第１のレイヤ化されたセグメンテーションマップとに対してプーリングを実行することによって特徴ベクトルを導出し、前記導出した特徴ベクトルを第２のレイヤ化されたセグメンテーションマップによって展開することによって第２の特徴マップを導出し、前記導出した第２の特徴マップを前記デコーダに入力し、前記デコーダから前記第２の画像を取得する、請求項１１乃至１５何れか一項記載のデータ生成装置。
前記レイヤ化されたセグメンテーションマップは、少なくとも第１のレイヤ及び第２のレイヤを備え、表示装置上において前記第１のレイヤ及び前記第２のレイヤの表示と非表示を切り替えることが可能である、請求項９乃至１６何れか一項記載のデータ生成装置。
第１のデータの特徴マップと、レイヤ化されたセグメンテーションマップとに基づいて、第２のデータを取得する処理
を１つ以上のコンピュータに実行させるプログラム。
１つ以上のプロセッサが、訓練対象のエンコーダを利用して訓練用の第１の画像から第１の特徴マップを取得するステップと、
前記１つ以上のプロセッサが、訓練対象のデコーダを利用して前記第１の特徴マップと訓練用のレイヤ化されたセグメンテーションマップとから第２の画像を取得するステップと、
前記１つ以上のプロセッサが、前記第１の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第１のペアと、前記第２の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第２のペアとの何れかを判別器に入力し、前記判別器の判別結果に基づき決定された第１の損失値に応じて前記判別器のパラメータを更新するステップと、
前記１つ以上のプロセッサが、前記第１の画像と前記第２の画像との特徴量の差を示す第２の損失値を決定し、前記決定された第２の損失値に応じて前記エンコーダと前記デコーダとのパラメータを更新するステップと、
を有するモデル生成方法。
１つ以上のメモリと、
１つ以上のプロセッサと、
を有し、
前記１つ以上のプロセッサは、
訓練対象のエンコーダを利用して訓練用の第１の画像から第１の特徴マップを取得し、
訓練対象のデコーダを利用して前記第１の特徴マップと訓練用のレイヤ化されたセグメンテーションマップとから第２の画像を取得し、
前記第１の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第１のペアと、前記第２の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第２のペアとの何れかを判別器に入力し、前記判別器の判別結果に基づき決定された第１の損失値に応じて前記判別器のパラメータを更新し、
前記第１の画像と前記第２の画像との特徴量の差を示す第２の損失値を決定し、前記決定された第２の損失値に応じて前記エンコーダと前記デコーダとのパラメータを更新するモデル生成装置。
訓練対象のエンコーダを利用して訓練用の第１の画像から第１の特徴マップを取得する処理と、
訓練対象のデコーダを利用して前記第１の特徴マップと訓練用のレイヤ化されたセグメンテーションマップとから第２の画像を取得する処理と、
前記第１の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第１のペアと、前記第２の画像と前記訓練用のレイヤ化されたセグメンテーションマップとの第２のペアとの何れかを判別器に入力し、前記判別器の判別結果に基づき決定された第１の損失値に応じて前記判別器のパラメータを更新する処理と、
前記第１の画像と前記第２の画像との特徴量の差を示す第２の損失値を決定し、前記決定された第２の損失値に応じて前記エンコーダと前記デコーダとのパラメータを更新する処理と、
を１つ以上のコンピュータに実行させるプログラム。