JP7414531B2

JP7414531B2 - 学習装置、学習方法及びプログラム

Info

Publication number: JP7414531B2
Application number: JP2020000148A
Authority: JP
Inventors: 玲子野田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2024-01-16
Anticipated expiration: 2040-01-06
Also published as: JP2021110968A; US20210209452A1; EP3846084A1

Description

本発明の実施形態は学習装置、学習方法及びプログラムに関する。

クラス識別、物体検出及び位置回帰などの推定を行うニューラルネットワークなどの機械学習で使用される学習データを生成する技術が従来から知られている。例えば、変分自己符号化器（ＶＡＥ）や敵対的ネットワーク（ＧＡＮ）などのディープラーニングを用いて学習データに類似したデータを生成する技術が、学習データの水増しや学習データの代替に利用されている。

特開２０１８－１３９０７１号公報

ＳＰＬＡＴ：ＳｅｍａｎｔｉｃＰｉｘｅｌ－ＬｅｖｅｌＡｄａｐｔａｔｉｏｎＴｒａｎｓｆｏｒｍｓｆｏｒＤｅｔｅｃｔｉｏｎ（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１８１２．００９２９．ｐｄｆ）Ｊｕｎ－ＹａｎＺｈｕ，ＴａｅｓｕｎｇＰａｒｋ，ＰｈｉｌｌｉｐＩｓｏｌａ，ＡｌｅｘｅｉＡ．Ｅｆｒｏｓ，"ＵｎｐａｉｒｅｄＩｍａｇｅ－ｔｏ－ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｕｓｉｎｇＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ"ＩＣＣＶ２０１７Ａ．Ｒａｄｆｏｒｄ，Ｌ．Ｍｅｔｚ，ａｎｄＳ．Ｃｈｉｎｔａｌａ．Ｕｎｓｕｐｅｒｖｉｓｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ．ＩｎＩＣＬＲ，２０１６ＰｈｉｌｌｉｐＩｓｏｌａ，Ｊｕｎ－ＹａｎＺｈｕ，ＴｉｎｇｈｕｉＺｈｏｕ，ＡｌｅｘｅｉＡ．Ｅｆｒｏｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，Ｂｅｒｋｅｌｅｙ，"Ｉｍａｇｅ－ｔｏ－ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｗｉｔｈＣｏｎｄｉｔｉｏｎａｌＡｄｖｅｒｓａｒｉａｌＮｅｔｓ，"ＣＶＰＲ２０１７

しかしながら従来の技術では、推定に用いられるニューラルネットワークの汎化性能の向上に適した学習データを生成することが困難だった。

実施形態の学習装置は、推論部と変換部と第１の更新部と第２の更新部とを備える。推論部は、第１のドメインのデータを受け付け、第１の推論結果を出力する第１のニューラルネットワークを用いて推論タスクを実行する。変換部は、第２のドメインのデータを受け付け、前記第２のドメインのデータを前記第１のドメインのデータに類似する第１の変換データに変換する第２のニューラルネットワークを用いて、前記第２のドメインのデータを前記第１の変換データに変換する。第１の更新部は、前記第２のニューラルネットワークのパラメータを、前記第１の変換データの特徴を示す分布が、前記第１のドメインのデータの特徴を示す分布に近づくように更新する。第２の更新部は、前記第１の変換データが前記第１のニューラルネットワークに入力されたときに出力された第２の推論結果と、前記第１の変換データの正解ラベルと、前記第１の推論結果と、前記第１のドメインのデータの正解ラベルとに基づいて、前記第１のニューラルネットワークのパラメータを更新する。前記第１の更新部は、前記第１のドメインのデータ、及び、前記第１の変換データのいずれかの入力を受け付け、前記第１のドメインのデータか否かを判定する第３のニューラルネットワークを用いて、前記第２及び第３のニューラルネットワークに敵対的学習を行うことによって、前記第２及び第３のニューラルネットワークのパラメータを更新する。前記第１及び第３のニューラルネットワークは、少なくとも一部の重みを共有する。

第１実施形態の学習装置の機能構成の例を示す図。第１実施形態のニューラルネットワークの構成例を示す図。第１実施形態の学習方法の例を示すフローチャート。第２実施形態のニューラルネットワークの構成例を示す図。第２実施形態の学習方法の例を示すフローチャート。第２実施形態の変形例のニューラルネットワークの構成例を示す図。第３実施形態のニューラルネットワークの構成例を示す図。第３実施形態の学習方法の例を示すフローチャート。第４実施形態のニューラルネットワークの構成例を示す図。第４実施形態の学習方法の例を示すフローチャート。

以下に添付図面を参照して、学習装置、学習方法及びプログラムの実施形態を詳細に説明する。

（第１実施形態）
第１実施形態の学習装置は、第１ドメインのデータとして例えば画像の入力を受け付け、推論タスクを行う第１のニューラルネットワークを学習する装置である。推論タスクは、例えば画像に映っている被写体がどのような物体なのかを識別する処理、画像内の物体の画像上の位置を推定する処理、画像内の各ピクセルのラベルを推定する処理、及び、物体の特徴点の位置を回帰する処理等を含む。

なお、第１のニューラルネットワークが行う推論タスクは、上記にあげた例に限らず、ニューラルネットワークで推論できるタスクであればどのようなものでもよい。

第１のニューラルネットワークに対する入力、すなわち第１のドメインのデータについても画像に限られない。例えば、第１のドメインのデータは、音声やテキスト、動画、あるいはそれらの組み合わせなど、第１のニューラルネットワークに入力され、第１のニューラルネットワークで計算可能なデータであれば任意でよい。

例えば、第１のニューラルネットワークの入力が、車載カメラによって撮影された前方の画像であり、学習装置が、画像内の他車両の向きを推定する推論タスクの学習を行う場合について説明する。

このような推論タスクを学習するために、第１実施形態の学習装置には、車載カメラであらかじめ撮影された画像（第１のドメインのデータ）と、正解ラベルのデータと、が格納されている。正解ラベルには、画像内に含まれる他車両の外接矩形や車両の外接直方体の地面と接している頂点の画像内の位置などが記述されている。

また、第１実施形態の学習装置は、第１のドメインのデータによる第１のニューラルネットワークの学習による汎化性能を向上させるため、第２のニューラルネットワークをさらに学習する。第２のニューラルネットワークは、第２のドメインのデータを、第１のドメインのデータに類似するように（第１のドメインのデータ風に）変換する。

第２のドメインのデータは、例えばＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）である。ＣＧによる学習用の画像は、自動で大量に生成可能である。また、ＣＧによって生成された学習用の画像では、例えば画像内の車両の外接矩形や車両の外接直方体の地面と接している頂点の画像内の位置などが記述された正解ラベルも、人間の手で教示することなく自動で生成可能である。

このように生成された学習用のＣＧ画像（第２のドメインのデータ）と、それらに対する正解ラベルとが第１実施形態の学習装置に格納される。

なお、第２のドメインのデータは、ＣＧに限られない。第２のドメインのデータ及びその正解ラベルは、第１のドメインのデータの水増しあるいは代替として利用できるデータと、正解データとの組であれば任意でよい。例えば第２のドメインのデータは、画像データでもよいし、言葉で定義されたテキストデータでもよい。

また正解ラベルについては、第１のドメインのデータの正解ラベルには含まれているが、第２のドメインのデータの正解ラベルには含まれていないデータがあってもよい。逆に、第２のドメインのデータの正解ラベルには含まれているが、第１のドメインのデータの正解ラベルには含まれていないデータがあってもよい。

また、第２のニューラルネットワークが、第１のドメインのデータの正解ラベルから第１のドメインのデータに対応するデータを生成できる場合、第２のドメインのデータの正解ラベルを用意しなくてもよい（第１のドメインのデータの正解ラベルと同一でもよい）。

第２のニューラルネットワークは、第２のドメインのデータを第１のドメインのデータに類似するように変換できるニューラルネットワークであれば任意でよい。第２のニューラルネットワークには、第２のドメインのデータ形式と第１のドメインのデータ形式とに基づいて、最も適切な変換技術を適用してよい。第２のニューラルネットワークに適用される変換技術は、例えばＣｙｃｌｅＧＡＮ（非特許文献２）、ＤＣＧＡＮ（非特許文献３）及びＰｉｘ２Ｐｉｘ（非特許文献４）などである。

［構成例］
図１は、第１実施形態の学習装置１の構成例を示すブロック図である。この学習装置１は、例えば専用または汎用コンピュータを用いて構成される。第１実施形態の学習装置１は、図１に示すように、処理回路１０、記憶回路２０、通信部３０、及び、各部を接続するバス４０を備える。

処理回路１０は、取得部１１、変換部１２、推論部１３及び更新部１４を備える。各部の処理の具体的な説明については後述する。なお、図１では、第１実施形態に関わる主要な機能ブロックを例示しているが、処理回路１０が有する機能はこれらに限られない。

学習装置１で実行される各機能の処理は、例えば、コンピュータによって実行可能なプログラムの形態で記憶回路２０に記憶されている。処理回路１０は、記憶回路２０からプログラムを読み出して実行することで、各プログラムに対応する機能を実現するプロセッサである。各プログラムを読み出した状態の処理回路１０は、図１に示した各機能ブロックを有する。

なお、図１では、単一の処理回路１０により各機能ブロックが実現されるものとして図示しているが、複数の独立したプロセッサを組み合わせて処理回路１０を構成しても構わない。この場合、各処理機能がプログラムとして構成されてもよいし、特定の機能が専用の独立したプログラム実行回路に実装されてもよい。

上述の「プロセッサ」は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの汎用プロセッサ、あるいは、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（ＳｉｍｐｌｅＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＣＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ））などの回路である。

プロセッサは記憶回路２０に保存されたプログラムを読み出し実行することで機能を実現する。なお、記憶回路２０にプログラムを保存する代わりに、プロセッサの回路内にプログラムを直接組み込むよう構成しても構わない。この場合、プロセッサは回路内に組み込まれたプログラムを読み出し実行することで機能を実現する。

記憶回路２０は、処理回路１０の各機能ブロックに伴うデータなどを必要に応じて記憶する。第１実施形態の記憶回路２０は、プログラムと、各種の処理に用いられるデータとを記憶する。例えば、記憶回路２０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリなどの半導体メモリ素子、ハードディスク、光ディスクなどである。また、記憶回路２０は、物体検出装置１の外部の記憶装置で代替されてもよい。記憶回路２０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどにより伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体であってもよい。また、記憶媒体は１つに限らず、複数の媒体から構成されてもよい。

記憶回路には、あらかじめ学習に用いる第１のドメインのデータ及びそのデータに対する正解ラベルと、第２のドメインのデータとそのデータに対する正解ラベルが格納されていてもよいし、別のサーバなどの装置にあらかじめ格納されている前述のデータを、ＬＡＮなどを介して一部ずつ読み出し、記憶回路に格納してもよい。

通信部３０は、有線または無線で接続された外部装置と情報の入出力を行うインタフェースである。通信部３０は、ネットワークに接続して通信を行ってもよい。

次に、処理回路１０が有する各機能ブロックの処理について説明する。

取得部１１は、記憶回路２０から第１のドメインのデータと、第１のドメインのデータの正解ラベルとを学習データとして読み出す。また、取得部１１は、記憶回路２０から第２のドメインのデータと、第２のドメインのデータの正解ラベルとを学習データとして読み出す。

変換部１２は、ニューラルネットワークを用いて、第２のドメインのデータを受け付け、第２のドメインのデータを第１のドメインのデータに類似する第１の変換データに変換する。なお、変換に用いられるニューラルネットワークの構成の詳細については、後述する。

推論部１３は、学習の対象となるニューラルネットワークに対し、取得機能１１によって読み出された学習データを入力して、その入力に対するニューラルネットワークの出力を計算する。なお、学習の対象となるニューラルネットワークの構成の詳細については、後述する。

更新部１４は、推論部１３で計算された出力と、取得部１１によって読み出された学習データ（第１のドメインのデータの正解ラベル、又は、第２のドメインのデータの正解ラベル）に基づいて、ニューラルネットワークのパラメータを更新する。なお、更新方法の詳細については後述する。

［ニューラルネットワークの構成例］
図２は第１実施形態のニューラルネットワークの構成例を示す図である。図２の例では、第１のドメインのデータとして実画像が用いられ、第２のドメインのデータとしてＣＧが用いられる場合を示す。

第１及び第２のドメインのデータは、Ｒ，Ｇ，Ｂのカラー画像でもよいし、色空間を変換したカラー画像（例えばＹ，Ｕ，Ｖのカラー画像）でもよい。また、第１及び第２のドメインのデータは、カラー画像をモノクロ化した１チャンネルの画像でもよい。また、第１及び第２のドメインのデータは、そのままの画像ではなく、例えばＲ，Ｇ，Ｂのカラー画像であれば、各チャンネルの画素値の平均値を引いた画像でもよい。また例えば、第１及び第２のドメインのデータは、各画素の画素値を０～１あるいは－１～１の範囲とした正規化画像などでもよい。正規化は、例えば各画素の画素値から平均値を引いた後、各画素値を分散あるいは画像の画素値のダイナミックレンジで割ることにより行われる。

図２に示されるように、第１のニューラルネットワーク（以下図面では「ニューラルネットワーク」を「ＮＮ」と示す）１０１ａは、第１のドメインのデータの入力を受け付けると、第１の推論結果を出力する。

第２のニューラルネットワーク１０２は、第２のドメインのデータの入力を受け付けると、第２のドメインのデータを第１のドメインのデータに類似する第１の変換データに変換して出力する。

第１のニューラルネットワーク１０１ｂは、第１の変換データの入力を受け付けると、第２の推論結果を出力する。なお、第１のニューラルネットワーク１０１ｂのパラメータ（重み）は、少なくとも一部又は全部が、第１のニューラルネットワーク１０１ａと共有（以下図面では「共有」を「Ｓｈａｒｅ」と示す）される。第１のニューラルネットワーク１０１ａ及び１０１ｂのパラメータ（重み）の全部が共有される場合、第１のニューラルネットワーク１０１ａ及び１０１ｂは、１つの第１のニューラルネットワーク１０１として実現される。

第１のニューラルネットワーク１０１ａ及び１０１ｂは、推論タスクを実行する上述の推論部１３によって利用される。第２のニューラルネットワーク１０２は、上述の変換部１２によって利用される。

第１のニューラルネットワーク１０１ａ及び１０１ｂと第２のニューラルネットワーク１０２のパラメータは、更新部１４によって更新される。更新部１４は、第１の更新部１４１と、第２の更新部１４２とを備える。

第１の更新部１４１は、第１のニューラルネットワーク１０１ａから第１のドメインのデータを受け付ける。そして、第１の更新部１４１は、第２のニューラルネットワーク１０２のパラメータを、第１の変換データの特徴を示す分布が、第１のドメインのデータの特徴を示す分布に近づくように更新する。

第２の更新部１４２は、第１のニューラルネットワーク１０１ｂから第２の推論結果を受け付け、取得部１１から第１の変換データの正解ラベルを受け付け、第１のニューラルネットワーク１０１ａから第１の推論結果を受け付け、取得部１１から第１のドメインのデータの正解ラベルを受け付ける。

そして、第２の更新部１４２は、第２の推論結果と、第１の変換データの正解ラベルと、第１の推論結果と、第１のドメインのデータの正解ラベルとに基づいて、第１のニューラルネットワーク１０１ａ及び１０１ｂのパラメータを更新する。

具体的には、第２の更新部１４２は、第１の推論結果と、第１のドメインのデータの正解ラベルとの差分から損失Ｌ_ｒｅａｌを計算する。また同様に、第２の更新部１４２は、第２の推論結果と、第１の変換データの正解ラベルとの差分から損失Ｌ_ｆａｋｅを計算する。そして第２の更新部１４２は、Ｌ_ｒｅａｌとＬ_ｆａｋｅとを下記式（１）によって重み付き加算することにより損失Ｌを求める。

Ｌ＝ａ＊Ｌ_ｒｅａｌ＋ｂ＊Ｌ_ｆａｋｅ・・・（１）
ただしａ，ｂは所定の定数である。

そして第２の更新部１４２は、この損失Ｌが最小となるように第１のニューラルネットワーク１０１ａ及び１０１ｂのパラメータを更新する。

なお、第１のニューラルネットワーク１０１ａ及び１０１ｂのパラメータの更新方法については、ここに述べた方法だけでなく、第１のニューラルネットワーク１０１ａ及び１０１ｂの出力が第１及び第２のドメインの正解ラベルに近づく方法であれば任意でよい。

また損失の計算方法は、損失をニューラルネットワークに遡及させてパラメータを更新できれば、どのような計算で行ってもよく、タスクに応じた損失の計算方法を選択すればよい。例えば損失の計算方法は、クラス識別であれば例えばＳｏｆｔｍａｘＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ、回帰であればＬ１ＬｏｓｓやＬ２Ｌｏｓｓなどを選択すればよい。また、学習の進み具合に応じて、上記の定数ａ，ｂを適応的に変更してもよい。

また、第２の更新部１４２は、第２の推論結果と、第１の変換データの正解ラベルと、第１の推論結果と、第１のドメインのデータの正解ラベルとに基づいて、第２のニューラルネットワーク１０２のパラメータを更新する。具体的には、第２の更新部１４２は、損失Ｌが最小となるように第２のニューラルネットワーク１０２のパラメータを更新する。

［学習方法の例］
図３は第１実施形態の学習方法の例を示すフローチャートである。はじめに、取得部１１が、記憶回路２０から学習データ（第１のドメインのデータ、第１のドメインのデータの正解ラベル、第２のドメインのデータ、及び、第２のドメインのデータの正解ラベル）を読み出す。

取得部１１は、例えば第１のドメインが実画像で第２のドメインがＣＧの場合、実画像とその正解ラベルとを１枚ずつ、ＣＧとその正解ラベルとを１枚ずつ読み出してもよい。また例えば、取得部１１は、実画像とその正解ラベルの組、及び、ＣＧとその正解ラベルの組を、例えば２枚や４枚、８枚ずつなど複数枚をセットで読み出してもよい。また例えば、取得部１１は、第１のドメインのデータ及び第２ドメインのデータの読み込み枚数を変えてもよい。

これらの入力の組（１度に処理対象とするデータの単位）を以降ではバッチと呼ぶことがある。また入力１バッチに対するパラメータ更新処理の回数をイテレーション数と呼ぶことがある。

次に、変換部１２が、第２のニューラルネットワーク１０２による変換処理を実行する（ステップＳ２）。具体的には、変換部１２は、読み込まれたバッチ内の第２のドメインのデータを第２のニューラルネットワーク１０２に入力し、第１の変換データを生成する。

次に、推論部１３が、第１のニューラルネットワーク１０１ａ及び１０１ｂによる推論処理を実行する（ステップＳ３）。第１のニューラルネットワーク１０１ａには、読み込まれたバッチ内の第１のドメインのデータが入力され、第１のニューラルネットワーク１０１ｂには、ステップＳ２の処理によって得られた第１の変換データが入力される。

次に、第２の更新部１４２が、ステップＳ２及びステップＳ３の処理結果に基づいて、上述の式（１）により定義された損失を計算する（ステップＳ４）。

次に、第２の更新部１４２が、ステップＳ４の処理によって計算された損失に基づいて、第１のニューラルネットワーク１０１ａ及びｂを更新する（ステップＳ５）。

次に、第１の更新部１４１、及び、第２の更新部１４２が、第２のニューラルネットワーク１０２を更新する（ステップＳ６）。具体的には、第１の更新部１４１は、第２のニューラルネットワーク１０２のパラメータを、第１の変換データの特徴を示す分布が、第１のドメインのデータの特徴を示す分布に近づくように更新する。また、第２の更新部１４２は、ステップＳ４の処理によって計算された損失に基づいて、第２のニューラルネットワーク１０２を更新する。

次に、更新部１４が、所定の回数（イテレーション数）、更新処理を繰り返したか否かを判定する（ステップＳ７）。所定の回数、更新処理を繰り返していない場合（ステップＳ７，Ｎｏ）、処理はステップＳ１に戻り、所定の回数、更新処理を繰り返した場合（ステップＳ７，Ｙｅｓ）、処理は終了する。

以上、説明したように、第１実施形態の学習装置１では、推論部１３が、第１のドメインのデータを受け付け、第１の推論結果を出力する第１のニューラルネットワーク１０１を用いて推論タスクを実行する。変換部１２は、第２のドメインのデータを受け付け、第２のドメインのデータを第１のドメインのデータに類似する第１の変換データに変換する第２のニューラルネットワーク１０２を用いて、第２のドメインのデータを第１の変換データに変換する。第１の更新部１４１は、第２のニューラルネットワーク１０２のパラメータを、第１の変換データの特徴を示す分布が、第１のドメインのデータの特徴を示す分布に近づくように更新する。第２の更新部１４２は、第１の変換データが第１のニューラルネットワーク１０１に入力されたときに出力された第２の推論結果と、第１の変換データの正解ラベルと、第１の推論結果と、第１のドメインのデータの正解ラベルとに基づいて、第１のニューラルネットワーク１０１のパラメータを更新する。

これにより第１実施形態の学習装置１によれば、推定に用いられるニューラルネットワーク（第１のニューラルネットワーク１０１）の汎化性能の向上に適した学習データを生成することができる。具体的には、第１実施形態の学習装置１では、例えば実画像を入力し目的とする推定タスクを実行する第１のニューラルネットワーク１０１と、大量に正解付き画像を生成できるＣＧなどを実画像のドメインに変換する第２のニューラルネットワーク１０２とを同時に学習できる。これにより第１のドメインの画像（実画像など）を推定する推定ネットワーク（第１のニューラルネットワーク１０１）の汎化性能を向上させるのに適した画像を第２のドメインの画像（ＣＧなど）から生成することができ、推定ネットワークの汎化性能を向上させることができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

［ニューラルネットワークの構成例］
図４は第２実施形態のニューラルネットワークの構成例を示す図である。図４に示すように、第２実施形態では、第１の更新部１４１が、更に第３のニューラルネットワーク１０３を用いて更新処理を行う点が、第１実施形態とは異なる。

第３のニューラルネットワーク１０３は、第１のドメインのデータ、及び、第１の変換データのいずれかの入力を受け付け、第１のドメインのデータか否かを判定する（第１のドメインのデータであるか、第１の変換データであるかを識別する）。

第１の更新部１４１は、第３のニューラルネットワーク１０３を用いて、第２のニューラルネットワーク１０２、及び、第３のニューラルネットワーク１０３に敵対的学習を行うことによって、第２のニューラルネットワーク１０２、及び、第３のニューラルネットワーク１０３のパラメータを更新する。

第１の更新部１４１は、入力が第１のドメインのデータであった場合には出力が１になるように、また入力が第１の変換データであった場合には出力が０になるように第３のニューラルネットワーク１０３のパラメータを更新する。第３のニューラルネットワーク１０３のパラメータの更新により最小化すべき損失Ｌ_ｄｉｓは、例えば下記式（２）で表される。

Ｌ_ｄｉｓ＝Ｅ（ｌｏｇ（Ｄ（ｘ）））
＋Ｅ（ｌｏｇ（１－Ｄ（ｙ）））・・・（２）

ただしＥ（）は期待値を表す。ｘは第１のドメインのデータからサンプリングした入力集合を表す。ｙは第２のドメインのデータからサンプリングした入力集合を第２のニューラルネットワーク１０２に入力したときの出力である第１の変換データをサンプリングした入力集合を表す。Ｄ（ｘ）は第３のニューラルネットワーク１０３にｘを入力したときの出力を表す。Ｄ（ｙ）は第３のニューラルネットワーク１０３にｙを入力したときの出力を表す。

また、第１の更新部１４１は、第３のニューラルネットワーク１０３に第１の変換データを入力したときの出力が１になるように、第２のニューラルネットワーク１０２のパラメータを更新する。すなわち、第１の更新部１４１は、以下の損失Ｌ_ｇｅｎを最小化するようにパラメータを更新する。

Ｌ_ｇｅｎ＝Ｅ（ｌｏｇ（Ｄ（ｙ）））・・・（３）

なお、敵対的学習方法の詳細は、例えば上述の非特許文献１に記載されている。また、上記の式（２），（３）ではなく、以下の式（４），（５）のように２乗誤差を最小化してもよい。

Ｌ_ｄｉｓ＝Ｅ（（１－Ｄ（ｘ））^２）＋Ｅ（（Ｄ（ｙ））^２）・・・（４）
Ｌ_ｇｅｎ＝Ｅ（（１－Ｄ（ｙ））^２）・・・（５）

なお、損失を定義する式は、ここで提示した式（２）～（５）に限られず、敵対的に学習できる損失であれば、損失はどのような式で定義されていてもよい。

また、更新部１４（第１の更新部１４１、及び、第２の更新部１４２）は、第２のニューラルネットワーク１０２を学習するとき、上述のＬ_ｇｅｎを以下の式（６）に変更して、Ｌ_ｇｅｎを最小化するようにパラメータを更新してもよい。

Ｌ_ｇｅｎ＝Ｅ（（１－Ｄ（ｙ））^２）＋ｃ＊Ｌ・・・（６）

ただし、ｃは所定の定数であり、Ｌは上述の式（１）で定義された第１のニューラルネットワーク１０１ａ及び１０１ｂの損失である。更新部１４（第１の更新部１４１、及び、第２の更新部１４２）が、このＬ_ｇｅｎを最小化するようにパラメータを更新することで、第２のニューラルネットワーク１０２は第１のニューラルネットワーク１０１ａ及び１０１ｂの損失も考慮して学習を行うことができるようになる。これにより、第１のニューラルネットワーク１０１ａ及び１０１ｂの汎化性能を向上させることが可能な第１の変換データを、第２のニューラルネットワーク１０２が生成できるように、第２のニューラルネットワーク１０２を学習できる。

［学習方法の例］
図５は第２実施形態の学習方法の例を示すフローチャートである。ステップＳ１１及びステップＳ１２の処理は、第１実施形態のステップＳ１及びステップＳ２（図１参照）と同じなので省略する。

次に、第１の更新部１４１が、第３のニューラルネットワーク１０３を用いて、第１のドメインのデータ、及び、ステップＳ１２の変換処理により得られた第１の変換データの識別処理を実行する（ステップＳ１２）。具体的には、第１の更新部１４１が、第１の変換データ、及び、読み込まれたバッチ内の第１のドメインのデータを第３のニューラルネットワーク１０３に入力し、出力結果を得る。

次に、推論部１３が、第１のニューラルネットワーク１０１ａ及び１０１ｂによる推論処理を実行する（ステップＳ１３）。第１のニューラルネットワーク１０１ａには、読み込まれたバッチ内の第１のドメインのデータが入力され、第１のニューラルネットワーク１０１ｂには、ステップＳ１２の処理によって得られた第１の変換データが入力される。

次に、第１の更新部１４１、及び、第２の更新部１４２が、ステップＳ１２～ステップＳ１４の処理結果に基づいて、上述の式（１），（２），（６）により定義された損失を計算する（ステップＳ１４）。

次に、第２の更新部１４２が、ステップＳ１４の処理で上述の式（１）によって計算された損失に基づいて、第１のニューラルネットワーク１０１ａ及びｂを更新する（ステップＳ１５）。

次に、第１の更新部１４１が、ステップＳ１４の処理で上述の式（２）によって計算された損失に基づいて、第３のニューラルネットワーク１０３を更新する（ステップＳ１６）。

次に、更新部１４（第１の更新部１４１、及び、第２の更新部１４２）が、ステップＳ１４の処理で上述の式（６）によって計算された損失に基づいて、第２のニューラルネットワーク１０２を更新する（ステップＳ１７）。

次に、更新部１４が、所定の回数（イテレーション数）、更新処理を繰り返したか否かを判定する（ステップＳ１８）。所定の回数、更新処理を繰り返していない場合（ステップＳ１８，Ｎｏ）、処理はステップＳ１に戻り、所定の回数、更新処理を繰り返した場合（ステップＳ１８，Ｙｅｓ）、処理は終了する。

（第２実施形態の変形例）
次に第２実施形態の変形例について説明する。変形例の説明では、第２実施形態と同様の説明については省略し、第２実施形態と異なる箇所について説明する。第１のニューラルネットワーク１０１ａ及び１０１ｂ、第２のニューラルネットワーク１０２、並びに、第３のニューラルネットワーク１０３のうち、少なくとも２つ以上のニューラルネットワークは、少なくとも一部の重みを共有してもよい。

［ニューラルネットワークの構成例］
図６は第２実施形態の変形例のニューラルネットワークの構成例を示す図である。図６の例は、第３のニューラルネットワーク１０３と第１のニューラルネットワーク１０１ａ及び１０１ｂで一部の重みを共有させた場合の構成を示す。図６の例では、共有した部分の重みは、第１の更新部１４１、及び、第２の更新部１４２の双方から更新される。

（第３実施形態）
次に第３実施形態について説明する。第３実施形態の説明では、第２実施形態の変形例と同様の説明については省略し、第２実施形態の変形例と異なる箇所について説明する。第３実施形態では、ＣｙｃｌｅＧＡＮ構成を適用した場合について説明する。

［ニューラルネットワークの構成例］
図７は第３実施形態のニューラルネットワークの構成例を示す図である。図７に示す通り、第３実施形態では、第４のニューラルネットワーク１０４、及び、第５のニューラルネットワーク１０５を更に備える。

第４のニューラルネットワーク１０４は、第１のドメインのデータの入力を受け付けると、第１のドメインのデータを第２のドメインのデータに類似する第２の変換データに変換して出力する。

第５のニューラルネットワーク１０５は、第２のドメインのデータ、及び、第２の変換データのいずれかの入力を受け付け、第２のドメインのデータか否かを判定する（第２のドメインのデータであるか、第２の変換データであるかを識別する）。

図７の構成では、第１の更新部１４１は、第５のニューラルネットワーク１０５の入力が第２のドメインのデータであった場合には出力が１になるように、一方、第５のニューラルネットワーク１０５の入力が第２の変換データ２０６であった場合には出力が０になるように第５のニューラルネットワーク１０５のパラメータを更新する。

また、第１の更新部１４１は、第５のニューラルネットワーク１０５に第２の変換データを入力したときの出力が１になるように、第２のニューラルネットワーク１０２及び第４のニューラルネットワーク１０４のパラメータを更新する。
すなわち、以下の損失が最小になるようにパラメータを更新する。
Ｌ_ｄｉｓ＝Ｅ（ｌｏｇ（ＤＢ（ｘ）））
＋Ｅ（ｌｏｇ（１－ＤＢ（ｙ）））・・・（２’）
ここでＤＢ（ｘ）は第５のニューラルネットワーク１０５の出力を示す。ｘは第２のドメインのデータからサンプリングした入力集合を表す。ｙは第１のドメインのデータからサンプリングした入力集合を第４のニューラルネットワーク１０４に入力したときの出力である第２の変換データをサンプリングした入力集合を表す。また、上記の式（２’）ではなく、以下の式（４’）のように２乗誤差を最小化してもよい。
Ｌ_ｄｉｓ＝Ｅ（（１－ＤＢ（ｘ））^２）＋Ｅ（（ＤＢ（ｙ））^２）・・・（４’）

また、第１の更新部１４１は、第２の変換データを第２のニューラルネットワーク１０２に入力したときの出力が、第１のドメインのデータと同じになるように、第２のニューラルネットワーク１０２及び第４のニューラルネットワーク１０４のパラメータをさらに更新してもよい。すなわち、以下の損失が最小となるようにパラメータを更新する。

Ｌ_ｇｅｎ＝（Ｅ（（１－ＤＡ（ｙ））^２）
＋Ｅ（（１－ＤＢ（ＧＢ（ｘ）））^２））／２
＋λＥ（｜｜ＧＡ（ＧＢ（ｘ））－ｘ｜｜_１）・・・（７）

ここでＤＡ（ｘ）はｘを入力したときの第３のニューラルネットワーク１０３の出力を示し、ＤＢ（ｘ）は第５のニューラルネットワーク１０５の出力を示す。またＧＢ（ｘ）は第４のニューラルネットワーク１０４の出力を示し、ＧＡ（ｘ）は第２のニューラルネットワーク１０２の出力を示す。また、λは所定の係数である。

なお、第１のドメインのデータのスタイルと、第２のドメインのデータのスタイルとを相互に変換するような敵対的学習方法の詳細は、例えば非特許文献２に記載されている。

また、図７の構成において、第１のドメインのデータは、例えば撮影画像である。第２のドメインのデータは、例えばＣＧである。第１の変換データは、例えば撮影画像に類似するＣＧである。第２の変換データは、例えば撮影画像から変換されたＣＧである。

上述の図７の構成によって、第３実施形態では、変換部１２が、第１のドメインのデータを受け付け、第１のドメインのデータを第２のドメインのデータに類似する第２の変換データに変換する第４のニューラルネットワーク１０４を用いて、第１のドメインのデータを第２の変換データに更に変換する。そして、第１の更新部１４１が、第２の変換データ、及び、第２のドメインのデータのいずれかの入力を受け付け、第２のドメインのデータか否かを判定する第５のニューラルネットワーク１０５を用いて、第４のニューラルネットワーク１０４及び第５のニューラルネットワーク１０５に敵対的学習を行うことによって、第４のニューラルネットワーク１０４及び第５のニューラルネットワーク１０５のパラメータを更に更新する。また、第１の更新部１４１は、第１のドメインのデータと、第２の変換データを第２のニューラルネットワーク１０２に更に入力したときの出力とに基づいて、第２のニューラルネットワーク１０２及び第４のニューラルネットワーク１０４のパラメータを更に更新する。

［学習方法の例］
図８は第３実施形態の学習方法の例を示すフローチャートである。ステップＳ３１～ステップＳ３３の処理は、第２実施形態のステップＳ１１～ステップＳ１３（図５参照）と同じなので省略する。

次に、変換部１２が、第４のニューラルネットワーク１０４による変換処理を実行する（ステップＳ３４）。具体的には、変換部１２は、読み込まれたバッチ内の第１のドメインのデータを第４のニューラルネットワーク１０４に入力し、第２の変換データを生成する。

次に、第１の更新部１４１が、第５のニューラルネットワーク１０５を用いて、第２のドメインのデータ、及び、ステップＳ３４の変換処理により得られた第１の変換データの識別処理を実行する（ステップＳ３５）。具体的には、第１の更新部１４１が、第２の変換データ、及び、読み込まれたバッチ内の第１のドメインのデータを第５のニューラルネットワーク１０５に入力し、出力結果を得る。

次に、推論部１３が、第１のニューラルネットワーク１０１ａ及び１０１ｂによる推論処理を実行する（ステップＳ３６）。第１のニューラルネットワーク１０１ａには、読み込まれたバッチ内の第１のドメインのデータが入力され、第１のニューラルネットワーク１０１ｂには、ステップＳ３２の処理によって得られた第１の変換データが入力される。

次に、第１の更新部１４１、及び、第２の更新部１４２が、ステップＳ３２～ステップＳ３６の処理結果に基づいて、上述の式（１），（２），（２’），（７）により定義された損失を計算する（ステップＳ３７）。

次に、第２の更新部１４２が、ステップＳ３７の処理で上述の式（１）によって計算された損失に基づいて、第１のニューラルネットワーク１０１ａ及び１０１ｂを更新する（ステップＳ３８）。

次に、第１の更新部１４１が、ステップＳ３７の処理で上述の式（２）によって計算された損失に基づいて、第３のニューラルネットワーク１０３を更新する（ステップＳ３９）。

次に、第１の更新部１４１が、ステップＳ３７の処理で上述の式（２’）によって計算された損失に基づいて、第５のニューラルネットワーク１０５を更新する（ステップＳ４０）。

次に、第１の更新部１４１が、ステップＳ３７の処理で上述の式（７）によって計算された損失に基づいて、第２のニューラルネットワーク１０２を更新する（ステップＳ４１）。

次に、第１の更新部１４１が、ステップＳ３７の処理で上述の式（７）によって計算された損失に基づいて、第４のニューラルネットワーク１０４を更新する（ステップＳ４２）。

次に、更新部１４が、所定の回数（イテレーション数）、更新処理を繰り返したか否かを判定する（ステップＳ４３）。所定の回数、更新処理を繰り返していない場合（ステップＳ４３，Ｎｏ）、処理はステップＳ１に戻り、所定の回数、更新処理を繰り返した場合（ステップＳ４３，Ｙｅｓ）、処理は終了する。

（第４実施形態）
次に第４実施形態について説明する。第４実施形態の説明では、第３実施形態と同様の説明については省略し、第３実施形態と異なる箇所について説明する。

［ニューラルネットワークの構成例］
図９は第４実施形態のニューラルネットワークの構成例を示す図である。なお、図９は、第１のニューラルネットワーク１０１ａ及び１０１ｂと、第２の更新部１４２との間に、更に、第６のニューラルネットワーク１０６ａ及び１０６ｂを設ける場合を示しており、他の部分の構成は第３実施形態と同じである（図７参照）。

図９に示すとおり、第６のニューラルネットワーク１０６ａ及び１０６ｂは、第１の推論結果であるか、第２の推論結果であるかを識別（判定）するニューラルネットワークである。第６のニューラルネットワーク１０６ａ及び１０６ｂの出力は、例えば１に近いほど第１の推論結果である可能性が高いことを示す。第６のニューラルネットワーク１０６ａ及び１０６ｂは、ニューラルネットワークの少なくとも一部又は全部の重みを共有する。第６のニューラルネットワーク１０６ａ及び１０６ｂのパラメータ（重み）の全部が共有される場合、第６のニューラルネットワーク１０６ａ及び１０６ｂは、１つの第６のニューラルネットワーク１０６として実現される。

第３の更新部１４３は、第６のニューラルネットワーク１０６ａ及び１０６ｂのパラメータを更新する。第３の更新部１４３は、ニューラルネットワーク１０６ａ及び１０６ｂの出力を受け付け、第６のニューラルネットワーク１０６ａの出力である場合は１になり、第６のニューラルネットワーク１０６ｂの出力である場合は０になるように、第６のニューラルネットワーク１０６ａ及び１０６ｂのパラメータを更新する。第６のニューラルネットワーク１０６ａ及び１０６ｂのパラメータの更新により最小化すべき損失Ｌ_ｄｉｓは、例えば下記式（８）もしくは（８’）で表される。

Ｌ_ｄｉｓ＝Ｅ（ｌｏｇ（ＤＷ（ｘ）））
＋Ｅ（ｌｏｇ（１－ＤＷ（ｙ）））・・・（８）
Ｌ_ｄｉｓ＝Ｅ（（１－ＤＷ（ｘ））^２）＋Ｅ（（ＤＷ（ｙ））^２）・・・（８’）

ただしＥ（）は期待値を表す。ｘは第１のドメインのデータからサンプリングした入力集合を第１のニューラルネットワーク１０１ａに入力したときの出力となる第１の推論結果の集合を表す。ｙは第２のドメインのデータからサンプリングした入力集合を第２のニューラルネットワークで変換した出力を第１のニューラルネットワーク１０１ｂに入力したときの出力となる第２の推論結果の集合を表す。ＤＷ（ｘ）は第６のニューラルネットワーク１０６ａ及び１０６ｂにｘを入力したときの出力を表す。ＤＷ（ｙ）は第６のニューラルネットワーク１０６ａ及び１０６ｂにｙを入力したときの出力を表す。

また、第３実施形態では、第２の更新部１４２は、第１の推論結果、第１のドメインのデータの正解ラベル、第２の推論結果、及び、第１の変換データの正解ラベルの他に、更に第６のニューラルネットワーク１０６ｂの出力に基づいて、第１のニューラルネットワーク１０１ａ及び１０１ｂを更新する。具体的には、第６のニューラルネットワーク１０６ｂの出力が１に近いほど、第１のドメインのデータ（例えば実画像）を用いた第１の推論結果と、第１の変換データ（例えばＣＧを実画像風に変換したデータ）を用いた第２の推論結果とが似ていると判断できる。したがって、第２の更新部１４２は、第６のニューラルネットワーク１０６ｂの出力が所定の閾値（例えば０．５）以上となる場合、第２の更新部１４２で算出された損失を第１のニューラルネットワーク１０１ａ及び１０１ｂのパラメータを更新する（損失を第１のニューラルネットワーク１０１ａ及び１０１ｂに伝搬させる）。

また、例えば第６のニューラルネットワーク１０６ａ及び１０６ｂは、第１のニューラルネットワーク１０１ａ及び１０１ｂの出力を例えば空間方向やチャンネル方向、あるいは出力ノードの集合に基づいて少なくとも１つ以上に分割し、それぞれの分割した出力について処理を行ってもよい。

この場合、分割された出力に応じた１つ以上の出力の平均値をとり、その平均値以上となった第１のニューラルネットワーク１０１ａ及び１０１ｂの出力部分に対して、第２の更新部１４２で算出される損失を伝搬させることによってパラメータを更新してもよい。また、分割された第１のニューラルネットワーク１０１ａ及び１０１ｂの出力に対する第６のニューラルネットワーク１０６ｂの出力が所定の閾値以上となった部分に対して、第２の更新部１４２で算出される損失を伝搬させることによってパラメータを更新してもよい。

［学習方法の例］
図１０は第４実施形態の学習方法の例を示すフローチャートである。ステップＳ５１～ステップＳ５６の処理は、第３実施形態のステップＳ３１～ステップＳ３６（図８参照）と同じなので省略する。

次に、第３の更新部１４３が、第６のニューラルネットワーク１０６ａ及び１０６ｂを用いて、第１及び第２の推論結果の識別処理を実行する（ステップＳ５７）。

次に、第１の更新部１４１、第２の更新部１４２、及び、第３の更新部１４３が、ステップＳ５２～ステップＳ５６の処理結果に基づいて、上述の式（１），（２），（６）もしくは（７），（８）により定義された損失を計算する（ステップＳ５８）。

次に、第２の更新部１４２が、第６のニューラルネットワーク１０６ｂの出力が閾値（例えば０．５）以上であるか否かを判定する（ステップＳ５９）。出力が閾値以上である場合（ステップＳ５９，Ｙｅｓ）、処理はステップＳ６０に進み、出力が閾値以上でない場合（ステップＳ５９，Ｎｏ）、処理はステップＳ６１に進む。

ステップＳ６０～ステップＳ６４の処理は、第３実施形態のステップＳ３８～ステップＳ４２（図８参照）と同じなので省略する。

次に、第３の更新部１４３が、第６のニューラルネットワーク１０６ａ及び１０６ｂのパラメータを更新する（ステップＳ６５）。具体的には、第３の更新部１４３は、ステップＳ５８の処理で上述の式（８）によって計算された損失に基づいて、第６のニューラルネットワーク１０６ａ及び１０６ｂを更新する。すなわち、第３の更新部１４３は、第６のニューラルネットワーク１０６ａの出力である場合は１になり、第６のニューラルネットワーク１０６ｂの出力である場合は０になるように、第６のニューラルネットワーク１０６ａ及び１０６ｂのパラメータを更新する。

次に、更新部１４が、所定の回数（イテレーション数）、更新処理を繰り返したか否かを判定する（ステップＳ６６）。所定の回数、更新処理を繰り返していない場合（ステップＳ６６，Ｎｏ）、処理はステップＳ１に戻り、所定の回数、更新処理を繰り返した場合（ステップＳ６６，Ｙｅｓ）、処理は終了する。

なお、第１乃至第４実施形態の学習装置１の上述の処理機能は、上述したように、例えばコンピュータを用いて構成される学習装置１がプログラムを実行することにより実現される。この場合、第１乃至第４実施形態の学習装置１で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、第１乃至第４実施形態の学習装置１で実行されるプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。さらに、第１乃至第４実施形態の学習装置１で実行されるプログラムを、ＲＯＭなどの不揮発性の記録媒体に予め組み込んで提供するようにしてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１学習装置
１０処理回路
１１取得部
１２変換部
１３推論部
１４更新部
２０記憶回路
３０通信部
１４１第１の更新部
１４２第２の更新部
１４３第３の更新部

Claims

第１のドメインのデータを受け付け、第１の推論結果を出力する第１のニューラルネットワークを用いて推論タスクを実行する推論部と、
第２のドメインのデータを受け付け、前記第２のドメインのデータを前記第１のドメインのデータに類似する第１の変換データに変換する第２のニューラルネットワークを用いて、前記第２のドメインのデータを前記第１の変換データに変換する変換部と、
前記第２のニューラルネットワークのパラメータを、前記第１の変換データの特徴を示す分布が、前記第１のドメインのデータの特徴を示す分布に近づくように更新する第１の更新部と、
前記第１の変換データが前記第１のニューラルネットワークに入力されたときに出力された第２の推論結果と、前記第１の変換データの正解ラベルと、前記第１の推論結果と、前記第１のドメインのデータの正解ラベルとに基づいて、前記第１のニューラルネットワークのパラメータを更新する第２の更新部と、を備え、
前記第１の更新部は、前記第１のドメインのデータ、及び、前記第１の変換データのいずれかの入力を受け付け、前記第１のドメインのデータか否かを判定する第３のニューラルネットワークを用いて、前記第２及び第３のニューラルネットワークに敵対的学習を行うことによって、前記第２及び第３のニューラルネットワークのパラメータを更新し、
前記第１及び第３のニューラルネットワークは、少なくとも一部の重みを共有する、
を備える学習装置。
前記第２の更新部は、前記第２の推論結果と、前記第１の変換データの正解ラベルと、前記第１の推論結果と、前記第１のドメインのデータの正解ラベルとに基づいて、前記第２のニューラルネットワークのパラメータを更に更新する、
請求項１に記載の学習装置。
前記変換部は、前記第１のドメインのデータを受け付け、前記第１のドメインのデータを前記第２のドメインのデータに類似する第２の変換データに変換する第４のニューラルネットワークを用いて、前記第１のドメインのデータを前記第２の変換データに更に変換し、
前記第１の更新部は、前記第２の変換データ、及び、前記第２のドメインのデータのいずれかの入力を受け付け、前記第２のドメインのデータか否かを判定する第５のニューラルネットワークを用いて、前記第４及び第５のニューラルネットワークに敵対的学習を行うことによって、前記第４及び第５のニューラルネットワークのパラメータを更に更新し、前記第１のドメインのデータと、前記第２の変換データを前記第２のニューラルネットワークに更に入力したときの出力とに基づいて、前記第２及び第４のニューラルネットワークのパラメータを更に更新する、
請求項１又は２に記載の学習装置。
前記第１のドメインのデータは、撮影画像であり、
前記第２のドメインのデータは、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）であり、
前記第１の変換データは、前記撮影画像に類似するＣＧであり、
前記第２の変換データは、前記撮影画像から変換されたＣＧである、
請求項３に記載の学習装置。
前記第１及び第２の推論結果のいずれかの入力を受け付け、前記第１の推論結果であるか否かを判定する第６のニューラルネットワークのパラメータを更新する第３の更新部を更に備え、
前記第２の更新部は、前記第２の推論結果を前記第６のニューラルネットワークに入力したときの出力に基づいて、前記第１のニューラルネットワークのパラメータを更新するか否かを判定する、
請求項１乃至４のいずれか１項に記載の学習装置。
第１のドメインのデータを受け付け、第１の推論結果を出力する第１のニューラルネットワークを用いて推論タスクを実行するステップと、
第２のドメインのデータを受け付け、前記第２のドメインのデータを前記第１のドメインのデータに類似する第１の変換データに変換する第２のニューラルネットワークを用いて、前記第２のドメインのデータを前記第１の変換データに変換するステップと、
前記第２のニューラルネットワークのパラメータを、前記第１の変換データの特徴を示す分布が、前記第１のドメインのデータの特徴を示す分布に近づくように更新するステップと、
前記第１の変換データが前記第１のニューラルネットワークに入力されたときに出力された第２の推論結果と、前記第１の変換データの正解ラベルと、前記第１の推論結果と、前記第１のドメインのデータの正解ラベルとに基づいて、前記第１のニューラルネットワークのパラメータを更新するステップと、を含み、
前記第１のドメインのデータの特徴を示す分布に近づくように更新するステップは、
前記第１のドメインのデータ、及び、前記第１の変換データのいずれかの入力を受け付けるステップと、
前記第１のドメインのデータか否かを判定する第３のニューラルネットワークを用いて、前記第２及び第３のニューラルネットワークに敵対的学習を行うことによって、前記第２及び第３のニューラルネットワークのパラメータを更新するステップと、を含み、
前記第１及び第３のニューラルネットワークは、少なくとも一部の重みを共有する、
学習方法。
コンピュータを、
第１のドメインのデータを受け付け、第１の推論結果を出力する第１のニューラルネットワークを用いて推論タスクを実行する推論部と、
第２のドメインのデータを受け付け、前記第２のドメインのデータを前記第１のドメインのデータに類似する第１の変換データに変換する第２のニューラルネットワークを用いて、前記第２のドメインのデータを前記第１の変換データに変換する変換部と、
前記第２のニューラルネットワークのパラメータを、前記第１の変換データの特徴を示す分布が、前記第１のドメインのデータの特徴を示す分布に近づくように更新する第１の更新部と、
前記第１の変換データが前記第１のニューラルネットワークに入力されたときに出力された第２の推論結果と、前記第１の変換データの正解ラベルと、前記第１の推論結果と、前記第１のドメインのデータの正解ラベルとに基づいて、前記第１のニューラルネットワークのパラメータを更新する第２の更新部、として機能させ、
前記第１の更新部は、前記第１のドメインのデータ、及び、前記第１の変換データのいずれかの入力を受け付け、前記第１のドメインのデータか否かを判定する第３のニューラルネットワークを用いて、前記第２及び第３のニューラルネットワークに敵対的学習を行うことによって、前記第２及び第３のニューラルネットワークのパラメータを更新し、
前記第１及び第３のニューラルネットワークは、少なくとも一部の重みを共有する、
プログラム。