JP7412847B2

JP7412847B2 - 画像処理方法、画像処理装置、サーバ、及びコンピュータプログラム

Info

Publication number: JP7412847B2
Application number: JP2022523029A
Authority: JP
Inventors: ▲シン▼▲鵬▼ ▲謝▼; 嘉▲偉▼ ▲陳▼; 悦翔李; ▲カイ▼ ▲馬▼; 冶▲楓▼ ▲鄭▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-19
Filing date: 2020-10-27
Publication date: 2024-01-15
Anticipated expiration: 2040-10-27
Also published as: CN111242844B; US20220222796A1; CN111242844A; WO2021143264A1; JP2022553252A

Description

本願は、２０２０年１月１９日に中国特許庁に提出された、出願番号が第２０２０１００６１０１４Ｘ号であり、発明の名称が「画像処理方法、装置、サーバ、及び記憶媒体」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。

本願は、コンピュータ分野に関し、具体的に、画像処理方法、装置、サーバ、及び記憶媒体に関する。

人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピュータを利用して、人間による環境の知覚、知識の取得、及び知識の使用をシミュレーションする技術であり、人間の知覚、推論、及び意思決定に類似した機能を機械に持たせることができる。人工知能技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習や深層学習などのいくつかの方面を含む。

そのうち、コンピュータビジョン（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、人の目の代わりに、コンピュータを利用して、ターゲット画像に対して認識、測定などの操作を行い、さらに、処理を行う技術である。コンピュータビジョン技術は、通常、画像処理、画像認識、画像意味理解、画像検索、仮想現実、拡張現実、同期測位及び地図構築などの技術（例えば、画像着色、画像ストローク抽出などの画像処理技術）を含む。

現在、コンピュータビジョン技術による画像スタイルタイプ変換方法で生成される画像には、例えば、画像の局所変形、画像の色情報の欠落、画像スタイルタイプの誤りなどの様々な画像歪みの問題があることが多い。このため、従来の画像処理方法で生成される画像は、品質が低い。

本願で提供される各種の実施例によれば、画像処理方法、装置、サーバ、及び記憶媒体が提供されている。

本願の実施例は、サーバが実行する画像処理方法を提供する。前記方法は、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定するステップと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を含む。

また、本願の実施例は、サーバが実行する画像処理装置を提供する。前記装置は、
サンプル画像及び敵対的生成ネットワークを取得する取得ユニットであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、取得ユニットと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する初期変換ユニットと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する認識ユニットと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するコンテンツユニットと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するスタイルユニットと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する訓練ユニットと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する再変換ユニットと、を含む。

また、本願の実施例は、プロセッサとメモリとを備えるサーバを提供する。前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、本願の実施例で提供されるいずれか１つの画像処理方法のステップを前記プロセッサに実行させる。

また、本願の実施例は、コンピュータ可読命令を記憶した１つ又は複数の不揮発性記憶媒体を提供する。前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、本願の実施例で提供されるいずれか１つの画像処理方法のステップを１つ又は複数のプロセッサに実行させる。

本願の１つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴、目的、及びメリットは、明細書、図面、及び特許請求の範囲から明らかになる。

本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。

本願の実施例で提供される画像処理方法のシナリオの模式図である。本願の実施例で提供される画像処理方法の１つ目のプロセスの模式図である。本願の実施例で提供される画像処理方法のネットワーク構成の模式図である。本願の実施例で提供される画像処理方法のｃｙｃｌｅ－ＧＡＮの模式図である。本願の実施例で提供される画像処理方法のＧＡＮの模式図である。本願の実施例で提供される画像処理方法の品質監視制御ネットワークの構成の模式図である。本願の実施例で提供される画像処理方法の２つ目のプロセスの模式図である。本願の実施例で提供される画像処理方法のストリートスケープピクチャの模式図である。本願の実施例で提供される画像処理方法の正のサイクルの模式図である。本願の実施例で提供される画像処理方法の逆のサイクルの模式図である。本願の実施例で提供される画像処理方法の品質監視制御プロセスの模式図である。本願の実施例で提供される画像処理方法の変換プロセスの模式図である。本願の実施例で提供される画像処理装置の１つ目の構成の模式図である。本願の実施例で提供されるサーバの構成の模式図である。

本願の目的、構成、及びメリットをより明確にするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。理解すべきものとして、ここで説明される具体的な実施例は、本願を解釈するためのものに過ぎず、本願を限定するためのものではない。

以下、本願の実施例の図面を参照しながら、本願の実施例の構成を明確かつ完全に説明するが、明らかなように、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。当業者が創造的な労働をせずに本願の実施例から得る全ての他の実施例は、本願の保護範囲に属する。

本願の実施例は、画像処理方法、装置、サーバ、及び記憶媒体を提供する。
そのうち、該画像処理装置は、具体的に、電子機器に組み込まれ得、該電子機器は、端末やサーバなどの機器であってもよい。ここで、端末は、携帯電話、タブレットコンピュータ、スマートブルートゥース（登録商標）機器、ノートパソコン、又はパーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などの機器であってもよい。サーバは、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタ、又は分散型システムであってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、ＣＤＮ、及びビッグデータや人工知能プラットフォームなどのベースクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

いくつかの実施例では、該画像処理装置が複数の電子機器に組み込まれ得る。例えば、画像処理装置が複数のサーバに組み込まれ、複数のサーバが本願の画像処理方法を実現するようにしてもよい。

いくつかの実施例では、サーバを端末の形態で実現してもよい。
例えば、図１ａを参照すると、該サーバは、画像処理装置を搭載することができる。該サーバは、データベースから、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、参照画像とサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することができる。ユーザによりアップロードされた処理対象の画像を取得すると、該サーバは、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得し、該スタイル変換後の画像をユーザに返信することができる。

以下、それぞれ詳細に説明する。説明すべきものとして、以下の実施例の番号は、実施例の好ましい順序を限定するものではない。
機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）は、データの初歩的な認識と学習目的とに基づいて一連の分析を行い、数学モデルにおけるパラメータを訓練し、最後に、訓練後のモデルを用いて、データに対して分析予測を行う方法である。機械学習の方法は、通常、深層学習、決定木アルゴリズム、ベイズアルゴリズム、サポートベクターマシンアルゴリズム、ランダムフォレストアルゴリズム、人工ニューラルネットワークアルゴリズム、関連ルールアルゴリズム、及び期待値最大化アルゴリズムなどを含む。
本実施例では、機械学習に基づく画像処理方法が提供されている。図１ｂに示すように、該画像処理方法の具体的なプロセスは、以下のようにしてもよい。
１０１では、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得する。

本発明の実施例は、画像処理に用いることができる。画像スタイルタイプがアノテーションされた画像データは、敵対的生成ネットワークにおける生成ネットワーク及び敵対的ネットワークを訓練するためのサンプル画像とすることができる。

該生成ネットワークは、画像の画像スタイルタイプを変換するために使用することができる。ここで、該画像スタイルタイプは、画像の芸術スタイルタイプ、例えば、芸術ジャンルスタイルタイプ、芸術時代スタイルタイプ、カスタムスタイルタイプなどであってもよい。例えば、芸術ジャンルスタイルタイプは、印象派、抽象派、写実派などを含んでもよく、芸術時代スタイルタイプは、伝統古典派、現代写実派などを含んでもよい。

該敵対的生成ネットワークは、任意のタイプの敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）であってもよく、少なくとも１つの生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＭｏｄｅｌ）及び認識ネットワーク（ＤｉｓｃｒｉｍｉｎａｔｉｖｅＭｏｄｅｌ）を含む。訓練過程において、生成ネットワークと認識モデルは、互いに競合して学習することができる。これにより、ネットワークパラメータを最適化し、ネットワーク出力の性能を良好にする。

例えば、いくつかの実施形態において、敵対的生成ネットワークは、任意の敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、例えば、条件付き敵対的生成ネットワーク（ＣＧＡＮ：ＣｏｎｄｉｔｉｏｎａｌＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、深層畳み込み敵対的生成ネットワーク（ＤＣＧＡＮ：ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、ワッサースタイン敵対的生成ネットワーク（ＷＧＡＮ：ＷａｓｓｅｒｓｔｅｉｎＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、サイクル敵対的生成ネットワーク（Ｃｙｃｌｅ－ＧＡＮ：ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）などであってもよい。

ここで、該生成ネットワークは、画像スタイルタイプ変換に用いられる人工ニューラルネットワークモデルであってもよく、敵対的ネットワークは、画像全体スタイル認識に用いられる人工ニューラルネットワークモデルであってもよい。

いくつかの実施例において、敵対的生成ネットワークは、任意のＶＧＧネットワーク（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ）、例えば、ＶＧＧ１６、ＶＧＧ１９などであってもよい。

サンプル画像及び敵対的生成ネットワークを取得する具体的な方式が複数あり、サンプル画像と敵対的生成ネットワークを取得する方式は、同じであってもよいし、異なってもよい。具体的な取得方法として、ネットワークを介してサンプルデータベースから取得したり、ローカルメモリから読み取ったり、ローカルの技術者の入力から取得したりしてもよい。
１０２では、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する。

敵対的生成ネットワークは、サンプル画像に対してスタイル変換処理を行うことができる。ここで、スタイル変換処理とは、画像によって表現されるコンテンツの完全性を保証しながら、画像の局所的又は全体的なスタイルタイプを他のスタイルタイプに変換することである。

例えば、あるスタイルタイプの絵画を、現代スタイルタイプ、写実スタイルタイプ、伝統スタイルタイプに全体的に変換する。また、例えば、あるスタイルタイプの写真を、晴天スタイルタイプ、陰雨スタイルタイプ、靄スタイルタイプに全体的に変換する。また、例えば、あるスタイルタイプの写真を、ユーザがカスタマイズしたスタイルタイプに部分的に変換する。

いくつかの実施例において、図１ｃを参照すると、敵対的生成ネットワークは、生成ネットワーク及び敵対的ネットワークを含んでもよく、参照画像は、第１参照画像及び第２参照画像を含んでもよく、ステップ１０２は、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得することであってもよい。

いくつかの実施例において、画像処理の効率、及び最終的に生成される画像の品質を保証するために、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、サンプル画像は、順方向サンプル画像を含み、第１参照画像は、第１順方向参照画像を含み、第２参照画像は、第２順方向参照画像を含む。図１ｃを参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する」というステップは、具体的に、
順方向生成ネットワークを用いて、順方向サンプル画像に対してスタイル変換処理を行うことにより、第１順方向参照画像を取得するステップと、
逆方向生成ネットワークを用いて、第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得するステップと、を含んでもよい。

ここで、順方向生成ネットワークと逆方向生成ネットワークは、ネットワーク構成が類似する。順方向生成ネットワークにおいて、サンプル画像の画像スタイルタイプを他の画像スタイルタイプに変換することができるが、逆方向生成ネットワークは、順方向生成ネットワークから出力されたスタイル変換後の画像に対して、スタイルタイプの復元を行うことにより、スタイル変換後の画像をできるだけサンプル画像の最初の画像スタイルタイプに近くすることができる。即ち、順方向生成ネットワークの入力画像と逆方向生成ネットワークの出力画像は、同じであるか又は類似し、順方向生成ネットワークの出力画像と逆方向生成ネットワークの入力画像は、同じであるか又は類似する。

サンプル画像は、画像スタイルタイプが異なるが、表現コンテンツが類似したペアとなる順方向サンプル画像と逆方向サンプル画像を含んでもよい。即ち、逆方向サンプル画像は、順方向サンプル画像をスタイルタイプ変換した画像である。

この場合、いくつかの実施例において、ステップ１０３では、敵対的ネットワークを用いて、第１参照画像とサンプル画像との間の類似度を予測し、第１参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算してもよい。

これにより、敵対的ネットワークは、第１参照画像の全体的な画像スタイルタイプを限定することにより、画像スタイルタイプ変換の正確さを向上させることができる。

いくつかの実施例において、第１参照画像は、第１順方向参照画像を含んでもよく、第２参照画像は、第２順方向参照画像を含んでもよい。ここで、第１順方向参照画像とは、順方向サンプル画像に対して、順方向生成ネットワークにおける１回目の画像スタイルタイプ変換を行った後に生成された画像であり、第２順方向参照画像とは、第１順方向参照画像に対して、順方向生成ネットワークにおける２回目の画像スタイルタイプ変換を行った後に生成された画像である。

このため、いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、逆方向サンプル画像を含んでもよく、第１参照画像は、第１逆方向参照画像を含んでもよく、第２参照画像は、第２逆方向参照画像を含んでもよい。図１ｄの正のサイクルの部分を参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する」というステップは、具体的に、
順方向生成ネットワークを用いて、順方向サンプル画像に対してスタイル変換処理を行うことにより、第１順方向参照画像を取得するステップと、
逆方向生成ネットワークを用いて、第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得するステップと、を含んでもよい。

いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、逆方向サンプル画像を含み、第１参照画像は、第１逆方向参照画像を含み、第２参照画像は、第２逆方向参照画像を含み、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する」というステップは、具体的に、
逆方向生成ネットワークを用いて、逆方向サンプル画像に対してスタイル変換処理を行うことにより、第１逆方向参照画像を取得するステップと、
順方向生成ネットワークを用いて、第１逆方向参照画像に対してスタイル変換処理を行うことにより、第２逆方向参照画像を取得するステップと、を含む。

例えば、図１ｄを参照する。図１ｄに示されたのは、Ｃｙｃｌｅ－ＧＡＮである。そのうち、図１ｄの上図は、Ｃｙｃｌｅ－ＧＡＮの正のサイクルの構成である。正のサイクルでは、まず、順方向サンプル画像が順方向生成ネットワークに入力されて、第１順方向参照画像が生成され、次に、第１順方向参照画像が逆方向生成ネットワークに入力されて、第２順方向参照画像が生成される。図１ｄの下図は、Ｃｙｃｌｅ－ＧＡＮの逆のサイクルの構成である。逆のサイクルでは、まず、逆方向サンプル画像が逆方向生成ネットワークに入力されて、第１逆方向参照画像が生成され、次に、第１逆方向参照画像が順方向生成ネットワークに入力されて、第２逆方向参照画像が生成される。

いくつかの実施例では、スタイルタイプ変換の品質及び効率をさらに向上させるために、図１ｃを参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する」というステップの後に、サンプル画像と第２参照画像との間の変換損失を計算してもよい。この場合、ステップ１０６は、具体的に、変換損失、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することであってもよい。
ここで、変換損失とは、２枚の画像の間の、画素、色分布、画像コンテンツなどの画像特徴における損失である。

１０３では、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定する。
全体スタイルタイプとは、参照画像が画像全体で表現する画像スタイルタイプである。

いくつかの実施例では、画像に複数の画像スタイルタイプが表現され得、該画像の全体スタイルタイプは、これらの画像スタイルタイプを総合したものであってもよい。例えば、ある絵画において、該絵画の左上隅に現代芸術スタイルが表現され、該絵画の右下隅に伝統芸術スタイルが表現され、該絵画全体の残りの部分に写実芸術スタイルが表現され、該絵画の具体的な全体スタイルタイプは、混合写実芸術スタイルである。
具体的には、いくつかの実施例において、ステップ１０３は、具体的に、
敵対的ネットワークを用いて、第１参照画像とサンプル画像との間の類似度を予測するステップと、
第１参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算するステップと、を含む。

ここで、敵対的ネットワークは、第１参照画像とサンプル画像との間の類似度が属する所定の範囲を計算することにより、第１参照画像の画像スタイルタイプを決定することができる。

他のいくつかの実施例において、敵対的ネットワークは、第１参照画像とサンプル画像との間の類似度、及び第１参照画像と逆方向サンプル画像との間の類似度をそれぞれ計算することにより、この２つの類似度の大きさに基づいて、第１参照画像の画像スタイルタイプを決定してもよい。

例えば、いくつかの実施例において、ステップ１０３は、具体的に、
敵対的ネットワークを用いて、第１参照画像とサンプル画像との間の類似度を予測し、第１参照画像と逆方向サンプル画像との間の類似度を予測するステップと
第１参照画像とサンプル画像との間の類似度が、第１参照画像と逆方向サンプル画像との間の類似度よりも高い場合、第１参照画像の画像スタイルタイプが順方向サンプル画像であると決定するステップと、
第１参照画像とサンプル画像との類似度が、第１参照画像と逆方向サンプル画像との間の類似度よりも低い場合、第１参照画像の画像スタイルタイプが逆方向サンプル画像であると決定するステップと、を含む。

具体的に、「第１参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算する」というステップは、
第１参照画像とサンプル画像との間の類似度が所定の順方向範囲に属する場合、第１参照画像の画像スタイルタイプを第１参照画像の画像スタイルタイプとして決定するステップと、
第１参照画像とサンプル画像との間の類似度が所定の逆方向範囲に属する場合、第１参照画像の画像スタイルタイプを第２参照画像の画像スタイルタイプとして決定するステップと、
第１参照画像の画像スタイルタイプを統計することにより、統計結果を取得するステップと、
統計結果に基づいて、第１参照画像とサンプル画像との間の全体スタイル損失を計算するステップと、を含む。
１０４では、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定する。

ここで、品質監視制御ネットワークを用いて、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定してもよい。品質監視制御ネットワークは、敵対的生成ネットワークの入出力間の差を監視制御するための人工ニューラルネットワークモデルであってもよい。

該品質監視制御ネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、全結合ニューラルネットワーク（ＦＮＮ：ＦｕｌｌＣｏｎｎｅｃｔｅｄＮｅｔｗｏｒｋ）、深層ニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）などであってもよい。

いくつかの実施例において、品質監視制御ネットワークは、任意の画像比較ネットワーク、例えば、バックプロパゲーションニューラルネットワーク（ＢＰＮＮ：ＢａｃｋＰｒｏｐａｇａｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、シャムネットワーク（ＳＮ：ＳｉａｍｅｓｅＮｅｔｗｏｒｋ）などであってもよい。

具体的には、いくつかの実施例において、該品質監視制御ネットワークは、コンテンツ監視制御ネットワーク及びスタイル監視制御ネットワークを含んでもよい。例えば、該品質監視制御ネットワークは、シャムネットワークであってもよく、該シャムネットワークは、コンテンツ監視制御ネットワーク及びスタイル監視制御ネットワークを含み、該コンテンツ監視制御ネットワークは、ステップ１０４を実行するために使用することができ、該スタイル監視制御ネットワークは、ステップ１０５を実行するために使用することができる。

例えば、図１ｅを参照すると、コンテンツ監視制御ネットワークは、参照画像及びサンプル画像に対してコンテンツ比較分析を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を取得することができ、スタイル監視制御ネットワークは、参照画像に対してスタイルタイプ認識を行うことにより、参照画像の局所スタイル損失を取得することができる。

図１ｃを参照すると、品質監視制御ネットワークは、参照画像とサンプル画像との間の品質損失を監視制御することができる。いくつかの実施例において、品質損失は、コンテンツ損失及び局所スタイル損失を含んでもよく、コンテンツ監視制御ネットワークは、コンテンツ損失を監視制御することができ、スタイル監視制御ネットワークは、局所スタイル損失を監視制御することができる。

具体的には、いくつかの実施例では、参照画像のスタイルタイプ及びコンテンツの品質を保証するために、参照画像が変形せず、その全体スタイルタイプの表現がより均衡して安定するようにする。図１ｆを参照する。図１ｆに示されたのは、品質監視制御ネットワークのネットワーク構成であり、そのうち、濃色部分は、スタイル監視制御ネットワークであり、淡色部分は、品質監視制御ネットワークである。参照画像は、複数の局所参照画像を含んでもよく、サンプル画像は、複数の局所サンプル画像を含んでもよい（図１ｆにおいて、参照画像は、１４個の局所参照画像を含んでもよく、サンプル画像は、１４個の局所サンプル画像を含んでもよい）。参照画像の全ての局所画像の中から局所参照画像を決定し、サンプル画像の全ての局所画像の中から局所サンプル画像を決定する。局所参照画像の参照画像における位置は、局所サンプル画像のサンプル画像における位置と同じである。

シャムネットワークのコンテンツ監視制御ネットワークを用いて、局所参照画像に対応する局所参照コンテンツ特徴を抽出し、局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出し、
局所参照コンテンツ特徴と局所サンプルコンテンツ特徴とを比較することにより、局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得し
局所コンテンツ損失に基づいて、参照画像とサンプル画像との間のコンテンツ損失を決定する。

ここで、コンテンツ監視制御ネットワークは、同じ位置にある局所参照画像及び局所サンプル画像に対してコンテンツ特徴抽出を行うことができ、例えば、図１ｆを参照すると、同様に第１行第４列にある局所参照画像及び局所サンプル画像に対してコンテンツ特徴抽出を行うことができる。

いくつかの実施例において、シャムネットワークは、第１エンコーダ及び第２エンコーダを含んでもよい。シャムネットワークにおいて、該第１エンコーダ及び第２エンコーダは、互いに重みパラメータを共有する。

ここで、いくつかの実施例において、「シャムネットワークのコンテンツ監視制御ネットワークを用いて、局所参照画像に対応する局所参照コンテンツ特徴を抽出し、局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する」というステップは、
第１エンコーダを用いて、局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、局所サンプル画像の局所サンプルコンテンツ特徴を取得するステップと、
第２エンコーダを用いて、局所参照画像に対してコンテンツ特徴抽出を行うことにより、局所参照画像の局所参照コンテンツ特徴を取得するステップと、を含んでもよい。

例えば、図１ｆを参照すると、第１エンコーダは、局所サンプル画像Ａに対してコンテンツ特徴抽出を行うことにより、局所サンプル画像Ａの局所コンテンツ特徴を取得することができ、第２エンコーダは、局所参照画像Ｂに対してコンテンツ特徴抽出を行うことにより、局所参照画像Ｂの局所コンテンツ特徴を取得することができる。

１０５では、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定する。

ステップ１０４と類似して、いくつかの実施例において、ステップ１０５は、シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定することであってもよい。

具体的に、「シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定する」というステップは、
参照画像の全ての局所画像の中から、第１局所参照画像及び第２局所参照画像を決定し、サンプル画像の全ての局所画像の中から、第１局所サンプル画像及び第２局所サンプル画像を決定するステップであって、第１局所参照画像と第２局所参照画像は、参照画像において異なる位置にあり、第１局所サンプル画像と第２局所サンプル画像は、サンプル画像において異なる位置にある、ステップと、
シャムネットワークのスタイル監視制御ネットワークを用いて、第１局所参照画像に対応する第１局所参照スタイル特徴を抽出し、第２局所参照画像に対応する第２局所参照スタイル特徴を抽出し、第１局所サンプル画像に対応する第１局所サンプルスタイル特徴を抽出し、第２局所サンプル画像に対応する第２局所サンプルスタイル特徴を抽出するステップと、
第１局所参照スタイル特徴と第２局所参照スタイル特徴とを比較することにより、第１局所参照画像と第２局所参照画像との間の局所スタイル損失を取得するステップと、
第１局所サンプルスタイル特徴と第２局所サンプルスタイル特徴とを比較することにより、第１局所サンプル画像と第２局所サンプル画像との間の局所スタイル損失を取得するステップと、
第１局所参照画像と第２局所参照画像との間の局所スタイル損失に基づいて、参照画像の局所スタイル損失を計算し、第１局所サンプル画像と第２局所サンプル画像との間の局所スタイル損失に基づいて、サンプル画像の局所スタイル損失を計算するステップと、を含む。

ここで、いくつかの実施例において、スタイル監視制御ネットワークは、第１エンコーダ及び第２エンコーダを含んでもよく、第１エンコーダ及び第２エンコーダは、互いに重みパラメータを共有し、「シャムネットワークのスタイル監視制御ネットワークを用いて、第１局所参照画像に対応する第１局所参照スタイル特徴を抽出し、第２局所参照画像に対応する第２局所参照スタイル特徴を抽出し、第１局所サンプル画像に対応する第１局所サンプルスタイル特徴を抽出し、第２局所サンプル画像に対応する第２局所サンプルスタイル特徴を抽出する」というステップは、
第１エンコーダを用いて、第１局所参照画像、第１局所サンプル画像に対してスタイル特徴抽出を行うことにより、第１局所参照画像に対応する第１局所参照スタイル特徴と、第１局所サンプル画像に対応する第１局所サンプルスタイル特徴とを取得するステップと、
第２エンコーダを用いて、第２局所参照画像、第２局所サンプル画像に対してスタイル特徴抽出を行うことにより、第２局所参照画像に対応する第２局所参照スタイル特徴と、第２局所サンプル画像に対応する第２局所サンプルスタイル特徴を取得するステップと、を含んでもよい。

例えば、図１ｆを参照すると、スタイル監視制御ネットワークの第１エンコーダは、局所サンプル画像Ａに対してスタイル特徴抽出を行うことにより、局所サンプル画像Ａのスタイルタイプコンテンツ特徴を取得することができ、スタイル監視制御ネットワークの第２エンコーダは、局所参照画像Ｂに対してスタイル特徴抽出を行うことにより、局所参照画像Ｂのスタイルタイプコンテンツ特徴を取得することができる。最後に、局所サンプル画像Ａのスタイルタイプコンテンツ特徴と、局所参照画像Ｂのスタイルタイプコンテンツ特徴とに基づいて、参照画像の局所スタイル損失を予測する。

１０６では、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する。

いくつかの実施例において、ステップ１０２で第１参照画像の画像スタイルタイプを識別することができるため、ステップ１０６は、具体的に、品質損失及び画像スタイルタイプに基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の生成ネットワークを含む。

いくつかの実施例において、ステップ１０２で第１参照画像と訓練画像との間の変換損失を決定することができるため、ステップ１０６は、具体的に、品質損失、及び第１参照画像と訓練画像との間の変換損失に基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の生成ネットワークを含む。

いくつかの実施例において、ステップ１０２で第１参照画像の画像スタイルタイプを識別して、第１参照画像と訓練画像との間の変換損失を決定することができるため、ステップ１０６は、具体的に、品質損失、画像スタイルタイプ、及び第１参照画像と訓練画像との間の変換損失に基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の生成ネットワークを含む。

いくつかの実施例では、複数のアルゴリズムを用いて、パラメータを調整することができる。例えば、勾配降下法を用いて、ネットワークモデルの重みパラメータを調整してもよい。例えば、バッチ勾配降下法（ＢＧＤ：ＢａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、確率的勾配降下法（ＳＧＤ：ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、ネステロフ加速勾配法（ＮＡＧ：ＮｅｓｔｅｒｏｖＡｃｃｅｌｅｒａｔｅｄＧｒａｄｉｅｎｔ）、適応モーメント推定法（Ａｄａｍ：ＡｄａｐｔｉｖｅＭｏｍｅｎｔＥｓｔｉｍａｔｉｏｎ）などのアルゴリズムを用いて、ネットワークモデルの重みパラメータを調整してもよい。

１０７では、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する。

上記ステップ１０１～１０６でモデル訓練が完了したため、ステップ１０７では、該訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。

具体的には、計算量を低減して、画像処理効率を最適化するために、訓練後の生成ネットワークには、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークが含まれるので、処理対象の画像を取得すると、具体的に、
スタイルタイプ変換指示を取得するステップと、
スタイルタイプ変換指示が順方向変換指示である場合、訓練後の順方向生成ネットワークを用いて、処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
スタイルタイプ変換指示が逆方向変換指示である場合、訓練後の逆方向生成ネットワークを用いて、処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を実行してもよい。

ここで、スタイルタイプ変換指示は、スタイルタイプ情報を含んでもよく、該スタイルタイプ情報は、処理対象の画像を特定のスタイルタイプに変換するように指示することができる。

例えば、表１を参照すると、スタイルタイプ情報が「陽光スタイルタイプから陰雨スタイルタイプへ変換」である場合、スタイルタイプ変換指示を順方向変換指示として決定することができ、スタイルタイプ情報が「陰雨スタイルタイプから陽光スタイルタイプへ変換」である場合、スタイルタイプ変換指示を逆方向変換指示として決定することができる。

本願の実施例で提供される画像処理方式は、様々な画像処理シナリオに適用することができる。例えば、本発明によって、転移学習及びデータ強化を行うことができる。また、例えば、本発明は、ストリートスケープ写真に対して昼間／夜間スタイルタイプの切り替えなどを行うために使用することができる。

例えば、処理対象の昼間ストリートスケープ画像に対し、当業者によって、同一のストリートスケープの昼間及び夜間の写真を収集し、これらの写真に基づいてモデル訓練を行い、訓練を完了した後、該訓練後のモデルの訓練後の順方向生成ネットワークを用いて、該処理対象の昼間ストリートスケープ画像に対して順方向変換処理を行うことにより、変換後の夜間ストリートスケープ画像を取得することができる。

以上から分かるように、本願の実施例では、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得し、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。

いくつかの実施例では、ステップ１０３において、サンプル画像の全体スタイルタイプを識別し、サンプル画像に該全体スタイルタイプをアノテーションし、さらに、該アノテーションされたサンプル画像を用いて生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することができる。従って、本発明の実施例に必要なサンプル画像に対して多すぎるアノテーションを行う必要がなく、ネットワークモデルの訓練を行うことができ、モデル訓練サンプルの収集、整理に必要な時間及び人件費のコストを低減させ、画像処理方法の効率を向上させる。

本願の実施例では、参照画像とサンプル画像との間のコンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、訓練後の生成ネットワークのネットワークパラメータを最適化することができる。これにより、該訓練後の生成ネットワークを用いて生成したスタイル変換後の画像の局所的なスタイルが一致するとともに、スタイル変換後の画像のコンテンツに欠落、破損がないことが保証される。

これにより、本発明では、優れた生成ネットワークを訓練し、該生成ネットワークのネットワーク品質を効果的に最適化することができ、訓練後の生成ネットワークで生成されたスタイル変換後の画像の画像品質を向上させる。本発明は、画像処理方法で生成されたスタイル変換後の画像の品質を向上させることができる。

本実施例では、上記実施例に記載の方法に基づき、以下、さらに詳細に説明する。
本実施例は、自動運転のストリートスケープ認識におけるシーン画像の標準化に用いることができる。ここで、ユーザの自動運転車両は、異なる時間帯、異なるシーン（例えば、昼間、夕暮れ、夜間、陰雨など）における画像データを収集することができる。本実施例は、夜間シーン画像を昼間シーン画像に変換するか、又は、昼間シーン画像を夜間シーン画像に変換することができる。
最後に、標準化されたデータを用いて、例えば、歩行者、車両の認識、検出などのさらなる機械学習タスク訓練を行うことができる。

以下、晴天、曇天スタイルタイプのストリートスケープピクチャの相互変換の場合を例として、本願の実施例の方法を詳細に説明する。
図２ａに示すように、画像処理方法の具体的なプロセスは、以下のとおりである。
２０１では、晴天サンプル及び曇天サンプルを含むサンプル画像と、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワーク、スタイル監視制御ネットワーク、及びコンテンツ監視制御ネットワークを含む敵対的生成ネットワークとを取得する。
図２ｂを参照すると、サンプル画像は、天気スタイルタイプがアノテーションされたストリートスケープピクチャである。
モデル訓練を行う際に、ストリートスケープが同じであるが、天気スタイルタイプが異なる１対のストリートスケープピクチャを取得する必要がある。
例えば、晴天がアノテーションされた晴天の雑貨店Ｘのストリートスケープピクチャと、曇天がアノテーションされた曇天の雑貨店Ｘのストリートスケープピクチャとが１対のピクチャである。

本実施例において、ｃｙｃｌｅ－ＧＡＮ及びシャムネットワークが含まれる。そのうち、ｃｙｃｌｅ－ＧＡＮは、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワークを含み、シャムネットワークは、スタイル監視制御ネットワーク及びコンテンツ監視制御ネットワークを含み、スタイル監視制御ネットワークとコンテンツ監視制御ネットワークは、重みパラメータが共有された１対のエンコーダを共有する。
本実施例において、サンプル画像は、技術者によって設定してもよいし、サーバを介して取得してもよい。

いくつかの実施例では、サンプル画像に対して一連の前処理、例えば、データ洗浄やデータ拡張などを行ってもよい。これにより、生成される画像の品質をさらに向上させる。

２０２では、順方向生成ネットワークを用いて、晴天サンプルに対してスタイル変換処理を行うことにより、第１順方向参照画像を取得し、逆方向生成ネットワークを用いて、第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得し、正のサイクルを完了し、晴天サンプルと第２順方向参照画像との間の正変換損失を決定する。

図２ｃを参照する。図２ｃに示されたのは、１回の正のサイクルである。ここで、順方向生成ネットワークＧ_ＡＢは、晴天サンプルに対してスタイル変換処理を行うことにより、第１順方向参照画像を取得することができる。また、逆方向生成ネットワークを用いて、第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得する。
そして、晴天サンプルと第２順方向参照画像との間の正変換損失を決定することができる。
ここで、正変換損失は、晴天サンプルと、第１順方向参照画像で再構成された第２順方向参照画像とが類似するように制約する。

２０３では、逆方向生成ネットワークを用いて、曇天サンプルに対してスタイル変換処理を行うことにより、第１逆方向参照画像を取得し、順方向生成ネットワークを用いて、第１逆方向参照画像に対してスタイル変換処理を行うことにより、第２逆方向参照画像を取得し、逆のサイクルを完了し、曇天サンプルと第２逆方向参照画像との間の逆変換損失を決定する。

図２ｄを参照する。図２ｄに示されたのは、１回の逆のサイクルである。ここで、逆方向生成ネットワークは、曇天サンプルに対してスタイル変換処理を行うことにより、第１逆方向参照画像を取得することができる。また、順方向生成ネットワークを用いて、第１逆方向参照画像に対してスタイル変換処理を行うことにより、第２逆方向参照画像を取得する。
ここで、逆方向変換損失は、曇天サンプルと、第１逆方向参照画像で再構成された第２逆方向参照画像とが類似するように制約する。

２０４では、順方向敵対的ネットワークを用いて第１順方向参照画像の順方向画像スタイルタイプを識別し、逆方向敵対的ネットワークを用いて第１逆方向参照画像の逆方向画像スタイルタイプを識別する。

図２ｃを参照すると、１回の正のサイクルにおいて、順方向敵対的ネットワークＤ_ＡＢは、第１順方向参照画像の順方向画像スタイルタイプを識別することもできる。

図２ｄを参照すると、１回の逆のサイクルにおいて、逆方向敵対的ネットワークＤ_ＢＡは、第１逆方向参照画像の逆方向画像スタイルタイプを識別することもできる。

２０５では、スタイル監視制御ネットワークを用いて、第１順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第１逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御する。

敵対的生成ネットワークで生成される画像は、スタイルタイプに変形が発生する可能性があるため、ここで、スタイル監視制御ネットワークを用いて、画像全体スタイルタイプが一致するように、敵対的生成ネットワークで生成された画像全体のスタイルタイプを厳しく制約してもよい。

図２ｅに示す品質監視制御過程を参照する。ここで、スタイル監視制御ネットワークは、第１順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第１逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御することができる。
スタイル監視制御ネットワークには、連結層（Ｃｏｎｃａｔ）、畳み込み層（Ｃｏｎｖ）、全体平均プーリング層（ＧＡＰ）が含まれる。

２０６では、コンテンツ監視制御ネットワークを用いて、第１順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第１逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御する。

敵対的生成ネットワークで生成される画像は、コンテンツに変形が発生する可能性があるため、ここで、コンテンツ監視制御ネットワークを用いて、変換対象の画像と変換後の画像との内容が一致するように、敵対的生成ネットワークで生成された画像全体のコンテンツを厳しく制約してもよい。

図２ｅに示す品質監視制御過程を参照する。ここで、コンテンツ監視制御ネットワークは、第１順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第１逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御することができる。
コンテンツ監視制御ネットワークには、畳み込み層（Ｃｏｎｖ）、補間層（Ｉｎｔｅｒｐｏｌａｔｉｏｎ）が含まれる。

ｃ_Ａは、第１参照画像における局所画像のコンテンツ特徴であり、ｄ_Ａは、第１参照画像における局所画像のスタイル特徴であり、ｄ _Ｂは、サンプル画像における局所画像のコンテンツ特徴であり、ｃ_Ｂは、サンプル画像における局所画像のスタイル特徴である。

ｃ_Ａ及びｃ_Ｂが１×１の畳み込み層を通過すると、コンテンツ一致性損失を計算するために、最近傍補間方法で補間して、元の入力パッチのサイズに戻すことができる。

スタイル監視制御ネットワークとコンテンツ監視制御ネットワークは、重みパラメータが共有された２つのエンコーダを共有する。該エンコーダは、二次元画像を特徴潜在空間に符号化することができ、その構成が、表２に示すとおりである。

ここで、該エンコーダは、４つの畳み込み層（Ｃｏｎｖ）と、ＬｅａｋｙＲｅＬＵ層（Ｌ－ＲｅＬＵ）とを含み、各畳み込み層のパラメータ情報は、表２のｌａｙｅｒＩｎｆｏにリストされ、チャネル数、畳み込みカーネルサイズ、パディングサイズ、及びストライドを含む。

２０７では、正変換損失、逆変換損失、順方向画像スタイルタイプ、逆方向画像スタイルタイプ、順方向局所スタイル損失、逆方向局所スタイル損失、順方向コンテンツ損失、及び逆方向コンテンツ損失に基づいて、収束するまでパラメータを調整することにより、訓練後の順方向生成ネットワークと訓練後の逆方向生成ネットワークとを含む訓練後のモデルを取得する。
このステップについて、ステップ１０４を参照し、ここではこれ以上の説明を省略する。

２０８では、処理対象の晴天画像を取得すると、訓練後の順方向生成ネットワークを用いて、処理対象の晴天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の曇天画像を取得し、処理対象の曇天画像を取得すると、訓練後の逆方向生成ネットワークを用いて、処理対象の曇天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の晴天画像を取得する。

ステップ２０１～２０７を経ると、効果が優れる訓練後の順方向生成ネットワークＧ_ＡＢ及び訓練後の逆方向生成ネットワークＧ_ＢＡを取得することができ、Ｇ_ＡＢ及びＧ_ＢＡに基づいて、双方向の画像スタイルタイプ変換を同時に実現することができる。

図２ｆを参照すると、本発明では、ユーザがフロントエンドＡを介して処理対象の画像をバックエンドに伝送することができる。バックエンドサーバにおいて、本発明で提供される画像処理方法は、処理対象の画像に対してスタイルタイプ変換を行い、最後に、処理済みの画像をフロントエンドＢに伝送することができる。

以上から分かるように、本願の実施例では、晴天サンプル及び曇天サンプルを含むサンプル画像と、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワーク、スタイル監視制御ネットワーク、及びコンテンツ監視制御ネットワークを含む敵対的生成ネットワークと、を取得し、順方向生成ネットワークを用いて、晴天サンプルに対してスタイル変換処理を行うことにより、第１順方向参照画像を取得し、逆方向生成ネットワークを用いて、第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得し、正のサイクルを完了し、晴天サンプルと第２順方向参照画像との間の正変換損失を決定し、逆方向生成ネットワークを用いて、曇天サンプルに対してスタイル変換処理を行うことにより、第１逆方向参照画像を取得し、順方向生成ネットワークを用いて、第１逆方向参照画像に対してスタイル変換処理を行うことにより、第２逆方向参照画像を取得し、逆のサイクルを完了し、曇天サンプルと第２逆方向参照画像との間の逆変換損失を決定し、順方向敵対的ネットワークを用いて第１順方向参照画像の順方向画像スタイルタイプを識別し、逆方向敵対的ネットワークを用いて第１逆方向参照画像の逆方向画像スタイルタイプを識別し、スタイル監視制御ネットワークを用いて、第１順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第１逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御し、コンテンツ監視制御ネットワークを用いて、第１順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第１逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御し、正変換損失、逆変換損失、順方向画像スタイルタイプ、逆方向画像スタイルタイプ、順方向局所スタイル損失、逆方向局所スタイル損失、順方向コンテンツ損失、及び逆方向コンテンツ損失に基づいて、収束するまでパラメータを調整することにより、訓練後の順方向生成ネットワークと訓練後の逆方向生成ネットワークとを含む訓練後のモデルを取得し、処理対象の晴天画像を取得すると、訓練後の順方向生成ネットワークを用いて、処理対象の晴天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の曇天画像を取得し、処理対象の曇天画像を取得すると、訓練後の逆方向生成ネットワークを用いて、処理対象の曇天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の晴天画像を取得することができる。

本発明で生成されるピクチャは、コンテンツに変形が発生することなく、２枚の画像の間の画像のコンテンツが厳密に一致し、画像全体のスタイルタイプも厳密に一致するため、本発明で生成される画像の品質が高い。また、本発明の訓練画像に余分なアノテーションをすることなく、モデル訓練を行うことができ、データの準備に必要な時間を減少させ、画像処理の効率を向上させる。これにより、本発明は、画像処理方法で生成される画像の品質を向上させることができる。

上記の方法をより良く実施するために、本願の実施例は、画像処理装置をさらに提供する。該画像処理装置は、具体的に、電子機器に組み込まれ得、該電子機器は、端末やサーバなどの機器であってもよい。ここで、端末は、携帯電話、タブレットコンピュータ、スマートブルートゥース機器、ノートパソコン、パーソナルコンピュータなどの機器であってもよい。サーバは、単一のサーバであってもよいし、複数のサーバで構成されるサーバクラスタであってもよい。
例えば、本実施例では、画像処理装置が具体的にサーバに組み込まれる場合を例として、本願の実施例の方法を詳細に説明する。

例えば、図３に示すように、該画像処理装置は、下記のような取得ユニット３０１と、初期変換ユニット３０２と、認識ユニット３０３と、コンテンツユニット３０４と、スタイルユニット３０５と、訓練ユニット３０６と、再変換ユニット３０７と、を含んでもよい。

（一）取得ユニット３０１
取得ユニット３０１は、サンプル画像及び敵対的生成ネットワークを取得するために使用することができ、敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる。

（二）初期変換ユニット３０２
初期変換ユニット３０２は、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するために使用することができる。
いくつかの実施例において、参照画像は、第１参照画像及び第２参照画像を含んでもよく、初期変換ユニット３０２は、
生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得するために使用することができる。

いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、順方向サンプル画像を含んでもよく、第１参照画像は、第１順方向参照画像を含んでもよく、第２参照画像は、第２順方向参照画像を含んでもよく、初期変換ユニット３０２は、具体的に、下記のような第１順方向サブユニット及び第２順方向サブユニットを含んでもよい。

（１）第１順方向サブユニット
第１順方向サブユニットは、順方向生成ネットワークを用いて、順方向サンプル画像に対してスタイル変換処理を行うことにより、第１順方向参照画像を取得する。

（２）第２順方向サブユニット
第２順方向サブユニットは、逆方向生成ネットワークを用いて、第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得する。

いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、逆方向サンプル画像を含んでもよく、第１参照画像は、第１逆方向参照画像を含んでもよく、第２参照画像は、第２逆方向参照画像を含んでもよく、初期変換ユニット３０２は、具体的に、下記のような第１逆方向サブユニット及び第２逆方向サブユニットを含んでもよい。

（３）第１逆方向サブユニット
第１逆方向サブユニットは、逆方向生成ネットワークを用いて、逆方向サンプル画像に対してスタイル変換処理を行うことにより、第１逆方向参照画像を取得する。

（４）第２逆方向サブユニット
第２逆方向サブユニットは、順方向生成ネットワークを用いて、第１逆方向参照画像に対してスタイル変換処理を行うことにより、第２逆方向参照画像を取得する。

いくつかの実施例において、初期変換ユニット３０２は、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得した後、具体的に、サンプル画像と第２参照画像との間の変換損失を計算するために使用することもできる。

（三）認識ユニット３０３
認識ユニット３０３は、敵対的ネットワークを用いて、第１参照画像とサンプル画像との間の類似度を予測し、第１参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算するために使用することができる。

具体的には、いくつかの実施例において、認識ユニット３０３は、
第１参照画像とサンプル画像との間の類似度が所定の順方向範囲に属する場合、第１参照画像の画像スタイルタイプを第１参照画像の画像スタイルタイプとして決定し、
第１参照画像とサンプル画像との間の類似度が所定の逆方向範囲に属する場合、第１参照画像の画像スタイルタイプを第２参照画像の画像スタイルタイプとして決定し、
第１参照画像の画像スタイルタイプを統計することにより、統計結果を取得し、
統計結果に基づいて、第１参照画像とサンプル画像との間の全体スタイル損失を計算するために使用することができる。

（四）コンテンツユニット３０４
コンテンツユニット３０４は、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定することができる。

いくつかの実施例において、コンテンツユニット３０４は、シャムネットワークのコンテンツ監視制御ネットワークを用いて、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定してもよい。

具体的には、いくつかの実施例において、コンテンツユニット３０４は、具体的に、コンテンツ局所サブユニットと、コンテンツ特徴サブユニットと、局所コンテンツ損失サブユニットと、コンテンツ損失サブユニットとを含んでもよい。

（１）コンテンツ局所サブユニット
コンテンツ局所サブユニットは、参照画像の全ての局所画像の中から局所参照画像を決定し、サンプル画像の全ての局所画像の中から局所サンプル画像を決定し、局所参照画像の参照画像における位置と、局所サンプル画像のサンプル画像における位置とが同じである。

（２）コンテンツ特徴サブユニット
コンテンツ特徴サブユニットは、シャムネットワークのコンテンツ監視制御ネットワークを用いて、局所参照画像に対応する局所参照コンテンツ特徴を抽出し、局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する。

（３）局所コンテンツ損失サブユニット
局所コンテンツ損失サブユニットは、局所参照コンテンツ特徴と局所サンプルコンテンツ特徴とを比較することにより、局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得する。

（４）コンテンツ損失サブユニット
コンテンツ損失サブユニットは、局所コンテンツ損失に基づいて、参照画像とサンプル画像との間のコンテンツ損失を決定する。
いくつかの実施例において、コンテンツ監視制御ネットワークは、第１エンコーダ及び第２エンコーダを含んでもよく、第１エンコーダ及び第２エンコーダは、互いに重みパラメータを共有し、コンテンツ特徴サブユニットは、具体的に、
第２エンコーダを用いて、局所参照画像に対してコンテンツ特徴抽出を行うことにより、局所参照画像の局所参照コンテンツ特徴を取得し、
第１エンコーダを用いて、局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、局所サンプル画像の局所サンプルコンテンツ特徴を取得するために使用することができる。

（五）スタイルユニット３０５
スタイルユニット３０５は、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定するために使用することができる。

いくつかの実施例において、スタイルユニット３０５は、具体的に、シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定するために使用することができる。

この場合、いくつかの実施例において、スタイルユニット３０５は、具体的に、下記のようなスタイル局所サブユニットと、スタイル特徴サブユニットと、局所参照スタイル損失サブユニットと、局所サンプルスタイル損失サブユニットと、スタイル損失サブユニットとを含んでもよい。

（１）スタイル局所サブユニット
スタイル局所サブユニットは、参照画像の全ての局所画像の中から第１局所参照画像および第２局所参照画像を決定し、サンプル画像の全ての局所画像の中から第１局所サンプル画像及び第２局所サンプル画像を決定する。ここで、第１局所参照画像と第２局所参照画像は、参照画像において、異なる位置にあり、第１局所サンプル画像と第２局所サンプル画像は、サンプル画像において、異なる位置にある。

（２）スタイル特徴サブユニット
スタイル特徴サブユニットは、シャムネットワークのスタイル監視制御ネットワークを用いて、第１局所参照画像に対応する第１局所参照スタイル特徴を抽出し、第２局所参照画像に対応する第２局所参照スタイル特徴を抽出し、第１局所サンプル画像に対応する第１局所サンプルスタイル特徴を抽出し、第２局所サンプル画像に対応する第２局所サンプルスタイル特徴を抽出する。

（３）局所参照スタイル損失サブユニット
局所参照スタイル損失サブユニットは、第１局所参照スタイル特徴と第２局所参照スタイル特徴とを比較することにより、第１局所参照画像と第２局所参照画像との間の局所スタイル損失を取得する。

（４）局所サンプルスタイル損失サブユニット
局所サンプルスタイル損失サブユニットは、第１局所サンプルスタイル特徴と第２局所サンプルスタイル特徴とを比較することにより、第１局所サンプル画像と第２局所サンプル画像との間の局所スタイル損失を取得する。

（５）スタイル損失サブユニット
スタイル損失サブユニットは、第１局所参照画像と第２局所参照画像との間の局所スタイル損失に基づいて、参照画像の局所スタイル損失を計算し、第１局所サンプル画像と第２局所サンプル画像との間の局所スタイル損失に基づいて、サンプル画像の局所スタイル損失を計算する。
この場合、いくつかの実施例において、スタイル監視制御ネットワークは、第１エンコーダ及び第２エンコーダを含んでもよく、第１エンコーダ及び第２エンコーダは、互いに重みパラメータを共有してもよく、スタイル特徴サブユニットは、具体的に、
第１エンコーダを用いて、第１局所参照画像、第１局所サンプル画像に対してスタイル特徴抽出を行うことにより、第１局所参照画像に対応する第１局所参照スタイル特徴と、第１局所サンプル画像に対応する第１局所サンプルスタイル特徴とを取得し、
第２エンコーダを用いて、第２局所参照画像、第２局所サンプル画像に対してスタイル特徴抽出を行うことにより、第２局所参照画像に対応する第２局所参照スタイル特徴と、第２局所サンプル画像に対応する第２局所サンプルスタイル特徴とを取得するために使用することができる。

（六）訓練ユニット３０６
訓練ユニット３０６は、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するために使用することができる。
いくつかの実施例において、初期変換ユニット３０２は、サンプル画像と第２参照画像との間の変換損失を計算するために使用することができる。この場合、訓練ユニット３０６は、具体的に、
変換損失、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するために使用することができる。

（七）再変換ユニット３０７
再変換ユニット３０７は、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するために使用することができる。
いくつかの実施例において、訓練後の生成ネットワークは、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークを含んでもよく、再変換ユニット３０７は、具体的に、
スタイルタイプ変換指示を取得し、
スタイルタイプ変換指示が順方向変換指示である場合、訓練後の順方向生成ネットワークを用いて、処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得し、
スタイルタイプ変換指示が逆方向変換指示である場合、訓練後の逆方向生成ネットワークを用いて、処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得する。

具体的に実施する際に、上記の各ユニットは、独立したエンティティとして実現してもよく、任意の組み合わせを行って同一又は若干のエンティティとして実現してもよい。上記の各ユニットの具体的な実施は、前述した方法の実施例を参照すればよいが、ここではこれ以上の説明を省略する。

以上から分かるように、本実施例の画像処理装置では、取得ユニットが、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、初期変換ユニットが、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、認識ユニットが、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、コンテンツユニットが、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、スタイルユニットが、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、訓練ユニットが、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得し、処理対象の画像を取得すると、再変換ユニットが、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。これにより、本発明は、画像処理方法で生成されるスタイル変換後の画像の品質を向上させることができる。

本願の実施例は、電子機器をさらに提供する。該電子機器は、端末やサーバなどの機器であってもよい。ここで、端末は、携帯電話、タブレットコンピュータ、スマートブルートゥース機器、ノートパソコン、パーソナルコンピュータなどであってもよい。サーバは、単一のサーバであってもよいし、複数のサーバで構成されるサーバクラスタなどであってもよい。

いくつかの実施例において、該画像処理装置は、複数の電子機器に組み込まれ得る。例えば、画像処理装置は、複数のサーバに組み込まれ、複数のサーバによって本願の画像処理方法を実現してもよい。いくつかの実施例において、画像処理装置は、１台のサーバによっても実現され得る。

本実施例では、本実施例の電子機器がサーバである場合を例として詳細に説明する。例えば、図４に示すように、図４は、本願の実施例に係るサーバの構成の模式図である。具体的には、
該サーバは、１つ又は複数の処理コアを含むプロセッサ４０１、１つ又は複数のコンピュータ可読記憶媒体を含むメモリ４０２、電源４０３、入力モジュール４０４、及び通信モジュール４０５などの部品を含んでもよい。当業者であれば理解できるように、図４に示されるサーバの構成は、サーバを限定するものではなく、図示されたものよりも多く又は少ない部品を含んでもよく、或いは特定の部品を組み合わせたものであってもよく、或いは部品の異なる配置を有してもよい。

プロセッサ４０１は、該サーバの制御センターであり、サーバ全体の各部分を様々なインタフェース及び回線で接続し、メモリ４０２に記憶されたソフトウェアプログラム及び／又はモジュールを実行又は遂行して、メモリ４０２に記憶されたデータを呼び出すことにより、サーバの様々な機能を実行してデータを処理し、サーバを全体的に監視制御する。いくつかの実施例において、プロセッサ４０１は、１つ又は複数の処理コアを含んでもよい。いくつかの実施例において、プロセッサ４０１には、アプリケーションプロセッサ及びモデムプロセッサが組み込まれ得る。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース、及びアプリケーションプログラムなどを処理し、モデムプロセッサは、主に無線通信を処理する。理解できるように、上記モデムプロセッサは、プロセッサ４０１に組み込まれなくてもよい。

メモリ４０２は、ソフトウェアプログラム及びモジュールを記憶するために使用することができ、プロセッサ４０１は、メモリ４０２に記憶されたソフトウェアプログラム及びモジュールを実行することにより、様々な機能アプリケーション及びデータ処理を実行する。メモリ４０２は、主にプログラム記憶領域及びデータ記憶領域を含んでもよい。ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも１つの機能（例えば、音響再生機能、画像再生機能など）に必要なアプリケーションプログラムなどを記憶してもよい。データ記憶領域には、サーバの使用に応じて作成されたデータなどを記憶してもよい。また、メモリ４０２は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリ、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステート記憶デバイスを含んでもよい。これに応じて、メモリ４０２は、メモリコントローラをさらに含んでもよい。これにより、プロセッサ４０１によるメモリ４０２へのアクセスが提供される。

サーバは、各部品に電力を供給する電源４０３をさらに含む。いくつかの実施例において、電源４０３は、電源管理システムを介して、プロセッサ４０１に論理的に接続してもよい。これにより、電源管理システムによって、充電、放電、及び電力消耗の管理などの機能を実現する。電源４０３は、１つ又は複数の直流又は交流の電源、再充電システム、電源故障検出回路、電源変換器又はインバータ、電源状態インジケータなどの任意のコンポーネントを含んでもよい。

該サーバは、入力モジュール４０４をさらに含んでもよい。該入力モジュール４０４は、入力された数字又は文字の情報を受信することと、ユーザ設定及び機能制御に関する、キーボード、マウス、ジョイスティック、光学又はトラックボールによる信号入力を生成することとに使用することができる。

該サーバは、通信モジュール４０５をさらに含んでもよい。いくつかの実施例において、通信モジュール４０５は、無線モジュールを含んでもよい。サーバは、該通信モジュール４０５の無線モジュールによって短距離無線伝送を行うことにより、ユーザに無線の広帯域のインターネットへのアクセスを提供することができる。例えば、該通信モジュール４０５は、ユーザによる電子メールの送受信、ウェブ閲覧、及びストリーミングメディアへのアクセスなどを助けるために使用することができる。

示されていないが、サーバは、表示ユニットなどをさらに含んでもよく、ここではこれ以上の説明を省略する。具体的に、本実施例において、サーバのプロセッサ４０１は、下記のようなコンピュータ可読命令に従って、１つ又は複数のアプリケーションのプロセスに対応する実行可能なファイルをメモリ４０２にロードする。また、メモリ４０２に記憶されたアプリケーションプログラムをプロセッサ４０１が実行することにより、下記のような各機能を実行する。即ち、
サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、
生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、
敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、
参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、
参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、
全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得し、
処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する。
上記の各操作の具体的な実施は、前述した実施例を参照すればよいが、ここではこれ以上の説明を省略する。

以上から分かるように、本発明は、画像処理方法で生成されるスタイル変換後の画像の品質を向上させることができる。
当業者であれば理解できるように、上記の実施例の各方法のステップの全部又は一部は、コンピュータ可読命令によって実行されてもよいし、コンピュータ可読命令を介して関連ハードウェアを制御して実行されてもよい。該コンピュータ可読命令は、１つ又は複数のコンピュータ可読記憶媒体に記憶され、１つ又は複数のプロセッサによってロード及び実行されてもよい。

このため、本願の実施例は、コンピュータ可読命令を記憶した１つ又は複数の不揮発性記憶媒体を提供する。前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、本願の実施例で提供されるいずれか１つの画像処理方法のステップを実行させる。例えば、該コンピュータ可読命令は、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップと、
生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップと、
敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定するステップと、
参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定するステップと、
参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定するステップと、
全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を実行させることが可能である。

ここで、該記憶媒体は、読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク、又は光ディスクなどを含んでもよい。

該記憶媒体に記憶されたコンピュータ可読命令は、本願の実施例で提供されるいずれか１つの画像処理方法のステップを実行させることが可能であるため、本願の実施例で提供されるいずれか１つの画像処理方法によって達成できる有益な効果を達成させることができる。その詳細については、前述した実施例を参照すればよいが、ここではこれ以上の説明を省略する。

任意選択的に、コンピュータ命令を記憶したコンピュータプログラム製品又はコンピュータプログラムが提供されている。該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取る。プロセッサは、該コンピュータ命令を実行することにより、該コンピュータ機器に上記の各方法の実施例におけるステップを実行させる。

理解すべきものとして、本願の各実施例における各ステップは、必ずしもステップ番号で示される順序に従って順次実行されるとは限らない。本明細書で明確に説明されない限り、これらのステップの実行順序には、厳しい制限がない。これらのステップは、他の順序で実行されてもよい。また、各実施例における少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同一の時刻に実行完了するとは限らず、異なる時刻に実行されてもよい。これらのサブステップ又は段階の実行順序も、必ずしも順次に実行するとは限らず、他のステップ、或いは、他のステップのサブステップ又は段階の少なくとも一部と代わる代わる又は交代で実行されてもよい。

以上は、本願の実施例で提供される画像処理方法、装置、サーバ、及びコンピュータ可読媒体について詳細に説明している。本明細書では、本願の原理及び実施形態を説明するために具体例を使用したが、以上の実施例の説明は、本願の方法及びその主旨の理解を助けるためにのみ使用される。また、当業者にとっては、本願の構想に基づき、具体的な実施形態及び適用範囲のいずれにも変更があり得る。上述のように、本明細書の内容は、本願を制限するものと理解されるべきではない。

３０１取得ユニット
３０２初期変換ユニット
３０３認識ユニット
３０４コンテンツユニット
３０５スタイルユニット
３０６訓練ユニット
３０７再変換ユニット
４０１プロセッサ
４０２メモリ
４０３電源
４０４入力モジュール
４０５通信モジュール

Claims

サーバが実行する画像処理方法であって、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれ、前記サンプル画像は、画像スタイルタイプがアノテーションされた画像データである、ステップと、
前記生成ネットワークを用いて、前記サンプル画像に対して前記画像スタイルタイプを変換するスタイル変換処理を行うことにより、参照画像を取得するステップと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定するステップと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
を含む画像処理方法。
前記参照画像は、第１参照画像及び第２参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する前記ステップは、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、前記第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得するステップを含み、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する前記ステップは、
前記敵対的ネットワークを用いて、前記第１参照画像と前記サンプル画像との間の類似度を予測するステップと、
前記第１参照画像と前記サンプル画像との間の類似度に基づいて、前記参照画像と前記サンプル画像との間の全体スタイル損失を計算するステップと、を含む、
請求項１に記載の画像処理方法。
前記生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、前記サンプル画像は、順方向サンプル画像を含み、前記第１参照画像は、第１順方向参照画像を含み、前記第２参照画像は、第２順方向参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、前記第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する前記ステップは、
前記順方向生成ネットワークを用いて、前記順方向サンプル画像に対してスタイル変換処理を行うことにより、第１順方向参照画像を取得するステップと、
前記逆方向生成ネットワークを用いて、前記第１順方向参照画像に対してスタイル変換処理を行うことにより、第２順方向参照画像を取得するステップと、を含む、
請求項２に記載の画像処理方法。
前記生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、前記サンプル画像は、逆方向サンプル画像を含み、前記第１参照画像は、第１逆方向参照画像を含み、前記第２参照画像は、第２逆方向参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、前記第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する前記ステップは、
前記逆方向生成ネットワークを用いて、前記逆方向サンプル画像に対してスタイル変換処理を行うことにより、第１逆方向参照画像を取得するステップと、
前記順方向生成ネットワークを用いて、前記第１逆方向参照画像に対してスタイル変換処理を行うことにより、第２逆方向参照画像を取得するステップと、を含む、
請求項２に記載の画像処理方法。
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第１参照画像を取得し、前記第１参照画像に対してスタイル変換処理を行うことにより、第２参照画像を取得する前記ステップの後、
前記サンプル画像と第２参照画像との間の変換損失を計算するステップを含み、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する前記ステップは、
前記変換損失、前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップを含む、
請求項２に記載の画像処理方法。
前記第１参照画像と前記サンプル画像との間の類似度に基づいて、前記参照画像と前記サンプル画像との間の全体スタイル損失を計算する前記ステップは、
前記第１参照画像と前記サンプル画像との間の類似度が所定の順方向範囲に属する場合、前記第１参照画像の画像スタイルタイプを第１参照画像の画像スタイルタイプとして決定するステップと、
前記第１参照画像と前記サンプル画像との間の類似度が所定の逆方向範囲に属する場合、前記第１参照画像の画像スタイルタイプを第２参照画像の画像スタイルタイプとして決定するステップと、
前記第１参照画像の画像スタイルタイプを統計することにより、統計結果を取得するステップと、
前記統計結果に基づいて、前記第１参照画像と前記サンプル画像との間の全体スタイル損失を計算するステップと、を含む、
請求項２に記載の画像処理方法。
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定する前記ステップは、
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップを含み、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定する前記ステップは、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップを含む、
請求項１に記載の画像処理方法。
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行う前記ステップは、
前記参照画像の全ての局所画像の中から局所参照画像を決定し、前記サンプル画像の全ての局所画像の中から局所サンプル画像を決定するステップであって、前記局所参照画像の前記参照画像における位置と、前記局所サンプル画像の前記サンプル画像における位置とが同じである、ステップと、
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記局所参照画像に対応する局所参照コンテンツ特徴を抽出し、前記局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出するステップと、
前記局所参照コンテンツ特徴と前記局所サンプルコンテンツ特徴とを比較することにより、前記局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得するステップと、
前記局所コンテンツ損失に基づいて、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、を含む、
ことを特徴とする請求項７に記載の画像処理方法。
前記シャムネットワークのコンテンツ監視制御ネットワークは、第１エンコーダ及び第２エンコーダを含み、前記第１エンコーダ及び前記第２エンコーダは、互いに重みパラメータを共有し、シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記局所参照画像に対応する局所参照コンテンツ特徴を抽出し、前記局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する前記ステップは、
前記第１エンコーダを用いて、前記局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、前記局所サンプル画像の局所サンプルコンテンツ特徴を取得するステップと、
前記第２エンコーダを用いて、前記局所参照画像に対してコンテンツ特徴抽出を行うことにより、前記局所参照画像の局所参照コンテンツ特徴を取得するステップと、を含む、
請求項８に記載の画像処理方法。
シャムネットワークのスタイル監視制御ネットワークを用いて、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定する前記ステップは、
前記参照画像の全ての局所画像の中から第１局所参照画像および第２局所参照画像を決定し、前記サンプル画像の全ての局所画像の中から第１局所サンプル画像及び第２局所サンプル画像を決定するステップであって、前記第１局所参照画像と前記第２局所参照画像は、前記参照画像において、異なる位置にあり、前記第１局所サンプル画像と前記第２局所サンプル画像は、前記サンプル画像において、異なる位置にあるステップと、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記第１局所参照画像に対応する第１局所参照スタイル特徴を抽出し、前記第２局所参照画像に対応する第２局所参照スタイル特徴を抽出し、前記第１局所サンプル画像に対応する第１局所サンプルスタイル特徴を抽出し、前記第２局所サンプル画像に対応する第２局所サンプルスタイル特徴を抽出するステップと、
前記第１局所参照スタイル特徴と前記第２局所参照スタイル特徴とを比較することにより、前記第１局所参照画像と前記第２局所参照画像との間の局所スタイル損失を取得するステップと、
前記第１局所サンプルスタイル特徴と前記第２局所サンプルスタイル特徴とを比較することにより、前記第１局所サンプル画像と前記第２局所サンプル画像との間の局所スタイル損失を取得するステップと、
前記第１局所参照画像と前記第２局所参照画像との間の局所スタイル損失に基づいて、前記参照画像の局所スタイル損失を計算し、前記第１局所サンプル画像と前記第２局所サンプル画像との間の局所スタイル損失に基づいて、前記サンプル画像の局所スタイル損失を計算するステップと、を含む、
請求項７に記載の画像処理方法。
前記シャムネットワークのスタイル監視制御ネットワークは、第１エンコーダ及び第２エンコーダを含み、前記第１エンコーダ及び前記第２エンコーダは、互いに重みパラメータを共有し、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記第１局所参照画像に対応する第１局所参照スタイル特徴を抽出し、前記第２局所参照画像に対応する第２局所参照スタイル特徴を抽出し、前記第１局所サンプル画像に対応する第１局所サンプルスタイル特徴を抽出し、前記第２局所サンプル画像に対応する第２局所サンプルスタイル特徴を抽出する前記ステップは、
前記第１エンコーダを用いて、前記第１局所参照画像、前記第１局所サンプル画像に対してスタイル特徴抽出を行うことにより、前記第１局所参照画像に対応する第１局所参照スタイル特徴と、前記第１局所サンプル画像に対応する第１局所サンプルスタイル特徴とを取得するステップと、
前記第２エンコーダを用いて、前記第２局所参照画像、前記第２局所サンプル画像に対してスタイル特徴抽出を行うことにより、前記第２局所参照画像に対応する第２局所参照スタイル特徴と、前記第２局所サンプル画像に対応する第２局所サンプルスタイル特徴とを取得するステップと、を含む、
請求項１０に記載の画像処理方法。
前記訓練後の生成ネットワークは、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークを含み、処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する前記ステップは、
スタイルタイプ変換指示を取得するステップと、
前記スタイルタイプ変換指示が順方向変換指示である場合、前記訓練後の順方向生成ネットワークを用いて、前記処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
前記スタイルタイプ変換指示が逆方向変換指示である場合、前記訓練後の逆方向生成ネットワークを用いて、前記処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を含む、
請求項１に記載の画像処理方法。
画像処理装置であって、
サンプル画像及び敵対的生成ネットワークを取得する取得ユニットであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれ、前記サンプル画像は、画像スタイルタイプがアノテーションされた画像データである、取得ユニットと、
前記生成ネットワークを用いて、前記サンプル画像に対して前記画像スタイルタイプを変換するスタイル変換処理を行うことにより、参照画像を取得する初期変換ユニットと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する認識ユニットと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するコンテンツユニットと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するスタイルユニットと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する訓練ユニットと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する再変換ユニットと、
を含む装置。
プロセッサとメモリとを備えるサーバであって、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、請求項１乃至１２のいずれか１項に記載の画像処理方法のステップを前記プロセッサに実行させるサーバ。
請求項１乃至１２のいずれか１項に記載の画像処理方法のステップをコンピュータに実行させるコンピュータプログラム。