JP2022530518A

JP2022530518A - 画像生成方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2022530518A
Application number: JP2021564168A
Authority: JP
Inventors: ジーチアンシェン; ミンヤンホアン; ジエンピンシー; 英樹松永
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-04-29
Filing date: 2020-02-24
Publication date: 2022-06-29
Anticipated expiration: 2040-02-24
Also published as: US20220044054A1; JP7394147B2; US11900648B2; WO2020220807A1; CN113841179A

Abstract

本発明の実施例は、画像生成方法及び装置、電子機器並びに記憶媒体を開示し、前記画像生成方法は、第１画像のコンテンツ特徴を抽出することと、第２画像の全体画像スタイル特徴と、オブジェクトを含む第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、少なくとも全体画像スタイル特徴及びオブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、コンテンツ特徴及びターゲットスタイル特徴に従って第３画像を生成することと、を含む。【選択図】図１

Description

［関連出願への相互参照］
本願は、２０１９年０４月２９日に中国特許局に提出された、出願番号が２０１９１０３５２７９２．１である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全てのコンテンツが引用によって本願に組み込まれる。
［技術分野］
本発明は、コンピュータ技術分野に関し、特に、画像生成方法及び装置、電子機器並びに記憶媒体に関する。

関連技術では、深層学習などの方法により画像スタイルの全体的な変換を実現することができる。例えば、画像の明るさ、コントラスト、照明、色、芸術的特徴又はアートワークなどを変換して、様々なスタイルの画像を取得することができる。しかしながら、スタイルの変換は、全体的な画像に対してのみ適用でき、画像内のターゲットオブジェクトのスタイルは、画像の全体的なスタイルとともに変換することしかできず、ターゲットオブジェクトのスタイルを反映できないため、変換後の画像のスタイルが単調になり、画像全体とターゲットオブジェクトが位置する領域との間の不調和が生じる。

本発明の実施例は、画像生成方法及び装置、電子機器並びに記憶媒体を提案する。

第１態様によれば、本発明の実施例は画像生成方法を提供し、前記画像生成方法は、
第１画像のコンテンツ特徴を抽出することと、
第２画像の全体画像スタイル特徴と、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第２画像と前記第１画像のスタイルは異なる、ことと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む。

本発明の実施例の画像生成方法によれば、第２画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴及び第１画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルの第３画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性を向上させ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第３画像は、第１画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、これは、第１画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプルや少数の画像サンプルの場合での手動収集や注釈のコストを大幅に減らす。

第２態様によれば、本発明の実施例は画像生成装置を提供し、前記画像生成装置は、
第１画像のコンテンツ特徴を抽出するように構成される第１抽出モジュールと、
第２画像の全体画像スタイル特徴と、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第２抽出モジュールであって、前記第２画像と前記第１画像のスタイルは異なる、第２抽出モジュールと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第１生成モジュールと、を備える。

第３態様によれば、本発明の実施例は電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは、前述した本発明の実施例の画像生成方法を実行するように構成される。

第４態様によれば、本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、前述した本発明の実施例の画像生成方法を実現する。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本願を限定するものではないことを理解されたい。

以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本発明の実施例の他の特徴および態様は明らかになる。

ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示し、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
本発明の実施例に係る画像生成方法の第１のフローチャートである。本発明の実施例に係る画像生成方法の第２のフローチャートである。本発明の実施例に係るスタイル特徴融合の概略図である。本発明の実施例に係る画像生成方法の第３のフローチャートである。本発明の実施例に係る画像生成方法の第４のフローチャートである。本発明の実施例に係る画像生成方法の応用の概略図である。本発明の実施例に係る画像生成方法の応用の概略図である。本発明の実施例に係る画像生成方法の応用の概略図である。本発明の実施例に係る画像生成装置の第１のブロック図である。本発明の実施例に係る画像生成装置の第２のブロック図である。本発明の実施例に係る電子機器の第１の概略構造図である。本発明の実施例に係る電子機器の第２の概略構造図である。

以下、本発明のさまざまな例示的な実施例、特徴および態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。

明細書における「例示的」という専門の用語は、「例、実施例または説明として使用される」ことを意図する。ここで、「例示的」として説明される任意の実施例は、他の実施例より適切であるかまたは優れると解釈される必要はない。

本明細書における「及び／又は」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、３種類の関係が存在することができることを示し、例えば、Ａおよび／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合など３つの場合を表す。さらに、本明細書における「少なくとも１つ」という用語は、複数のうちの１つまたは複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、ＢおよびＣで構成されたセットから選択された任意の１つまたは複数の要素を含むことを示す。

さらに、本発明の実施例をよりよく説明するために、以下の特定の実施形態において、多数の特定の詳細が与えられる。当業者は、本発明の実施例は特定の具体的な詳細なしにも実施できることを理解されたい。いくつかの具現例において、本発明の実施例の要旨を強調するために、当業者に周知の方法、手段、要素および回路について詳細に説明しない。

図１は、本発明の実施例に係る画像生成方法の第１のフローチャートを示し、図１に示されたように、前記画像生成方法は、次のステップを含む。

ステップＳ１１において、第１画像のコンテンツ特徴を抽出する。

ステップＳ１２において、第２画像の全体画像スタイル特徴と、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出し、ここで、前記第２画像と前記第１画像のスタイルは異なる。

ステップＳ１３において、少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定する。

ステップＳ１４において、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにする。

本発明の実施例の画像生成方法によれば、第２画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴及び第１画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルの第３画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体画像が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性をさせ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第３画像は、第１画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、これは、第１画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプルや少数の画像サンプル場合での手動収集や注釈のコストを大幅に減らす。

一可能な実施形態において、前記方法は端末機器によって実行でき、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよく、メモリに記憶されているコンピュータ可読命令をプロセッサを介して呼び出すことにより前記方法を実現することができる。あるいは、サーバを介して前記方法を実行することができる。

一可能な実施形態において、第１画像及び第２画像のいずれも、１つ又は複数のオブジェクトを含む画像であってもよく、前記オブジェクトは、様々なカテゴリのオブジェクトであってもよく、前記第１画像及び／又は前記第２画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも１つのカテゴリのオブジェクトを含む。

一可能な実施形態において、第１画像と第２画像の画像スタイルは異なり、前記画像スタイルは、画像の明るさ、コントラスト、照明、色、芸術的特徴又はアートワークを含み得る。例示的に、第１画像と第２画像は、異なる環境、例えば、昼間、夜、雨の中、霧の中など様々な環境で撮影された画像であってもよい。例えば、第１画像は、昼間にある場所で撮影された画像であり、第２画像は、夜に別の場所で撮影された画像である。

一可能な実施形態において、ステップＳ１１において、第１画像のコンテンツ特徴を抽出することができる。前記コンテンツ特徴は、第１画像に含まれるコンテンツを表すために使用でき、一例として、前記コンテンツ特徴は、第１画像内のオブジェクトのカテゴリ、形状、位置などの情報のうちの少なくとも１つであってもよく、又は、前記コンテンツ特徴は、第１画像の背景などを含んでもよい。別の例として、前記コンテンツ特徴は、第１画像の全体画像のコンテンツ特徴を含み得る。一例では、特徴抽出器を介して第１画像のコンテンツ特徴を抽出することができる。実際の応用では、前記特徴抽出器は、畳み込みニューラルネットワークなどで実現でき、本発明の実施例は、特徴抽出器の実施形態を限定しない。前記コンテンツ特徴は、特徴抽出器によって取得された第１画像の特徴マップ又は特徴ベクトルを含み得る。

一可能な実施形態において、第１画像のコンテンツ特徴は、オブジェクトが含まれている第１画像の部分画像ブロックのオブジェクトコンテンツ特徴を含み得、第１画像から複数の部分画像ブロックを抽出し、各部分画像ブロックは１つのオブジェクトを含み得、次に各部分画像ブロックのオブジェクトコンテンツ特徴をそれぞれ抽出することができる。例えば、特徴抽出器を介して、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴を抽出することができる。

一可能な実施形態では、ステップＳ１２において、特徴抽出器を使用して、第２画像の全体画像スタイル特徴と、オブジェクトを含む第２画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することができる。例示的に、前記特徴抽出器は、畳み込みニューラルネットワークなどのニューラルネットワークで実現でき、本発明の実施例は、前記特徴抽出器の実施形態を限定しない。例えば、特徴抽出器は、第２画像及び第２画像の部分画像ブロックに対してそれぞれ抽出処理を実行して、全体画像スタイル特徴及び各オブジェクトのオブジェクトスタイル特徴をそれぞれ抽出することができる。ここで、前記全体画像スタイル特徴及びオブジェクトスタイル特徴は、８ビットの長さの特徴ベクトルであってもよい。本発明の実施例は、全体画像スタイル特徴及びオブジェクトスタイル特徴の表示方式を限定しない。

一可能な実施形態において、前記第２画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、前記第２画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは１つのカテゴリのオブジェクトを含むことと、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む。

一例では、第２画像から、第２画像内の１つのオブジェクトを含む部分画像ブロックを抽出し、特徴抽出器を使用して、各部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することができる。更に、前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む。例えば、同じカテゴリの複数のオブジェクトのオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、同じカテゴリのオブジェクトの複数のオブジェクトスタイル特徴を融合することができる。例示的に、同じ方式で、第１画像の全体画像スタイル特徴及びオブジェクトスタイル特徴を抽出することができる。

例示的に、第１画像が昼間にある場所で撮影された画像であり、第２画像が夜に別の場所で撮影された画像である場合、第１画像の全体画像スタイル特徴とオブジェクトスタイル特徴は、昼間に撮影された画像のスタイルを表すことができ、例えば、画像の明るさ、コントラスト、照明、色はすべて、昼間に撮影された画像のスタイルであり、第１画像の全体画像スタイル特徴は、第１画像のスタイル情報を表し、第１画像のオブジェクトスタイル特徴は、第１画像内のオブジェクトが位置する領域（即ち、第１画像の部分画像ブロック）のスタイル情報を表す。第２画像の全体画像スタイル特徴とオブジェクトスタイル特徴は、夜に撮影された画像のスタイルを表すことができ、第２画像の全体画像スタイル特徴は、第２画像のスタイル情報を表し、第２画像のオブジェクトスタイル特徴は、第２画像内のオブジェクトが位置する領域（即ち、第２画像の部分画像ブロック）のスタイル情報を表す。

一可能な実施形態では、ステップＳ１３において、少なくとも第２画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定する。前記第２画像と前記第１画像のスタイルは異なり、第２画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に従ってターゲットスタイル特徴を決定し、第１画像のスタイルを、ターゲットスタイル特徴に対応するスタイル及び第１画像のコンテンツを有する画像、すなわち、第３画像に変換することができる。第３画像は、スタイル変換後の第１画像の全体画像（即ち、第１画像の全体画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する画像）、及びスタイル変換後の部分画像ブロック（即ち、第１画像の部分画像ブロックのオブジェクトのコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する画像）を含み得る。

一可能な実施形態において、ステップＳ１３は、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含み得る。例示的に、第２画像の全体画像スタイル特徴及びオブジェクトスタイル特徴のいずれも特徴ベクトルであり、全体画像スタイル特徴及びオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得することができる。

このように、全体画像スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得し、ターゲットスタイル特徴に基づいて第３画像を生成することにより、第３画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第３画像内のオブジェクトが、オブジェクトスタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイルと調和するようにすることができ、これにより、スタイル遷移の画像の真実性を向上させる。オブジェクトスタイル特徴を全体画像スタイル特徴に融合する方式と比較して、全体画像スタイル特徴をオブジェクトスタイル特徴に融合する方式によって取得された第３画像内のオブジェクトのスタイルの方が、全体画像のスタイルとより調和される。

上記の実施例に基づき、図２は、本発明の実施例に係る画像生成方法の第２のフローチャートを示し、図２に示されたように、前記画像生成方法は、次のステップを更に含む。

ステップＳ１５において、前記第２画像内の背景画像ブロックの背景スタイル特徴を抽出し、ここで、前記背景画像ブロックは、前記第２画像の前記部分画像ブロック以外の画像ブロックである。

例示的に、特徴抽出器を介して、第２画像内の背景画像ブロックの背景スタイル特徴を抽出することができる。

この場合、上記の実施例におけるステップＳ１３は、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含み得る。

このように、全体画像スタイル特徴、オブジェクトスタイル特徴、及び背景スタイル特徴に従って、ターゲットスタイル特徴を決定することにより、第３画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第３画像の背景が背景スタイル特徴に対応するスタイルを有するようにし、第３画像内のオブジェクトがオブジェクトスタイル特徴に対応するスタイルを有するようにすることができる。

一可能な実施形態において、前記前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む。

本実施例では、ターゲットスタイル特徴は、第２画像の全体画像スタイル特徴を第２画像の背景スタイル特徴に融合し、次に第２画像の全体画像スタイル特徴が融合された背景スタイル特徴を第２画像のオブジェクトスタイル特徴に融合することによって取得されたターゲットスタイル特徴であってもよい。他の実施形態において、ターゲットスタイル特徴はまた、第２画像の全体画像スタイル特徴を第２画像のオブジェクトスタイル特徴に融合することによって取得されたターゲットスタイル特徴であってもよい。

例示的に、図３は、本発明の実施例に係るスタイル特徴融合の概略図を示す。図３に示されたように、第２画像の全体画像スタイル特徴、背景スタイル特徴、及びオブジェクトスタイル特徴のいずれも特徴ベクトルであり、全体画像スタイル特徴及び背景スタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴を背景スタイル特徴に融合し、全体画像スタイル特徴が融合された背景スタイル特徴及びオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得することができる。

このように、全体画像スタイル特徴を背景スタイル特徴に融合した後、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合することにより、ターゲットスタイル特徴を取得し、次にターゲットスタイル特徴に基づいて第３画像を生成することにより、第３画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第３画像内の背景が、背景スタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイルと調和するようにし、第３画像内のオブジェクトが、オブジェクトスタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイル及び背景スタイル特徴に対応するスタイルと調和するようにし、これにより、スタイル遷移の画像の真実性を向上させる。オブジェクトスタイル特徴を背景スタイル特徴に融合した後、オブジェクトスタイル特徴が融合された背景スタイル特徴を全体画像スタイル特徴に融合する方式と比較して、全体画像スタイル特徴を背景スタイル特徴に融合した後、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合する方式によって取得された第３画像内のオブジェクトのスタイルと、背景的スタイルと、全体画像のスタイルとの間の調和性がより優れる。

一可能な実施形態では、ステップＳ１４において、第１画像のコンテンツ特徴及び前記ターゲットスタイル特徴に従って、第１画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する第３画像を生成することができる。例えば、画像生成器を使用して、第１画像のコンテンツ特徴及び前記ターゲットスタイル特徴に従って前記第３画像を生成することができる。

本実施例では、第１画像のコンテンツ特徴は、第１画像の全体画像のコンテンツ特徴及び第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴を含み得る。この場合、一可能な実施形態において、第１画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続を実行し、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続を実行することができきる。例えば、適応インスタンス正規化（ＡｄａＩＮ：ＡｄａｐｔｉｖｅＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ）などの方法で前記残差接続を実行して、第１画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得し、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができる。

一可能な実施形態において、画像生成器を介して、当該特徴情報（特徴情報は、第１画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を含み得る）に対して復号化処理を実行することにより、第１画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像を生成し、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを生成することができる。

一可能な実施形態において、第１画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを画像生成器に入力して、第１画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像を取得し、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを取得することができ、上記の画像及び部分画像ブロックは、両方とも第３画像と呼ばれることができる。

一可能な実施形態において、図４に示されたように、ステップＳ１４は、次のステップを含み得る。

ステップＳ１４１において、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別する。

ステップＳ１４２において、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練する。

ステップＳ１４３において、訓練済みの前記画像生成器を介して前記第３画像を生成する。

本実施例では、生成された画像のコンテンツ特徴は、第１画像のコンテンツ特徴と一致すべきであり、生成された画像の部分画像ブロックのコンテンツ特徴は、第１画像の部分画像ブロックのコンテンツ特徴と一致すべきであり、生成された画像のスタイルは、ターゲットスタイル特徴と一致すべきである。しかしながら、生成された画像は、画像生成器によって生成された画像であり、生成された画像のコンテンツと、第１画像又は第１画像の部分画像ブロックとの間に偏差がある可能性があり、生成された画像のスタイルとターゲットスタイル特徴との間にも偏差がある可能性があり、この場合、当該偏差に基づいてネットワーク損失を決定し、ネットワーク損失に基づいて画像生成器及び特徴抽出器を訓練することができる。

一可能な実施形態において、生成された画像を画像判別器に入力し、画像判別器を介して、生成された画像の真実性を判別し、画像判別器の判別結果と画像生成器によって生成された画像との間の敵対的訓練に基づいて、画像生成器を訓練することができる。

一可能な実施形態において、生成された画像と第１画像との間の差異に従って、第１総合ネットワーク損失を決定することができる。例えば、生成された画像と第１画像との間の対応する画素点間の差異に従ってクロスエントロピ損失を決定することができ、前記クロスエントロピ損失を第１総合ネットワーク損失として使用する。

別の可能な実施形態において、生成された画像が部分画像ブロックである場合、生成された部分画像ブロックと第１画像の部分画像ブロックとの間の差異に従って第２総合ネットワーク損失を決定することができる。例えば、生成された部分画像ブロックと第１画像の部分画像ブロックとの間の対応する画素点間の差異に従ってクロスエントロピ損失を決定することができ、前記クロスエントロピ損失を第２総合ネットワーク損失として使用する。

一可能な実施形態において、前記第１総合ネットワーク損失及び第２総合ネットワーク損失は、以下の式（１）で表すことができる。

（１）

ここで、Ｌ_ｒは、第１総合ネットワーク損失又は第２総合ネットワーク損失を表し、

は、生成された画像の画素点又は生成された部分画像ブロックの画素点を表し、ｋは、第１画像の画素点又は第１画像の部分画像ブロックの画素点を表し、

は、

とｋの対応する画素点間の差の１ノルムを表す。更に、

は、生成された画像又は生成された部分画像ブロックのコンテンツ情報、スタイル情報などを表すこともでき、ｋは、第１画像又は第１画像の部分画像ブロックのコンテンツ情報、スタイル情報などを表すこともできる。

一可能な実施形態において、生成された画像又は生成された部分画像ブロックを画像判別器に入力して判別処理を実行して、判別結果を取得することができる。ここで、前記判別結果は、生成された画像に対応する第１判別結果、及び／又は、生成された部分画像ブロックに対応する第２判別結果を含み得、第１判別結果及び第２判別結果は、それぞれ、生成された画像及び生成された部分画像ブロックの真実性を表すために使用されることができる。例示的に、前記第１判別結果及び第２判別結果は、確率の形式であってもよく、例えば、前記第１判別結果は、生成された画像が現実画像である確率が８０％であることを示す。

一可能な実施形態において、上記の第１総合ネットワーク損失及び第２総合ネットワーク損失のうちの少なくとも１つと、上記の第１判別結果及び第２判別結果のうちの少なくとも１つとに従って、前記特徴抽出器、前記画像生成器、及び前記画像判別器に対して敵対的訓練を実行し、つまり、第１訓練条件及び第２訓練条件が平衡状態に達するまで、特徴抽出器、画像生成器、及び画像判別器のネットワークパラメータを調整することができる。ここで、前記第１訓練条件は、例えば、特徴抽出器及び画像生成器の第１総合ネットワーク損失及び／又は第２総合ネットワーク損失が、最小化されるか又は設定された第１閾値より小さいことである。前記第２訓練条件は、例えば、画像判別器によって出力された第１判別結果及び／又は第２判別結果が現実画像である確率が、最大化されるか又は設定された第２閾値より大きいことである。

一可能な実施形態において、第１画像と第２画像は異なるスタイルの２つの画像であるため、訓練中に、２つの画像の位置を変換して、特徴抽出器、画像生成器、及び画像判別器を訓練することができる。例えば、第１回の訓練では、第１画像が画像Ａであり、第２画像が画像Ｂであり、第２回の訓練では、第１画像が画像Ｂであり、第２画像が画像Ａあり、この２回の訓練を１つの訓練グループとして使用し、２回の訓練でのネットワーク損失を、特徴抽出器、画像生成器及び画像判別器の総合ネットワーク損失として使用するか、又は２回の訓練でのネットワーク損失の平均値を、特徴抽出器、画像生成器及び画像判別器の総合ネットワーク損失として使用することができる。

上記の例に基づき、一可能な実施形態において、前記総合ネットワーク損失は、以下の式（２）で表すことができる。

（２）

ここで、

は、前記第１回の訓練で決定された第１判別結果の敵対的損失であり、

は、前記第２回の訓練で決定された第１判別結果の敵対的損失であり、

は、前記第１回の訓練で決定された第２判別結果の敵対的損失であり、

は、前記第２回の訓練で決定された第２判別結果の敵対的損失であり、

は、前記第１回の訓練において、ｋが第１画像の画素点を表し且つ

が生成された画像の画素点を表す場合に決定された第１総合ネットワーク損失であり、

は、前記第２回の訓練において、ｋが第１画像の画素点を表し且つ

は、前記第１回の訓練において、ｋが第１画像のコンテンツ情報を表し且つ

が生成された画像のコンテンツ情報を表す場合に決定された第１総合ネットワーク損失であり、

は、前記第２回の訓練において、ｋが第１画像のコンテンツ情報を表し且つ

は、前記第１回の訓練において、ｋが第１画像のスタイル情報を表し且つ

が生成された画像のスタイル情報を表す場合に決定された第１総合ネットワーク損失であり、

は、前記第２回の訓練において、ｋが第１画像のスタイル情報を表し且つ

は、前記第１回の訓練において、ｋが第１画像の部分画像ブロックの画素点を表し且つ

が生成された部分画像ブロックの画素点を表す場合に決定された第２総合ネットワーク損失であり、

は、前記第２回の訓練において、ｋが第１画像の部分画像ブロックの画素点を表し且つ

は、前記第１回の訓練において、ｋが第１画像の部分画像ブロックのコンテンツ情報を表し且つ

が生成された部分画像ブロックのコンテンツ情報を表す場合に決定された第２総合ネットワーク損失であり、

は、前記第２回の訓練において、ｋが第１画像の部分画像ブロックのコンテンツ情報を表し且つ

は、前記第１回の訓練において、ｋが第１画像の部分画像ブロックのスタイル情報を表し且つ

が生成された部分画像ブロックのスタイル情報を表す場合に決定された第２総合ネットワーク損失であり、

は、前記第２回の訓練において、ｋが第１画像の部分画像ブロックのスタイル情報を表し且つ

が生成された部分画像ブロックのスタイル情報を表す場合に決定された第２総合ネットワーク損失である。

一可能な実施形態において、上記の式（２）によって決定された総合ネットワーク損失に従って、特徴抽出器、画像生成器及び画像判別器に対して敵対的訓練を実行することができる。第１訓練条件及び第２訓練条件が平衡状態に達すると、訓練を終了し、訓練済みの画像生成器及び特徴抽出器を取得することができる。

一可能な実施形態において、訓練済みの画像生成器を介して第３画像を生成することができる。例えば、画像生成器は、アップサンプリングなどの復号化処理介して、第１画像のコンテンツ特徴（例えば、第１画像の全体画像のコンテンツ特徴又は第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴）及び前記ターゲットスタイル特徴に対して復号化処理を実行して、第３画像を生成し、生成された第３画像は、第１画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有することができる。例示的に、第１画像が画像内の各オブジェクトに対する注釈（例えば、カテゴリ注釈など）を含む場合、生成された第３画像は第１画像のコンテンツ特徴に対応するコンテンツを有するため、第３画像は、画像内の各オブジェクトに対する注釈を有することができる。

一可能な実施形態において、一致する２つの画像を使用して特徴抽出器及び画像生成器を訓練することにより、訓練効率と訓練効果を向上させることができる。ここで、一致する２つの画像とは、上記の第１画像と第２画像が一致するコンテンツを有する画像であることを示す。

ここで、第１画像と第２画像が一致するコンテンツを有する画像である場合、前記第２画像は、前記第１画像に対してスケーリング処理を実行することによって取得された画像であってもよく、即ち、第２画像のコンテンツとスタイルは第１画像と一致するが、第２画像の解像度が第１画像と一致しない。第１画像及び第２画像を使用して、特徴抽出器及び像生成器を訓練することができ、これにより、解像度に対する特徴抽出器及び画像生成器の普遍性を向上させ、特徴抽出器及び画像生成器のロバスト性を向上させることができる。

本発明の実施例に係る画像生成方法によれば、特徴抽出器及び画像生成器によって生成された、第１画像又は第１画像の部分画像ブロックと一致する画像を使用して、特徴抽出器及び画像生成器を訓練することができ、これにより、訓練効率と訓練効果を向上させることができる。一方、第２画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴、及び第１画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する第３画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体画像が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性を向上させ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第３画像は、第１画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、第１画像と同じの注釈を有することができ、これは、第１画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプル（例えば、異常気象などのまれな気象環境で収集された画像）や少数の画像サンプル（例えば、夜に収集された画像など、収集があまり行われていない環境で撮影された画像）の場合での手動収集や注釈のコストを大幅に減らす。

上記の実施例に基づき、一可能な実施形態において、図４に示されたように、前記画像生成方法は、次のステップを更に含む。

ステップＳ１６において、ソース画像のコンテンツ特徴を抽出し、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第１ターゲット画像を取得し、ここで、前記第１ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する。

本実施例では、特徴抽出器及び画像生成器の訓練が完了した後、特徴抽出器を介してソース画像のコンテンツ特徴を抽出し、画像生成器を介して、任意のスタイルのソース画像のスタイルを特定のスタイルに変換し、第１画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴を有する第１ターゲット画像を出力することができる。

上記の実施例に基づき、図５は、本発明の実施例に係る画像生成方法の第４のフローチャートを示し、図５に示されたように、前記画像生成方法は、次のステップを更に含む。

ステップＳ１７において、ソース画像のコンテンツ特徴を抽出し、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴及びランダムノイズを訓練済みの前記画像生成器に入力して、第２ターゲット画像を取得し、ここで、前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有する。

例示的に、ランダムノイズは、ランダムなコンテンツ又はスタイルを有する画像から抽出されたランダムコンテンツノイズ及び／又はランダムスタイル特徴、又はランダムに生成された各画素点のＲＧＢ値がランダムな値である画像のランダムコンテンツノイズ及び／又はランダムスタイル特徴を含み得、特徴抽出器を介して、上記の画像のランダムコンテンツノイズ及び／又はランダムスタイル特徴を抽出することができ、前記ランダムスタイル特徴に対応する画像スタイルはランダムである。例えば、ソース画像は、昼間にある場所で撮影された画像であり、ランダムノイズは、手動でランダムに生成された画像から抽出されたランダムスタイル特徴であってもよい。例えば、夜、夕方、曇り、夜明け、雨、雪などのスタイルのうちの１つをランダムノイズスタイルとしてランダムに選択し、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも１つをコンテンツとしてランダムに選択して、ランダムノイズを取得するための画像を生成することができる。

例示的に、画像生成器は、ソース画像のコンテンツ特徴、ランダムノイズ（ランダムノイズは、ランダムスタイル特徴及び／又はランダムコンテンツ特徴を含み得る）、及びターゲットスタイル特徴のうちの少なくとも１つに従って、第２ターゲット画像を生成することができる。例示的に、ソース画像のコンテンツ特徴とランダムノイズのランダムコンテンツ特徴を融合して、ソース画像とランダムノイズに対応するコンテンツ特徴を取得ことができ、ターゲットスタイル特徴とランダムノイズのランダムスタイル特徴を融合して、ターゲットスタイル特徴とランダムノイズに対応するスタイル特徴を取得することもできる。画像生成器は、上記の特徴に従って、ソース画像に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する第２ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつターゲットスタイル特徴に対応するスタイルを有する第２ターゲット画像を生成するか、又はソース画像に対応するコンテンツを有しかつターゲットスタイル特徴とランダムノイズに対応するスタイルを有する第２ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつターゲットスタイル特徴とランダムノイズに対応するスタイルを有する第２ターゲット画像を生成するか、又はソース画像に対応するコンテンツ及びランダムノイズに対応するスタイルを有する第２ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつランダムノイズに対応するスタイルを有する第２ターゲット画像を生成することができる。このようにして、ニューラルネットワークに基づいて複数のスタイルの画像を生成することができ、これにより、生成された画像のコンテンツ及び／又はスタイルの多様性を向上させることができる。

本発明の実施例に係る技術的解決策によれば、特徴抽出器及び画像生成器を介して、任意のスタイルの画像に対してスタイル変換処理を実行することにより、変換後の画像全体を、ターゲットオブジェクトが位置する領域と調和させることができる。

図６Ａ～６Ｃは、本発明の実施例に係る画像生成方法の応用の概略図を示し、図６Ａに示されたように、第１画像と第２画像のスタイルは異なり、例えば、第１画像は、昼間にある場所で撮影された画像であり、第２画像は、夜に別の場所で撮影された画像である。第１画像の全体画像と、オブジェクトを含む第１画像の部分画像ブロックに対してスタイル変換をそれぞれ実行することにより、第３画像を取得することができる。第３画像は、第１画像と同じコンテンツを有しかつ全体画像スタイル特徴及びオブジェクトスタイル特徴に従って決定されたターゲットスタイル特徴に対応するスタイルを有する。例えば、図６Ｂに示されたように、第１画像は、昼間に撮影された特定の道路の画像（例えば、図６Ｂの左上に示される画像）であり、オブジェクトを含む第１画像の部分画像ブロック（例えば、図６Ｂの左下に示される部分画像ブロック）を決定し、全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴に従って、第１画像に対してスタイル変換を実行することにより、当該道路の夜のスタイルの第３画像を取得することができる。

具体的には、図６Ｃに示されたように、特徴抽出器を介して第１画像の全体画像スタイル特徴、第１画像の部分画像ブロックのオブジェクトスタイル特徴、第２画像の全体画像スタイル特徴、及び第２画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することができ、更に、第１画像内の背景画像ブロックの背景スタイル特徴及び第２画像内の背景画像ブロックの背景スタイル特徴を抽出することもできる。

具体的には、図６Ｃに示されたように、特徴抽出器を介して、第１画像のコンテンツ特徴を取得することができ、例示的に、第１画像をダウンサンプリング処理して、第１画像の特徴マップを取得し、当該特徴マップのコンテンツ特徴を抽出することができ、抽出されたコンテンツ特徴は、第１画像全体画像のコンテンツ特徴、及びオブジェクトを含む第１画像の部分画像ブロックのオブジェクトコンテンツ特徴を含み得る。

一方、特徴抽出器を介して、第２画像の全体画像スタイル特徴、第２画像内の背景画像ブロックの背景スタイル特徴、及びオブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することができる。例示的に、第２画像に対してダウンサンプリング処理を実行することができ、ダウンサンプリング処理後の第２画像に基づいて、上記の全体画像スタイル特徴、背景スタイル特徴及びオブジェクトスタイル特徴を抽出することができ、更に、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴を融合して、ターゲットスタイル特徴を取得することができる。

例示的に、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得する。

更に、第１画像全体画像のコンテンツ特徴及び／又はオブジェクトを含む第１画像の部分画像ブロックのオブジェクトコンテンツ特徴、及び上記のターゲットスタイル特徴に従って、第３画像を生成することができる。一可能な実施形態において、訓練済みの画像生成器を介して第３画像を生成することができる。

例示的に、第１画像全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続処理を実行して、第１画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができ、及び／又は、オブジェクトを含む第１画像の部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続処理を実行して、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができる。更に、取得された特徴情報に対してアップサンプリング処理を実行して、第１画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルの部分画像ブロックを取得することができる。

いくつかの可能な実施形態において、第１画像の全体画像スタイル特徴を第１画像のオブジェクトスタイル特徴に融合して、第１画像の融合スタイル特徴を取得することもできる。又は第１画像の全体画像スタイル特徴を第１画像の背景スタイル特徴を融合した後、前記全体画像スタイル特徴が融合された背景スタイル特徴を第１画像のオブジェクトスタイル特徴に融合して、第１画像の融合スタイル特徴を融合することもできる。ここで、第１画像の融合スタイル特徴の実施形態については、具体的には、上記の実施例におけるターゲットスタイル特徴の実施形態を参照することができ、ここでは繰り返して説明しない。

更に、第１画像の全体画像のコンテンツ特徴と前記第１画像の融合スタイル特徴に対して残差接続処理を実行して、第１画像の全体画像のコンテンツ特徴及び前記第１画像の融合スタイル特徴を有する特徴情報を取得することができ、及び／又は、オブジェクトを含む第１画像の部分画像ブロックのオブジェクトコンテンツ特徴及び前記第１画像の融合スタイル特徴に対して残差接続処理を実行して、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記第１画像の融合スタイル特徴を有する特徴情報を取得することができる。更に、取得された特徴情報をアップサンプリングして、第１画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記第１画像の融合スタイル特徴に対応するスタイルを有する画像を取得し、及び／又は、第１画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記第１画像の融合スタイル特徴に対応するスタイルの部分画像ブロックを取得することができる。生成された画像は、第１画像と完全に一致すべきであり、生成された部分画像ブロックは、第１画像の部分画像ブロックと完全に一致すべきである。

図７は、本発明の実施例に係る画像生成装置の第１のブロック図を示し、図７に示されたように、前記画像生成装置は、
第１画像のコンテンツ特徴を抽出するように構成される第１抽出モジュール１１と、
第２画像の全体画像スタイル特徴と、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第２抽出モジュール１２であって、前記第２画像と前記第１画像のスタイルは異なる、第２抽出モジュール１２と、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュール１３と、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第１生成モジュール１４と、を備える。

一可能な実施形態において、前記決定モジュール１３は、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される。

図８は、本発明の実施例に係る画像生成装置の第２のブロック図を示し、図８に示されたように、前記画像生成装置は更に、
前記第２画像内の背景画像ブロックの背景スタイル特徴を抽出するように構成される第３抽出モジュール１５を備え、前記背景画像ブロックは、前記第２画像の前記部分画像ブロック以外の画像ブロックであり、
前記決定モジュール１３は、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定するように構成される。

一可能な実施形態において、前記決定モジュール１３は、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される。

一可能な実施形態において、前記第１生成モジュール１４は、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別し、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練し、訓練済みの前記画像生成器を介して前記第３画像を生成するように構成される。

一可能な実施形態において、前記画像生成装置は更に、第２生成モジュール１６を備え、
前記第１抽出モジュール１１は、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第２生成モジュール１６は、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第１ターゲット画像を取得するように構成され、ここで、前記第１ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する。

一可能な実施形態において、前記第１画像及び／又は前記第２画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも１つのカテゴリのオブジェクトを含む。

一可能な実施形態において、前記第２抽出モジュール１２は、前記第２画像が複数のオブジェクトを含む場合、前記第２画像から複数の部分画像ブロックを抽出し、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成され、各部分画像ブロックは１つのカテゴリのオブジェクトを含む。

一可能な実施形態において、前記第２抽出モジュール１２は、前記複数のオブジェクトが複数のカテゴリに属する場合、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合するように構成される。

一可能な実施形態において、前記画像生成装置は更に、第３生成モジュール１７を備え、
前記第１抽出モジュール１１は、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第３生成モジュール１７は、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第２ターゲット画像を取得するように構成され、前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有する。

本発明で言及される上述の各方法の実施例及び装置の実施例は、原理と論理に違反することなく、互いに組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本発明ではそれ以上説明しないことを理解されたい。

本発明の実施例はまた、本発明で提供される方法のいずれかを実現するために使用されることができる、画像生成装置、電子機器、コンピュータ可読記憶媒体、及びプログラムを提供し、対応する技術的解決策と及び説明については、方法の対応する説明を参照することができ、ここでは繰り返して説明しない。

当業者なら自明であるが、上記の特定の実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定するための厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。

いくつかの実施例において、本発明の実施例で提供される装置の機能又はモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。

本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を更に提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、本発明の実施例の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよい。

本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能な命令を記憶するためのメモリと、を備え、ここで、前記プロセッサは、本発明の実施例の方法を実行するように構成される。ここで、電子機器は、端末、サーバまたは他の形の機器として提供される。

図９は、一例示的な実施例による電子機器の概略構造図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器又は携帯情報端末などの端末であってもよい。

図９を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電力コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサコンポーネント８１４、及び通信コンポーネント８１６のうちの１つまたは複数のコンポーネントを備えることができる。

処理コンポーネント８０２は、一般的に、電子機器８００の全体的な動作、例えば、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する動作を制御する。処理コンポーネント８０２は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための１つまたは複数のプロセッサ８２０を備えることができる。加えて、処理コンポーネント８０２は、処理コンポーネント８０２と他のコンポーネントの間のインタラクションを容易にするための１つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８と処理コンポーネント８０２との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。

メモリ８０４は、電子機器８００での操作をサポートするための様々なタイプのデータを格納するように構成される。これらのデータの例には、電子機器８００で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。

電力コンポーネント８０６は、電子機器８００の様々なコンポーネントに電力を提供する。電力コンポーネント８０６は、電力管理システム、１つまたは複数の電源、及び電子機器８００のための電力の生成、管理および配分に関する他のコンポーネントを備えることができる。

マルチメディアコンポーネント８０８は、前記電子機器８００とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）及びタッチパネル（ＴＰ：ＴｏｕｃｈＰａｎｅｌ）を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための１つまたは複数のタッチセンサを備える。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント８０８は、１つのフロントカメラおよび／またはリアカメラを備える。電子機器８００が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび／またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、１つのマイクロフォン（ＭＩＣ：Ｍｉｃｒｏｐｈｏｎｅ）を備え、電子機器８００が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ８０４にさらに記憶されてもよく、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント８１０は、さらに、オーディオ信号を出力するためのスピーカを備える。

Ｉ／Ｏインターフェース８１２は、処理コンポーネント８０２と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。

センサコンポーネント８１４は、電子機器８００に各態様の状態評価を提供するための１つまたは複数のセンサを備える。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態と、電子機器８００のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント８１４はまた、電子機器８００または電子機器８００のコンポーネントの位置の変化、ユーザとの電子機器８００の接触の有無、電子機器８００の向きまたは加速／減速、及び電子機器８００の温度の変化も検出することができる。センサコンポーネント８１４は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント８１４は、さらに、撮像用途で使用するための光センサ、金属酸化膜半導体（ＣＭＯＳ：ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）又は画像センサ又は電荷結合素子（ＣＣＤ：ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）画像センサなどの光センサを備えることができる。いくつかの実施例において、当該センサコンポーネント８１４は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを備えることができる。

通信コンポーネント８１６は、電子機器８００と他の装置の間の有線または無線通信を容易にするように構成される。電子機器８００は、ＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント８１６は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント８１６は、さらに、短距離通信を促進するために、近距離通信（ＮＦＣ）モジュールを備える。例えば、ＮＦＣモジュールでは、無線周波数識別（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）技術、赤外線データ協会（ＩｒＤＡ：ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）技術、超広帯域（ＵＷＢ：ＵｌｔｒａＷｉｄｅＢａｎｄ）技術、ブルートゥース（ＢＴ：ＢｌｕｅＴｏｏｔｈ）技術及び他の技術に基づいて具現されることができる。

例示的な実施例において、電子機器８００は、上記の方法を実行するように構成される、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。

例示的な実施例において、コンピュータプログラム命令を含むメモリ８０４などの、コンピュータ可読記憶媒体をさらに提供し、上述のコンピュータプログラム命令が電子機器８００のプロセッサ８２０によって実行されることにより、上記の方法を完了することができる。

図１０は、一例示的な実施例による電子機器の概略構造図である。例えば、電子機器１９００は、サーバとして提供されることができる。図１０を参照すると、電子機器１９００は、１つまたは複数のプロセッサを含む処理コンポーネント１９２２と、処理コンポーネント１９２２によって実行可能な命令（アプリケーションなど）を記憶するように構成されるメモリリソースとして表されるメモリ１９３２と、を備える。メモリ１９３２に記憶されたアプリケーションは、それぞれが一セットの命令に対応する１つまたは複数のモジュールを備えることができる。さらに、処理コンポーネント１９２２は、命令を実行することにより、上記の方法を実行するように構成される。

電子機器１９００は、さらに、電子装置１９００の電源管理を実行するように構成される電力コンポーネント１９２６と、電子装置１９００をネットワークに接続するように構成される有線または無線ネットワークインターフェース１９５０と、入力／出力（Ｉ／Ｏ）インターフェース１９５８と、を備えることができる。電子機器１９００は、メモリ１９３２に記憶されたオペレーティングシステム、例えば、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似したものを介して操作できる。

本発明の実施例は、コンピュータプログラム命令を含むメモリ１９３２などの不揮発性コンピュータ可読記憶媒体を更に提供し、電子機器１９００の処理コンポーネント１９２２によって上述のコンピュータプログラム命令を実行することにより、上記の方法を完了することができる。

本発明の実施例は、システム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに本発明の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。

コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器または前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的リスト）は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、命令が記憶されたパンチカードまたは溝内の凸状構造、および前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波（光ファイバーケーブルを介した光パルスなど）、またはワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング／処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバなどを含み得る。各コンピューティング／処理機器におけるネットワークアダプターカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング／処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。

本発明の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または以１つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたは目標コードであってもよく、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、１つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、または、外部コンピュータに接続することができる（例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる）。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブルロジックアレイ（ＰＬＡ）などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本発明の各態様を実現することができる。

ここで、本発明の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロックを参照して、本発明の各態様について説明したが、フローチャートおよび／またはブロック図の各ブロック、およびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャートおよび／またはブロック図における１つのまたは複数のブロックで指定された機能／動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置および／または他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャートおよび／またはブロック図における１つまたは複数のブロックで指定された機能／動作の各態様の命令を含む、製品を含むことができる。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置または他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、または他の機器で実行される命令により、フローチャートおよび／またはブロック図における１つまたは複数のブロックで指定された機能／動作を実現することができる。

添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラムセグメントまたは命令の一部を表すことができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための１つまたは複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、２つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行するハードウェアに基づく専用システムによって実現することができ、または専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。

以上、本発明の各実施例を説明したが、以上の説明は、例示的なものに過ぎず、網羅的なものではなく、本発明は、開示された各実施例に限定されない。説明された各実施例の範囲および要旨から逸脱することなく、様々な修正および変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場における技術への技術的改善を好適に説明するためのものであるか、又は当業者に本明細書で開示された各実施例を理解させるためのものである。

Claims

画像生成方法であって、
第１画像のコンテンツ特徴を抽出することと、
第２画像の全体画像スタイル特徴と、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第２画像と前記第１画像のスタイルは異なる、ことと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む、前記画像生成方法。
前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含む、
請求項１に記載の画像生成方法。
前記画像生成方法は、
前記第２画像内の背景画像ブロックの背景スタイル特徴を抽出することを更に含み、前記背景画像ブロックは、前記第２画像の前記部分画像ブロック以外の画像ブロックであり、
前記少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含む、
請求項１に記載の画像生成方法。
前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、
前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む、
請求項３に記載の画像生成方法。
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることは、
画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別することと、
前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練することと、
訓練済みの前記画像生成器を介して前記第３画像を生成することと、を含む、
請求項１ないし４のいずれか一項に記載の画像生成方法。
前記画像生成方法は、
ソース画像のコンテンツ特徴を抽出することと、
前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第１ターゲット画像を取得することであって、前記第１ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、こととを更に含む、
請求項５に記載の画像生成方法。
前記第１画像及び／又は前記第２画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも１つのカテゴリのオブジェクトを含む、
請求項１ないし６のいずれか一項に記載の画像生成方法。
前記第２画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
前記第２画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは１つのカテゴリのオブジェクトを含むことと、
各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む、
請求項１ないし７のいずれか一項に記載の画像生成方法。
前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む、
請求項８のいずれか一項に記載の画像生成方法。
前記画像生成方法は、
ソース画像のコンテンツ特徴を抽出することと、
前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第２ターゲット画像を取得することであって、前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、ことと、を更に含む、
請求項５ないし９のいずれか一項に記載の画像生成方法。
画像生成装置であって、
第１画像のコンテンツ特徴を抽出するように構成される第１抽出モジュールと、
第２画像の全体画像スタイル特徴と、オブジェクトを含む前記第２画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第２抽出モジュールであって、前記第２画像と前記第１画像のスタイルは異なる、第２抽出モジュールと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第３画像を生成して、前記第３画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第１生成モジュールと、を備える、前記画像生成装置。
前記決定モジュールは、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される、
請求項１１に記載の画像生成装置。
前記画像生成装置は更に、
前記第２画像内の背景画像ブロックの背景スタイル特徴を抽出するように構成される第３抽出モジュールを備え、前記背景画像ブロックは、前記第２画像の前記部分画像ブロック以外の画像ブロックであり、
前記決定モジュールは、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定するように構成される、
請求項１１に記載の画像生成装置。
前記決定モジュールは、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される、
請求項１３に記載の画像生成装置。
前記第１生成モジュールは、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別し、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練し、訓練済みの前記画像生成器を介して前記第３画像を生成するように構成される、
請求項１１ないし１４のいずれか一項に記載の画像生成装置。
前記画像生成装置は更に、第２生成モジュールを備え、
前記第１抽出モジュールは、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第２生成モジュールは、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第１ターゲット画像を取得するように構成され、前記第１ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、
請求項１５に記載の画像生成装置。
前記第１画像及び／又は前記第２画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも１つのカテゴリのオブジェクトを含む、
請求項１１ないし１６のいずれか一項に記載の画像生成装置。
前記第２抽出モジュールは、前記第２画像が複数のオブジェクトを含む場合、前記第２画像から複数の部分画像ブロックを抽出し、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成され、各部分画像ブロックは１つのカテゴリのオブジェクトを含む、
請求項１１ないし１７のいずれか一項に記載の画像生成装置。
前記第２抽出モジュールは、前記複数のオブジェクトが複数のカテゴリに属する場合、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合するように構成される、
請求項１８に記載の画像生成装置。
前記画像生成装置は更に、第３生成モジュールを備え、
前記第１抽出モジュールは、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第３生成モジュールは、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴及びランダムノイズを訓練済みの前記画像生成器に入力して、第２ターゲット画像を取得するように構成され、前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第２ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第２ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、
請求項１５ないし１９のいずれか一項に記載の画像生成装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項１ないし１０のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項１ないし１０のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。