JP2022530518A - 画像生成方法及び装置、電子機器並びに記憶媒体 - Google Patents

画像生成方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022530518A
JP2022530518A JP2021564168A JP2021564168A JP2022530518A JP 2022530518 A JP2022530518 A JP 2022530518A JP 2021564168 A JP2021564168 A JP 2021564168A JP 2021564168 A JP2021564168 A JP 2021564168A JP 2022530518 A JP2022530518 A JP 2022530518A
Authority
JP
Japan
Prior art keywords
image
style
feature
target
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021564168A
Other languages
English (en)
Other versions
JP7394147B2 (ja
Inventor
ジーチアン シェン
ミンヤン ホアン
ジエンピン シー
英樹 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2022530518A publication Critical patent/JP2022530518A/ja
Application granted granted Critical
Publication of JP7394147B2 publication Critical patent/JP7394147B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本発明の実施例は、画像生成方法及び装置、電子機器並びに記憶媒体を開示し、前記画像生成方法は、第1画像のコンテンツ特徴を抽出することと、第2画像の全体画像スタイル特徴と、オブジェクトを含む第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、少なくとも全体画像スタイル特徴及びオブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、コンテンツ特徴及びターゲットスタイル特徴に従って第3画像を生成することと、を含む。【選択図】図1

Description

[関連出願への相互参照]
本願は、2019年04月29日に中国特許局に提出された、出願番号が201910352792.1である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全てのコンテンツが引用によって本願に組み込まれる。
[技術分野]
本発明は、コンピュータ技術分野に関し、特に、画像生成方法及び装置、電子機器並びに記憶媒体に関する。
関連技術では、深層学習などの方法により画像スタイルの全体的な変換を実現することができる。例えば、画像の明るさ、コントラスト、照明、色、芸術的特徴又はアートワークなどを変換して、様々なスタイルの画像を取得することができる。しかしながら、スタイルの変換は、全体的な画像に対してのみ適用でき、画像内のターゲットオブジェクトのスタイルは、画像の全体的なスタイルとともに変換することしかできず、ターゲットオブジェクトのスタイルを反映できないため、変換後の画像のスタイルが単調になり、画像全体とターゲットオブジェクトが位置する領域との間の不調和が生じる。
本発明の実施例は、画像生成方法及び装置、電子機器並びに記憶媒体を提案する。
第1態様によれば、本発明の実施例は画像生成方法を提供し、前記画像生成方法は、
第1画像のコンテンツ特徴を抽出することと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第2画像と前記第1画像のスタイルは異なる、ことと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む。
本発明の実施例の画像生成方法によれば、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴及び第1画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルの第3画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性を向上させ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、これは、第1画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプルや少数の画像サンプルの場合での手動収集や注釈のコストを大幅に減らす。
第2態様によれば、本発明の実施例は画像生成装置を提供し、前記画像生成装置は、
第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュールと、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュールであって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュールと、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュールと、を備える。
第3態様によれば、本発明の実施例は電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは、前述した本発明の実施例の画像生成方法を実行するように構成される。
第4態様によれば、本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、前述した本発明の実施例の画像生成方法を実現する。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本願を限定するものではないことを理解されたい。
以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本発明の実施例の他の特徴および態様は明らかになる。
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示し、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
本発明の実施例に係る画像生成方法の第1のフローチャートである。 本発明の実施例に係る画像生成方法の第2のフローチャートである。 本発明の実施例に係るスタイル特徴融合の概略図である。 本発明の実施例に係る画像生成方法の第3のフローチャートである。 本発明の実施例に係る画像生成方法の第4のフローチャートである。 本発明の実施例に係る画像生成方法の応用の概略図である。 本発明の実施例に係る画像生成方法の応用の概略図である。 本発明の実施例に係る画像生成方法の応用の概略図である。 本発明の実施例に係る画像生成装置の第1のブロック図である。 本発明の実施例に係る画像生成装置の第2のブロック図である。 本発明の実施例に係る電子機器の第1の概略構造図である。 本発明の実施例に係る電子機器の第2の概略構造図である。
以下、本発明のさまざまな例示的な実施例、特徴および態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
明細書における「例示的」という専門の用語は、「例、実施例または説明として使用される」ことを意図する。ここで、「例示的」として説明される任意の実施例は、他の実施例より適切であるかまたは優れると解釈される必要はない。
本明細書における「及び/又は」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表す。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCで構成されたセットから選択された任意の1つまたは複数の要素を含むことを示す。
さらに、本発明の実施例をよりよく説明するために、以下の特定の実施形態において、多数の特定の詳細が与えられる。当業者は、本発明の実施例は特定の具体的な詳細なしにも実施できることを理解されたい。いくつかの具現例において、本発明の実施例の要旨を強調するために、当業者に周知の方法、手段、要素および回路について詳細に説明しない。
図1は、本発明の実施例に係る画像生成方法の第1のフローチャートを示し、図1に示されたように、前記画像生成方法は、次のステップを含む。
ステップS11において、第1画像のコンテンツ特徴を抽出する。
ステップS12において、第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出し、ここで、前記第2画像と前記第1画像のスタイルは異なる。
ステップS13において、少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定する。
ステップS14において、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにする。
本発明の実施例の画像生成方法によれば、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴及び第1画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルの第3画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体画像が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性をさせ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、これは、第1画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプルや少数の画像サンプル場合での手動収集や注釈のコストを大幅に減らす。
一可能な実施形態において、前記方法は端末機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよく、メモリに記憶されているコンピュータ可読命令をプロセッサを介して呼び出すことにより前記方法を実現することができる。あるいは、サーバを介して前記方法を実行することができる。
一可能な実施形態において、第1画像及び第2画像のいずれも、1つ又は複数のオブジェクトを含む画像であってもよく、前記オブジェクトは、様々なカテゴリのオブジェクトであってもよく、前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む。
一可能な実施形態において、第1画像と第2画像の画像スタイルは異なり、前記画像スタイルは、画像の明るさ、コントラスト、照明、色、芸術的特徴又はアートワークを含み得る。例示的に、第1画像と第2画像は、異なる環境、例えば、昼間、夜、雨の中、霧の中など様々な環境で撮影された画像であってもよい。例えば、第1画像は、昼間にある場所で撮影された画像であり、第2画像は、夜に別の場所で撮影された画像である。
一可能な実施形態において、ステップS11において、第1画像のコンテンツ特徴を抽出することができる。前記コンテンツ特徴は、第1画像に含まれるコンテンツを表すために使用でき、一例として、前記コンテンツ特徴は、第1画像内のオブジェクトのカテゴリ、形状、位置などの情報のうちの少なくとも1つであってもよく、又は、前記コンテンツ特徴は、第1画像の背景などを含んでもよい。別の例として、前記コンテンツ特徴は、第1画像の全体画像のコンテンツ特徴を含み得る。一例では、特徴抽出器を介して第1画像のコンテンツ特徴を抽出することができる。実際の応用では、前記特徴抽出器は、畳み込みニューラルネットワークなどで実現でき、本発明の実施例は、特徴抽出器の実施形態を限定しない。前記コンテンツ特徴は、特徴抽出器によって取得された第1画像の特徴マップ又は特徴ベクトルを含み得る。
一可能な実施形態において、第1画像のコンテンツ特徴は、オブジェクトが含まれている第1画像の部分画像ブロックのオブジェクトコンテンツ特徴を含み得、第1画像から複数の部分画像ブロックを抽出し、各部分画像ブロックは1つのオブジェクトを含み得、次に各部分画像ブロックのオブジェクトコンテンツ特徴をそれぞれ抽出することができる。例えば、特徴抽出器を介して、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴を抽出することができる。
一可能な実施形態では、ステップS12において、特徴抽出器を使用して、第2画像の全体画像スタイル特徴と、オブジェクトを含む第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することができる。例示的に、前記特徴抽出器は、畳み込みニューラルネットワークなどのニューラルネットワークで実現でき、本発明の実施例は、前記特徴抽出器の実施形態を限定しない。例えば、特徴抽出器は、第2画像及び第2画像の部分画像ブロックに対してそれぞれ抽出処理を実行して、全体画像スタイル特徴及び各オブジェクトのオブジェクトスタイル特徴をそれぞれ抽出することができる。ここで、前記全体画像スタイル特徴及びオブジェクトスタイル特徴は、8ビットの長さの特徴ベクトルであってもよい。本発明の実施例は、全体画像スタイル特徴及びオブジェクトスタイル特徴の表示方式を限定しない。
一可能な実施形態において、前記第2画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、前記第2画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは1つのカテゴリのオブジェクトを含むことと、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む。
一例では、第2画像から、第2画像内の1つのオブジェクトを含む部分画像ブロックを抽出し、特徴抽出器を使用して、各部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することができる。更に、前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む。例えば、同じカテゴリの複数のオブジェクトのオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、同じカテゴリのオブジェクトの複数のオブジェクトスタイル特徴を融合することができる。例示的に、同じ方式で、第1画像の全体画像スタイル特徴及びオブジェクトスタイル特徴を抽出することができる。
例示的に、第1画像が昼間にある場所で撮影された画像であり、第2画像が夜に別の場所で撮影された画像である場合、第1画像の全体画像スタイル特徴とオブジェクトスタイル特徴は、昼間に撮影された画像のスタイルを表すことができ、例えば、画像の明るさ、コントラスト、照明、色はすべて、昼間に撮影された画像のスタイルであり、第1画像の全体画像スタイル特徴は、第1画像のスタイル情報を表し、第1画像のオブジェクトスタイル特徴は、第1画像内のオブジェクトが位置する領域(即ち、第1画像の部分画像ブロック)のスタイル情報を表す。第2画像の全体画像スタイル特徴とオブジェクトスタイル特徴は、夜に撮影された画像のスタイルを表すことができ、第2画像の全体画像スタイル特徴は、第2画像のスタイル情報を表し、第2画像のオブジェクトスタイル特徴は、第2画像内のオブジェクトが位置する領域(即ち、第2画像の部分画像ブロック)のスタイル情報を表す。
一可能な実施形態では、ステップS13において、少なくとも第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定する。前記第2画像と前記第1画像のスタイルは異なり、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に従ってターゲットスタイル特徴を決定し、第1画像のスタイルを、ターゲットスタイル特徴に対応するスタイル及び第1画像のコンテンツを有する画像、すなわち、第3画像に変換することができる。第3画像は、スタイル変換後の第1画像の全体画像(即ち、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する画像)、及びスタイル変換後の部分画像ブロック(即ち、第1画像の部分画像ブロックのオブジェクトのコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する画像)を含み得る。
一可能な実施形態において、ステップS13は、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含み得る。例示的に、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴のいずれも特徴ベクトルであり、全体画像スタイル特徴及びオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得することができる。
このように、全体画像スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得し、ターゲットスタイル特徴に基づいて第3画像を生成することにより、第3画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第3画像内のオブジェクトが、オブジェクトスタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイルと調和するようにすることができ、これにより、スタイル遷移の画像の真実性を向上させる。オブジェクトスタイル特徴を全体画像スタイル特徴に融合する方式と比較して、全体画像スタイル特徴をオブジェクトスタイル特徴に融合する方式によって取得された第3画像内のオブジェクトのスタイルの方が、全体画像のスタイルとより調和される。
上記の実施例に基づき、図2は、本発明の実施例に係る画像生成方法の第2のフローチャートを示し、図2に示されたように、前記画像生成方法は、次のステップを更に含む。
ステップS15において、前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出し、ここで、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックである。
例示的に、特徴抽出器を介して、第2画像内の背景画像ブロックの背景スタイル特徴を抽出することができる。
この場合、上記の実施例におけるステップS13は、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含み得る。
このように、全体画像スタイル特徴、オブジェクトスタイル特徴、及び背景スタイル特徴に従って、ターゲットスタイル特徴を決定することにより、第3画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第3画像の背景が背景スタイル特徴に対応するスタイルを有するようにし、第3画像内のオブジェクトがオブジェクトスタイル特徴に対応するスタイルを有するようにすることができる。
一可能な実施形態において、前記前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む。
本実施例では、ターゲットスタイル特徴は、第2画像の全体画像スタイル特徴を第2画像の背景スタイル特徴に融合し、次に第2画像の全体画像スタイル特徴が融合された背景スタイル特徴を第2画像のオブジェクトスタイル特徴に融合することによって取得されたターゲットスタイル特徴であってもよい。他の実施形態において、ターゲットスタイル特徴はまた、第2画像の全体画像スタイル特徴を第2画像のオブジェクトスタイル特徴に融合することによって取得されたターゲットスタイル特徴であってもよい。
例示的に、図3は、本発明の実施例に係るスタイル特徴融合の概略図を示す。図3に示されたように、第2画像の全体画像スタイル特徴、背景スタイル特徴、及びオブジェクトスタイル特徴のいずれも特徴ベクトルであり、全体画像スタイル特徴及び背景スタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴を背景スタイル特徴に融合し、全体画像スタイル特徴が融合された背景スタイル特徴及びオブジェクトスタイル特徴に対して残差接続などの処理を実行することにより、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合して、ターゲットスタイル特徴を取得することができる。
このように、全体画像スタイル特徴を背景スタイル特徴に融合した後、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合することにより、ターゲットスタイル特徴を取得し、次にターゲットスタイル特徴に基づいて第3画像を生成することにより、第3画像が全体画像スタイル特徴に対応するスタイルを有するようにし、第3画像内の背景が、背景スタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイルと調和するようにし、第3画像内のオブジェクトが、オブジェクトスタイル特徴に対応するスタイルを有するようにしかつ全体画像スタイル特徴に対応するスタイル及び背景スタイル特徴に対応するスタイルと調和するようにし、これにより、スタイル遷移の画像の真実性を向上させる。オブジェクトスタイル特徴を背景スタイル特徴に融合した後、オブジェクトスタイル特徴が融合された背景スタイル特徴を全体画像スタイル特徴に融合する方式と比較して、全体画像スタイル特徴を背景スタイル特徴に融合した後、全体画像スタイル特徴が融合された背景スタイル特徴をオブジェクトスタイル特徴に融合する方式によって取得された第3画像内のオブジェクトのスタイルと、背景的スタイルと、全体画像のスタイルとの間の調和性がより優れる。
一可能な実施形態では、ステップS14において、第1画像のコンテンツ特徴及び前記ターゲットスタイル特徴に従って、第1画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する第3画像を生成することができる。例えば、画像生成器を使用して、第1画像のコンテンツ特徴及び前記ターゲットスタイル特徴に従って前記第3画像を生成することができる。
本実施例では、第1画像のコンテンツ特徴は、第1画像の全体画像のコンテンツ特徴及び第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴を含み得る。この場合、一可能な実施形態において、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続を実行し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続を実行することができきる。例えば、適応インスタンス正規化(AdaIN:Adaptive Instance Normalization)などの方法で前記残差接続を実行して、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができる。
一可能な実施形態において、画像生成器を介して、当該特徴情報(特徴情報は、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を含み得る)に対して復号化処理を実行することにより、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像を生成し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを生成することができる。
一可能な実施形態において、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを画像生成器に入力して、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像を取得し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する部分画像ブロックを取得することができ、上記の画像及び部分画像ブロックは、両方とも第3画像と呼ばれることができる。
一可能な実施形態において、図4に示されたように、ステップS14は、次のステップを含み得る。
ステップS141において、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別する。
ステップS142において、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練する。
ステップS143において、訓練済みの前記画像生成器を介して前記第3画像を生成する。
本実施例では、生成された画像のコンテンツ特徴は、第1画像のコンテンツ特徴と一致すべきであり、生成された画像の部分画像ブロックのコンテンツ特徴は、第1画像の部分画像ブロックのコンテンツ特徴と一致すべきであり、生成された画像のスタイルは、ターゲットスタイル特徴と一致すべきである。しかしながら、生成された画像は、画像生成器によって生成された画像であり、生成された画像のコンテンツと、第1画像又は第1画像の部分画像ブロックとの間に偏差がある可能性があり、生成された画像のスタイルとターゲットスタイル特徴との間にも偏差がある可能性があり、この場合、当該偏差に基づいてネットワーク損失を決定し、ネットワーク損失に基づいて画像生成器及び特徴抽出器を訓練することができる。
一可能な実施形態において、生成された画像を画像判別器に入力し、画像判別器を介して、生成された画像の真実性を判別し、画像判別器の判別結果と画像生成器によって生成された画像との間の敵対的訓練に基づいて、画像生成器を訓練することができる。
一可能な実施形態において、生成された画像と第1画像との間の差異に従って、第1総合ネットワーク損失を決定することができる。例えば、生成された画像と第1画像との間の対応する画素点間の差異に従ってクロスエントロピ損失を決定することができ、前記クロスエントロピ損失を第1総合ネットワーク損失として使用する。
別の可能な実施形態において、生成された画像が部分画像ブロックである場合、生成された部分画像ブロックと第1画像の部分画像ブロックとの間の差異に従って第2総合ネットワーク損失を決定することができる。例えば、生成された部分画像ブロックと第1画像の部分画像ブロックとの間の対応する画素点間の差異に従ってクロスエントロピ損失を決定することができ、前記クロスエントロピ損失を第2総合ネットワーク損失として使用する。
一可能な実施形態において、前記第1総合ネットワーク損失及び第2総合ネットワーク損失は、以下の式(1)で表すことができる。
Figure 2022530518000002
(1)
ここで、Lは、第1総合ネットワーク損失又は第2総合ネットワーク損失を表し、
Figure 2022530518000003
は、生成された画像の画素点又は生成された部分画像ブロックの画素点を表し、kは、第1画像の画素点又は第1画像の部分画像ブロックの画素点を表し、
Figure 2022530518000004
は、
Figure 2022530518000005
とkの対応する画素点間の差の1ノルムを表す。更に、
Figure 2022530518000006
は、生成された画像又は生成された部分画像ブロックのコンテンツ情報、スタイル情報などを表すこともでき、kは、第1画像又は第1画像の部分画像ブロックのコンテンツ情報、スタイル情報などを表すこともできる。
一可能な実施形態において、生成された画像又は生成された部分画像ブロックを画像判別器に入力して判別処理を実行して、判別結果を取得することができる。ここで、前記判別結果は、生成された画像に対応する第1判別結果、及び/又は、生成された部分画像ブロックに対応する第2判別結果を含み得、第1判別結果及び第2判別結果は、それぞれ、生成された画像及び生成された部分画像ブロックの真実性を表すために使用されることができる。例示的に、前記第1判別結果及び第2判別結果は、確率の形式であってもよく、例えば、前記第1判別結果は、生成された画像が現実画像である確率が80%であることを示す。
一可能な実施形態において、上記の第1総合ネットワーク損失及び第2総合ネットワーク損失のうちの少なくとも1つと、上記の第1判別結果及び第2判別結果のうちの少なくとも1つとに従って、前記特徴抽出器、前記画像生成器、及び前記画像判別器に対して敵対的訓練を実行し、つまり、第1訓練条件及び第2訓練条件が平衡状態に達するまで、特徴抽出器、画像生成器、及び画像判別器のネットワークパラメータを調整することができる。ここで、前記第1訓練条件は、例えば、特徴抽出器及び画像生成器の第1総合ネットワーク損失及び/又は第2総合ネットワーク損失が、最小化されるか又は設定された第1閾値より小さいことである。前記第2訓練条件は、例えば、画像判別器によって出力された第1判別結果及び/又は第2判別結果が現実画像である確率が、最大化されるか又は設定された第2閾値より大きいことである。
一可能な実施形態において、第1画像と第2画像は異なるスタイルの2つの画像であるため、訓練中に、2つの画像の位置を変換して、特徴抽出器、画像生成器、及び画像判別器を訓練することができる。例えば、第1回の訓練では、第1画像が画像Aであり、第2画像が画像Bであり、第2回の訓練では、第1画像が画像Bであり、第2画像が画像Aあり、この2回の訓練を1つの訓練グループとして使用し、2回の訓練でのネットワーク損失を、特徴抽出器、画像生成器及び画像判別器の総合ネットワーク損失として使用するか、又は2回の訓練でのネットワーク損失の平均値を、特徴抽出器、画像生成器及び画像判別器の総合ネットワーク損失として使用することができる。
上記の例に基づき、一可能な実施形態において、前記総合ネットワーク損失は、以下の式(2)で表すことができる。
Figure 2022530518000007
(2)
ここで、
Figure 2022530518000008
は、前記第1回の訓練で決定された第1判別結果の敵対的損失であり、
Figure 2022530518000009
は、前記第2回の訓練で決定された第1判別結果の敵対的損失であり、
Figure 2022530518000010
は、前記第1回の訓練で決定された第2判別結果の敵対的損失であり、
Figure 2022530518000011
は、前記第2回の訓練で決定された第2判別結果の敵対的損失であり、
Figure 2022530518000012
は、前記第1回の訓練において、kが第1画像の画素点を表し且つ
Figure 2022530518000013
が生成された画像の画素点を表す場合に決定された第1総合ネットワーク損失であり、
Figure 2022530518000014
は、前記第2回の訓練において、kが第1画像の画素点を表し且つ
Figure 2022530518000015
が生成された画像の画素点を表す場合に決定された第1総合ネットワーク損失であり、
Figure 2022530518000016
は、前記第1回の訓練において、kが第1画像のコンテンツ情報を表し且つ
Figure 2022530518000017
が生成された画像のコンテンツ情報を表す場合に決定された第1総合ネットワーク損失であり、
Figure 2022530518000018
は、前記第2回の訓練において、kが第1画像のコンテンツ情報を表し且つ
Figure 2022530518000019
が生成された画像のコンテンツ情報を表す場合に決定された第1総合ネットワーク損失であり、
Figure 2022530518000020
は、前記第1回の訓練において、kが第1画像のスタイル情報を表し且つ
Figure 2022530518000021
が生成された画像のスタイル情報を表す場合に決定された第1総合ネットワーク損失であり、
Figure 2022530518000022
は、前記第2回の訓練において、kが第1画像のスタイル情報を表し且つ
Figure 2022530518000023
が生成された画像のスタイル情報を表す場合に決定された第1総合ネットワーク損失であり、
Figure 2022530518000024
は、前記第1回の訓練において、kが第1画像の部分画像ブロックの画素点を表し且つ
Figure 2022530518000025
が生成された部分画像ブロックの画素点を表す場合に決定された第2総合ネットワーク損失であり、
Figure 2022530518000026
は、前記第2回の訓練において、kが第1画像の部分画像ブロックの画素点を表し且つ
Figure 2022530518000027
が生成された部分画像ブロックの画素点を表す場合に決定された第2総合ネットワーク損失であり、
Figure 2022530518000028
は、前記第1回の訓練において、kが第1画像の部分画像ブロックのコンテンツ情報を表し且つ
Figure 2022530518000029
が生成された部分画像ブロックのコンテンツ情報を表す場合に決定された第2総合ネットワーク損失であり、
Figure 2022530518000030
は、前記第2回の訓練において、kが第1画像の部分画像ブロックのコンテンツ情報を表し且つ
Figure 2022530518000031
が生成された部分画像ブロックのコンテンツ情報を表す場合に決定された第2総合ネットワーク損失であり、
Figure 2022530518000032
は、前記第1回の訓練において、kが第1画像の部分画像ブロックのスタイル情報を表し且つ
Figure 2022530518000033
が生成された部分画像ブロックのスタイル情報を表す場合に決定された第2総合ネットワーク損失であり、
Figure 2022530518000034
は、前記第2回の訓練において、kが第1画像の部分画像ブロックのスタイル情報を表し且つ
Figure 2022530518000035
が生成された部分画像ブロックのスタイル情報を表す場合に決定された第2総合ネットワーク損失である。
一可能な実施形態において、上記の式(2)によって決定された総合ネットワーク損失に従って、特徴抽出器、画像生成器及び画像判別器に対して敵対的訓練を実行することができる。第1訓練条件及び第2訓練条件が平衡状態に達すると、訓練を終了し、訓練済みの画像生成器及び特徴抽出器を取得することができる。
一可能な実施形態において、訓練済みの画像生成器を介して第3画像を生成することができる。例えば、画像生成器は、アップサンプリングなどの復号化処理介して、第1画像のコンテンツ特徴(例えば、第1画像の全体画像のコンテンツ特徴又は第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴)及び前記ターゲットスタイル特徴に対して復号化処理を実行して、第3画像を生成し、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有することができる。例示的に、第1画像が画像内の各オブジェクトに対する注釈(例えば、カテゴリ注釈など)を含む場合、生成された第3画像は第1画像のコンテンツ特徴に対応するコンテンツを有するため、第3画像は、画像内の各オブジェクトに対する注釈を有することができる。
一可能な実施形態において、一致する2つの画像を使用して特徴抽出器及び画像生成器を訓練することにより、訓練効率と訓練効果を向上させることができる。ここで、一致する2つの画像とは、上記の第1画像と第2画像が一致するコンテンツを有する画像であることを示す。
ここで、第1画像と第2画像が一致するコンテンツを有する画像である場合、前記第2画像は、前記第1画像に対してスケーリング処理を実行することによって取得された画像であってもよく、即ち、第2画像のコンテンツとスタイルは第1画像と一致するが、第2画像の解像度が第1画像と一致しない。第1画像及び第2画像を使用して、特徴抽出器及び像生成器を訓練することができ、これにより、解像度に対する特徴抽出器及び画像生成器の普遍性を向上させ、特徴抽出器及び画像生成器のロバスト性を向上させることができる。
本発明の実施例に係る画像生成方法によれば、特徴抽出器及び画像生成器によって生成された、第1画像又は第1画像の部分画像ブロックと一致する画像を使用して、特徴抽出器及び画像生成器を訓練することができ、これにより、訓練効率と訓練効果を向上させることができる。一方、第2画像の全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴、及び第1画像のコンテンツ特徴を用いて、コンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する第3画像を取得することができ、画像のスタイルを変換する場合、画像の全体的な画像スタイルだけではなく、画像内のオブジェクトが位置する部分画像ブロックのスタイルも適切に変換でき、これにより、画像の全体画像が、オブジェクトが位置する領域と調和し、スタイル遷移の画像の真実性を向上させ、画像内のオブジェクトの検出精度を向上させる。更に、生成された第3画像は、第1画像のコンテンツ特徴に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有し、第1画像と同じの注釈を有することができ、これは、第1画像のコンテンツ特徴に対応するコンテンツを有する画像サンプルの多様性を拡張し、特に、難しい画像サンプル(例えば、異常気象などのまれな気象環境で収集された画像)や少数の画像サンプル(例えば、夜に収集された画像など、収集があまり行われていない環境で撮影された画像)の場合での手動収集や注釈のコストを大幅に減らす。
上記の実施例に基づき、一可能な実施形態において、図4に示されたように、前記画像生成方法は、次のステップを更に含む。
ステップS16において、ソース画像のコンテンツ特徴を抽出し、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得し、ここで、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する。
本実施例では、特徴抽出器及び画像生成器の訓練が完了した後、特徴抽出器を介してソース画像のコンテンツ特徴を抽出し、画像生成器を介して、任意のスタイルのソース画像のスタイルを特定のスタイルに変換し、第1画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴を有する第1ターゲット画像を出力することができる。
上記の実施例に基づき、図5は、本発明の実施例に係る画像生成方法の第4のフローチャートを示し、図5に示されたように、前記画像生成方法は、次のステップを更に含む。
ステップS17において、ソース画像のコンテンツ特徴を抽出し、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得し、ここで、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する。
例示的に、ランダムノイズは、ランダムなコンテンツ又はスタイルを有する画像から抽出されたランダムコンテンツノイズ及び/又はランダムスタイル特徴、又はランダムに生成された各画素点のRGB値がランダムな値である画像のランダムコンテンツノイズ及び/又はランダムスタイル特徴を含み得、特徴抽出器を介して、上記の画像のランダムコンテンツノイズ及び/又はランダムスタイル特徴を抽出することができ、前記ランダムスタイル特徴に対応する画像スタイルはランダムである。例えば、ソース画像は、昼間にある場所で撮影された画像であり、ランダムノイズは、手動でランダムに生成された画像から抽出されたランダムスタイル特徴であってもよい。例えば、夜、夕方、曇り、夜明け、雨、雪などのスタイルのうちの1つをランダムノイズスタイルとしてランダムに選択し、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つをコンテンツとしてランダムに選択して、ランダムノイズを取得するための画像を生成することができる。
例示的に、画像生成器は、ソース画像のコンテンツ特徴、ランダムノイズ(ランダムノイズは、ランダムスタイル特徴及び/又はランダムコンテンツ特徴を含み得る)、及びターゲットスタイル特徴のうちの少なくとも1つに従って、第2ターゲット画像を生成することができる。例示的に、ソース画像のコンテンツ特徴とランダムノイズのランダムコンテンツ特徴を融合して、ソース画像とランダムノイズに対応するコンテンツ特徴を取得ことができ、ターゲットスタイル特徴とランダムノイズのランダムスタイル特徴を融合して、ターゲットスタイル特徴とランダムノイズに対応するスタイル特徴を取得することもできる。画像生成器は、上記の特徴に従って、ソース画像に対応するコンテンツ及びターゲットスタイル特徴に対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつターゲットスタイル特徴に対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像に対応するコンテンツを有しかつターゲットスタイル特徴とランダムノイズに対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつターゲットスタイル特徴とランダムノイズに対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像に対応するコンテンツ及びランダムノイズに対応するスタイルを有する第2ターゲット画像を生成するか、又はソース画像とランダムノイズに対応するコンテンツを有しかつランダムノイズに対応するスタイルを有する第2ターゲット画像を生成することができる。このようにして、ニューラルネットワークに基づいて複数のスタイルの画像を生成することができ、これにより、生成された画像のコンテンツ及び/又はスタイルの多様性を向上させることができる。
本発明の実施例に係る技術的解決策によれば、特徴抽出器及び画像生成器を介して、任意のスタイルの画像に対してスタイル変換処理を実行することにより、変換後の画像全体を、ターゲットオブジェクトが位置する領域と調和させることができる。
図6A~6Cは、本発明の実施例に係る画像生成方法の応用の概略図を示し、図6Aに示されたように、第1画像と第2画像のスタイルは異なり、例えば、第1画像は、昼間にある場所で撮影された画像であり、第2画像は、夜に別の場所で撮影された画像である。第1画像の全体画像と、オブジェクトを含む第1画像の部分画像ブロックに対してスタイル変換をそれぞれ実行することにより、第3画像を取得することができる。第3画像は、第1画像と同じコンテンツを有しかつ全体画像スタイル特徴及びオブジェクトスタイル特徴に従って決定されたターゲットスタイル特徴に対応するスタイルを有する。例えば、図6Bに示されたように、第1画像は、昼間に撮影された特定の道路の画像(例えば、図6Bの左上に示される画像)であり、オブジェクトを含む第1画像の部分画像ブロック(例えば、図6Bの左下に示される部分画像ブロック)を決定し、全体画像スタイル特徴及びオブジェクトスタイル特徴に基づいて決定されたターゲットスタイル特徴に従って、第1画像に対してスタイル変換を実行することにより、当該道路の夜のスタイルの第3画像を取得することができる。
具体的には、図6Cに示されたように、特徴抽出器を介して第1画像の全体画像スタイル特徴、第1画像の部分画像ブロックのオブジェクトスタイル特徴、第2画像の全体画像スタイル特徴、及び第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することができ、更に、第1画像内の背景画像ブロックの背景スタイル特徴及び第2画像内の背景画像ブロックの背景スタイル特徴を抽出することもできる。
具体的には、図6Cに示されたように、特徴抽出器を介して、第1画像のコンテンツ特徴を取得することができ、例示的に、第1画像をダウンサンプリング処理して、第1画像の特徴マップを取得し、当該特徴マップのコンテンツ特徴を抽出することができ、抽出されたコンテンツ特徴は、第1画像全体画像のコンテンツ特徴、及びオブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴を含み得る。
一方、特徴抽出器を介して、第2画像の全体画像スタイル特徴、第2画像内の背景画像ブロックの背景スタイル特徴、及びオブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することができる。例示的に、第2画像に対してダウンサンプリング処理を実行することができ、ダウンサンプリング処理後の第2画像に基づいて、上記の全体画像スタイル特徴、背景スタイル特徴及びオブジェクトスタイル特徴を抽出することができ、更に、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴を融合して、ターゲットスタイル特徴を取得することができる。
例示的に、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得する。
更に、第1画像全体画像のコンテンツ特徴及び/又はオブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴、及び上記のターゲットスタイル特徴に従って、第3画像を生成することができる。一可能な実施形態において、訓練済みの画像生成器を介して第3画像を生成することができる。
例示的に、第1画像全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続処理を実行して、第1画像の全体画像のコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができ、及び/又は、オブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴に対して残差接続処理を実行して、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記ターゲットスタイル特徴を有する特徴情報を取得することができる。更に、取得された特徴情報に対してアップサンプリング処理を実行して、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する画像、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルの部分画像ブロックを取得することができる。
いくつかの可能な実施形態において、第1画像の全体画像スタイル特徴を第1画像のオブジェクトスタイル特徴に融合して、第1画像の融合スタイル特徴を取得することもできる。又は第1画像の全体画像スタイル特徴を第1画像の背景スタイル特徴を融合した後、前記全体画像スタイル特徴が融合された背景スタイル特徴を第1画像のオブジェクトスタイル特徴に融合して、第1画像の融合スタイル特徴を融合することもできる。ここで、第1画像の融合スタイル特徴の実施形態については、具体的には、上記の実施例におけるターゲットスタイル特徴の実施形態を参照することができ、ここでは繰り返して説明しない。
更に、第1画像の全体画像のコンテンツ特徴と前記第1画像の融合スタイル特徴に対して残差接続処理を実行して、第1画像の全体画像のコンテンツ特徴及び前記第1画像の融合スタイル特徴を有する特徴情報を取得することができ、及び/又は、オブジェクトを含む第1画像の部分画像ブロックのオブジェクトコンテンツ特徴及び前記第1画像の融合スタイル特徴に対して残差接続処理を実行して、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴及び前記第1画像の融合スタイル特徴を有する特徴情報を取得することができる。更に、取得された特徴情報をアップサンプリングして、第1画像の全体画像のコンテンツ特徴に対応するコンテンツ及び前記第1画像の融合スタイル特徴に対応するスタイルを有する画像を取得し、及び/又は、第1画像の各部分画像ブロックのオブジェクトコンテンツ特徴に対応するコンテンツ及び前記第1画像の融合スタイル特徴に対応するスタイルの部分画像ブロックを取得することができる。生成された画像は、第1画像と完全に一致すべきであり、生成された部分画像ブロックは、第1画像の部分画像ブロックと完全に一致すべきである。
図7は、本発明の実施例に係る画像生成装置の第1のブロック図を示し、図7に示されたように、前記画像生成装置は、
第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュール11と、
第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュール12であって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュール12と、
少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュール13と、
前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュール14と、を備える。
一可能な実施形態において、前記決定モジュール13は、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される。
図8は、本発明の実施例に係る画像生成装置の第2のブロック図を示し、図8に示されたように、前記画像生成装置は更に、
前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出するように構成される第3抽出モジュール15を備え、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
前記決定モジュール13は、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定するように構成される。
一可能な実施形態において、前記決定モジュール13は、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される。
一可能な実施形態において、前記第1生成モジュール14は、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別し、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練し、訓練済みの前記画像生成器を介して前記第3画像を生成するように構成される。
一可能な実施形態において、前記画像生成装置は更に、第2生成モジュール16を備え、
前記第1抽出モジュール11は、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第2生成モジュール16は、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得するように構成され、ここで、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する。
一可能な実施形態において、前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む。
一可能な実施形態において、前記第2抽出モジュール12は、前記第2画像が複数のオブジェクトを含む場合、前記第2画像から複数の部分画像ブロックを抽出し、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成され、各部分画像ブロックは1つのカテゴリのオブジェクトを含む。
一可能な実施形態において、前記第2抽出モジュール12は、前記複数のオブジェクトが複数のカテゴリに属する場合、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合するように構成される。
一可能な実施形態において、前記画像生成装置は更に、第3生成モジュール17を備え、
前記第1抽出モジュール11は、ソース画像のコンテンツ特徴を抽出するように構成され、
前記第3生成モジュール17は、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得するように構成され、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する。
本発明で言及される上述の各方法の実施例及び装置の実施例は、原理と論理に違反することなく、互いに組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本発明ではそれ以上説明しないことを理解されたい。
本発明の実施例はまた、本発明で提供される方法のいずれかを実現するために使用されることができる、画像生成装置、電子機器、コンピュータ可読記憶媒体、及びプログラムを提供し、対応する技術的解決策と及び説明については、方法の対応する説明を参照することができ、ここでは繰り返して説明しない。
当業者なら自明であるが、上記の特定の実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定するための厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。
いくつかの実施例において、本発明の実施例で提供される装置の機能又はモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を更に提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、本発明の実施例の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよい。
本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能な命令を記憶するためのメモリと、を備え、ここで、前記プロセッサは、本発明の実施例の方法を実行するように構成される。ここで、電子機器は、端末、サーバまたは他の形の機器として提供される。
図9は、一例示的な実施例による電子機器の概略構造図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器又は携帯情報端末などの端末であってもよい。
図9を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つまたは複数のコンポーネントを備えることができる。
処理コンポーネント802は、一般的に、電子機器800の全体的な動作、例えば、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する動作を制御する。処理コンポーネント802は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。加えて、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントの間のインタラクションを容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。
メモリ804は、電子機器800での操作をサポートするための様々なタイプのデータを格納するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、消去可能なプログラム可能な読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable Read-Only Memory)、読み取り専用メモリ(ROM:Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つまたは複数の電源、及び電子機器800のための電力の生成、管理および配分に関する他のコンポーネントを備えることができる。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD:Liquid Crystal Display)及びタッチパネル(TP:Touch Panel)を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを備える。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラおよび/またはリアカメラを備える。電子機器800が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC:Microphone)を備え、電子機器800が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804にさらに記憶されてもよく、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント810は、さらに、オーディオ信号を出力するためのスピーカを備える。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態と、電子機器800のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント814はまた、電子機器800または電子機器800のコンポーネントの位置の変化、ユーザとの電子機器800の接触の有無、電子機器800の向きまたは加速/減速、及び電子機器800の温度の変化も検出することができる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント814は、さらに、撮像用途で使用するための光センサ、金属酸化膜半導体(CMOS:Complementary Metal Oxide Semiconductor)又は画像センサ又は電荷結合素子(CCD:Charge Coupled Device)画像センサなどの光センサを備えることができる。いくつかの実施例において、当該センサコンポーネント814は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを備えることができる。
通信コンポーネント816は、電子機器800と他の装置の間の有線または無線通信を容易にするように構成される。電子機器800は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント816は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールでは、無線周波数識別(RFID:Radio Frequency Identification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域(UWB:Ultra WideBand)技術、ブルートゥース(BT:BlueTooth)技術及び他の技術に基づいて具現されることができる。
例示的な実施例において、電子機器800は、上記の方法を実行するように構成される、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。
例示的な実施例において、コンピュータプログラム命令を含むメモリ804などの、コンピュータ可読記憶媒体をさらに提供し、上述のコンピュータプログラム命令が電子機器800のプロセッサ820によって実行されることにより、上記の方法を完了することができる。
図10は、一例示的な実施例による電子機器の概略構造図である。例えば、電子機器1900は、サーバとして提供されることができる。図10を参照すると、電子機器1900は、1つまたは複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令(アプリケーションなど)を記憶するように構成されるメモリリソースとして表されるメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションは、それぞれが一セットの命令に対応する1つまたは複数のモジュールを備えることができる。さらに、処理コンポーネント1922は、命令を実行することにより、上記の方法を実行するように構成される。
電子機器1900は、さらに、電子装置1900の電源管理を実行するように構成される電力コンポーネント1926と、電子装置1900をネットワークに接続するように構成される有線または無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、を備えることができる。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えば、Windows ServerTM、Mac OS XTM、UnixTM、 LinuxTM、FreeBSDTMまたは類似したものを介して操作できる。
本発明の実施例は、コンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ可読記憶媒体を更に提供し、電子機器1900の処理コンポーネント1922によって上述のコンピュータプログラム命令を実行することにより、上記の方法を完了することができる。
本発明の実施例は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに本発明の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器または前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ(ROM:Read Only Memory)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記憶されたパンチカードまたは溝内の凸状構造、および前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波(光ファイバーケーブルを介した光パルスなど)、またはワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバなどを含み得る。各コンピューティング/処理機器におけるネットワークアダプターカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング/処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。
本発明の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または以1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたは目標コードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、または、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる)。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブルロジックアレイ(PLA)などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本発明の各態様を実現することができる。
ここで、本発明の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロックを参照して、本発明の各態様について説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャートおよび/またはブロック図における1つのまたは複数のブロックで指定された機能/動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置および/または他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作の各態様の命令を含む、製品を含むことができる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置または他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、または他の機器で実行される命令により、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作を実現することができる。
添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を表すことができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、2つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行するハードウェアに基づく専用システムによって実現することができ、または専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。
以上、本発明の各実施例を説明したが、以上の説明は、例示的なものに過ぎず、網羅的なものではなく、本発明は、開示された各実施例に限定されない。説明された各実施例の範囲および要旨から逸脱することなく、様々な修正および変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場における技術への技術的改善を好適に説明するためのものであるか、又は当業者に本明細書で開示された各実施例を理解させるためのものである。

Claims (22)

  1. 画像生成方法であって、
    第1画像のコンテンツ特徴を抽出することと、
    第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することであって、前記第2画像と前記第1画像のスタイルは異なる、ことと、
    少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することと、
    前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることと、を含む、前記画像生成方法。
  2. 前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
    前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することを含む、
    請求項1に記載の画像生成方法。
  3. 前記画像生成方法は、
    前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出することを更に含み、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
    前記少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定することは、
    前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することを含む、
    請求項1に記載の画像生成方法。
  4. 前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定することは、
    前記全体画像スタイル特徴を前記背景スタイル特徴に融合することと、
    前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得することと、を含む、
    請求項3に記載の画像生成方法。
  5. 前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにすることは、
    画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別することと、
    前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練することと、
    訓練済みの前記画像生成器を介して前記第3画像を生成することと、を含む、
    請求項1ないし4のいずれか一項に記載の画像生成方法。
  6. 前記画像生成方法は、
    ソース画像のコンテンツ特徴を抽出することと、
    前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得することであって、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、こととを更に含む、
    請求項5に記載の画像生成方法。
  7. 前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む、
    請求項1ないし6のいずれか一項に記載の画像生成方法。
  8. 前記第2画像が複数のオブジェクトを含む場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
    前記第2画像から複数の部分画像ブロックを抽出することであって、各部分画像ブロックは1つのカテゴリのオブジェクトを含むことと、
    各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出することと、を含む、
    請求項1ないし7のいずれか一項に記載の画像生成方法。
  9. 前記複数のオブジェクトが複数のカテゴリに属する場合、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴を抽出することは、
    同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合することを更に含む、
    請求項8のいずれか一項に記載の画像生成方法。
  10. 前記画像生成方法は、
    ソース画像のコンテンツ特徴を抽出することと、
    前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴、及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得することであって、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、ことと、を更に含む、
    請求項5ないし9のいずれか一項に記載の画像生成方法。
  11. 画像生成装置であって、
    第1画像のコンテンツ特徴を抽出するように構成される第1抽出モジュールと、
    第2画像の全体画像スタイル特徴と、オブジェクトを含む前記第2画像の部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成される第2抽出モジュールであって、前記第2画像と前記第1画像のスタイルは異なる、第2抽出モジュールと、
    少なくとも前記全体画像スタイル特徴及び前記オブジェクトスタイル特徴に従って、ターゲットスタイル特徴を決定するように構成される決定モジュールと、
    前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って第3画像を生成して、前記第3画像が前記コンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有するようにするように構成される第1生成モジュールと、を備える、前記画像生成装置。
  12. 前記決定モジュールは、前記全体画像スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される、
    請求項11に記載の画像生成装置。
  13. 前記画像生成装置は更に、
    前記第2画像内の背景画像ブロックの背景スタイル特徴を抽出するように構成される第3抽出モジュールを備え、前記背景画像ブロックは、前記第2画像の前記部分画像ブロック以外の画像ブロックであり、
    前記決定モジュールは、前記全体画像スタイル特徴、前記オブジェクトスタイル特徴、及び前記背景スタイル特徴に従って、前記ターゲットスタイル特徴を決定するように構成される、
    請求項11に記載の画像生成装置。
  14. 前記決定モジュールは、前記全体画像スタイル特徴を前記背景スタイル特徴に融合し、前記全体画像スタイル特徴が融合された背景スタイル特徴を前記オブジェクトスタイル特徴に融合して、前記ターゲットスタイル特徴を取得するように構成される、
    請求項13に記載の画像生成装置。
  15. 前記第1生成モジュールは、画像生成器を介して、前記コンテンツ特徴及び前記ターゲットスタイル特徴に従って画像を生成し、画像判別器を介して、生成された画像の真実性を判別し、前記画像判別器の判別結果と前記画像生成器によって生成された画像との間の敵対的訓練に基づいて、前記画像生成器を訓練し、訓練済みの前記画像生成器を介して前記第3画像を生成するように構成される、
    請求項11ないし14のいずれか一項に記載の画像生成装置。
  16. 前記画像生成装置は更に、第2生成モジュールを備え、
    前記第1抽出モジュールは、ソース画像のコンテンツ特徴を抽出するように構成され、
    前記第2生成モジュールは、前記ソース画像のコンテンツ特徴及び前記ターゲットスタイル特徴を訓練済みの前記画像生成器に入力して、第1ターゲット画像を取得するように構成され、前記第1ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツ及び前記ターゲットスタイル特徴に対応するスタイルを有する、
    請求項15に記載の画像生成装置。
  17. 前記第1画像及び/又は前記第2画像は、自動車、非自動車、人、交通標識、信号機、樹木、動物、建物、障害物のうちの少なくとも1つのカテゴリのオブジェクトを含む、
    請求項11ないし16のいずれか一項に記載の画像生成装置。
  18. 前記第2抽出モジュールは、前記第2画像が複数のオブジェクトを含む場合、前記第2画像から複数の部分画像ブロックを抽出し、各前記部分画像ブロックのオブジェクトスタイル特徴をそれぞれ抽出するように構成され、各部分画像ブロックは1つのカテゴリのオブジェクトを含む、
    請求項11ないし17のいずれか一項に記載の画像生成装置。
  19. 前記第2抽出モジュールは、前記複数のオブジェクトが複数のカテゴリに属する場合、同じカテゴリのオブジェクトの複数の前記部分画像ブロックから抽出されたオブジェクトスタイル特徴を融合するように構成される、
    請求項18に記載の画像生成装置。
  20. 前記画像生成装置は更に、第3生成モジュールを備え、
    前記第1抽出モジュールは、ソース画像のコンテンツ特徴を抽出するように構成され、
    前記第3生成モジュールは、前記ソース画像のコンテンツ特徴、前記ターゲットスタイル特徴及びランダムノイズを訓練済みの前記画像生成器に入力して、第2ターゲット画像を取得するように構成され、前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴に対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ターゲットスタイル特徴及び前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴に対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有するか、又は前記第2ターゲット画像は、前記ソース画像のコンテンツ特徴及び前記ランダムノイズに対応するコンテンツを有し、且つ前記第2ターゲット画像は、前記ランダムノイズに対応するスタイルを有する、
    請求項15ないし19のいずれか一項に記載の画像生成装置。
  21. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、請求項1ないし10のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
  22. コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし10のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
JP2021564168A 2019-04-29 2020-02-24 画像生成方法及び装置、電子機器並びに記憶媒体 Active JP7394147B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910352792.1 2019-04-29
CN201910352792 2019-04-29
PCT/CN2020/076470 WO2020220807A1 (zh) 2019-04-29 2020-02-24 图像生成方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022530518A true JP2022530518A (ja) 2022-06-29
JP7394147B2 JP7394147B2 (ja) 2023-12-07

Family

ID=73029598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564168A Active JP7394147B2 (ja) 2019-04-29 2020-02-24 画像生成方法及び装置、電子機器並びに記憶媒体

Country Status (4)

Country Link
US (1) US11900648B2 (ja)
JP (1) JP7394147B2 (ja)
CN (1) CN113841179A (ja)
WO (1) WO2020220807A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024090802A1 (ko) * 2022-10-25 2024-05-02 삼성전자주식회사 렌더링 스타일이 변경된 이미지를 획득하기 위한 전자 장치 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210101571A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 이미지의 생성 방법 및 그 전자 장치
CN113434633B (zh) * 2021-06-28 2022-09-16 平安科技(深圳)有限公司 基于头像的社交话题推荐方法、装置、设备及存储介质
CN113469876B (zh) * 2021-07-28 2024-01-09 北京达佳互联信息技术有限公司 图像风格迁移模型训练方法、图像处理方法、装置及设备
CN117729421A (zh) * 2023-08-17 2024-03-19 荣耀终端有限公司 图像处理方法、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
CN108805803A (zh) * 2018-06-13 2018-11-13 衡阳师范学院 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法
US20180357800A1 (en) * 2017-06-09 2018-12-13 Adobe Systems Incorporated Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327539B (zh) * 2015-07-01 2019-06-28 北京大学 基于样例的图像重建方法及装置
US10482639B2 (en) * 2017-02-21 2019-11-19 Adobe Inc. Deep high-resolution style synthesis
US11257041B2 (en) * 2017-08-21 2022-02-22 Hirevue, Inc. Detecting disability and ensuring fairness in automated scoring of video interviews
CN108537776A (zh) * 2018-03-12 2018-09-14 维沃移动通信有限公司 一种图像风格迁移模型生成方法及移动终端
CN108734653B (zh) * 2018-05-07 2022-05-13 商汤集团有限公司 图像风格转换方法及装置
CN109523460A (zh) * 2018-10-29 2019-03-26 北京达佳互联信息技术有限公司 图像风格的迁移方法、迁移装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
US20180357800A1 (en) * 2017-06-09 2018-12-13 Adobe Systems Incorporated Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
CN108805803A (zh) * 2018-06-13 2018-11-13 衡阳师范学院 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHUAN LI, ET AL.: "Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks", ARXIV, JPN6022044614, 15 April 2016 (2016-04-15), ISSN: 0004905355 *
DMITRY ULYANOV, ET AL.: "Texture Networks: Feed-forward Synthesis of Textures and Stylized Images", ARXIV, JPN6022044611, 10 March 2016 (2016-03-10), ISSN: 0004905354 *
LEON A. GATYS, ET AL.: "Image Style Transfer Using Convolutional Neural Networks", 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6022044615, 30 June 2016 (2016-06-30), pages 2414 - 2423, XP033021421, ISSN: 0004905356, DOI: 10.1109/CVPR.2016.265 *
LIN XING, ET AL.: "Enhanced Image Style Transferring Method with Primary Structure Maintained", PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE, vol. 31, no. 11, JPN6022044612, November 2018 (2018-11-01), pages 997 - 1007, ISSN: 0004905353 *
中田 秀基: "Variational Autoencoderを用いた画像スタイル変換", 電子情報通信学会技術研究報告, vol. 第117巻, JPN6022044617, 2018, JP, pages 121 - 126, ISSN: 0004905357 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024090802A1 (ko) * 2022-10-25 2024-05-02 삼성전자주식회사 렌더링 스타일이 변경된 이미지를 획득하기 위한 전자 장치 및 방법

Also Published As

Publication number Publication date
US20220044054A1 (en) 2022-02-10
JP7394147B2 (ja) 2023-12-07
US11900648B2 (en) 2024-02-13
WO2020220807A1 (zh) 2020-11-05
CN113841179A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
JP7394147B2 (ja) 画像生成方法及び装置、電子機器並びに記憶媒体
JP2022501688A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN110659640B (zh) 文本序列的识别方法及装置、电子设备和存储介质
CN110378976B (zh) 图像处理方法及装置、电子设备和存储介质
JP6852150B2 (ja) 生体検知方法および装置、システム、電子機器、記憶媒体
EP4207048A1 (en) Image processing method and apparatus, electronic device, and storage medium
JP2021528742A (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
US20210042567A1 (en) Text recognition
JP6986167B2 (ja) 画像生成方法および装置、電子機器並びに記憶媒体
JP2022522596A (ja) 画像識別方法及び装置、電子機器並びに記憶媒体
CN110544217B (zh) 一种图像处理方法及装置、电子设备和存储介质
KR20210054550A (ko) 데이터 업데이트 방법과 장치, 전자 기기 및 저장 매체
JP2021533436A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022500791A (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR20210113607A (ko) 얼굴 속성 인식 방법 및 장치, 전자 기기 및 기억 매체
JP2021526698A (ja) 画像生成方法および装置、電子機器、並びに記憶媒体
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP2022523243A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN111435422B (zh) 动作识别方法、控制方法及装置、电子设备和存储介质
JP2022524254A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN112990197A (zh) 车牌识别方法及装置、电子设备和存储介质
CN110909203A (zh) 视频分析方法及装置、电子设备和存储介质
CN113850275A (zh) 图像处理方法、装置、电子设备及存储介质
CN111553865B (zh) 图像修复方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R150 Certificate of patent or registration of utility model

Ref document number: 7394147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150