JPWO2022002943A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022002943A5
JPWO2022002943A5 JP2022580295A JP2022580295A JPWO2022002943A5 JP WO2022002943 A5 JPWO2022002943 A5 JP WO2022002943A5 JP 2022580295 A JP2022580295 A JP 2022580295A JP 2022580295 A JP2022580295 A JP 2022580295A JP WO2022002943 A5 JPWO2022002943 A5 JP WO2022002943A5
Authority
JP
Japan
Prior art keywords
generator
student
image
teacher
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022580295A
Other languages
Japanese (ja)
Other versions
JP2023531263A (en
Publication date
Priority claimed from FR2009478A external-priority patent/FR3114423B1/en
Application filed filed Critical
Priority claimed from PCT/EP2021/067860 external-priority patent/WO2022002943A1/en
Publication of JP2023531263A publication Critical patent/JP2023531263A/en
Publication of JPWO2022002943A5 publication Critical patent/JPWO2022002943A5/ja
Pending legal-status Critical Current

Links

Description

相互参照Cross References

本出願は2020年6月29日に出願された米国仮出願第63/045,291号および「画像から画像への変換のための知識蒸留を維持する意味関係("Semantic Relation Preserving Knowledge Distillation for Image-to-Image Translation")」と題され、2020年9月18日に出願されたフランス特許出願第FR 2009478号および「画像から画像への変換のための知識蒸留を維持する意味関係」と題された先行特許出願の優先権を主張し、そのそれぞれの内容全体は、許容される場合には参照により本明細書に組み込まれる。 This application claims priority to U.S. Provisional Application No. 63/045,291, filed June 29, 2020, entitled "Semantic Relation Preserving Knowledge Distillation for Image-to-Image Translation," and to French Patent Application No. FR 2009478, filed September 18, 2020, entitled "Semantic Relation Preserving Knowledge Distillation for Image-to-Image Translation," the entire contents of each of which are incorporated herein by reference where permitted.

本出願は機械学習を使用する画像処理に関し、画像処理を介して拡張現実を作成することに関するものである。 This application relates to image processing using machine learning and creating augmented reality through image processing.

敵対的生成ネットワーク(Generative adversarial networks、GAN)は、特に画像から画像への変換タスクにおいて、画像データの高次元分布をモデリングする際に有意な可能性を示している。しかしながら、これらのタスクの複雑さのために、最先端のモデルは多くの場合、膨大な量のパラメータを含み、その結果、モデルサイズが大きくなり、推論時間が長くなる。 Generative adversarial networks (GANs) have shown significant potential in modeling high-dimensional distributions of image data, especially in image-to-image translation tasks. However, due to the complexity of these tasks, state-of-the-art models often contain a huge amount of parameters, resulting in large model sizes and long inference times.

画像から画像への変換タスクを組み込んだ実際の消費者(ユーザ)アプリケーションが望ましく、人気がある。例として、リアルタイム仮想メイクアップアプリケーションは、個性(identity)の高い維持(preservation)および詳細な現実感を有する拡張現実におけるインタラクティブな体験をユーザに提供する。理想的には、ユーザがメイクアップ製品(例えばリップスティックやアイシャドウ)を実際に試すことなくプレビューすることを望む。加えて、仮想な試着(try-on's)はユーザに、彼らの個人的な好みに従って製品の関連属性(例えば色や光沢度)を調整する自由を与える。 Real consumer (user) applications incorporating image-to-image transformation tasks are desirable and popular. As an example, real-time virtual makeup applications provide users with an interactive experience in augmented reality with high preservation of identity and detailed realism. Ideally, users would like to preview makeup products (e.g. lipstick and eye shadow) without actually trying them on. In addition, virtual try-ons give users the freedom to adjust relevant attributes of the product (e.g. color and sheen) according to their personal preferences.

従って、ユーザの要求を満たし、ユーザ・エクスペリエンスを向上させるために、スマートフォン、タブレット等の典型的なユーザデバイス上で使用するためのGANベースのモデルを提供することが望ましい。 Therefore, it is desirable to provide a GAN-based model for use on typical user devices such as smartphones, tablets, etc. to meet user requirements and improve user experience.

一実施形態では、新規な手法が、意味関係を維持する行列(a semantic relation preserving matrix)の蒸留と共に知識蒸留(knowledge distillation)を適用する。一実施形態では、教師の特徴の符号化から導出されるこの行列が、生徒モデルがより良い意味関係(semantic relation)を学習するのを助ける。分類タスク(classification tasks)のために設計された既存の圧縮手法とは対照的に、一実施形態では本明細書の方法がガイダンスを用いて訓練を安定化させることによって、GAN上の画像から画像への変換タスクに良く適合する。 In one embodiment, the novel approach applies knowledge distillation with distillation of a semantic relation preserving matrix. In one embodiment, this matrix, derived from the encoding of teacher features, helps the student model learn better semantic relations. In contrast to existing compression approaches designed for classification tasks, in one embodiment, the method herein is well suited for image-to-image translation tasks on GANs by stabilizing training with guidance.

一実施形態では、GANベースの生成器(generators)が画像から画像への変換を実行する。GANモデルはモバイルデバイス上に直接展開するには大き過ぎるように、大きな記憶サイズ及びリソース使用要件を有する。システム及び方法は、条件付け(conditioning)を通して、知識蒸留を使用して教師GANモデル(及び生成器)から下方にスケーリングされる生徒生成器を有する生徒GANモデルを定義する。一実施形態では、意味関係の知識蒸留の損失を使用して、教師の中間層(例えば教師生成器の符号化構成要素(encoder component)の最後の層)から生徒の中間層(例えば生徒生成器の符号化構成要素の最後の層)に意味知識(semantic knowledge)を転送する。一実施形態では、このように定義された生徒生成器が拡張現実体験を提供するために、スマートフォン及びラップトップ等のモバイルデバイスによって記憶および実行される。一実施形態では、画像上でシミュレートされる効果が、メイクアップ、毛髪、爪、年齢シミュレーション効果等を含む。 In one embodiment, GAN-based generators perform image-to-image transformation. GAN models have large storage size and resource usage requirements such that they are too large to be deployed directly on mobile devices. The system and method defines a student GAN model with a student generator that is scaled downward from the teacher GAN model (and generator) using knowledge distillation through conditioning. In one embodiment, a knowledge distillation loss of semantic relations is used to transfer semantic knowledge from the teacher intermediate layer (e.g., the last layer of the encoder component of the teacher generator) to the student intermediate layer (e.g., the last layer of the encoder component of the student generator). In one embodiment, the student generators thus defined are stored and executed by mobile devices such as smartphones and laptops to provide an augmented reality experience. In one embodiment, the effects simulated on the image include makeup, hair, nails, age simulation effects, etc.

既知のアプローチと対比された実施形態による、本明細書で教示される現在のアプローチの例証である。1 is an illustration of the current approach taught herein with embodiments contrasted with known approaches. 一実施形態に係る訓練パイプラインの概要を示す図である。FIG. 1 illustrates an overview of a training pipeline according to one embodiment. 5つのサンプルにおける意味類似性行列のグラフ表示である。1 is a graphical representation of the semantic similarity matrix for five samples. 選択された入力例を使用する、本開示による、教師モデル、生徒モデル、事前モデル、および現在モデルの出力を対比するための、ウマ⇔シマウマタスクのための画像のアレイである。Array of images for the Horse <- Zebra task to contrast the outputs of the teacher model, student model, prior model, and current model according to the present disclosure using selected input examples. 選択された入力例を使用する、本開示による教師モデル、生徒モデル、事前モデル及び現在モデルの出力を対比するリンゴ⇔オレンジタスクのための画像のアレイである。Arrays of images for the Apples⇔Oranges task contrasting the outputs of the teacher model, student model, prior model, and current model according to the present disclosure using selected input examples. 共通の故障例を表す選択された入力例を使用する、本開示による、教師モデル、生徒モデル、事前モデル及び現在モデルの出力を対比するためのウマ⇔シマウマタスクの画像の行である。1 is a row of images of the Horse Zebra task for contrasting the outputs of the teacher model, student model, prior model, and current model according to the present disclosure using selected input examples that represent common fault cases. 1つの例示的な入力を使用する、本開示による、教師モデル、生徒モデル、事前モデル及び現在モデルの出力を対比するためのウマ⇔シマウマタスクのための画像のアレイである。アレイは、それぞれの画像と、詳細を示すその拡大部分とのペアリングを含む。Array of images for the Horse Zebra task to contrast the outputs of the teacher, student, prior and current models according to the present disclosure using one example input. The array contains pairings of each image with its enlarged portion showing details. 1又は複数の実施形態による、ベースラインモデルおよび現在のモデルのコントラスト出力に対するアブレーション研究を示す、4つの異なるデータセットのための画像のアレイである1 is an array of images for four different datasets showing an ablation study for the contrast output of a baseline model and a current model, in accordance with one or more embodiments. 特定のネットワークアーキテクチャ実験に従ったそれぞれのアブレーション研究からの画像のアレイである。Arrays of images from each ablation study according to the specific network architecture experiment. 特定のネットワークアーキテクチャ実験に従ったそれぞれのアブレーション研究からの画像のアレイである。Arrays of images from each ablation study according to the specific network architecture experiment. 一実施形態によるコンピュータシステムのブロック図である。FIG. 1 is a block diagram of a computer system according to one embodiment. 本明細書に従った動作を示すフローチャートである。2 is a flow chart illustrating operations in accordance with the present disclosure.

本概念は添付の図面を参照して本明細書に記載される、その特定の実施形態を通して最も良く説明され、ここで、同様の参照番号は全体を通して同様の特徴を指す。本発明という用語は本明細書で使用される場合、以下に記載される実施形態の基礎をなす発明の概念を意味することを意図しており、単に実施形態自体を意味するものではないことを理解されたい。さらに、一般的な発明概念は以下に記載される例示的な実施形態に限定されず、以下の説明はそのような観点から読まれるべきであることを理解されたい。
1.導入
The present concepts are best explained through specific embodiments thereof, which are described herein with reference to the accompanying drawings, in which like reference numerals refer to like features throughout. It should be understood that the term invention, as used herein, is intended to refer to the inventive concepts underlying the embodiments described below, and not simply the embodiments themselves. Furthermore, it should be understood that the general inventive concepts are not limited to the exemplary embodiments described below, and the following description should be read in this light.
1. Introduction

簡単に述べると、敵対的生成ネットワーク(Generative adversarial networks、GAN)[8]は、画像から画像への変換を含む様々な画像タスクで有用だが、モバイルデバイス等のターゲットデバイス上(例えばスマートフォン又はタブレット端末等の消費者ユーザデバイス上)等でGANを使用することには課題が存在する。 Briefly, generative adversarial networks (GANs) [8] are useful for a variety of image tasks, including image-to-image translation, but challenges exist in using GANs on target devices such as mobile devices (e.g., consumer user devices such as smartphones or tablets).

第1に、全てのGANモデルは一般に、ストレージ及び計算能力が限られているモバイルデバイス上に直接展開するには大き過ぎる。第2に、GAN上の通常の識別畳み込みニューラルネットワーク(regular discriminative convolutional neural networks)のために設計された既存の圧縮方法を適用することは、GANが構造および訓練スキームにおいてそれらのモデルと全く異なるので、うまく機能しない。第3に、圧縮されたモデルは生成された画像の忠実度の点で、元のモデルと比較して類似の性能レベルを維持しなければならず、ターゲットデバイス上で実行するのに十分に小さく、より速くなければならない。 First, all GAN models are generally too large to be directly deployed on mobile devices with limited storage and computational capabilities. Second, applying existing compression methods designed for regular discriminative convolutional neural networks on GANs does not work well because GANs are quite different from those models in structure and training scheme. Third, the compressed models must maintain a similar performance level compared to the original models in terms of fidelity of the generated images, and must be small enough and fast enough to run on the target devices.

知識蒸留(knowledge distillation)手法は、教師モデルから生徒モデルに知識を転送することが知られており、生徒モデルはしばしば、教師モデルのより狭い(narrower)又はより浅い(shallower)バージョンであるように選択される。伝統的な(「バニラ」("vanilla"))知識蒸留を特にGANに適用する場合には課題がある。伝統的な知識蒸留が分類のための確率分布のような出力から教師モデルの知識を転送する。GANの場合、生成された画像である出力は、生徒の訓練のための情報を提供することができない。代わりに、著者らは符号化構成要素(encoder component)の最後に、教師の中間表現を生徒モデルに転送することを提案した。教師および生徒モデルは別々に訓練されるので、それらの中間表現はほとんど異なる潜在空間(latent spaces)にある(即ちそれらは異なるチャネル数を有する)。従って、GANに関する伝統的な知識蒸留を改善するために、2つの潜在空間を適切にマッチさせることが課題である。しかしながら、一方の空間から他方の空間にベクトルを投影するような手法はしばしば困難である。従って、教師の潜在空間と生徒の潜在空間からベクトルを比較する別の手法を見つける必要がある。 Knowledge distillation techniques are known to transfer knowledge from a teacher model to a student model, and the student model is often chosen to be a narrower or shallower version of the teacher model. There are challenges when applying traditional ("vanilla") knowledge distillation, especially to GANs. Traditional knowledge distillation transfers knowledge from the teacher model's output, such as a probability distribution for classification. In the case of GANs, the output, which is the generated image, cannot provide information for training the student. Instead, the authors proposed to transfer the teacher's intermediate representation to the student model at the end of the encoder component. Since the teacher and student models are trained separately, their intermediate representations are mostly in different latent spaces (i.e., they have different numbers of channels). Therefore, to improve traditional knowledge distillation on GANs, the challenge is to properly match the two latent spaces. However, techniques such as projecting vectors from one space to the other are often difficult. Therefore, it is necessary to find another technique to compare vectors from the teacher's latent space and the student's latent space.

より詳細には、GANが様々な視覚タスクにおいて、画像データの高次元分布をモデリングする際に有意な可能性を示している。スタイル転送(style-transfer)[31,15]及び超解像(super-resolution)[17]のようなタスクの多くは、画像から画像への変換タスクであると考えられ、そこでは画像をある領域(domain )から別の領域にマッピングするようにモデルを訓練(train)する。(画像における有意義な特徴が毛髪の色、年齢、性別、顔の表情等の「属性(attribute)」を定義し、「属性値(attribute value)」は属性の値の特定の例(例えばブロンド/ブラック/ブラウン/レッド、20/50、男性/女性、ハッピー/悲しい/怒り)である。「領域」は同じ属性値を共有する画像のセットである。)コミュニティが高い忠実度の画像を生成するためのソリューションを研究し[1,26]、ペアになっていないデータを扱うこと[31]において成功を示している。これらの研究の成功はまた、生成モデルに基づいてモバイルアプリケーションを開発する一般的な傾向をもたらした。しかしながら、これらのモデルをモバイルデバイス上で効率的にすることにはほとんど研究されていない。結果として、最先端のGANモデルはリソースが限られたエッジデバイスではしばしば、大きく、遅い。例えばCycleGAN[31] モデルはIntel(登録商標) Xeon(登録商標) E5-2686 の単一CPUコアで解像度256x256の1つの画像を処理するのに2.69秒を必要とする。モデルのサイズは44Mである。 More specifically, GANs have shown significant potential in modeling high-dimensional distributions of image data in various vision tasks. Many tasks, such as style-transfer [31,15] and super-resolution [17], can be considered as image-to-image translation tasks, where a model is trained to map an image from one domain to another. (Meaningful features in an image define the "attributes" (e.g., hair color, age, gender, facial expression, etc.), and "attribute values" are specific examples of the values of the attributes (e.g., blonde/black/brown/red, 20/50, male/female, happy/sad/angry). A "domain" is a set of images that share the same attribute value.) The community has been researching solutions for generating high-fidelity images [1,26] and has shown success in dealing with unpaired data [31]. The success of these studies has also led to a general trend of developing mobile applications based on generative models. However, little research has been done on making these models efficient on mobile devices. As a result, state-of-the-art GAN models are often large and slow for resource-limited edge devices. For example, the CycleGAN[31] model requires 2.69 seconds to process one image with a resolution of 256x256 on a single CPU core of an Intel® Xeon® E5-2686. The model size is 44M.

畳み込みニューラルネットワーク(CNN)の研究により、分類、オブジェクト検出および意味分割(semantic segmentation)を含む様々なコンピュータビジョンタスクにおけるモデル効率を改善するために、モデル圧縮のための多くの研究[9,25,14,10,13]が提案されている。2016年、Hanら[9]は、重要性の低い接続を切り捨てることによってモデルを最初にプルーニング(剪定、枝刈)し、次いで重みを量子化し、ハフマン符号化を適用する3段階パイプラインを提案した。それらはImageNetデータセット[7]上において、AlexNet[16]及びVGG-16[28]を35×から49×に首尾よく減少させた。この手法が複雑な訓練パイプライン(training pipeline)を用いて、各段階で多大な手作業を必要とする。[25,14]では、畳み込み層を分離可能な畳み込み層に再設計することによって、モデル効率を改善する努力がなされてきた。ネットワークアーキテクチャの再設計は多くの場合、ドメインエキスパートが大きな設計空間を探索し、かなりの量の実験を行うことを必要とする。 In the study of convolutional neural networks (CNNs), many works [9,25,14,10,13] have been proposed for model compression to improve model efficiency in various computer vision tasks, including classification, object detection, and semantic segmentation. In 2016, Han et al. [9] proposed a three-stage pipeline that first prunes the model by discarding less important connections, then quantizes the weights and applies Huffman coding. They successfully reduced the performance of AlexNet [16] and VGG-16 [28] from 35× to 49× on the ImageNet dataset [7]. This approach requires a lot of manual work at each stage, with a complex training pipeline. In [25,14], efforts have been made to improve model efficiency by redesigning convolutional layers into separable convolutional layers. Redesigning the network architecture often requires domain experts to explore a large design space and conduct a significant amount of experiments.

[10,13]のような後の研究は、ニューラルアーキテクチャ探索および強化学習において、手作業の量を効率的に低減するために、訓練されたエージェントの予測に基づいてプルーニング及びネットワーク設計を実行する手法を活用してきた。分類タスクのためにネットワークを圧縮することに成功すると、研究著作物[3,24,19]はオブジェクト検出および意味分割に、前述の手法を更に拡張した。 Later works such as [10,13] have exploited techniques that perform pruning and network design based on the predictions of trained agents to efficiently reduce the amount of manual effort in neural architecture search and reinforcement learning. After successfully compressing networks for classification tasks, research works [3,24,19] further extended the aforementioned techniques to object detection and semantic segmentation.

しかしながら、前述の解決策は、GANが典型的には過剰な量の訓練プロセス及び手動設計努力を要求するので、GANにうまく適合しない。敵対的生成ネットワークの訓練は、識別器(discriminator )及び生成器の交互訓練戦略の設計のために、通常、より困難であり、より不安定である。そこで、モデルの効率を改善するだけでなく、トレーニング中にガイダンスを提供する方法を検討した。Hintonら[12]は、知識蒸留の概念を再発明し、アンサンブルの(ensemble)教師モデルから単一の生徒モデルに暗黒知識(dark knowledge)を転送し、モデル圧縮において知識蒸留を利用する可能性を実証した。この設定では教師ネットワークからの確率分布などの非明示的で中間的な情報を、学習時に活用して生徒を誘導することができる。この概念の直観を考慮すると、知識蒸留は、誘導訓練手順(guided training procedure)を用いてGAN発生器を圧縮するという我々の目的に当然適合する。 However, the aforementioned solutions do not fit well with GANs, as they typically require an excessive amount of training process and manual design effort. Training generative adversarial networks is usually more difficult and unstable due to the design of the alternating training strategy of the discriminator and generator. Therefore, we investigated ways to provide guidance during training as well as improve the efficiency of the model. Hinton et al. [12] reinvented the concept of knowledge distillation to transfer dark knowledge from an ensemble of teacher models to a single student model and demonstrated the possibility of utilizing knowledge distillation in model compression. In this setting, implicit and intermediate information, such as probability distributions from the teacher network, can be leveraged to guide the student during learning. Given the intuition of this concept, knowledge distillation naturally fits our goal of compressing GAN generators using a guided training procedure.

一実施形態では、技術および手法が、画像から画像への変換タスク(translation tasks)に知識蒸留を適用し、教師から生徒への意味関係(semantic relationships)の情報を蒸留するための新規のアプローチを採用する。一実施形態では、本発明者らの仮説が特徴テンソル(feature tensor)が与えられると、同じ意味クラス(semantic class )の特徴ピクセル(feature pixels )が同様の活性化パターンを有し得る一方で、異なる意味クラスの特徴ピクセルが相違する可能性があることである。従って、図1の視覚化100を参照すると、一実施形態では一番上の行102において、教師モデル102Bにおいて学習された意味関係102A(例えば(類似性、相違性))は意味関係損失維持102Dを使用して生徒モデル102Cに転送される。高次元空間では同じ意味クラスのピクセルのための特徴符号化がより近くに位置し得る。下の行104が伝統的な知識蒸留が画像間(例えば、104Aから104B)変換タスクでどのように機能するかを示し、伝統的な知識蒸留は画像損失維持104Cに基づく。 In one embodiment, the techniques and methods apply knowledge distillation to image-to-image translation tasks and employ a novel approach to distill information of semantic relationships from teacher to student. In one embodiment, our hypothesis is that given a feature tensor, feature pixels of the same semantic class may have similar activation patterns, while feature pixels of different semantic classes may be different. Thus, referring to the visualization 100 in FIG. 1, in one embodiment, in the top row 102, semantic relationships 102A (e.g., (similarity, dissimilarity)) learned in the teacher model 102B are transferred to the student model 102C using semantic relationship loss preservation 102D. In high-dimensional space, feature encodings for pixels of the same semantic class may be located closer together. The bottom row 104 shows how traditional knowledge distillation works for image-to-image (e.g., 104A to 104B) translation tasks, where traditional knowledge distillation is based on image loss preservation 104C.

例えば、ウマからシマウマタスクでは、ウマの特徴テンソルが高次元空間において空や草などの他の背景ピクセルに近いが、遠くに位置し得る。十分に訓練された教師モデルは、データセット及び画像レベルの両方において、異なる意味ピクセル(semantic pixels)間のこれらの相関をより良好に捕捉することができる。我々はまた、この直観を支持する証拠を実証する。 For example, in the Horse-Zebra task, the horse feature tensor may be located in high-dimensional space close to, but far from, other background pixels such as sky and grass. A well-trained teacher model can better capture these correlations between different semantic pixels, both at the dataset and image level. We also demonstrate evidence supporting this intuition.

一実施形態では、画像から画像への変換タスク上でGAN生成器を圧縮する際に知識蒸留を適用する新規な手法が意味関係を蒸留することを含む。生徒モデルのピクセルペアワイズ類似性(pixel pairwise similarities)が教師付きの設定で訓練される。更にこの手法の可能性は、5つの異なる画像から画像への変換ベンチマークデータセット上で実験的に実証される。著者らの結果が定性的にも定量的にも、著者らの手法が生徒モデルを元の教師モデルと同等に、時にはそれより良くなるように訓練することを明らかに示した。
2.関連研究
2.1 画像から画像への変換のためのGAN
In one embodiment, a novel approach that applies knowledge distillation in compressing GAN generators on image-to-image translation tasks involves distilling semantic relations. Pixel pairwise similarities of student models are trained in a supervised setting. The potential of the approach is further demonstrated experimentally on five different image-to-image translation benchmark datasets. Our results, both qualitative and quantitative, clearly show that our approach trains student models to be comparable to, and sometimes better than, the original teacher models.
2. Related Work 2.1 GAN for Image-to-Image Conversion

高次元データのモデリングにおけるGANの成功と共に、画像から画像への変換タスクは、異なるデータ領域上に高い忠実度および拡張性の画像を生成することにおけるGANの優位性のため、今日ではGANによって支配されている。[15]では、筆者らがスケッチ/意味ラベルから写真への転送など、ペアの画像から画像への変換タスクに条件付きGANを適用する「Pix2Pix」として知られるモデルを提案した。2つの領域間のペアになっていない画像から画像への変換タスクに取り組む、後続の作業サイクルGAN[31]は、両方向に画像を転送する2つの生成器を構築し、訓練中に追加のサイクル一貫性損失(cycle consistency loss)を実施することを提案した。StarGAN[5]は更に、生成器を訓練しながら、入力に領域固有の属性ベクトルを追加することによって、CycleGANの能力を領域変換に拡張した。
2.2 知識蒸留を維持する意味関係
Along with the success of GANs in modeling high-dimensional data, image-to-image translation tasks are nowadays dominated by GANs due to their superiority in generating high-fidelity and scalable images on different data domains. In [15], the authors proposed a model known as "Pix2Pix" in which conditional GANs are applied to paired image-to-image translation tasks, such as transferring sketch/semantic labels to photos. A subsequent work, CycleGAN [31], which tackles the task of unpaired image-to-image translation between two domains, proposed to build two generators that transfer images in both directions and implement an additional cycle consistency loss during training. StarGAN [5] further extended the capabilities of CycleGAN to domain translation by adding domain-specific attribute vectors to the input while training the generator.
2.2 Semantic Relations that Maintain Knowledge Distillation

教師モデルから生徒モデルに知識を転送することに専念する長い努力がなされてきた。Hintonら[12]は、単一の生徒モデルが別々に訓練されたモデルの集合から知識を学習する知識蒸留の概念を再発明した。ワンホット出力(one-hot output)と比較すると、教師のソフトロジット(soft logits)内に含まれる情報はより具体的な知識を提供し、生徒モデルの訓練を誘導するのに役立つ。分類タスクに加えて、この手法は、オブジェクト検出および意味分割などの多数のコンピュータビジョンタスクにも広く採用されている[2,20]。 There have been long efforts dedicated to transferring knowledge from teacher models to student models. Hinton et al. [12] reinvented the concept of knowledge distillation, where a single student model learns knowledge from a collection of separately trained models. Compared to the one-hot output, the information contained within the teacher's soft logits provides more specific knowledge and helps guide the training of the student model. In addition to classification tasks, this technique has also been widely adopted for a number of computer vision tasks, such as object detection and semantic segmentation [2,20].

近年、クラス関係(class relationship)の学習は、様々な問題においてモデル性能を非自明に向上させることが観察されている。多くの研究[4,23,22,29]は、知識蒸留設定における類似性および関係学習の適用において進歩を示している。[22]及び[23]において、それらは両方とも、複数のインスタンスの幾何学的類似性学習を通じて、インスタンス間の相関が生徒モデルにおいて転送され、十分に学習され得ることを実証した。[29]において、彼らは類似の活性化パターン(activation pattern)が同じクラス(例えばイヌ)の画像上に現れることを経験的に実証した。この観察に基づいて、彼らは、特定の層の教師の特徴符号化の外積として計算された、画像インスタンスの類似性行列で生徒を誘導することを提案した。しかしながら、画像から画像への変換タスクでは、画像ごとの関係がそれらが典型的には同じクラス(例えばウマやシマウマ)からの画像であるので、包括的な情報を与えない。意味ピクセル(semantic pixels)間に同様の相関パターンが存在するかどうか?本研究では、教師からこの知識を転送することにより、生徒モデルにおける画素ごとの意味関係を保持するアイデアを探索した。
2.3 GANのモデル圧縮
In recent years, it has been observed that learning class relationships non-trivially improves model performance in a variety of problems. Many studies [4,23,22,29] have shown progress in the application of similarity and relationship learning in knowledge distillation settings. In [22] and [23], they both demonstrated that correlations between instances can be transferred and fully learned in the student model through geometric similarity learning of multiple instances. In [29], they empirically demonstrated that similar activation patterns appear on images of the same class (e.g., dogs). Based on this observation, they proposed to guide the student with a similarity matrix of image instances, computed as the cross product of the teacher feature encodings of a particular layer. However, in image-to-image translation tasks, image-wise relationships do not give comprehensive information since they are typically images from the same class (e.g., horses and zebras). Do similar correlation patterns exist between semantic pixels? In this study, we explore the idea of preserving pixel-wise semantic relationships in the student model by transferring this knowledge from the teacher.
2.3 GAN model compression

生成モデルを用いた画像から画像への変換タスクは、識別モデルを用いた分類タスクとは本質的に異なる。従来のモデル圧縮アプローチは、GANにうまく適応しない分類タスクのために設計されている。別の研究[27]は、CycleGAN[31]における2つの生成器の共進化的戦略(co-evolutionary strategy)を通してGANモデルを圧縮することに努力し、冗長畳み込みフィルタ(redundant convolutional filters)を効率的に排除する方法をもたらした。 The task of image-to-image translation using generative models is fundamentally different from the task of classification using discriminative models. Traditional model compression approaches are designed for classification tasks that do not scale well with GANs. Another study [27] made an effort to compress GAN models through a co-evolutionary strategy of two generators in CycleGAN [31], resulting in a method to efficiently eliminate redundant convolutional filters.

しかしながら、モデル圧縮比および他のハイパーパラメータ(hyper-parameters)を制御することによって、生成された画像の品質を維持するための外部の努力を必要とする。 However, it requires external efforts to maintain the quality of the generated images by controlling the model compression ratio and other hyper-parameters.

本研究では、十分に訓練された教師モデルから意味知識を転送することにより、効果的な圧縮を実現しながら、ハイパーパラメータのチューニングに必要な努力量を低減し、より良い画質を達成することを目指した。
3.方法
In this work, we aim to achieve better image quality by transferring semantic knowledge from a well-trained teacher model, while still achieving effective compression, reducing the effort required for tuning hyperparameters.
3. Method

一実施形態では、GANの効率が、生成器を圧縮する際に知識蒸留を利用することによって改善される。序論で論じたように、GANの訓練は困難である。バニラ知識蒸留損失に加えて、各生成器を1つのエンコーダと1つのデコーダに分離し、エンコーダによって生成された特徴符号化に基づいて意味維持損失(semantic preserving loss)を定式化した。図2は、意味関係を保存する際の蒸留戦略200の概略図を示す。 In one embodiment, the efficiency of GANs is improved by utilizing knowledge distillation in compressing the generators. As discussed in the introduction, training GANs is difficult. In addition to the vanilla knowledge distillation loss, we separate each generator into one encoder and one decoder and formulate a semantic preserving loss based on the feature encoding produced by the encoder. Figure 2 shows a schematic diagram of the distillation strategy 200 in preserving semantic relations.

図2は、第1の領域空間から第2の領域空間(例えばシマウマ206からウマ208)への画像の変換を実行するために、事前に訓練された教師モデル204(例えばエンコーダE^204A及び生成器G^204Bを備える生成器G202)を使用して、単一の生徒モデル(例えばエンコーダE^202A及び生成器G^202Bを備える生成器G202)を訓練することに関連して、知識蒸留戦略200を示す点で簡略化されている。CycleGANSフレームワークでは、例えば、第2の生徒モデル及び対応する事前に訓練された教師モデルも同時に訓練され(図示せず)、画像を第2の領域空間から第1の領域空間に(例えばウマからシマウマに)変換する。また、(例えばCycleGAN又は他のアーキテクチャを使用して)画像訓練に対するそのような画像のための関連する既知の機能(損失)も示されていない。単純化のために、知識蒸留の態様の特徴のみが示されている。例えば、Pix2Pixフレームワークでは、図2のそれぞれの生成器202B,204Bを有する単一モデルのペア(例えば教師および生徒モデル)が適用可能である。以下に説明されるように、生徒特徴符号化F^は、図2において210で示され、教師特徴符号化F^は212で示される。 FIG. 2 is simplified in that it illustrates the knowledge distillation strategy 200 in the context of training a single student model (e.g., generator G s 202 with encoder E^ s 202A and generator G^ s 202B) using a pre-trained teacher model 204 (e.g., generator G t 202 with encoder E^ t 204A and generator G ^ t 204B) to perform a transformation of an image from a first domain space to a second domain space (e.g., zebra 206 to horse 208). In the CycleGANS framework, for example, a second student model and a corresponding pre-trained teacher model are also trained simultaneously (not shown) to transform images from the second domain space to the first domain space (e.g., horse to zebra). Also not shown are relevant known functions (losses) for such image to image training (e.g., using CycleGAN or other architectures). For simplicity, only features of the knowledge distillation aspect are shown. For example, in the Pix2Pix framework, a single model pair (e.g., teacher and student models) can be applied with respective generators 202B, 204B of Figure 2. As explained below, the student feature encoding F^ S is denoted at 210 in Figure 2, and the teacher feature encoding F^ t is denoted at 212.

生徒および教師モデル202及び204は、生徒202が教師204に対して下方にスケーリングされた同じ一般的なネットワークアーキテクチャであることが理解される。教師および生徒モデルは共通の(即ち同じ)ネットワークアーキテクチャに従い、構成要素および接続に関して定義される。「ビルディングブロック」("Building blocks")は、ネットワークで使用されるダウンサンプルブロック(downsample blocks)、残差ブロック(residual blocks)、アップサンプルブロック(upsample blocks)等の処理ユニットを意味する。また「接続」("Connections")は、各レイヤ/構成要素がどのように接続/ルーティングされるかを意味する。生徒モデルは、幅、奥行き又は幅と奥行きとの両方に関する教師モデルの縮小バージョンである。幅は、各レイヤのフィルタの数を意味する。深度は、網内の残差ブロックの個数を意味する。例えば、Resnet9と表記される教師模型であるngf64は、残差深さが「9」及びフィルタ幅「64」を有する手段である。従って例示的な生徒モデルは、Resnet6、ngf16と表されることができ、ここで、幅および深さの両方がスケーリングされる。別の例はResnet9、ngf32で、幅は維持されるが、深さはスケーリングされる。形式的には、スケーリング係数が2つのモデルS及びTを特徴付けるために導入することができ、幅および深さの数は通常、整数(例えば正の整数)に制約され、他の制約:S(w,d)= T(α*w、β*d)も有することができ、ここで、両方とも適用可能なスケーリング係数である。 It is understood that the student and teacher models 202 and 204 are of the same general network architecture with the student 202 scaled downwards relative to the teacher 204. The teacher and student models follow a common (i.e., the same) network architecture and are defined in terms of components and connections. "Building blocks" refers to the processing units used in the network, such as downsample blocks, residual blocks, upsample blocks, etc., and "Connections" refers to how each layer/component is connected/routed. The student model is a scaled-down version of the teacher model in terms of width, depth, or both width and depth. Width refers to the number of filters in each layer. Depth refers to the number of residual blocks in the network. For example, the teacher model ngf64, denoted Resnet9, means that it has a residual depth of "9" and a filter width of "64". Thus, an exemplary student model can be represented as Resnet6, ngf16, where both width and depth are scaled. Another example is Resnet9, ngf32, where the width is preserved but the depth is scaled. Formally, a scaling factor can be introduced to characterize two models S and T, where the width and depth numbers are usually constrained to be integers (e.g., positive integers) and can also have another constraint: S(w,d) = T(α*w,β*d), where both are applicable scaling factors.

中間のレイヤでは、特徴符号化のピクセルのペアワイズ活性化類似性( pairwise activation similarities)を計算し、類似性行列(similarity matrices)上の蒸留損失を介して知識を転送することにより意味関係を表現する。この損失は、最終的に生成された画像上の従来の蒸留損失(線214)に加えて追加することができる。意味関係活性化行列は、特徴符号化の外積として計算される。蒸留損失は、教師の活性化行列と生徒の行列とを比較するために使用される。このセクションでは、GANにバニラ知識蒸留と意味維持蒸留(semantic preserving distillation)をどのように適用するかについて詳細に議論する。
3.1 GANのバニラ知識蒸留
In the intermediate layers, we represent semantic relations by computing pairwise activation similarities of pixels in the feature encodings and transferring knowledge via a distillation loss on similarity matrices. This loss can be added on top of the traditional distillation loss (line 214) on the final generated images. The semantic relation activation matrix is computed as the cross product of the feature encodings. The distillation loss is used to compare the teacher activation matrix with the student's matrix. In this section, we discuss in detail how to apply vanilla knowledge distillation and semantic preserving distillation to GANs.
3.1 GAN Vanilla Knowledge Distillation

伝統的な知識蒸留(例えば生成モデルではなく弁別モデルで使用されるような)では、タスクは次のように定式化される:

Figure 2022002943000007
ここで、yは、入力であるxのグラウンドトゥルース(ground truth)を示し、fθ(x)及びf(x)は、生徒モデル出力と教師モデル出力とをそれぞれ示す。nは、入力の数であり、αは、教師の出力とグラウンドトゥルースとのバランスをとるためのハイパーパラメータである。式(1)は、ネットワークが1)グラウンドトゥルースと生徒の出力との間の損失、および、2)教師の出力と生徒の出力との間の損失の2つの項を最小化することを奨励する。目的関数の第2の部分は、生徒が異なるタスクについて非明示的な知識を学習するのを助けるように設計されている。例えば、分類タスクでは、温度制御を有するソフトロジットが生徒と教師との間でマッチングされ、生徒が教師を模倣することを奨励する。 In traditional knowledge distillation (e.g. as used in discriminative rather than generative models), the task is formulated as follows:
Figure 2022002943000007
Here, y i denotes the ground truth of input x i , and f θ (x i ) and ft (x i ) denote the student model output and the teacher model output, respectively. n is the number of inputs, and α is a hyperparameter for balancing the teacher output and the ground truth. Equation (1) encourages the network to minimize two terms: 1) the loss between the ground truth and the student output, and 2) the loss between the teacher output and the student output. The second part of the objective function is designed to help the student learn implicit knowledge for different tasks. For example, in classification tasks, soft logits with temperature control are matched between the student and the teacher to encourage the student to imitate the teacher.

敵対的生成訓練(generative adversarial training)の設定において、知識蒸留を適用するための例示的なアプローチは、生成された教師の画像G(x)と生徒の画像G(x)と間の別のミニマックスゲームを導入することであろう:

Figure 2022002943000008
ここで、
Figure 2022002943000009
下付きのtとsとは、それぞれ教師と生徒との構成要素を示す。Dは、生徒の出力と実際の画像のための識別器であり、D’は、生徒の出力と教師の出力とを識別し、xとyとは、それぞれのクラスの実際の画像である。 An exemplary approach to apply knowledge distillation in a generative adversarial training setting would be to introduce another minimax game between the generated teacher images Gt (x) and the student images Gs (x):
Figure 2022002943000008
here,
Figure 2022002943000009
The subscripts t and s denote the teacher and student components, respectively. D S is the classifier for the student output and the real image, D S ′ classifies the student output and the teacher output, and x and y are the real images of each class.

以前の研究[31,15]は、GANの目標をL1等の他の従来の損失と混合する利点を示している。そのため、教師の出力と生徒の出力を比較する伝統的な再構成損失を計算することにより、バニラ知識蒸留を適用した。例えば、CycleGAN[31]では、元の損失が2つのGAN損失と1つのサイクル整合性損失との間で重み付けされる。本発明者らは、L1ノルム損失であるサイクル一致損失(cycle consistency loss)のみに蒸留損失を加える。我々のバニラ知識蒸留設定は、以下の目標を有する:

Figure 2022002943000010
ここで、GとFとは、スタイルクラスXからスタイルクラスYへ、そしてスタイルクラスYからスタイルクラスXへそれぞれ転送する生成器を示す。これにより、XとYとは、教師が再構成画像を生成する。表記は、[31]から適応される。Pix2Pix [15]訓練でも同様の設定を適用する。
3.2 意味維持損失 Previous work [31,15] has shown the benefits of mixing the GAN goal with other traditional losses such as L1. Therefore, we applied vanilla knowledge distillation by computing a traditional reconstruction loss that compares the teacher output with the student output. For example, in CycleGAN [31], the original loss is weighted between two GAN losses and one cycle consistency loss. We add the distillation loss only to the cycle consistency loss, which is the L1 norm loss. Our vanilla knowledge distillation setting has the following goals:
Figure 2022002943000010
Here, G S and F S denote the generators that transfer from style class X to style class Y and from style class Y to style class X, respectively. Thus, X t and Y t are the teacher-generated reconstructed images. The notation is adapted from [31]. We apply a similar setting in Pix2Pix [15] training.
3.2 Semantic preservation loss

生成器Gは、入力画像を符号化するエンコーダE^と、出力画像を復号して生成する生成器G^の2つの部分で構成されると考える。yは、i番目の入力画像xの出力画像であり、y=G(x)=G^(E^(x))で表されること注意する。 The generator G is considered to be composed of two parts: an encoder E^ that encodes an input image, and a generator G^ that decodes and generates an output image. Note that y i is the output image of the i-th input image x i , and y i = G(x) = G^(E^(x i )).

意味関係活性化行列(Semantic Relation Activation Matrix)。図2は、本明細書に記載の動作を含む意味関係活性化行列決定ブロック215を示す。Tung&Mori [29]は、同じクラスの画像インスタンスに対して、異なるクラスの画像インスタンスの間で興味深い明確な活性化パターンを示した。しかし、画像から画像への変換タスクでは、インスタンスの相関に含まれる情報が通常、同じクラス(例えばウマ、オレンジ)からのものより少ない。我々の仮説は、類似性および相違性が異なる意味ピクセルの特徴符号化において同様に存在する可能性があるということであり、これはまた、画像から画像への変換タスクに対してより有益である。蒸留損失は、教師と生徒の符号化された類似性との間の差をペナルティにするために導入することができる。本発明者らは[30,29]と同様の特徴符号化F(例えば212及び214)の外積によって、この活性化行列を表す。ここで、特徴符号化F(i)を、エンコーダE^の最後のレイヤにおけるi番目の画像例の出力行列と定義する:

Figure 2022002943000011
ここで、H’及びW’は、特徴符号化高さ及び幅を示し、C/Cはそれぞれチャネルの数を示す。バッチサイズ1を使用する。次に、意味関係活性化行列A∈R((H^’・W^’)×(H^’・W^’))を外積として計算し、行ごとのL2正規化(L2 normalization)を行った。
Figure 2022002943000012
図2において、Aは216として、Aは218としてそれぞれ示されている。 Semantic Relation Activation Matrix. Figure 2 shows the Semantic Relation Activation Matrix determination block 215, which includes the operations described herein. Tung & Mori [29] showed interesting and distinct activation patterns among image instances of different classes relative to image instances of the same class. However, in image-to-image translation tasks, the correlation of instances usually contains less information than those from the same class (e.g. horse, orange). Our hypothesis is that similarities and dissimilarities may be similarly present in the feature encodings of different semantic pixels, which is also more informative for image-to-image translation tasks. A distillation loss can be introduced to penalize the difference between the teacher and student encoded similarities. We represent this activation matrix by the cross product of the feature encoding F 1 (e.g. 212 and 214) similar to [30, 29]. Here, we define the feature encoding F (i) as the output matrix of the i-th image example in the last layer of the encoder E:
Figure 2022002943000011
where H' and W' denote the feature encoding height and width, and Ct / Cx denote the number of channels, respectively. A batch size of 1 is used. Then, the semantic relation activation matrix A∈R ((H'·W')×(H'·W')) is computed as the cross product and subjected to row-wise L2 normalization.
Figure 2022002943000012
In FIG. 2, A S is shown as 216 and A t is shown as 218.

図3に、意味関係活性化行列の直観を支持する証拠を示した。図3は、意味類似性マッピングの解釈可能性を高めるためのグラフィカル表現300のアレイである。ピクセルは、それらの意味クラスに基づいてグループ化され、一緒に整列される。より明るい色(グレースケールのより明るい色調)は、より高い相関を示す。教師モデルは、同じ意味クラス(対角ブロック行列(diagonal block matrices))内の意味ピクセルに対する類似性と、異なる意味クラス(o-対角ブロック行列(o-diagonal block matrices))にわたる相違性とを示す。これは、教師モデルが生徒モデルよりも明確な意味関係を表示する、本発明者らの仮説と一致する。図3に関して、グラウンドトゥルース分割マスク(ground truth segmentation masks)を提供するCOCOデータセット[18]から5つのウマ及びシマウマ画像をサンプリングし、式7によって全ての対応する教師および生徒の活性化行列Aを生成する。異なる活性化パターンを明確に示すために、同じ意味クラスのピクセル毎に値をグループ化する。教師モデルにおける明確なブロックワイズパターン(blockwise patterns)は、同じ意味クラスのピクセルが、異なるクラスのピクセルと比較して、はるかに類似していることを示す。一方、このパターンは、蒸留なしで学習された生徒モデルではあまり観察できない。この経験的発見は、教師ネットワークから生徒ネットワークに明示的に転送できる特定の関係パターンが存在するという我々の仮説を強く支持する。第2に、活性化行列Aは、特徴Fにおけるチャンネルの数とは無関係であり、これは、異なる特徴空間にFとFとをマッチングするために手作りされた特徴損失を導入することの困難さを回避する。 We provide evidence supporting the intuition of the semantic relation activation matrix in Fig. 3. Fig. 3 is an array of graphical representations 300 to enhance the interpretability of semantic similarity mapping. Pixels are grouped and aligned together based on their semantic classes. Brighter colors (lighter shades of grayscale) indicate higher correlation. The teacher model shows similarity for semantic pixels within the same semantic class (diagonal block matrices) and dissimilarity across different semantic classes (o-diagonal block matrices). This is consistent with our hypothesis that the teacher model displays clearer semantic relations than the student model. With reference to Fig. 3, we sample five horse and zebra images from the COCO dataset [18], which provides ground truth segmentation masks, and generate all corresponding teacher and student activation matrices A by Equation 7. To clearly show the different activation patterns, we group values for pixels of the same semantic class. Clear blockwise patterns in the teacher model indicate that pixels of the same semantic class are much more similar compared to pixels of different classes. On the other hand, this pattern is less observable in the student model trained without distillation. This empirical finding strongly supports our hypothesis that there exist certain relationship patterns that can be explicitly transferred from the teacher network to the student network. Second, the activation matrix A is independent of the number of channels in the features F, which avoids the difficulty of introducing handcrafted feature losses to match Ft and Fs in different feature spaces.

意味維持蒸留損失LSP(図2の線220)を2つの活性化行列の間のL1損失と定義する:

Figure 2022002943000013
We define the semantic preserving distillation loss L SP (line 220 in FIG. 2 ) as the L1 loss between two activation matrices:
Figure 2022002943000013

予備的な実験では、2つの行列のマッチングを実施する際のL2損失も試みたが、有意な改善は観察されなかった。その時、私たちの完全な目標は、

Figure 2022002943000014
ここで、AとBとは、各方向の生成器をそれぞれ示し、γとγとαは、ハイパーパラメータである。
4.実験
4.1 異なる画像から画像への変換データセット In preliminary experiments, we also tried the L2 loss when matching two matrices, but did not observe any significant improvement. At that time, our complete goal was
Figure 2022002943000014
Here, A and B denote the generators for each direction, respectively, and γ 1 , γ 2 , and α are hyperparameters.
4. Experiments 4.1 Different image-to-image translation datasets

セットアップ。GAN圧縮に対するこの方法の有効性を説明するために、ウマ⇔シマウマ、夏⇔冬、リンゴ⇔オレンジ、トラ⇔ヒョウ及び街の景観のラベル⇔写真を含む5つのベンチマーク画像から画像への変換データセットで定性的および定量的に評価した。 Setup. To illustrate the effectiveness of our method for GAN compression, we qualitatively and quantitatively evaluate it on five benchmark image-to-image translation datasets, including labeled photos of horses⇔zebras, summer⇔winter, apples⇔oranges, tigers⇔leopards, and cityscapes.

公式のPyTorch実装からのCycleGAN実装およびセットアップに従い、公平な比較を行った。(CycleGAN公式のPyTorch実装は、URL:github.com/junyanz/PyTorch-CycleGAN-and-pix2pixから入手可能である)。具体的には、教師生成器が、1つの7×7ストライド-1畳み込みレイヤ(one 7x7 stride-1 convolutional layer)と、2つの3×3ストライド-2畳み込みレイヤ(two 3x3 stride-2 convolutional layers)と、6つ又は9つの残差ブロックと、2つの3×3ストライド-2転置畳み込みレイヤ(two 3x3 stride-2 transposed convolutional layers)と、1つの最終的な7×7ストライド-1畳み込みレイヤ(one final 7x7 stride-1 convolutional layer)とを順次積層する。生徒生成器は教師生成器と同じアーキテクチャを有するが、訓練されたデータセットに応じて、各レイヤに対して2倍又は4倍狭い。 We followed the CycleGAN implementation and setup from the official PyTorch implementation to perform a fair comparison. (The official PyTorch implementation of CycleGAN is available at the URL: github.com/junyanz/PyTorch-CycleGAN-and-pix2pix.) Specifically, the supervised generator sequentially stacks one 7x7 stride-1 convolutional layer, two 3x3 stride-2 convolutional layers, six or nine residual blocks, two 3x3 stride-2 transposed convolutional layers, and one final 7x7 stride-1 convolutional layer. The student generator has the same architecture as the teacher generator, but is 2x or 4x narrower for each layer, depending on the dataset it was trained on.

教師生成器と生徒生成器は、ダウンサンプリング部とアップサンプリング部で同じ構造を共有するので、生成器アーキテクチャを指定するために、第1畳み込みレイヤにおける残差ブロックの数とフィルタの数を使用する。この規則は、モデルの深さと幅の両方を定義する。具体的には我々がResnet9、ngf64及びResnet9、ngf16(4のスケーリングファクタ)を、ウマ⇔シマウマデータセットを除く全てのデータセットに対する我々の主要な教師生徒モデルペアとして使用し、ここで、Resnet9、ngf32(2のスケーリングファクタ)は生徒モデルに使用される。Resnet9内の「9」は上述のように残差ブロックカウントを参照し(6又は9)、パラメータngfNNは生成器の第1の層内のフィルタの数NNの設定を参照することが理解されよう。スケーリングと性能との間にバランスがあることが理解される。実験は教師モデルからスケールダウンし、(例えば生徒と教師との間の比較を実行する)生徒のための1又は複数のパフォーマンス尺度を監視し、所望の生徒パフォーマンス尺度を生成するスケーリング因子を選択するために行われ得る。 Since the teacher and student generators share the same structure in the downsampling and upsampling parts, we use the number of residual blocks and the number of filters in the first convolutional layer to specify the generator architecture. This rule defines both the depth and width of the model. Specifically, we use Resnet9, ngf64 and Resnet9, ngf16 (scaling factor of 4) as our primary teacher-student model pairs for all datasets except the Horse <- Zebra dataset, where Resnet9, ngf32 (scaling factor of 2) is used for the student model. It will be appreciated that the "9" in Resnet9 refers to the residual block count as described above (6 or 9), and the parameter ngfNN refers to the setting of the number of filters NN in the first layer of the generator. It will be appreciated that there is a balance between scaling and performance. Experiments can be performed to scale down from the teacher model, monitor one or more performance measures for the student (e.g., perform a comparison between the student and the teacher), and select a scaling factor that produces the desired student performance measure.

街の景観データセットは本質的に、ストリートビュー写真画像とそれらの対応する意味分割ラベルとのペアになったデータセットであるので、本発明者らはまた、Pix2Pix設定において実験を行った。Pix2Pixフレームワークは、知識蒸留を行うための設定に関してCycleGANフレームワークに類似している。我々のPix2Pix実験における教師および生徒生成器は、UNet構造を有する[15]。UNet構造は、モデル(教師と生徒の間)を縮小するための1自由度のみを有し、これは幅である。補足説明も参照のこと。 Since the cityscape dataset is essentially a paired dataset of street view photo images and their corresponding semantic segmentation labels, we also conducted experiments in a Pix2Pix setting. The Pix2Pix framework is similar to the CycleGAN framework in terms of the setting for performing knowledge distillation. The teacher and student generators in our Pix2Pix experiments have a UNet structure [15]. The UNet structure has only one degree of freedom to shrink the model (between teacher and student), which is the width. See also supplementary notes.

本明細書のCycleGAN及びPix2Pixの両方の実施形態では、識別器ネットワークがPatchGAN識別器[15]構造に従う。すべてのデータセット(それぞれの実施形態)について、モデルを訓練し、解像度256x256の画像について評価した。 In both the CycleGAN and Pix2Pix embodiments herein, the classifier network follows the PatchGAN classifier [15] structure. For all datasets (respective embodiments), the models were trained and evaluated on images with a resolution of 256x256.

公的または私的に利用可能なモデルなどの既存の教師モデルを利用することは必要ではないが、所望のタスクのために一般に事前訓練されるので、有利であることが理解されよう。 It will be appreciated that it is not necessary to utilize an existing teacher model, such as a publicly or privately available model, but it can be advantageous since these models are generally pre-trained for the desired task.

定量的評価指標。我々は、ウマ⇔シマウマ、夏⇔冬、リンゴ⇔オレンジ、トラ⇔ヒョウのデータセットにフレシェ・インセプション・ディスタンス(Frechet Inception Distance、FID)[11]を採用する。FIDは、生成された画像と実際の画像からインセプションネットワークによって抽出された特徴マップ間のWasserstein-2距離を計算する。距離尺度として、合成画像と実際の画像との間の相関が高い程、より低いスコアが好ましい。街の景観ラベル⇔写真のデータセット[6]については、Isolaら[15]が用いた評価手法に従い、FCNスコアを用いた。この手法は、予め訓練された意味識別器であるFCN-8sネットワークを使用して、平均ピクセル精度、平均クラス精度、およびユニオン上の平均クラス交差(IoU)を含む、街の景観のベンチマークからの標準分割評価メトリックで合成光をスコア付けする。 Quantitative evaluation metrics. We employ the Frechet Inception Distance (FID) [11] for the Horse⇔Zebra, Summer⇔Winter, Apple⇔Orange, and Tiger⇔Leopard datasets. FID calculates the Wasserstein-2 distance between the feature maps extracted by the Inception network from the generated and real images. As a distance measure, the higher the correlation between the synthetic and real images, the lower the score is preferred. For the Cityscape Labels⇔Photos dataset [6], we followed the evaluation method used by Isola et al. [15] and used the FCN score. The method uses a pre-trained semantic classifier, the FCN-8s network, to score synthetic lights with standard segmentation evaluation metrics from cityscape benchmarks, including mean pixel precision, mean class precision, and mean class intersection over union (IoU).

定量比較。表1に、CycleGANを用いて訓練された4つの不対データセットに対して行った実験を列挙する。本発明者らは、本発明者らの結果を、本発明者らの設計のプルーニング及び異なる設定に関する2つの以前の研究[27,21]と比較する。圧縮比の参照として、計算されたモデルサイズ、パラメータの数、メモリ使用量およびFLOPの数の表を表2に示す。

Figure 2022002943000015
Quantitative Comparison. Table 1 lists the experiments performed on four unpaired datasets trained with CycleGAN. We compare our results with two previous works [27, 21] on pruning and different settings of our design. As a reference for the compression ratio, a table of the calculated model size, number of parameters, memory usage and number of FLOPs is shown in Table 2.
Figure 2022002943000015

表1では、参照/ベースラインのFID値を上の行に示し、一方、本発明の方法のバリエーションの値を下の行に示す。ウマからシマウマ(h→z、z→h)、夏から冬(s→w、w→s)、リンゴからオレンジ(a→o、o→a)、トラからヒョウ(t→l、l→t)のデータセットに関する実験を行った。低い程が良いことを示す。共進化(Co-evolutionary)[27]とThiNet[27]はどちらもプルーニングを適用するが、共進化はCycleGANを圧縮するために特別に設計されており、ThiNetは分類タスクから適応されたプルーニング手法である。共進化およびThiNetとの公平な比較のために、上記で比較されたモデルは、同様のモデルサイズ及び計算要件を有する(表2を参照されたい)。

Figure 2022002943000016
In Table 1, the FID values of the reference/baseline are shown in the top row, while the values of the variations of the method of the present invention are shown in the bottom row. Experiments on the datasets Horse to Zebra (h → z, z → h), Summer to Winter (s → w, w → s), Apple to Orange (a → o, o → a), Tiger to Leopard (t → l, l → t) were performed. Lower indicates better. Both Co-evolutionary [27] and ThiNet [27] apply pruning, but Co-evolution is specifically designed to compress CycleGANs, while ThiNet is a pruning technique adapted from classification tasks. For a fair comparison with Co-evolutionary and ThiNet, the models compared above have similar model sizes and computational requirements (see Table 2).
Figure 2022002943000016

表2において、Tが教師であり、S1,S2がそれぞれ生徒の参照で主要な実験に関するモデルの計算および記憶結果が示されている。著者らのモデルは、共進化およびThiNetと比較して、より小さい/類似したモデルサイズ及び計算で、全てのタスクにおいて優れた性能を達成した。残りのデータセットでは、h zおよびS2でS1を選択する。選択は、教師と生徒のベースライン成績の間のギャップに基づいて行われる。 In Table 2, the computation and memory results of the model for the main experiment are shown, where T is the teacher and S1, S2 are the student references, respectively. Our model achieves superior performance in all tasks with smaller/similar model size and computation compared to Coevolution and ThiNet. For the remaining datasets, we select S1 over h z and S2. The selection is made based on the gap between the baseline performance of the teacher and the students.

CycleGANの手法のバリエーションを、1)サイクルの第1生成器によって生成された偽画像に中間蒸留損失(intermediate distillation loss)を導入し、教師の生成画像と生徒の間のL1ノルム差(L1 norm difference)を計算する。これを中間KDと示す。2)サイクルの2つの部分における損失を維持する意味関係を実験した。「意味維持(SP)」はサイクルの第1生成器に意味蒸留損失(semantic distillation loss)のみを適用する(即ち式(9)のγ = 0)ことを示す。「2方向SP」はサイクル内の両方の生成器に意味蒸留損失を適用したことを示す。また「+」はバニラKDを加えたことを意味する。 We present a variation of the CycleGAN approach: 1) we introduce intermediate distillation loss to the fake images generated by the first generator of the cycle and calculate the L1 norm difference between the teacher's generated images and the student's, which we denote as intermediate KD. 2) We experiment with semantic relation preserving losses in the two parts of the cycle. "Semantic preserving (SP)" indicates that we only apply semantic distillation loss to the first generator of the cycle (i.e., γ2 = 0 in Eq. (9)). "Two-way SP" indicates that we apply semantic distillation loss to both generators in the cycle. Also, "+" means that we add vanilla KD.

比較した全てのモデルはs⇔wデータセット上で同様の性能に達するが、本手法は他のデータセット上の他の手法よりも極めて良好な性能を達成する。両生成器で提案した蒸留損失を加えることにより、バニラ知識蒸留からの性能を大幅に向上させ、いくつかのタスクでオリジナルの教師モデルを上回る性能を得ることができた。我々は、後の議論において視覚的証拠をさらに実証する。しかし、夏から冬タスク(s⇔w)では、パフォーマンスの増加は観察されず、これはベースライン生徒モデルが教師モデルと数値的にほとんど異なることが原因であると考えられる。改善が行われるための限られた空間および知識が存在する。さらに、街の景観データセットで実験を行い、表3にFCNスコアを示す。興味深いことに、本発明者らは提案された手法を適用する際にFCNスコアが劇的に増加することに気付くが、元のモデルと比較して、画像の類似のまたはわずかに良好な品質のみが観察される(補足を参照されたい)。提案した意味維持損失は意味な方法で画素をより認識可能にすることにより、この意味分割データセットに強く反応すると考える。

Figure 2022002943000017
定性的結果 While all the compared models reach similar performance on the s⇔w dataset, our method achieves significantly better performance than other methods on other datasets. By adding the proposed distillation loss in both generators, we are able to significantly improve the performance from vanilla knowledge distillation and outperform the original teacher model in some tasks. We further demonstrate visual evidence in the discussion below. However, in the summer-to-winter task (s⇔w), no increase in performance is observed, which we believe is due to the baseline student model being barely numerically different from the teacher model. There is limited space and knowledge for improvements to be made. Furthermore, we perform experiments on the cityscape dataset and present the FCN scores in Table 3. Interestingly, we notice a dramatic increase in the FCN scores when applying the proposed method, but only a similar or slightly better quality of the images is observed compared to the original model (see Supplementary). We believe that the proposed semantic preserving loss responds strongly to this semantic segmentation dataset by making pixels more recognizable in a semantic way.
Figure 2022002943000017
Qualitative results

このセクションでは、モデル及び参照モデルから生成された画像に関する視覚的観察を提示する。この結果を[27]と比較するために、図4に表示される選択された入力画像上のモデルを用いて画像を生成した。従い図4は、教師モデル、[27]による先行モデル及び本開示による現在のモデルの出力を対比するための画像400のアレイである。上段には、入力されたウマの画像と、各モデルを用いて生成されたシマウマの画像とが表示される。下の行には、入力されたシマウマ画像と、各モデルを使用して生成されたウマの画像が表示される。明らかに、現在のモデル(図4の最も右の列)を使用して生成された画像はより現実的なウマ/シマウマを含み、背景においてアーチファクト(artifacts)を最小に低減する。 In this section, we present visual observations on the images generated from the model and the reference model. To compare the results with [27], we generated images using the model on selected input images shown in Figure 4. Figure 4 is therefore an array of images 400 to contrast the output of the teacher model, the prior model from [27], and the current model according to this disclosure. The top row displays the input horse image and the zebra image generated using each model. The bottom row displays the input zebra image and the horse image generated using each model. Clearly, the images generated using the current model (rightmost column in Figure 4) contain more realistic horses/zebras and minimize artifacts in the background.

先の議論では、表1の数値的証拠を用いて、提案された意味維持損失を追加することによって、生徒モデルが教師を上回る可能性に言及した。教師のペアワイズ意味維持活性化(pairwise semantic preserving activations)からの余分なガイダンス信号は、特定の画像内のより多くのピクセル内関係(intra-pixel relationships)を学習することだけでなく、訓練母集団全体の意味理解も学習することを生徒に促す。更にこの手法は、早い段階でより詳細を捕捉することに向けて、識別器の学習を加速する。両方の効果を組み込むことは、特定の場合には生徒モデルが教師モデルを上回るパフォーマンスを得ることを可能にする。 In the previous discussion, we mentioned the possibility that adding the proposed semantic preserving loss could enable the student model to outperform the teacher, with the numerical evidence in Table 1. The extra guidance signal from the teacher's pairwise semantic preserving activations encourages the student not only to learn more intra-pixel relationships within a given image, but also to learn the semantic understanding of the entire training population. Furthermore, this technique accelerates the learning of the classifier towards capturing more details at an early stage. Incorporating both effects allows the student model to outperform the teacher model in certain cases.

図5は、コントラスト出力のための画像500のアレイである。図5では、提案した手法が例外的に優れた結果を達成する、リンゴ⇔オレンジタスクの2つの重要な例を示す。教師を上回るパフォーマンスでも、明瞭でリアルなテクスチャが本手法を用いて生成される。 Figure 5 shows an array of images 500 for contrast output. In Figure 5, we show two important examples of the apples⇔oranges task where the proposed method achieves exceptionally good results. Clear and realistic textures are generated using our method, even outperforming the teacher.

図6は、コントラスト出力のための画像600のアレイである。図6に示す興味深い例は、CycleGANの一般的な失敗ケースからのものであり、この場合、CycleGANは、転送されるべき複数のオブジェクトを有する。しかし、我々の手法は生成された画像内のより多くのオブジェクトを変換する際に顕著な改善をもたらし、より多くのシマウマがウマとして修正される。提案した手法のもう一つの興味深い発見は、異なるタスクにおいて維持する、著しく良好な細部とテクスチャを観測することである。 Figure 6 is an array of images 600 for contrast output. An interesting example shown in Figure 6 is from a common failure case of CycleGAN, where CycleGAN has multiple objects to be transferred. However, our approach provides a noticeable improvement in converting more objects in the generated image, and more zebras are corrected as horses. Another interesting finding of the proposed approach is the observation of significantly better detail and texture preservation in different tasks.

図7は、コントラスト出力のための拡大部分を含む画像700のアレイである。図7では、入力されたウマの画像から生成されたシマウマの画像まで、より詳細でリアルな目が維持されている。本発明者らはまた、アブレーション研究様式(ablation study manner)で、図8の異なるデータセットからの画像800のアレイにおける例を提供する。複数のデータセットからの例は、ベースラインモデルにおける結果と、本発明者らの手法の変動とを比較する。
4.2 異なるアーキテクチャ
Figure 7 is an array of images 700 with a zoomed in section for contrast output, where more detailed and realistic eyes are maintained from the input horse image to the generated zebra image. We also provide examples in an array of images 800 from different datasets in Figure 8 in an ablation study manner. Examples from multiple datasets compare results in a baseline model with variations in our approach.
4.2 Different Architectures

著者らはまた、著者らの手法が他のタイプのネットワーク構造に拡張可能であることの証拠を示した。ウマからシマウマタスクでは、教師モデルと生徒モデルの両方に対してResnet9 からResnet6 生成器を置き換える。FID評価を表4に示し、ここで、ウマ⇔シマウマデータセット上のResnet6生成器のFID値を示す。本発明者らの方法は依然として他のものよりも最も改善されているが、Resnet9の場合ほど有意ではない。エンコーダからの3つの残差ブロックを削減することはより多くの意味関係を抽出するために教師モデルの表現力を損ない、これは訓練プロセスにおいて転送されるべき知識の量を制限すると推測される。我々はまた、UNet[15]を用いて、ペアのデータについて追加の実験を行った。これは、意味ラベルからストリートビュー写真への街の景観データセットマッピングで行われる。UNet生成器は8個の4×4ストライド-2畳み込みレイヤ(8 4x4 stride-2 convolutional layers)を介して入力を符号化し、8個の4×4ストライド-2転置畳み込みレイヤ(8 4x4 stride-2 transposed convolutional layers)を介して復号化する、エンコーダ-デコーダ構造を生成する。スキップ接続(Skip-connections)は、通常のUNet方式で利用される。

Figure 2022002943000018
Figure 2022002943000019
We also showed evidence that our approach is extendable to other types of network structures. In the horse-to-zebra task, we replace the Resnet9 with the Resnet6 generator for both the teacher and student models. The FID evaluation is shown in Table 4, where we show the FID value of the Resnet6 generator on the horse-to-zebra dataset. Our method still improves the most over the others, but it is not as significant as in the case of Resnet9. We speculate that reducing the three residual blocks from the encoder impairs the expressive power of the teacher model to extract more semantic relations, which limits the amount of knowledge to be transferred in the training process. We also performed additional experiments on paired data using UNet [15], a cityscape dataset mapping from semantic labels to Street View photos. The UNet generator creates an encoder-decoder structure that encodes the input through 8 4x4 stride-2 convolutional layers and decodes it through 8 4x4 stride-2 transposed convolutional layers. Skip-connections are used as in the normal UNet scheme.
Figure 2022002943000018
Figure 2022002943000019

Resnet生成器の場合、64×64の空間解像度を持つボトルネックレイヤ( bottleneck layer)からの教師のエンコード出力は、生徒の訓練を誘導するために蒸留される。UNetのエンコーダはボトルネックレイヤーで1x1の空間解像度に入力をダウンサンプリングするので、所望の空間意味情報はボトルネックレイヤでは欠けている。従って、それぞれ64×64の空間次元と32×32の空間を持つレイヤ2とレイヤ3で意味関係活性化行列を蒸留することを選択した。我々は、Pix2Pix訓練を通して街の景観データセット上の異なるモデルについてのFCNスコア結果が設定される、表5においてFCNスコア結果を示す。UNet256のレイヤ2から抽出された特徴符号化は64×64の空間解像度を有し、レイヤ3からの特徴符号化は、32×32の空間解像度を有する。 For the Resnet generator, the teacher encoding output from the bottleneck layer with a spatial resolution of 64x64 is distilled to guide the student training. Since the UNet encoder downsamples the input to a spatial resolution of 1x1 at the bottleneck layer, the desired spatial-semantic information is lacking at the bottleneck layer. Therefore, we choose to distill the semantic relation activation matrices at layers 2 and 3, which have spatial dimensions of 64x64 and 32x32, respectively. We show the FCN score results in Table 5, where the FCN score results for different models on the cityscape dataset through Pix2Pix training are set. The feature encoding extracted from layer 2 of UNet256 has a spatial resolution of 64x64, and the feature encoding from layer 3 has a spatial resolution of 32x32.

一実施形態では、蒸留に関する最高の平均ピクセル精度がレイヤ3で見出されるが、両方のレイヤーにおける平均クラスIoUについて同様の結果が得られる。詳細なモデル圧縮率および視覚的結果は、補足説明に記載されている。
5.補足説明
5.1 Pix2Pix実験のための知識蒸留目的関数
In one embodiment, the highest mean pixel precision for distillation is found at layer 3, but similar results are obtained for the mean class IoU at both layers. Detailed model compression rates and visual results are provided in the Supplementary Notes.
5. Supplementary explanation 5.1 Knowledge distillation objective function for Pix2Pix experiments

バニラ知識蒸留(Vanilla Knowledge Distillation)。CycleGANフレームワークは、2つの生成器と、タスクに与えられるサイクル一貫性損失とを含む。Pix2Pixフレームワークは、監視された方法でペアリングされたデータを用いて訓練された変換を用いて一方向にのみ変換する。バニラ知識蒸留が分類タスクにどのように適用されるかの類推によって、Pix2Pixフレームワークにおける目的関数は、以下の形式を有する:

Figure 2022002943000020
ここで、LL1はグラウンドトゥルースラベルと生成された画像との間のL1ノルム損失であり、λは、LL1のためのバランス係数(balancing coefficient)であり、αは、正解ラベル(true label)と教師のラベルとの間の重み付けを行うためのハイパーパラメータである。 Vanilla Knowledge Distillation. The CycleGAN framework includes two generators and a cycle consistency loss that is fed into the task. The Pix2Pix framework transforms in only one direction using a transformation trained with paired data in a supervised manner. By analogy with how vanilla knowledge distillation is applied to classification tasks, the objective function in the Pix2Pix framework has the following form:
Figure 2022002943000020
Here, L L1 is the L1 norm loss between the ground truth labels and the generated images, λ is the balancing coefficient for L L1 , and α is a hyperparameter for weighting between the true labels and the teacher labels.

意味維持知識蒸留(Semantic Preserving Knowledge Distillation)。バニラ知識蒸留目標に基づいて構築された、意味維持知識蒸留損失が上記の目標関数に直接追加される:

Figure 2022002943000021
5.2 Pix2Pix実験のモデルサイズと計算結果 Semantic Preserving Knowledge Distillation. Built on the vanilla knowledge distillation objective, the semantic preserving knowledge distillation loss is added directly to the above objective function:
Figure 2022002943000021
5.2 Model size and calculation results of Pix2Pix experiment

計算および記憶統計を用いたPix2Pix実験で使用された、教師および生徒モデルを表6に示す。一実施形態では、選択が教師と生徒のベースライン成績との間のギャップに基づいて行われる。

Figure 2022002943000022
5.3 街の景観に関する定性的結果 The teacher and student models used in the Pix2Pix experiment with computation and storage statistics are shown in Table 6. In one embodiment, the selection is made based on the gap between the teacher and student baseline performance.
Figure 2022002943000022
5.3 Qualitative results regarding cityscape

街の景観データセットについて、それぞれPix2PixとCycleGAN訓練を介して、ペア画像変換実験と非ペア画像変換実験の両方を行った。意味マスクから変換された合成ストリートビュー画像は、FCN-8sにより生成されたインスタンス分割マスクと共に、図9及び図10に表示される。図9は、街の景観データセット上のCycleGAN訓練を通してFCN-8sセグメント化マスクを用いて生成されたストリートビュー画像を示すアブレーション研究からの画像900のアレイである。筆者らの手法(最後の列)によって生成された画像は、生徒の生成された画像と比較して、アーチファクトを著しく低減した。教師はより現実的な画像を生成するが、筆者らは筆者らのモデルが入力マスクに関して画素の意味クラスを保存することを観測した。例えば、右上隅において、教師の生成された画像は、木の指定された領域内の建物のみを含む。図10は、街の景観データセット上でのPix2Pix訓練を通してFCN-8sセグメント化マスクを用いて生成されたストリートビュー画像を示すアブレーション研究からの画像1000のアレイである。生成されたすべてのマスクの中で、モデル(最後の列)は、各意味クラスの明確な境界を有する最も明確な分割マスクを示す。例えば、セグメント化されたマスクの右側では、グリーンベルト(green belt)とサイドウォーク(side walk)の境界で著しい改善が観察される。
5.4 実験の詳細
We conducted both paired and unpaired image transformation experiments on the cityscape dataset via Pix2Pix and CycleGAN training, respectively. The synthetic street view images transformed from the semantic masks are displayed in Figs. 9 and 10 along with the instance segmentation masks generated by FCN-8s. Fig. 9 is an array of images 900 from an ablation study showing street view images generated with FCN-8s segmentation masks through CycleGAN training on the cityscape dataset. The images generated by our approach (last column) significantly reduced artifacts compared to the student generated images. While the teacher generates more realistic images, we observed that our model preserves the semantic class of pixels with respect to the input mask. For example, in the top right corner, the teacher generated image contains only buildings within the specified region of trees. Fig. 10 is an array of images 1000 from an ablation study showing street view images generated with FCN-8s segmentation masks through Pix2Pix training on the cityscape dataset. Among all the generated masks, the model (last column) shows the cleanest segmentation mask with clear boundaries for each semantic class. For example, on the right side of the segmented mask, a significant improvement is observed at the boundary between the green belt and the side walk.
5.4 Experimental details

全てのモデルは、バッチサイズ1の256x256入力画像で訓練され、ディープニューラルネットワークを訓練するための適応学習速度最適化アルゴリズムであるAdam[32]を使用して最適化される。GAN訓練のその他の設定はCycleGAN及びPix2Pixと同じである。 All models are trained on 256x256 input images with a batch size of 1 and optimized using Adam [32], an adaptive learning rate optimization algorithm for training deep neural networks. Other settings for GAN training are the same as CycleGAN and Pix2Pix.

ウマ⇔シマウマ、夏⇔冬、リンゴ⇔オレンジのデータセットは、CycleGAN提供のスクリプトを使用してダウンロードされる。意味類似性行列を描くために使用される分割マスクサンプル画像を有するウマ⇔シマウマは、COCOからダウンロードされる[18]。トラ⇔ヒョウデータセットは、キーワード:トラ⇔ヒョウを用いてImageNet[7]から得られる。街の景観データセットは、公式ウェブサイト(URL:cityscapes-dataset.com)からダウンロードされる。 The Horse⇔Zebra, Summer⇔Winter, and Apple⇔Orange datasets are downloaded using scripts provided by CycleGAN. The Horse⇔Zebra with segmentation mask sample images used to draw the semantic similarity matrix is downloaded from COCO [18]. The Tiger⇔Leopard dataset is obtained from ImageNet [7] using the keywords: Tiger⇔Leopard. The Cityscapes dataset is downloaded from the official website (URL: cityscapes-dataset.com).

FIDスコアの実装は、その公式実装のPyTorchポートバージョン(URL:github.com/mseitzer/PyTorch-fid)から適応される。FCNスコアの計算は、Pix2Pix公式トーチ実装(URL:github.com/phillipi/pix2pix)で提供される。 The FID score implementation is adapted from the PyTorch port version of the official implementation (URL: github.com/mseitzer/PyTorch-fid). The FCN score calculation is provided in the Pix2Pix official Torch implementation (URL: github.com/phillipi/pix2pix).

バニラ知識蒸留訓練では、全ての実験に対して、λ=10及びα=0:05を設定した。γ(γ1 =γ2)はウマ⇔シマウマで0.9、夏⇔冬で0.5、リンゴ⇔オレンジで0.8、トラ⇔ヒョウで0.2、ペアでない変換実験において街の景観で0.2に設定される。ペア変換実験では、γは1に設定され、λは100に設定される。
6.適用
In vanilla knowledge distillation training, we set λ = 10 and α = 0:05 for all experiments. γ (γ1 = γ2) is set to 0.9 for horse⇔zebra, 0.5 for summer⇔winter, 0.8 for apple⇔orange, 0.2 for tiger⇔leopard, and 0.2 for cityscape in the unpaired transformation experiments. In the paired transformation experiments, γ is set to 1 and λ is set to 100.
6. Application

それぞれの実施形態では、GANベースのモデルがコレクションスタイル転送(collection style transfer)、オブジェクト変換、季節転送(season transfer)、写真強調またはその他の画像処理効果のうちの任意のものを提供するために、画像から画像への変換のための生成器を有する。一例として、メイクアップ、ヘア、爪または他の効果がソース画像に適用され、ソース画像を第1の領域空間(例えば所望の効果がない場合)から所望の効果を有する第2の領域空間に変換する。画像から画像への変換は、適切な訓練などを介して、他の効果をシミュレートすることが可能である。一実施形態では、そのような効果が(ヒト)皮膚および/または毛髪に適用される。一例では、年齢シミュレーション効果が例えば、人の顔の画像に対する年齢効果をシミュレートするために適用される。 In each embodiment, the GAN-based model has a generator for image-to-image transformation to provide any of collection style transfer, object transformation, season transfer, photo enhancement or other image processing effects. As an example, makeup, hair, nails or other effects are applied to a source image to transform the source image from a first domain space (e.g., without the desired effect) to a second domain space with the desired effect. The image-to-image transformation can simulate other effects, such as through appropriate training. In one embodiment, such effects are applied to (human) skin and/or hair. In one example, age simulation effects are applied, for example, to simulate age effects on an image of a human face.

一実施形態では、画像から画像への変換のための生成器を有するモデルが、仮想現実、拡張現実および/または修正現実(modified reality)体験を提供するために、コンピュータ実装方法(例えばアプリケーション)又はコンピューティングデバイス若しくはコンピューティングシステムに組み込まれる。一実施形態ではユーザがカメラ付きのスマートフォン又はタブレット端末等を使用し、自撮り画像(又はビデオ)を撮影することが可能であり、生成器はリアルタイムで、スマートフォン又はタブレット端末による再生または他の提示の所望の効果を適用する。 In one embodiment, the model with the generator for image-to-image transformation is incorporated into a computer-implemented method (e.g., application) or computing device or system to provide a virtual reality, augmented reality, and/or modified reality experience. In one embodiment, a user can take a selfie image (or video) using a camera-equipped smartphone or tablet, and the generator applies the desired effect for playback or other presentation by the smartphone or tablet in real time.

本明細書の教示に従って圧縮される生成器を有するモデルは、一般に利用可能な消費者向けスマートフォン又はタブレット端末(例えばターゲットデバイス)上でロード可能であり、実行可能である。実験は、デバイスハードウェア仕様: Intel(登録商標)Xeon(登録商標)CPU E5-2686v4 @ 2.30GHzを使用して、単一コア及び単一スレッドのみでプロファイルされて、実施された。前述のように、教師モデルは、ベースラインとしてResnet9及びngf64を用いて定義された。新しい生徒モデルは、Resnet9およびngf16で定義された。教師モデルサイズは44MB、生徒は2.8MBであった。教師の推論時間は2.69秒であり、生徒の推論時間は0.43秒であった。より多くの比較結果を表2に示す。 Models with generators compressed according to the teachings herein can be loaded and run on commonly available consumer smartphones or tablet devices (e.g., target devices). Experiments were performed using device hardware specifications: Intel® Xeon® CPU E5-2686v4 @ 2.30GHz, profiled with only a single core and single thread. As mentioned above, the teacher model was defined using Resnet9 and ngf64 as a baseline. The new student model was defined with Resnet9 and ngf16. The teacher model size was 44MB and the student was 2.8MB. The teacher inference time was 2.69 seconds and the student inference time was 0.43 seconds. More comparison results are shown in Table 2.

GANSの使用例は2019年11月14日出願の出願人の米国特許出願第16/683,398号「条件付きサイクル整合生成有害性ネットワーク(ccGans)を使用して画像を変換することによる拡張現実性のためのシステム及び方法」に示され、説明されており、これは参照により本明細書に組み込まれる。 An example of the use of GANS is shown and described in Applicant's U.S. patent application Ser. No. 16/683,398, filed Nov. 14, 2019, entitled "System and Method for Augmented Reality by Transforming Images Using Conditional Cycle-Matched Generative Harm Networks (ccGans)," which is incorporated herein by reference.

一実施形態では、開示された技術および方法が同じタスクのために構成された教師モデルによって決定されたピクセル単位の意味知識を維持する、画像から画像への変換のための生成器を有する生徒モデルを定義する(例えば調整を通して)ための開発者関連の方法およびシステムを含む。生徒モデルは教師モデルの圧縮された形態であり、教師モデルに関連するパラメータ、フットプリント及び推論時間実行を低減する。また、生徒モデル(例えば生成器)が実行時に使用されて、画像から画像への変換のために画像を処理するような、ユーザ関連の方法およびシステムも示されている。 In one embodiment, the disclosed techniques and methods include developer-related methods and systems for defining (e.g., through training) a student model with a generator for image-to-image transformation that maintains pixel-wise semantic knowledge determined by a teacher model configured for the same task. The student model is a compressed form of the teacher model, reducing parameters, footprint, and inference time execution associated with the teacher model. Also shown are user-related methods and systems in which the student model (e.g., generator) is used at runtime to process images for image-to-image transformation.

一実施形態では、開発者(例えば訓練時間に使用される)及びターゲット(推論時間に使用される)コンピューティングデバイス態様に加えて、本明細書で開示される方法態様のいずれかを実行するようにコンピューティングデバイスを構成するために命令が非一時的記憶デバイス(例えばメモリ、CD-ROM、DVD-ROM、ディスク等)に記憶される、コンピュータプログラム製品態様が開示されることを当業者は理解するのであろう。また、電子商取引システムに関連する態様も示され、説明される。ユーザのコンピューティングデバイスは、一実施形態では電子商取引システムに関してクライアントコンピューティングデバイスとして構成され、電子商取引システムは、例えば、そのようなクライアントコンピューティングデバイスのためのコンピュータプログラムを記憶する。したがって、電子商取引システムはその構成要素として、コンピュータプログラム製品を有し、この製品は、クライアントコンピューティングデバイス(例えば処理ユニット)によって実行されると、そのようなクライアントコンピューティングデバイスを構成する命令を記憶する。これらおよび他の態様は明らかであろう。 In addition to developer (e.g., used at training time) and target (e.g., used at inference time) computing device aspects, in one embodiment, computer program product aspects are disclosed in which instructions are stored in a non-transitory storage device (e.g., memory, CD-ROM, DVD-ROM, disk, etc.) to configure a computing device to perform any of the method aspects disclosed herein. Also shown and described are aspects related to an electronic trading system. A user's computing device is configured in one embodiment as a client computing device with respect to the electronic trading system, which stores, for example, computer programs for such client computing devices. Thus, the electronic trading system has as its component a computer program product, which stores instructions that, when executed by a client computing device (e.g., a processing unit), configures such a client computing device. These and other aspects will be apparent.

図11は、コンピュータシステム1100のブロック図である。一実施形態では、コンピュータシステム1100が一実施形態ではサーバ、開発者コンピュータ(PC、ラップトップ等)並びにスマートフォン及びタブレット端末等のモバイルデバイスを含む複数のコンピューティングデバイスを備える。条件付け等によって、生徒生成器1106(生成器G)を有するGANベースの生徒モデル1104を定義および構成するためのハードウェア及びソフトウェアを備えるネットワークモデル訓練環境1102が示されている。生徒モデル1104(及び生徒生成器1106)は、教師生成器1110(生成器G)を有するGANベースの教師モデル1108を介して、知識蒸留技法を使用して調整される。教師モデル(および生徒モデル)は、画像から画像への変換等の画像処理タスクのために構成される。 11 is a block diagram of a computer system 1100. In one embodiment, the computer system 1100 comprises multiple computing devices, which in one embodiment include a server, developer computers (PCs, laptops, etc.) and mobile devices such as smartphones and tablets. A network model training environment 1102 is shown comprising hardware and software for defining and configuring, such as by conditioning, a GAN-based student model 1104 with a student generator 1106 (generator G S ). The student model 1104 (and student generator 1106) are conditioned using knowledge distillation techniques via a GAN-based teacher model 1108 with a teacher generator 1110 (generator G T ). The teacher model (and student model) are configured for image processing tasks such as image-to-image translation.

一実施形態では、条件付けは意味知識維持損失(蒸留損失の形態が教師と生徒の出力(画像)との間の従来の蒸留損失に追加される)を使用して、教師モデル1108のために開発された意味知識を生徒モデル1104に転送する。教師モデル1108の中間レイヤ(例えば生成器G)で開発された意味知識は、意味知識維持損失を使用して中間層に転送される。教師モデル及び生徒モデルは、共通のネットワークアーキテクチャに従って定義される。生徒モデルは、例えばシステム1100のモバイルデバイス1110,1112(1110等)のうちの1つ等のターゲットデバイス上で生成器の使用を可能にするために、サイズ及び/又は処理リソース要件を低減するために、教師モデルに対して下方にスケーリングされる。 In one embodiment, conditioning uses semantic knowledge preserving loss (a form of distillation loss is added to traditional distillation loss between the teacher and student output (images)) to transfer semantic knowledge developed for the teacher model 1108 to the student model 1104. Semantic knowledge developed in an intermediate layer (e.g., generator G T ) of the teacher model 1108 is transferred to the intermediate layer using semantic knowledge preserving loss. The teacher model and the student model are defined according to a common network architecture. The student model is scaled downwards with respect to the teacher model to reduce size and/or processing resource requirements to enable use of the generator on a target device, such as one of the mobile devices 1110, 1112 (e.g., 1110) of the system 1100.

一実施形態では、ネットワークモデル訓練環境1102が画像タスクについて事前訓練された教師モデルを使用する。教師モデル1108は例えば、データサーバ1116に記憶された画像データセット1114を使用することによって事前訓練される。一実施形態では、教師モデル1108が「社内」で開発されたモデルである。一実施形態では、教師モデル1108がオープンソースライセンスを介して等、公的に利用可能である。データセットは、同様に開発され、利用可能であり得る。画像タスク及びネットワークアーキテクチャのタイプ(例えば教師あり)に応じて、訓練が監督され、データセットがそのような訓練に応じて注釈付けされる。他のシナリオでは、訓練は教師なしであり、データはそれに応じて定義される。 In one embodiment, the network model training environment 1102 uses a teacher model that is pre-trained for the image task. The teacher model 1108 is pre-trained, for example, by using an image dataset 1114 stored in a data server 1116. In one embodiment, the teacher model 1108 is a model developed "in-house." In one embodiment, the teacher model 1108 is publicly available, such as via an open source license. The dataset may be similarly developed and available. Depending on the type of image task and network architecture (e.g., supervised), the training is supervised and the dataset is annotated according to such training. In other scenarios, the training is unsupervised and the data is defined accordingly.

一実施形態では、生徒生成器1106が拡張現実(AR)アプリケーション1120を生成するか又はそれに組み込まれる。図示されていないが、一実施形態ではアプリケーションが特定のハードウェア及びソフトウェア、特にオペレーティングシステム構成を有する特定のターゲットデバイスのためのアプリケーション開発者コンピューティングデバイスを使用して開発される。一実施形態では、ARアプリケーション1120が特定のオペレーティングシステム(及び/又はハードウェア)のために定義されたものなど、特定のネイティブ環境における実行のために構成されたネイティブアプリケーションである。一実施形態では、ARアプリケーション1120が例えば、ターゲットデバイスのブラウザ環境で実行するように構成されたブラウザベースのアプリケーションの形態をとる。 In one embodiment, the student generator 1106 generates or incorporates an augmented reality (AR) application 1120. Although not shown, in one embodiment, the application is developed using an application developer computing device for a particular target device having a particular hardware and software, particularly an operating system configuration. In one embodiment, the AR application 1120 is a native application configured for execution in a particular native environment, such as one defined for a particular operating system (and/or hardware). In one embodiment, the AR application 1120 takes the form of, for example, a browser-based application configured to execute in a browser environment of the target device.

一実施形態では、ARアプリケーション1120がモバイルデバイス1110及び1112などのユーザデバイスによって配信(例えばダウンロード)される。ネイティブアプリケーションは多くの場合、アプリケーション配信サーバ1122(例えばサードパーティサービスによって運営される「ストア」)を介して配信されるがこれは必要ではない。 In one embodiment, the AR application 1120 is distributed (e.g., downloaded) by a user device, such as mobile devices 1110 and 1112. Native applications are often distributed via an application distribution server 1122 (e.g., a "store" operated by a third-party service), although this is not required.

一実施形態では、ARアプリケーション1120が拡張現実体験(例えばインターフェースを介して)をユーザに提供するように構成される。例えば、生徒生成部1106による処理により、画像に効果が付与される。モバイルデバイスは画像(例えば自撮り画像であろうとなかろうと、静止画像またはビデオ画像)をキャプチャするためのカメラ(図示せず)を備える。効果は、ビデオがキャプチャされるときにユーザに対する効果をシミュレートするために、リアルタイム方式で画像、例えばビデオ画像に適用される(及びモバイルデバイスのディスプレイデバイス上に表示される)。カメラの位置が変更されると、拡張現実をシミュレートするために、キャプチャされたビデオの画像に応答して効果が適用される。 In one embodiment, the AR application 1120 is configured to provide an augmented reality experience (e.g., via an interface) to the user. For example, effects are applied to images through processing by the student generator 1106. The mobile device includes a camera (not shown) for capturing images (e.g., still or video images, whether selfies or not). Effects are applied to the images (and displayed on a display device of the mobile device) in a real-time manner, e.g., video images, to simulate the effect on the user as the video is captured. As the camera position is changed, effects are applied in response to the captured video images to simulate augmented reality.

一実施形態では、コンピューティングデバイスが無線ネットワーク又はその他、公衆ネットワーク又はその他などを含む1又は複数のネットワーク(例えば1122)を介した通信のために結合される。 In one embodiment, the computing devices are coupled for communication over one or more networks (e.g., 1122), including wireless networks or otherwise, public networks or otherwise, etc.

限定ではなく例として、電子商取引システム1124はウェブベースであり、電子商取引システム1124によって提供される電子商取引サービスの構成要素としてブラウザベースのARアプリケーション1120Aを提供する。電子商取引システム1124は構成されたコンピューティングデバイス及びデータストア1126(例えばデータベースまたは他の構成)を備える。データストア1126は製品、サービス及び関連情報(例えば製品を適用するための技法)に関するデータを記憶する。データストア1126又は他のデータストア(図示せず)は、ユーザが利用可能な製品およびサービスの中から選択するのを支援するために、推奨規則または他の形態の製品および/またはサービス推奨等を記憶する。製品およびサービスは、ユーザの(モバイル)コンピューティングデバイス上に表示されるユーザエクスペリエンスインターフェースを介して提示される。電子商取引システム1124が簡略化され得ることが理解されるのであろう。 By way of example and not limitation, the e-commerce system 1124 is web-based and provides a browser-based AR application 1120A as a component of the e-commerce services provided by the e-commerce system 1124. The e-commerce system 1124 comprises a configured computing device and a data store 1126 (e.g., a database or other configuration). The data store 1126 stores data regarding products, services, and related information (e.g., techniques for applying the products). The data store 1126 or other data stores (not shown) store recommendation rules or other forms of product and/or service recommendations, etc., to assist a user in selecting among available products and services. The products and services are presented via a user experience interface that is displayed on the user's (mobile) computing device. It will be understood that the e-commerce system 1124 may be simplified.

一実施形態では、ブラウザベースのARアプリケーション1120A(又はARアプリケーション1120)が電子商取引システム1124によって提供または促進される製品、技法またはサービスをシミュレートする等の拡張現実カスタマーエクスペリエンスを提供する。ARアプリケーション1120は、本実施形態では電子商取引サービス1124への接続名どを介して電子商取引サービスを提供するようにも構成され得ることが理解されよう。 In one embodiment, the browser-based AR application 1120A (or AR application 1120) provides an augmented reality customer experience, such as simulating a product, technique, or service offered or promoted by the e-commerce system 1124. It will be appreciated that the AR application 1120, in this embodiment, may also be configured to provide e-commerce services, such as via a connection to the e-commerce service 1124.

例として、限定されないが、製品は化粧品(例えばメイクアップ)製品、老化防止または若返り製品を含み、サービスは化粧品、老化防止または若返りサービスを含む。サービスは、治療または他の手順を含む。製品またはサービスは、顔、毛髪または爪等の人体の一部分に関する。一実施形態では、このように構成されたコンピューティングデバイス(モバイルデバイス1112等)が少なくとも1つの顔効果をソース画像に適用し、電子商取引システムによって促進されるコンピューティングデバイスの電子商取引インターフェース上に適用効果ソース画像(例えば表示される)の1又は複数の仮想インスタンスを生成するように構成された処理回路を含む顔効果ユニット1112Aを提供する。一実施形態では、顔効果ユニット112Aが適用効果ソース画像を生成するために、本明細書で説明されるような敵対的生成ネットワーク(GAN)ベースの生徒生成器(G)を利用する。一実施形態では、コンピューティングデバイスがデータストア1126から少なくとも1つの製品またはサービスを決定し、製品またはサービスを購入するための電子商取引インターフェース上の推奨の1又は複数の仮想インスタンスを生成するための処理回路を含むユーザエクスペリエンスユニット112Bを提供する。一実施形態では少なくとも1つの製品がそれぞれの顔面効果に関連付けられ、顔面効果ユニットはそれぞれの顔面効果を適用して、仮想的な試着(try on)体験を提供する。 By way of example, and not limitation, the products include cosmetic (e.g., makeup) products, anti-aging or rejuvenation products, and the services include cosmetic, anti-aging or rejuvenation services. The services include treatments or other procedures. The products or services relate to a part of the human body, such as the face, hair, or nails. In one embodiment, a computing device (such as the mobile device 1112) configured in this manner provides a facial effects unit 1112A including processing circuitry configured to apply at least one facial effect to a source image and generate one or more virtual instances of the applied effect source image (e.g., displayed) on an electronic commerce interface of the computing device facilitated by the electronic commerce system. In one embodiment, the facial effects unit 112A utilizes a generative adversarial network (GAN)-based student generator (G S ) as described herein to generate the applied effect source image. In one embodiment, a user experience unit 112B is provided including processing circuitry for the computing device to determine at least one product or service from the data store 1126 and generate one or more virtual instances of recommendations on the electronic commerce interface for purchasing the product or service. In one embodiment, at least one product is associated with a respective facial effect, and the facial effects unit applies the respective facial effect to provide a virtual try on experience.

一実施形態では、ユーザエクスペリエンスユニット112Bがコンピューティングデバイス1112及び電子商取引システム1124と連携するためのグラフィカルユーザインターフェース(例えばブラウザベースまたはその他)を提示するように構成される。一実施形態では、電子商取引システム1124が、モバイルデバイス(例えば1112)などのクライアントコンピューティングデバイスによる実行のためにARアプリケーションを提供するように構成され、クライアントコンピューティングデバイス(例えば1112)を介してARシミュレーションのための(製品/サービス)推奨を容易にし、購入を容易にするために、クライアントコンピューティングデバイスに電子商取引サービスを提供するように協働的に構成される。 In one embodiment, the user experience unit 112B is configured to present a graphical user interface (e.g., browser-based or otherwise) for interacting with the computing device 1112 and the e-commerce system 1124. In one embodiment, the e-commerce system 1124 is configured to provide AR applications for execution by client computing devices, such as mobile devices (e.g., 1112), and is cooperatively configured to provide e-commerce services to the client computing devices to facilitate (product/service) recommendations and purchases for the AR simulations via the client computing devices (e.g., 1112).

従って、コンピューティングデバイスのいずれか、特にモバイルデバイスは、画像を第1の領域空間から第2の領域空間に変換するためのコンピューティングデバイスを提供する。コンピューティングデバイスは、第1の領域空間から第2の領域空間に画像を変換するように構成された敵対的生成ネットワーク(GAN)ベースの生徒生成器(G)を記憶する記憶ユニットを備え、GANベースの教師生成器(G)に関連して生成器Gが下方にスケーリングされ、また、第1の領域空間から第2の領域空間に画像を変換するように構成される。一実施形態では、生成器Gは、生成器Gに対して決定された意味関係知識を維持するための(例えば条件付けられた)構成を備える。一実施形態において、コンピューティングデバイスは、(例えばARアプリケーション1120を介して)以下のように構成された処理ユニットを備える:画像を受信し、 変換された画像を取得するために、画像を生成器Gに提供し、表示用に変換された画像を提供する。 Thus, any of the computing devices, in particular the mobile device, provides a computing device for transforming an image from a first domain space to a second domain space. The computing device comprises a storage unit for storing a Generative Adversarial Network (GAN)-based student generator (G S ) configured to transform an image from the first domain space to the second domain space, the generator G S being scaled downwards with respect to a GAN-based teacher generator (G T ) also configured to transform an image from the first domain space to the second domain space. In one embodiment, the generator G S comprises a configuration (e.g., conditioned) for maintaining semantic relation knowledge determined for the generator G T. In one embodiment, the computing device comprises a processing unit configured (e.g., via the AR application 1120) to: receive an image; provide the image to the generator G S to obtain a transformed image; and provide the transformed image for display.

生成器Gの構成は、生成器Gに関して決定された意味関係知識を生成器Gに転送するために、生成器Gに関する意味関係知識蒸留損失を使用して調整される。生成器G及び生成器Gは、共通のネットワークアーキテクチャに従って定義される。生成器Gは、生成器Gに対して幅、深さ又は幅と深さの両方に関して下方にスケーリングされる。ここで、幅は各レイヤのフィルタの数を意味し、深さは共通ネットワークアーキテクチャの残差ブロックの数を意味する。 The configuration of the generator G S is adjusted using the semantic relation knowledge distillation loss for the generator G T to transfer the semantic relation knowledge determined for the generator G T to the generator G S. The generator G S and the generator G T are defined according to a common network architecture. The generator G S is scaled downward in width, depth, or both width and depth with respect to the generator G T , where width means the number of filters in each layer and depth means the number of residual blocks of the common network architecture.

一実施形態では、処理ユニットが画像に適用される効果をシミュレートするために、拡張現実インターフェースに変換された画像を提供するように構成される。一実施形態では、効果がメイクアップ効果、ヘア効果、爪効果および画像に適用される年齢シミュレーション効果のいずれかを含む。例えば、画像はデバイスのユーザ等の被験者の適用可能な部分(例えば顔、毛髪、爪または身体部分)を含む。 In one embodiment, the processing unit is configured to provide the converted image to an augmented reality interface to simulate an effect being applied to the image. In one embodiment, the effect includes any of a makeup effect, a hair effect, a nail effect, and an age simulation effect being applied to the image. For example, the image includes an applicable part (e.g., a face, hair, nails, or body part) of a subject, such as a user of a device.

一実施形態では、意味関係知識が生成器Gの中間レイヤから生成器Gの中間レイヤに転送される。 In one embodiment, semantic relation knowledge is transferred from the intermediate layer of generator G T to the intermediate layer of generator G S .

一実施形態において、生成器Gの構成は、以下のように調整される:
a.条件付け中のそれぞれの中間レイヤにおける生成器G及び生成器Gのそれぞれにおいて、意味関係は、生成器G及び生成器Gによって実行されるそれぞれの特徴符号化のピクセルに対するペアワイズ活性化類似性(pairwise activation similarities)を計算することによって定義される類似性行列によって表される。
b.知識は、類似性行列上の意味関係知識蒸留損失を介して転送される。
In one embodiment, the configuration of the generator G is adjusted as follows:
In each of the generators G1S and G2T in each hidden layer during conditioning, the semantic relations are represented by a similarity matrix defined by computing pairwise activation similarities for the pixels of the respective feature encodings performed by the generators G1S and G2T .
b. Knowledge is transferred via semantic relational knowledge distillation loss on the similarity matrix.

一実施形態では、生成器Gの構成が、生成器G及び生成器Gの最終生成画像上の伝統的な蒸留損失に加えて、意味関係知識蒸留損失を追加することによって調整される。それぞれの意味関係活性化行列は、それぞれの特徴符号化の外積として計算され、意味関係知識蒸留損失は、生成器G及び生成器Gのそれぞれの意味関係活性化行列を比較する。一実施形態では、モバイルデバイス1110等のコンピューティングデバイスが、上述のコンピューティングデバイスの態様による方法を実行するように構成される。コンピュータプログラム製品の態様のような他の態様が明らかであろう。 In one embodiment, the configuration of the generator G S is adjusted by adding a semantic relation knowledge distillation loss in addition to the traditional distillation loss on the final generated images of the generator G S and the generator G T. The respective semantic relation activation matrices are calculated as the cross product of the respective feature encodings, and the semantic relation knowledge distillation loss compares the respective semantic relation activation matrices of the generator G S and the generator G T. In one embodiment, a computing device such as the mobile device 1110 is configured to perform the method according to the computing device aspects described above. Other aspects, such as computer program product aspects, will be apparent.

ネットワークモデル訓練環境1102は、GANに基づく生徒生成器を調整することによって構成する方法などの方法を実行するように構成されたコンピューティングデバイスを提供する。ネットワークモデル訓練環境1102のコンピューティングデバイス態様の実施形態、及び、例えば、生徒生成器またはモデルの任意の関連する実施形態は、適切な適応を伴って、訓練方法態様に適用され得ることが理解されよう。図12は、本明細書に従った動作1200のフローチャートを示す。動作は一実施形態では(例えば条件を通して)訓練等の方法を提供する。ステップ1202において、動作は、第1の領域空間から第2の領域空間に画像を変換するために、敵対的生成ネットワーク(GAN)ベースの生徒生成器(G)を調整することを通じて構成され、生成器Gは、第1の領域空間から第2の領域空間に画像を変換するように構成されたGANベースの教師生成器(G)に関連して下方にスケールされ、生成器Gは、生成器Gについて決定された意味関係知識を維持するために知識蒸留を使用して調整される。ステップ1204において、動作は、コンピューティングデバイスが画像を変換するために使用するための生成器Gを提供する。関連する計算されたデバイス及びコンピュータプログラム製品の態様は、他の態様と同様に明らかになるのであろう。
7.結論
The network model training environment 1102 provides a computing device configured to perform a method such as a method of configuring by adjusting a GAN-based student generator. It will be understood that the embodiments of the computing device aspect of the network model training environment 1102 and any related embodiments of, for example, a student generator or model, may be applied to the training method aspect with appropriate adaptations. FIG. 12 shows a flowchart of operations 1200 according to the present specification. The operations provide a method such as training (e.g., through conditioning) in one embodiment. In step 1202, the operations configure through adjusting a generative adversarial network (GAN)-based student generator (G S ) to transform an image from a first domain space to a second domain space, the generator G S is scaled downward relative to a GAN-based teacher generator (G T ) configured to transform an image from the first domain space to the second domain space, and the generator G S is adjusted using knowledge distillation to maintain the semantic relationship knowledge determined for the generator G T . In step 1204, the operations provide a generator G S for use by the computing device to transform an image. Related computing device and computer program product aspects, as well as other aspects, will become apparent.
7. Conclusion

様々な実施形態において、伝統的な知識蒸留に拡張する方法、システム及び技術を介したGANのモデル圧縮が記載される。意味関係知識は、教師モデルから選択された生徒モデルに転送され、この生徒モデルは知識蒸留を使用してモデルサイズ及び計算要件を大幅に低減しながら、ピクセル間の関係を明示的に学習した後、より良好な詳細およびテクスチャを有する画像を生成する。5つの異なるデータセット及び3つの異なるアーキテクチャ(例えば実施形態)に対して行われた実験によって、提案された方法、システム及び技法が、かなり高い品質レベルで画像を生成する能力を有する、以前は無能であった生徒ネットワークをその教師のレベルにもたらすのに役立つことが、定量的および定性的に実証される。更に、知識蒸留に基づく方法、システム及び技法を適用することは、プルーニングの比率を制御し、プルーニングされたモデルを注意深く構造化する負担を解放し、これはまた、モデル選択においてより多くの自由度を提供する。 In various embodiments, model compression of GANs via methods, systems and techniques that extend traditional knowledge distillation is described. Semantic relationship knowledge is transferred from a teacher model to a selected student model, which generates images with better details and textures after explicitly learning the relationships between pixels using knowledge distillation, while significantly reducing model size and computational requirements. Experiments performed on five different datasets and three different architectures (e.g., embodiments) quantitatively and qualitatively demonstrate that the proposed methods, systems and techniques help bring previously incompetent student networks to the level of their teachers, capable of generating images at a significantly higher quality level. Furthermore, applying methods, systems and techniques based on knowledge distillation relieves the burden of controlling the ratio of pruning and carefully structuring the pruned model, which also provides more degrees of freedom in model selection.

実用的な実装は、本明細書に記載される特徴のいずれかまたは全てを含むことができる。これら及び他の態様、特徴、および様々な組合せは、機能を実行するための方法、機器、系、手段、および本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセスおよび技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供することができ、またはステップを記載されたプロセスから排除することができ、他の構成要素を記載されたシステムに追加するか、またはそこから除去することができる。したがって、他の態様は特許請求の範囲の範囲内にある。 A practical implementation may include any or all of the features described herein. These and other aspects, features, and various combinations may be expressed as methods, apparatus, systems, means for performing functions, and other ways of combining the features described herein. Several embodiments have been described. Nevertheless, it will be understood that various modifications may be made without departing from the spirit and scope of the processes and techniques described herein. In addition, other steps may be provided or steps may be eliminated from the described processes, and other components may be added or removed from the described systems. Accordingly, other aspects are within the scope of the claims.

本明細書の説明および特許請求の範囲を通して、単語「含む(comprise)」および「含む(contain)」及びそれらの変形は「含むが、限定されない(including but not limited to)」を意味し、他の構成要素、整数、またはステップを排除することを意図しない。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が使用される場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。 Throughout the description and claims of this specification, the words "comprise" and "contain" and variations thereof mean "including but not limited to" and are not intended to exclude other elements, integers, or steps. Throughout this specification, the singular encompasses the plural unless the context requires otherwise. In particular, when the indefinite article is used, it is to be understood that the specification contemplates the plural as well as the singular, unless the context requires otherwise.

本発明の特定の態様、実施形態、または実施形態に関連して説明される特徴、整数、特性、または群はそれらと互換性がない場合を除き、任意の他の態様、実施形態、または一実施形態に適用可能であると理解されるべきである。本明細書に開示される特徴の全て(任意の添付の特許請求の範囲、要約および図面を含む)および/またはそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約および図面を含む)に開示される特徴の任意の新規な1つまたは任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な1つまたは任意の新規な組み合わせに及ぶ。
参考文献
1. Brock, A., Donahue, J., Simonyan, K.: Large scale GAN training for high fidelity natural image synthesis. In: International Conference on Learning Representations (2019)

2. Chen, G., Choi, W., Yu, X., Han, T., Chandraker, M.: Learning efficient object detection models with knowledge distillation. In: Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (eds.) Advances in Neural Information Processing Systems 30, pp. 742-751. Curran Associates, Inc. (2017), URL: papers.nips.cc/paper/6676-learning-efficient-object-detection-models-with-knowledge-distillation.pdf

3. Chen, Y., Yang, T., Zhang, X., Meng, G., Pan, C., Sun, J.: Detnas: Backbone search for object detection (2019)

4. Chen, Y., Wang, N., Zhang, Z.: Darkrank: Accelerating deep metric learning via cross sample similarities transfer. In: Thirty-Second AAAI Conference on Artificial Intelligence (2018)

5. Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp.8789-8797 (2018)

6. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., Schiele, B.: The cityscapes dataset for semantic urban scene understanding. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 3213-3223 (2016)

7. Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248-255. Ieee (2009)

8. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: Advances in neural information processing systems. pp. 2672-2680 (2014)

9. Han, S., Mao, H., Dally, W.J.: Deep compression: Compressing deep neural network with pruning, trained quantization and human coding. In: Bengio, Y., Le-Cun, Y. (eds.) 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings (2016), URL: arxiv.org/abs/1510.00149

10. He, Y., Lin, J., Liu, Z., Wang, H., Li, L.J., Han, S.: Amc: Automl for model compression and acceleration on mobile devices. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 784-800 (2018)

11. Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans trained by a two time-scale update rule converge to a local nash equilibrium. In: Advances in neural information processing systems. pp. 6626-6637 (2017)

12. Hinton, G., Vinyals, O., Dean, J.: Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531 (2015)

13. Howard, A., Sandler, M., Chu, G., Chen, L.C., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang, R., Vasudevan, V., et al.: Searching for mobilenetv3. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1314-1324 (2019)

14. Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)

15. Isola, P., Zhu, J.Y., Zhou, T., Efros, A.A.: Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 1125-1134 (2017)

16. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems. pp. 1097-1105 (2012)

17. Ledig, C., Theis, L., Huszar, F., Caballero, J., Cunningham, A., Acosta, A., Aitken, A., Tejani, A., Totz, J., Wang, Z., et al.: Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4681-4690 (2017)

18. Lin, T., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Dollar, P., Zitnick, C.L.: Microsoft COCO: common objects in context. In: Fleet, D.J., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) Computer Vision - ECCV 2014 - 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V. Lecture Notes in Computer Science, vol. 8693, pp. 740-755. Springer (2014). URL: doi.org/10.1007/978-3-319-10602-1_48

19. Liu, C., Chen, L.C., Schroff, F., Adam, H., Hua, W., Yuille, A.L., Fei-Fei, L.: Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (June 2019)

20. Liu, Y., Chen, K., Liu, C., Qin, Z., Luo, Z., Wang, J.: Structured knowledge distillation for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2604-2613 (2019)

21. Luo, J.H., Wu, J., Lin, W.: Thinet: A filter level pruning method for deep neural network compression. In: Proceedings of the IEEE international conference on computer vision. pp. 5058-5066 (2017)

22. Park, W., Kim, D., Lu, Y., Cho, M.: Relational knowledge distillation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3967-3976 (2019)

23. Peng, B., Jin, X., Liu, J., Li, D., Wu, Y., Liu, Y., Zhou, S., Zhang, Z.: Correlation congruence for knowledge distillation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 5007-5016 (2019)

24. Redmon, J., Farhadi, A.: Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767 (2018)

25. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.C.: Mobilenetv2: Inverted residuals and linear bottlenecks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4510-4520 (2018)

26. Shaham, T.R., Dekel, T., Michaeli, T.: Singan: Learning a generative model from a single natural image. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 4570-4580 (2019)

27. Shu, H., Wang, Y., Jia, X., Han, K., Chen, H., Xu, C., Tian, Q., Xu, C.: Co-evolutionary compression for unpaired image translation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 3235-3244 (2019)

28. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: International Conference on Learning Representations (2015)

29. Tung, F., Mori, G.: Similarity-preserving knowledge distillation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1365-1374 (2019)

30. Zagoruyko, S., Komodakis, N.: Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. arXiv preprint arXiv:1612.03928 (2016)

31. Zhu, J.Y., Park, T., Isola, P., Efros, A.A.: Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the IEEE international conference on computer vision. pp. 2223-2232 (2017)

32. Diederik P. Kingma and Jimmy Lei Ba. Adam: A method for stochastic optimization. arXiv:1412.6980v9 (2014)
<その他>
<手段>
技術的思想1のコンピューティングデバイスは、画像を第1の領域空間から第2の領域空間に変換するためのものであり、記憶ユニットは、第1の領域空間から第2の領域空間に画像を変換するように構成された敵対的生成ネットワーク(GAN)ベースの生徒生成器(G )を記憶し、その生徒生成器(G )は、GANベースの教師生成器(G )に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成され、前記生成器G は、前記生成器G のために決定された意味関係知識を維持する構成を備え、処理ユニットは、前記画像を受信し、前記画像を生成器G に提供し、変換された画像を取得し、表示するために変換された画像を提供するように構成されるものである。
技術的思想2のコンピューティングデバイスは、技術的思想1記載のコンピューティングデバイスにおいて、前記生成器G の構成は、前記生成器G に関して決定された前記意味関係知識を前記生成器G に転送するために、前記生成器G に関する意味関係知識蒸留損失を使用して条件付けされる。
技術的思想3のコンピューティングデバイスは、技術的思想1又は2に記載のコンピューティングデバイスにおいて、前記生成器G 及び前記生成器G は、共通のネットワークアーキテクチャに従って定義される。
技術的思想4のコンピューティングデバイスは、技術的思想3記載のコンピューティングデバイスにおいて、前記生成器G は、前記生成器G に対して幅、深さ又は幅と深さの両方に関して下方にスケーリングされ、ここで前記幅は各レイヤのフィルタの数を意味し、深さは前記共通ネットワークアーキテクチャの残差ブロックの数を意味する。
技術的思想5のコンピューティングデバイスは、技術的思想1から4のいずれかに記載のコンピューティングデバイスにおいて、前記処理ユニットは、前記画像に適用される効果をシミュレートするために、前記変換された画像を拡張現実インターフェースに提供するように構成される。
技術的思想6のコンピューティングデバイスは、技術的思想5記載のコンピューティングデバイスにおいて、前記効果は、メイクアップ効果、ヘア効果、爪効果および対象の適用可能な部分を含む前記画像に適用される年齢シミュレーション効果のいずれかで構成される。
技術的思想7のコンピューティングデバイスは、技術的思想1から6のいずれかに記載のコンピューティングデバイスにおいて、モバイルデバイスを備えている。
技術的思想8のコンピューティングデバイスは、技術的思想1から7のいずれかに記載のコンピューティングデバイスにおいて、前記意味関係知識は、前記生成器G の中間レイヤから前記生成器G の中間レイヤに転送される。
技術的思想9のコンピューティングデバイスは、技術的思想8記載のコンピューティングデバイスにおいて、a.条件付け中のそれぞれの中間レイヤにおける生成器G 及び生成器G のそれぞれにおいて、意味関係は、前記生成器G 及び前記生成器G によって実行されるそれぞれの特徴符号化のピクセルに対するペアワイズ活性化類似性を計算することによって定義される類似性行列によって表されるb.前記知識は、類似性行列上の意味関係知識蒸留損失を介して転送されることによって前記生成器G が構成される。
技術的思想10のコンピューティングデバイスは、技術的思想9記載のコンピューティングデバイスにおいて、前記生成器G の構成は、前記生成器G 及び前記生成器G の最終生成画像上の伝統的な蒸留損失に加えて、前記意味関係知識蒸留損失を追加することによって調整される。
技術的思想11のコンピューティングデバイスは、技術的思想9又は10に記載のコンピューティングデバイスにおいて、それぞれの意味関係活性化行列は、前記それぞれの特徴符号化の外積として計算され、前記意味関係知識蒸留損失は、前記生成器G 及び前記生成器G の前記それぞれの意味関係活性化行列を比較する。
技術的思想12の方法は、第1の領域空間から第2の領域空間に画像を変換するように構成された敵対的生成ネットワーク(GAN)ベースの生徒生成器(G )の条件付けを通して構成され、その生徒生成器(G )は、GANベースの教師生成器(G )に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成され、前記生成器G は、前記生成器G のために決定された意味関係知識を維持し、前記生成器G を、画像の変換画像を変換するためにコンピューティングデバイスによって使用するための前記生成器G を提供する。
技術的思想13の方法は、技術的思想12記載の方法において、前記生成器G の構成は、前記生成器G に関して決定された前記意味関係知識を前記生成器G に転送するために、前記生成器G に関する意味関係知識蒸留損失を使用して条件付けされる。
技術的思想14の方法は、技術的思想12又は13に記載の方法において、前記生成器G 及び前記生成器G は、共通のネットワークアーキテクチャに従って定義される。
技術的思想15の方法は、技術的思想14記載の方法において、前記生成器G は、前記生成器G に対して幅、深さ又は幅と深さの両方に関して下方にスケーリングされ、ここで前記幅は各レイヤのフィルタの数を意味し、深さは前記共通ネットワークアーキテクチャの残差ブロックの数を意味する。
技術的思想16の方法は、技術的思想12から15のいずれかに記載の方法において、前記コンピューティングデバイスは、前記画像に適用される効果をシミュレートするために、前記変換された画像を拡張現実インターフェースに提供するように構成される。
技術的思想17の方法は、技術的思想16記載の方法において、前記効果は、メイクアップ効果、ヘア効果、爪効果および対象の適用可能な部分を含む前記画像に適用される年齢シミュレーション効果のいずれかで構成される。
技術的思想18の方法は、技術的思想12から17のいずれかに記載の方法において、前記コンピューティングデバイスがモバイルデバイスを含む。
技術的思想19の方法は、技術的思想12から18のいずれかに記載の方法において、前記意味関係知識は、前記生成器G の中間レイヤから前記生成器G の中間レイヤに転送される。
技術的思想20の方法は、技術的思想13を従属する技術的思想19記載の方法において、a.条件付け中のそれぞれの中間レイヤにおける生成器G 及び生成器G のそれぞれにおいて、意味関係は、前記生成器G 及び前記生成器G によって実行されるそれぞれの特徴符号化のピクセルに対するペアワイズ活性化類似性を計算することによって定義される類似性行列によって表されるb.前記知識は、類似性行列上の意味関係知識蒸留損失を介して転送されることによって前記生成器G が構成される。
技術的思想21の方法は、技術的思想20記載の方法において、前記生成器G の構成は、前記生成器G 及び前記生成器G の最終生成画像上の伝統的な蒸留損失に加えて、前記意味関係知識蒸留損失を追加することによって調整される。
技術的思想22の方法は、技術的思想20又は21に記載の方法において、それぞれの意味関係活性化行列は、前記それぞれの特徴符号化の外積として計算され、前記意味関係知識蒸留損失は、前記生成器G 及び前記生成器G の前記それぞれの意味関係活性化行列を比較する。
技術的思想23の方法は、技術的思想12から22のいずれかに記載の方法において、前記生成器G は、前記条件付けの前に、前記第1の領域空間から前記第2の領域空間に画像を変換するように予め訓練される。
技術的思想24の方法は、技術的思想1から23のいずれかに記載の方法において、前記生成器G は、第2の生徒生成器と共に条件付けされ、前記第2の生徒生成器は、前記第2の領域空間から前記第1の領域空間に画像を変換するために第2の教師生成器を使用する前記方法に従って条件付けされる。
技術的思想25のコンピューティングデバイスは、顔効果ユニットは、少なくとも1つの顔効果をソース画像に適用し電子商取引インターフェース上で適用効果ソース画像の1又は複数の仮想インスタンスを生成するように構成された処理回路を含み、前記顔効果ユニットは、画像を第1の領域空間から少なくとも1つの顔効果が適用される第2の領域空間に変換するための敵対的生成ネットワーク(GAN)ベースの生徒生成器(G )を利用し、前記生成器G は、GANベースの教師生成器(G )に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成される。
技術的思想26のコンピューティングデバイスは、技術的思想25記載のコンピューティングデバイスにおいて、前記生成器G は、前記生成器G のために決定された意味関係知識を維持する。
技術的思想27のコンピューティングデバイスは、技術的思想25又は26に記載のコンピューティングデバイスにおいて、ユーザエクスペリエンスユニットは、データストアから少なくとも1つの製品を決定し、製品を購入するための電子商取引インターフェース上の推奨の1又は複数の仮想インスタンスを生成するための処理回路を含み、ここで、前記少なくとも1つの製品はそれぞれの顔面効果に関連付けられ、前記顔面効果ユニットはそれぞれの顔面効果を適用して、経験上の仮想的な試着体験を提供する。
技術的思想28のコンピューティングデバイスは、技術的思想25から27のいずれかに記載のコンピューティングデバイスにおいて、技術的思想1から11のいずれかに記載のコンピューティングデバイスを含む。
技術的思想29のコンピュータプログラム製品は、クライアントコンピューティングデバイスによって実行されるときに、クライアントコンピューティングデバイスを構成する命令を格納する非一時的記憶デバイスを含むものであり、顔効果ユニットは、少なくとも1つの顔効果をソース画像に適用し電子商取引インターフェース上で適用効果ソース画像の1又は複数の仮想インスタンスを生成するように構成された処理回路を含み、前記顔効果ユニットは、画像を第1の領域空間から少なくとも1つの顔効果が適用される第2の領域空間に変換するための敵対的生成ネットワーク(GAN)ベースの生徒生成器(G )を利用し、前記生成器G は、GANベースの教師生成器(G )に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成される。
技術的思想30のコンピュータプログラム製品は、技術的思想29記載のコンピュータプログラム製品において、前記生成器G は、前記生成器G のために決定された意味関係知識を維持する。
技術的思想31のコンピュータプログラム製品は、技術的思想29又は30に記載のコンピュータプログラム製品において、前記命令は、前記クライアントコンピューティングデバイスを、ユーザエクスペリエンスユニットは、データストアから少なくとも1つの製品を決定し、製品を購入するための電子商取引インターフェース上の推奨の1又は複数の仮想インスタンスを生成するための処理回路を含み、ここで、前記少なくとも1つの製品はそれぞれの顔面効果に関連付けられ、前記顔面効果ユニットはそれぞれの顔面効果を適用して、経験上の仮想的な試着体験を提供するように機能させるものである。
技術的思想32のコンピュータプログラム製品は、技術的思想29から31のいずれかに記載のコンピュータプログラム製品において、前記命令は、技術的思想1から11のいずれかに記載のコンピューティングデバイスを備えるように、前記クライアントコンピューティングデバイスを機能させるものである。
技術的思想33のコンピュータプログラム製品は、技術的思想29から32のいずれかに記載のコンピュータプログラム製品において、当該コンピュータプログラム製品が、ユーザデバイスに通信するための電子商取引システムの構成要素である。
It should be understood that features, integers, properties, or groups described in connection with a particular aspect, embodiment, or embodiment of the invention are applicable to any other aspect, embodiment, or embodiment, except where incompatible therewith. All of the features disclosed herein (including any accompanying claims, abstracts, and drawings) and/or all of the steps of any method or process so disclosed may be combined in any combination, except combinations in which at least some of such features and/or steps are mutually exclusive. The invention is not limited to the details of any of the foregoing examples or embodiments. The invention extends to any novel one or any novel combination of features disclosed herein (including any accompanying claims, abstracts, and drawings) or any novel one or any novel combination of steps of any method or process disclosed.
References
1. Brock, A., Donahue, J., Simonyan, K.: Large scale GAN training for high fidelity natural image synthesis. In: International Conference on Learning Representations (2019)

2. Chen, G., Choi, W., Yu, X., Han, T., Chandraker, M.: Learning efficient object detection models with knowledge distillation. In: Guyon, I., Luxburg, UV, Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (eds.) Advances in Neural Information Processing Systems 30, pp. 742-751. Curran Associates, Inc. (2017), URL: papers.nips.cc/paper/6676-learning-efficient-object-detection-models-with-knowledge-distillation.pdf

3. Chen, Y., Yang, T., Zhang, X., Meng, G., Pan, C., Sun, J.: Detnas: Backbone search for object detection (2019).

4. Chen, Y., Wang, N., Zhang, Z.: Darkrank: Accelerating deep metric learning via cross sample similarities transfer. In: Thirty-Second AAAI Conference on Artificial Intelligence (2018).

5. Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp.8789-8797 (2018)

6. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., Schiele, B.: The cityscapes dataset for semantic urban scene understanding. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 3213-3223 (2016)

7. Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248-255. Ieee (2009)

8. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: Advances in neural information processing systems. pp. 2672-2680 (2014)

9. Han, S., Mao, H., Dally, WJ: Deep compression: Compressing deep neural network with pruning, trained quantization and human coding. In: Bengio, Y., Le-Cun, Y. (eds.) 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings (2016), URL: arxiv.org/abs/1510.00149

10. He, Y., Lin, J., Liu, Z., Wang, H., Li, LJ, Han, S.: Amc: Automl for model compression and acceleration on mobile devices. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 784-800 (2018)

11. Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans trained by a two time-scale update rule converge to a local nash equilibrium. In: Advances in neural information processing systems. pp. 6626-6637 (2017)

12. Hinton, G., Vinyals, O., Dean, J.: Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531 (2015)

13. Howard, A., Sandler, M., Chu, G., Chen, L. C., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang, R., Vasudevan, V., et al.: Searching for mobilenetv3. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1314-1324 (2019)

14. Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)

15. Isola, P., Zhu, JY, Zhou, T., Efros, AA: Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 1125-1134 (2017)

16. Krizhevsky, A., Sutskever, I., Hinton, G. E.: Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems. pp. 1097-1105 (2012)

17. Ledig, C., Theis, L., Huszar, F., Caballero, J., Cunningham, A., Acosta, A., Aitken, A., Tejani, A., Totz, J., Wang, Z., et al.: Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4681-4690 (2017)

18. Lin, T., Maire, M., Belongie, SJ, Hays, J., Perona, P., Ramanan, D., Dollar, P., Zitnick, CL: Microsoft COCO: common objects in context. In: Fleet, DJ, Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) Computer Vision - ECCV 2014 - 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V. Lecture Notes in Computer Science, vol. 8693, pp. 740-755. Springer (2014). URL: doi.org/10.1007/978-3-319-10602-1_48

19. Liu, C., Chen, L. C., Schroff, F., Adam, H., Hua, W., Yuille, A. L., Fei-Fei, L.: Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (June 2019)

20. Liu, Y., Chen, K., Liu, C., Qin, Z., Luo, Z., Wang, J.: Structured knowledge distillation for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2604-2613 (2019)

21. Luo, J.H., Wu, J., Lin, W.: Thinet: A filter level pruning method for deep neural network compression. In: Proceedings of the IEEE international conference on computer vision. pp. 5058-5066 (2017)

22. Park, W., Kim, D., Lu, Y., Cho, M.: Relational knowledge distillation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3967-3976 (2019)

23. Peng, B., Jin, X., Liu, J., Li, D., Wu, Y., Liu, Y., Zhou, S., Zhang, Z.: Correlation congruence for knowledge distillation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 5007-5016 (2019)

24. Redmon, J., Farhadi, A.: Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767 (2018)

25. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L. C.: Mobilenetv2: Inverted residuals and linear bottlenecks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4510-4520 (2018)

26. Shaham, T. R., Dekel, T., Michaeli, T.: Singan: Learning a generative model from a single natural image. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 4570-4580 (2019)

27. Shu, H., Wang, Y., Jia, X., Han, K., Chen, H., Xu, C., Tian, Q., Xu, C.: Co-evolutionary compression for unpaired image translation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 3235-3244 (2019)

28. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: International Conference on Learning Representations (2015).

29. Tung, F., Mori, G.: Similarity-preserving knowledge distillation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1365-1374 (2019)

30. Zagoruyko, S., Komodakis, N.: Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. arXiv preprint arXiv:1612.03928 (2016)

31. Zhu, JY, Park, T., Isola, P., Efros, AA: Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the IEEE international conference on computer vision. pp. 2223-2232 (2017)

32. Diederik P. Kingma and Jimmy Lei Ba. Adam: A method for stochastic optimization. arXiv:1412.6980v9 (2014)
<Other>
<Means>
A computing device of technical idea 1 is for transforming an image from a first domain space to a second domain space, a storage unit stores a generative adversarial network (GAN)-based student generator (G S ) configured to transform an image from a first domain space to a second domain space, the student generator (G S ) is configured to be scaled downward relative to a GAN-based teacher generator (G T ) and is configured to transform an image from the first domain space to the second domain space, the generator G S has a configuration for maintaining semantic relationship knowledge determined for the generator G T , and a processing unit is configured to receive the image, provide the image to the generator G S , obtain a transformed image, and provide the transformed image for display.
A computing device of technical idea 2 is a computing device according to technical idea 1, in which the configuration of the generator G S is conditioned using a semantic relationship knowledge distillation loss for the generator G T in order to transfer the semantic relationship knowledge determined for the generator G T to the generator G S.
The computing device of technical concept 3 is the computing device according to technical concept 1 or 2, wherein the generator G 1 S and the generator G 1 T are defined according to a common network architecture.
A computing device of technical idea 4 is a computing device according to technical idea 3, in which the generator G S is scaled downward in terms of width, depth or both width and depth relative to the generator G T , where the width refers to the number of filters in each layer and the depth refers to the number of residual blocks of the common network architecture.
A computing device of technical idea 5 is a computing device described in any one of technical ideas 1 to 4, wherein the processing unit is configured to provide the transformed image to an augmented reality interface to simulate an effect applied to the image.
The computing device of technical idea 6 is a computing device according to technical idea 5, wherein the effect is any one of a makeup effect, a hair effect, a nail effect, and an age simulation effect applied to the image including applicable parts of a subject.
A computing device according to a seventh technical concept is a computing device according to any one of the first to sixth technical concepts, which comprises a mobile device.
A computing device of technical idea 8 is a computing device according to any one of technical ideas 1 to 7, in which the semantic relation knowledge is transferred from an intermediate layer of the generator G 1 T to an intermediate layer of the generator G 1 S.
The computing device of technical idea 9 is the computing device according to technical idea 8, wherein: a. in each of the generators G S and G T in each intermediate layer during conditioning , semantic relations are represented by a similarity matrix defined by calculating pairwise activation similarities for pixels of the feature coding performed by the generators G S and G T , respectively; and b. the knowledge is transferred via a semantic relation knowledge distillation loss on the similarity matrix to construct the generator G S.
The computing device of technical idea 10 is a computing device according to technical idea 9, in which the configuration of the generator G S is adjusted by adding the semantic relation knowledge distillation loss in addition to the traditional distillation loss on the final generated images of the generator G S and the generator G T.
The computing device of technical idea 11 is a computing device according to technical idea 9 or 10, in which each semantic relation activation matrix is calculated as a cross product of the respective feature encodings, and the semantic relation knowledge distillation loss compares the respective semantic relation activation matrices of the generator G S and the generator G T.
The method of technical idea 12 comprises, through conditioning a generative adversarial network (GAN)-based student generator (G S ) configured to transform an image from a first domain space to a second domain space, the student generator (G S ) configured to be scaled downward relative to a GAN-based teacher generator (G T ) and configured to transform an image from the first domain space to the second domain space, the generator G S maintaining semantic relation knowledge determined for the generator G T , and providing the generator G S for use by a computing device to transform an image of an image .
The method of technical idea 13 is the method of technical idea 12, in which the configuration of the generator G S is conditioned using a semantic relationship knowledge distillation loss for the generator G T to transfer the semantic relationship knowledge determined for the generator G T to the generator G S.
The method of technical idea 14 is the method of technical idea 12 or 13, wherein the generator G 1 S and the generator G 1 T are defined according to a common network architecture.
The method of technical idea 15 is the method of technical idea 14, in which the generator G S is scaled downward in width, depth, or both width and depth relative to the generator G T , where the width refers to the number of filters in each layer and the depth refers to the number of residual blocks of the common network architecture.
A method of technical idea 16 is a method according to any one of technical ideas 12 to 15, wherein the computing device is configured to provide the transformed image to an augmented reality interface to simulate an effect applied to the image.
The method of technical idea 17 is the method of technical idea 16, wherein the effect comprises any one of a makeup effect, a hair effect, a nail effect, and an age simulation effect applied to the image including an applicable part of a subject.
The method of technical idea 18 is the method of any one of technical ideas 12 to 17, wherein the computing device includes a mobile device.
The method of technical idea 19 is the method of any one of technical ideas 12 to 18, wherein the semantic relation knowledge is transferred from an intermediate layer of the generator G_T to an intermediate layer of the generator G_S .
The method of technical idea 20 is the method of technical idea 19 according to technical idea 13, which is dependent thereon, and further includes the steps of: a. in each of the generators G S and G T in each intermediate layer during conditioning, semantic relations are represented by a similarity matrix defined by calculating pairwise activation similarities for pixels of the feature coding performed by the generators G S and G T, respectively; and b. the knowledge is transferred via a semantic relation knowledge distillation loss on the similarity matrix to construct the generator G S.
The method of technical idea 21 is the method described in technical idea 20, in which the configuration of the generator G S is adjusted by adding the semantic relation knowledge distillation loss in addition to the traditional distillation loss on the final generated images of the generator G S and the generator G T.
The method of technical idea 22 is the method of technical idea 20 or 21, in which each semantic relation activation matrix is calculated as a cross product of the respective feature encodings, and the semantic relation knowledge distillation loss compares the respective semantic relation activation matrices of the generator G_S and the generator G_T .
A method of technical idea 23 is a method according to any one of technical ideas 12 to 22, in which the generator G T is pre-trained to transform an image from the first domain space to the second domain space prior to the conditioning.
A method of technical idea 24 is a method according to any one of technical ideas 1 to 23, in which the generator G S is conditioned together with a second student generator, and the second student generator is conditioned according to the method of using a second teacher generator to transform an image from the second domain space to the first domain space.
The computing device of technical idea 25 includes a facial effects unit including processing circuitry configured to apply at least one facial effect to a source image and generate one or more virtual instances of the applied effect source image on an e-commerce interface, the facial effects unit utilizing a generative adversarial network (GAN)-based student generator (G S ) for transforming an image from a first domain space to a second domain space to which the at least one facial effect is applied , the generator G S being configured to be scaled downwards relative to a GAN-based teacher generator (G T ) and configured to transform the image from the first domain space to the second domain space.
The computing device of technical idea 26 is the computing device according to technical idea 25, wherein the generator G S maintains semantic relation knowledge determined for the generator G T .
The computing device of technical idea 27 is a computing device described in technical idea 25 or 26, wherein the user experience unit includes a processing circuit for determining at least one product from a data store and generating one or more virtual instances of recommendations on an e-commerce interface for purchasing the product, wherein the at least one product is associated with a respective facial effect, and the facial effects unit applies the respective facial effects to provide an experiential virtual try-on experience.
The computing device of technical idea 28 is a computing device according to any one of technical ideas 25 to 27, including the computing device according to any one of technical ideas 1 to 11.
A computer program product of technical idea 29 includes a non-transitory storage device storing instructions that, when executed by a client computing device, configure the client computing device, wherein a facial effects unit includes processing circuitry configured to apply at least one facial effect to a source image and generate one or more virtual instances of the applied effect source image on an e-commerce interface, the facial effects unit utilizing a generative adversarial network (GAN)-based student generator (G S ) for transforming an image from a first domain space to a second domain space to which the at least one facial effect is applied, the generator G S being configured to be scaled downwards relative to a GAN-based teacher generator (G T ) and configured to transform the image from the first domain space to the second domain space.
The computer program product of technical idea 30 is the computer program product of technical idea 29, in which the generator G_S maintains semantic relation knowledge determined for the generator G_T .
The computer program product of technical idea 31 is a computer program product according to technical idea 29 or 30, wherein the instructions cause the client computing device to include a user experience unit that includes a processing circuit for determining at least one product from a data store and generating one or more virtual instances of recommendations on an e-commerce interface for purchasing the product, wherein the at least one product is associated with a respective facial effect, and the facial effect unit is operable to apply the respective facial effects to provide an experiential virtual try-on experience.
A computer program product of technical idea 32 is a computer program product described in any one of technical ideas 29 to 31, wherein the instructions cause the client computing device to function as a computing device described in any one of technical ideas 1 to 11.
A computer program product of technical concept 33 is the computer program product according to any one of technical concepts 29 to 32, wherein the computer program product is a component of an electronic commerce system for communicating with a user device.

Claims (19)

画像を第1の領域空間から第2の領域空間に変換するためのコンピューティングデバイスであって、
記憶ユニットは、第1の領域空間から第2の領域空間に画像を変換するように構成された敵対的生成ネットワーク(GAN)ベースの生徒生成器(G)を記憶し、その生徒生成器(G)は、GANベースの教師生成器(G)に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成され、前記生徒生成器Gは、前記教師生成器Gのために決定された意味関係知識を維持する構成を備え、
a.条件付け中のそれぞれの中間レイヤにおける前記生徒生成器G 及び前記教師生成器G のそれぞれにおいて、意味関係は、前記生徒生成器G 及び前記教師生成器G により実行されるそれぞれの特徴符号化のピクセルに対するペアワイズ活性化類似性を計算することで定義される類似性行列で表され、
b.前記意味関係知識が、前記類似性行列上の意味関係知識蒸留損失を介して転送されることにより前記生徒生成器G が構成され、
理ユニットは、前記画像を受信し、前記画像を前記生徒生成器Gに提供し、変換された画像を取得し、表示するために変換された画像を提供するように構成されることを特徴とするコンピューティングデバイス。
1. A computing device for transforming an image from a first domain space to a second domain space, comprising:
The storage unit stores a generative adversarial network (GAN)-based student generator (G S ) configured to transform an image from a first domain space to a second domain space, the student generator (G S ) configured to be scaled downwards relative to a GAN-based teacher generator (G T ) and configured to transform an image from the first domain space to the second domain space, the student generator G S configured to maintain semantic relation knowledge determined for the teacher generator G T ;
a. In each of the student generators G and teacher generators G in each hidden layer during conditioning , semantic relations are represented by a similarity matrix defined by computing pairwise activation similarities for pixels of the respective feature encodings performed by the student generators G and teacher generators G ;
b. The semantic relation knowledge is transferred via a semantic relation knowledge distillation loss on the similarity matrix to construct the student generator G S ;
A computing device, characterized in that the processing unit is configured to receive the image, provide the image to the student generator G S , obtain a transformed image, and provide the transformed image for display.
前記生徒生成器G及び前記教師生成器Gは、共通ネットワークアーキテクチャに従って定義されることを特徴とする請求項1記載のコンピューティングデバイス。 2. The computing device of claim 1 , wherein the student generator G S and the teacher generator G T are defined according to a common network architecture. 前記生徒生成器Gは、前記教師生成器Gに対して幅、深さ又は幅と深さの両方に関して下方にスケーリングされ、前記幅は各レイヤのフィルタの数を意味し、前記深さは前記共通ネットワークアーキテクチャの残差ブロックの数を意味することを特徴とする請求項記載のコンピューティングデバイス。 3. The computing device of claim 2, wherein the student generator G S is scaled downward in width, depth , or both width and depth relative to the teacher generator G T , the width referring to the number of filters in each layer, and the depth referring to the number of residual blocks in the common network architecture. 前記処理ユニットは、前記画像に適用される効果をシミュレートするために、変換された前記画像を拡張現実インターフェースに提供するように構成されることを特徴とする請求項1記載のコンピューティングデバイス。 10. The computing device of claim 1 , wherein the processing unit is configured to provide the transformed image to an augmented reality interface to simulate an effect applied to the image. 前記効果は、メイクアップ効果、ヘア効果、爪効果および対象の適用可能な部分を含む前記画像に適用される年齢シミュレーション効果のいずれかで構成されることを特徴とする請求項記載のコンピューティングデバイス。 5. The computing device of claim 4 , wherein the effects comprise any of make-up effects, hair effects, nail effects and age simulation effects that are applied to the image including applicable parts of a subject. 前記生徒生成器Gの構成は、前記生徒生成器G及び前記教師生成器Gの最終生成画像上の伝統的な蒸留損失に加えて、前記意味関係知識蒸留損失を追加することによって調整されることを特徴とする請求項記載のコンピューティングデバイス。 The computing device of claim 1, wherein the configuration of the student generator G S is adjusted by adding the semantic relation knowledge distillation loss in addition to traditional distillation losses on the final generated images of the student generator G S and the teacher generator G T. それぞれの意味関係活性化行列は、それぞれの前記特徴符号化の外積として計算され、前記意味関係知識蒸留損失は、前記生徒生成器G及び前記教師生成器G のそれぞれの前記意味関係活性化行列を比較することを特徴とする請求項1記載のコンピューティングデバイス。 2. The computing device of claim 1 , wherein each semantic relation activation matrix is computed as a cross product of each of the feature encodings , and the semantic relation knowledge distillation loss compares the semantic relation activation matrices of each of the student generators G and the teacher generators G. 前記意味関係活性化行列は、特徴符号化Fの外積によって表され、The semantic relation activation matrix is represented by the cross product of the feature encoding F,
特徴符号化FFeature coding F (i)(i) を、エンコーダE^の最後のレイヤにおけるi番目の画像例の出力行列として、Let,be the output matrix of the,i,th image example in the last layer of the encoder,E,.
Figure 2022002943000001
Figure 2022002943000001
と定義し、Define it as:
H’及びW’は、特徴符号化高さ及び幅を示し、CH' and W' denote the feature coding height and width, and C t /C/C x はそれぞれチャネルの数を示すものであり、バッチサイズ1が使用され、意味関係活性化行列A∈Rwhere R denotes the number of channels, and a batch size of 1 is used. A is the semantic relation activation matrix A∈R. ((H^’・W^’)×(H^’・W^’))((H^'・W^') x (H^'・W^')) をFの外積として計算し、行ごとのL2正規化は、is calculated as the cross product of F, and the row-wise L2 normalization is
Figure 2022002943000002
Figure 2022002943000002
で行われることを特徴とする請求項7記載のコンピューティングデバイス。8. The computing device of claim 7, wherein the method is performed by:
コンピューティングデバイスであって、
効果ユニットは、少なくとも1つの顔効果をソース画像に適用し電子商取引インターフェース上で適用効果ソース画像の1又は複数の仮想インスタンスを生成するように構成された処理回路を含み、前記顔効果ユニットは、画像を第1の領域空間から少なくとも1つの顔効果が適用される第2の領域空間に変換するための敵対的生成ネットワーク(GAN)ベースの生徒生成器(G)を利用し、前記生徒生成器Gは、GANベースの教師生成器(G)に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成され
生徒生成器Gは、前記教師生成器Gのために決定された意味関係知識を維持し、
a.条件付け中のそれぞれの中間レイヤにおける前記生徒生成器G 及び前記教師生成器G のそれぞれにおいて、意味関係は、前記生徒生成器G 及び前記教師生成器G により実行されるそれぞれの特徴符号化のピクセルに対するペアワイズ活性化類似性を計算することで定義される類似性行列で表され、
b.前記意味関係知識が、前記類似性行列上の意味関係知識蒸留損失を介して転送されることにより前記生徒生成器G が構成されることを特徴とするコンピューティングデバイス。
1. A computing device comprising:
a facial effects unit including a processing circuit configured to apply at least one facial effect to a source image and generate one or more virtual instances of the applied effect source image on an e-commerce interface, the facial effects unit utilizing a generative adversarial network (GAN) based student generator (G S ) for transforming an image from a first domain space to a second domain space to which at least one facial effect is applied, the student generator G S being configured to be scaled downwards relative to a GAN based teacher generator (G T ) and configured to transform an image from the first domain space to the second domain space ;
The student generator G S maintains the semantic relation knowledge determined for the teacher generator G T ;
a. In each of the student generators G and teacher generators G in each hidden layer during conditioning , semantic relations are represented by a similarity matrix defined by computing pairwise activation similarities for pixels of the respective feature encodings performed by the student generators G and teacher generators G ;
b) The computing device, wherein the semantic relation knowledge is transferred via a semantic relation knowledge distillation loss on the similarity matrix to construct the student generator G S.
ユーザエクスペリエンスユニットは、データストアから少なくとも1つの製品を決定し、製品を購入するための電子商取引インターフェース上の推奨の1又は複数の仮想インスタンスを生成するための処理回路を含み、
なくとも1つの前記製品はそれぞれの前記顔面効果に関連付けられ、前記顔面効果ユニットはそれぞれの前記顔面効果を適用して、経験上の仮想的な試着体験を提供することを特徴とする請求項記載のコンピューティングデバイス。
The user experience unit includes a processing circuit for determining at least one product from the data store and generating one or more virtual instances of a recommendation on an e-commerce interface for purchasing the product;
10. The computing device of claim 9, wherein at least one of the products is associated with a respective one of the facial effects, and the facial effects unit applies the respective one of the facial effects to provide an experiential virtual try-on experience.
それぞれの意味関係活性化行列は、それぞれの前記特徴符号化の外積として計算され、前記意味関係知識蒸留損失は、前記生徒生成器G及び前記教師生成器G のそれぞれの前記意味関係活性化行列を比較することを特徴とする請求項9記載のコンピューティングデバイス。 10. The computing device of claim 9 , wherein each semantic relation activation matrix is computed as a cross product of each of the feature encodings , and the semantic relation knowledge distillation loss compares the semantic relation activation matrices of each of the student generators G and the teacher generators G. 前記意味関係活性化行列は、特徴符号化Fの外積によって表され、The semantic relation activation matrix is represented by the cross product of the feature encoding F,
特徴符号化FFeature coding F (i)(i) を、エンコーダE^の最後のレイヤにおけるi番目の画像例の出力行列として、Let,be the output matrix of the,i,th image example in the last layer of the encoder,E,.
Figure 2022002943000003
Figure 2022002943000003
と定義し、Define it as:
H’及びW’は、特徴符号化高さ及び幅を示し、CH' and W' denote the feature coding height and width, and C t /C/C x はそれぞれチャネルの数を示すものであり、バッチサイズ1が使用され、意味関係活性化行列A∈Rwhere R denotes the number of channels, and a batch size of 1 is used. A is the semantic relation activation matrix A∈R. ((H^’・W^’)×(H^’・W^’))((H^'・W^') x (H^'・W^')) をFの外積として計算し、行ごとのL2正規化は、is calculated as the cross product of F, and the row-wise L2 normalization is
Figure 2022002943000004
Figure 2022002943000004
で行われることを特徴とする請求項11記載のコンピューティングデバイス。12. The computing device of claim 11, wherein the method is performed by:
ンピューティングデバイスを構成する命令を格納する非一時的記憶デバイスを含むコンピュータプログラム製品であって、コンピューティングデバイスにより実行されると前記コンピューティングデバイスを、
効果ユニットは、少なくとも1つの顔効果をソース画像に適用し電子商取引インターフェース上で適用効果ソース画像の1又は複数の仮想インスタンスを生成するように構成された処理回路を含み、前記顔効果ユニットは、画像を第1の領域空間から少なくとも1つの前記効果が適用される第2の領域空間に変換するための敵対的生成ネットワーク(GAN)ベースの生徒生成器(G)を利用し、前記生徒生成器Gは、GANベースの教師生成器(G)に関連して下方にスケールされて構成されると共に、前記第1の領域空間から前記第2の領域空間に画像を変換するように構成され
生徒生成器Gは、前記教師生成器Gのために決定された意味関係知識を維持するものであり、
a.条件付け中のそれぞれの中間レイヤにおける前記生徒生成器G 及び前記教師生成器G のそれぞれにおいて、意味関係は、前記生徒生成器G 及び前記教師生成器G により実行されるそれぞれの特徴符号化のピクセルに対するペアワイズ活性化類似性を計算することで定義される類似性行列で表され、
b.前記意味関係知識が、前記類似性行列上の意味関係知識蒸留損失を介して転送されることにより前記生徒生成器G が構成されることを特徴とするコンピュータプログラム製品。
1. A computer program product including a non-transitory storage device storing instructions for configuring a computing device, the instructions being executed by the computing device to:
a facial effects unit including a processing circuit configured to apply at least one facial effect to a source image and generate one or more virtual instances of the applied effect source image on an e-commerce interface, the facial effects unit utilizing a generative adversarial network (GAN) based student generator (G S ) for transforming an image from a first domain space to a second domain space to which the at least one facial effect is applied, the student generator G S being configured to be scaled downwards relative to a GAN based teacher generator (G T ) and configured to transform an image from the first domain space to the second domain space ;
The student generator G S maintains the semantic relation knowledge determined for the teacher generator G T ;
a. In each of the student generators G and teacher generators G in each hidden layer during conditioning , semantic relations are represented by a similarity matrix defined by computing pairwise activation similarities for pixels of the respective feature encodings performed by the student generators G and teacher generators G ;
b) The computer program product, wherein the semantic relation knowledge is transferred via a semantic relation knowledge distillation loss on the similarity matrix to configure the student generator G S.
前記命令は、前記コンピューティングデバイスによって実行されると前記コンピューティングデバイスを
ユーザエクスペリエンスユニットは、データストアから少なくとも1つの製品を決定し、製品を購入するための電子商取引インターフェース上の推奨の1又は複数の仮想インスタンスを生成するための処理回路を含み、
少なくとも1つの前記製品はそれぞれの前記顔面効果に関連付けられ、前記顔面効果ユニットはそれぞれの前記顔面効果を適用して、経験上の仮想的な試着体験を提供するように機能させるように構成するものであることを特徴とする請求項13記載のコンピュータプログラム製品。
The instructions, when executed by the computing device, cause the computing device to :
The user experience unit includes a processing circuit for determining at least one product from the data store and generating one or more virtual instances of a recommendation on an e-commerce interface for purchasing the product;
14. The computer program product of claim 13, wherein at least one of the products is associated with a respective one of the facial effects, and the facial effects unit is configured to apply the respective one of the facial effects to function to provide an experiential virtual try-on experience.
前記コンピューティングデバイスは、消費者ユーザのクライアントコンピューティングデバイスで構成され、前記命令は実行されると、少なくとも1つの前記製品を決定するために電子商取引システムと通信するように前記クライアントコンピューティングデバイスを構成することを特徴とする請求項14記載のコンピュータプログラム製品。15. The computer program product of claim 14, wherein the computing device comprises a client computing device of a consumer user, and the instructions, when executed, configure the client computing device to communicate with an electronic commerce system to determine at least one of the products. 前記生徒生成器GThe student generator G S の構成は、前記教師生成器GThe configuration of the teacher generator G T に関して決定された前記意味関係知識を前記生徒生成器GThe semantic relation knowledge determined with respect to S に転送するために、前記教師生成器GTo transfer to the teacher generator G T に関する意味関係知識蒸留損失を使用して条件付けされることを特徴とする請求項15記載のコンピュータプログラム製品。16. The computer program product of claim 15, wherein the computer program product is conditioned using a semantic relation knowledge distillation loss on 少なくとも1つの前記顔面効果は、前記ソース画像から被験者に適用されるメイクアップ効果または年齢シミュレーション効果であることを特徴とする請求項13記載のコンピュータプログラム製品。14. The computer program product of claim 13, wherein at least one of the facial effects is a make-up effect or an age simulation effect applied to a subject from the source image. それぞれの意味関係活性化行列は、それぞれの前記特徴符号化の外積として計算され、前記意味関係知識蒸留損失は、前記生徒生成器GEach semantic relation activation matrix is calculated as the cross product of each of the feature encodings, and the semantic relation knowledge distillation loss is calculated by the student generator G S 及び前記教師生成器Gand the teacher generator G T のそれぞれの前記意味関係活性化行列を比較することを特徴とする請求項13記載のコンピュータプログラム製品。14. The computer program product of claim 13, further comprising: comparing the semantic relation activation matrices of each of the plurality of semantic relation activation matrices. 前記意味関係活性化行列は、特徴符号化Fの外積によって表され、The semantic relation activation matrix is represented by the cross product of the feature encoding F,
特徴符号化FFeature coding F (i)(i) を、エンコーダE^の最後のレイヤにおけるi番目の画像例の出力行列として、Let,be the output matrix of the,i,th image example in the last layer of the encoder,E,.
Figure 2022002943000005
Figure 2022002943000005
と定義し、Define it as:
H’及びW’は、特徴符号化高さ及び幅を示し、CH' and W' denote the feature coding height and width, and C t /C/C x はそれぞれチャネルの数を示すものであり、バッチサイズ1が使用され、意味関係活性化行列A∈Rwhere R denotes the number of channels, and a batch size of 1 is used. A is the semantic relation activation matrix A∈R. ((H^’・W^’)×(H^’・W^’))((H^'・W^') x (H^'・W^')) をFの外積として計算し、行ごとのL2正規化は、is calculated as the cross product of F, and the row-wise L2 normalization is
Figure 2022002943000006
Figure 2022002943000006
で行われることを特徴とする請求項18記載のコンピュータプログラム製品。20. The computer program product of claim 18, wherein the computer program product is implemented by:
JP2022580295A 2020-06-29 2021-06-29 Semantic Relations Maintaining Knowledge Distillation for Image-to-Image Transformation Pending JP2023531263A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063045291P 2020-06-29 2020-06-29
US63/045,291 2020-06-29
FR2009478 2020-09-18
FR2009478A FR3114423B1 (en) 2020-09-18 2020-09-18 KNOWLEDGE DISSEMINATION WITH PRESERVATION OF SEMANTIC RELATIONSHIPS FOR IMAGE TO IMAGE CONVERSION
PCT/EP2021/067860 WO2022002943A1 (en) 2020-06-29 2021-06-29 Semantic Relation Preserving Knowledge Distillation For Image-To-Image Translation

Publications (2)

Publication Number Publication Date
JP2023531263A JP2023531263A (en) 2023-07-21
JPWO2022002943A5 true JPWO2022002943A5 (en) 2024-06-10

Family

ID=76744844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022580295A Pending JP2023531263A (en) 2020-06-29 2021-06-29 Semantic Relations Maintaining Knowledge Distillation for Image-to-Image Transformation

Country Status (6)

Country Link
US (1) US20220004803A1 (en)
EP (1) EP4150528A1 (en)
JP (1) JP2023531263A (en)
KR (1) KR20230027274A (en)
CN (1) CN116075830A (en)
WO (1) WO2022002943A1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580673B1 (en) * 2019-06-04 2023-02-14 Duke University Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis
JP7283835B2 (en) * 2020-12-17 2023-05-30 之江実験室 Automatic Compression Method and Platform for Pre-trained Language Models Based on Multilevel Knowledge Distillation
CN114783072B (en) * 2022-03-17 2022-12-30 哈尔滨工业大学(威海) Image identification method based on remote domain transfer learning
CN114881861B (en) * 2022-05-25 2024-06-04 厦门大学 Unbalanced image super-division method based on double-sampling texture perception distillation learning
CN117011665A (en) * 2022-11-09 2023-11-07 腾讯科技(深圳)有限公司 Image processing model training method and device, electronic equipment and storage medium
CN116415005B (en) * 2023-06-12 2023-08-18 中南大学 Relationship extraction method for academic network construction of scholars
CN116863279B (en) * 2023-09-01 2023-11-21 南京理工大学 Model distillation method for mobile terminal model light weight based on interpretable guidance

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713704B2 (en) * 2017-08-06 2020-07-14 L'oreal System and method for generating output results based on computed relativity measures using relational memory
US11625595B2 (en) * 2018-08-29 2023-04-11 International Business Machines Corporation Knowledge transfer between recurrent neural networks

Similar Documents

Publication Publication Date Title
Shamsolmoali et al. Image synthesis with adversarial networks: A comprehensive survey and case studies
Cao et al. Recent advances of generative adversarial networks in computer vision
US20220004803A1 (en) Semantic relation preserving knowledge distillation for image-to-image translation
Hou et al. Improving variational autoencoder with deep feature consistent and generative adversarial training
Chen et al. Semi-supervised learning for face sketch synthesis in the wild
WO2022052530A1 (en) Method and apparatus for training face correction model, electronic device, and storage medium
Li et al. Semantic relation preserving knowledge distillation for image-to-image translation
Wang et al. An adversarial neuro-tensorial approach for learning disentangled representations
WO2024109374A1 (en) Training method and apparatus for face swapping model, and device, storage medium and program product
Natarajan et al. Dynamic GAN for high-quality sign language video generation from skeletal poses using generative adversarial networks
Zhu et al. Label-guided generative adversarial network for realistic image synthesis
CN113076918B (en) Video-based facial expression cloning method
CN115526223A (en) Score-based generative modeling in a potential space
Hou et al. Deep generative image priors for semantic face manipulation
Bian et al. Conditional adversarial consistent identity autoencoder for cross-age face synthesis
Ma et al. Two birds with one stone: Transforming and generating facial images with iterative GAN
JPWO2022002943A5 (en)
CN115631285B (en) Face rendering method, device, equipment and storage medium based on unified driving
Chen et al. 3D object completion via class-conditional generative adversarial network
Campana et al. Variable-hyperparameter visual transformer for efficient image inpainting
CN116311472A (en) Micro-expression recognition method and device based on multi-level graph convolution network
Li et al. Generating anime characters and experimental analysis based on DCGAN model
Xu et al. FaceShapeGene: a disentangled shape representation for flexible face image editing
Metri et al. Image generation using generative adversarial networks
Kang et al. Information-theoretic gan compression with variational energy-based model