CN112823379A

CN112823379A - 用于训练机器学习模型的方法和装置、用于视频风格转移的装置

Info

Publication number: CN112823379A
Application number: CN201980066592.8A
Authority: CN
Inventors: 萧人豪
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-10-10
Filing date: 2019-09-05
Publication date: 2021-05-18
Anticipated expiration: 2039-09-05
Also published as: WO2020073758A1; US20210256304A1

Abstract

提供了用于训练机器学习模型的方案和用于视频风格转移的方案。在用于训练机器学习模型的方法中，在机器学习模型的风格化网络处，接收输入图像和噪声图像，该噪声图像是通过将随机噪声添加到输入图像而获得的；在风格化网络处，分别获得输入图像的风格化输入图像和噪声图像的风格化噪声图像；在与风格化网络耦合的损失网络处，根据风格化输入图像、风格化噪声图像以及预定义目标图像，获得输入图像的多种损失；根据对多种损失的分析来训练机器学习模型。

Description

用于训练机器学习模型的方法和装置、用于视频风格转移的装置

相关申请的交叉引用

本申请要求2018年10月10日提交的美国申请号62/743,941的优先权。

技术领域

本申请涉及图像处理，且更具体地，涉及机器学习模型的训练和使用训练后的机器学习模型的视频处理方案。

背景技术

通信设备的发展导致摄像设备和视频设备的普及。通信设备通常采用诸如智能手机或者平板的便携式集成计算设备的形式，且通常配备有通用摄像设备。将摄像设备集成到通信中，使人们比以往任何时候都可更频繁地分享图像和视频。用户经常希望在与他人分享图像和/或视频或将其发布到网站或社交网络之前，对这些图像和/或视频应用一种或多种矫正滤镜或艺术滤镜。例如，现在用户可将特定的绘画风格应用于其智能手机中的任何图像，以获得风格化图像。

当前的视频风格转移产品主要是基于传统的图像风格转移方法。这些产品将基于图像的风格转移技术应用于逐帧的视频。然而，这种基于传统图像风格转移方法的方案不可避免地带来时间上的前后不一致，进而导致严重的闪烁伪像。

同时，基于视频的解决方案试图直接在视频域上实现视频风格转移。例如，鲁德(在作者是Manuel Ruder、Alexey Dosovitskiy和Thomas Brox的标题为“视频的艺术风格转移[2016]”的文献中)提出了一种通过惩罚从输入视频的光流的偏离来获得稳定视频的方法。在该方法中，风格特征跟随原始视频中元素的移动而逐帧保持存在。但是，该方法实时风格转移的计算量太大，每帧要花费几分钟。

发明内容

本文中公开了机器学习模型训练和图像/视频处理，特别是风格转移的实施方式。

根据本申请的第一方面，提供了一种用于训练机器学习模型的方法。该方法的实施方式如下。在机器学习模型的风格化网络处，接收输入图像和噪声图像。该噪声图像是通过将随机噪声添加到输入图像而获得的。在风格化网络处，分别获得输入图像的风格化输入图像和噪声图像的风格化噪声图像。在与风格化网络耦合的损失网络处，根据风格化输入图像、风格化噪声图像以及预定义目标图像，获得输入图像的多种损失。根据对多种损失的分析来训练机器学习模型。

根据本申请的第二方面，提供了一种用于训练机器学习模型的装置。该装置被实施为包括存储器和处理器。存储器被配置为存储训练方案。处理器与存储器耦合且配置为执行训练方案以训练机器学习模型。训练方案配置为：将噪声添加功能应用于输入图像，以通过向输入图像添加随机噪声来获得噪声图像；应用风格化功能，以分别从输入图像和噪声图像获得风格化输入图像和风格化噪声图像；根据风格化输入图像、风格化噪声图像以及预定义目标图像，应用损失计算功能以获得输入图像的多种损失；应用损失计算功能以获得输入图像的总损失，总损失配置为通过机器学习模型进行调整以实现稳定的视频风格转移。

根据本申请的第三方面，提供了一种用于视频风格转移的装置。装置被实施为包括显示设备、存储器和处理器。显示设备配置为显示输入视频和风格化输入视频。该输入视频由多帧输入图像组成。每一帧输入图像包含内容特征。存储器配置为存储预训练的视频风格转移方案。该视频风格转移方案通过对输入视频逐帧执行图像风格转移而将输入视频转换成风格化输入视频。处理器被配置为执行预训练的视频风格转移方案，以将输入视频转换为风格化输入视频。该视频风格转移方案通过以下方式训练：应用风格化功能以分别从输入图像和噪声图像获得风格化输入图像和风格化噪声图像，该输入图像是输入视频的一帧图像，该噪声图像通过将随机噪声添加到输入图像而获得；根据风格化输入图像、风格化噪声图像以及预定义目标图像，应用损失计算功能来获得输入图像的多种损失；应用损失计算功能以获得输入图像的总损失，总损失配置为进行调整以实现稳定的视频风格转移。

附图说明

当结合附图阅读时，根据以下详细描述可更好地理解本申请。要强调的是，根据惯例，附图的各个特征并未按比例绘制。相反，为了清楚起见，各个特征的尺寸被任意地扩大或缩小。

图1是示出图像风格转移的一个应用的示意图。

图2是示出根据本申请的一个实施例的视频风格转移网络的示意图。

图3是示出根据本申请的一个实施例的另一视频风格转移网络的示意图。

图4是示出图3的视频风格转移网络的损失网络的示意图。

图5是示出根据本申请的一个实施例用于训练机器学习模型的方法的流程图。

图6是示出根据本申请的一个实施例基于损失的训练过程的示意图。

图7是示出根据本申请的一个实施例用于训练机器学习模型的装置的示意框图。

图8示出使用终端执行视频风格转移的示例。

图9是示出用于视频风格转移的装置的示意框图。

具体实施方式

在下文中，出于解释的目的，阐述了许多具体细节以便深入地理解本申请。但是，对于本领域技术人员而言可理解的是，本申请可在没有这些具体细节的情况实施。在其他实例中，以框图形式示出的结构和设备，是为了避免使本申请不清楚。说明书中提及的“一个实施例”是指包含在本申请的至少一个实施例中的具体特征、结构或特性，其描述在关联实施例中，且多次提及的“一个实施例”必要时不应被理解为全部指代相同的实施例。

已被广泛用于图像处理任务的一类深度神经网络(DNN)是一种卷积神经网络(CNN)。CNN通过在图像中越来越大规模地侦测特征并使用这些特征检测的非线性组合来识别对象。CNN由以阶层方式处理视觉信息的小型计算单元的层组成，通常例如以“层”的形式表示。给定层的输出由“特征图”(即，输入图像的不同的过滤版本)组成。“特征图”是一种函数，其提取在一个空间中的特征向量，且将该特征向量转换为另一个空间中的特征向量。每一层所包含的关于输入图像的信息通过仅从该层的特征图重建图像就可被直接可视化。网络中的高层捕获关于对象及其在输入图像中的布置的高级“内容”，但是不限制重建的精确像素值。

因为图像的内容的表现和风格的表现可通过使用CNN独立地分离，请参见《艺术风格化的神经网络算法》(Neural Algorithm of Artistic Style)(Gatys、Ecker和Bethge，2015年)，所以还可独立地操纵两种表现以产生新的和有趣的(以及在感知上有意义的)图像。例如，可通过找到与原始图像(即“内容图像”或“输入图像”)的内容表现以及与用作源风格灵感的另一幅图像(即“风格图像”)的风格表现同时匹配的一幅图像来合成新“风格”的图像版本(即“风格化图像或混合图像”)。有效地，这种方法以风格图像的风格合成了内容图像的新版本，使得合成图像的外观在风格上类似于风格图像，但通常显示与内容图像相同的内容。

现在参考图1，示出了根据本申请的一个实施例的图像风格转移的应用的示例。在该示例中，图像10用作内容图像，图像12用作风格图像。从风格图像12提取风格，然后将该风格应用于内容图像10以创建内容图像的风格化版本，即图像14。视频风格转移，其可被理解为一系列的图像风格转移，其中，图像风格转移逐帧应用于视频，且图像10可以是视频的一帧。

可以看出来，风格化图像14在很大程度上保留了与非风格化版本(即，内容图像10)相同的内容。例如，风格化图像14保留内容图像10的主要元素(例如，山和天空)的基本布局、形状和大小。然而，在风格化图像14中可感知到从风格图像12提取的各种元素。例如，将风格图像12的纹理应用于风格化图像14，同时对山的形状进行了轻微修改。应当理解，图1中所示的内容图像10的风格化图像14仅仅是可从风格图像中提取且应用于内容图像的风格表现类型的示例。

现在，提出一种图像风格转移方案，该方案通过基于模型的迭代实现。其中，指定了要应用于内容图像的风格，从而通过将输入图像直接转换为风格化图像来生成风格化图像，该风格化图像基于输入内容图像的内容，且具有特定纹理风格。图2是图像风格转移CNN网络的示意图。如图2所示，图像转换网络被训练以将输入图像转换为输出图像。损失网络被预训练以用于图像分类，从而定义感知损失函数，用于测量在图像之间的内容和风格方面的感知差异。损失网络在训练过程中保持不变。

当使用图2所示的CNN网络进行视频风格转移时，当输入变化非常小的时候，风格的根本变化会导致时序不稳定和突变(popping)。实际上，帧间像素值变化主要是噪声。考虑到这一点，我们引入一种新的损失，称为稳定性损失，以模拟这种闪烁效应(即，由噪声引起)，然后降低该损失。稳定在训练时间完成，从而可实时进行视频的流畅风格转移。

图3示出了所提出的CNN网络的架构。如图3中所示，该CNN***由风格化网络(f_w)和损失网络组成，下面将分别对其进行详细说明。

风格化网络经过训练以将输入图像转换为输出图像。如前文所述，在视频风格转移的情形中，输入图像可被视为要进行转移的视频的一帧图像。利用图3的架构，原始图像(即，输入图像x)和通过手动向输入图像上添加少量噪声而获得的噪声图像(x*)被输入到风格化网络中。基于所接收到的输入图像x和噪声图像x*，风格化网络可生成风格化图像y和y*。此处，风格化图像分别被命名为风格化内容图像y和风格化噪声图像y*。其中，y是x的风格化图像，而y*是y的风格化图像。y和y*之后被输入到损失网络。

风格化网络是由权重W参数化的深度残差卷积神经网络，其通过映射y＝f_w(x)将一个或多个输入图像x转换为一个或多个输出图像y。类似地，风格化网络通过映射y*＝f_w(x*)将噪声图像y转换为输出噪声图像y*。其中f_w()是风格化网络(图4中所示)，且表示在输入图像与输出图像之间的映射。作为一种实施方式，输入图像和输出图像都可以是3*256*256的彩色图片。下文的表格1示出了风格化网络的架构。参考图3和表格1，风格化网络由编码器、瓶颈模块和解码器组成。编码器配置用于一般的图像构建(imageconstruction)。解码器与编码器对称，且进行上采样层以扩大特征图的空间分辨率。在瓶颈模块中使用的一系列操作(投影、卷积、投影)可被视为将一个大卷积层分解成一系列更小且更简单的操作。

表格1

对于每一个输入图像，我们具有内容目标(即，在图3中所示的内容目标y_c)和风格目标(即，在图3中所示的风格目标y_S)。我们为每一种目标类型都训练一个损失网络。

对损失网络进行预训练，以提取不同输入图像的特征，且计算相应的损失，这些相应的损失然后被用于训练风格化网络。具体而言，预训练用于图像分类的损失网络以定义感知损失函数。这些函数测量在图像之间在内容、风格和稳定性方面的感知差异。本文中使用的损失网络可以是视觉几何组网络(VGG)，该网络已经被训练为在对象识别方面非常有效。这里我们使用VGG-16或VGG-19作为尝试从图像提取内容和风格表现的基础。

图4示出损失网络VGG的架构。如图4中所示，VGG由16个卷积和ReLU非线性层组成，且以3个全连接层结束。该16个卷积和ReLU非线性层由5个池化层隔开。卷积神经网络的主要构建模块是卷积层。在卷积层中，将一组特征检测器应用于图像以产生特征图。该特征图本质上是图像的过滤版本。网络的卷积层中的特征图可被视为图像内容的网络内部表示。输入层配置为将图像解析为由像素值表示的多维矩阵。池化也称为子采样或下采样，主要用于降低特征维数，同时提高模型的容错能力。在经过几次卷积、通过ReLU的线性校正和池化之后，模型会将所学习到的高级特征连接到全连接层用于输出。

我们希望在损失网络的较高层处的风格化图像的特征尽可能与原始图像一致(保持原始图像的内容和结构)，而在较低层处的风格化图像的特征尽可能与风格图像保持一致(保留风格图像的颜色和纹理)。以这种方式，通过不断的训练，我们的网络可同时考虑到以上两个要求，从而实现图像风格转移。

为了简单地描述该过程，借助于在图3中所示的所提出的CNN网络，我们首先使输入图像和噪声图像通过VGG网络以计算风格、内容和稳定性损失。然后，我们将该误差(error)发送回去，以使我们能够确定损失函数相对于输入图像的梯度。然后，我们就可在负梯度方向上对输入图像和噪声图像进行较小的更新，这将导致我们的损失函数的值减小(梯度下降)。我们重复此过程，直到损失函数低于所需的阈值。

因此，执行风格转移的任务可被简化为试图生成使损失函数最小化的图像的任务，即，使内容损失、风格损失和稳定性损失最小化。下文中将分别对此进行详细说明。本申请的以下方面有助于实现其优点，且每一个方面都将在下文中详细描述。

训练阶段

本申请的实施例提供了一种用于训练机器学习模型的方法。机器学习模型可以是结合图4的在图3中所示的模型。经过训练的机器学习模型可在测试阶段用于视频风格转移以及图像风格转移。机器学习模型包括风格化网络和耦合到风格化网络的损失网络，如图3所示。如上文所述，损失网络包括用于产生特征图的多个卷积层。

图5是示出训练方法的流程图。如图5所示，该训练可被实施为：在风格化网络处接收(框52)输入图像和噪声图像，该噪声图像是通过将随机噪声添加到输入图像而获得的；在风格化网络处分别获得(框54)输入图像的风格化输入图像和噪声图像的风格化噪声图像；在损失网络处，根据风格化输入图像、风格化噪声图像和预定义目标图像，获得(框56)输入图像的多种损失；以及，根据对多种损失的分析，训练(框58)机器学习模型。例如，输入图像可以是视频的一帧图像。

输入图像(即，内容图像)可被表示为x，而风格化输入图像可被表示为y＝f_w(x)。噪声图像可被表示为x*＝x+随机噪声，且类似于风格化输入图像，风格化噪声图像可被表示为y*＝f_W(x*)。为了更好地理解训练过程，参考图6。图6示出了在训练中可涉及的图像和损失。从图6中可看出，将输入图像和噪声图像输入到VGG网络中，且相应地生成输出图像和风格化噪声图像。获得在输出图像和目标图像之间的内容损失、在输出图像和目标图像之间的风格损失以及在输出图像和风格化噪声图像之间的稳定性损失，以训练VGG网络。

下文将详细描述在损失网络处获得的各种损失。

内容损失(特征重建损失)

如图6所示，特征表现损失表现在风格化输入图像的特征图与预定义目标图像的特征图(图3中的内容目标y_c)之间的特征差异。具体地，特征重建损失可表现为在特征表现之间的(平方的、归一化的)欧几里得距离，且用于指示在输入图像和风格化图像之间的内容和结构的差异。可如下获得特征重建损失：

可看到，我们不鼓励风格化图像(即输出图像)y＝f_w(x)的像素与目标图像y_c的像素完全匹配，而是鼓励它们具有由损失网络φ计算得出的相似特征表现。也就是说，不是计算在输出图像的每一个像素与目标图像的每一个像素之间的差异，而是我们通过预训练的损失网络来计算相似特征中的差异。

φ_j(*)表示在例如VGG-16的损失网络的第j卷积层处输出的特征图。具体地，φ_j(y)表示在损失网络的第j卷积层处的风格化输入图像的特征图；φ_j(y_c)表示在损失网络的第j卷积层处的预定义目标图像的特征图。令φ_j(x)为损失网络(如图4所示)的第j卷积层的激活函数(activations)。其中，φ_j(x)将是形状C_j×H_j×W_j的特征图。其中，j表示第j卷积层；C_j表示输入到第j卷积层的通道的数目；H_j表示第j卷积层的高度；且W_j表示第j卷积层的宽度。期望损失网络的第j层中的原始图像的特征应当与第j层中的风格化图像的特征尽可能一致。

特征重建损失惩罚输出图像与目标图像的内容偏差。我们也想惩罚风格(例如颜色、纹理和模式)方面的偏差。为了实现该效果，引入了风格重建损失。

风格损失(风格重建损失)

可通过计算特征图的格拉姆(Gram)矩阵来完成风格重建的提取。格拉姆矩阵被配置为计算一个通道的一个或多个特征图与另一通道的一个或多个特征图的内积，且每个值都表示互相关程度。具体地，如图6所示，风格重建损失测量在输出图像的风格与目标图像的风格之间的差异，且被计算为在风格化输入图像的特征值的格拉姆矩阵与预定义目标图像的特征图的格拉姆矩阵之间的差异的平方Frobenius范数。

首先，我们使用格拉姆矩阵来为风格图像测量风格层中的哪些特征同时被激活，且然后将该激活模式复制到风格化图像。

令φ_j(x)为用于输入图像x的在损失网络φ的第j层处的激活函数(activations)，其是形状为C_j×H_j×W_j的特征图。损失网络φ的第j层的格拉姆矩阵可被定义为：

其中，c表示在第j层处输出的通道的数目，也就是特征图的数目。因此，格拉姆矩阵是c×c矩阵，且其大小与输入图像的大小无关。

风格重建损失是在输出图像与目标图像的格拉姆矩阵之间的差异的平方Frobenius范数：

是输出图像的格拉姆矩阵，

是目标图像的格拉姆矩阵。

如果特征图是矩阵F，则格拉姆矩阵G中的每一个条目都可由

给出。

与内容表现一样，如果我们有两张图像，例如输出图像y和目标图像y_c，且它们在给定层处的特征图产生了相同的格拉姆矩阵，则我们可预期这两个图像具有相同的风格，但其内容不一定相同。将这一点应用于网络中的早期层将捕获图像内所包含的一些更精细的纹理，而将其应用于更深的层将捕获图像风格中的更多高级元素。

稳定性损失

如前文所述，时序不稳定和帧间像素值变化主要是噪声。在此，我们在训练时间处会施加一定的损失：通过在训练过程中向我们的图像手动添加少量噪声，且最小化在我们的原始图像和噪声图像的风格化版本之间的差异，我们可训练网络以实现更稳定的风格转移。

更具体地，通过将一些随机噪声添加到内容图像x中，可生成噪声图像x*。然后，噪声图像会经过相同的风格化网络，以得到风格化噪声图像y*：

x*＝x+随机噪声

y*＝f_W(x*)

例如，为原始图像x中的每一个像素都添加一个伯努利噪声，该噪声值的范围为(-50，+50)。如图6所示，稳定性损失可被定义为：

L_稳定性＝||y*-y||2

总损失

然后，总损失可被写成内容损失、风格损失和稳定性损失的加权和。所建议的方法的最终训练目标定义为：

L＝αL_特征+βL_风格+γL_稳定性

其中，α、β和γ是加权参数，且在保证稳定的视频风格转移的条件下，可被调整以保存更多的风格或保存更多的内容。随机梯度下降用于最小化损失函数L，以实现稳定的视频风格转移。从另一个角度来看，现在可将执行图像风格转移的任务简化为尝试生成使总损失函数最小化的图像的任务。

应当注意，前述公式示出了内容损失、风格损失和稳定性损失的计算的示例，但是该计算不限于这些示例。根据实际需要或者随着技术的发展，也可使用其他方法。

当将本文中提供的技术应用于视频风格转移时，由于新提出的损失迫使网络生成考虑时序一致性的视频帧，因此所得到的视频将相比传统方法具有更少的闪烁。

例如Ruder的传统方法使用光流来维持时序一致性，为了获得光流信息，该方法具有沉重的计算负荷。相反，我们的方法在训练过程中只引入了较小的计算工作量(即随机噪声)，而在测试过程中则没有额外的计算工作量。

利用上述训练机器学习模型的方法，可训练用于视频风格转移的机器学习模型并将其植入终端中，以在用户的实际使用中实现图像/视频风格转移。

根据本申请的实施例，继续提供一种用于训练机器学习模型的装置，该装置可被采用以实施上述训练方法。

图7是示出装置70的一个框图。所训练的机器学习模型可以是在图3和图4中所示的模型，且可以是用于图像/视频风格转移的视频处理模型。如图7所示，通常，用于训练机器学习模型的装置70包括处理器72和通过总线78与处理器72耦合的存储器74。处理器72可以是图形处理单元(GPU)或中央处理单元(CPU)。存储器74被配置为存储训练方案，即训练算法，其可被实现为计算机可读指令，或者可以应用程序的形式存在于终端上。

训练方案当被处理器72执行时配置为应用训练相关的功能，以实现一系列图像转移和矩阵计算，从而最终实现视频转移。例如，当被处理器执行时，训练方案被配置为：将噪声添加功能应用于输入图像，以通过向输入图像添加随机噪声来获得噪声图像；应用风格化功能，以分别从输入图像和噪声图像获得风格化输入图像和风格化噪声图像；根据风格化输入图像、风格化噪声图像和预定义目标图像，应用损失计算功能获得输入图像的多种损失；应用损失计算功能以获得输入图像的总损失，总损失配置为通过机器学习模型进行调整以实现稳定的视频风格转移。

通过应用噪声添加功能，可基于输入图像x生成噪声图像x*，其中，x*＝x+随机噪声。通过应用风格化功能，可分别从输入图像和噪声图像获得输出图像y和风格化噪声图像y*。其中，y＝f_w(x)，且y*＝f_w(x*)。f_w()是风格化网络(如图4所示)，且表示在输入图像和输出图像之间的映射以及在噪声图像和风格化噪声图像之间的映射。

通过应用损失计算功能，可通过上述公式获得包括前述内容损失、风格损失和稳定性损失在内的多种损失。继续通过进一步应用损失计算功能，可获得被定义为三种损失的加权和的总损失，用于计算总损失的加权参数可被调整以获得最小总损失，从而得到实现稳定的视频风格转移。

作为一种实施方式，如图7所示，装置70还可包括训练数据库76或训练数据集，其包含机器学习模型的训练记录。该训练记录可例如被用于训练机器学习模型的风格化网络。训练记录可包含在输入图像、输出图像、目标图像以及相应的损失等之间的对应关系。

测试阶段

在训练了用于视频风格转移的机器学***板式计算机、通信、娱乐、游戏、媒体播放设备、多媒体设备以及其他类似设备。除了例如图形设计、数字照片图像增强等的图像处理应用以外，这些类型的计算设备还用于许多不同的计算机应用。

图8示出了根据本申请的实施例利用终端实施的视频风格转移的示例。

例如，如图8所示，一旦视频风格转移应用程序启动，终端80就能显示风格转移接口或者界面。用户可通过该接口例如用他或她的手指来选择他或她想要转移的输入视频(例如图8左侧的显示器上显示的视频)和/或所需的风格，以实施视频风格转移。新的风格化视频(例如图8右侧的显示器上显示的视频)然后可通过视频风格转移应用程序获得。该新的风格化视频的风格等于风格图像(即，由用户选择或由终端指定的一种或多种风格)且其内容等于输入视频。

根据视频风格转移算法，例如当用户选择输入视频时，接收输入视频的选择。输入视频由多个图像帧组成，每个图像帧都包含内容特征。类似地，视频风格转移算法可接收包含风格特征的风格图像的选择，或者可确定预先确定的指定类型。然后，视频风格转移算法可通过将图像风格转移逐帧应用于视频来生成输入视频的风格化输入视频；利用图像风格转移，基于输入图像(即输入视频的一帧图像)和风格或风格图像生成输出图像。在训练阶段，通过以下方式对视频风格转移算法进行预训练：应用风格化功能以分别从输入图像和噪声图像获得风格化输入图像和风格化噪声图像，该输入图像是输入视频的一帧图像，该噪声图像通过将随机噪声添加到输入图像而获得；根据风格化输入图像、风格化噪声图像以及预定义目标图像，应用损失计算功能来获得输入图像的多种损失；以及应用损失计算功能以获得输入图像的总损失，总损失被配置为进行调整以实现稳定的视频风格转移。

其中，损失计算功能实施为：计算风格化噪声图像的特征图，计算风格化输入图像的特征图，且计算在风格化噪声图像的特征图与风格化输入图像的特征图之间的平方和归一化的欧几里德距离，作为输入图像的稳定性损失。

其中，损失计算功能还被实施为：计算风格化输入图像的特征图，计算预定义目标图像的特征图，以及计算在风格化输入图像的特征图与预定义目标图像的特征图之间的平方和归一化的欧几里德距离，作为输入图像的特征表现损失。

其中，损失计算功能还被实现为：计算风格化输入图像的特征图的格拉姆矩阵，计算预定义目标图像的特征图的格拉姆矩阵，且计算在风格化输入图像的特征图的格拉姆矩阵和预定义目标图像的特征图的格拉姆矩阵的Frobenius范数，作为输入图像的风格表现损失。

其中，损失计算功能还被实施为：通过计算加权的特征表现损失、风格表现损失和稳定性损失的加权和来计算总损失。

可结合前述详细实施例来理解损失计算的细节，且这些细节将不在此重复。

由于视频是由多帧图像组成的，因此在进行视频风格转移时，输入图像可以是视频的一帧图像。也就是说，风格化网络以一帧作为输入。一旦对视频逐帧进行了图像风格转移，就可完成视频风格转移。

在上文中，已经描述了用于机器学习训练和视频风格转移的技术。然而，在理解本申请的原理更普遍地适用于任何基于图像的媒体的情况下，也可通过本文中提供的该技术来实现图像风格转移。

图9示出了用于视频风格转移的示例装置80，其用于在测试阶段中实施经过训练的机器学习模型。

装置80包括通信设备802。该通信设备802实现***数据的有线和/或无线通信。该***数据例如是在终端内部传输的、从终端传输到另一计算设备和/或在多个计算设备之间同步的输入视频、图像、选择的风格视频或者选择的风格以及所得到的风格化视频、图像以及计算应用程序内容。***数据可包括由在设备上执行的应用程序生成的任何类型的音频、视频、图像和/或图形数据。通信设备802的示例包括但是不限于总线、通信接口等。

装置80还包括输入/输出(I/O)接口804，例如提供在终端、***、网络和其他设备之间的连接和/或通信链路的数据网络接口。I/O接口可用来将***耦合到任何类型的元件、***设备和/或附件设备，例如可与终端或***集成在一起的数码摄像设备。I/O接口还包括数据输入端口。经由该数据输入端口可接收任何类型的数据、媒体内容和/或输入，例如到该装置的用户输入以及从任何内容和/或数据源接收的任何类型的音频、视频和/或图像数据。

装置80还包括处理***806。处理***806可至少部分以硬件实施，例如利用处理可执行指令的任何类型的微处理器、控制器等实施。在一种实施方式中，处理***806是可访问下文中给出的存储器808的GPU/CPU。该处理***可包括集成电路元件、可编程逻辑器件、使用一种或多种半导体形成的逻辑器件以及利用硅和/或硬件的其他实施，例如被实施为片上***(SoC)的处理器和存储***。

装置80还包括可以是计算机可读存储介质808的存储器808，其示例包括但不限于可由计算设备访问的数据存储设备，且该存储器808为例如软件应用程序、模块、程序、功能等的数据和可执行指令提供持久存储。计算机可读存储介质的示例包括易失性介质和非易失性介质、固定和可移动介质设备以及维护数据以供访问的任何合适的存储设备或电子数据存储。该计算机可读存储介质可包括具有各种存储设备配置的随机存取存储器(RAM)、只读存储器(ROM)、闪存和其他类型的存储存储器的各种实施方式。

装置80还包括音频和/或视频***810，其为音频设备812生成音频数据和/或为显示设备814生成显示数据。音频设备和/或显示设备包括处理、显示和/或以其他方式呈现音频、视频、显示和/或图像数据(例如图像的内容特征)的任何设备。例如，显示设备可以是LED显示器和触摸显示器。

在至少一个实施例中，可通过云***816在例如平台818的分布式***中实施用于视频风格转移的技术的至少一部分。显然，云***816可被实施为平台818的一部分。平台818抽象化硬件和/或软件设备的底层功能，且将装置80与其他设备或服务器连接。

例如，在输入设备与I/O接口804耦合的情况下，用户可输入或选择输入视频或输入图像(内容图像)(例如，图1的视频或图像10)，则输入视频将通过通信设备802被传输到显示设备814以被显示。输入设备可以是键盘、鼠标、触摸屏等。可从终端上可访问的任何视频中选择输入视频。该视频例如是已经用摄像设备捕获或记录并存储在终端的存储器808的照片合集中的视频，或者是通过与设备的网络连接或者云连接816可从外部设备或者存储平台818访问的视频。然后，用户选择的风格或默认情况下由终端80指定的风格将被传输到输入视频，以通过调用存储在存储器808中的视频风格转移算法，通过处理***806将输入视频风格化为输出视频。具体而言，接收到的输入视频将被发送到视频***810，以被解析为多个图像帧，每一个图像帧都将通过处理***806进行图像风格转移。实施视频风格转移算法，用于对输入视频逐帧进行图像风格转移。一旦所有图像一帧一帧地经历了图像风格转移，则所获得的风格化图像将由视频***810组合成一个风格化视频，以在显示设备814上呈现给用户。在使用视频风格转移应用程序进行视频风格转移之后，例如在图1中以图像14表示的输出视频将在显示设备814上显示给用户。

作为又一示例，通过与I/O接口804耦合的输入设备，用户可选择要处理的图像。图像可通过通信设备802传送以在显示设备814上显示。然后，处理***806可调用存储在存储器808中的视频风格转移算法，以将输入图像转移成输出图像，然后将输出图像提供给显示设备814以呈现给用户。应当注意，尽管不是每次都提及，但是可通过通信设备802完成终端的内部通信。

利用在本文中提供的新颖的图像/视频风格转移方法，我们可有效地减轻闪烁伪像。另外，所提出的解决方案在训练和测试阶段都在计算方面是高效的，因此可在实时应用中实施。

尽管已经结合某些实施例描述了本申请，但是应当理解，本申请不受限于所公开的实施例。相反，本申请旨在覆盖被包括在所附权利要求的范围内的各种修改和等效布置。所附权利要求的范围应当被赋予最宽泛的解释，以涵盖法律所允许的所有此类修改和等价结构。

Claims

1.一种用于训练机器学习模型的方法，包括：

在所述机器学习模型的风格化网络中，接收输入图像和噪声图像，其中，所述噪声图像通过将随机噪声添加到所述输入图像而获得；

在所述风格化网络处分别获得所述输入图像的风格化输入图像和所述噪声图像的风格化噪声图像；

根据所述风格化输入图像、所述风格化噪声图像和预定义目标图像，在与所述风格化网络耦合的损失网络处获得所述输入图像的多种损失；以及

根据对所述多种损失的分析来训练所述机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述损失网络包括多个卷积层，用于产生特征图。

3.根据权利要求2所述的方法，其特征在于，稳定性损失定义为：

L_稳定性＝||y*-y||2

x*＝x+随机噪声

y*＝f_W(x*)

其中，

x表示所述输入图像；

y表示所述风格化输入图像；

x*表示所述噪声图像；

y*表示所述风格化噪声图像；以及

f_w()表示映射函数。

4.根据权利要求3所述的方法，其特征在于，所述在与所述风格化网络耦合的损失网络处获得多种损失包括：

获得特征表现损失，其中，所述特征表现损失表现在所述风格化输入图像的特征图与所述预定义目标图像的特征图之间的特征差异；

获得风格表现损失，其中，所述风格表现损失表现在所述风格化输入图像的格拉姆矩阵与所述预定义目标图像的格拉姆矩阵之间的风格差异；

获得稳定性损失，其中，所述稳定性损失表现在所述风格化输入图像与所述风格化噪声图像之间的稳定性差异；以及，

根据所述特征表现损失、所述风格表现损失以及所述稳定性损失获得总损失。

5.根据权利要求4所述的方法，其特征在于，所述特征表现损失是在特征表现之间的平方和归一化的欧几里德距离，且被定义为：

其中，

φ_j(y)表示所述风格化输入图像在所述损失网络的第j卷积层处的特征图；

φ_j(y_c)表示所述预定义目标图像在所述损失网络的第j卷积层处的特征图；

j表示所述第j卷积层；

C_j表示输入到所述第j卷积层的通道的数目；

H_j表示所述第j卷积层的高度；以及

W_j表示所述第j卷积层的宽度。

6.根据权利要求5所述的方法，其特征在于，所述风格表现损失是在所述风格化输入图像的特征图的格拉姆矩阵与所述预定义目标图像的特征图的格拉姆矩阵之间的差异的平方Frobenius范数，且被定义为：

其中，

表示所述风格化输入图像的格拉姆矩阵，且

表示所述预定义目标图像的格拉姆矩阵；

7.根据权利要求6所述的方法，其特征在于，所述总损失被定义为：

L＝αL_特征+βL_风格+γL_稳定性

其中，α、β和γ是可调整的加权参数。

8.根据权利要求7所述的方法，其特征在于，所述根据对所述多种损失的分析来训练所述机器学习模型包括：

通过调整所述加权参数以最小化所述总损失来训练所述风格化网络。

9.一种用于训练机器学习模型的装置，包括：

存储器，配置为存储训练方案；

处理器，与所述存储器耦合，且被配置为执行所述训练方案以训练所述机器学习模型，所述训练方案配置为：

将噪声添加功能应用于输入图像，以通过向所述输入图像添加随机噪声来获得噪声图像；

应用风格化功能，以分别从所述输入图像和所述噪声图像获得风格化输入图像和风格化噪声图像；

根据所述风格化输入图像、所述风格化噪声图像以及预定义目标图像，应用损失计算功能以获得所述输入图像的多种损失；以及，

应用所述损失计算功能以获得所述输入图像的总损失，所述总损失配置为通过所述机器学习模型进行调整以实现稳定的视频风格转移。

10.根据权利要求9所述的装置，其特征在于，所述损失计算功能的实施方式为：

计算所述风格化噪声图像的特征图；

计算所述风格化输入图像的特征图；以及

计算在所述风格化噪声图像的特征图与所述风格化输入图像的特征图之间的平方和归一化的欧几里德距离，作为所述输入图像的稳定性损失。

11.根据权利要求10所述的装置，其特征在于，所述损失计算功能的实施方式为：

计算所述预定义目标图像的特征图；以及

计算在所述风格化输入图像的特征图与所述预定义目标图像的特征图之间的平方和归一化的欧几里德距离，作为所述输入图像的特征表现损失。

12.根据权利要求11所述的装置，其特征在于，所述损失计算功能的实施方式为：

计算所述风格化输入图像的特征图的格拉姆矩阵；

计算所述预定义目标图像的特征图的格拉姆矩阵；以及

计算在所述风格化输入图像的特征图的格拉姆矩阵与所述预定义目标图像的特征图的格拉姆矩阵的平方Frobenius范数，作为所述输入图像的风格表现损失。

13.根据权利要求12所述的装置，其特征在于，所述损失计算功能的实施方式为：

通过将加权参数分别应用于所述特征表现损失、所述风格表现损失以及所述稳定性损失，并对加权后的所述特征表现损失、所述风格表现损失和所述稳定性损失求和，计算总损失。

14.一种用于视频风格转移的装置，其特征在于，包括：

显示设备，配置为显示输入视频和风格化输入视频，所述输入视频由多个图像帧组成；

存储器，配置为存储预训练的视频风格转移方案，所述视频风格转移方案实施为通过逐帧对所述输入视频执行图像风格转移，将所述输入视频转换为所述风格化输入视频；以及

处理器，配置为执行所述预训练的视频风格转移方案，从而将所述输入视频转换为所述风格化输入视频；

所述视频风格转移方案通过以下方式训练：

应用风格化功能以分别从输入图像和噪声图像获得风格化输入图像和风格化噪声图像，所述输入图像为所述输入视频的一个图像帧，所述噪声图像通过将随机噪声添加到所述输入图像而获得；

根据所述风格化输入图像、所述风格化噪声图像以及预定义目标图像，应用损失计算功能来获得所述输入图像的多种损失；以及

应用所述损失计算功能以获得所述输入图像的总损失，所述总损失配置为进行调整以实现稳定的视频风格转移。

15.根据权利要求14所述的装置，其特征在于，所述损失计算功能的实施方式为：

计算所述风格化噪声图像的特征图；

计算所述风格化输入图像的特征图；以及

16.根据权利要求15所述的装置，其特征在于，所述损失计算功能的实施方式为：

计算所述预定义目标图像的特征图；以及

17.根据权利要求16所述的装置，其特征在于，所述损失计算功能的实施方式为：

计算所述风格化输入图像的特征图的格拉姆矩阵；

计算所述预定义目标图像的特征图的格拉姆矩阵；以及

18.根据权利要求17所述的装置，其特征在于，所述损失计算功能的实施方式为：

通过计算加权的所述特征表现损失、所述风格表现损失以及所述稳定性损失的加权和，计算总损失。

19.根据权利要求14所述的装置，其特征在于，还包括：

视频***，配置为将所述输入视频解析为多个图像帧，并将多个风格化输入图像合成为所述风格化输入视频。