CN108304755B

CN108304755B - 用于图像处理的神经网络模型的训练方法和装置

Info

Publication number: CN108304755B
Application number: CN201710136471.9A
Authority: CN
Inventors: 黄浩智; 王浩; 罗文寒; 马林; 杨鹏; 姜文浩; 朱晓龙; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-08
Filing date: 2017-03-08
Publication date: 2021-05-18
Anticipated expiration: 2037-03-08
Also published as: EP3540637A1; JP2019534520A; KR20190100320A; EP3540637B1; EP3540637A4; KR102281017B1; US11610082B2; US10970600B2; JP6755395B2; WO2018161775A1; US20210182616A1; CN108304755A; US20190228264A1; TW201833867A; TWI672667B

Abstract

本发明涉及一种用于图像处理的神经网络模型的训练方法和装置，所述方法包括：获取时间相邻的视频帧；将所述视频帧分别经过神经网络模型输出相对应的中间图像；获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息；获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像；获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗；获取所述中间图像与目标特征图像的特征损耗；根据所述时间损耗和所述特征损耗调整所述神经网络模型，返回所述获取时间相邻的视频帧的步骤继续训练，直至所述神经网络模型满足训练结束条件。本申请提供的方案提高训练得到的神经网络模型对视频进行特征转换时的转换效果。

Description

用于图像处理的神经网络模型的训练方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种用于图像处理的神经网络模型的训练方法和装置。

背景技术

随着计算机技术的发展，在图像处理技术中，通常会用到神经网络模型来对图像的特征进行转换处理，比如图像颜色特征转换、图像光影特征转换或者图像风格特征转换等。在通过神经网络模型对图像进行特征转换处理之前，需要先训练出用于图像处理的神经网络模型。

采用传统的神经网络模型训练方法训练出的用于图像处理的神经网络模型在对图像进行特征转换时效果较好。然而，在采用该神经网络模型对视频进行特征转换时，会引入大量的闪烁噪声，导致视频特征转换的效果较差。

发明内容

基于此，有必要针对传统的用于图像处理的神经网络模型对视频进行特征转换时效果差的问题，提供一种用于图像处理的神经网络模型的训练方法和装置。

一种用于图像处理的神经网络模型的训练方法，所述方法包括：

获取时间相邻的视频帧；

将所述视频帧分别经过神经网络模型输出相对应的中间图像；

获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息；

获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像；

获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗；

获取所述中间图像与目标特征图像的特征损耗；

根据所述时间损耗和所述特征损耗调整所述神经网络模型，返回所述获取时间相邻的视频帧的步骤继续训练，直至所述神经网络模型满足训练结束条件。

一种用于图像处理的神经网络模型的训练装置，所述装置包括：

输入获取模块，用于获取时间相邻的视频帧；

输出获取模块，用于将所述视频帧分别经过神经网络模型输出相对应的中间图像；

损耗获取模块，用于获取时序靠前的所述视频帧变化至时序靠后的所述视频帧的光流信息；获取时序靠前的视频帧所对应的中间图像按所述光流信息变化后的图像；获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗；获取所述中间图像与目标特征图像的特征损耗；

模型调整模块，用于根据所述时间损耗和所述特征损耗调整所述神经网络模型，返回所述获取时间相邻的视频帧的步骤继续训练，直至所述神经网络模型满足训练结束条件。

上述用于图像处理的神经网络模型的训练方法和装置，在对神经网络模型进行训练时，将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型，以训练得到可用于图像处理的神经网络模型。其中，在对神经网络模型进行训练时，通过将时间相邻的视频帧作为输入，以对时序靠前的视频帧所对应的中间图像，按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息，得到时序靠后的视频帧预期所对应的中间图像，从而得到时间损耗。该时间损耗反映了时间相邻的视频帧各自对应的中间图像之间在时间一致性上的损耗。训练后的神经网络模型在对视频进行特征转换时，会考虑视频的各视频帧之间的时间一致性，极大地减少了特征转换过程中引入的闪烁噪声，从而提高了对视频进行特征转换时的转换效果。

附图说明

图1为一个实施例中用于实现用于图像处理的神经网络模型的训练方法的电子设备的内部结构示意图；

图2为一个实施例中用于图像处理的神经网络模型的训练方法的流程示意图；

图3为另一个实施例中用于图像处理的神经网络模型的训练方法的流程示意图；

图4为一个实施例中用于图像处理的神经网络模型的训练架构图；

图5为一个实施例中用于图像处理的神经网络模型的训练装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中用于实现用于图像处理的神经网络模型的训练方法的电子设备的内部结构示意图。参照图1，该电子设备包括通过***总线连接的处理器、非易失性存储介质和内存储器。其中，电子设备的非易失性存储介质存储有操作***，还存储有一种用于图像处理的神经网络模型的训练装置，该用于图像处理的神经网络模型的训练装置用于实现一种用于图像处理的神经网络模型的训练方法。电子设备的处理器用于提供计算和控制能力，支撑整个电子设备的运行。电子设备中的内存储器为非易失性存储介质中的用于图像处理的神经网络模型的训练装置的运行提供环境。该内存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种用于图像处理的神经网络模型的训练方法。该电子设备可以是终端，也可以是服务器。终端可以是个人计算机或者移动电子设备，移动电子设备包括手机、平板电脑、个人数字助理或者穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图1中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2为一个实施例中用于图像处理的神经网络模型的训练方法的流程示意图。本实施例主要以该方法应用于上述图1中的电子设备来举例说明。参照图2，该用于图像处理的神经网络模型的训练方法具体包括如下步骤：

S202，获取时间相邻的视频帧。

具体地，视频是指可分割为按时间排列的静态图像序列的数据。将视频分割得到的静态图像可作为视频帧。时间相邻的视频帧是指按时序排列的视频帧中相邻的视频帧。获取的时间相邻的视频帧，具体可以是两个或多于两个且时间相邻的视频帧。比如，若按时序排列的视频帧p1，p2，p3，p4……，p1和p2为时间相邻的视频帧，p1，p2和p3也是时间相邻的视频帧。

在一个实施例中，电子设备中设置有训练样本集，在训练样本集中存储着多组时间相邻的视频帧，电子设备从训练样本集中获取任意一组时间相邻的视频帧。训练样本集中的时间相邻的视频帧可以是由电子设备根据从互联网上爬取的视频分割得到，也可以是由电子设备根据通过该电子设备包括的摄像设备录制的视频分割得到。

在一个实施例中，电子设备中可设置多个训练样本集，用户通过电子设备可以访问训练样本集，并通过电子设备选择用于进行训练的训练样本集。电子设备可检测用户触发的携带有训练样本集标识的选择指令，电子设备提取选择指令中的训练样本集标识，从训练样本集标识对应的训练样本集中获取时间相邻的视频帧。

S204，将视频帧分别经过神经网络模型输出相对应的中间图像。

其中，神经网络模型是指由多层互相连接而形成的复杂网络模型。在本实施例中，电子设备可对一个神经网络模型进行训练，训练结束后的神经网络模型可用于图像处理。神经网络模型可包括多层特征转换层，每层特征转换层都有对应的非线性变化算子，每层的非线性变化算子可以是多个，每层特征转换层中一个非线性变化算子对输入的图像进行非线性变化，得到特征图(featuremap)作为运算结果。每个特征转换层接收前一层的运算结果，经过自身的运算，对下一层输出本层的运算结果。

具体地，电子设备在获取到时间相邻的视频帧之后，将时间相邻的视频帧分别输入神经网络模型，依次通过神经网络模型的各特征转换层。在每一层特征转换层上，电子设备利用该特征转换层对应的非线性变化算子，对上一层输出的特征图中包括的像素点对应的像素值进行非线性变化，并输出当前特征转换层上的特征图。其中，如果当前特征转换层为第一级特征转换层，则上一层输出的特征图为输入的视频帧。像素点对应的像素值具体可以为像素点的RGB(Red Green Blue)三通道颜色值。

举例说明，在一个实施例中，需训练的神经网络模型具体可包括3个卷积层、5个残差模块、2个反卷积层和1个卷积层。电子设备将视频帧输入神经网络模型后，首先经过卷积层，该卷积层对应的各卷积核对输入的视频帧对应的像素值矩阵进行卷积操作，得到与该卷积层中各卷积核各自对应的像素值矩阵，亦即特征图，再将得到的各特征图共同作为下一层卷积层的输入，逐层进行非线性变化，直至最后一层卷积层输出相应卷积核数量的特征图，再按照各特征图对应的偏置项对各特征图中对应的像素位置的像素值进行运算，合成一个特征图作为输出的中间图像。

电子设备可设置在其中一层卷积层的卷积操作后进行下采样操作。下采样的方式具体可以是均值采样，或者极值采样。比如，下采样的方式为对2*2像素区域进行均值，那么其中一个2*2像素区域对应的像素值矩阵为[1,2,3,4]，那么下采样得到的像素值为：(1+2+3+4)/4＝2.5。下采样操作后得到的特征图的分辨率减小为输入的视频帧分辨率的1/4。进一步地，电子设备需在反卷积层的反卷积操作后设置与在前的下采样操作相应的上采样操作，使得上采样操作后得到的特征图的分辨率增大为上采样操作前的特征图的分辨率的4倍，以保证输出的中间图像与输入的视频帧的分辨率一致。

其中，神经网络模型中包括的层的个数以及层的类型可自定义调整，也可根据后续的训练结果相应调整。但需满足输入神经网络模型的图像的分辨率与神经网络模型输出的图像的分辨率一致。

S206，获取时序靠前的视频帧变化至时序靠后的视频帧的光流信息。

其中，光流可表示图像中灰度模式的运动速度。图像中按照空间位置排列的所有光流组成光流场。光流场表征了图像中像素点的变化情况，可用来确定图像间相应像素点的运动信息。

时序靠前的视频帧，是指相邻的视频帧中时间戳较早的视频帧；时序靠后的视频帧，则是指相邻的视频帧中时间戳较晚的视频帧。比如时间相邻的视频帧按时序排列依次为x1，x2和x3，则x1相对于x2和x3为时序靠前的视频帧；x2相对于x1为时序靠后的视频帧，x2相对于x3为时序靠前的视频帧。

时序靠前的视频帧变化至时序靠后的视频帧的光流信息，可由时序靠前的视频帧与时序靠后的视频帧之间的光流场表示。在本实施例中，用于计算光流信息的方式具体可以是根据光流约束方程得到的基于微分的光流算法、基于区域匹配的光流算法、基于能量的光流算法、基于相位的光流算法和神经动力学光流算法等中的任意一种。

具体地，电子设备可按照用于计算光流信息的方式计算时序靠前的视频帧变化至时序靠后的视频帧的光流信息，得到时序靠前的视频帧中每个像素点相应的于时序靠后的视频帧中相应的像素点的光流。电子设备也可从时序靠前的视频帧中选取特征点，采用稀疏光流计算方式，计算选取的特征点相应的光流。比如，时序靠前的视频帧中像素点A的位置为(x1，y1)，时序靠后的视频帧中像素点A的位置为(x2，y2)，那么像素点A的速度矢量

时序靠前的视频帧中各像素点变化至时序靠后的视频帧中相应像素点的速度矢量形成的矢量场，即为时序靠前的视频帧变化至时序靠后的视频帧的光流场。

在一个实施例中，当时间相邻的视频帧是多于两个且时间相邻的视频帧时，电子设备可计算时间相邻的视频帧中相邻的两帧视频帧之间的光流信息，也可以计算时间相邻的视频帧中不相邻的两帧视频帧之间的光流信息。比如，时间相邻的视频帧按时序排列依次为x1，x2和x3，电子设备可计算x1与x2之间的光流信息，x2与x3之间的光流信息；还可以计算x1与x3之间的光流信息。

在一个实施例中，电子设备在按照用于计算光流信息的方式计算时序靠前的视频帧变化至时序靠后的视频帧的光流信息时，也可确定计算得到的光流信息的置信度。光流信息的置信度与光流信息一一对应，用于表示相应的光流信息的可信程度。光流信息的置信度越高，表示计算得到的光流信息的表征的图像中像素点的运动信息越准确。

S208，获取时序靠前的视频帧所对应的中间图像按光流信息变化后的图像。

具体地，电子设备可将时序靠前的视频帧所对应的中间图像中包括的像素点，按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息进行变化，得到变化后的像素点形成的图像，亦即时序靠后的视频帧预期所对应的中间图像的像素值分布。

在一个实施例中，当时间相邻的视频帧是多于两个且时间相邻的视频帧时，电子设备时间相邻的视频帧中相邻的两帧视频帧之间的光流信息，对相邻的两帧视频帧中时序靠前的视频帧所对应的中间图像按照该光流信息得到相邻的两帧视频帧中时序靠后的视频帧预期所对应的之间图像。比如，时间相邻的视频帧按时序排列依次为x1，x2和x3，神经网络模型输出中间图像相应排序依次为y1，y2和y3。x1变化至x2的光流信息为g1，x2变化至x3的光流信息为g2，电子设备可将y1按照g1变化为z2，将z2按照g2变化为z3；z2为x2预期对应的中间图像，z3为x3预期对应的中间图像。

电子设备也可按照时间相邻的视频帧中不相邻的两帧视频帧之间的光流信息，对不相邻的两帧视频帧中时序靠前的视频帧所对应的中间图像按照该光流信息得到不相邻的两帧视频帧中时序靠后的视频帧预期所对应的之间图像。比如，时间相邻的视频帧按时序排列依次为x1，x2和x3，神经网络模型输出中间图像相应排序依次为y1，y2和y3。x1变化至x3的光流信息为g3，电子设备可将y1按照g3变化为z3，z3为x3预期对应的中间图像。

在一个实施例中，电子设备也可将时序靠前的视频帧所对应的中间图像中包括的像素点按照相应的光流信息变化时，将光流信息的置信度作为权重，修正变化后的像素点形成的图像。

S210，获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

其中，时间损耗可用于表征时间相邻的视频帧在时域上的变化，与时间相邻的视频帧通过神经网络模型后得到的图像之间在时域上的变化的差异。具体地，电子设备可将时序靠后的视频帧所对应的中间图像，与将时序靠后的视频帧所对应的中间图像，按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息变化后的图像进行比较，得到两者之间的差异，根据该差异确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

举例说明，假设时间相邻的视频帧的帧数为两帧，时序靠前的视频帧为x^t-1，时序靠后的视频帧为x^t，且x^t-1变化至x^t的光流信息为G^t。x^t-1经过神经网络模型后输出的中间图像为y^t-1，x^t经过神经网络模型后输出的中间图像为y^t。电子设备可将y^t-1按照x^t-1变化至x^t的光流信息G^t进行变化，得到z^t，z^t可作为预期的时序靠后的视频帧所对应的神经网络模型后输出的图像。电子设备可再比较y^t与z^t的差异，从而得到y^t与z^t间的时间损耗。

举例说明，假设时间相邻的视频帧按时序排列依次为x1，x2和x3，神经网络模型输出中间图像相应排序依次为y1，y2和y3。x1变化至x2的光流信息为g1，x2变化至x3的光流信息为g2，x1变化至x3的光流信息为g3。电子设备可将y1按照g1变化为z2，将z2按照g2变化为z3，将y1按照g3变化为z’3；z2为x2预期对应的中间图像，z3与z’3均为x3预期对应的中间图像，电子设备可比较y2与z2的差异，得到y2与z2的时间损耗；电子设备可比较y3与z3的差异，以及y3与z’3的差异，根据z3与z’3的权重得到y3与z3和z’3的时间损耗。

S212，获取中间图像与目标特征图像的特征损耗。

其中，神经网络模型用于对图像进行特征转换时需转换至的图像特征即为目标特征图像所对应的图像特征。特征损耗为神经网络模型输出的中间图像所对应的图像特征，与目标特征图像所对应的图像特征之间的差异。图像特征具体可以是图像颜色特征、图像光影特征或者图像风格特征等。相应地，目标特征图像具体可以是目标颜色特征图像、目标光影特征图像或者目标风格特征图像等；中间图像与目标特征图像的特征损耗具体可以是颜色特征损耗、光影特征损耗或者风格特征损耗等。

具体地，电子设备可先确定需训练至的图像特征，并获取符合该图像特征的图像作为目标特征图像。电子设备可再采用训练完成的用于提取图像特征的神经网络模型分别提取中间图像与目标特征图像对应的图像特征，再将中间图像对应的图像特征与目标特征图像对应的图像特征进行比较，得到两者之间的差异，根据该差异确定中间图像与目标特征图像的特征损耗。

举例说明，假设神经网络模型用于对图像进行图像风格特征转换，目标风格特征图像为S，时间相邻的视频帧的帧数为两帧，时序靠前的视频帧为x^t-1，时序靠后的视频帧为x^t。x^t-1经过神经网络模型后输出的中间图像为y^t-1，x^t经过神经网络模型后输出的中间图像为y^t。电子设备可分别比较y^t-1与y^t和S的差异，从而得到y^t-1与S的风格特征损耗以及y^t与S的风格特征损耗。

S214，根据时间损耗和特征损耗调整神经网络模型，返回获取时间相邻的视频帧的步骤继续训练，直至神经网络模型满足训练结束条件。

具体地，训练神经网络模型的过程为确定需训练的神经网络模型中各特征转换层对应的非线性变化算子的过程。在确定各非线性变化算子时，电子设备可以先初始化需训练的神经网络模型中各特征转换层对应的非线性变化算子，并在后续的训练过程中，不断优化该初始化的非线性变化算子，并将优化得到的最优的非线性变化算子作为训练好的神经网络模型的非线性变化算子。

在一个实施例中，电子设备可根据时间损耗构建时间域损失函数，根据特征损耗构建空间域损失函数，合并得到混合损失函数，再计算混合损失函数随神经网络模型中各特征转换层对应的非线性变化算子的变化率。电子设备可根据计算得到的变化率调整神经网络模型中各特征转换层对应的非线性变化算子，使得计算得到的变化率变小，以使得神经网络模型得到训练优化。

在一个实施例中，训练结束条件可以是对神经网络模型的训练次数达到预设训练次数。电子设备可在对神经网络模型进行训练时，对训练次数进行计数，当计数达到预设训练次数时，电子设备可判定神经网络模型满足训练结束条件，并结束对神经网络模型的训练。

在一个实施例中，训练结束条件也可以是混合损失函数满足收敛条件。电子设备可在对神经网络模型进行训练时，对每次训练完成后计算得到的混合损失函数随神经网络模型中各特征转换层对应的非线性变化算子的变化率进行记录，当计算得到的该变化率逐渐靠近于某一特定数值时，电子设备可判定神经网络模型满足训练结束条件，并结束对神经网络模型的训练。

上述用于图像处理的神经网络模型的训练方法，在对神经网络模型进行训练时，将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型，以训练得到可用于图像处理的神经网络模型。其中，在对神经网络模型进行训练时，通过将时间相邻的视频帧作为输入，以对时序靠前的视频帧所对应的中间图像，按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息，得到时序靠后的视频帧预期所对应的中间图像，从而得到时间损耗。该时间损耗反映了时间相邻的视频帧各自对应的中间图像之间在时间一致性上的损耗。训练后的神经网络模型在对视频进行特征转换时，会考虑视频的各视频帧之间的时间一致性，极大地减少了特征转换过程中引入的闪烁噪声，从而提高了对视频进行特征转换时的转换效果。

在一个实施例中，该用于图像处理的神经网络模型的训练方法中根据时间损耗和特征损耗调整神经网络模型具体包括：获取中间图像与相应的视频帧的内容损耗；根据时间损耗、特征损耗和内容损耗，生成训练代价；按照训练代价调整神经网络模型。

其中，内容损耗是指通过神经网络模型输出的中间图像与相应的输入的视频帧之间在图像内容上的差异。具体地，电子设备可采用训练完成的用于提取图像内容特征的神经网络模型分别提取中间图像与相应的视频帧对应的图像内容特征，再将中间图像对应的图像内容特征与相应的视频帧对应的图像内容特征进行比较，得到两者之间的差异，根据该差异确定中间图像与相应的视频帧的内容损耗。

在一个实施例中，电子设备可根据时间损耗构建时间域损失函数，再根据特征损耗和内容损耗联合构建空间域损失函数，并生成与时间域损失函数正相关，且与空间域损失函数正相关的训练代价。电子设备可再计算训练代价随神经网络模型中各特征转换层对应的非线性变化算子的变化率，并根据计算得到的变化率调整神经网络模型中各特征转换层对应的非线性变化算子，使得计算得到的变化率变小，以使得神经网络模型得到训练优化。

在一个实施例中，电子设备还可对神经网络模型输出的中间图像进行去噪处理。具体地，电子设备可基于实现全变分(Total Variation，TV)的去噪算法，确定用于对中间图像的边缘像素点进行去噪处理的全变分最小化项，并将该全变分最小化项联合特征损耗和内容损耗联合构建空间域损失函数，以进行神经网络模型训练。这种采用总变分最小化项来对图像进行去噪处理的方式提高了神经网络模型对视频进行特征转换时的转换效果。

在本实施例中，在对神经网络模型进行训练时，将时间损耗、与特征损耗与内容损耗协同作为反馈调整依据来调整神经网络模型，以训练得到可用于图像处理的神经网络模型，在时间、内容与特征三个维度保证了图像特征转换的准确性，提高了训练得到的神经网络模型对视频进行特征转换时的转换效果。

在一个实施例中，步骤S210具体包括：将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减，得到差异分布图；根据差异分布图，确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

具体地，电子设备将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减得到的差异分布图，具体可以是像素值差异矩阵。电子设备可对差异分布图进行降维运算得到时间损耗数值。电子设备在首次计算时间损耗时选定采用的降维运算方式后，后续的时间损耗计算均采用选定的该降维运算方式。其中，降维运算具体可以是均值降维或者极值降维。比如，像素值差异矩阵为[1,2,3,4]，那么均值降维运算得到的时间损耗为：(1+2+3+4)/4＝2.5。

在本实施例中，通过时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的像素值的差异，计算时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗，使得时间损耗的计算更为准确。

在一个实施例中，该用于图像处理的神经网络模型的训练方法中获取中间图像与相应的视频帧的内容损耗的步骤包括：将视频帧与相应的中间图像输入评价网络模型；获取评价网络模型所包括的层输出的，与视频帧对应的特征图和与中间图像对应的特征图；根据中间图像所对应的特征图和相应的视频帧所对应的特征图，确定中间图像与相应的视频帧的内容损耗。

其中，评价网络模型用于提取输入图像的图像特征。在本实施例中，评价网络模型具体可以是Alexnet网络模型、VGG(Visual Geometry Group视觉几何组)网络模型或者GoogLeNet网络。评价网络模型所包括的层对应有多个特征提取因子，每个特征提取因子提取不同的特征。特征图是通过评价网络模型中的层的变化算子对输入的图像处理得到的图像处理结果，图像处理结果为图像特征矩阵，该图像特征矩阵由通过变化算子对输入的图像矩阵进行处理得到的响应值构成。

具体地，电子设备将视频帧与相应的中间图像输入评价网络模型后，评价网络模型可得到与输入的视频帧对应的像素值矩阵以及与相应的中间图像对应的像素值矩阵。评价网络模型所包括的层按照该层所对应的特征提取因子，对输入的视频帧或中间图像对应的像素值矩阵进行操作，得到相应的响应值构成特征图。评价网络模型中不同的层提取的特征不同。电子设备可事先设置将评价网络模型中提取图像内容特征的层输出的特征图作为进行内容损耗计算的特征图。其中，评价网络模型中提取图像内容特征的层具体可以是一层，也可以是多层。

电子设备在获取中间图像所对应的特征图和相应的视频帧所对应的特征图后，将中间图像所对应的特征图和相应的视频帧所对应的特征图中对应的像素位置的像素值相减，得到两者之间的内容差异矩阵，再对内容差异矩阵进行降维运算得到内容损耗。

在本实施例中，通过评价网络模型来提取特征转换前的视频帧与特征转换后的中间图像的图像内容特征，利用输出的提取了图像内容特征的特征图来计算相应输入的图像之间的内容损耗，使得内容损耗的计算更为准确。

在一个实施例中，步骤S212具体包括：将中间图像与目标特征图像输入评价网络模型；获取评价网络模型所包括的层输出的，与中间图像对应的特征图和与目标特征图像对应的特征图；根据中间图像所对应的特征图和目标特征图像所对应的特征图，确定中间图像与目标特征图像的特征损耗。

具体地，电子设备可事先设置将评价网络模型中提取图像特征的层输出的特征图作为进行特征损耗计算的特征图。其中，评价网络模型中提取图像特征的层具体可以是一层，也可以是多层。在本实施例中，通过评价网络模型来目标特征图像与特征转换后的中间图像的图像特征，利用输出的提取了图像特征的特征图来计算相应输入的图像之间的特征损耗，使得特征损耗的计算更为准确。

进一步地，在一个实施例中，该用于图像处理的神经网络模型的训练方法中根据中间图像所对应的特征图和目标特征图像所对应的特征图，确定中间图像与目标特征图像的特征损耗的步骤具体包括：根据中间图像所对应的特征图，确定中间图像所对应的特征矩阵；根据目标特征图像所对应的特征图，确定目标特征图像所对应的特征矩阵；将中间图像所对应的特征矩阵和目标特征图像所对应的特征矩阵中对应位置的数值相减，得到特征差异矩阵；根据特征差异矩阵，确定中间图像与目标特征图像间的特征损耗。

在一个实施例中，神经网络模型用于对图像进行图像风格特征转换，中间图像所对应的特征矩阵具体可以是风格特征矩阵。风格特征矩阵是反映图像风格特征的矩阵。风格特征矩阵具体可以是格拉姆矩阵(Gram Matrix)。电子设备可通过将中间图像所对应的特征图求取内积得到相应的格拉姆矩阵作为中间图像所对应的风格特征矩阵，将目标风格图像所对应的特征图求取内积得到相应的格拉姆矩阵作为目标风格图像所对应的风格特征矩阵。电子设备可再将中间图像所对应的风格特征矩阵和目标风格图像所对应的风格特征矩阵中对应位置的数值相减，得到风格差异特征矩阵；根据风格差异特征矩阵，再对风格差异特征矩阵进行降维运算得到风格特征损耗。

在本实施例中，具体采用了可反映图像特征的特征矩阵具体计算特征转换得到的图像与目标特征图像的特征损耗，使得特征损耗的计算更为准确。

举例说明，电子设备可选取VGG-19网络模型作为评价网络模型，该网络模型包括16层卷积层和5层池化层。试验表明该模型的第四层卷积层提取的特征能体现图像内容特征，该模型的第一、二、三、四层卷积层提取的特征能体现图像风格特征。电子设备可获取第四层卷积层输出的中间图像所对应的特征图和相应的视频帧所对应的特征图，计算中间图像与相应的视频帧的内容损耗。电子设备可获取第一、二、三、四层卷积层输出的中间图像所对应的特征图和相应的视频帧所对应的特征图，计算中间图像与相应的视频帧的风格特征损耗。

在一个实施例中，该用于图像处理的神经网络模型的训练方法中按照训练代价调整神经网络模型，包括：按照神经网络模型所包括的层的顺序，逆序确定训练代价随各层所对应的非线性变化算子的变化率；按逆序调整神经网络模型所包括的层所对应的非线性变化算子，使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。

具体地，图像被输入神经网络模型后，每经过一层则进行一次非线性变化，并将输出的运算结果作为下一层的输入。电子设备可按照神经网络模型所包括的层的顺序，从神经网络模型所包括的最后一层起，确定训练代价随当前层所对应的非线性变化算子的变化率，再依次逆序确定训练代价随各层所对应的非线性变化算子的变化率。电子设备可再按逆序依次调整神经网络模型所包括的层所对应的非线性变化算子，使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。

举例说明，假设训练代价为L，按照神经网络模型所包括的层的顺序，逆序第一层所对应的非线性变化算子z，则L随z的变化率为

逆序第二层所对应的非线性变化算子为b，则L随b的变化率为

逆序第三层所对应的非线性变化算子为c，则L随c的变化率为

在求解变化率时，链式求导会一层一层的将梯度传导到在前的层。在求解变化率至神经网络模型所包括的第一层，电子设备可逆序依次调整非线性变化算子z、b、c至神经网络模型所包括的第一层对应的非线性变化算子，使得最后一层求得的变化率减小。

在一个实施例中，训练代价具体可表示为：

其中，L_spatial(xⁱ,yⁱ,s)表示空间域损失函数；L_temporal(y^t,y^t-1)表示时间域损失函数，由时间损耗生成，λ为时间域损失函数相应的权重。空间域损失函数具体可表示为：

其中，l表示评价网络模型中提取图像特征的层；

表示输入神经网络模型的图像与神经网络模型输出的图像之间的内容损耗；

表示神经网络模型输出的图像与目标特征图像之间的特征损耗；R_tv表示全变分最小化项；α、β和γ为各项损耗相应的权重。比如，α的取值可为1，β的取值可为1，γ的取值可为10⁴。

在本实施例中，通过反向传播方式求解训练代价随神经网络模型各层所对应的非线性变化算子的变化率，通过调节神经网络模型各层所对应的非线性变化算子使得计算得到的变化率减小，以训练神经网络模型，使得训练得到的神经网络模型用于进行图像转换时的效果更优。

如图3所示，在一个具体的实施例中，用于图像处理的神经网络模型的训练方法具体包括以下步骤：

S302，获取时间相邻的视频帧。

S304，将视频帧分别经过神经网络模型输出相对应的中间图像。

S306，获取时序靠前的视频帧变化至时序靠后的视频帧的光流信息。

S308，获取时序靠前的视频帧所对应的中间图像按光流信息变化后的图像。

S310，将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减，得到差异分布图；根据差异分布图，确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

S312，将中间图像与目标特征图像输入评价网络模型；获取评价网络模型所包括的层输出的，与中间图像对应的特征图和与目标特征图像对应的特征图；根据中间图像所对应的特征图，确定中间图像所对应的特征矩阵；根据目标特征图像所对应的特征图，确定目标特征图像所对应的特征矩阵；将中间图像所对应的特征矩阵和目标特征图像所对应的特征矩阵中对应位置的数值相减，得到特征差异矩阵；根据特征差异矩阵，确定中间图像与目标特征图像间的特征损耗。

S314，将视频帧与相应的中间图像输入评价网络模型；获取评价网络模型所包括的层输出的，与视频帧对应的特征图和与中间图像对应的特征图；根据中间图像所对应的特征图和相应的视频帧所对应的特征图，确定中间图像与相应的视频帧的内容损耗。

S316，根据时间损耗、特征损耗和内容损耗，生成训练代价。

S318，按照神经网络模型所包括的层的顺序，逆序确定训练代价随各层所对应的非线性变化算子的变化率；按逆序调整神经网络模型所包括的层所对应的非线性变化算子，使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。

S320，判断神经网络模型是否满足训练结束条件；若是，则跳转至步骤S322；若否，则跳转至步骤S302。

S322，结束训练神经网络模型。

在本实施例中，在对神经网络模型进行训练时，将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型，在时间、特征与内容三个维度来训练神经网络模型，提高了神经网络模型的训练效果。

图4示出了一个实施例中用于图像处理的神经网络模型的训练架构图。参考图4，本实施例中神经网络模型由3个卷积层，5个残差模块，2个反卷积层和1个卷积层组成，电子设备可将时序靠前的视频帧为x^t-1，时序靠后的视频帧为x^t分别输入神经网络模型中，得到神经网络模型输出的中间图像为y^t-1和y^t。电子设备可按照x^t-1与x^t之间的光流信息，得到y^t-1与y^t的时间域损失函数；再将x^t-1、x^t、y^t-1、y^t和目标特征图像S输入评价网络模型，通过评价网络模型所包括的层输出的特征图，得到x^t-1与y^t-1、x^t与y^t的内容损耗，y^t-1与S、y^t与S的特征损耗，从而得到空间域损失函数。

在一个实施例中，电子设备按照该用于特征图像处理的神经网络模型的训练方法对神经网络模型训练完成后，可将该神经网络模型用于进行视频特征转换。电子设备可将需要进行特征转换的视频分割为时间相邻的视频帧，依次将分割得到的视频帧输入训练完成的神经网络模型，得到每帧视频帧对应的特征准换后的输出图像，再将各输出图像按照所对应的输入视频的时间顺序合并，得到特征转换后的视频。其中，神经网络模型可同时对多帧视频帧进行特征转换。

如图5所示，在一个实施例中，提供一种用于图像处理的神经网络模型的训练装置500，该装置具体包括：输入获取模块501、输出获取模块502、损耗获取模块503和模型调整模块504。

输入获取模块501，用于获取时间相邻的视频帧。

输出获取模块502，用于将视频帧分别经过神经网络模型输出相对应的中间图像。

损耗获取模块503，用于获取时序靠前的视频帧变化至时序靠后的视频帧的光流信息；获取时序靠前的视频帧所对应的中间图像按光流信息变化后的图像；获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗；获取中间图像与目标特征图像的特征损耗。

模型调整模块504，用于根据时间损耗和特征损耗调整神经网络模型，返回获取时间相邻的视频帧的步骤继续训练，直至神经网络模型满足训练结束条件。

上述用于图像处理的神经网络模型的训练装置，在对神经网络模型进行训练时，将时间损耗与特征损耗协同作为反馈调整依据来调整神经网络模型，以训练得到可用于图像处理的神经网络模型。其中，在对神经网络模型进行训练时，通过将时间相邻的视频帧作为输入，以对时序靠前的视频帧所对应的中间图像，按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息，得到时序靠后的视频帧预期所对应的中间图像，从而得到时间损耗。该时间损耗反映了时间相邻的视频帧各自对应的中间图像之间在时间一致性上的损耗。训练后的神经网络模型在对视频进行特征转换时，会考虑视频的各视频帧之间的时间一致性，极大地减少了特征转换过程中引入的闪烁噪声，从而提高了对视频进行特征转换时的转换效果。

在一个实施例中，模型调整模块504还用于获取中间图像与相应的视频帧的内容损耗；根据时间损耗、特征损耗和内容损耗，生成训练代价；按照训练代价调整神经网络模型。

在一个实施例中，模型调整模块504还用于将视频帧与相应的中间图像输入评价网络模型；获取评价网络模型所包括的层输出的，与视频帧对应的特征图和与中间图像对应的特征图；根据中间图像所对应的特征图和相应的视频帧所对应的特征图，确定中间图像与相应的视频帧的内容损耗。

在一个实施例中，模型调整模块504还用于按照神经网络模型所包括的层的顺序，逆序确定训练代价随各层所对应的非线性变化算子的变化率；按逆序调整神经网络模型所包括的层所对应的非线性变化算子，使得训练代价随相应调整的层所对应的非线性变化算子的变化率减小。

在一个实施例中，损耗获取模块503还用于将时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减，得到差异分布图；根据差异分布图，确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

在一个实施例中，损耗获取模块503还用于将中间图像与目标特征图像输入评价网络模型；获取评价网络模型所包括的层输出的，与中间图像对应的特征图和与目标特征图像对应的特征图；根据中间图像所对应的特征图和目标特征图像所对应的特征图，确定中间图像与目标特征图像的特征损耗。

在本实施例中，通过评价网络模型来目标特征图像与特征转换后的中间图像的图像特征，利用输出的提取了图像特征的特征图来计算相应输入的图像之间的特征损耗，使得特征损耗的计算更为准确。

在一个实施例中，损耗获取模块503还用于根据中间图像所对应的特征图，确定中间图像所对应的特征矩阵；根据目标特征图像所对应的特征图，确定目标特征图像所对应的特征矩阵；将中间图像所对应的特征矩阵和目标特征图像所对应的特征矩阵中对应位置的数值相减，得到特征差异矩阵；根据特征差异矩阵，确定中间图像与目标特征图像间的特征损耗。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种用于图像处理的神经网络模型的训练方法，所述方法包括：

获取时间相邻的视频帧；

获取所述中间图像与目标特征图像的特征损耗；

2.根据权利要求1所述的方法，其特征在于，所述根据所述时间损耗和所述特征损耗调整所述神经网络模型，包括：

获取所述中间图像与相应的视频帧的内容损耗；

根据所述时间损耗、所述特征损耗和所述内容损耗，生成训练代价；

按照所述训练代价调整所述神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述获取所述中间图像与相应的视频帧的内容损耗，包括：

将所述视频帧与相应的中间图像输入评价网络模型；

获取所述评价网络模型所包括的层输出的，与所述视频帧对应的特征图和与所述中间图像对应的特征图；

根据所述中间图像所对应的特征图和相应的所述视频帧所对应的特征图，确定所述中间图像与相应的视频帧的内容损耗。

4.根据权利要求2所述的方法，其特征在于，所述按照所述训练代价调整所述神经网络模型，包括：

按照所述神经网络模型所包括的层的顺序，逆序确定所述训练代价随各所述层所对应的非线性变化算子的变化率；

按所述逆序调整所述神经网络模型所包括的层所对应的非线性变化算子，使得所述训练代价随相应调整的所述层所对应的非线性变化算子的变化率减小。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗，包括：

将所述时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减，得到差异分布图；

根据所述差异分布图，确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取所述中间图像与目标特征图像的特征损耗，包括：

将所述中间图像与目标特征图像输入评价网络模型；

获取所述评价网络模型所包括的层输出的，与所述中间图像对应的特征图和与所述目标特征图像对应的特征图；

根据所述中间图像所对应的特征图和所述目标特征图像所对应的特征图，确定所述中间图像与目标特征图像的特征损耗。

7.根据权利要求6所述的方法，其特征在于，所述根据所述中间图像所对应的特征图和所述目标特征图像所对应的特征图，确定所述中间图像与目标特征图像的特征损耗，包括：

根据所述中间图像所对应的特征图，确定所述中间图像所对应的特征矩阵；

根据所述目标特征图像所对应的特征图，确定所述目标特征图像所对应的特征矩阵；

将所述中间图像所对应的特征矩阵和所述目标特征图像所对应的特征矩阵中对应位置的数值相减，得到特征差异矩阵；

根据所述特征差异矩阵，确定所述中间图像与所述目标特征图像间的特征损耗。

8.一种用于图像处理的神经网络模型的训练装置，其特征在于，所述装置包括：

输入获取模块，用于获取时间相邻的视频帧；

9.根据权利要求8所述的装置，其特征在于，所述模型调整模块还用于获取所述中间图像与相应的视频帧的内容损耗；根据所述时间损耗、所述特征损耗和所述内容损耗，生成训练代价；按照所述训练代价调整所述神经网络模型。

10.根据权利要求9所述的装置，其特征在于，所述模型调整模块还用于将所述视频帧与相应的中间图像输入评价网络模型；获取所述评价网络模型所包括的层输出的，与所述视频帧对应的特征图和与所述中间图像对应的特征图；根据所述中间图像所对应的特征图和相应的所述视频帧所对应的特征图，确定所述中间图像与相应的视频帧的内容损耗。

11.根据权利要求9所述的装置，其特征在于，所述模型调整模块还用于按照所述神经网络模型所包括的层的顺序，逆序确定所述训练代价随各所述层所对应的非线性变化算子的变化率；按所述逆序调整所述神经网络模型所包括的层所对应的非线性变化算子，使得所述训练代价随相应调整的所述层所对应的非线性变化算子的变化率减小。

12.根据权利要求8至11中任一项所述的装置，其特征在于，所述损耗获取模块还用于将所述时序靠后的视频帧所对应的中间图像与变化后的图像中对应的像素位置的数值相减，得到差异分布图；根据所述差异分布图，确定时序靠后的视频帧所对应的中间图像与变化后的图像间的时间损耗。

13.根据权利要求8至11中任一项所述的装置，其特征在于，所述损耗获取模块还用于将所述中间图像与目标特征图像输入评价网络模型；获取所述评价网络模型所包括的层输出的，与所述中间图像对应的特征图和与所述目标特征图像对应的特征图；根据所述中间图像所对应的特征图和所述目标特征图像所对应的特征图，确定所述中间图像与目标特征图像的特征损耗。

14.根据权利要求13所述的装置，其特征在于，所述损耗获取模块还用于根据所述中间图像所对应的特征图，确定所述中间图像所对应的特征矩阵；根据所述目标特征图像所对应的特征图，确定所述目标特征图像所对应的特征矩阵；将所述中间图像所对应的特征矩阵和所述目标特征图像所对应的特征矩阵中对应位置的数值相减，得到特征差异矩阵；根据所述特征差异矩阵，确定所述中间图像与所述目标特征图像间的特征损耗。