CN113888400B

CN113888400B - 一种图像风格迁移方法及装置

Info

Publication number: CN113888400B
Application number: CN202111302183.9A
Authority: CN
Inventors: 李祎; 谢鑫; 付海燕; 王波; 郭艳卿
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2024-04-26
Anticipated expiration: 2041-11-04
Also published as: CN113888400A

Abstract

本发明提供一种图像风格迁移方法及装置，方法包括：将所述内容图像I_c和风格图像I_s输入到预训练好的编码器网络E中进行特征提取，将内容特征C和风格特征S融合并投影到隐空间Z；将风格特征S的信息输入解码器网络D的第一层卷积中获得解调过后的解码器第一层权重A'₁；基于FastICA算法获取一个分离矩阵W，所述分离矩阵W使矩阵'中各向量的相关性最小；基于所述分离矩阵W与矩阵'计算获取解调后的语义方向集合；基于获取的语义方向编辑所述隐空间Z中的隐空间向量，结合解码器网络D最终获取风格迁移后的图像。本发明不需要大规模的风格数据集进行训练，也不需要学习任何参数，并且能够应用于多数风格迁移模型。

Description

一种图像风格迁移方法及装置

技术领域

本发明涉及人工智能在计算机视觉、图像风格迁移领域的应用，具体而言，尤其涉及一种图像风格迁移方法及装置。

背景技术

早期的图像风格迁移技术算法适用的风格范围窄，一个算法往往只能针对于一种图像纹理类型，而且迁移转换结果不理想。随着近些年人工智能和深度学随习的兴起，图像风格迁移领域已经研发出了很多出色的成果，产生的风格化图像也越来越逼真。风格转移的本质就是将绘画的风格迁移到照片的图像上，并保持照片的原始内容。为了产生具有多种风格的图像，模型往往需要大量的风格数据集。除了需要大规模的数据集，目前大多数风格迁移模型采用迭代优化和前馈网络两种方法来提高模型风格化图像的质量：

迭代优化(iterative optimization)方法：图像迭代是直接在白噪声图像上进行优化迭代实现风格迁移，其优化目标是图像。很多算法会在迭代的过程中计算最大均值差，测量风格图像和内容图像之间的差异。让两种图像“对齐”，从而减少图像迭代时造成的损失和误差。

前馈网络(feed-forward network)方法：优化目标是神经网络模型，使用梯度下降来更新模型来优化网络模型，以网络前馈的方式实现风格迁移。

两种方法各有优点，也有缺点。基于迭代优化的方法合成图像的质量高、可控性好，易于调参，但计算时间较长，在实时性上性能较差。基于前馈网络的方法计算速度快，可用于视频快速风格化，目前工业应用软件的主流技术，但图像生成质量有待进一步提高，需要大量的训练数据。

发明内容

根据上述提出的计算时间长、需要大量训练数据的技术问题，而提供一种图像风格迁移方法及装置。本发明主要是从预训练风格迁移模型的隐空间中学习不同的风格语义，沿着不同的语义方向修改隐空间中的相关编码信息并解码可以得到具有多种风格的图像。

本发明采用的技术手段如下：

一种图像风格迁移方法，包括以下步骤：

获取内容图像I_c和风格图像I_s；

将所述内容图像I_c和风格图像I_s输入到预训练好的编码器网络E中进行特征提取，从而获得内容特征C和风格特征S；

通过数学运算或卷积网络将内容特征C和风格特征S融合，并将融合后的图像特征投影到隐空间Z；

对风格特征S输入编码器编码后得到的风格张量，将所述风格张量输入解码器网络D的第一层卷积中，基于所述风格特征S调整解码器网络第一层卷积对应的权重A₁，进而获得解调过后的解码器第一层权重A′₁；

基于FastICA算法获取一个分离矩阵W，所述分离矩阵W使矩阵A′₁ ^TA′₁中各向量的相关性最小；

基于所述分离矩阵W与矩阵A′₁ ^TA′₁计算获取解调后的语义方向集合；

基于获取的语义方向编辑所述隐空间Z中的隐空间向量，结合解码器网络D最终获取风格迁移后的图像。

进一步地，将内容特征C和风格特征S融合，包括根据以下计算获取融合结果：

其中，AdaIN(C，S)为内容特征C和风格特征S融合结果，σ(S)为风格特征S的标准差，μ(S)为风格特征S的均值，σ(C)为内容特征C的标准差，μ(C)为内容特征C的均值。

进一步地，基于所述风格特征S调整解码器网络第一层卷积对应的权重A₁，进而获得解调过后的解码器第一层权重A′₁，包括根据以下方式获取解调过后的解码器第一层权重A′₁：

其中，A₁为解码器网络第一层卷积对应的权重，A′₁为解调过后的解码器第一层权重，S为风格特征，ε为常数项。

进一步地，基于所述分离矩阵W与矩阵A′₁ ^TA′₁计算获取解调后的语义方向集合，包括根据以下计算获取解调后的语义方向集合：

N＝{n₁，n₂，…，n_k}＝WA₁ ^TA′₁

其中，N为解调后的语义方向集合，n_i为第i个语义方向，i＝1…k，W为分离矩阵，A′₁为解调过后的解码器第一层权重，A′₁ ^T为解调过后的解码器第一层权重的转置。

进一步地，基于获取的语义方向编辑所述隐空间Z中的隐空间向量，包括基于以下计算获取隐空间Z中的隐空间向量：

z′＝z+αn_i

其中，z′为编辑后的隐空间向量，z为隐空间向量，α为预设的风格改变程度，n_i第i个语义方向。

本发明还提供一种图像风格迁移装置，用于实现如权利要求1所述的图像风格迁移方法，包括：

获取单元，用于获取内容图像I_c和风格图像I_s；

编码单元，用于将所述内容图像I_c和风格图像I_s输入到预训练好的编码器网络E中进行特征提取，从而获得内容特征C和风格特征S；

融合单元，用于通过数学运算或卷积网络将内容特征C和风格特征S融合，并将融合后的图像特征投影到隐空间Z；

权重调整单元，用于将风格特征S的信息输入解码器网络D的第一层卷积中，基于所述风格特征S调整解码器网络第一层卷积对应的权重A₁，进而获得解调过后的解码器第一层权重A′₁；

分离矩阵获取单元，用于基于FastICA算法获取一个分离矩阵W，所述分离矩阵W使矩阵A′₁ ^TA′₁中各向量的相关性最小；

计算单元，用于基于所述分离矩阵W与矩阵A′₁ ^TA′₁计算获取解调后的语义方向集合；

解码单元，用于基于获取的语义方向编辑所述隐空间Z中的隐空间向量，结合解码器网络D最终获取风格迁移后的图像。

其中，AdaIN(C，S)为内容特征C和风格特征S融合结果，σ(S)为风格特征S的标准差均值，μ(S)为风格特征S的均值，σ(C)为内容特征C的标准差，μ(C)为内容特征C的均值。

进一步地，所述权重调整单元根据以下方式获取解调过后的解码器第一层权重A′₁：

进一步地，所述计算单元根据以下计算获取解调后的语义方向集合：

N＝{n₁，n₂，…，n_k}＝WA′₁ ^TA′₁

进一步地，所述解码单元基于以下计算获取隐空间Z中的隐空间向量：

z′＝z+αn_i

其中，z′为编辑后的隐空间向量，z为隐空间向量，α为潜在向量的变化程度或者风格改变的程度，n_i第i个语义方向。

较现有技术相比，本发明具有以下优点：

1、本发明大大减少了模型的复杂度，不需要学习任何参数，也不需要大量的数据集，仅通过简单的数学理论就能够从预训练模型的隐空间中学习到大量的风格。

2、本发明能够高效生成多种风格图像和对图像目标属性进行编辑。且算法简单易用，能够嵌入到不同的风格迁移模型当中，具有很强的通用性和灵活性。

3、较传统方法而言，本发明节省时间的同时还避免了设备资源的浪费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为风格迁移基本框架示意图。

图2为本发明图像风格迁移方法流程图。

图3为实施例1中本发明在AdaIN、Linear、MST、SANet四种模型上进测试的结果示意图。

图4为实施例2中本发明在AdaIN、Linear、MST、SANet四种模型上进行测试的结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图像风格迁移是计算机视觉领域的一个热点研究方向。随着深度学习的兴起，图像风格迁移领域得到了突破性的发展。那么风格迁移就是将一幅油画的风格迁移到另外一副真实图像中，并且保持真实图像中的内容不变。输入是一张内容图和一张风格图，输出是风格化的结果。整个风格化图像的过程如图1所示，分为三部分。

第一部分：特征编码。输入一张内容图像和一张风格图像，***利用编码器网络对两张图像进行相关的特征提取，即为内容特征和风格特征。

第二部分：特征融合。***需要将油画的风格特征融入到真实图像的内容特征中去，即将两种特征合并到了一个潜在空间中，为后续解码器生成新图片做好了准备工作。

第三部分：特征解码。解码器从隐空间中获取到了潜在编码，并通过神经网络将潜在编码转化为具有与风格图片相同风格的艺术图像。

目前而言，传统的风格迁移模型需要大量的艺术作品数据集和高级的卷积神经网络架构进行训练才能产生逼真的艺术图像，这一过程是耗时且耗力的。为了解决上述问题，本发明提供一种风格迁移方法，主要针对上述第三部分的隐空间，通过对隐空间中丰富的潜在信息的学习与探索，***能够从预训练模型的隐空间中学习大量的艺术风格。较传统方法而言，本发明还具有很强的通用性和灵活性，不需要对数据集进行重新学习就能够嵌入到多数风格迁移模型当中，比如AdaIN、Linear、MST、SANet等等。

如图2所示，本发明提供了一种图像风格迁移方法，是一种无监督解耦方法，主要应用于风格迁移中特征解码部分。具体是对解码器的第一层权重进行分解，从解调后的权重中学习出大量的艺术语义，并根据这些艺术语义的方向编辑图像对应的属性，生成具有多种风格的艺术作品。主要包括以下步骤：

S1、获取内容图像I_c和风格图像I_s。

S2、将所述内容图像I_c和风格图像I_s输入到预训练好的编码器网络E中进行特征提取，从而获得内容特征C和风格特征S。

S3、通过数学运算或卷积网络将内容特征C和风格特征S融合，并将融合后的图像特征投影到隐空间Z。

具体来说，本实施例中，优选采用自适应实例归一化，即分别计算两种特征均值与标准差，将内容特征C和风格特征S融合将内容特征C和风格特征S融合，具体根据以下计算获取融合结果：

S4、将风格特征S的信息输入解码器网络D的第一层卷积中，其中风格特征S的信息是指风格图像经过编码器编码后得到的风格张量，基于所述风格特征S的信息调整解码器网络第一层卷积对应的权重A₁，进而获得解调过后的解码器第一层权重A′₁。该步骤主要用于对预训练好的模型进行调整，具体来说，根据一下计算过去解调过后的解码器第一层权重A′₁：

其中，A₁为解码器网络第一层卷积对应的权重，A′₁为解调过后的解码器第一层权重，S为风格特征，ε为常数项，该常数项的功能就是为了让公式的分母不为0即可。

将风格特征S的信息被重新加入到解码器网络的第一层卷积中，以实现权重解调，从而使得调整过后的权重包含了更多的风格信息。

S5、基于FastICA算法获取一个分离矩阵W，所述分离矩阵W使矩阵A′₁ ^TA′₁中各向量的相关性最小。

S6、基于所述分离矩阵W与矩阵A′₁ ^TA′₁计算获取解调后的语义方向集合。

由于一张图像中的艺术风格是极其复杂的，大多数语义属性都是耦合状态，改变一个属性的同时极大可能改变了另外的艺术属性。为了解耦出有效的艺术语义，我们需要尽可能减少矩阵A′₁ ^TA′₁中各个向量的相关性。本实施例优选通过FastICA算法寻找到一个分离矩阵W与矩阵A′₁ ^TA′₁进行相乘，即N＝WA′₁ ^TA′₁，利用相关性最小化最大可能分离出各个艺术语义，实现从隐空间中学习艺术风格。

S7、基于获取的语义方向编辑所述隐空间Z中的隐空间向量，结合解码器网络D最终获取风格迁移后的图像。

具体来说，修改隐空间向量为z′＝z+αn_i，最终生成具有新的艺术图像I＝D(z′)。

下面通过具体的应用实例，对本发明的应用效果做进一步说明。

如图3所示，为本发明方法在AdaIN、Linear、MST、SANet四种模型上进行了测试，图中每一组图像的第一列表示源内容图像，其中右下角表示风格图像；第二列表示解码过后的源输出艺术图像；第三列和第四列表示沿着不同的语义方向修改隐空间向量后得到的具有多样化风格的图像，即沿着正反两个方向修改后的结果，即z′＝z+αn_i(第三列)，z＝z-αn_i(第四列)实现了对图片相关属性的编辑。

本发明可应用于多个方面：

1.娱乐应用

现代人对互联网社交的依赖越来越强，人们随之对互联网社交的具体应用提出了更高的要求。从电脑上的各种作图软件到手机上的各种美图软件，本算法能够很好的应用于各类软件当中。人们能够轻而易举的美化或修改自己的图片，并分享到各类社交平台。随着人们对美的要求越来越高，艺术性的美化也渐渐被提了出来。人们在欣赏自己所拍的图片之余，也希望能够把自己喜欢的图片制作成各式各样的风格，如冷色调风格，怀旧风格，冲印照片风格，素描风格，油画风格等，如图3所示。

2.辅助创作工具

伴随移动互联网技术的发展，各种智能产品层出不穷。读图时代的到来，使得色彩丰富、种类繁多的图片内容备受用户的热捧，用户迫切地渴望将即时拍下的图片美化编辑、分享交流、标签指示、贴图渲染。现在，美化照片正逐渐成为人们的一种爱好。本算法可以充当用户辅助的创建工具，特别是有助于画家更方便地创作特定风格的艺术作品，如图4所示，还能应用在创作计算机视觉图、时装设计等方面。

3、满足功能性需求

图像风格迁移功能往往需要一台拥有至少一块GPU的服务器，并运行在Linux操作***上。服务器端功能需要能够进行网络连接的服务器，往往需要很大的内存，并且数据持久化需要大内存的服务器硬盘。这使得很多优秀的风格迁移方法不能够得到实际性的应用。本算法大大降低了模型的复杂度，不需要大量的数据集进行训练，也不需要学***台上运行。本算法不仅满足了硬件要求，也满足了用户的需要。

如图4所示，为本发明在AdaIN、Linear、MST、SANet四种模型上验证了算法的多样性，图中第一列表示源内容图像，其中右下角表示风格图像；第二列表示解码过后的源输出艺术图像；其他列表示我们沿着从隐空间中学习到的艺术语义方向修改潜在向量后生成的多样化艺术图像。

对应本申请中的图像风格迁移方法，本申请还提供了一种图像风格迁移装置，包括：

获取单元，用于获取内容图像I_c和风格图像I_s；

进一步地，权重调整单元根据以下方式获取解调过后的解码器第一层权重A′₁：

进一步地，计算单元根据以下计算获取解调后的语义方向集合：

N＝{n₁，n₂，…，n_k}＝WA′₁ ^TA′₁

进一步地，解码单元基于以下计算获取隐空间Z中的隐空间向量：

z′＝z+αn_i

其中，z′为编辑后的隐空间向量，z为隐空间向量，n_i第i个语义方向，α为风格改变的程度，这个变量是人为定义的，如果人为想让图像变化明显一些就设置α大一些，反之则设置α小一些。α的变化会使得潜在向量发生变化，而潜在向量的变化会导致最终图像的风格进行改变，故该变量也可以被定义为潜在向量发生变化程度。

对于本发明实施例的而言，由于其与上面实施例中的相对应，所以描述的比较简单，相关相似之处请参见上面实施例中部分的说明即可，此处不再详述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像风格迁移方法，其特征在于，包括以下步骤：

获取内容图像I_c和风格图像I_s；

通过数学运算或卷积网络将内容特征C和风格特征S融合，并将融合后的图像特征投影到隐空间Z，将内容特征C和风格特征S融合，包括根据以下计算获取融合结果：

其中，AdaIN(C,S)为内容特征C和风格特征S融合结果，σ(S)为风格特征S的标准差，μ(S)为风格特征S的均值，σ(C)为内容特征C的标准差，μ(C)为内容特征C的均值；

对风格特征S输入编码器编码后得到的风格张量，将所述风格张量输入解码器网络D的第一层卷积中，基于所述风格特征S调整解码器网络第一层卷积对应的权重A₁，进而获得解调过后的解码器第一层权重A₁'，包括根据以下方式获取解调过后的解码器第一层权重A₁'：

其中，A₁为解码器网络第一层卷积对应的权重，A₁'为解调过后的解码器第一层权重，S为风格特征，ε为常数项；

基于FastICA算法获取一个分离矩阵W，所述分离矩阵W使矩阵A₁'^TA'₁中各向量的相关性最小；

基于所述分离矩阵W与矩阵A₁'^TA'₁计算获取解调后的语义方向集合，包括根据以下计算获取解调后的语义方向集合：

N＝{n₁,n₂,L,n_k}＝WA'₁ ^TA'₁

其中，N为解调后的语义方向集合，n_i为第i个语义方向，i＝1Lk，W为分离矩阵，A'₁为解调过后的解码器第一层权重，A'₁ ^T为解调过后的解码器第一层权重的转置；

2.根据权利要求1所述的图像风格迁移方法，其特征在于，基于获取的语义方向编辑所述隐空间Z中的隐空间向量，包括基于以下计算获取隐空间Z中的隐空间向量：

z′＝z+αn_i

其中，z'为编辑后的隐空间向量，z为隐空间向量，α为预设的风格改变程度，n_i第i个语义方向。

3.一种图像风格迁移装置，用于实现如权利要求1所述的图像风格迁移方法，其特征在于，包括：

获取单元，用于获取内容图像I_c和风格图像I_s；

编码单元，用于将所述内容图像I_c和风格图像I_s输入到预训练好的编码器网络E中进行特征提取，从而获得内容特征C和风格特征S，其中将内容特征C和风格特征S融合，包括根据以下计算获取融合结果：

权重调整单元，用于将风格特征S的信息输入解码器网络D的第一层卷积中，基于所述风格特征S调整解码器网络第一层卷积对应的权重A₁，进而获得解调过后的解码器第一层权重A'₁，包括根据以下方式获取解调过后的解码器第一层权重A'₁：

其中，A₁为解码器网络第一层卷积对应的权重，A'₁为解调过后的解码器第一层权重，S为风格特征，ε为常数项；

分离矩阵获取单元，用于基于FastICA算法获取一个分离矩阵W，所述分离矩阵W使矩阵A'₁ ^TA'₁中各向量的相关性最小；

计算单元，用于基于所述分离矩阵W与矩阵A₁'^TA'₁计算获取解调后的语义方向集合，包括根据以下计算获取解调后的语义方向集合：

N＝{n₁,n₂,L,n_k}＝WA'₁ ^TA'₁

4.根据权利要求3所述的图像风格迁移装置，其特征在于，所述解码单元基于以下计算获取隐空间Z中的隐空间向量：

z′＝z+αn_i

其中，z'为编辑后的隐空间向量，z为隐空间向量，α为潜在向量的变化程度或者风格改变的程度，n_i第i个语义方向。