CN109033095A

CN109033095A - 基于注意力机制的目标变换方法

Info

Publication number: CN109033095A
Application number: CN201810866277.0A
Authority: CN
Inventors: 胡伏原; 叶子寒; 李林燕; 孙钰; 付保川
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-18
Anticipated expiration: 2038-08-01
Also published as: CN109033095B

Abstract

本发明涉及一种基于注意力机制的目标变换方法，包括：训练神经网络模型：步骤1，使用随机数初始化神经网络模型的参数；步骤2，输入一张属于类别X的图像x到模型的生成器G中，进入编码阶段，x经过一个卷积层来计算出第一层特征图f¹。利用上述训练得到的神经网络模型进行图像的目标变换，通过在模型中引入注意力机制，使模型能够在目标变化任务中识别出需要转换的目标物体，从而将目标和背景区分开。同时，通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。

Description

基于注意力机制的目标变换方法

技术领域

本发明涉及图像翻译，特别是涉及基于注意力机制的目标变换方法。

背景技术

目标变换(Object transfiguraion)是图像翻译一个特别的任务，它的目的是在将图像中的特定类型目标物体转换为另一类型的对象。图像翻译(Image translation)旨在通过学习两类图像之间的映射关系将原始图像转换成目标风格的图像，近年来被应用到很多方面，比如图像超分辨率重建，艺术风格迁移等。研究者已经在有监督条件下提出了很多有效的转化方法。但是，由于成对数据的获取需要大量人力成本和时间成本，无监督条件下的转化方法成为图像翻译中的研究热点。Visual Attribution Transfer(VAT)是其中基于卷积神经网络CNN方法的代表，它使用模型中不同层级的特征对另一幅图中最可能对应的特征进行匹配。此外，使用生成式对抗网络(Generative adversarial network，GAN)的方法取得比基于卷积神经网络的方法更显著的效果。Isola P等人探究了GAN在图像翻译任务中的潜力。随后，Cycle-Consistent Loss被Zhu J.Y等人提出用来解决无监督图像翻译问题，他们假设图像翻译任务中学习的映射关系是一个双向映射，并以此强化模型在无监督环境下图像翻译的效果。

传统技术存在以下技术问题：

当前绝大多数图像翻译方法都没有考虑到将转换对象与背景区的差异性。在目标变化任务中，大多数模型难以有效区分转换目标和背景，无法保证原始图像背景和转换图像背景的一致性。因此，模型在转换过程中会对图像背景产生模糊，变色等作用，降低了转换图像的质量。

发明内容

基于此，有必要针对上述技术问题，提供一种基于注意力机制的目标变换方法，通过在模型中引入注意力机制，使模型能够在目标变化任务中识别出需要转换的目标物体，从而将目标和背景区分开。同时，通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。

一种基于注意力机制的目标变换方法，包括：

训练神经网络模型：

步骤1，使用随机数初始化神经网络模型的参数；

步骤2，输入一张属于类别X的图像x到模型的生成器G中，进入编码阶段，x经过一个卷积层来计算出第一层特征图f¹；

步骤3，随后f¹会经过两个分支网络：(a)一个卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个卷积层再经过一个反卷积层得到与对应的注意力掩膜M²；将M²与逐个元素相乘，所得乘积再与的元素逐个相加，得到处理后的第二层特征图f²；

步骤4，f²再按步骤3的方式得到下一层的特征图f³；随后，f³会经过6层卷积核尺寸为3*3、步长为1的残差卷积层进一步精细特征；

步骤5，进入解码阶段，反卷积层作为解码器；f³会经过两个分支网络：(a)一个反卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个反卷积层再经过一个卷积层得到与对应的注意力掩膜M⁴；将

M⁴与逐个元素相乘，所得乘积再与的元素逐个相加，得到处理后的第二层特征图f⁵；

步骤6，进入输出阶段，f⁵通过(a)一个反卷积层得到转换的图像y′；(b)先经过两个反卷积层再经过一个卷积层得到与y′对应的注意力掩模M_G(x)；

步骤7，y′会被输入另一个生成器F中，经过与步骤2-6相同的操作后得到x′和对应的注意力掩摸M_F(G(x))；

步骤8，将x和x′输入判别器D_X中，判别器D_X会返回输入图像属于类别X的概率；同样地，y和y′输入判别器D_Y中，得到y和y′属于类别Y的概率；由此计算出对抗损失函数的值：

步骤9，根据x，x′，y，y′计算出循环一致损失函数的值：

L_cyc(G，F)＝||x′-x||₁+||y′-y||₁#(3)

步骤10，使用M_G(x)将x和y′中背景与转换目标分离，算出背景变化损失：

L_bg(x，G)＝γ*||B(x，M_G(x))-B(y′，M_G(x))||₁#(4)

B(x，M_G(x))＝H(x，1-M_G(x))#(5)

设置为0.000075到0.0075；H(a，b)函数的值为a中元素逐个与b中相乘；同样，可以用M_F(G(x))将y和x′算出背景变化损失L_bg(y，F)；

步骤11，用M_G(x)和M_F(G(x))算出注意力变化损失：

L_att(x，G，F)＝α*||M_G(x)-M_F(G(x))||₁+β*(M_G(x)+M_F(G(x)))#(6)

设置为0.000003到0.00015，β设置为0.0000005到0.00005；

步骤12，学习率为0.00002到0.002的反向传播算法，根据之前步骤8-11中得出的误差，调节模型参数；

步骤13，将y当做输入图像，再经过步骤2-11的操作算出误差，不同的是是先经过生成器F再经过生成器G)；再按步骤12的方法调节模型参数；

步骤14，不断重复步骤2-13，直到模型参数收敛；

利用上述训练得到的神经网络模型进行图像的目标变换。

上述基于注意力机制的目标变换方法通过在模型中引入注意力机制，使模型能够在目标变化任务中识别出需要转换的目标物体，从而将目标和背景区分开。同时，通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。

在另外的一个实施例中，α设置为0.000015。

在另外的一个实施例中，β设置为0.000005。

在另外的一个实施例中，γ设置为0.00075。

在另外的一个实施例中，所述反向传播算法经过Adam优化。

在另外的一个实施例中，所述反向传播算法的学习率为0.0002。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

附图说明

图1为本申请实施例提供的一种基于注意力机制的目标变换方法的模型结构整体示意图。

图2为本申请实施例提供的一种基于注意力机制的目标变换方法中的三种不同的DAU结构。(DAU_decode和DAU_final在结构上相同，仅输出的Attention Mask深度不同。)

图3本申请实施例提供的一种基于注意力机制的目标变换方法在ImageNet数据集上与CycleGAN和VAT方法的比较实验结果。

图4本申请实施例提供的一种基于注意力机制的目标变换方法在CelebA数据集上与CycleGAN和VAT方法的比较实验结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种基于注意力机制的目标变换方法，包括：

训练神经网络模型：

步骤1，使用随机数初始化神经网络模型的参数；

步骤9，根据x，x′，y，y′计算出循环一致损失函数的值：

L_cyc(G，F)＝||x′-x||₁+||y′-y||₁#(3)

L_bg(x，G)＝γ*||B(x，M_G(x))-B(y′，M_G(x))||₁#(4)

B(x，M_G(x))＝H(x，1-M_G(x)#(5)

步骤11，用M_G(x)和M_F(G(x))算出注意力变化损失：

L_att(x，G，F)＝α*||M_G(x)-M_F(G(x))||1+β*(M_G(x)+M_F(G(x)))#(6)

设置为0.000003到0.00015，β设置为0.0000005到0.00005；

步骤14，不断重复步骤2-13，直到模型参数收敛；

利用上述训练得到的神经网络模型进行图像的目标变换。

在另外的一个实施例中，α设置为0.000015。

在另外的一个实施例中，β设置为0.000005。

在另外的一个实施例中，γ设置为0.00075。

在另外的一个实施例中，所述反向传播算法经过Adam优化。

下面介绍本发明的一个具体应用场景：

本发明研究的是让模型在学习将包含一类目标的图像集X映射到包含另一类目标的图像集Y的同时，能够区分出目标和背景。下图展示了本文模型的架构，我们的模型包含4个模块：生成器G，生成器F，判别器D_X，和判别器

D_Y。G用来学习映射函数G：X→Y。生成器F学习另一个相反的映射函数F:Y→X。D_X用来区分原图像x和转化图像F(y)，相应地，D_Y用来区分原图像{y}和转化图像G(x)。我们在生成器G和生成器F中，都构建了深度注意力单元(Deep Attention Unit，DAU)来提取关键区域。

(1)深度注意力单元：

在各个模态上分别计算注意力如下：本文通过构建深度注意力单元(DeepAttetion Unit，DAU)提取注意力掩膜M∈R³，使模型有了区分目标和背景的能力。图1下部分展示了加入深度注意力单元后的生成器的结构。

在编码阶段(Encode Stage)，如图1下半部分所示，给定一张输入图像x的第n-1层的特征图f^n-1(n∈{2，3})，用一个卷积层作为编码器得到x的下一层特征图

如图2(a)所示，DAU将fⁿ用两个卷积层编码后，再用以sigmoid函数(y＝1/(1+e^-x)作为激活函数的反卷积层进行一次上采样，得到与特征图尺寸一致的掩膜Mⁿ：

在解码阶段和输出阶段，如图3(b)所示，本文也一样使用了深度注意力单元，记为DAU_decode和DAU_final。但其过程与DAU_encode相反：

sigmoid函数的值域在[0，1]之间，因此注意力掩膜Mⁿ可以看成对的权重分布，可以增强有意义特征的表达，抑制无意义的信息。我们将

Mⁿ与做一个element-wise积，记为H(*)。此外，参考残差网络和残差注意力网络，我们添加shortcut以抑制梯度消失问题。

通过上述操作最终得到第n层特征图fⁿ：

(2)循环一致损失函数：

CycleGAN使用循环一致损失函数提升图像翻译的效果，它参考机器翻译领域中的对偶学习方法(Dual learning)，认为对于数据集X中的每张图像x，这个转换循环可以将x映射回原本的图像：x′＝F(y′)＝F(G(x))≈x。相应地:y′＝F(x′)＝G(F(x))≈y。由于本文模型也是对偶学习结构。我们也采用循环一致损失函数提升模型转换图像的效果：

L_cyc(G，F)＝||F(G(x))-x||₁+||G(F(y))-y||₁#(6)

(3)注意力一致损失函数：

考虑到在转换过程F(G(x))中目标在图像中的空间位置应当保持不变，本文因此构建注意力一致损失函数(Attention Consistency Loss)来对模型进行约束：

L_att(x，G，F)＝α*||M_G(x)-M_F(G(x))||₁+β*(M_G(x)+M_F(G(x)))#(7)

M_G(x)和M_F(G(x))分别表示模型在G(x)和F(G(x))的生成过程中最后一层输出的掩膜，其中元素的值表示在原图像中对应元素属于转换目标的概率。第二项是一个正则化项，可以防止模型过拟合。α，β是式中两项的权重。

(4)背景一致损失函数：

当DAU得到特征图对应的注意力掩膜后，即可使模型区分目标和背景。本文构建背景一致损失函数(Background Consistency Loss)：

L_bg(x，G)＝γ*||B(x，M_G(x))-B(G(x)，M_G(x))||₁#(8)

B(x，M_G(x))＝H(x，1-M_G(x))#(9)

γ是个超参数。B(x，M_G(x))是背景函数，1-M_G(x)中元素的值表示在原图像中对应元素属于背景的概率。对x和1-M_G(x)求element-wise积即可得出x的背景。B(G(x)，M_G(x))同理。

(5)背景一致损失函数：

对抗损失(Adversarial Loss)可以增强生成的图像的效果。对映射函数

G：X→Y和它的判别器D_Y，表示为：

G会尝试使生成的图像G(x)无法与数据集Y的图像区分，而D_Y的目的是尽可能地区分G(x)和y。G的目的是最小化这个目标函数，相反地，D会尝试最大化它。

(6)完整的目标函数：

由此转化成一个min-max优化问题：

本发明的优点在于模型能够有效识别出图像中的目标物体，忽略无关背景进而提升最终的视觉指称效果，在多个与其他当前最有方法的对比实验上都取得了最好的效果。

本文首先构建了基于注意力累积机制的深度注意力单元(Deep Attention Unit，DAU)模块，该模块的目的在于识别出图像中的目标物体，从而引导模型排除背景干扰，进而提示转换效果。

实验在ImageNet和CelebA两个数据集上进行了验证。ImageNet是一个专门用于机器视觉研究的大尺度图像数据集。我们从ImageNet中抽取了995张苹果图像，1019张橘子图像，1067张马图像和1334张斑马图像用于训练模型。

图3展示了在ImageNet数据集上的比较实验结果，图4展示了在CelebA数据集上的比较实验结果。从中可以明显看出CycleGAN和VAT对原始图像的背景产生了极大的影响。例如，在图3(a)(b)的第二列，叶片从绿色褪到了灰色。图四中，VAT的转换完全失败了：转换图像的面部已经完全变形，应有的转换特征也没有出现。例如，图4(b)无眼镜图像→有眼镜图像的转换中，VAT没有转换出一张面部带有眼镜的图像。而我们的方法DAU-GAN不但成功完成了转换任务，而且有效地保留了原始图像的背景。例如，在图3(c)马图像→斑马图像的转换中，被DAU-GAN生成的斑马图像不但保留了背景有更自然的条纹。

表格.1每张转换图像的背景平均变化值。

为了更准确地证实我们方法的效果，我们定量地统计了在测试集上转换图像背景的平均变化值。表格1展示了实验结果。对于每种转换，被DAU-GAN转换的图像的背景变化值都是最小的。它有力地证明了我们模型可以在目标变化中保留背景。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制的目标变换方法，其特征在于，包括：

训练所述神经网络模型：

步骤1，使用随机数初始化神经网络模型的参数；

步骤5，进入解码阶段，反卷积层作为解码器；f³会经过两个分支网络：(a)一个反卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个反卷积层再经过一个卷积层得到与对应的注意力掩膜M⁴；将M⁴与逐个元素相乘，所得乘积再与的元素逐个相加，得到处理后的第二层特征图f⁵；

步骤9，根据x，x′，y，y′计算出循环一致损失函数的值：

L_cyc(G，F)＝||x′-x||₁+||y′-y||₁#(3)

L_bg(x，G)＝γ*||B(x，M_G(x))-B(y′，M_G(x))||₁#(4)

B(x，M_G(x))＝H(x，1-M_G(x))＃(5)

γ设置为0.000075到0.0075；H(a，b)函数的值为a中元素逐个与b中相乘；同样，可以用M_F(G(x))将y和x′算出背景变化损失L_bg(y，F)；

步骤11，用M_G(x)和M_F(G(x))算出注意力变化损失：

L_att(x，G，F)＝α*||M_G(x)-M_F(G(x))||₁+β*(M_G(x)+M_F(G(x)))#(6)

α设置为0.000003到0.00015，β设置为0.0000005到0.00005；

步骤14，不断重复步骤2-13，直到模型参数收敛；

利用上述训练得到的神经网络模型进行图像的目标变换。

2.根据权利要求1所述的基于注意力机制的目标变换方法，其特征在于，α设置为0.000015。

3.根据权利要求1所述的基于注意力机制的目标变换方法，其特征在于，β设置为0.000005。

4.根据权利要求1所述的基于注意力机制的目标变换方法，其特征在于，γ设置为0.00075。

5.根据权利要求1所述的基于注意力机制的目标变换方法，其特征在于，所述反向传播算法经过Adam优化。

6.根据权利要求1所述的基于注意力机制的目标变换方法，其特征在于，所述反向传播算法的学习率为0.0002。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到6任一项所述的方法。