CN109033095A - 基于注意力机制的目标变换方法 - Google Patents

基于注意力机制的目标变换方法 Download PDF

Info

Publication number
CN109033095A
CN109033095A CN201810866277.0A CN201810866277A CN109033095A CN 109033095 A CN109033095 A CN 109033095A CN 201810866277 A CN201810866277 A CN 201810866277A CN 109033095 A CN109033095 A CN 109033095A
Authority
CN
China
Prior art keywords
attention
image
model
object transformation
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810866277.0A
Other languages
English (en)
Other versions
CN109033095B (zh
Inventor
胡伏原
叶子寒
李林燕
孙钰
付保川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN201810866277.0A priority Critical patent/CN109033095B/zh
Publication of CN109033095A publication Critical patent/CN109033095A/zh
Application granted granted Critical
Publication of CN109033095B publication Critical patent/CN109033095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于注意力机制的目标变换方法,包括:训练神经网络模型:步骤1,使用随机数初始化神经网络模型的参数;步骤2,输入一张属于类别X的图像x到模型的生成器G中,进入编码阶段,x经过一个卷积层来计算出第一层特征图f1。利用上述训练得到的神经网络模型进行图像的目标变换,通过在模型中引入注意力机制,使模型能够在目标变化任务中识别出需要转换的目标物体,从而将目标和背景区分开。同时,通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。

Description

基于注意力机制的目标变换方法
技术领域
本发明涉及图像翻译,特别是涉及基于注意力机制的目标变换方法。
背景技术
目标变换(Object transfiguraion)是图像翻译一个特别的任务,它的目的是在将图像中的特定类型目标物体转换为另一类型的对象。图像翻译(Image translation)旨在通过学习两类图像之间的映射关系将原始图像转换成目标风格的图像,近年来被应用到很多方面,比如图像超分辨率重建,艺术风格迁移等。研究者已经在有监督条件下提出了很多有效的转化方法。但是,由于成对数据的获取需要大量人力成本和时间成本,无监督条件下的转化方法成为图像翻译中的研究热点。Visual Attribution Transfer(VAT)是其中基于卷积神经网络CNN方法的代表,它使用模型中不同层级的特征对另一幅图中最可能对应的特征进行匹配。此外,使用生成式对抗网络(Generative adversarial network,GAN)的方法取得比基于卷积神经网络的方法更显著的效果。Isola P等人探究了GAN在图像翻译任务中的潜力。随后,Cycle-Consistent Loss被Zhu J.Y等人提出用来解决无监督图像翻译问题,他们假设图像翻译任务中学习的映射关系是一个双向映射,并以此强化模型在无监督环境下图像翻译的效果。
传统技术存在以下技术问题:
当前绝大多数图像翻译方法都没有考虑到将转换对象与背景区的差异性。在目标变化任务中,大多数模型难以有效区分转换目标和背景,无法保证原始图像背景和转换图像背景的一致性。因此,模型在转换过程中会对图像背景产生模糊,变色等作用,降低了转换图像的质量。
发明内容
基于此,有必要针对上述技术问题,提供一种基于注意力机制的目标变换方法,通过在模型中引入注意力机制,使模型能够在目标变化任务中识别出需要转换的目标物体,从而将目标和背景区分开。同时,通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。
一种基于注意力机制的目标变换方法,包括:
训练神经网络模型:
步骤1,使用随机数初始化神经网络模型的参数;
步骤2,输入一张属于类别X的图像x到模型的生成器G中,进入编码阶段,x经过一个卷积层来计算出第一层特征图f1
步骤3,随后f1会经过两个分支网络:(a)一个卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个卷积层再经过一个反卷积层得到与对应的注意力掩膜M2;将M2逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f2
步骤4,f2再按步骤3的方式得到下一层的特征图f3;随后,f3会经过6层卷积核尺寸为3*3、步长为1的残差卷积层进一步精细特征;
步骤5,进入解码阶段,反卷积层作为解码器;f3会经过两个分支网络:(a)一个反卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个反卷积层再经过一个卷积层得到与对应的注意力掩膜M4;将
M4逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f5
步骤6,进入输出阶段,f5通过(a)一个反卷积层得到转换的图像y′;(b)先经过两个反卷积层再经过一个卷积层得到与y′对应的注意力掩模MG(x)
步骤7,y′会被输入另一个生成器F中,经过与步骤2-6相同的操作后得到x′和对应的注意力掩摸MF(G(x))
步骤8,将x和x′输入判别器DX中,判别器DX会返回输入图像属于类别X的概率;同样地,y和y′输入判别器DY中,得到y和y′属于类别Y的概率;由此计算出对抗损失函数的值:
步骤9,根据x,x′,y,y′计算出循环一致损失函数的值:
Lcyc(G,F)=||x′-x||1+||y′-y||1#(3)
步骤10,使用MG(x)将x和y′中背景与转换目标分离,算出背景变化损失:
Lbg(x,G)=γ*||B(x,MG(x))-B(y′,MG(x))||1#(4)
B(x,MG(x))=H(x,1-MG(x))#(5)
设置为0.000075到0.0075;H(a,b)函数的值为a中元素逐个与b中相乘;同样,可以用MF(G(x))将y和x′算出背景变化损失Lbg(y,F)
步骤11,用MG(x)和MF(G(x))算出注意力变化损失:
Latt(x,G,F)=α*||MG(x)-MF(G(x))||1+β*(MG(x)+MF(G(x)))#(6)
设置为0.000003到0.00015,β设置为0.0000005到0.00005;
步骤12,学习率为0.00002到0.002的反向传播算法,根据之前步骤8-11中得出的误差,调节模型参数;
步骤13,将y当做输入图像,再经过步骤2-11的操作算出误差,不同的是是先经过生成器F再经过生成器G);再按步骤12的方法调节模型参数;
步骤14,不断重复步骤2-13,直到模型参数收敛;
利用上述训练得到的神经网络模型进行图像的目标变换。
上述基于注意力机制的目标变换方法通过在模型中引入注意力机制,使模型能够在目标变化任务中识别出需要转换的目标物体,从而将目标和背景区分开。同时,通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。
在另外的一个实施例中,α设置为0.000015。
在另外的一个实施例中,β设置为0.000005。
在另外的一个实施例中,γ设置为0.00075。
在另外的一个实施例中,所述反向传播算法经过Adam优化。
在另外的一个实施例中,所述反向传播算法的学习率为0.0002。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
图1为本申请实施例提供的一种基于注意力机制的目标变换方法的模型结构整体示意图。
图2为本申请实施例提供的一种基于注意力机制的目标变换方法中的三种不同的DAU结构。(DAUdecode和DAUfinal在结构上相同,仅输出的Attention Mask深度不同。)
图3本申请实施例提供的一种基于注意力机制的目标变换方法在ImageNet数据集上与CycleGAN和VAT方法的比较实验结果。
图4本申请实施例提供的一种基于注意力机制的目标变换方法在CelebA数据集上与CycleGAN和VAT方法的比较实验结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于注意力机制的目标变换方法,包括:
训练神经网络模型:
步骤1,使用随机数初始化神经网络模型的参数;
步骤2,输入一张属于类别X的图像x到模型的生成器G中,进入编码阶段,x经过一个卷积层来计算出第一层特征图f1
步骤3,随后f1会经过两个分支网络:(a)一个卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个卷积层再经过一个反卷积层得到与对应的注意力掩膜M2;将M2逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f2
步骤4,f2再按步骤3的方式得到下一层的特征图f3;随后,f3会经过6层卷积核尺寸为3*3、步长为1的残差卷积层进一步精细特征;
步骤5,进入解码阶段,反卷积层作为解码器;f3会经过两个分支网络:(a)一个反卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个反卷积层再经过一个卷积层得到与对应的注意力掩膜M4;将
M4逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f5
步骤6,进入输出阶段,f5通过(a)一个反卷积层得到转换的图像y′;(b)先经过两个反卷积层再经过一个卷积层得到与y′对应的注意力掩模MG(x)
步骤7,y′会被输入另一个生成器F中,经过与步骤2-6相同的操作后得到x′和对应的注意力掩摸MF(G(x))
步骤8,将x和x′输入判别器DX中,判别器DX会返回输入图像属于类别X的概率;同样地,y和y′输入判别器DY中,得到y和y′属于类别Y的概率;由此计算出对抗损失函数的值:
步骤9,根据x,x′,y,y′计算出循环一致损失函数的值:
Lcyc(G,F)=||x′-x||1+||y′-y||1#(3)
步骤10,使用MG(x)将x和y′中背景与转换目标分离,算出背景变化损失:
Lbg(x,G)=γ*||B(x,MG(x))-B(y′,MG(x))||1#(4)
B(x,MG(x))=H(x,1-MG(x)#(5)
设置为0.000075到0.0075;H(a,b)函数的值为a中元素逐个与b中相乘;同样,可以用MF(G(x))将y和x′算出背景变化损失Lbg(y,F);
步骤11,用MG(x)和MF(G(x))算出注意力变化损失:
Latt(x,G,F)=α*||MG(x)-MF(G(x))||1+β*(MG(x)+MF(G(x)))#(6)
设置为0.000003到0.00015,β设置为0.0000005到0.00005;
步骤12,学习率为0.00002到0.002的反向传播算法,根据之前步骤8-11中得出的误差,调节模型参数;
步骤13,将y当做输入图像,再经过步骤2-11的操作算出误差,不同的是是先经过生成器F再经过生成器G);再按步骤12的方法调节模型参数;
步骤14,不断重复步骤2-13,直到模型参数收敛;
利用上述训练得到的神经网络模型进行图像的目标变换。
上述基于注意力机制的目标变换方法通过在模型中引入注意力机制,使模型能够在目标变化任务中识别出需要转换的目标物体,从而将目标和背景区分开。同时,通过构建注意力一致损失函数和背景一致损失函数来保证原始图像和转换图像的背景一致性。
在另外的一个实施例中,α设置为0.000015。
在另外的一个实施例中,β设置为0.000005。
在另外的一个实施例中,γ设置为0.00075。
在另外的一个实施例中,所述反向传播算法经过Adam优化。
在另外的一个实施例中,所述反向传播算法的学习率为0.0002。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
下面介绍本发明的一个具体应用场景:
本发明研究的是让模型在学习将包含一类目标的图像集X映射到包含另一类目标的图像集Y的同时,能够区分出目标和背景。下图展示了本文模型的架构,我们的模型包含4个模块:生成器G,生成器F,判别器DX,和判别器
DY。G用来学习映射函数G:X→Y。生成器F学习另一个相反的映射函数F:Y→X。DX用来区分原图像x和转化图像F(y),相应地,DY用来区分原图像{y}和转化图像G(x)。我们在生成器G和生成器F中,都构建了深度注意力单元(Deep Attention Unit,DAU)来提取关键区域。
(1)深度注意力单元:
在各个模态上分别计算注意力如下:本文通过构建深度注意力单元(DeepAttetion Unit,DAU)提取注意力掩膜M∈R3,使模型有了区分目标和背景的能力。图1下部分展示了加入深度注意力单元后的生成器的结构。
在编码阶段(Encode Stage),如图1下半部分所示,给定一张输入图像x的第n-1层的特征图fn-1(n∈{2,3}),用一个卷积层作为编码器得到x的下一层特征图
如图2(a)所示,DAU将fn用两个卷积层编码后,再用以sigmoid函数(y=1/(1+e-x)作为激活函数的反卷积层进行一次上采样,得到与特征图尺寸一致的掩膜Mn
在解码阶段和输出阶段,如图3(b)所示,本文也一样使用了深度注意力单元,记为DAUdecode和DAUfinal。但其过程与DAUencode相反:
sigmoid函数的值域在[0,1]之间,因此注意力掩膜Mn可以看成对的权重分布,可以增强有意义特征的表达,抑制无意义的信息。我们将
Mn做一个element-wise积,记为H(*)。此外,参考残差网络和残差注意力网络,我们添加shortcut以抑制梯度消失问题。
通过上述操作最终得到第n层特征图fn
(2)循环一致损失函数:
CycleGAN使用循环一致损失函数提升图像翻译的效果,它参考机器翻译领域中的对偶学习方法(Dual learning),认为对于数据集X中的每张图像x,这个转换循环可以将x映射回原本的图像:x′=F(y′)=F(G(x))≈x。相应地:y′=F(x′)=G(F(x))≈y。由于本文模型也是对偶学习结构。我们也采用循环一致损失函数提升模型转换图像的效果:
Lcyc(G,F)=||F(G(x))-x||1+||G(F(y))-y||1#(6)
(3)注意力一致损失函数:
考虑到在转换过程F(G(x))中目标在图像中的空间位置应当保持不变,本文因此构建注意力一致损失函数(Attention Consistency Loss)来对模型进行约束:
Latt(x,G,F)=α*||MG(x)-MF(G(x))||1+β*(MG(x)+MF(G(x)))#(7)
MG(x)和MF(G(x))分别表示模型在G(x)和F(G(x))的生成过程中最后一层输出的掩膜,其中元素的值表示在原图像中对应元素属于转换目标的概率。第二项是一个正则化项,可以防止模型过拟合。α,β是式中两项的权重。
(4)背景一致损失函数:
当DAU得到特征图对应的注意力掩膜后,即可使模型区分目标和背景。本文构建背景一致损失函数(Background Consistency Loss):
Lbg(x,G)=γ*||B(x,MG(x))-B(G(x),MG(x))||1#(8)
B(x,MG(x))=H(x,1-MG(x))#(9)
γ是个超参数。B(x,MG(x))是背景函数,1-MG(x)中元素的值表示在原图像中对应元素属于背景的概率。对x和1-MG(x)求element-wise积即可得出x的背景。B(G(x),MG(x))同理。
(5)背景一致损失函数:
对抗损失(Adversarial Loss)可以增强生成的图像的效果。对映射函数
G:X→Y和它的判别器DY,表示为:
G会尝试使生成的图像G(x)无法与数据集Y的图像区分,而DY的目的是尽可能地区分G(x)和y。G的目的是最小化这个目标函数,相反地,D会尝试最大化它。
(6)完整的目标函数:
由此转化成一个min-max优化问题:
本发明的优点在于模型能够有效识别出图像中的目标物体,忽略无关背景进而提升最终的视觉指称效果,在多个与其他当前最有方法的对比实验上都取得了最好的效果。
本文首先构建了基于注意力累积机制的深度注意力单元(Deep Attention Unit,DAU)模块,该模块的目的在于识别出图像中的目标物体,从而引导模型排除背景干扰,进而提示转换效果。
实验在ImageNet和CelebA两个数据集上进行了验证。ImageNet是一个专门用于机器视觉研究的大尺度图像数据集。我们从ImageNet中抽取了995张苹果图像,1019张橘子图像,1067张马图像和1334张斑马图像用于训练模型。
图3展示了在ImageNet数据集上的比较实验结果,图4展示了在CelebA数据集上的比较实验结果。从中可以明显看出CycleGAN和VAT对原始图像的背景产生了极大的影响。例如,在图3(a)(b)的第二列,叶片从绿色褪到了灰色。图四中,VAT的转换完全失败了:转换图像的面部已经完全变形,应有的转换特征也没有出现。例如,图4(b)无眼镜图像→有眼镜图像的转换中,VAT没有转换出一张面部带有眼镜的图像。而我们的方法DAU-GAN不但成功完成了转换任务,而且有效地保留了原始图像的背景。例如,在图3(c)马图像→斑马图像的转换中,被DAU-GAN生成的斑马图像不但保留了背景有更自然的条纹。
表格.1每张转换图像的背景平均变化值。
为了更准确地证实我们方法的效果,我们定量地统计了在测试集上转换图像背景的平均变化值。表格1展示了实验结果。对于每种转换,被DAU-GAN转换的图像的背景变化值都是最小的。它有力地证明了我们模型可以在目标变化中保留背景。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于注意力机制的目标变换方法,其特征在于,包括:
训练所述神经网络模型:
步骤1,使用随机数初始化神经网络模型的参数;
步骤2,输入一张属于类别X的图像x到模型的生成器G中,进入编码阶段,x经过一个卷积层来计算出第一层特征图f1
步骤3,随后f1会经过两个分支网络:(a)一个卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个卷积层再经过一个反卷积层得到与对应的注意力掩膜M2;将M2逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f2
步骤4,f2再按步骤3的方式得到下一层的特征图f3;随后,f3会经过6层卷积核尺寸为3*3、步长为1的残差卷积层进一步精细特征;
步骤5,进入解码阶段,反卷积层作为解码器;f3会经过两个分支网络:(a)一个反卷积层得到未经注意力掩膜处理的第二层特征图(b)先经过两个反卷积层再经过一个卷积层得到与对应的注意力掩膜M4;将M4逐个元素相乘,所得乘积再与的元素逐个相加,得到处理后的第二层特征图f5
步骤6,进入输出阶段,f5通过(a)一个反卷积层得到转换的图像y′;(b)先经过两个反卷积层再经过一个卷积层得到与y′对应的注意力掩模MG(x)
步骤7,y′会被输入另一个生成器F中,经过与步骤2-6相同的操作后得到x′和对应的注意力掩摸MF(G(x))
步骤8,将x和x′输入判别器DX中,判别器DX会返回输入图像属于类别X的概率;同样地,y和y′输入判别器DY中,得到y和y′属于类别Y的概率;由此计算出对抗损失函数的值:
步骤9,根据x,x′,y,y′计算出循环一致损失函数的值:
Lcyc(G,F)=||x′-x||1+||y′-y||1#(3)
步骤10,使用MG(x)将x和y′中背景与转换目标分离,算出背景变化损失:
Lbg(x,G)=γ*||B(x,MG(x))-B(y′,MG(x))||1#(4)
B(x,MG(x))=H(x,1-MG(x))#(5)
γ设置为0.000075到0.0075;H(a,b)函数的值为a中元素逐个与b中相乘;同样,可以用MF(G(x))将y和x′算出背景变化损失Lbg(y,F);
步骤11,用MG(x)和MF(G(x))算出注意力变化损失:
Latt(x,G,F)=α*||MG(x)-MF(G(x))||1+β*(MG(x)+MF(G(x)))#(6)
α设置为0.000003到0.00015,β设置为0.0000005到0.00005;
步骤12,学习率为0.00002到0.002的反向传播算法,根据之前步骤8-11中得出的误差,调节模型参数;
步骤13,将y当做输入图像,再经过步骤2-11的操作算出误差,不同的是是先经过生成器F再经过生成器G);再按步骤12的方法调节模型参数;
步骤14,不断重复步骤2-13,直到模型参数收敛;
利用上述训练得到的神经网络模型进行图像的目标变换。
2.根据权利要求1所述的基于注意力机制的目标变换方法,其特征在于,α设置为0.000015。
3.根据权利要求1所述的基于注意力机制的目标变换方法,其特征在于,β设置为0.000005。
4.根据权利要求1所述的基于注意力机制的目标变换方法,其特征在于,γ设置为0.00075。
5.根据权利要求1所述的基于注意力机制的目标变换方法,其特征在于,所述反向传播算法经过Adam优化。
6.根据权利要求1所述的基于注意力机制的目标变换方法,其特征在于,所述反向传播算法的学习率为0.0002。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。
CN201810866277.0A 2018-08-01 2018-08-01 基于注意力机制的目标变换方法 Active CN109033095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810866277.0A CN109033095B (zh) 2018-08-01 2018-08-01 基于注意力机制的目标变换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810866277.0A CN109033095B (zh) 2018-08-01 2018-08-01 基于注意力机制的目标变换方法

Publications (2)

Publication Number Publication Date
CN109033095A true CN109033095A (zh) 2018-12-18
CN109033095B CN109033095B (zh) 2022-10-18

Family

ID=64647612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810866277.0A Active CN109033095B (zh) 2018-08-01 2018-08-01 基于注意力机制的目标变换方法

Country Status (1)

Country Link
CN (1) CN109033095B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712068A (zh) * 2018-12-21 2019-05-03 云南大学 用于葫芦烙画的图像风格迁移与模拟方法
CN109784197A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109829537A (zh) * 2019-01-30 2019-05-31 华侨大学 基于深度学习gan网络童装服装的风格转移方法及设备
CN109902602A (zh) * 2019-02-16 2019-06-18 北京工业大学 一种基于对抗神经网络数据增强的机场跑道异物材料识别方法
CN110033410A (zh) * 2019-03-28 2019-07-19 华中科技大学 图像重建模型训练方法、图像超分辨率重建方法及装置
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110634101A (zh) * 2019-09-06 2019-12-31 温州大学 一种基于随机重构的无监督图像到图像的转换方法
CN110766638A (zh) * 2019-10-31 2020-02-07 北京影谱科技股份有限公司 一种对图像中物体背景风格进行转换方法和装置
CN111325318A (zh) * 2019-02-01 2020-06-23 北京地平线机器人技术研发有限公司 神经网络的训练方法、神经网络的训练装置和电子设备
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN112884773A (zh) * 2021-01-11 2021-06-01 天津大学 基于背景变换下目标注意力一致性的目标分割模型
CN113256592A (zh) * 2021-06-07 2021-08-13 中国人民解放军总医院 图像特征提取模型的训练方法、***及装置
CN113538224A (zh) * 2021-09-14 2021-10-22 深圳市安软科技股份有限公司 基于生成对抗网络的图像风格迁移方法、装置及相关设备
CN113657560A (zh) * 2021-10-20 2021-11-16 南京理工大学 基于节点分类的弱监督图像语义分割方法及***
CN113808011A (zh) * 2021-09-30 2021-12-17 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009525A (zh) * 2017-12-25 2018-05-08 北京航空航天大学 一种基于卷积神经网络的无人机对地特定目标识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009525A (zh) * 2017-12-25 2018-05-08 北京航空航天大学 一种基于卷积神经网络的无人机对地特定目标识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN-YAN ZHU ET AL.: "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks", 《ARXIV:1703.10593V1》 *
ZIHAN YE ET AL.: "DAU-GAN: Unsupervised Object Transfiguration via Deep Attention Unit", 《BICS 2018》 *
胡光伟: "BP神经网络的训练算法", 《洞庭湖水沙时空演变及其对水资源安全的影响研究》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784197B (zh) * 2018-12-21 2022-06-07 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109784197A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109712068A (zh) * 2018-12-21 2019-05-03 云南大学 用于葫芦烙画的图像风格迁移与模拟方法
CN109829537A (zh) * 2019-01-30 2019-05-31 华侨大学 基于深度学习gan网络童装服装的风格转移方法及设备
CN109829537B (zh) * 2019-01-30 2023-10-24 华侨大学 基于深度学习gan网络童装服装的风格转移方法及设备
CN111325318A (zh) * 2019-02-01 2020-06-23 北京地平线机器人技术研发有限公司 神经网络的训练方法、神经网络的训练装置和电子设备
CN111325318B (zh) * 2019-02-01 2023-11-24 北京地平线机器人技术研发有限公司 神经网络的训练方法、神经网络的训练装置和电子设备
CN109902602B (zh) * 2019-02-16 2021-04-30 北京工业大学 一种基于对抗神经网络数据增强的机场跑道异物材料识别方法
CN109902602A (zh) * 2019-02-16 2019-06-18 北京工业大学 一种基于对抗神经网络数据增强的机场跑道异物材料识别方法
CN110033410A (zh) * 2019-03-28 2019-07-19 华中科技大学 图像重建模型训练方法、图像超分辨率重建方法及装置
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110084794B (zh) * 2019-04-22 2020-12-22 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110634101A (zh) * 2019-09-06 2019-12-31 温州大学 一种基于随机重构的无监督图像到图像的转换方法
CN110634101B (zh) * 2019-09-06 2023-01-31 温州大学 一种基于随机重构的无监督图像到图像的转换方法
CN110766638A (zh) * 2019-10-31 2020-02-07 北京影谱科技股份有限公司 一种对图像中物体背景风格进行转换方法和装置
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111489287B (zh) * 2020-04-10 2024-02-09 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN112884773A (zh) * 2021-01-11 2021-06-01 天津大学 基于背景变换下目标注意力一致性的目标分割模型
CN112884773B (zh) * 2021-01-11 2022-03-04 天津大学 基于背景变换下目标注意力一致性的目标分割模型
CN113256592B (zh) * 2021-06-07 2021-10-08 中国人民解放军总医院 图像特征提取模型的训练方法、***及装置
CN113256592A (zh) * 2021-06-07 2021-08-13 中国人民解放军总医院 图像特征提取模型的训练方法、***及装置
CN113538224B (zh) * 2021-09-14 2022-01-14 深圳市安软科技股份有限公司 基于生成对抗网络的图像风格迁移方法、装置及相关设备
CN113538224A (zh) * 2021-09-14 2021-10-22 深圳市安软科技股份有限公司 基于生成对抗网络的图像风格迁移方法、装置及相关设备
CN113808011A (zh) * 2021-09-30 2021-12-17 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件
CN113808011B (zh) * 2021-09-30 2023-08-11 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件
CN113657560B (zh) * 2021-10-20 2022-04-15 南京理工大学 基于节点分类的弱监督图像语义分割方法及***
CN113657560A (zh) * 2021-10-20 2021-11-16 南京理工大学 基于节点分类的弱监督图像语义分割方法及***

Also Published As

Publication number Publication date
CN109033095B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN109033095A (zh) 基于注意力机制的目标变换方法
Bar et al. Visual prompting via image inpainting
Lu et al. Evolving block-based convolutional neural network for hyperspectral image classification
Reed et al. Few-shot autoregressive density estimation: Towards learning to learn distributions
CN111340122B (zh) 一种多模态特征融合的文本引导图像修复方法
Liao et al. Learning deep parsimonious representations
Vemulapalli et al. Gaussian conditional random field network for semantic segmentation
Canchumuni et al. Recent developments combining ensemble smoother and deep generative networks for facies history matching
Lee et al. Understanding pure clip guidance for voxel grid nerf models
Ma et al. Multi-feature fusion deep networks
Li Active learning for hyperspectral image classification with a stacked autoencoders based neural network
CN106934458A (zh) 基于深度学习的多层自动编码方法及***
Gu et al. A self-training hierarchical prototype-based ensemble framework for remote sensing scene classification
CN113362242A (zh) 基于多特征融合网络的图像修复方法
CN115578680A (zh) 一种视频理解方法
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
Li et al. A deep neural network based quasi-linear kernel for support vector machines
Li et al. Diversified text-to-image generation via deep mutual information estimation
Wu et al. Transformer Autoencoder for K-means Efficient clustering
Oza et al. Semi-supervised image-to-image translation
CN112380843A (zh) 一种基于随机扰动网络的开放性答案生成方法
Jiang et al. Multi-feature deep learning for face gender recognition
Ahn et al. Multi-branch neural architecture search for lightweight image super-resolution
Wu et al. An adaptive stacked denoising auto-encoder architecture for human action recognition
Nene Deep learning for natural languaje processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant