CN109712203B - 一种基于自注意力生成对抗网络的图像着色方法 - Google Patents

一种基于自注意力生成对抗网络的图像着色方法 Download PDF

Info

Publication number
CN109712203B
CN109712203B CN201811644107.4A CN201811644107A CN109712203B CN 109712203 B CN109712203 B CN 109712203B CN 201811644107 A CN201811644107 A CN 201811644107A CN 109712203 B CN109712203 B CN 109712203B
Authority
CN
China
Prior art keywords
image
stage
representing
training
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811644107.4A
Other languages
English (en)
Other versions
CN109712203A (zh
Inventor
薛雨阳
李�根
童同
高钦泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Imperial Vision Information Technology Co ltd
Original Assignee
Fujian Imperial Vision Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Imperial Vision Information Technology Co ltd filed Critical Fujian Imperial Vision Information Technology Co ltd
Priority to CN201811644107.4A priority Critical patent/CN109712203B/zh
Publication of CN109712203A publication Critical patent/CN109712203A/zh
Application granted granted Critical
Publication of CN109712203B publication Critical patent/CN109712203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于自注意力生成对抗网络的图像着色方法,其包括以下步骤:步骤1,训练灰度图片着色模型;步骤2,将训练数据集中的灰度图像输入对抗网络执行特征提取阶段、特征融合阶段、反卷积计算阶段以及自注意力学习阶段重建出其对应的彩色图像;步骤3,将自注意力学习后重建的彩色图像与对应的原始色彩图像进行比较,计算
Figure DEST_PATH_IMAGE002
惩罚函数;步骤4,基于
Figure DEST_PATH_IMAGE004
损失函数作为GAN的优化损失;步骤5,将训练过程分为预设的多个子训练周期,采用步进增长策略依次进行子训练周期的训练以获取生成器网络。本发明采用对抗生成网络来从一张黑白或者灰度图像中重构出符合人类主观视觉偏好的彩色图像,使得更加逼真。

Description

一种基于自注意力生成对抗网络的图像着色方法
技术领域
本发明涉及图像着色及增强领域,尤其涉及一种基于自注意力生成对抗网络的图像着色方法。
背景技术
图像着色是一种图像增强的基本手段,旨在没有任何色彩提示的情况下为灰度图补充色彩信息,得到更佳完善的观感和视觉体验。随着时代的发展,彩色图像及视频对于普通消费者已经是稀松平常的体验,相对于早期只有黑白或者灰度信息的图片和影像资料显得丰富多彩。然而,老旧的黑白或者灰度资料由于缺少颜色信息,极难恢复成为体验更佳的彩色资料供现代观众观看。再者,随着硬件技术的飞跃,为了获得更好的视觉体验,人们对于4K乃至8K的图片和影像资料的需求越来越大。因此,为了使灰度图片及视频资料重焕生机,以及提高用户体验的情况下,我们亟需一种灰度图像和视频的人工智能着色方法。
在许久以前,图形学专家和计算机科学家就不断地在考虑图像着色问题。图像着色问题基本分成两类,一类是带有用户提示的辅助着色方法,第二类是无需任何着色提示的智能着色方法。基于提示的辅助着色方法需要人类的监督来完成上色,其也有两个分支:颜色涂抹法和色彩迁移法。Levin【1】提出的基于颜色涂抹的方法十分高效,也得到了广泛应用。该模型以凸优化的方法,利用用户在局部区域涂抹的颜色色调对灰度图片进行上色,而实际上并没有学习到对于特定物件的上色方法。Yatziv【2】在Levin的基础上提出了色度混合,将应用扩展到视频的上色。Qu【3】在漫画上色领域另有建树,该方法提升了在相同纹理下的颜色连贯性和一致性。在色彩迁移法上,Welsh【4】提出了基于另一张彩色图片作为参考,为灰度图像上色的方法。该模型能够为灰度图和参考图之间的信息产生一种色彩映射。
另一方面,智能着色方法更加吸引科学家的投入。由于极大地减少了图像上色的先验知识,自动上色的工作尤为困难,但其优势在于减去了大量的人力成本和上色时间,从而达到更为高效和便捷地实现图像着色问题。传统的智能着色方法采用了HoG【5】,DAISY【6】或色彩直方图【7】来作为特征产生彩色图片。然而,随着深度学习的引入和大数据的加成,卷积神经网络已经在计算机视觉方面显示出其极大的层级特征提取能力,也逐渐取代了传统的特征工程。目前,基于卷积神经网络可以只用单纯的灰度图像作为端到端的模型输入来重构出其对应的彩色图像。然而,较为普遍的方法是使用逐像素的L1或者L2范数来计算重构的彩色图像与其对应的真实彩色图像间的差异,难免会产生色彩模糊及色彩溢出的问题。Cheng【8】提出了利用小神经网络模型来提取不同特征及不同像素块进行上色的方法,同时也已用了语义直方图对图片进行区块处理。
随着Goodfellow提出的生成对抗网络【5】(Generative adversarial networks:GAN)的出现,使用生成器和判别器之间的对抗学习,minimax损失函数也与之前提到的L2损失极为不同。近年来,许多基于GAN的方法如春笋般提出,其中包括最基础的DCGAN【9】,条件GAN 【10】,以及Pix2Pix【11】较为复杂的CycleGAN【12】等。虽然基于GAN的相关研究已经取得了较好的效果,但其方法基本都应用于学习待转换的图像与参考图像之间映射关系,达到生成的图像更接近真实图像,使得更加逼真。
发明内容
本发明的目的在于提供一种基于自注意力生成对抗网络的图像着色方法,利用自注意力生成对抗网络的技术将把黑白或者灰度图片重构出其对应的彩色图像的方法,目的在于提高老旧图片和影视资料的观感体验。本发明显著地提高了图像着色效果。。
本发明采用的技术方案是:
一种基于自注意力生成对抗网络的图像着色方法,其包括如下步骤:
步骤1:为了训练灰度图片着色模型,选取大量的彩色图像,在每张彩色原始图像进行旋转,镜像,和裁剪操作,得到大量的增广图片数据,并对每张彩色原始图像转其对应的灰度图像。为了提高彩色图像重构效果将把灰色图像堆叠成三通道的图像。之后将把灰度图像IG和彩色原始图像IC分别匹配作为深度学习的训练数据集,图片初始大小均为3×512×512,分别对应颜色通道,图片宽度和高度。
步骤2:将训练数据集中的灰度图像输入生成网络执行特征提取阶段、特征融合阶段、反卷积计算阶段以及自注意力学习阶段,最终重建出其对应的彩色图像。所述步骤2具体包括以下几个步骤:
步骤2.1:特征提取阶段
特征提取阶段由六大块卷积层组成,每个卷积块内又包括三个相同维度输入输出的卷积层。输入的灰度图像进入特征提取层后,进行卷积运算、谱归一化、批归一化和激活函数运算得到特征提取层输出结果,其中一个大卷积块的计算公式是:
F=g{BN{SN{W3*g{BN{SN{W2*g{BN{SN{W1*IG+B1}}}+B2}}}+B3}}} (1)
其中g表示非线性激活函数,W1,W2,W3,B1,B2,B3分别表示特征提取阶段中第一个、第二个和第三个卷积层的权重和偏置,SN表示谱归一化函数,BN表示批归一化函数,Ig表示输入图片,F表示特征提取阶段得到的输出结果。
步骤2.2特征融合阶段:
特征融合阶段由一个卷积层和一个跳跃式连接构成。通过跳跃式连接将该层的输出与特征提取层的输出相连接,避免梯度弥散并且通过保留原始特征以增强信息。表示公式如下:
Fg=g(BN(WLFL+BL))+F2 (2)
其中FL表示特征提取卷积模块的输出,WL和BL表示特征融合阶段卷积层的权重和偏置参数,F2是前一阶段的特征提取层的输出,g表示非线性激活函数。
步骤2.3反卷积计算阶段:
本发明的反卷积计算阶段由一个或者多个反卷积层组成,反卷积层将特征融合阶段所得特征图进行上采样操作,根据放大倍数选择反卷积的数量,同时减少特征层的通道数减小计算量。其计算公式是:
I′O=((Wd1*Fg+Bd1)*Wd2+Bd2)…*Wdn+Bdn (3)
其中Wd1,Wd2,Wdn,Bd1,Bd2,和Bdn分别表示第一个、第二个和第n个反卷积层的权重和偏置参数,Fg是步骤2.2的特征融合层的输出,I′O表示反卷积阶段的输出。
步骤2.4自注意力学习阶段:
本发明的自注意力学习阶段由多个卷积层组成。自注意力引入到卷积GAN中是对卷积的有机补充,有助于模拟跨越图像区域的长距离、多级别依赖关系。先前提出的基于卷积网络的GAN由于卷积层容易生成大量相同纹理而产生的失真效果明显,而自注意力网络能对每个位置的细节都与远处的细节进行准确协调。其计算公式是:
Figure BDA0001931698400000031
其中i为输出位置,j为参与运算的位置,Cx)为归一化参量,f(xi,xj)表示向量xi与xj处的相似关系函数,g(xj)为xj处的特征。
步骤3:利用步骤2.4自注意力学习后重建的上色图像与步骤1中所对应的原始色彩图像进行比较,计算Perceptual Loss惩罚函数。该损失函数可以表示为:
Figure BDA0001931698400000032
其中,j表示网络的第j层,CjHjWj表示第j层特征图的大小。损失网络使用在ImageNet上训练好的VGG16网络,用φ表示网络。
步骤4,基于HingeLoss损失函数作为GAN的优化损失,损失函数为:
Figure BDA0001931698400000033
Figure BDA0001931698400000041
其中,LD表示判别器的损失函数,LG表示生成器的损失函数。损失函数的计算都可以看作是在数据P分布情况下的期望;
步骤5,将训练过程分为预设的多个子训练周期,采用步进增长策略依次进行子训练周期的训练;训练开始时将彩色原始图像缩放成小图片并佐以大学习率开始训练,且每完成一个子训练周期后逐步增大彩色原始图像并逐步减小学习率;
当完成一个子训练周期后重建的彩色图像与其对应的原始色彩图像比较时没有获得预先设定的重建效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数再执行步骤2;当在完成一个子训练周期后重建的彩色图像达到预期或完成所有预设的子训练周期的次数后,则获得最终结果。
具体地,与以往单个重复单个训练周期不断训练GAN的生成器和辨别器的训练方式不同,采用步进增长策略。在原始图片缩放成小图片的基础上开始训练,并佐以大学习率。在训练周期结束后增大输入图片,再减小学习率在此进行训练。以此类推,这样可以让分辨率更高的图片在低分辨率图片的基础上增强精度,减少因卷积网络生成导致的失真和不合理的颜色效果。
本发明采用以上技术方案,采用对抗生成网络来从一张黑白或者灰度图像中重构出其对应的较为符合人类主观视觉偏好的彩色图像,使得更加逼真。本发明结合了自注意力技术与渐进增大彩色图像分辨率的思想,从极小彩色图像到极大彩色图像的分辨率渐进增大,重构出更好的着色效果。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1是本发明基于自注意力生成对抗网络的图像着色方法的网络结构;
图2是本发明所提出网络结构中自注意力学习模块;
图3是本发明与PaintsChainer,LTBC[1]和RTIC[2]在公开数据集Konachan上测试的效果对比图;
图4是本发明与PaintsChainer,LTBC[1]和RTIC[2]在公开数据集Danbooru上测试的效果对比图;
图5是本发明与PaintsChainer,LTBC[1]和RTIC[2]在公开数据集ImageNet上测试的效果对比图。
具体实施方式
如图1-5之一所示,本发明公开了一种基于自注意力生成对抗网络的图像着色方法,其包括如下步骤:
步骤1:为了训练灰度图片生成模型,选取Konachan高清动漫图片数据集,对原2K或4K分辨率的图片数据进行随机截取成为彩色原始图像,再对每张彩色原始图像进行旋转,镜像操作后,并经过RGB转灰度图操作,获得其对应的灰度图像。然后将灰度图像IC和彩色原图像IC分别切割成1×512×512和3×512×512的子图像,并进行归一化处理将图像像素值映射到[-1,1区间,得到训练数据集。
步骤2:将训练数据集中的灰度图像扩充到三维,和所期望的彩色输出图像维度一致,输入网络分别执行特征提取和数据生成。训练采取不同的输入图像大小、批量大小(为了适应GPU显存)、学习率等,将训练数据集中的灰度图像输入生成网络执行特征提取阶段、特征融合阶段、反卷积计算阶段以及自注意力学习阶段,最终重建出其对应的彩色图像。所述步骤2具体包括以下几个步骤:
步骤2.1特征提取阶段:
特征提取阶段由六大块卷积层组成,除了第一个卷积层的卷积核为7×7大小,其他卷积核均为3×3。每个卷积块内又包括三个相同维度输入输出的输入的灰度图像进入特征提取层后,进行卷积运算、谱归一化、批归一化和激活函数运算得到特征提取层输出结果。第一个卷积层通道数设置为64,之后逐块递增至512。其中一个大卷积块的计算公式是:
F=g{BN{SN{W3*g{BN{SN{W2*g{BN{SN{W1*IG+B1}}}+B2}}}+B3}}} (1)
其中g表示非线性激活函数,在本网络中指代ReLU激活函数,W1,W2,W3,B1,B2,B3分别表示特征提取阶段中第一个、第二个和第三个卷积层的权重和偏置,SN表示谱归一化函数,BN表示批归一化函数,Ig表示输入图片,F表示特征提取阶段得到的输出结果。使用谱归一化方法来限制GAN中分辨器D的优化过程,从而达到整个模型能学习到更好的生成器G的结果。
步骤2.2特征融合阶段:
特征融合阶段由一个卷积层和一个跳跃式连接构成。通过跳跃式连接将该层的输出与特征提取层的输出相连接,避免梯度弥散并且通过保留原始特征以增强信息。其中卷积层的卷积核大小设置为3×3,滤波器个数为20,卷积层输出接批归一化以及非线性激活函数ReLU。表示公式如下:
Fg=g(BN(WLFL+BL))+F (2)
其中FL表示特征提取卷积模块的输出,WL和BL表示特征融合阶段卷积层的权重和偏置参数,BN表示批归一化层,F是特征提取层的输出,g表示非线性激活函数。
步骤2.3反卷积计算阶段:
本发明的反卷积计算阶段由一个或者多个反卷积层组成,反卷积层将特征融合阶段所得特征图进行上采样操作,根据放大倍数选择反卷积的数量,其计算公式是:
I′O=((Wd1*Fg+Bd1)*Wd2+Bd2)…*Wdn+Bdn (3)
其中Wd1,Wd2,Wdn,Bd1,Bd2,和Bdn分别表示第一个、第二个和第n个反卷积层的权重和偏置参数,Fg是步骤2.2的特征融合层的输出,I′O表示反卷积阶段的输出。反卷积层的滤波器大小均为4×4,步长为2。在实际操作中,特征融合和反卷积阶段同时进行,先有特征融合得到新的特征图再进行反卷积。
步骤2.4自注意力学习阶段:
本发明的自注意力学习阶段由多个卷积层组成。自注意力引入到卷积GAN中是对卷积的有机补充,有助于模拟跨越图像区域的长距离,多级别依赖关系。先前的基于卷积网络的GAN由于卷积层容易生成大量相同纹理而产生的失真效果明显,而自注意力网络能对每个位置的细节都与远处的细节进行准确协调。其计算公式是:
Figure BDA0001931698400000061
其中i为输出位置,j为参与运算的位置,C(x)为归一化参量,f(xi,xj)表示向量xi与xj处的相似关系函数,g(xj)为xj处的特征。在自注意力学习曾中运用到的卷积输入和输出通道分别为64和3,卷积核大小均为1×1。为了实现这个过程,可以将矩阵乘法运算加上卷积运算。
步骤3:利用步骤2.4自注意力学习后重建的上色图像与步骤1中所对应的原始色彩图像进行比较,计算Perceptual Loss惩罚函数。该损失函数可以表示为:
Figure BDA0001931698400000062
其中,j表示网络的第j层,CjHjWj表示第j层特征图的大小。损失网络使用在ImageNet上训练好的VGG16网络,用φ表示网络。
步骤4,基于HingeLoss损失函数作为GAN的优化损失,损失函数为:
Figure BDA0001931698400000063
Figure BDA0001931698400000064
其中,LD表示判别器的损失函数,LG表示生成器的损失函数。损失函数的计算都可以看作是在数据P分布情况下的期望;
步骤5,训练采用步进增长策略,将训练过程分为多个子训练过程。与以往单个重复单个训练周期不断训练GAN的生成器和辨别器的训练方式不同,采用步进增长策略。先将输入图片缩放至64×64,在初始学习率为1e-3的情况下进行第一次迭代,当达到应有的迭代次数之后,再增大图片大小至96×96,并将学习率减半进行进一步拟合。以此类推,直至输入图片为原始图片大小。采用步进增长策略可以让分辨率更高的图片在低分辨率图片的基础上增强精度,减少因卷积网络生成导致的失真和不合理的颜色效果。
当重建后的图像与其对应的高分辨率图像进行比较时没有获得预先设定的重建效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤2;在达到预期或完成步骤5中所有的子训练之后,求得步骤2所获得的生成对抗网络的生成器网络则为最终结果。
本发明采用峰值信噪比(PSNR:Peak Signal to Noise Ratio)和结构相似性(SSIM:Structural Similarity Index)来衡量图像上色性能。PSNR越高代表图像客观质量越好,SSIM值反映了图片的主观质量,该值越高表示图片还原度越高,视觉效果越好。比较结果如表一所示。
Figure BDA0001931698400000071
表一本发明与现有技术对于不同数据集的PSNR和MS-SSIM平均值
从表1中可看出,本发明比现有技术中的PSNR值和SSIM值在Konachan,Danbooru和ImageNet中分别提高了1.71dB、0.97dB、0.88dB和0.2883、0.1573、0.01964。由此可见,本发明采用以上技术方案,较这些方法的重建效果更好。
参考文献:
1.A.Levin,D.Lischinski,and Y.Weiss.Colorization using optimization.InACM Transactions on Graphics(ToG),volume 23,pages 689–694.ACM,2004
2.L.Yatziv and G.Sapiro.Fast image and video col-orizationusingchrominance blending.IEEE Transac-tions on Image Processing,15(5):1120–1129,2006.
3.Y.Qu,T.-T.Wong,and P.-A.Heng.Manga coloriza-tion.In ACMTransactionson Graphics(TOG),vol-ume 25,pages 1214–1220.ACM,2006.
4.T.Welsh,M.Ashikhmin,andK.Mueller.Transferring color to greyscaleimages.In ACM Transactions on Graphics(TOG),volume 21,pages 277–280.ACM,2002.
5.N.Dalal and B.Triggs.Histograms of oriented gra-dients for humandetection.In Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Com-puter Society Conference on,volume 1,pages 886–893.IEEE,2005.
6.E.Tola,V.Lepetit,and P.Fua.Daisy:An efficient dense descriptorapplied to wide-baseline stereo.IEEE transactions on pattern analysis andmachine intelli-gence,32(5):815–830,2010.
7.J.Hafner,H.S.Sawhney,W.Equitz,M.Flickner,and W.Niblack.Efficientcolor histogram indexing for quadratic form distance functions.IEEE trans-actions on pattern analysis and machine intelligence,17(7):729–736,1995.
8.CHENG,Z.,YANG,Q.,AND SHENG,B.2015.Deep colorization.In Proceedingsof ICCV 2015,29–43.
9.I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,and Y.Ben-gio.Generative adversarial nets.In Advances in neu-ralinformation processing systems,pages 2672–2680,2014.
10.A.Radford,L.Metz,and S.Chintala.Unsu-pervised representationlearning with deep convolu-tional generative adversarial networks.arXivpreprint arXiv:1511.06434,2015.
11.M.Mirza and S.Osindero.Conditional generative ad-versarialnets.2014.
12.P.Isola,J.-Y.Zhu,T.Zhou,and A.A.Efros.Image-to-image translationwith conditional adversarial net-works.arXiv preprint arXiv:1611.07004,2016.
13.Zhu JY,Park T,Isola P,Efros AA.Unpaired image-to-image translationusing cycle-consistent adversarial networks.arXiv preprint.2017.
14.Iizuka,Satoshi,Edgar Simo-Serra,and Hiroshi Ishikawa."Let there becolor!:joint end-to-end learning of global and local image priors forautomatic image colorization with simultaneous classification."ACMTransactions on Graphics (TOG)35.4(2016):110.
15.Zhang,Richard,et al."Real-time user-guided image colorization withlearned deep priors."arXiv preprint arXiv:1705.02999(2017)。

Claims (6)

1.一种基于自注意力生成对抗网络的图像着色方法,其特征在于:其包括如下步骤:
步骤1:训练灰度图片着色模型:选取大量的彩色原始图像处理得到大量的增广图片数据,并对每张彩色原始图像转其对应的灰度图像,将灰色图像堆叠成三通道的图像,将把灰度图像Ig和彩色原始图像IC分别匹配作为深度学习的训练数据集,
步骤2:将训练数据集中的灰度图像作为输入并执行特征提取阶段、特征融合阶段、反卷积计算阶段以及自注意力学习阶段,最终重建出其对应的彩色图像,具体包括以下几个步骤:
步骤2.1,特征提取阶段:输入的灰度图像进入特征提取阶段后,进行卷积运算、谱归一化、批归一化和激活函数运算得到特征提取层输出结果;特征提取阶段由六大块卷积层组成,每个卷积块内包括三个相同维度输入输出的卷积层;其中一个大卷积块的计算公式是:
F=g{BN{SN{W3*g{BN{SN{W2*g{BN{SN{W1*Ig+B1}}}+B2}}}+B3}}} (1)
其中g表示非线性激活函数,W1,W2,W3,B1,B2,B3分别表示特征提取阶段中第一个、第二个和第三个卷积层的权重和偏置,SN表示谱归一化函数,BN表示批归一化函数,Ig表示输入图片,F表示特征提取阶段得到的输出结果;
步骤2.2,特征融合阶段:
特征融合阶段由一个卷积层和一个跳跃式连接构成,通过跳跃式连接将该卷积层的输出与特征提取层的输出相连接,特征融合阶段的公式如下:
Fg=g(BN(WLFL+BL))+F2 (2)
其中FL表示特征提取卷积模块的输出,WL和BL表示特征融合阶段卷积层的权重和偏置参数,F2是前一阶段的特征提取层的输出,g表示非线性激活函数;
步骤2.3,反卷积计算阶段:反卷积计算阶段由一个以上反卷积层组成,反卷积层将特征融合阶段所得特征图进行上采样操作,其计算公式是:
I′O=((Wd1*Fg+Bd1)*Wd2+Bd2)...*Wdn+Bdn (3)
其中Wd1,Wd2,Wdn,Bd1,Bd2,和Bdn分别表示第一个、第二个和第n个反卷积层的权重和偏置参数,Fg是特征融合阶段的输出,I′O表示反卷积阶段的输出;
步骤2.4,自注意力学习阶段:自注意力学习阶段由多个卷积层组成,其计算公式是:
Figure FDA0002667031880000011
其中i为输出位置,j为参与运算的位置,C(x)为归一化参量,f(xi,xj)表示向量xi与xj处的相似关系函数,g(xj)为xj处的特征;
步骤3:将自注意力学习后重建的彩色图像与对应的原始色彩图像进行比较,计算Perceptual Loss惩罚函数,Perceptual Loss惩罚函数表示为:
Figure FDA0002667031880000021
其中,j表示网络的第j层,CjHjWj表示第j层特征图的大小,φ表示损失网络;
Figure FDA0002667031880000024
表示重建图像,y表示原始图像;
步骤4,基于HingeLoss损失函数作为GAN的优化损失,损失函数为:
Figure FDA0002667031880000022
Figure FDA0002667031880000023
其中,LD表示判别器的损失函数,LG表示生成器的损失函数,损失函数的计算都可以看作是在数据P分布情况下的期望;E(.)表示期望,Pdata表示数据分布,D(x,y)表示判别器结果,G(z)表示生成器结果,Pz表示噪声分布,x表示训练数据,y表示输出结果,z表示输入噪声;
步骤5,将训练过程分为预设的多个子训练周期,采用步进增长策略依次进行子训练周期的训练;
当完成一个子训练周期后重建的彩色图像与其对应的原始色彩图像比较时没有获得预先设定的重建效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数再执行步骤2;当在完成一个子训练周期后重建的彩色图像达到预期或完成所有预设的子训练周期的次数后,则获得最终结果。
2.根据权利要求1所述的一种基于自注意力生成对抗网络的图像着色方法,其特征在于:步骤1中每张所述彩色原始图像进行旋转、镜像和裁剪操作得到大量的增广图片数据。
3.根据权利要求1所述的一种基于自注意力生成对抗网络的图像着色方法,其特征在于:步骤1中增广后的训练图片初始大小均为3×512×512,分别对应颜色通道,图片宽度和高度。
4.根据权利要求1所述的一种基于自注意力生成对抗网络的图像着色方法,其特征在于:步骤2.3中反卷积计算阶段中根据放大倍数选择反卷积的数量。
5.根据权利要求1所述的一种基于自注意力生成对抗网络的图像着色方法,其特征在于:步骤3中损失网络使用在ImageNet上训练好的VGG16网络。
6.根据权利要求1所述的一种基于自注意力生成对抗网络的图像着色方法,其特征在于:步骤5中步进策略具体为:训练开始时将彩色原始图像缩放成小图片并佐以大学习率开始训练,且每完成一个子训练周期后逐步增大彩色原始图像并逐步减小学习率。
CN201811644107.4A 2018-12-29 2018-12-29 一种基于自注意力生成对抗网络的图像着色方法 Active CN109712203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811644107.4A CN109712203B (zh) 2018-12-29 2018-12-29 一种基于自注意力生成对抗网络的图像着色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811644107.4A CN109712203B (zh) 2018-12-29 2018-12-29 一种基于自注意力生成对抗网络的图像着色方法

Publications (2)

Publication Number Publication Date
CN109712203A CN109712203A (zh) 2019-05-03
CN109712203B true CN109712203B (zh) 2020-11-17

Family

ID=66259710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811644107.4A Active CN109712203B (zh) 2018-12-29 2018-12-29 一种基于自注意力生成对抗网络的图像着色方法

Country Status (1)

Country Link
CN (1) CN109712203B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120038B (zh) * 2019-05-07 2021-02-26 重庆同枥信息技术有限公司 一种基于对抗生成网络的路面裂缝缺陷检测方法
CN110223359B (zh) * 2019-05-27 2020-11-17 浙江大学 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用
CN110223351B (zh) * 2019-05-30 2021-02-19 杭州蓝芯科技有限公司 一种基于卷积神经网络的深度相机定位方法
CN110443758B (zh) * 2019-07-05 2023-08-25 广东省人民医院(广东省医学科学院) 一种医疗影像去噪方法及装置
CN110428480A (zh) * 2019-08-02 2019-11-08 泰康保险集团股份有限公司 个性化绘画作品生成方法、装置、介质及电子设备
CN110544297B (zh) * 2019-08-06 2023-06-20 北京工业大学 一种单幅图像的三维模型重建方法
CN110634170B (zh) * 2019-08-30 2022-09-13 福建帝视信息科技有限公司 一种基于语义内容和快速图像检索的照片级图像生成方法
CN110675462B (zh) * 2019-09-17 2023-06-16 天津大学 一种基于卷积神经网络的灰度图像彩色化方法
CN110717953B (zh) * 2019-09-25 2024-03-01 北京影谱科技股份有限公司 基于cnn-lstm组合模型的黑白图片的着色方法和***
CN110796716B (zh) * 2019-10-21 2023-04-28 东华理工大学 一种基于多重残差网络和正则化迁移学习的图像着色方法
CN111062880B (zh) * 2019-11-15 2023-07-28 南京工程学院 一种基于条件生成对抗网络的水下图像实时增强方法
CN111028142B (zh) * 2019-11-25 2024-02-13 泰康保险集团股份有限公司 图像处理方法、装置和存储介质
CN111127346B (zh) * 2019-12-08 2023-09-05 复旦大学 基于部分到整体注意力机制的多层次图像修复方法
CN111223488B (zh) * 2019-12-30 2023-01-17 Oppo广东移动通信有限公司 语音唤醒方法、装置、设备及存储介质
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置
CN111738940B (zh) * 2020-06-02 2022-04-12 大连理工大学 一种人脸图像眼部补全方法
CN111814841A (zh) * 2020-06-17 2020-10-23 浙江工业大学 一种基于深度学习的科技文献图像处理***
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111862253B (zh) * 2020-07-14 2023-09-15 华中师范大学 一种基于深度卷积生成对抗网络的草图着色方法及***
CN111832517A (zh) * 2020-07-22 2020-10-27 福建帝视信息科技有限公司 基于门控卷积的低清人脸关键点检测方法
CN111862294B (zh) * 2020-07-31 2024-03-01 天津大学 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法
CN111915526B (zh) * 2020-08-05 2024-05-31 湖北工业大学 一种基于亮度注意力机制低照度图像增强算法的摄影方法
CN112330790B (zh) * 2020-11-20 2024-02-02 东北大学 基于对抗学习与自适应色度修正的ct图像自动着色方法
CN112686119B (zh) * 2020-12-25 2022-12-09 陕西师范大学 基于自注意力生成对抗网络的车牌运动模糊图像处理方法
CN112819095B (zh) * 2021-02-26 2023-04-18 吉林大学 特征点匹配方法、装置、智能终端及计算机可读存储介质
CN113706647B (zh) * 2021-07-30 2024-02-13 浪潮电子信息产业股份有限公司 一种图像上色方法及相关装置
CN114299193B (zh) * 2021-12-30 2024-05-03 山东大学 一种基于神经网络的黑白视频上色方法、***、设备及存储介质
CN114494499B (zh) * 2022-01-26 2023-07-18 电子科技大学 一种基于注意力机制的草图上色方法
CN114187380B (zh) * 2022-02-17 2022-05-31 杭州并坚科技有限公司 基于视觉显著性和通道注意力机制的色彩传递方法
CN115396669A (zh) * 2022-08-22 2022-11-25 上海工程技术大学 一种基于兴趣区域增强的视频压缩方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330956A (zh) * 2017-07-03 2017-11-07 广东工业大学 一种漫画手绘图无监督上色方法及装置
CN107862668A (zh) * 2017-11-24 2018-03-30 河海大学 一种基于gnn的文物图像复原方法
CN108763230A (zh) * 2018-06-07 2018-11-06 南京大学 利用外部信息的神经机器翻译方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9955551B2 (en) * 2002-07-12 2018-04-24 Yechezkal Evan Spero Detector controlled illuminating system
CN108681991A (zh) * 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及***
CN108711138B (zh) * 2018-06-06 2022-02-11 北京印刷学院 一种基于生成对抗网络的灰度图片彩色化方法
CN108960425B (zh) * 2018-07-05 2022-04-19 广东工业大学 一种渲染模型训练方法、***、设备、介质及渲染方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330956A (zh) * 2017-07-03 2017-11-07 广东工业大学 一种漫画手绘图无监督上色方法及装置
CN107862668A (zh) * 2017-11-24 2018-03-30 河海大学 一种基于gnn的文物图像复原方法
CN108763230A (zh) * 2018-06-07 2018-11-06 南京大学 利用外部信息的神经机器翻译方法

Also Published As

Publication number Publication date
CN109712203A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109712203B (zh) 一种基于自注意力生成对抗网络的图像着色方法
Lim et al. DSLR: Deep stacked Laplacian restorer for low-light image enhancement
Liu et al. A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution
Hui et al. Fast and accurate single image super-resolution via information distillation network
CN113658057B (zh) 一种Swin Transformer微光图像增强方法
CN112288632B (zh) 基于精简esrgan的单图像超分辨率方法及***
CN111784582A (zh) 一种基于dec_se的低照度图像超分辨率重建方法
CN111862294A (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
WO2022099710A1 (zh) 图像重建方法、电子设备和计算机可读存储介质
CN115641391A (zh) 一种基于密集残差和双流注意力的红外图像彩色化方法
CN111414988B (zh) 基于多尺度特征自适应融合网络的遥感影像超分辨率方法
Zou et al. Super-Resolution Reconstruction of Images Based on Microarray Camera.
CN113592715A (zh) 一种面向小样本图像集的超分辨率图像重构方法
CN112257727A (zh) 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
Liu et al. Facial image inpainting using multi-level generative network
Xu et al. Depth map super-resolution via joint local gradient and nonlocal structural regularizations
CN114359039A (zh) 基于知识蒸馏的图像超分方法
CN117292017A (zh) 一种草图到图片跨域合成方法、***及设备
CN114037644B (zh) 一种基于生成对抗网络的艺术字图像合成***及方法
CN114022371B (zh) 基于空间和通道注意力残差网络的去雾装置及其去雾方法
CN114022360B (zh) 基于深度学习的渲染图像超分辨***
Speck et al. The Importance of Growing Up: Progressive Growing GANs for Image Inpainting
Wu et al. Semantic image inpainting based on generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant