CN116188652A - 一种基于双尺度循环生成对抗的人脸灰度图像着色方法 - Google Patents

一种基于双尺度循环生成对抗的人脸灰度图像着色方法 Download PDF

Info

Publication number
CN116188652A
CN116188652A CN202211412711.0A CN202211412711A CN116188652A CN 116188652 A CN116188652 A CN 116188652A CN 202211412711 A CN202211412711 A CN 202211412711A CN 116188652 A CN116188652 A CN 116188652A
Authority
CN
China
Prior art keywords
image
coloring
model
scale
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211412711.0A
Other languages
English (en)
Inventor
王奔
陈亮锜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202211412711.0A priority Critical patent/CN116188652A/zh
Publication of CN116188652A publication Critical patent/CN116188652A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Color Image Communication Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于双尺度循环生成对抗的人脸灰度图像着色方法,其实现步骤为:数据收集与预处理,模型构建,模型训练和图像上色。本发明利用循环生成网络,采用双尺度卷积,在跳跃连接中融合CBAM注意力模构建人脸灰度图像着色模型,将灰度图像输入到生成器中,关注待着色区域重要信息,抑制不必要区域的映射学习。在判别器上沿用PatchGAN,实现更细致的判别。实现了高效的端到端自动着色,较好缓解了现有方法普遍存在的边缘颜色溢出、细节损失和着色枯燥的问题,最后生成着色效果出色的彩色图像。

Description

一种基于双尺度循环生成对抗的人脸灰度图像着色方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于双尺度循环生成对抗的人脸灰度图像着色方法。
背景技术
在灰度图像着色领域,早期主要依靠人工对图像逐像素着色,这种方式不仅仅效率低下。而且耗费大量的人力物力。后来,因计算机的出现和普及,人们开始使用计算机处理图像,为解决灰度图像着色带来极大的便利。
根据图像色彩来源,使用计算机进行图像着色主要可分为三类。基于局部颜色扩展、基于参考图像和基于深度学习的着色方法。前两者提出的时间较早,通常需要用户交互,人工操作量较大,后者出现的时间较晚,用户只需训练好网络模型即可实现端到端的全自动着色,但效果不够稳定,且容易出现颜色边界溢出、细节损失和着色枯燥的问题。
人脸图像是众多图像中的一类,具有较清晰的待着色区域。同时,受早期摄影技术的限制,如今还有很大一部分黑白老照片,将这些人脸老照片进行着色后可以极大程度重现生机。
发明内容
本发明的目的就是提供一种基于双尺度循环生成对抗的人脸灰度图像着色方法,给输入的人脸灰度图像实现全自动上色,并且缓解了颜色边界溢出、细节损失和着色枯燥的问题。
为达到上述目的,本发明将灰度图像作为条件输入到生成器中,利用双尺度卷积、注意力机制提取图像的浅层、深层以及显著特征信息,通过循环生成对抗网络维持图像空间的一致性问题,最后生成着色效果出色的彩色图像。
具体步骤如下:
步骤1、数据收集与预处理:获取大量的人脸彩色图像,统一图像尺寸大小;将数据集划分为训练集和验证集;对训练集数据通过添加随机翻转操作进行数据增强;使用cv库函数将图像转换为CIE Lab颜色空间,并提取L通道作为模型的输入。
步骤2、构建人脸灰度图像着色模型:该模型选用循环生成网络结构,包括两对生成器-判别器结构;使用改进过的U-Net作为生成器,采用双尺度卷积模块进行特征的提取,增加模型对不同尺度信息的适应性,提取多维度的特征信息;在跳跃连接中,通过CBAM注意力模块提取带有注意力权重的信息,将之与上采样阶段进行融合,关注待着色图像的显著区域,抑制不必要区域。在判别器上,沿用PatchGAN,采用全卷积的形式,最终输出一个特征图,表示输入图像的多区域的真假概率值,考虑了更多区域的着色效果。
步骤3、训练人脸灰度图像着色模型:将步骤1提取的L通道灰度图像作为模型的输入,余下的ab通道作为模型的标签。结合对抗性损失、循环一致性损失、身份认证损失和灰度损失,通过加权计算得出最终的损失函数对模型进行优化训练,按照先训练判别器,后训练生成器的策略进行模型训练。
步骤4、对人脸灰度图像进行上色:将待着色的人脸灰度图像输入到训练好的模型中,即可输出着色后的彩色人脸图像。
与现有技术相比,本发明具有以下优点:
第一,本发明结合循环生成网络,在维持了灰度图像和着色图像的一致性的同时,模型取得了较好的拟合结果。在生成器中,融合不同大小卷积核的双尺度卷积模块对特征图进行特征提取,将全局语义与局部特征进行相适应地融合,与普通的3×3大小卷积核相比,进一步提升了模型的性能,提高了着色图像的质量,能够得到比现有方法色彩更饱满的彩色图像。
第二,本发明融合注意力机制,在生成器跳跃连接中***通道注意力和空间注意力串行结构的CBAM模块,有效地关注到特征图的显著区域,缓解了现有方法中普遍存在的颜色边界溢出和细节损失的问题。
第三,本发明所述模型专门针对人脸灰度图像着色进行设计,在一些老照片着色上也能取得较好的效果,为老照片修复在色彩维度上提供了一定的现实意义。
附图说明
图1为本发明的流程图;
图2为本发明的循环生成网络结构图;
图3为本发明的生成器网络结构图;
图4为本发明的双尺度卷积模块结构图;
图5为本发明的CBAM注意力模块结构图;
图6为本发明的判别器网络结构图。
具体实施方式
以下结合附图详细说明本发明人脸灰度图像着色方法的具体实施步骤。
如图1所示,一种基于双尺度循环生成对抗的人脸灰度图像着色方法,具体包括如下步骤:
步骤1、数据收集与预处理:
第一步,从高清人脸数据集CelebA-HQ中随机选取30000张图像。
第二步,统一所有图像的分辨率为256×256。
第三步,按照90%和10%的比例划分数据集后,训练集图像数量为27000张,验证集图像数量为3000张。
第四步,通过cv库函数将图像转换为CIE Lab颜色空间,提取L通道作为模型输入,ab通道为标签值。
第五步,读取训练集前,对图像进行随机翻转。
步骤2、构建人脸灰度图像着色模型:
如图2所示,人脸灰度图像着色模型为循环生成网络结构,包括四个子网络,G网络是生成器,负责将图像A转换为图像B,DB是判别器,负责判别通过G网络生成的图像的真假概率;F网络也是生成器,负责将图像B转换为图像A,DA是判别器,负责判别通过F网络生成的图像的真假概率;
如图3所示,生成器使用U-Net作为基本结构,U-Net的左侧为编码器部分,通过下采样提取图像特征,特征图的分辨率会逐渐减小,而通道数量会逐渐增加;右侧解码器的部分逐层还原图像的分辨率。
在编码器和解码器之间通过跳跃连接进行信息共享;在通过编码器进行下采样时,图像的特征被逐层提取,由于跳跃连接的存在,在上采样阶段可以融合低层特征,有助于实现特征的共享,还原下采样时带来的信息损失。
生成器下采样阶段卷积核数量分别为16、32、64、128和256,即经过卷积模块后,图像的通道数从1变化为16、32、64、128和256。在经过双尺度卷积模块两次卷积后,图像的通道数增加,再通过一个池化层,缩小图像分辨率为原来的一半。
上采样阶段使用转置卷积的方法实现图像尺寸的恢复,图像通道数从256逐层恢复为2。
如图4所示,双尺度卷积模块,由两个不同大小的卷积核组成,即3×3和7×7。在网络模型采样的过程中,对输入特征图并行地经过两次不同大小的卷积操作之后,将最终的结果以Concatenation的方式融合。随后通过1×1大小的卷积核实现有效降维。
3×3卷积块由3×3卷积层、Batch Normalization、ReLU激活函数组成,卷积核步长设置为1,像素填充设置为1。
7×7卷积块由7×7卷积层、Batch Normalization、ReLU激活函数组成,卷积核步长设置为1,像素填充设置为3。
1×1卷积核步长设置为1,像素填充设置为0。
所述双尺度卷积模块,包括连续的两个3×3卷积块和两个7×7卷积块,上述卷积操作为并行结构。
基于上述结构,在生成器左侧第一层中,256×256×1的输入图像通过两个3×3卷积块转化为256×256×16,通过两个7×7卷积块转换为256×256×16。之后通过拼接操作,通道数扩大为32,即图像尺寸为256×256×32。经过1×1卷积后图像降维,但宽高不变,为256×256×16。紧接着的池化层的作用是将图像尺寸缩小为原来的一半,即128×128×16。
双尺度卷积模块提取图像更丰富的特征信息,包括全局特征和局部特征,带来跨通道特征的交互融合,增加模型的非线性,有助于实现较复杂的映射关系,为灰度图像着色带来较显著的提升效果。
如图5所示,CBAM模块(卷积注意力模块)为包括通道注意力模块和空间注意力模块成的串行结构。
通道注意力模块中每个通道都会参与特征检测,关注输入图像的“什么”是有意义的。通道注意力先分别通过最大池化Maxpool和平均池化Avgpool对特征图进行池化操作,之后分别输入到同一个共享多层感知机中,最后通过逐向量求和的方式合并向量,以得到最后的通道注意力图,整个流程的计算公式如下所示。其中σ为sigmoid函数,F为输入特征图
Figure SMS_1
Figure SMS_2
为MLP多层感知机的权重,r为压缩比。/>
Figure SMS_3
空间注意力模块,关注输入图像的“哪里”是有意义的,即图像的哪些区域应该给予关注。空间注意力先分别进行最大池化Maxpool和平均池化Avgpool对特征图进行池化操作,随后在通道维度将两者拼接在一起,之后通过7×7大小卷积核的卷积操作后得到最后的空间注意力通道图,整个流程的计算公式如下所示。其中σ为sigmoid函数。
Figure SMS_4
跳跃连接中放置有CBAM注意力模块(卷积注意力模块),共享低层特征中含有一定注意力权重的特征,着色模型会更关注显著区域,而较少地去学习不必要地区域色彩信息,这在一定程度上提升了模型的着色效果。
如图6所示,判别器使用PatchGAN判别图像真假。该结构为全卷积形式,共使用了5个卷积层。前三个卷积层的卷积核大小为4,步长为2,像素填充为1,将待判别的图像进行下采样,每次卷积后通道数加倍,而图像尺寸会缩小为原来的一半。后两个卷积层的卷积核大小和像素填充不变,步长设置为1。
给定输入图像尺寸为256×256×3,经判别网络后最终输出一个30×30的矩阵。矩阵中每个值都对应输入图像的70×70大小的区域的真假概率值。
所述的PatchGAN考虑了输入图像多个区域的真假,因此可以实现更细致的判别。
步骤3、人脸灰度图像着色模型训练。
设置总epoch大小为200,batch size设置为1,采用动态学习率的方式,将学习率初始化为0.00002。
人脸灰度图像着色模型的损失函数如下:
对抗性损失
Figure SMS_5
循环一致性损失
Figure SMS_6
Figure SMS_7
身份认证损失/>
Figure SMS_8
Figure SMS_9
灰度损失/>
Figure SMS_10
Figure SMS_11
其中,x为灰度图像,y为对应的彩色图像,G和F为生成器,D为判别器,Gray为灰度化计算函数:Gray(r,g,b)=0.299r+0.587g+0.114b。
最终的总损失函数Lmix=LGAN1·Lc6nsistency2·Lid;ntifyT·Lgray
本实施例中λ1=10,λ2=5,λ3=10。
步骤4、实现人脸灰度图像上色。
将待着色的灰度图像输入到训练好的人脸灰度图像着色模型中,即可得到彩色图像;
经实际测试得出所述人脸灰度图像着色模型的着色结果:图像整体着色效果良好,人脸区域被赋予合理且饱满的颜色,五官分明,极大缓解了颜色边界溢出、细节损失和着色枯燥的问题。
以上结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种基于双尺度循环生成对抗的人脸灰度图像着色方法,其特征在于:具体包括如下步骤:
步骤1、数据收集与预处理:获取大量的人脸彩色图像,统一图像尺寸大小;将数据集划分为训练集和验证集;对训练集数据进行数据增强;使用cv库函数将图像转换为CIE Lab颜色空间,并提取L通道作为模型的输入;
步骤2、构建人脸灰度图像着色模型:该模型选用循环生成网络的结构,包括两对生成器-判别器;使用改进过的U-Net作为生成器,采用双尺度卷积模块进行特征的提取,增加模型对不同尺度信息的适应性,提取多维度的特征信息;在跳跃连接中,通过CBAM注意力模块提取带有注意力权重的信息,将之与上采样阶段进行融合,关注待着色图像的显著区域,抑制不必要区域;在判别器上,沿用PatchGAN,采用全卷积的形式,最终输出一个特征图,表示输入图像的多区域的真假概率值,考虑了更多区域的着色效果;
步骤3、训练人脸灰度图像着色模型:将步骤1提取的L通道灰度图像作为模型的输入,余下的ab通道作为模型的标签;结合对抗性损失、循环一致性损失、身份认证损失和灰度损失,通过加权计算得出最终的损失函数对模型进行优化训练,按照先训练判别器,后训练生成器的策略进行模型训练;
步骤4、对人脸灰度图像进行上色:将待着色的人脸灰度图像输入到训练好的模型中,即可输出着色后的彩色人脸图像。
2.如权利要求1所述的基于双尺度循环生成对抗的人脸灰度图像着色方法,其特征在于:所述循环生成网络包括两对生成器-判别器,即四个子网络,G网络是生成器,负责将图像A转换为图像B,DB是判别器,负责判别通过G网络生成的图像的真假概率;F网络也是生成器,负责将图像B转换为图像A,DA是判别器,负责判别通过F网络生成的图像的真假概率。
3.如权利要求1所述的基于双尺度循环生成对抗的人脸灰度图像着色方法,其特征在于:所述的双尺度卷积模块采用3×3和7×7大小的卷积核相融合的形式;将输入特征图分别经过两个大小的卷积操作之后,在通道维度进行融合,之后使用一个1×1的卷积核进行降维,减少因大卷积核带来的额外模型参数而导致的效率降低。
4.如权利要求1所述的基于双尺度循环生成对抗的人脸灰度图像着色方法,其特征在于:在所述的跳跃连接中,结合融合通道注意力和空间注意力的CBAM注意力模块,两者并行,关注特征图的“什么”和“哪里”是有意义的,将下采样阶段的有用的信息与上采样阶段进行共享,减少因采样导致的信息损失,抑制不必要的信息,提升着色效果。
CN202211412711.0A 2022-11-11 2022-11-11 一种基于双尺度循环生成对抗的人脸灰度图像着色方法 Pending CN116188652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211412711.0A CN116188652A (zh) 2022-11-11 2022-11-11 一种基于双尺度循环生成对抗的人脸灰度图像着色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211412711.0A CN116188652A (zh) 2022-11-11 2022-11-11 一种基于双尺度循环生成对抗的人脸灰度图像着色方法

Publications (1)

Publication Number Publication Date
CN116188652A true CN116188652A (zh) 2023-05-30

Family

ID=86431425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211412711.0A Pending CN116188652A (zh) 2022-11-11 2022-11-11 一种基于双尺度循环生成对抗的人脸灰度图像着色方法

Country Status (1)

Country Link
CN (1) CN116188652A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036875A (zh) * 2023-07-11 2023-11-10 南京航空航天大学 一种基于融合注意力gan的红外弱小移动目标生成算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036875A (zh) * 2023-07-11 2023-11-10 南京航空航天大学 一种基于融合注意力gan的红外弱小移动目标生成算法
CN117036875B (zh) * 2023-07-11 2024-04-26 南京航空航天大学 一种基于融合注意力gan的红外弱小移动目标生成算法

Similar Documents

Publication Publication Date Title
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110555821B (zh) 模型训练方法、装置和存储介质
CN113962893A (zh) 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法
US11354797B2 (en) Method, device, and system for testing an image
CN111292265A (zh) 一种基于生成式对抗神经网络的图像修复方法
CN115546032B (zh) 一种基于特征融合与注意力机制的单帧图像超分辨率方法
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN113362242B (zh) 基于多特征融合网络的图像修复方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及***
CN113449691A (zh) 一种基于非局部注意力机制的人形识别***及方法
CN113468531A (zh) 基于深度残差网络和混合注意力机制的恶意代码分类方法
CN113222818A (zh) 一种使用轻量化多通道聚合网络重建超分辨率图像的方法
CN116740121A (zh) 一种基于专用神经网络和图像预处理的秸秆图像分割方法
CN116188652A (zh) 一种基于双尺度循环生成对抗的人脸灰度图像着色方法
CN114830168A (zh) 图像重建方法、电子设备和计算机可读存储介质
CN116681621A (zh) 一种基于特征融合及复用的人脸图像修复方法
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN116403063A (zh) 基于多区域特征融合的无参考屏幕内容图像质量评估方法
CN113537246B (zh) 一种基于对抗学习的灰度图像同时上色超分方法
CN113627487B (zh) 一种基于深层注意力机制的超分辨率重建方法
CN117315241A (zh) 一种基于transformer结构的场景图像语义分割方法
CN117649581A (zh) 一种多任务边缘增强的图像伪造检测方法及装置
CN116823647A (zh) 基于快速傅里叶变换和选择性注意力机制的图像补全方法
CN116934613A (zh) 一种用于文字修复的分支卷积通道注意力模块
CN116229104A (zh) 一种基于边缘特征引导的显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination