CN115272527A - 基于色盘对抗网络的图像上色方法 - Google Patents

基于色盘对抗网络的图像上色方法 Download PDF

Info

Publication number
CN115272527A
CN115272527A CN202210924523.XA CN202210924523A CN115272527A CN 115272527 A CN115272527 A CN 115272527A CN 202210924523 A CN202210924523 A CN 202210924523A CN 115272527 A CN115272527 A CN 115272527A
Authority
CN
China
Prior art keywords
palette
color
image
generator
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210924523.XA
Other languages
English (en)
Other versions
CN115272527B (zh
Inventor
王毅
乔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai AI Innovation Center
Original Assignee
Shanghai AI Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai AI Innovation Center filed Critical Shanghai AI Innovation Center
Priority to CN202210924523.XA priority Critical patent/CN115272527B/zh
Publication of CN115272527A publication Critical patent/CN115272527A/zh
Application granted granted Critical
Publication of CN115272527B publication Critical patent/CN115272527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像上色技术领域,提出一种基于色盘对抗网络的图像上色方法,包括下列步骤:构造色盘对抗网络,其中所述色盘对抗网络包括调色板生成器
Figure DDA0003777727570000017
调色板分配生成器
Figure DDA0003777727570000012
和颜色鉴别器D;向所述色盘对抗网络中输入灰度图像L;由所述调色板生成器
Figure DDA0003777727570000013
以及所述调色板分配生成器
Figure DDA0003777727570000018
以生成估计色图
Figure DDA0003777727570000011
根据所述灰度图像L以及所述估计色图
Figure DDA0003777727570000016
生成输出图像
Figure DDA0003777727570000015
以及由所述颜色鉴别器D判断所述输出图像
Figure DDA0003777727570000014
的真实性。

Description

基于色盘对抗网络的图像上色方法
技术领域
本发明总的来说涉及图像上色技术领域。具体而言,本发明涉及一种基于色盘对抗网络(PalGAN)的图像上色方法。
背景技术
图像上色是指从灰度图像中预测缺失的色彩信息,其广泛应用于老照片处理和其他视觉编辑应用领域。另外由于图像上色在很大程度上依赖于场景理解,因此其也被用作自我监督学习的代理任务。在图像上色任务中,由于一个输入灰度可能对应于多种可能的颜色变体,因此即使有真实颜色用于监督,从灰度图像中预测像素颜色仍然非常具有挑战性。
下面对现有的图像上色方法做介绍:
用户指引型上色方法包括基于参考图像的指引进行上色的方法,其中将颜色统计信息传输到给定的灰度图像,基于深度学习其可以在神经特征空间中引入语义一致性,当参考图像和输入的灰度图像共享相似的语义时,基于参考图像的指引进行上色的方法表现得很好,但其应用会受到参考检索质量的限制,这一缺陷在处理复杂场景时尤为明显。除了基于参考图像的指引,用户指引型上色方法还包括基于局部颜色提示指引和语言指引进行上色的方法。基于局部颜色提示指引进行上色的方法需要用户以例如涂鸦形式提供足够的局部颜色提示,并且根据局部颜色提示的局部亲和力传播给定的颜色。基于语言指引进行上色的方法通过语言指示使用哪些颜色以及颜色是如何分布的。
基于学***衡和多模态输出。此外可以将额外的输入提示通过模拟集成到学习***中,提供自动和半自动的图像上色方式,还可以基于在非局部建模上的表现力,考率transformer架构。
在利用来自预训练模型的额外先验进行上色的方法中,Su等人(Su J W,Chu H K,Huang J B.Instance-aware image colorization[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020:7968-7977.)提出使用现成的检测器利用实例级注释(例如,实例边界框和类),其中使上色模型专注于颜色渲染,而不需要识别高级语义。除了提到的预训练判别模型外,预训练生成模型也可用于提高多样性的上色性能。Wu等人(Wu Y,Wang X,Li Y,et al.Towards vivid and diverseimage colorization with generative color prior[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2021:14377-14386.)提出从预训练的BigGAN中结合生成颜色,以帮助深度模型产生具有多样性的彩色结果,其中提出了一个额外的编码器,将给定的灰度图像投影到潜在代码中,然后从BigGAN估计彩色图像,借由这样的初步预测,其通过BigGAN中的中间特征进一步细化了颜色结果。Afifi等人(AfifiM,Brubaker M A,Brown M S.Histogan:Controlling colors of gan-generated andreal images via color histograms[C]//Proceedings of the IEEE/CVF conferenceon computer vision and pattern recognition.2021:7941-7950)使用预训练的StyleGAN进行图像重新上色,其中颜色由直方图特征控制。
然而现有技术仍存在下列问题:现有技术通常将上色制定为像素级回归任务,而这会受到多模态表示的影响。例如通过大规模的训练数据和端到端的学***均颜色。针对多模态问题,现有技术提出将颜色预测公式化为像素级颜色分类,其中根据后验概率为每个像素分配多种颜色,然而由于独立的逐像素采样机制,它们存在区域颜色不一致的问题。虽然利用顺序建模的手段可以部分帮助采样问题,当二维扁平像素图元的单向顺序依赖性会导致错误累积并阻碍学习效率。
发明内容
为至少部分解决现有技术中的上述问题,本发明提出一种基于色盘对抗网络的图像上色方法,包括下列步骤:
构造色盘对抗网络,其中所述色盘对抗网络包括调色板生成器
Figure BDA0003777727550000031
调色板分配生成器
Figure BDA0003777727550000032
和颜色鉴别器D;
向所述色盘对抗网络中输入灰度图像L;
由所述调色板生成器
Figure BDA0003777727550000033
以及所述调色板分配生成器
Figure BDA0003777727550000034
以生成估计色图
Figure BDA0003777727550000035
根据所述灰度图像L以及所述估计色图
Figure BDA0003777727550000036
生成输出图像
Figure BDA0003777727550000037
以及
由所述颜色鉴别器D判断所述输出图像
Figure BDA0003777727550000038
的真实性。
在本发明一个实施例中规定,由所述调色板生成器
Figure BDA0003777727550000039
根据所述灰度图像L生成调色板直方图
Figure BDA00037777275500000310
表示为下式:
Figure BDA00037777275500000311
Figure BDA00037777275500000312
Figure BDA00037777275500000313
其中,调色板直方图
Figure BDA00037777275500000314
表示表示调色板概率,
Figure BDA00037777275500000315
Figure BDA00037777275500000316
表示CIE Lab颜色空间中的a轴和b轴;以及
由所述调色板分配生成器
Figure BDA00037777275500000317
根据所述调色板直方图
Figure BDA00037777275500000318
以及潜在代码z生成CIELab颜色空间中的a值和b值,表示为下式:
Figure BDA00037777275500000319
在本发明一个实施例中规定,所述调色板分配生成器
Figure BDA00037777275500000320
包括残差块、调色板归一化层以及色度注意模块,其中由所述调色板归一化层对输入特征进行归一化并且进行由
Figure BDA00037777275500000321
参数化的仿射变换,g(·)表示全连接层。
在本发明一个实施例中规定,所述色度注意模块包括全局交互模块以及局部描述模块,其中由所述色度注意模块输入特征图F、高层特征图S和灰度图像L,通过所述全局交互模块执行全局交互操作以生成第一特征图Fg,通过所述局部描述模块执行局部描述操作以生成第二特征图Fl,将第一特征图Fg和所述第二特征图Fl融合以生成特征图残差F′,并且将所述特征图残差F′添加回所述特征图F,表示为下式:
Figure BDA0003777727550000041
Figure BDA0003777727550000042
其中f(·)表示非线性融合操作、
Figure BDA0003777727550000043
表示通道维度拼接操作、CAg表示全局交互操作、CAl表示局部描述操作。
在本发明一个实施例中规定,所述全局交互操作包括使用其它区域特征点的加权在所述特征图F中重建每个区域特征点,并根据区域特征点之间的语义相似性计算局部权重,表示为下式:
Figure BDA0003777727550000044
Figure BDA0003777727550000045
其中p和q分别表示在所述特征图F内以像素位置p和q为中心的补丁,SK和SQ表示使用卷积从所述高层特征图S转换而来的特征图;以及
所述局部描述操作包括通过局部仿射变换{A,B}将所述灰度图像L映射到对应的ab特征地图,表示为下式:
Fl=A⊙L↓+B
Figure BDA0003777727550000046
Figure BDA0003777727550000047
其中⊙表示逐元素乘法运算符、↓表示下采样操作、Ψ表示可学***滑处理,∈表示正数参数。
在本发明一个实施例中规定,进行调色板优化,其中将所述调色板直方图
Figure BDA00037777275500000410
进行核加权和表示,表示为下式:
Figure BDA00037777275500000411
Figure BDA0003777727550000051
其中Ca(x)和Cb(x)分别表示a和b通道中像素x的值,k表示核函数,σ表示控制相邻bin的平滑度的参数;以及
进行调色板正则化,其中通过最大化调色板直方图
Figure BDA0003777727550000052
的熵
Figure BDA0003777727550000053
以增加颜色多样性,表示为下式
Figure BDA0003777727550000054
在本发明一个实施例中规定,所述颜色鉴别器D将输出图像
Figure BDA0003777727550000055
转换为一维特征g∈R256×1并且通过内积将所述一维特征与调色板融合并且计算输出图像
Figure BDA0003777727550000056
的真实性
Figure BDA0003777727550000057
表示为下式:
Figure BDA0003777727550000058
Figure BDA0003777727550000059
Figure BDA00037777275500000510
其中W表示可学习的线性投影。
在本发明一个实施例中规定,对所述调色板生成器
Figure BDA00037777275500000511
以及所述调色板分配生成器
Figure BDA00037777275500000512
进行训练,其中对所述调色板生成器
Figure BDA00037777275500000513
训练的优化目标表示为下式:
Figure BDA00037777275500000514
其中reconstruction项表示调色板重建的学***衡参数;以及
对所述调色板分配生成器
Figure BDA00037777275500000515
训练的优化目标表示为下式:
Figure BDA00037777275500000516
Figure BDA00037777275500000517
Figure BDA00037777275500000518
Figure BDA00037777275500000519
其中,regression项像素级回归的学***衡参数,
Figure BDA00037777275500000522
表示对抗训练的损失生成器的训练目标,
Figure BDA00037777275500000523
表示对抗训练的损失判断器的训练目标,其中PI表示rgb图像分布。
在本发明一个实施例中规定,通过渐进的方式联合训练所述调色板生成器
Figure BDA00037777275500000524
以及所述调色板分配生成器
Figure BDA00037777275500000525
本发明还提出一种计算机***,包括:
处理器,其被配置为执行机器可执行指令;以及
存储器,其上存储有机器可执行指令,所述机器可执行指令在被处理器执行时执行根据所述方法的步骤。
本发明至少具有如下有益效果:本发明提出一种基于色盘对抗网络的图像上色方法,其中将上色分解为调色板估计和像素分配,可以有效地规避色彩模糊和区域同质性的挑战,支持自然的多样化和可控的上色。本发明针对现有技术中较少研究的颜色相似度,提出了色彩注意的模块来考虑语义和局部细节对应,并且将这种相关性应用于颜色生成,有效减轻了的颜色渗色效果。此外本发明通过颜色归一化可以增强上色的保真度和真实感,进一步提升了生成颜色的多样性。
附图说明
为进一步阐明本发明的各实施例中具有的及其它的优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出了实现根据本发明的方法的计算机***。
图2示出了本发明一个实施例中一个基于色盘对抗网络的图像上色方法。
图3示出了本发明一个实施例中一个色盘对抗网络的框架示意图。
图4示出了本发明一个实施例中一个色彩注意模块的框架示意图。
具体实施方式
应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。在各附图中,给相同或功能相同的组件配备了相同的附图标记。
在本发明中,除非特别指出,“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外,“布置在…上或上方”仅仅表示两个部件之间的相对位置关系,而在一定情况下、如在颠倒产品方向后,也可以转换为“布置在…下或下方”,反之亦然。
在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。
在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。
在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。另外,除非另行说明,本发明的不同实施例中的特征可以相互组合。例如,可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征,所得到的实施例同样落入本申请的公开范围或记载范围。
在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推,在本发明中,表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。
下面结合具体实施方式参考附图进一步阐述本发明。
图1示出了实现根据本发明的方法的计算机***100。如非特殊说明,根据本发明的方法可以在图1所示的计算机***100中执行以实现本发明目的,或者本发明可以在多个根据本发明的计算机***100中通过网络、如局域网或因特网分布式地实现。本发明的计算机***100可以包括各种类型的计算机***、例如手持式设备、膝上型计算机、个人数字助理(PDA)、多处理器***、基于微处理器或可编程消费者电子设备、网络PC、小型机、大型机、网络服务器、平板计算机等等。
如图1所示,计算机***100包括处理器111、***总线101、***存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(USB)接口112。***总线101可以是若干种总线结构类型的任一种,例如存储器总线或存储器控制器、***总线以及使用各类总线体系结构的局部总线。***总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外,其它的总线设备或接口也是可设想的。***存储器102包括只读存储器(ROM)103和随机存取存储器(RAM)104,其中ROM 103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出***(BIOS)数据,而RAM 104用于为***提供存取速度较快的运行内存。计算机***100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如CD-ROM之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作***和应用程序。驱动器及其相关联的计算机可读介质为计算机***100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机***100还可以包括用于图像处理和/或图像输出的视频适配器105,其用于连接显示器106等输出设备。计算机***100还可以包括用于音频处理和/或音频输出的音频适配器107,其用于连接扬声器108等输出设备。此外,计算机***100还可以包括用于网络连接的网络接口114,其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116,其中所述连接可以是有线或无线的。另外,此外,计算机***100还可以包括用于连接***设备的通用串行总线接口(USB)112,其中所述***设备例如包括键盘117、鼠标118以及其它***设备、例如麦克风、摄像头等。
当本发明在图1所述的计算机***100上实现时,可以将上色分解为调色板估计和像素分配,有效地规避色彩模糊和区域同质性的挑战,支持自然的多样化和可控的上色。
此外,可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品,这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时,可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,可以作为计算机程序产品下载各实施例,其中可以经由通信链路(例如,调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如,服务器)传输给请求计算机(例如,客户机)。因此,在此所使用的机器可读介质可以包括这样的载波,但这不是必需的。
图2示出了本发明一个实施例中一个基于色盘对抗网络的图像上色方法的流程示意图。如图2所示,该方法可以包括下列步骤:
步骤201、构造色盘对抗网络(PalGAN),其中所述色盘对抗网络包括调色板生成器
Figure BDA0003777727550000091
调色板分配生成器
Figure BDA0003777727550000092
和颜色鉴别器D。
步骤202、向所述色盘对抗网络中输入灰度图像L。
步骤203、由所述调色板生成器
Figure BDA0003777727550000093
以及所述调色板分配生成器
Figure BDA0003777727550000094
以生成估计色图
Figure BDA0003777727550000095
步骤204、根据所述灰度图像L以及所述估计色图
Figure BDA0003777727550000096
生成输出彩色图像
Figure BDA0003777727550000097
步骤205、由所述颜色鉴别器D判断所述输出图像
Figure BDA0003777727550000098
的真实性。
图3示出了本发明一个实施例中一个色盘对抗网络的框架示意图。如图3所示,PalGAN旨在为灰度图像上色,其将上色分解为调色板预测和颜色分配问题。与大多数基于学习的方法采用的直接学习从灰度到颜色的像素到像素映射相比,这种求解方式不仅带来了上色效果上改进,而且使得能够通过调整或正则化调色板来操纵全局颜色。
对于PalGAN,它的输入是灰度图像(比如彩色图像的亮度通道)
Figure BDA0003777727550000099
输出是估计的色图
Figure BDA00037777275500000910
估计的色图将与L一起用作互补。
调色板生成器
Figure BDA00037777275500000911
估计给定灰度图像的全局调色板概率,表示为
Figure BDA00037777275500000912
可以使用2D色度直方图
Figure BDA00037777275500000913
来表示调色板概率(
Figure BDA00037777275500000914
Figure BDA00037777275500000915
表示a和b轴),对色彩信息统计进行建模,而不是学习确定性统计信息。在调色板生成器
Figure BDA00037777275500000916
Figure BDA00037777275500000917
是一个具有多个卷积层和几个多层感知(MLP)的编码器网络,以sigmoid函数结束。前者是提取特征,后者是将空间特征转换为直方图(向量形式)。通过直方图形式的调色板的显式表示,它仅使全局颜色分布更可预测,而且可以引入适当的正则化来进行操作。
现有技术中用户指引型上色已经证明了利用参考图像的颜色直方图对图像进行上色的有效性。与现有技术相比本发明是合成一个以输入灰度为条件的调色板直方图,而不是从用户指定的参考图像中获取。这使得本方法成为一个独立的全自动上色***,而不依赖于任何外部指导(即参考图像)来工作,另外,估计每个特定灰度的调色板直方图可以为上色过程提供比在野外选择的参考图像更准确和有指导意义的信息。
调色板分配生成器
Figure BDA00037777275500000918
通过条件图像生成进行颜色分配任务,其根据调色板直方图
Figure BDA0003777727550000101
和额外的潜在代码z(从正态分布采样)生成相应的ab,表示为
Figure BDA0003777727550000102
调色板分配生成器
Figure BDA0003777727550000103
是一个卷积生成器,由图像翻译中使用的常见残差块以及定制的调色板归一化(PN)层和色度注意(CA)模块组成。调色板归一化旨在促进生成的色彩通道与调色板指导
Figure BDA0003777727550000104
的一致性,该指导与每个Batch Normalization层一起使用。具体来说,PN层首先对其输入特征进行归一化,然后执行由
Figure BDA0003777727550000105
参数化的仿射变换(其中g(.)是全连接层)。
图4示出了本发明一个实施例中一个色彩注意模块的框架示意图。所述色彩注意模块可以明确地将颜色亲和力与其相应的语义和低级特征对齐,从而有效地减轻潜在的颜色渗色或语义误解。
色度注意模块将语义和低级相似性结合到构建颜色关系中,而这是是通过全局交互和局部描述子模块实现的。具体来说,CA的输入是高分辨率特征图F(大小为
Figure BDA0003777727550000106
来自
Figure BDA0003777727550000107
)、高层特征图S和调整大小的灰色输入L。它分别从全局交互和局部描绘中输出两个特征图Fg和Fl,并将它们融合成特征图残差,添加回输入特征图,表示为下式:
Figure BDA0003777727550000108
其中f(·)是由两个连续的卷积层形成的非线性融合操作,
Figure BDA0003777727550000109
是通道维度拼接操作。CAg和CAl分别表示全局交互和局部描述。在本实施例中
Figure BDA00037777275500001010
在全局交互子模块中使用其他特征点的加权和从输入特征图中重建每个区域特征点,并根据它们的语义相似性计算这种局部权重。形式上,它写成
Figure BDA00037777275500001011
其中p和q分别表示以F内的像素位置p和q为中心的补丁。并且wpq是根据从输入灰度图像中学习到的高级特征图中的区域交互来计算的。区域特征交互通过归一化区域特征之间的余弦相似度来衡量,表示为下式:
Figure BDA00037777275500001012
其中S表示高级特征图,从编码器
Figure BDA00037777275500001013
的中间表示中提取。SK和SQ表示使用卷积从S转换而来的两个特征图。
虽然纹理和边缘的颜色变化很微妙,但忽略这些细微的差异会导致明显的视觉退化。为了保留这些细节,可以通过局部描述子模块来补充全局交互。假设局部颜色亲和度与其对应的强度呈线性相关,可以引导过滤器方式学习这种局部关系,它很好地保留了引导的边缘。局部描述子模块计算一个可学习的局部仿射变换
Figure BDA0003777727550000111
以便将灰度图像
Figure BDA0003777727550000112
映射到其对应的ab特征地图,表示为下式:
Fl=A⊙L↓+B
其中⊙是逐元素乘法运算符,↓是下采样操作以确保L的空间大小与Fl相同。{A,B}由L和F之间的可学习局部相关性参数化,表示为下式:
Figure BDA0003777727550000113
其中Ψ是由小型卷积网络参数化的可学***滑版本。∈是一个小的正数,用于计算稳定性。
为了进一步确保所提出的调色板分配生成器对给定的调色板做出响应,可以最小化从预测的色彩通道中提取的调色板与从相应的地面实况中提取的调色板之间的差异。然而,由于硬阈值来自图像的常见直方图是不可微的,可以将调色板直方图视为a和b上的联合分布,由核的加权和表示。
形式上,颜色直方图表示为:
Figure BDA0003777727550000116
其中Ca(x)和Cb(x)分别表示a和b通道中像素x的值。k是用于测量(Ca(x),Cb(x))和给定(a,b),$Z$之间差异的核函数是归一化因子。可以采用反二次核,表示为下式:
Figure BDA0003777727550000117
其中σ控制相邻bin的平滑度。根据经验σ=0.1效果最好。
为了使预测颜色多样化可以引入调色板正则化,以便对抗颜色分布不平衡带来的暗淡颜色。一方面,可以采用概率调色板形式的ab直方图来测量预测颜色图和地面实况中的颜色分布。将它们的差异最小化明确地考虑了不同的颜色比例,避免收敛到几个占主导地位的比例。另一方面,可以通过增加稀有颜色的可能性(在训练样本中进行统计)来使产生的颜色多样化。可以利用概率调色板的熵来控制这种多样性。形式上,
Figure BDA0003777727550000118
的熵表示为
Figure BDA0003777727550000119
为了提高
Figure BDA00037777275500001110
的颜色多样性可以最大化
Figure BDA00037777275500001111
颜色鉴别器可以改善对抗训练的结果,其中以条件投影方式将调色板合并到鉴别器中。可以使用卷积鉴别器D,将输入(ab图像与其转换后的RGB图像之间的连接)转换为一维特征g∈R256×1。然后通过内积将这种特征与调色板融合在一起。输入真实性的可能性如下:
Figure BDA0003777727550000121
其中
Figure BDA0003777727550000122
是一个可学习的线性投影,
Figure BDA0003777727550000123
是C和L转换后的rgb版本。
可以使用不同的优化目标训练调色板估计和分配。对于调色板估计,关于调色板重建和正则化的学习如下式所示:
Figure BDA0003777727550000124
其中λrec1和λrg平衡了不同术语的影响,分别设置为5.0和1.0。
调色板分配的优化目标由像素级回归、调色板重建和对抗训练形成,如:
Figure BDA0003777727550000125
其中
Figure BDA0003777727550000126
是使用Eqn从
Figure BDA0003777727550000127
中提取的。λreg、λrec2和λadv分别设置为5.0、1.0、1.0。
对于使用的对抗性损失可以采用hinge损失版本,它的生成器训练目标表示为下式:
Figure BDA0003777727550000128
其中
Figure BDA0003777727550000129
Figure BDA00037777275500001210
是从
Figure BDA00037777275500001211
和L和PL转换而来的rgb版本表示灰度图像分布;
判别器的优化目标表示为下式:
Figure BDA00037777275500001212
其中PI表示rgb图像分布,C是从I转换而来的。
可以以渐进的方式联合训练调色板生成器
Figure BDA00037777275500001213
和调色板分配生成器
Figure BDA00037777275500001214
具体来说,对于{Li}到
Figure BDA00037777275500001215
的输入,
Figure BDA00037777275500001216
Figure BDA00037777275500001217
Figure BDA00037777275500001218
其中1是一个指示函数,如果它的条件成立,则值为1,否则为0。ph是从均匀分布
Figure BDA00037777275500001219
中采样的。可以从τ=1开始训练,然后在接近学习结束时将其线性减少到0。
可以使用谱归一化并在训练中使用两个时间尺度的更新规则(生成器和鉴别器的学习率分别为1e-4和4e-4来稳定学习.使用β1=0和β1=0.9的Adam优化器。对于应用的批量标准化,可以采用同步版本。在ImageNet的训练集上训练本方法,一共使用8个TiTAN2080ti过了40遍训练数据,批量大小为64。训练中的图像从调整大小的图像中随机裁剪为固定大小(256×256),纵横比不变。在测试中,可以将图像大小调整为256×256个并进行评估。
可以评估本方法以及ImageNet和COCO-Stuff上的现有代表性作品。在ImageNet上,采用两种评估协议。一种是按照(Larsson G,Maire M,Shakhnarovich G.Learningrepresentations for automatic colorization[C]//European conference oncomputer vision.Springer,Cham,2016:577-593)中的协议评估其验证数据(有50K张图片)的选择性子集ctest10k(有10K张图片)上的所有方法。另一个是在完整的验证集上运行。对于COCO-Stuff,可以在其5K验证图像上测试所有方法。
可以将本方法与现有的基于学习的上色方法进行比较,现有的基于学习的上色方法包括Deoldify、ClColor、UGColor、视频上色、InstColor、ColTrans和GPColor,其中注意InstColor是通过预训练的对象检测模型(需要标签和边界框)学习的,而GPColor利用预训练的(在带有标签的ImageNet上)BigGAN。对于包括本方法在内的其他方法仅使用成对的灰色彩色图像进行训练,对于UGColor使用不使用颜色提示的全自动版本。。
可以采用像素级相似性度量PSNR、SSIM、图像级感知度量LPIPS和FrechetInception Distance(FID)来定量评估上色结果。与PSNR和SSIM相比,LPIPS和FID更符合人工评估。
与其他方法相比,本发明提出的Pal GAN在ImageNet(FID:4.60and 2.78,LPIPS:0.161and 0.161from ctest10K和val50K)和COCO-Stuff(FID:7.70,LPIPS:0.148)没有利用任何注释或提示,这优于其他方法,其验证了结果的真实性和多样性的优越性。并且本方法还获得了具有竞争力的保真度分数(PSNR和SSIM),其显示了PalGAN良好的颜色恢复能力。如果给定地面实况调色板,本方法可以提供令人印象深刻的保真度性能以及生成性能,其显示了本方法的上限性能以供参考。考虑到保真度和感知结果之间的权衡,可以在所有基准测试中获得两全其美的结果。
此外考虑到语义对应和局部梯度变化,本方法的上色结果给出了自然、多样和精细的颜色预测。由于色彩注意力,与其他方法相比,它较少遭受常见的颜色渗色。
此外可以对现有的方法和本方法进行人工评估,其中根据(Zhang R,lsola P,Efros A A.Colorful image colorization[C]//European conference on computervision.Springer,Cham,2016:649-666.)和(Kumar M,Weissenborn D,KalchbrennerN.Colorization transformer[J].arXiv preprint arXiv:2102.04432,2021.)中的协议进行上色图灵测试。具体来说,地面实况彩色图像及其相应的上色结果(来自本方法的或其他方法)以随机顺序提供给20个参与者。这些参与者需要在不超过2秒的时间内确定哪个比另一个更现实。每种方法有40个上色预测,从lmageNet ctest10k中随机选择标签。在测试中本方法以很大的优势击败了竞争对手。
尽管本方法是使用合成数据以自我监督的方式进行训练的,但它也可以很好地处理现实世界的黑白历史图片,其中对颜色边界和一致性得到了很好的处理,在对象和肖像上效果很好。此外也可以通过使用来自参考颜色图像的调色板来进行基于参考(或基于示例)的上色,即使使用与输入没有语义相关性的图像调色板,PalGAN仍然可以根据给定图像的语义很好地调整给定的颜色分布,保持颜色区域一致。
在本发明的其它实施例中,色度注意力可以换成常用的全局自注意力;色盘(图像在Lab颜色空间下ab通道的统计量)可以替换成其他颜色特征如颜色聚合向量,将所有像素的颜色向量聚类成k类,然后k个每类的中值或者均值可以当成颜色特征;调色板生成器可以从一般的逐渐降采样的图像编码器改成保持分辨率最后降维的图像编码器或者U型网络结构;调色板分配生成器也可以从一般的逐渐上采样的图像解码器改成U型网络结构,其中采用的先上采样再卷积的操作可以由转置卷积替换。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。

Claims (10)

1.一种基于色盘对抗网络的图像上色方法,其特征在于,包括下列步骤:
构造色盘对抗网络,其中所述色盘对抗网络包括调色板生成器
Figure FDA0003777727540000011
调色板分配生成器
Figure FDA0003777727540000012
和颜色鉴别器D;
向所述色盘对抗网络中输入灰度图像L;
由所述调色板生成器
Figure FDA0003777727540000013
以及所述调色板分配生成器
Figure FDA0003777727540000014
以生成估计色图
Figure FDA0003777727540000015
根据所述灰度图像L以及所述估计色图
Figure FDA0003777727540000016
生成输出彩色图像
Figure FDA0003777727540000017
以及由所述颜色鉴别器D判断所述输出图像
Figure FDA0003777727540000018
的真实性。
2.根据权利要求1所述的基于色盘对抗网络的图像上色方法,其特征在于,由所述调色板生成器
Figure FDA0003777727540000019
根据所述灰度图像L生成调色板直方图
Figure FDA00037777275400000110
表示为下式:
Figure FDA00037777275400000111
Figure FDA00037777275400000112
Figure FDA00037777275400000113
其中,调色板直方图
Figure FDA00037777275400000114
表示表示调色板概率,
Figure FDA00037777275400000115
Figure FDA00037777275400000116
表示CIE Lab颜色空间中的a轴和b轴;以及
由所述调色板分配生成器
Figure FDA00037777275400000117
根据所述调色板直方图
Figure FDA00037777275400000118
以及潜在代码z生成CIE Lab颜色空间中的a值和b值,表示为下式:
Figure FDA00037777275400000119
3.根据权利要求2所述的基于色盘对抗网络的图像上色方法,其特征在于,所述调色板分配生成器
Figure FDA00037777275400000120
包括残差块、调色板归一化层以及色度注意模块,其中由所述调色板归一化层对输入特征进行归一化并且进行由
Figure FDA00037777275400000121
参数化的仿射变换,g(·)表示全连接层。
4.根据权利要求3所述的基于色盘对抗网络的图像上色方法,其特征在于,所述色度注意模块包括全局交互模块以及局部描述模块,其中由所述色度注意模块输入特征图F、高层特征图S和灰度图像L,通过所述全局交互模块执行全局交互操作以生成第一特征图Fg,通过所述局部描述模块执行局部描述操作以生成第二特征图Fl,将第一特征图Fg和所述第二特征图Fl融合以生成特征图残差F′,并且将所述特征图残差F′添加回所述特征图F,表示为下式:
Figure FDA00037777275400000122
Figure FDA0003777727540000021
其中f(·)表示非线性融合操作、
Figure FDA0003777727540000022
表示通道维度拼接操作、CAg表示全局交互操作、CAl表示局部描述操作。
5.根据权利要求4所述的基于色盘对抗网络的图像上色方法,其特征在于,所述全局交互操作包括使用其它区域特征点的加权在所述特征图F中重建每个区域特征点,并根据区域特征点之间的语义相似性计算局部权重,表示为下式:
Figure FDA0003777727540000023
Figure FDA0003777727540000024
其中p和q分别表示在所述特征图F内以像素位置p和q为中心的补丁,SK和SQ表示使用卷积从所述高层特征图S转换而来的特征图;以及
所述局部描述操作包括通过局部仿射变换{A,B}将所述灰度图像L映射到对应的ab特征地图,表示为下式:
Fl=A⊙L↓+B
Figure FDA0003777727540000025
Figure FDA0003777727540000026
其中⊙表示逐元素乘法运算符、↓表示下采样操作、Ψ表示可学***滑处理,∈表示正数参数。
6.根据权利要求5所述的基于色盘对抗网络的图像上色方法,其特征在于,进行调色板优化,其中将所述调色板直方图
Figure FDA0003777727540000029
进行核加权和表示,表示为下式:
Figure FDA00037777275400000210
Figure FDA00037777275400000211
其中Ca(x)和Cb(x)分别表示a和b通道中像素x的值,k表示核函数,σ表示控制相邻bin的平滑度的参数;以及
进行调色板正则化,其中通过最大化调色板直方图
Figure FDA00037777275400000212
的熵
Figure FDA00037777275400000213
以增加颜色多样性,表示为下式
Figure FDA0003777727540000031
7.根据权利要求6所述的基于色盘对抗网络的图像上色方法,其特征在于,所述颜色鉴别器D将输出图像
Figure FDA0003777727540000032
转换为一维特征g∈R256×1并且通过内积将所述一维特征与调色板融合并且计算输出图像
Figure FDA0003777727540000033
的真实性
Figure FDA0003777727540000034
表示为下式:
Figure FDA0003777727540000035
Figure FDA0003777727540000036
Figure FDA0003777727540000037
其中W表示可学习的线性投影。
8.根据权利要求7所述的基于色盘对抗网络的图像上色方法,其特征在于,对所述调色板生成器
Figure FDA0003777727540000038
以及所述调色板分配生成器
Figure FDA0003777727540000039
进行训练,其中对所述调色板生成器
Figure FDA00037777275400000310
训练的优化目标表示为下式:
Figure FDA00037777275400000311
其中reconstruction项表示调色板重建的学***衡参数;以及
对所述调色板分配生成器
Figure FDA00037777275400000312
训练的优化目标表示为下式:
Figure FDA00037777275400000313
Figure FDA00037777275400000314
Figure FDA00037777275400000315
Figure FDA00037777275400000316
其中,regression项像素级回归的学***衡参数,
Figure FDA00037777275400000319
表示对抗训练的损失生成器的训练目标,
Figure FDA00037777275400000320
表示对抗训练的损失判断器的训练目标,其中PI表示rgb图像分布。
9.根据权利要求8所述的基于色盘对抗网络的图像上色方法,其特征在于,通过渐进的方式联合训练所述调色板生成器
Figure FDA00037777275400000321
以及所述调色板分配生成器
Figure FDA00037777275400000322
10.一种计算机***,其特征在于,包括:
处理器,其被配置为执行机器可执行指令;以及
存储器,其上存储有机器可执行指令,所述机器可执行指令在被处理器执行时执行根据权利要求1-9之一所述的方法的步骤。
CN202210924523.XA 2022-08-02 2022-08-02 基于色盘对抗网络的图像上色方法 Active CN115272527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924523.XA CN115272527B (zh) 2022-08-02 2022-08-02 基于色盘对抗网络的图像上色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924523.XA CN115272527B (zh) 2022-08-02 2022-08-02 基于色盘对抗网络的图像上色方法

Publications (2)

Publication Number Publication Date
CN115272527A true CN115272527A (zh) 2022-11-01
CN115272527B CN115272527B (zh) 2024-08-13

Family

ID=83746591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924523.XA Active CN115272527B (zh) 2022-08-02 2022-08-02 基于色盘对抗网络的图像上色方法

Country Status (1)

Country Link
CN (1) CN115272527B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3142024A1 (fr) * 2022-11-14 2024-05-17 Lynred Procede de colorisation d’une image infrarouge

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730568A (zh) * 2017-10-31 2018-02-23 山东师范大学 基于权重学习的着色方法和装置
CN109859288A (zh) * 2018-12-25 2019-06-07 北京飞搜科技有限公司 基于生成对抗网络的图像上色方法及装置
WO2019153741A1 (zh) * 2018-02-07 2019-08-15 京东方科技集团股份有限公司 图像着色方法和装置
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730568A (zh) * 2017-10-31 2018-02-23 山东师范大学 基于权重学习的着色方法和装置
WO2019153741A1 (zh) * 2018-02-07 2019-08-15 京东方科技集团股份有限公司 图像着色方法和装置
CN109859288A (zh) * 2018-12-25 2019-06-07 北京飞搜科技有限公司 基于生成对抗网络的图像上色方法及装置
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3142024A1 (fr) * 2022-11-14 2024-05-17 Lynred Procede de colorisation d’une image infrarouge
WO2024105312A1 (fr) * 2022-11-14 2024-05-23 Lynred Procede de colorisation d'une image infrarouge

Also Published As

Publication number Publication date
CN115272527B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
Li et al. PDR-Net: Perception-inspired single image dehazing network with refinement
Fu et al. Uncertainty inspired underwater image enhancement
Lim et al. DSLR: Deep stacked Laplacian restorer for low-light image enhancement
CN107818554B (zh) 信息处理设备和信息处理方法
Bellavia et al. Dissecting and reassembling color correction algorithms for image stitching
CN109949255A (zh) 图像重建方法及设备
Kolesnikov et al. PixelCNN models with auxiliary variables for natural image modeling
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
Saleh et al. Adaptive uncertainty distribution in deep learning for unsupervised underwater image enhancement
Hu et al. Face hallucination from low quality images using definition-scalable inference
Wang et al. PalGAN: Image colorization with palette generative adversarial networks
Zheng et al. Truncated low-rank and total p variation constrained color image completion and its moreau approximation algorithm
Ahmed et al. PIQI: perceptual image quality index based on ensemble of Gaussian process regression
Liu et al. Hallucinating color face image by learning graph representation in quaternion space
Chaurasiya et al. Deep dilated CNN based image denoising
CN114444565A (zh) 一种图像篡改检测方法、终端设备及存储介质
CN116740261B (zh) 图像重建方法和装置、图像重建模型的训练方法和装置
CN112651333A (zh) 静默活体检测方法、装置、终端设备和存储介质
Yang et al. Blind image quality assessment of natural distorted image based on generative adversarial networks
Xu et al. Generative image completion with image-to-image translation
Liu et al. Attentive semantic and perceptual faces completion using self-attention generative adversarial networks
CN115272527A (zh) 基于色盘对抗网络的图像上色方法
Pajot et al. Unsupervised adversarial image inpainting
Chen et al. Face super resolution based on parent patch prior for VLQ scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant