CN113689328B - 一种基于自注意变换的图像和谐化*** - Google Patents

一种基于自注意变换的图像和谐化*** Download PDF

Info

Publication number
CN113689328B
CN113689328B CN202111067167.6A CN202111067167A CN113689328B CN 113689328 B CN113689328 B CN 113689328B CN 202111067167 A CN202111067167 A CN 202111067167A CN 113689328 B CN113689328 B CN 113689328B
Authority
CN
China
Prior art keywords
image
module
self
attention
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111067167.6A
Other languages
English (en)
Other versions
CN113689328A (zh
Inventor
郭宗辉
郑海永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202111067167.6A priority Critical patent/CN113689328B/zh
Publication of CN113689328A publication Critical patent/CN113689328A/zh
Application granted granted Critical
Publication of CN113689328B publication Critical patent/CN113689328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像处理技术领域,具体公开了两种基于自注意变换的非解耦和解耦的图像和谐化***,利用自注意变换网络强大的远程上下文建模能力,采用非解耦图像和谐化模块,在合成图像的特征空间中利用自注意变换网络充分挖掘前景与背景之间的关系,以指导合成图像和谐化;或,采用解耦图像和谐化模块,利用自注意变换编码器和解码器解耦背景图像光的隐向量编码,进而将背景光隐向量编码和反射率特征图像通过另一个自注意变换解码器进行融合,以生成光照本征图像,最终将反射率本征图像与光照本征图像相乘得到和谐化的图像,实现了在保持合成图像语义和结构不变的同时调整前景光照使其与背景光照相兼容,以此解决合成图像前景与背景的不和谐问题。

Description

一种基于自注意变换的图像和谐化***
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于自注意变换的图像和谐化***。
背景技术
将不同图像的任意区域组合成一幅视觉感知真实的合成图像是计算机视觉和图形学许多应用研究的一项基本任务,例如图像合成、图像拼接、图像编辑以及场景合成等,同时图像合成也是人类日常生活中的一种普遍操作。然而,将一幅图像的部分区域(称作合成图像的前景)复制并粘贴到另一幅图像(称作合成图像的背景)中进而得到的合成图像,由于其前景区域和背景区域(合成图像中除前景区域的其他区域)的成像环境(例如白天和黑夜,晴天和阴天,室内和室外)不同将不可避免地出现合成图像前景和背景外观不和谐一致的问题。因此,如何通过一种简单高效的手段使得合成图像看起来更加真实,即图像和谐化,是一项重要且具有挑战性的任务。
传统的图像和谐化方法着重于更好的匹配技术,通过迁移诸如颜色和纹理之类的统计信息来保证前景与背景之间的外观一致性。最近,已经开发了深度和谐化模型和大规模数据集来解决这一具有挑战性的任务并取得了很好的效果。当前的深度学习模型主要采用编码器-解码器的卷积神经网络(CNN)架构,该架构首先利用编码器尝试学习前景区域附近的背景外观颜色信息,进而捕获合成图像上下文以调整图像前景区域的外观或者光照使其与背景相一致,最后利用解码器重建和谐化后的图像。
实际上,普遍使用的编码器-解码器卷积神经网络架构通过两步处理过程完成图像和谐化任务。第一阶段主要是基于合成图像背景区域的颜色统计在多层特征空间中调整前景区域的颜色使其与背景颜色相兼容,第二阶段主要是将图像从高维特征空间中重建原始的结构和语义信息以及和谐化的低层视觉特征。然而,由于CNN本身具有局部敏感性的归纳偏置决定了卷积神经网络只能关注局部有限的信息,以致于浅层的CNN只能捕获前景附近的背景区域上下文,而缺少全局的背景上下文。然而,图像整体的协调一致性是评价合成图像视觉真实度的关键要素。因此CNN可能无法充分利用背景全局信息进行调整前景颜色并使其与整体背景颜色相一致。
另外,先前的方法采用具有连续编码的U-Net多层CNN网络结构,虽然U-Net通过多层CNN堆叠方式可以增加感受野以捕获图像全局的上下文,但同时由于从编码器到解码器的跳连接可能会再次将合成图像原有的不和谐信息引入到重建的图像中,降低图像和谐化模型的性能。
发明内容
本发明提供一种基于自注意变换的图像和谐化***,解决的技术问题在于:如何在图像和谐化过程中,既能捕获前景附近的背景区域上下文,还能捕获图像全局的上下文,并且不引入不和谐信息,以最大程度地解决合成图像前景与背景的不和谐问题。
为解决以上技术问题,本发明提供一种基于自注意变换的图像和谐化***,包括非解耦图像和谐化模块或解耦图像和谐化模块;
所述非解耦图像和谐化模块用于利用自注意变换网络对输入的合成图像和掩膜图像进行直接的自注意变换,生成对应的和谐化图像;
所述解耦图像和谐化模块包括反射率图像生成模块、背景光解耦模块和光照图像生成模块、合成模块;
所述反射率图像生成模块用于对输入的合成图像和掩膜图像进行解耦的自注意变换,生成所述合成图像的反射率本征图像;
所述背景光解耦模块用于利用自注意变换网络从合成图像的背景图像中解耦背景光以照射到所述反射率本征图像上;
所述光照图像生成模块用于对照射有背景光的反射率本征图像利用自注意变换网络进一步生成光照本征图像;
所述合成模块用于对所述反射率本征图像和所述光照本征图像进行点乘操作,生成所述合成图像的和谐化图像。
具体的,所述非解耦图像和谐化模块包括第一编码器、第一序列化变换模块、第一自注意变换模块、第一序列化反变换模块、第一解码器;
所述第一编码器用于将输入的合成图像和掩膜图像编码到特征空间,得到特征图像输入所述第一序列化变换模块;
所述第一序列化变换模块对输入的特征图像进行序列化变换,生成所述第一自注意变换模块的输入令牌;
所述第一自注意变换模块用于对所述第一序列化变换模块生成的输入令牌进行直接的自注意变换,得到输出令牌输入所述第一序列化反变换模块;
所述第一序列化反变换模块用于对输入的输出令牌进行序列化反变换,生成和谐化特征图像;
所述第一解码器用于将所述和谐化特征图像解码为与所述合成图像对应的和谐化图像。
具体的,所述反射率图像生成模块包括第二编码器、第二序列化变换模块、第二自注意变换模块、第二序列化反变换模块、第二解码器;
所述第二编码器用于将输入的合成图像和掩膜图像编码到特征空间,得到特征图像输入所述第二序列化变换模块;
所述第二序列化变换模块对输入的特征图像进行序列化变换,生成所述第二自注意变换模块的输入令牌;
所述第二自注意变换模块用于对所述第二序列化变换模块生成的输入令牌进行解耦的自注意变换,得到反射率图像输出令牌输入所述第二序列化反变换模块及所述光照图像生成模块;
所述第二序列化反变换模块用于对输入的输出令牌进行序列化反变换,生成反射率本征特征图像;
所述第二解码器用于将所述反射率本征特征图像解码为与所述合成图像对应的反射率本征图像。
具体的,所述背景光解耦模块包括线性变换模块、第三自注意变换模块、第四自注意变换模块;
所述线性变换模块用于将输入的背景图像分割成图像块序列,然后将每个图像块展平当做一个令牌并通过线性映射将其编码到特征空间,生成所述第三自注意变换模块的输入令牌;
所述第三自注意变换模块用于对其输入令牌进行自注意变换编码,生成所述第四自注意变换模块的输入令牌;
所述第四自注意变换模块用于对其输入令牌进行自注意变换解码,生成背景光隐向量编码令牌输入所述光照图像生成模块中。
具体的,所述光照图像生成模块包括第五自注意变换模块、第三序列化反变换模块、第三解码器;
所述第五自注意变换模块用于对所述背景光隐向量编码令牌及所述反射率图像输出令牌进行自注意变换,生成对应的光照本征图像输出令牌;
所述第三序列化反变换模块用于对所述光照本征图像输出令牌进行序列化反变换生成与所述合成图像对应的光照本征特征图像;
所述第三解码器用于对所述光照本征特征图像进行解码,输出与所述合成图像对应的光照本征图像。
具体的,在训练过程中,对于所述非解耦图像和谐化模块及所述解耦图像和谐化模块,均采用单个损失函数来激励所述合成图像的和谐化图像逼近其真实图像。
具体的,所述第一编码器、所述第二编码器均采用CNN网络的编码器,所述第一解码器、所述第二解码器、所述第三解码器均采用CNN网络的解码器。
具体的,所述第一自注意变换模块、所述第二自注意变换模块、所述第三自注意变换模块均采用自注意变换网络的编码器TRE,所述第四自注意变换模块、所述第五自注意变换模块均采用自注意变换网络的解码器TRD;
TRE由多个结构相同的层堆叠构成,其中每层包含一个具有多头自我注意力机制的子层和一个前馈网络子层,TRE旨在基于对输入令牌(图像块)之间依赖关系进行建模进而输出自注意力关系图;
TRD也由多个相同结构的层堆叠构成,其中每层除了与TRE相同的两个子层外,还有第三个编码器-解码器的交叉注意力机制的子层,该交叉注意力机制的子层对TRE的输出与TRD自身执行多头注意力操作;TRD致力学习从源域到目标域的映射,生成与任务相关的特征矩阵。
具体的,所述第一自注意变换模块、所述第二自注意变换模块、所述第三自注意变换模块、所述第四自注意变换模块、所述第五自注意变换模块均采用2个注意力头和9个注意力层。
本发明实施例提供的一种基于自注意变换的图像和谐化***,利用自注意变换网络强大的远程上下文建模能力,可采用图像非解耦方式直接生成和谐化图像,结构简单、和谐化效果好。为了更好的和谐化效果,可采用图像解耦方式,通过反射率图像生成模块获得合成图像的反射率本征图像,通过背景光解耦模块和光照图像生成模块获得合成图像的光照本征图像,从而通过将反射率本征图像和反射率本征图像合成得到和谐化图像,实现了在保持合成图像语义和结构不变的同时调整前景光照使其与背景光照相兼容,以此解决合成图像前景与背景的不和谐问题。实验结果证明该***在图像和谐化任务上达到了最先进的性能。
附图说明
图1是本发明实施例提供的利用Transformer进行图像视觉任务的输入模式框架图;
图2是本发明实施例提供的非解耦图像和谐化模块(HT模型)的框架图;
图3是本发明实施例提供的非解耦图像和谐化模块(HT模型)的具体结构图;
图4是本发明实施例提供的解耦图像和谐化模块(D-HT模型)的框架图;
图5是本发明实施例提供的图4所示模型的框架细化图;
图6是本发明实施例提供的图5所示模型的具体结构图;
图7是本发明实施例提供的各图像和谐化方法在iHarmony4四个子数据集和整体数据集上的视觉效果展示图;
图8是本发明实施例提供的使用普通掩膜(中间行)和反转掩膜(底部行)进行对比的图像和谐化视觉效果展示图;
图9是本发明实施例提供的在不同照明条件下具有不同输出的图像视觉效果展示图;
图10是本发明实施例提供的通过修改目标图像的光隐向量编码(Lt)得到不同光照的输出图像视觉效果展示图;
图11是本发明实施例提供的各图像和谐化方法在真实合成图像上的视觉效果展示图;
图12是本发明实施例提供的图像补全方法在Paris StreetView数据集上的视觉效果展示图;
图13是本发明实施例提供的图像增强方法在MIT-Adobe-5K-UPE数据集上的视觉效果展示图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
自注意变换网络(Transformer)得益于精巧的自注意力机制设计使其能够捕获远程的上下文,Transformer作为一种新型的神经网络结构受到了科研界和工业界的快速广泛关注。Transformer代替了RNN和LSTM,首先被应用于自然语言处理(NLP)任务中,并在NLP的多种任务中取得了令人瞩目的成绩。如今,受益于Transformer强大的特征表示能力,研究者们正在将Transformer应用到多种计算机视觉任务中,比如目标检测、图像识别和图像处理等。
自注意变换网络(Transformer)最开始应用于诸如自然语言之类的顺序数据处理任务中,如机器翻译等,它不依赖递归形式而是依靠自注意力机制来描述输入和输出之间全局的依赖关系。因此,如果将Transformer用于计算机视觉任务,需要将2D图像表示为1D序列数据并将其元素或编码当作令牌(token,例如NLP中的单词)并以此序列化数据作为Transformer的输入。实际上,可以将图像块作为令牌,以避免以像素为令牌而出现的超长序列问题。因此,在本项工作中,本例初步分析了不同令牌数量以及不同嵌入类型对Transformer在图像和谐化方面的性能影响。对于令牌数量,考虑在将图像拆分为图像块时使用不同的步长进行调整。对于编码方式,利用线性(FC或CONV)和非线性(含有非线性激活函数的MLP或CNN网络)两种投影方式。通过实验发现Transformer对令牌数量更为敏感,而对编码类型不敏感。图像输入方式如图1所示。
自注意变换网络(Transformer)包含用于捕获令牌关系的编码器TRE(·)和用于产生任务输出的解码器TRD(·)。TRE由多个结构相同的层堆叠构成,其中每层包含一个具有多头自我注意力机制的子层和一个前馈网络子层。TRD也由多个相同结构的层堆叠构成,其中每层除了与TRE相同的两个子层外,还有第三个编码器-解码器的交叉注意力机制的子层,该子层对TRE的输出与TRD自身执行多头注意力操作。由此可知,TRE利用自注意力机制来探索其输入向量间的自我关系,而TRD执行交叉注意以发现其自身输入与TRE输出之间的相互关系。因此,对于以图像作为输入的视觉任务,TRE旨在基于对输入令牌(图像块)之间依赖关系进行建模进而输出自注意力关系图,而TRD则致力学习从源域(TRE的输入)到目标域的映射(TRD的输入/输出),生成与任务相关的特征矩阵。本例旨在探究TRE和TRD在图像和谐化任务上的能力,以及不同的自注意力头数和层数对于Transformer性能的影响,致力于利用Transformer强大的远程上下文建模能力来解决图像和谐化问题,以充分利用背景全局上下文信息实现图像和谐化。为了解决合成图像中由于前景和背景之间不同光照条件引起的颜色外观不和谐问题,本例提供一种基于自注意变换的图像和谐化***,其首先设计了一个简单的非解耦的自注意变换图像和谐化框架(HT),即非解耦图像和谐化模块,在非常基本的卷积(CNN)编码器和解码器之间引入自注意变换网络(Transformer),用于利用自注意变换网络对输入的合成图像和掩膜图像进行直接的自注意变换,生成对应的和谐化图像。
如图2、3所示,所述非解耦图像和谐化模块包括第一编码器E(采用CNN网络的编码器)、第一序列化变换模块R、第一自注意变换模块TRE(采用自注意变换网络的编码器)、第一序列化反变换模块R′、第一解码器D(采用CNN网络的解码器)。
第一编码器E用于将输入的合成图像和掩膜图像M编码到特征空间,得到特征图像输入第一序列化变换模块R。第一序列化变换模块R对输入的特征图像进行序列化变换,生成第一自注意变换模块TRE的输入令牌。第一自注意变换模块TRE用于对第一序列化变换模块R生成的输入令牌进行直接的自注意变换,得到输出令牌输入第一序列化反变换模块R′。第一序列化反变换模块R′用于对输入的输出令牌进行序列化反变换,生成和谐化特征图像。第一解码器D用于将和谐化特征图像解码为与合成图像/>对应的和谐化图像/>
CNN编码器E旨在将合成图像编码到紧凑的特征空间,并以特征图的像素作为Transformer的输入,而CNN解码器D旨在将Transformer的输出重建为与输入图像对应的和谐化图像。这种设计方式实际上是在基本的编码器-解码器体系结构下将CNN的编解码嵌入到Transformer中,与当前主流的图像和谐化方法对比相对公平。此外,对于在输入图像和输出图像间许多信息不变(语义、结构等)的低层视觉任务中,可以将TRD中的交叉注意力模块与自注意力模块看作具有相似的作用,因此,本例仅在HT框架中使用TRE。
针对图像和谐化任务,给定一幅合成图像和对应的前景掩膜图像M,目标是生成一幅前景和背景相兼容的和谐化图像/>作为输出,即/>应尽可能地接近真实图像H。具体来说,CNN编码器E(·)生成较低分辨率的特征图像F∈Rh×w×c,其中,使用/> 和c= 256,H、W分别表示合成图像的高和宽。然后将特征图像F的像素(对应于输入图像的图像块) 序列化为F′∈Rhw×c,以此作为TRE的输入令牌,且输入令牌编码是每个像素中各通道的特征值。此外,与原始Transformer在NLP任务中的使用方式类似,本例将每个像素在特征图像F中的实际坐标按照正余弦固定位置编码方式得到各个令牌的位置编码E,以此作为TRE的令牌位置输入。进而,将TRE输出的序列数据按照原有位置坐标反向变换为与F相同大小的特征图像并将其输入到CNN解码器D(·)中,最后生成和谐化后的图像/>
本例将这种非解耦的自注意变换图像和谐化模型用公式表达为:
其中,φ和φ′分别表示变换和反变换操作。
重要的是,本例仅使用单个损失函数来激励/>
根据背景照明调整前景光照是解决图像不和谐问题的关键。此外,基于本征图像和Retinex理论的漫反射模型假设,图像的光强度值实际上编码了对应场景点的所有特征,因此,本实施例还通过将合成图像分解为反射率本征图像和光照本征图像,进而利用Transformer捕获背景光并将其放在反射率特征图像上以实现光照本征图像的和谐化。本实施例提供的一种基于自注意变换的图像和谐化***,如图4所示,包括反射率图像生成模块、背景光解耦模块和光照图像生成模块、合成模块。其中:
反射率图像生成模块用于对输入的合成图像和掩膜图像M进行解耦的自注意变换,生成合成图像/>的反射率本征图像/>
背景光解耦模块用于利用自注意变换网络从合成图像的背景图像/>(从合成图像/>中抠去前景区域可得到背景图像)中解耦背景光lbg以照射到反射率本征图像/>上。光照图像生成模块用于对照射有背景光lbg的反射率本征图像/>利用自注意变换网络进一步生成光照本征图像/>合成模块用于对反射率本征图像/>和光照本征图像/>进行点乘操作,生成合成图像/>的和谐化图像,这个过程可公式化为:/>
基于此,具体的,如图5、6所示,反射率图像生成模块包括第二编码器ER(采用CNN网络的编码器)、第二序列化变换模块R1、第二自注意变换模块TRER(采用自注意变换网络的编码器)、第二序列化反变换模块R′1、第二解码器DR(采用CNN网络的编码器)。其中:
第二编码器ER用于将输入的合成图像和掩膜图像M编码到特征空间,得到特征图像输入第二序列化变换模块R1,这个过程可公式化为:/>具体来说,CNN编码器ER生成较低分辨率的特征图像F∈Rh×w×c,其中,/> 和c=256,H、W分别表示合成图像/>的高和宽。
第二序列化变换模块R1用于对特征图像F∈Rh×w×c进行序列化变换生成多个令牌并对其进行位置编码,得到输入令牌,这个过程可公式化为:具体来说,将特征图像F的像素(对应于输入图像的图像块)序列化为F′∈Rhw×c,以此作为第二自注意变换模块TRER的输入令牌,且输入令牌编码是每个像素中各通道的特征值。此外,将每个像素在特征图像F中的实际坐标按照正余弦固定位置编码方式得到各个令牌的位置编码Er,以此作为TRER的令牌位置输入。
第二自注意变换编码器TRER用于对输入令牌进行自注意解耦变换编码,生成对应的反射率图像输出令牌,这个过程可公式化为:
第二序列化反变换模块R′1用于对反射率图像输出令牌进行与第二序列化变换模块R1相反的反变换,得到与特征图像F大小相同的反射率本征特征图像,这个过程可公式化为:
第二解码器DR用于对反射率本征特征图像进行解码,输出与合成图像大小相同的反射率本征图像/>这个过程可公式化为:/>
故,反射率图像生成模块的整个流程可公式化为:
具体的,如图5、6所示,背景光解耦模块包括线性变换模块LP、第三自注意变换模块TREL(采用自注意变换网络的编码器)、第四自注意变换模块TRDL(采用自注意变换网络的解码器)。其中:
线性变换模块LP用于将背景图像(通道数C=3,H、W分别代表图像的高度和宽度,背景图像与合成图像同宽同高)分割成图像块序列/>(图像块数量/>图像块的大小P=8),然后将每个图像块展平当做一个令牌并通过线性映射LP(·)将其编码到C′=256维度的特征空间,并将固定位置编码Ep(图像块在原始图像中的位置坐标利用正余弦编码得到)加到令牌编码中,得到第三自注意变换模块TREL的输入令牌,这个过程可公式化为:/>
第三自注意变换模块TREL用于对其输入令牌进行自注意变换编码,生成第四自注意变换模块的输入令牌,这个过程可公式化为:
第四自注意变换模块TRDL用于对其输入令牌进行自注意变换解码,生成对应的背景光隐向量编码令牌输入光照图像生成模块中,这个过程可公式化为:这里的光编码令牌序列/> (dl=27表示27维度的球谐系数)是TRDL的初始输入,El表示可学习的光位置编码初始值,光编码令牌的初始值为零。
如图5、6所示,光照图像生成模块包括第五自注意变换模块TRDI(采用自注意变换网络的解码器)、第三序列化反变换模块R′2、第三解码器DI(采用CNN网络的解码器)。
第五自注意变换模块TRDI用于对背景光隐向量编码令牌、反射率图像输出令牌进行自注意变换解码,生成对应的光照本征图像输出令牌,这个过程可公式化为TRDI(tl+El,tr+Er),这里的tl、El分别表示学习后的光编码令牌序列、光位置编码(由第一自注意变换解码器TRDL输出),而反射率本征图像令牌序列tr的位置编码为Er
第三序列化反变换模块R′2用于对光照本征图像输出令牌TRDI(tl+El,tr+Er)进行与第二序列化变换模块R1相反的反变换,得到与特征图像大小相同的光照本征特征图像,这个过程可公式化为:φ′(TRDI(tl+El,tr+Er))。
第三解码器DI用于对光照本征特征图像进行解码,输出与合成图像大小相同的光照本征图像/>这个过程可公式化为:/>
还需说明的是,在对***的训练过程中,同样采用单个范数损失函数来激励合成图像/>的和谐化图像/>逼近其真实图像H:/>
总体而言,本例所示解耦图像和谐化模块使用了两个Transformer编码器和两个Transformer解码器,其中编码器TRER以图像块的CNN编码令牌作为输入并生成反射率本征图像,编码器TREL以图像块的FC编码令牌作为输入并结合解码器TRDL生成背景光的隐向量编码,而解码器TRDI以背景光隐向量编码和反射率特征令牌作为输入进而生成光照本征图像,最后将反射率和光照本征图像点乘生成和谐化的图像。
本发明实施例提供的一种基于自注意变换的图像和谐化***,利用自注意变换网络强大的远程上下文建模能力,可采用图像非解耦方式(图2、3)直接生成和谐化图像,结构简单、和谐化效果好。为了更好的和谐化效果,可采用图像解耦方式,通过反射率图像生成模块获得合成图像的反射率本征图像,以及通过背景光解耦模块和光照图像生成模块获得合成图像的光照本征图像,从而通过将反射率本征图像和反射率本征图像合成得到和谐化图像,实现了在保持合成图像语义和结构不变的同时调整前景光照使其与背景光照相兼容,以此解决合成图像前景与背景的不和谐问题。
下面通过实验验证本例所提供***的效果。
本次实验选取合成的iHarmony4数据集和真实的合成图像数据集。其中,在公共合成iHarmony4数据集上进行实验,以分析和评估自注意变换图像和谐化模型性能。iHarmony4数据集共包含4个子数据集,分别为HCOCO、HAdobe5k、HFlickr和Hday2night,每一幅合成图像都对应一幅前景掩膜图像和真实图像,本例遵循与DoveNet相同的实验设置。与DoveNet评价相同,本例在99张真实合成图像数据集上评估***的性能。
反射率和光照只利用损失函数作为重建约束,并采用Adam优化器(参数为β1=0.5、β2=0.999),共计迭代训练60次,模型初始学习率设置为e-4并在40个迭代后降为e-5。解耦的自注意变换图像和谐化模型中的反射率解码器DR和光照解码器DI的最后一层使用tanh激活函数。将输入图像大小调整为256×256用于训练和测试,模型也生成同样大小的和谐化图像。
特别地,在恢复和谐化图像前,需要将反射率图像和光照图像归一化到[0,1]区间。
为了进行实验对比,本例首先构建了两种用于实现图像到图像翻译任务的经典网络模型作为基准,分别为编码器-解码器结构的U-Net(E-D U-Net)和编码器-解码器残差卷积神经网络模型(E-D CNN,结构为Encoder-Resblocks-Decoder)。表1展示了在iHarmony4四个子数据集和整体数据集的定量评价结果,包含HT、D-HC、D-HT与基准模型E-D U-Net和E-D CNN以及当前最好方法:DIH、S2AM和DoveNet在4个数据集上的比较结果,其中箭头朝上表示数据越高效果越好,箭头朝下表示数据越低效果越好。HT即为图3所示非解耦的自注意变换图像和谐化模型(带有2个注意力头和9个注意力层的TRE),D-HC和D-HT分别表示利用CNN的解耦模型和利用Transformer的解耦模型(图6所示,注意力为2头和9层的TRE和TRD)。构建D-HC模型,方法是用Resblock替换将D-HT中自注意变换编码器TRER,用Encoder和MLP替换TREL和TRDL解耦背景场景光,用AdaIN替换TRDI重新渲染得到光照本征图像。此外,表1还提供了合成图像与真实图像的评价结果作为参考(Composite列)。
表1
从表1的实验评估结果上可以看出,与E-D(U-Net)相比,E-D(CNN)在HCOCO和HAdobe5k数据集上表现更好,而在HFlickr和Hday2night数据集上表现较差,其原因可能是U-Net具有捕获全局上下文的全局感受野,但其跳连接可能为重建图像带入了不和谐因素,CNN由于其归纳偏置而使得感受野有局限。总之,在整个iHarmony4数据集上,E-D(CNN)比E-D(U-Net)的fMSE更低,但是,非解耦自注意变换图像和谐化模型(HT)不仅优于E-D(U-Net)和E-D(CNN)两个基准模型,而且还优于其他图像和谐化方法,这表明Transformer的远程上下文能力在图像和谐化任务上是非常有效的。
表1中的定量比较结果表明,与当前最先进的方法相比,D-HC模型获得了竞争性或更优异的结果,同时证明了反射率和光照本征图像分离和谐化确实有助于图像和谐化。同样,D-HT模型具有非常低的fMSE分数(320.78,而S2AM和DoveNet分别为537.23和541.53),证明了D-HT模型的设计方式的准确性和有效性。另外,D-HC在Hday2night数据集的表现优于HT,这可能是由于D-HC拥有更好的解耦能力,而HT由于Hday2night训练数据集不足(仅311张训练图像)缺乏偏置引起。
图7展示了各图像和谐化方法的视觉效果(合成图像中框住部分表示不和谐的前景区域,每个数据集一个示例,从上到下依次为HCOCO、HAdobe5k、HFlickr和Hday2night),对比视觉效果可知,D-HT模型得到的和谐化图像与真实图像最为接近。
为了研究分析输入令牌(token)数量和编码类型对Transformer性能的影响,本例使用步幅S调整令牌的数量T,其中对TRE使用1头3层的编码器,然后使用CNN重建,并使用步长S调整令牌数量。表2中数据表明线性和非线性编码方式都随着令牌的数量增加Transformer性能不断提升。此外,对于固定的令牌数量(例如4N),无论选择哪种编码方式(线性FC或CONV还是非线性MLP或CNN)Transformer的性能都是相似的。因此,可以推测,Transformer的性能对于令牌的数量敏感,而在图像和谐化上对于令牌编码方式不敏感。故,本例提供带有更多令牌的长序列,甚至令牌之间可能存在冗余,那么Transformer可以挖掘更丰富的上下文,并且当前不同的编码方式都可以为图像块提供有效的信息。
表2
进一步设计实验以验证基于HT结构的自注意变换网络编码器(E)和解码器(D)层数对图像和谐化的影响。表3中fMSE↓定量数据比较结果表明,当编码器的层数等于编码器和解码器总层数,即使解码器具有额外的交叉注意力层,Transformer在图像和谐化任务上的性能也相似。因此,本例在HT模型设计上(在生成反射率本征图像上)只采用Transformer编码器TRE。
表3
为分析使用Transformer不同的注意力头数和层数对HT模型图像和谐化的性能影响,本例进一步设计了一组实验。表4中定量数据比较结果表明,更多的注意力层数和头数都有助于提高Transformer的性能,但是当注意力层数超过9层时,Transformer的性能提升空间受到了限制。
表4
对D-HT模型使用Transformer部分进行消融实验研究,分别利用D-HC模型中使用的CNN结构替换反射率通路和光照通路的Transformer,得出表5的定量比较结果,该结果证明了Transformer在图像和谐化任务的优势。
表5
此外,本例通过前景掩膜反转操作进行了另一项实验,即交换合成图像的前景与背景区域以生成反转的掩膜,以便在本例的D-HT模型上根据合成图像的前景调整背景使其和谐化。图8显示了使用普通掩膜(中间行)和反转掩膜(底部行)进行对比的图像和谐化结果,表明D-HT可以从任意前景掩膜中产生有意义的图像和谐化结果。
本例进一步对光的隐向量空间进行研究,以探究Transformer是否可以学习图像的光表示。给定一幅图像,本例使用解耦的自注意变换图像和谐化(D-HT)模型获取其光的隐向量编码,并任意更改该编码通过后续网络产生不同的图像。图9展示了在不同照明条件下具有不同输出的图像,表明了本例利用Transformer编码器和解码器学习的背景场景光是准确的。
更进一步,本例还设计了一组用于验证场景光学习和迁移的组合实验。如图10所示,本例以两幅图像(Source 1和Source 2)作为场景光参考图像,以一幅图像作为光照迁移的目标图像(Target),首先学习两幅参考图像对应的场景光隐向量编码Ls1和Ls2,进而利用公式Lt=αLs1+(1-α)Ls2通过调整变量α得到不同的目标场景光隐向量编码Lt,最后将目标场景光隐向量编码Lt通过光照迁移模型渲染到目标图像的反射率特征图像中生成不同光照的图像。定性实验结果表明,本例的场景光学习和迁移设计是有效的,同时也可将其应用于生成不同模态图像的相关任务中。
本例与目前最新技术的比较,利用B-T分数评估了D-HT模型在真实合成图像上的图像和谐化能力。表6中统计数据和图11中视觉效果表明了本例的方法获得最好的B-T分数和最佳的视觉效果。
表6
本例将非解耦的图像和谐化HT模型应用于Paris StreetView数据集上随机缺失区域的图像补全任务,以验证本例设计的HT模型的实用性和扩展性。图像补全的目的是通过合成与已知区域像素相一致的视觉逼真和语义合理的像素,来填充图像的缺失区域。表7和图12展示了本例HT模型和当前最新方法RFR-Net的定量和视觉结果,HT模型通过充分发挥Transformer在长时建模的优势,通过定量和视觉结果可知,均证明本例HT模型在图像补全任务上的优越性能。
表7
本例还将解耦的自注意变换图像和谐化D-HT模型应用于MIT-Adobe-5K-UPE数据集上的图像增强任务,并与最新方法DeepLPF做了对比。成像时光照条件不好将导致图像质量下降,尤其是曝光不足的图像。因此,本例使用D-HT模型通过重建损失函数将低光照图像分解为反射率和光照图像,并将反射率图像视作增强后的图像。
表8的定量比较结果表明D-HT在PSNR、SSIM和LPIPS评价标准上均优于DeepLPF方法。图13进一步验证了本例的D-HT模型可以通过解耦的自注意变换网络恢复图像的对比度、自然色彩以及清晰的细节。
表8
综上实验,本例提出了一种使用自注意变换网络的图像和谐化新方法,旨在利用Transformer的远程上下文的建模能力来消除合成图像的不和谐因素。本例不仅建立了两种非解耦和解耦的自注意变换图像和谐化框架(HT和D-HT),而且设计了综合性实验来探索和分析有关Transformer在图像和谐化上的使用方式和潜力。此外,本例还将非解耦和解耦的自注意变换图像和谐化模型应用于图像修复和图像增强两种计算机视觉经典任务中,进一步说明了本例设计方法(D-HT模型)的有效性和优越性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于自注意变换的图像和谐化***,其特征在于:包括非解耦图像和谐化模块或解耦图像和谐化模块;
所述非解耦图像和谐化模块用于利用自注意变换网络对输入的合成图像和掩膜图像进行直接的自注意变换,生成对应的和谐化图像;
所述解耦图像和谐化模块包括反射率图像生成模块、背景光解耦模块和光照图像生成模块、合成模块;
所述反射率图像生成模块用于对输入的合成图像和掩膜图像进行解耦的自注意变换,生成所述合成图像的反射率本征图像;
所述背景光解耦模块用于利用自注意变换网络从合成图像的背景图像中解耦背景光以照射到所述反射率本征图像上;
所述光照图像生成模块用于对照射有背景光的反射率本征图像利用自注意变换网络进一步生成光照本征图像;
所述合成模块用于对所述反射率本征图像和所述光照本征图像进行点乘操作,生成所述合成图像的和谐化图像;
所述非解耦图像和谐化模块包括第一编码器、第一序列化变换模块、第一自注意变换模块TRE、第一序列化反变换模块、第一解码器;
所述第一编码器用于将输入的合成图像和掩膜图像M编码到特征空间,得到特征图像输入所述第一序列化变换模块;所述第一编码器采用CNN网络的编码器即CNN编码器E(·);CNN编码器E(·)生成低分辨率的特征图像F∈Rh×w×c,/>和c=256,H、W分别表示合成图像的高和宽;
所述第一序列化变换模块将特征图像F的像素序列化为F′∈Rhw×c,以此作为TRE的输入令牌;
所述第一自注意变换模块用于对所述第一序列化变换模块生成的输入令牌进行直接的自注意变换,得到输出令牌输入所述第一序列化反变换模块;
所述第一序列化反变换模块用于对输入的输出令牌进行序列化反变换,生成和谐化特征图像;
所述第一解码器用于将所述和谐化特征图像解码为与所述合成图像对应的和谐化图像;第一解码器D采用CNN网络的解码器即CNN解码器D(·);
所述非解耦图像和谐化模块的处理过程用公式表达为:
其中,φ和φ′分别表示所述第一序列化变换模块的变换操作和所述第一序列化反变换模块的反变换操作;将每个像素在特征图像F中的实际坐标按照正余弦固定位置编码方式得到各个令牌的位置编码E,以此作为TRE的令牌位置输入;
所述反射率图像生成模块包括第二编码器、第二序列化变换模块、第二自注意变换模块、第二序列化反变换模块、第二解码器;
所述反射率图像生成模块的整个流程可公式化为:
其中,将每个像素在特征图像F中的实际坐标按照正余弦固定位置编码方式得到各个令牌的位置编码Er,以此作为第二自注意变换编码器的令牌位置输入;
所述背景光解耦模块包括线性变换模块LP、第三自注意变换模块TREL、第四自注意变换模块TRDL
所述线性变换模块LP用于将输入的背景图像分割成图像块序列/>然后将每个图像块展平当做一个令牌并通过线性映射LP(·)将其编码到特征空间,并将固定位置编码Ep加到令牌编码中,生成所述第三自注意变换模块的输入令牌/>
所述第三自注意变换模块TREL用于对其输入令牌进行自注意变换编码,生成所述第四自注意变换模块的输入令牌/>
所述第四自注意变换模块TRDL用于对其输入令牌进行自注意变换解码,生成背景光隐向量编码令牌/> 输入所述光照图像生成模块中,tl表示光编码令牌序列,El表示可学习的光位置编码初始值;
所述光照图像生成模块包括第五自注意变换模块TRDI、第三序列化反变换模块R′2、第三解码器DI
所述第五自注意变换模块TRDI用于对所述背景光隐向量编码令牌及所述反射率图像输出令牌进行自注意变换,生成对应的光照本征图像输出令牌TRDI(tl+El,tr+Er),tr为反射率本征图像令牌序列,tr的位置编码为Er;
所述第三序列化反变换模块R′2用于对所述光照本征图像输出令牌TRDI(tl+El,tr+Er)进行序列化反变换生成与所述合成图像对应的光照本征特征图像φ′(TRDI(tl+El,tr+Er));
所述第三解码器DI用于对所述光照本征特征图像进行解码,输出与所述合成图像对应的光照本征图像/>
2.根据权利要求1所述的一种基于自注意变换的图像和谐化***,其特征在于:
所述第二编码器用于将输入的合成图像和掩膜图像编码到特征空间,得到特征图像输入所述第二序列化变换模块;
所述第二序列化变换模块对输入的特征图像进行序列化变换,生成所述第二自注意变换模块的输入令牌;
所述第二自注意变换模块用于对所述第二序列化变换模块生成的输入令牌进行解耦的自注意变换,得到反射率图像输出令牌输入所述第二序列化反变换模块及所述光照图像生成模块;
所述第二序列化反变换模块用于对输入的输出令牌进行序列化反变换,生成反射率本征特征图像;
所述第二解码器用于将所述反射率本征特征图像解码为与所述合成图像对应的反射率本征图像。
3.根据权利要求1所述的一种基于自注意变换的图像和谐化***,其特征在于:在训练过程中,对于所述非解耦图像和谐化模块及所述解耦图像和谐化模块,均采用单个损失函数来激励所述合成图像的和谐化图像逼近其真实图像。
4.根据权利要求3所述的一种基于自注意变换的图像和谐化***,其特征在于:
所述第一编码器、所述第二编码器均采用CNN网络的编码器,所述第一解码器、所述第二解码器、所述第三解码器均采用CNN网络的解码器。
5.根据权利要求4所述的一种基于自注意变换的图像和谐化***,其特征在于:所述第一自注意变换模块、所述第二自注意变换模块、所述第三自注意变换模块均采用自注意变换网络的编码器TRE,所述第四自注意变换模块、所述第五自注意变换模块均采用自注意变换网络的解码器TRD;
TRE由多个结构相同的层堆叠构成,其中每层包含一个具有多头自我注意力机制的子层和一个前馈网络子层,TRE旨在基于对输入令牌之间依赖关系进行建模进而输出自注意力关系图;
TRD也由多个相同结构的层堆叠构成,其中每层除了与TRE相同的两个子层外,还有第三个编码器-解码器的交叉注意力机制的子层,该交叉注意力机制的子层对TRE的输出与TRD自身执行多头注意力操作;TRD致力学习从源域到目标域的映射,生成与任务相关的特征矩阵。
6.根据权利要求5所述的一种基于自注意变换的图像和谐化***,其特征在于:所述第一自注意变换模块、所述第二自注意变换模块、所述第三自注意变换模块、所述第四自注意变换模块、所述第五自注意变换模块均采用2个注意力头和9个注意力层。
CN202111067167.6A 2021-09-13 2021-09-13 一种基于自注意变换的图像和谐化*** Active CN113689328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111067167.6A CN113689328B (zh) 2021-09-13 2021-09-13 一种基于自注意变换的图像和谐化***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111067167.6A CN113689328B (zh) 2021-09-13 2021-09-13 一种基于自注意变换的图像和谐化***

Publications (2)

Publication Number Publication Date
CN113689328A CN113689328A (zh) 2021-11-23
CN113689328B true CN113689328B (zh) 2024-06-04

Family

ID=78586147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111067167.6A Active CN113689328B (zh) 2021-09-13 2021-09-13 一种基于自注意变换的图像和谐化***

Country Status (1)

Country Link
CN (1) CN113689328B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713680B (zh) * 2022-11-18 2023-07-25 山东省人工智能研究院 一种基于语义引导的人脸图像身份合成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523534A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种图像描述的方法
CN113076809A (zh) * 2021-03-10 2021-07-06 青岛海纳云科技控股有限公司 一种基于视觉Transformer的高空坠物检测方法
CN113192055A (zh) * 2021-05-20 2021-07-30 中国海洋大学 一种合成图像的和谐化方法及模型
CN113269792A (zh) * 2021-05-07 2021-08-17 上海交通大学 一种图像后期和谐化处理方法、***及终端
CN113344807A (zh) * 2021-05-26 2021-09-03 商汤集团有限公司 图像修复方法及装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523534A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种图像描述的方法
CN113076809A (zh) * 2021-03-10 2021-07-06 青岛海纳云科技控股有限公司 一种基于视觉Transformer的高空坠物检测方法
CN113269792A (zh) * 2021-05-07 2021-08-17 上海交通大学 一种图像后期和谐化处理方法、***及终端
CN113192055A (zh) * 2021-05-20 2021-07-30 中国海洋大学 一种合成图像的和谐化方法及模型
CN113344807A (zh) * 2021-05-26 2021-09-03 商汤集团有限公司 图像修复方法及装置、电子设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Pre-Trained Image Processing Transformer;Hanting Chen等;《arXiv preprint》;1-15页 *
兰红 ; 刘秦邑 ; .图注意力网络的场景图到图像生成模型.中国图象图形学报.2020,(第08期),全文. *
图注意力网络的场景图到图像生成模型;兰红;刘秦邑;;中国图象图形学报(第08期);全文 *
王俊豪 ; 罗轶凤 ; .通过细粒度的语义特征与Transformer丰富图像描述.华东师范大学学报(自然科学版).2020,(第05期),全文. *
通过细粒度的语义特征与Transformer丰富图像描述;王俊豪;罗轶凤;;华东师范大学学报(自然科学版)(第05期);全文 *

Also Published As

Publication number Publication date
CN113689328A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
Pang et al. CAVER: Cross-modal view-mixed transformer for bi-modal salient object detection
CN109903292A (zh) 一种基于全卷积神经网络的三维图像分割方法及***
CN113934890B (zh) 一种文字自动生成场景视频的方法及***
CN111986105B (zh) 基于时域去噪掩码的视频时序一致性增强方法
Azad et al. Enhancing medical image segmentation with TransCeption: A multi-scale feature fusion approach
CN113689328B (zh) 一种基于自注意变换的图像和谐化***
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及***
Hu et al. Dear-gan: Degradation-aware face restoration with gan prior
CN112862922A (zh) 一种基于多特征生成网络先验信息引导的图像填充方法
CN116091978A (zh) 一种基于高级语义信息特征编码的视频描述方法
Li et al. Image super-resolution reconstruction based on multi-scale dual-attention
CN114694176A (zh) 一种基于深度学习的轻量级人体姿态估计方法
CN113537246A (zh) 一种基于对抗学习的灰度图像同时上色超分方法
CN117315241A (zh) 一种基于transformer结构的场景图像语义分割方法
Liu et al. Diverse hyperspectral remote sensing image synthesis with diffusion models
CN117315069A (zh) 基于图像特征对齐的人体姿态迁移方法
CN113780209B (zh) 一种基于注意力机制的人脸属性编辑方法
CN116630387A (zh) 基于注意力机制的单目图像深度估计方法
CN116523985A (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN115564856A (zh) 一种基于示例的无监督人脸图像翻译方法
Shen et al. Learned image compression with transformers
Zeng et al. Swin-CasUNet: cascaded U-Net with Swin Transformer for masked face restoration
Lin et al. PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement
Zhang et al. Facial Image Shadow Removal via Graph‐based Feature Fusion
Peng Efficient Neural Light Fields (ENeLF) for Mobile Devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant