CN116894770A - 图像处理方法、图像处理设备和计算机程序 - Google Patents

图像处理方法、图像处理设备和计算机程序 Download PDF

Info

Publication number
CN116894770A
CN116894770A CN202211658280.6A CN202211658280A CN116894770A CN 116894770 A CN116894770 A CN 116894770A CN 202211658280 A CN202211658280 A CN 202211658280A CN 116894770 A CN116894770 A CN 116894770A
Authority
CN
China
Prior art keywords
image
stage
image processing
decoder
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211658280.6A
Other languages
English (en)
Inventor
K·纳斯鲁拉
T·B·莫斯兰德
A·阿克贝格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maishitong System Co ltd
Original Assignee
Maishitong System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maishitong System Co ltd filed Critical Maishitong System Co ltd
Publication of CN116894770A publication Critical patent/CN116894770A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

本发明涉及图像处理方法、图像处理设备和计算机程序。本发明提供了一种图像处理方法,包括:获取空间分辨率和明度将被增强的第一图像;使用用于低光增强和超分辨率的联合学习的多尺度分层神经网络来从所述第一图像生成残差图像,所述网络包括形成多个对称的编码器‑解码器级的编码器阶段和解码器阶段,各级中的各编码器和解码器包括视觉变换器块;以及基于所述第一图像和所述残差图像来生成重建图像。

Description

图像处理方法、图像处理设备和计算机程序
技术领域
本发明涉及使用机器学习的图像处理。更确切地说,本发明涉及一种方法、设备、计算机程序和包括这种程序的存储介质,其用于增强图像的空间分辨率(维度)及其明度(预测观察者或计算机将如何感知图像中的光量或图像中对象的亮度)。
本发明在计算机视觉和视频监控领域中找到特定应用,其中需要在对自然低光低分辨率(LLLR)图像执行诸如对象检测和/或识别等的进一步操作之前增强自然LLLR图像的可见性、质量、(空间)分辨率和细节。
背景技术
单图像超分辨率(SISR)旨在增加空间分辨率并在给定低分辨率(LR)输入图像的情况下产生高分辨率(HR)细节。
由于增强图像中的细节的许多实际应用,超分辨率(SR)已经成为数十年的活跃研究领域。然而,当前最先进技术(SoTA)的SR方法是在良好照明的图像上训练的,因此它们不适合于重建例如通过监视或遥感照相机在不良明度条件下捕获到的真实LR图像。
因此,传统策略是在超分辨图像之前用专用的低光增强(LLE)算法来校正曝光水平。然而,这种顺序处理方案导致较差的重建准确度,这主要是由于误差累积以及LLE和SR都是高度不适定和病态逆问题这一事实。相反,已经表明,与顺序处理相比,联合SR以及去噪、去马赛克和去模糊在所有情况下都导致优异的性能。
当前的SoTA SR方法基于卷积神经网络(CNN),卷积神经网络通常是在具有64×64像素的尺寸的LR块及其对应的HR块(通常为×2、×3或×4倍的更大规模)上训练的。由于HR细节的重建主要是局部问题(即,远距离相邻像素提供与局部像素的重建有关的很少信息),因此SR模型不会从使用较大的训练块中受益很多。
LLE的早期尝试依赖于直方图均衡化、照明图估计和Retinex理论来校正图像照明。然而,由于这些方法未能考虑低光(LL)图像中的固有噪声,因此重建结果通常不令人满意。最近,已经利用深度学习来学习LL和正常光(NL)图像之间的端到端映射。结合深度学习进一步探索了Retinex理论,其中CNN用于学习分解和照明增强,并且最近,提出了自增强Retinex投影模型。此外,生成对抗网络(GAN)也已应用于图像增强问题。
尽管如此,LLE方法不增加图像的空间分辨率,而是主要旨在校正亮度水平。如此,这些方法仅恢复图像中有限的附加细节。
此外,对于LLE的问题,发明人已经发现,使用更全局的上下文信息可以提供与特定像素的光增强水平有关的有价值提示。
其原因的一部分可能是CNN的无效的远程依赖性建模能力,这限制了它们从更全局的上下文信息中受益的能力。
像LLE一样,图像超分辨率是基本的低级计算机视觉问题其中之一。从第一个基于CNN的SR网络开始,研究人员通过扩展网络深度、利用残差学习、应用密集连接和注意力机制来提高SR模型的重建性能。研究还集中于通过使用特征损失和GAN来改善感知质量,而不仅仅是重建准确度。然而,大多数方法假定LR图像由理想的双三次下采样核来创建,这是现实世界情形的过度简化。
此外,除了仅下采样之外,现实世界图像通常还由于附加因素而劣化,例如,仅举几个例子,模糊、低对比度、颜色失真、噪声和低光。为了补救这一点,已出现了集中于可以处理更多多样化劣化的SR方法的研究方向。这些方法通常通过扩展劣化模型以在LR训练图像中包括更多样的劣化(例如,高斯噪声、模糊和压缩伪影)来改进经典SR方法。然而,文献中仅非常少的工作考虑到LR图像被低光劣化。与真实自然LLLR RGB图像的SR的目标最密切相关的一些工作解决了不同图像特定域内的问题。例如,已经提出了用于重建合成LLLR面部图像的基于GAN的方法。此外,已提出了用于LL近红外(NIR)图像的SR的专用方法,同时还提出了用于由增强电荷耦合器件捕获到的LL图像的方法。
因此,如上所述,尚未开发出用于重建真实LLLR RGB图像的现有SR模型。
发明内容
本发明通过将新颖的基于变换器的多尺度分层编码器-解码器网络(以下称为分辨率和光增强变换器(Resolution and Light Enhancement Transformer)(简称为RELIEF))用于联合LLE和SR来解决上述问题中的至少一些。
本发明使用变换器来有效地利用附加全局上下文信息重建低光低分辨率(LLLR)图像,因为变换器由于它们在建模远程依赖性方面的高能力因此可以在高级和低级这两者的视觉任务上表现出令人印象深刻的性能。
本发明的方面通过独立权利要求来阐述,并且本发明的优选特征在从属权利要求中阐述。
根据第一方面,提供了一种图像处理方法,包括:获取空间分辨率和明度将被增强的第一图像;使用用于低光增强和超分辨率的联合学习的多尺度分层神经网络来从所述第一图像生成残差图像,所述网络包括形成多个对称的编码器-解码器级的编码器阶段和解码器阶段,各级中的各编码器和解码器包括视觉变换器块;以及基于所述第一图像和所述残差图像来生成重建图像。
可选地,所述网络是包括跳过连接的残差神经网络。
可选地,所述网络具有U形架构,所述编码器阶段在每个级增加所述第一图像的特征通道的数量的同时降低所述第一图像的空间分辨率,并且所述解码器阶段在每个级减少所述特征通道的数量的同时增加所述空间分辨率,以及所生成的残差图像的空间分辨率与所获取到的第一图像的空间分辨率相同。
可选地,各视觉变换器块使用十字形窗口多头自注意力机制。
可选地,所述自注意力机制包括形成十字形窗口的平行的水平条带和垂直条带,以及条带的宽度在所述网络的整个深度上逐渐增加。
可选地,各视觉变换器块是通过将十字形窗口自注意力机制与局部增强前馈模块和局部增强位置编码模块进行组合所获得的增强十字形窗口变换器块。
可选地,基于以下式生成所述重建图像
其中,ILLLR是所述第一图像,IR是所述残差图像,以及s是用于上采样的缩放因子,并且符号+表示逐元素相加。
可选地,对所获取到的第一图像和所生成的残差图像的组合进行上采样包括:进行像素重组和卷积运算。
可选地,所述方法还包括:从所述第一图像提取低级特征图并且将所述低级特征图F0输入到第一编码器级,其中,W和H是所述第一图像的宽度和高度,以及C是所述第一图像的特征通道的数量。
可选地,提取低级特征图F0包括进行卷积运算。
可选地,生成所述残差图像包括:从所述多个对称的编码器-解码器级中的低级特征F0中提取深层特征Fd
可选地,生成所述残差图像包括:在各编码器级之后,将由该编码器输出的特征重新整形为2D特征图,并对由该编码器输出的特征进行下采样。
可选地,生成所述残差图像包括:在各解码器级之后,对由该解码器级中的所述解码器输出的特征进行上采样。
可选地,对由所述解码器输出的特征进行上采样包括至少一个转置卷积运算。
可选地,所述网络包括在最后编码器级和第一解码器级之间的瓶颈阶段。
可选地,处理所述瓶颈阶段的输出,以对在所述最后编码器级输出的潜在特征图的大小进行上采样,并减少输入到所述第一解码器级的特征通道的数量。
可选地,所述网络包括跳过连接,所述跳过连接将所述最后解码器级的输出与所述瓶颈阶段的输出级联,以在所述第一解码器级中输入级联特征图。
可选地,所述网络包括其他跳过连接,所述其他跳过连接分别级联来自该级的编码器的特征图和来自先前解码器级的解码器的特征图,这导致输入到该级的解码器中的特征图中的各级的特征通道的数量是在该级中的编码器的特征通道的数量的两倍。
可选地,所述神经网络是预先利用低分辨率块图像和相应高分辨率块图像而训练的,其中,所述低分辨率块图像大于64×64像素,以及其中,所述相应高分辨率块图像为至少2至4倍大。
根据第二方面,提供了一种计算机程序,其当在计算机上运行时,使得所述计算机执行根据本文公开的示例或实施例中任一个的方法。
根据第三方面,提供了一种计算机可读存储介质,其存储有所述计算机程序。
根据第四方面,提供了一种图像处理设备,包括:获取部件,其被配置为获取空间分辨率和明度将被增强的第一图像;第一生成部件,其被配置为使用用于低光增强和超分辨率的联合学习的多尺度分层神经网络来从所述第一图像生成残差图像,所述网络包括形成多个对称的编码器-解码器级的编码器阶段和解码器阶段,各级中的各编码器和解码器包括视觉变换器块;以及第二生成部件,其被配置为基于所述第一图像和所述残差图像来生成重建图像。
可选地,所述网络是包括跳过连接的残差神经网络。
可选地,各视觉变换器块使用十字形窗口多头自注意力机制,其中,所述自注意力机制包括形成十字形窗口的平行的水平条带和垂直条带,以及其中,条带的宽度在所述网络的整个深度上逐渐增加。
可选地,各视觉变换器块是将十字形窗口自注意力机制与局部增强前馈模块和局部增强位置编码模块进行组合的增强十字形窗口变换器块。
可选地,所述网络包括在最后编码器级和第一解码器级之间的瓶颈阶段。
通过以下参考附图对实施例的说明,本发明的附加特征将变得明显。
附图说明
现在将参考附图仅通过示例的方式说明本发明的实施例,其中:
图1A是本发明的网络的全局架构的示意图。图1B至图1D表示图1A的放大和详细部分。
图2是根据本发明的ECSWin自注意力变换器块的示意图。
图3示出LePE位置编码机制。
图4示出本发明与经受手动曝光校正的图像和地面真值(ground truth(GT))图像的比较。
图5和图6分别示出在两个不同数据集(即,RELLISUR和SICE数据集)上使用本发明的网络的联合LLE和4X SR的示例。
图7示出通过与地面真值图像进行比较来用不同的LR块大小训练本发明的网络的视觉效果。
具体实施方式
图1A示出本发明的网络的全局架构的示意图,并且图1B至图1D表示图1A的放大和详细部分。
整个管道(如图1A至图1D所示)
考虑到LLLR图像(其中W和H分别是宽度和高度),目标是恢复其正常光高分辨率(NLHR)版本INLHR。为了实现这一点,RELIEF首先从ILLLR中提取低级特征,其中C是通道的数量。优选地通过具有LeakyReLU的3×3卷积层获得F0。接着,在K个对称的编码器-解码器级中从低级特征F0中提取深度特征Fd。各级包含多个ECSWin变换器块。这些块优选地具有大的注意力区域以捕获远程依赖性。
在各编码器级之后,优选地将特征重新整形为2D特征图并下采样,同时增加通道的数量。我们优选地使用步幅为2的4×4卷积运算来进行该运算。我们优选地使用K=4编码器级,并且如此在最后一个编码器阶段处输出的潜在特征是被赋予输入特征图的
接着,为了捕获甚至更长的依赖性,我们优选地在最低级在编码器和解码器之间并入瓶颈阶段。来自瓶颈阶段的输出优选地通过步幅为2的2×2转置卷积运算来处理,以在进入第一解码器级之前对潜在特征的大小进行上采样并减少通道数量。为了改进重建处理,优选地使用跳过连接(图1A中的SC)来级联编码器和解码器特征,从而产生具有两倍通道量的特征图。在各解码器变换器块之后,利用与在瓶颈阶段之后优选使用的运算类似的转置卷积运算对特征进行上采样。然后,在最后解码器级,优选地使用3×3卷积层对深度特征Fd进行整形以获得残差图像。
最后,重建的HR和光增强图像优选地被获得为其中s是上采样运算的缩放因子。后者优选地利用像素重组和3×3卷积运算来进行。我们以1个像素损失来优化RELIEF。
ECSWin自注意力变换器块
原始完全自注意力机制的计算复杂度随着输入大小而二次增长,因此与大训练图像块组合使用是不可行的。一些工作已经尝试通过移位、光晕和焦点窗口来降低计算复杂度以进行自注意力。然而,对于大多数方法来说,有效感受野增长缓慢,这阻碍了远程建模能力。为了在维持强大的远程建模能力的同时减少计算负担,我们使用十字形窗口(CSWin)注意力机制。利用CSWin,通过将多头分成并行组来在水平和垂直条带中计算自注意力,以实现高效的全局自注意力。我们优选地在整个网络深度上逐渐增加条带的宽度,以进一步扩大注意力区域并限制计算成本。为了进一步增强重建性能,我们优选地将CSWin自注意力机制与局部增强前馈(LeFF)和局部增强位置编码(LePE)组合,并形成我们的ECSWin变换器块。将在以下部分中详细描述不同的组成部分。
如图2所示,各ECSWin变换器块优选地包括层归一化(LayerNorm)层、CSWin自注意力模块、剩余连接和LeFF层。更正式地,ECSWin变换器块可以优选地定义为:
其中:LN表示层归一化,并且和Xl分别是CSWin和LeFF模块的输出。我们将我们的RELIEF架构设计为在各编码器-解码器级包含多个CSWin变换器模块。接着,我们描述ECSWin中的局部增强前馈网络和位置编码。
局部增强前馈网络
为了更好地利用图像恢复中必不可少的局部上下文,我们将香草变换器块中使用的基于多层感知器(MLP)的前馈网络与LeFF层交换。在LeFF层中,令牌的特征尺寸优选地利用线性投影层来增加,并且之后重新整形为2D特征图。接着,优选地将3×3深度卷积运算应用于重新整形的特征图。最后,特征映射优选地被平坦化为令牌,并且利用线性层来减少通道,使得增强的令牌的维度与输入的维度匹配。优选地,在各线性和卷积层之后使用GELU激活函数。
局部增强位置编码
由于自注意力机制固有地忽略2D图像空间中的位置信息,因此我们优选地使用位置编码来添加回这样的信息。与在变换器块之前将位置信息添加到输入令牌中的典型编码机制(绝对位置编码(APE)、相对位置编码(RPE)和条件位置编码(CPE))不同,我们优选地使用利用深度卷积算子实现的LePE,以在各变换器块内合并位置信息。如图3所示,LePE直接对来自通过输入X的线性变换获得的query(Q)、key(K)和value(V)对的V并行操作。
如此,自注意力计算优选地被公式化为:
其中,DWC是深度卷积算子。
实验和分析
数据集
最近的RELLISUR数据集是真正劣化的LLLR图像及其高质量NLHR对应物的唯一公开可用的数据集。RELLISUR数据集包含850个不同的LLLR图像序列,其中各序列中具有五个不同程度的曝光不足,与三个不同尺度级的NLHR图像配对。在我们的工作中,我们使用作为数据集中最具挑战性的比例因子的×4放大进行实验。
我们遵循已知的预定义分割,并且因此训练图像、val图像和测试图像的数量分别为3610、215和425。
SICE是以不同曝光水平捕获的589个各种场景的数据集,这些曝光水平的范围从曝光不足到曝光过度,包括正确曝光的地面真值(GT)图像。我们遵循已知的训练测试分割,得到58个测试和531个训练图像。我们优选地按原样使用GT正常光图像,但优选地在训练和测试期间仅使用各场景的最暗曝光作为LL图像。我们合成地创建LL图像的劣化LR版本,以获得配对的劣化LLLR图像和NLHR图像。我们通过在以因子×4进行下采样之前、首先将图像与标准偏差为1.5的11×11高斯模糊核进行卷积,来使LL图像降级。接着,我们通过添加具有零均值和标准偏差8的高斯噪声来对传感器噪声进行建模。最后,我们以JPEG格式保存图像,其中质量设置为70以添加压缩伪像。我们从训练集中丢弃总共8个图像,其分辨率在下采样之后小于256×256像素。对256×256个中心裁剪进行评价。
评估指标
我们采用两个手工制作的(PSNR,SSIM)和一个基于学习的(DISTS)全参考图像质量评估(FRIQA)度量来进行定量比较。PSNR是重建图像与GT之间的峰值误差的量度,而SSIM更集中于可见结构差异。然而,这些度量中没有一个与感知的图像质量良好相关。为此,我们优选地使用DISTS,其更好地捕获由人类观察者判断的感知图像质量。对于所有度量,我们报告在RGB通道上计算的得分。
实现细节
我们从头开始训练我们的模型以进行批大小为16的5×105次迭代。我们优选地使用学***和垂直翻转。我们优选地在我们的RELIEF实现中使用4个编码器-解码器级,其中在各级处具有两个ECSWin变换器块,并且在瓶颈中具有一个ECSWin变换器块。编码器中的注意力头的数量和条带宽度的尺寸优选地分别被设置为[4,8,16,32]和[1,2,8,8],它们在解码器中被镜像。在瓶颈中,优选地使用32个头和8的条带宽度。在所有实验中,对于第一编码器级,我们优选地使用通道维度=48。如此,从级1到级5的特征通道的结果数量变为[48,96,192,384,768]。
与现有方法的比较
据我们所知,文献中没有现有方法可以处理真实LLLR RGB图像的重建。为此,我们将我们提出的方法与用于LLE、SR和一般图像恢复的专用方法进行比较。MIRNet和ESRGAN分别是用于LLE和SR的SoTA方法。为了与LLE一起实现上采样,我们将像素重组层附加到MIRNet。由于ESRGAN中的VGG鉴别器与大的训练块不兼容,因此我们优选地使用已知的块鉴别器代替。SwinIR是用于一般图像恢复(例如,SR、JPEG压缩伪影减少和去噪)的基于SoTA变换器的方法。我们优选地将真实世界SR配置和像素重组上采样用于SwinIR。我们优选地使用256×256像素的LR训练块大小,并且使用与用于我们的RELIEF相同的训练超参数来重新训练所有竞争方法,以进行公平比较。MIRNet和SwinIR在L1损失的情况下进行优化,而ESRGAN在如本发明人所提出的L1、感知和对抗损失的组合的情况下进行优化。我们强调,上述现有方法都不是为联合LLE和SR设计的,但一旦在这样的数据上训练,它们仍然可以用作针对我们提出的方法的基线。
表1:不同模型和参数数量×106以及每秒的千兆乘积累加(GMAC)的概述
结果
定量结果。如表2所示,在所有度量上,RELIEF显著优于其他方法。我们的方法在RELLISUR和SICE数据集上分别获得0.28和0.78dB的PSNR增益。类似地,根据DISTS度量,我们的RELIEF也实现了最佳感知质量,即使我们的方法没有用像ESRGAN那样的感知损失进行优化。
如表1所示,我们的RELIEF具有最高数量的参数,但比任何比较方法显著更低的计算负担,例如对于SwinIR,5.7GMAC相对于47.2GMAC。然而,如第4.6.2节中的经验证据所证明的,我们可以用具有少于一半数量的参数的RELIEF变体获得相当的性能。
定性结果。我们分别在图5和图6中示出对RELLISUR和SICE数据集的不同方法的视觉比较。如图所示,通过产生具有最少数量的伪像的视觉上最令人愉悦的重建,我们的RELIEF还显示出其相对于其他方法的明显优点。在RELLISUR数据集中,极低光低分辨率图像中隐藏着严重的噪声和颜色失真,如MIRNet和ESRGAN这样的方法难以消除这些噪声和颜色失真。相比之下,SwinIR产生较少的伪影,但是我们的RELIEF用最准确的颜色和最少的伪影重建图像,同时保留大部分结构内容。这在图5的第二行和第三行中尤其明显,其中我们的方法是设法按照预期重建均匀和干净的背景而不损害边缘和精细细节的唯一方法。利用来自SICE数据集的视觉结果可以观察到相同的趋势,其中由MIRNet和ESRGAN产生的图像包含严重的视觉缺陷,而我们的方法更忠实于地面真值。SwinIR和我们的方法之间的主要区别在于,由我们的方法产生的重建看起来更清晰并且具有更少的颜色失真。
表2:针对RELLISUR和SICE数据集的用于联合LLE和×4SR的最新技术方法的定量比较
消融研究
在本节中,我们调查RELIEF中的组件的有效性和必要性。除非另外说明,否则所有评估均使用64×64的LR训练块大小和通道尺寸C=48在RELLISUR上进行。
跳过连接和瓶颈层的影响。表3示出我们的网络的三个变体:无跳过连接、无瓶颈层和所提出的RELIEF网络。从表中可以看出,跳过连接和瓶颈层都是重要的,因为通过去除这些网络组件,PSNR分别下降0.64和0.59dB。
表3:对不同网络设计的消融
模型参数。我们用不同量的模型参数进行实验,以通过改变通道数量C来找到准确性和复杂性之间的权衡。如表4所示,我们设计了RELIEF的三个变体:RELIEFS、RELIEFM和RELIEFL。我们观察到PSNR与数量参数相关直到某一点为止,而且参数和GMAC二次增长。我们选择通道数量48以平衡性能和模型大小。
表4:不同的通道尺寸与模型参数的结果数量、GMAC和重建准确度之间的比较
训练块大小。图7和表5示出将LR训练块大小从64×64(图7的(a))增加到256×256像素(图7的(b))的效果。如图所示,较大的训练块不仅改善了重建中的细节的数量(图7,顶行),而且确保了平滑区域看起来更均匀并且具有更少的伪影(图7,底行)。这也反映在表5中呈现的定量结果中,其中与较小的块大小相比,较大的训练块大小产生1.58dB或更高的重建准确度。这证明了我们提出的方法在充分利用联合LLE和SR的更多全局上下文信息方面的有效性。
表5:对训练块大小的消融
表6:对不同的多头自注意力机制、前馈网络和位置编码机制的消融
注意力和局部性。我们针对RELIEF中的变换器块,比较了不同的多头自注意力机制、前馈网络和位置编码机制,以示出对重建性能的影响。如表6所示,具有十字形窗口注意力以及前馈网络和位置嵌入中的增强局部性的最佳性能配置比具有移位窗口注意力、MLP前馈网络和相对位置编码而没有局部性增强的配置提高了0.97dB。与CSWin相比,具有局部性增强的前馈网络的ECSWin块得到0.15dB的PSNR增益。
结论
本发明介绍了特别适用于重建真实LLLR图像的RELIFE,一种新颖的U形多尺度分层变换器网络。利用其能够捕获远程依赖性和局部上下文的高效ECSWin变换器块,RELIEF可以利用大的训练块大小,这导致更好的重建性能,从而使其能够揭示真实低能见度图像中的先前隐藏细节。两个基准数据集的实验结果表明,根据本发明的方法在重建准确度和视觉质量方面优于现有技术的方法。
本发明还提供了一种计算机程序,其当在计算机上运行时,使得计算机执行根据前述实施例和特征中任一个的方法。
本发明还提供了一种计算机可读数据载体,其存储有上述的计算机程序。
本发明还提供了一种图像处理设备置,包括:
获取部件,其被配置为获取空间分辨率和明度将被增强的第一图像;第一生成部件,其被配置为使用用于低光增强和超分辨率的联合学习的多尺度分层神经网络来从所述第一图像生成残差图像,所述网络包括形成多个对称的编码器-解码器级的编码器阶段和解码器阶段,各级中的各编码器和解码器包括视觉变换器块;以及第二生成部件,其被配置为基于所述第一图像和所述残差图像来生成重建图像。
根据本发明的图像处理设备可以被配置为进行结合本发明的图像处理方法描述的步骤或操作中的一些或全部。也就是说,结合图像处理方法描述的特征也可以是该设备的一部分或由该设备进行。该设备例如可以被配置为优选地从上述计算机可读数据载体运行上述计算机程序。
本发明还提供了一种视频监控***,其包括一个或多于一个摄像机和上述图像处理设备,该图像处理设备还优选地运行视频管理***(VMS)(其可以是软件、硬件或两者的组合的形式),该视频管理***从所述一个或多于一个摄像机接收一个或多于一个视频流和/或元数据。例如,是由申请人开发和分发的VMS,其可用于从视频监控***中的一个或多于一个摄像机以及可选地从一个或多于一个记录服务器检索和播放实时和记录的视频监控数据。
在这种视频监控***中,图像处理设备被配置为处理接收到的视频监控数据中所包括的帧中的至少一些,要处理的各第一图像与接收到的监控数据的帧的至少一部分相对应。优选地,图像处理设备可以处理接收到的视频监控数据的数个或所有帧,要处理的各相应第一图像与接收到的监控数据的相应帧的至少一部分相对应。换句话说,对于从一个或多于一个摄像机接收到的帧,图像处理设备可以根据需要以实时或延迟的方式连续地或在至少一段时间内处理一个或多于一个视频监控摄像机的图像。也就是说,图像处理设备可以处理一个或多于一个视频流,其中从该一个或多于一个视频流获取要处理的(一个或多于一个)第一图像。
在本发明的上下文中,术语“第一图像”应被解释为完整帧或这样的帧的至少一部分,并且例如与上述LLLR图像相对应。优选地,“第一图像”与(如由视频监控摄像机或以其他方式捕获的)帧的一部分相对应,但数个“第一图像”也可以与同一帧的不同部分相对应。这允许将计算负担仅限制到(一个或多于一个)帧的需要经受LLE和SR的部分。
作为示例实施例,假定摄像机俯瞰停车场,其中捕获图像的一部分在太阳下,而另一部分在阴影中或者是图像的低光部分。摄像机可以使其曝光设置适应图片的明亮部分,即太阳中的部分。然后,VMS的操作者将很难看到图像的弱光部分中的图像部分。为了解决这个问题,操作者可以在存在低光的图像(或优选地视频)的一个或多于一个部分上运行上述方法。可替代地,图像处理设备可以被配置为在没有操作者干预的情况下自动运行上述方法。
作为另一示例实施例,视频监控***可以安装在娱乐场中,该娱乐场具有俯瞰至少一个游戏桌的至少一个摄像机。桌子表面上的光照条件良好,但操作者也可能想要检查玩家用他们的手在桌子旁边做什么,这将是(一个或多于一个)图像的低光部分。因此,图像处理设备可以被配置为选择所捕获的视频监控数据中存在低光的一个或多于一个部分作为(一个或多于一个)第一图像。
尽管已经参考示例和实施例描述了本发明,但应当理解,本发明不限于所公开的示例和实施例。在没有背离由权利要求书限定的本发明的主要特征的情况下,可以以各种形式实现本发明。

Claims (25)

1.一种图像处理方法,包括:
获取空间分辨率和明度将被增强的第一图像;
使用用于低光增强和超分辨率的联合学习的多尺度分层神经网络来从所述第一图像生成残差图像,所述网络包括形成多个对称的编码器-解码器级的编码器阶段和解码器阶段,各级中的各编码器和解码器包括视觉变换器块;以及
基于所述第一图像和所述残差图像来生成重建图像。
2.根据权利要求1所述的图像处理方法,其中,所述网络是包括跳过连接的残差神经网络。
3.根据前述权利要求中任一项所述的图像处理方法,其中,所述网络具有U形架构,所述编码器阶段在每个级增加所述第一图像的特征通道的数量的同时降低所述第一图像的空间分辨率,并且所述解码器阶段在每个级减少所述特征通道的数量的同时增加所述空间分辨率,其中,所生成的残差图像的空间分辨率与所获取到的第一图像的空间分辨率相同。
4.根据前述权利要求中任一项所述的图像处理方法,其中,各视觉变换器块使用十字形窗口多头自注意力机制。
5.根据前述权利要求中任一项所述的图像处理方法,其中,所述自注意力机制包括形成十字形窗口的平行的水平条带和垂直条带,以及其中,条带的宽度在所述网络的整个深度上逐渐增加。
6.根据前述权利要求中任一项所述的图像处理方法,其中,各视觉变换器块是通过将十字形窗口自注意力机制与局部增强前馈模块和局部增强位置编码模块进行组合所获得的增强十字形窗口变换器块。
7.根据前述权利要求中任一项所述的图像处理方法,其中,基于以下式生成所述重建图像
其中,ILLLR是所述第一图像,IR是所述残差图像,以及s是用于上采样的缩放因子,并且符号+表示逐元素相加。
8.根据前述权利要求中任一项所述的图像处理方法,其中,对所获取到的第一图像和所生成的残差图像的组合进行上采样包括:进行像素重组和卷积运算。
9.根据前述权利要求中任一项所述的图像处理方法,包括:从所述第一图像提取低级特征图并且将所述低级特征图F0输入到第一编码器级,其中,W和H是所述第一图像的宽度和高度,以及C是所述第一图像的特征通道的数量。
10.根据前述权利要求中任一项所述的图像处理方法,其中,提取低级特征图F0包括进行卷积运算。
11.根据权利要求9和10中任一项所述的图像处理方法,其中,生成所述残差图像包括:从所述多个对称的编码器-解码器级中的低级特征F0中提取深层特征Fd
12.根据前述权利要求中任一项所述的图像处理方法,其中,生成所述残差图像包括:在各编码器级之后,将由该编码器输出的特征重新整形为2D特征图,并对由该编码器输出的特征进行下采样。
13.根据前述权利要求中任一项所述的图像处理方法,其中,生成所述残差图像包括:在各解码器级之后,对由该解码器级中的所述解码器输出的特征进行上采样。
14.根据前述权利要求中任一项所述的图像处理方法,其中,对由所述解码器输出的特征进行上采样包括至少一个转置卷积运算。
15.根据前述权利要求中任一项所述的图像处理方法,其中,所述网络包括在最后编码器级和第一解码器级之间的瓶颈阶段。
16.根据前述权利要求中任一项所述的图像处理方法,其中,处理所述瓶颈阶段的输出,以对在所述最后编码器级输出的潜在特征图的大小进行上采样,并减少输入到所述第一解码器级的特征通道的数量。
17.根据前述权利要求中任一项所述的图像处理方法,其中,所述网络包括跳过连接,所述跳过连接将所述最后解码器级的输出与所述瓶颈阶段的输出级联,以在所述第一解码器级中输入级联特征图。
18.根据前述权利要求中任一项所述的图像处理方法,其中,所述网络包括其他跳过连接,所述其他跳过连接分别级联来自该级的编码器的特征图和来自先前解码器级的解码器的特征图,这导致输入到该级的解码器中的特征图中的各级的特征通道的数量是在该级中的编码器的特征通道的数量的两倍。
19.根据前述权利要求中任一项所述的图像处理方法,其中,所述神经网络是预先利用低分辨率块图像和相应高分辨率块图像而训练的,其中,所述低分辨率块图像大于64×64像素,以及其中,所述相应高分辨率块图像为至少2至4倍大。
20.一种计算机程序,其在计算机上运行时,使得所述计算机执行根据前述权利要求中任一项所述的图像处理方法。
21.一种图像处理设备,包括:
获取部件,其被配置为获取空间分辨率和明度将被增强的第一图像;
第一生成部件,其被配置为使用用于低光增强和超分辨率的联合学习的多尺度分层神经网络来从所述第一图像生成残差图像,所述网络包括形成多个对称的编码器-解码器级的编码器阶段和解码器阶段,各级中的各编码器和解码器包括视觉变换器块;以及
第二生成部件,其被配置为基于所述第一图像和所述残差图像来生成重建图像。
22.根据权利要求21所述的图像处理设备,其中,所述网络是包括跳过连接的残差神经网络。
23.根据权利要求21和22中任一项所述的图像处理设备,其中,各视觉变换器块使用十字形窗口多头自注意力机制,其中,所述自注意力机制包括形成十字形窗口的平行的水平条带和垂直条带,以及其中,条带的宽度在所述网络的整个深度上逐渐增加。
24.根据权利要求21至23中任一项所述的图像处理设备,其中,各视觉变换器块是将十字形窗口自注意力机制与局部增强前馈模块和局部增强位置编码模块进行组合的增强十字形窗口变换器块。
25.根据权利要求21至24中任一项所述的图像处理设备,其中,所述网络包括在最后编码器级和第一解码器级之间的瓶颈阶段。
CN202211658280.6A 2022-04-07 2022-12-22 图像处理方法、图像处理设备和计算机程序 Pending CN116894770A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2205153.6 2022-04-07
GB2205153.6A GB2617555B (en) 2022-04-07 2022-04-07 Image processing method, apparatus, computer program and computer-readable data carrier

Publications (1)

Publication Number Publication Date
CN116894770A true CN116894770A (zh) 2023-10-17

Family

ID=81653298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211658280.6A Pending CN116894770A (zh) 2022-04-07 2022-12-22 图像处理方法、图像处理设备和计算机程序

Country Status (4)

Country Link
US (1) US20230325974A1 (zh)
EP (1) EP4258204A1 (zh)
CN (1) CN116894770A (zh)
GB (1) GB2617555B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922679B2 (en) * 2022-06-30 2024-03-05 Xi'an Jiaotong University Automatic seismic facies identification method based on combination of self-attention mechanism and u-shape network architecture
CN115761478A (zh) * 2022-10-17 2023-03-07 苏州大学 基于跨模态下的sar图像建筑物提取模型轻量化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168684B (zh) * 2018-11-26 2024-04-05 Oppo广东移动通信有限公司 提升低亮度图像的质量的方法、***和计算机可读介质
CN113989228A (zh) * 2021-10-27 2022-01-28 西安工程大学 一种基于自注意力的彩色纹理织物缺陷区域的检测方法
CN114066902A (zh) * 2021-11-22 2022-02-18 安徽大学 一种基于卷积和transformer融合的医学图像分割方法、***、装置

Also Published As

Publication number Publication date
GB202205153D0 (en) 2022-05-25
GB2617555B (en) 2024-06-26
US20230325974A1 (en) 2023-10-12
EP4258204A1 (en) 2023-10-11
GB2617555A (en) 2023-10-18

Similar Documents

Publication Publication Date Title
Rana et al. Deep tone mapping operator for high dynamic range images
CN111028177B (zh) 一种基于边缘的深度学习图像去运动模糊方法
CN109819321B (zh) 一种视频超分辨率增强方法
CN116894770A (zh) 图像处理方法、图像处理设备和计算机程序
CN112164011B (zh) 基于自适应残差与递归交叉注意力的运动图像去模糊方法
CN113450290B (zh) 基于图像修补技术的低照度图像增强方法及***
Liu et al. Survey of natural image enhancement techniques: Classification, evaluation, challenges, and perspectives
CN112150400B (zh) 图像增强方法、装置和电子设备
CN113096029A (zh) 基于多分支编解码器神经网络的高动态范围图像生成方法
CN116051428B (zh) 一种基于深度学习的联合去噪与超分的低光照图像增强方法
CN116152120A (zh) 一种融合高低频特征信息的低光图像增强方法及装置
Yang et al. Learning event guided high dynamic range video reconstruction
Kinoshita et al. Convolutional neural networks considering local and global features for image enhancement
CN116977208A (zh) 双分支融合的低照度图像增强方法
Chung et al. High dynamic range imaging of dynamic scenes with saturation compensation but without explicit motion compensation
CN114202460A (zh) 面对不同损伤图像的超分辨率高清重建方法和***及设备
CN112819699A (zh) 视频处理方法、装置及电子设备
Shen et al. Spatial temporal video enhancement using alternating exposures
CN111986102B (zh) 一种数字病理图像去模糊方法
Aakerberg et al. RELIEF: Joint Low-Light Image Enhancement and Super-Resolution with Transformers
CN114612312A (zh) 一种视频降噪方法、智能终端及计算机可读存储介质
CN116645281A (zh) 一种基于多阶段拉普拉斯特征融合的微光图像增强方法
CN111754412A (zh) 构建数据对的方法、装置及终端设备
CN110675320A (zh) 一种空间参数变化及复杂场景下目标图像清晰化方法
CN116385283A (zh) 一种基于事件相机的图像去模糊方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination