CN115345785A - 一种基于多尺度时空特征融合的暗光视频增强方法及*** - Google Patents

一种基于多尺度时空特征融合的暗光视频增强方法及*** Download PDF

Info

Publication number
CN115345785A
CN115345785A CN202210775619.4A CN202210775619A CN115345785A CN 115345785 A CN115345785 A CN 115345785A CN 202210775619 A CN202210775619 A CN 202210775619A CN 115345785 A CN115345785 A CN 115345785A
Authority
CN
China
Prior art keywords
video
model
module
dim light
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210775619.4A
Other languages
English (en)
Inventor
梁瑛平
曾宇航
付莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210775619.4A priority Critical patent/CN115345785A/zh
Publication of CN115345785A publication Critical patent/CN115345785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于多尺度时空特征融合的暗光视频增强方法及***,属于计算机视觉技术领。在训练阶段将暗光视频依照其不同的数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,采用暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型中的各参数;当达到预设终止条件后,将模型结构与训练更新后的模型参数进行保存。在使用阶段,根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型,将待处理的暗光视频送入模型当中进行暗光增强。本发明可以恢复暗光视频为评价指标优越、主观视觉感受良好的高质量正常光视频。

Description

一种基于多尺度时空特征融合的暗光视频增强方法及***
技术领域
本发明涉及一种暗光视频增强方法及***,具体涉及一种基于多尺度时空特征融合的暗光视频增强方法及***,属于计算机视觉技术领域。
背景技术
暗光视频,是指由于不可避免的环境或技术限制(如光照不足或曝光时间有限),在次优照明条件下拍摄所获得的视频。这类视频受背光、光线不均、光线昏暗的影响,存在低对比度、高噪声等缺点,给人带来较差的视觉体验。此外,由于黑暗和噪声隐藏了图像中的细节,图像所携带的信息量大大减少,这对计算机视觉技术一系列下游领域,如目标检测、实例分割等带来了很多不利影响。
暗光视频增强技术,旨在提高暗光视频的感知或可解释性,是一项重要的视频处理技术。通过暗光增强,可以去除视频中的噪声,增大亮度,增强对比度,恢复细节层次,将暗光视频恢复至正常光照视频。随着暗光视频增强技术的不断发展,一些从硬件层面难以解决的问题在暗光增强算法的支持下取得了很大进展,该技术在如手机计算摄影、自动驾驶、夜间监控等领域得到广泛应用,创造了极大的实用价值和经济价值,取得了令人满意的效果。
传统的暗光视频增强技术主要利用先验约束或者统计学原理建立算法模型,提升暗光视频的表现。例如,SSR等方法使用Retinex理论作为先验约束,将暗光图像分解为光照分量和反射分量,并在此基础上矫正标准光照;直方图均衡话的方法则是统计图像当中像素光强的分布,并通过均衡整个图像强度以满足近似均匀分布的形式,实现图像或者视频的提亮。以上方法被广泛应用于图像采集设备的底层处理流程中,或者作为各大视频处理算法的上游算法对数据进行预处理。
然而,传统的算法依赖于模型假设的有效性,并且需要基于特定任务的不同先验条件对算法模型人工进行调整,处理能力被大大限制。此外,大部分传统的暗光增强算法仅限于提高视频亮度和对比度等方面,对噪声的抑制不足,导致了增强后的视觉效果并不理想,更无法作为优秀的输入数据引入至下游视觉算法中。
近年来,随着深度学习技术的快速发展,构建具有高鲁棒性的深度学习网络模型,并用成对监督数据对模型进行训练,实现了具有远超传统方法量化指标和可视化效果的暗光视频增强效果。
然而,受限于卷积操作的局限性,在视频数据信息处理过程当中,当前基于多尺度编解码器结构的网络模型无法使用全局视野范围内的时域和空域信息进行特征信息的重建,并且在特征拼接时无法高效利用时空信息充分融合特征,因此,现有方法在处理暗光视频时,容易产生噪声明显、偏色、伪影等现象,使得模型在暗光视频增强时的表现不够理想,存在较大的改进和提升的空间。
为了克服当前多尺度编解码器结构存在的问题,解决噪声明显、偏色、伪影等现象,亟需一种能够利用全局视野时空特征信息,并能够在特征拼接时高效融合的暗光视频增强方法。
发明内容
本发明的目的是针对现有技术存在的不足和缺陷,为了解决基于多尺度编解码器结构的网络模型在处理暗光视频时无法使用全局视野范围内的时域和空域信息进行特征信息的重建,且在特征拼接时无法高效利用时空信息充分融合特征等技术问题,创造性地提出一种基于多尺度时空特征融合的暗光视频增强方法及***。本发明能够充分利用暗光视频的空间内部信息与相邻帧间信息,实现高量化指标和高视觉感官效果的暗光视频增强。
本发明的创新点在于:首次采用了将基于多尺度时空特征融合的暗光视频增强分为训练和使用阶段。在训练阶段,在暗光视频-正常光视频配对的训练数据中,将暗光视频依照其不同的数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道。若已知相机曝光设定,可进一步根据视频昏暗程度的不同,对视频亮度进行初步的线性提升,以该数据作为训练阶段的输入数据。随后,暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数;经过多次遍历训练数据集当中的成对数据,并重复执行上述步骤,直到达到预设的终止条件后,将模型结构与训练更新后得到的模型参数进行保存。在使用阶段,首先根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型,随后,将待处理的暗光视频经过数据预处理后作为输入数据送入模型当中进行暗光增强,最后,将模型输出的增强视频数据进行存储。除此之外,若已有可参考的真实正常光下视频,***可通过评估方法衡量增强视频与正常光下真实视频的差异度,从而客观、定量地评估增强视频的质量,判断暗光视频增强模型的效果优劣。同时,本发明提出了一种实现上述方法的***。
为达到以上目的,本发明采用以下技术方案:
一种基于多尺度时空特征融合的暗光视频增强方法,包括训练和使用两个阶段。
步骤1:训练阶段。
使用暗光视频-正常光视频配对数据集迭代更新算法模型的参数字典。
具体地,步骤1包括以下步骤:
步骤1.1:将暗光视频依照其数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,并对数据完成数据预处理与数据增广。
优选地,可以采用以下处理方法:
对暗光视频数据,以逐帧图像的形式进行处理:将暗光视频依照其数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,形成便于后续模型处理的指定空间分辨率的视频数据。
在视频数据预处理之后,将暗光数据和正常光数据进行数据增广操作(包括旋转、翻转、中心对称变换等)。
如果已知相机曝光设定,可以根据具体的设定值对暗光视频的亮度进行初步线性的增强。
步骤1.2:采用暗光视频增强算法,根据输入的暗光视频产生1份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数。
优选地,可以采用以下处理方法:
从步骤1.1处理后的训练数据集中,随机选取1段指定帧数的暗光视频输入算法模型。算法模型对该数据进行增强处理,输出同样帧数的增强后视频,受数据格式和视频数据预处理过程的影响,输入数据的宽和高是输出数据的一半,或与输出数据相同。
增强后的视频以逐帧形式进行输出。
具体地,所述暗光视频增强算法模型包括编解码器主体结构、特征提取重建模块、时序-通道注意力模块。
当预处理后的暗光视频数据输入算法模型后,首先经过编码器部分进行特征的初步提取。编码器部分包括四个层级,每个层级的构成相同,均是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成。各层级的编码器部分计算得到的特征张量有两个传递方向,一是经过降采样后传递至下一层级的编码器,作为其输入数据,二是传入特征提取重建模块当中,由特征提取重建模块进行下一步的特征处理过程。对于该部分,参数字典包括各个卷积操作中的参数。
经过初步特征提取后,各个层级特征被传入同层级的特征提取重建模块之中。特征提取重建模块包括特征嵌入模块、连续3D Swin-Transformer块、特征重建模块,其中,特征嵌入模块用于分割来自编码器部分的特征图,特征图压缩转化为特征序列,使得特征序列中包含全局的时空信息。连续3DSwin-Transformer块用于进一步处理具有全局时空信息的特征序列,由于3DSwin-Transformer块的结构特性,该过程不会引入过多的额外计算量。特征重建模块用于参考编码器特征,重建特征序列至指定大小的特征图,该特征图被进一步送至时序-通道注意力模块当中进行处理。
时序-通道注意力模块的输入数据包括两部分:来自特征提取重建模块的重建特征和来自解码器某层级的解码特征。其中,时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作,产生维度等于通道数的向量GAP1(FR)和向量GAP1(FD)。随后,对两个向量相加取平均,再进行线性映射并通过ReLU引入非线性Sigmoid构建注意力,得到注意力Mask1。然后,对重建特征和解码特征在时间维度进行全局平均池化,产生维度等于帧数的向量GAP2(FR)以及向量GAP2(FD)。随后,同样对两向量相加取平均,再进行线性映射并通过Sigmoid引入非线性,得到注意力Mask2。最后,对重建特征施加Mask1及Mask2注意力,使其在通道维度和时间维度得到不同通道、时间序列的重要性,得到时空互补特征。
解码器部分从整体结构上与编码器部分保持一致,都由四个不同层级的卷积操作和激活函数组成。不同之处在于,解码器部分是采用上采样增大空间分辨率,并且使用来自上一层级的解码特征和来自同一层级的自时序-通道注意力模块的拼接特征作为输入数据。在经过四个层级的特征重建后,解码器部分输出特定维度的特征图至一层像素混洗层,该层使得特征的通道纬度数据以可学习的方式减少至原来的四分之一,并重组至空间维度,实现通道数的缩减和空间维度的扩增。最终,该层输出的数据即为增强后的视频数据。
在上述模型的训练过程中,可以采用渐进式训练方式,因此,模型的训练过程分为两步。
第一步:仅对模型中的编解码器部分进行训练。该过程使用的损失函数
Figure BDA0003726953360000051
为:
Figure BDA0003726953360000052
其中,VNL、VLL分别代表正常光条件下的真值视频、暗光条件下的待处理视频,Θ1为模型的可训练参数,
Figure BDA0003726953360000053
代表仅包含编解码器的模型。
第二步:训练包含编解码器主体结构、特征提取重建模块、时序-通道注意力模块的完整的暗光增强模型。在训练前,初始化编解码器部分的参数字典为第一步训练保存的结果。该过程使用的损失函数
Figure BDA0003726953360000054
为:
Figure BDA0003726953360000055
其中,VNL、VNL分别代表正常光条件下的真值视频、暗光条件下的待处理视频,(Θ12)为模型的可训练参数,
Figure BDA0003726953360000056
代表完整的暗光增强模型。
重复步骤第一步训练,直至满足设定的终止条件,保存网络的结构和模型参数;初始化编解码器部分的参数字典为第一步训练保存的结果,重复第二步训练,直至满足设定的终止条件,保存网络的结构和模型参数。
优选地,在训练过程中,不断随机地向模型输入暗光视频片段和正常光视频片段,直到训练达到预设的轮次数量或者评估指标满足的预设值时,训练过程停止,并保存模型结构和模型参数。
步骤2:使用阶段。
利用步骤1训练得到的模型参数初始化暗光视频增强算法模型,使用该模型增强暗光视频并存储。
进一步地,如果存在暗光视频对应的真实正常光下视频,则可以评估增强视频的质量和效果,判断暗光增强模型的效果优劣。
具体地,步骤2包括以下步骤:
步骤2.1:使用步骤1训练得到的模型参数初始化暗光视频增强算法模型,使用该模型增强暗光视频并存储。
优选地,首先将暗光视频依照模型输入数据要求进行预处理,若已知相机曝光设定,根据具体的设定值对暗光视频的亮度进行初步线性的增强。然后,读取步骤1训练得到的模型参数,并依照模型结构进行模型的创建与加载。之后,将已处理的暗光视频数据送入该模型当中,生成增强后的正常光视频。最后,保存该视频。
步骤2.2:如果存在暗光视频对应的真实正常光下视频,则评估增强视频的质量和效果,判断暗光增强模型的效果优劣。
优选地,为了能够客观判定增强视频的质量,可以使用峰值信噪比PSNR(PeakSignal to Noise Ratio)和结构相似性SSIM(Structural Similarity)计算增强视频和真值视频之间的客观差距。
其中,峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值。峰值信噪比的单位常用分贝(dB)表示,峰值信噪比的数值越高,表示图像、视频质量越高。峰值信噪比PSNR的计算方法为:
Figure BDA0003726953360000061
其中,n表示单通道单像素点的比特深度。例如,灰度图像单个像素点为8bit,RGB图像每个通道对应的单像素点也为8bit,而一些原始感光RAW图像则为14bit。
MSE表示均方误差,计算方式为:
Figure BDA0003726953360000062
其中,H和W为图像的高与宽,I(i,j)、
Figure BDA0003726953360000063
均表示在(i,j)位置上像素的值。
采用结构相似性SSIM作为结构的衡量指标,从结构上比较真值视频和增强视频之间的相似度。给定真值视频帧I与增强后的视频帧
Figure BDA0003726953360000064
SSIM的计算方式为:
Figure BDA0003726953360000065
其中,μI是I的平均值,
Figure BDA0003726953360000066
Figure BDA0003726953360000067
的平均值;
Figure BDA0003726953360000068
是I的方差,
Figure BDA0003726953360000069
Figure BDA00037269533600000610
的方差,
Figure BDA00037269533600000611
示I与
Figure BDA00037269533600000612
的协方差;c1=(k1L)2,c2=(k2L)2,c1、c2均是用于维持稳定的常数,k1、k2均为常数,用于调整c1、c2数值并使其远小于1,优选地,k1=0.01、k2=0.03;L是像素值的动态范围,L=2n-1,n表示单通道单像素点的比特深度;SSIM的取值范围为[0,1],值越接近1,说明两视频帧结构越相似。
进一步地,基于以上方法,本发明提出一种基于多尺度时空特征融合的暗光视频增强***,包括数据预处理子***、暗光增强模型子***、损失函数计算子***和结果评价子***。
其中,数据预处理子***包括暗光视频预处理模块和数据增广模块。暗光视频预处理模块用于将暗光视频依照其数据格式进行预处理,将不同像素依照色彩滤镜分离至不同通道。数据增广模块用于将暗光视频和正常光视频进行旋转、翻转或中心对称变换,扩增可训练的数据集,从而增强暗光视频增强模型的泛化能力。
暗光增强模型子***包括编码器模块、解码器模块、特征提取重建模块、时序-通道注意力模块。其中,编解码器模块是暗光增强模型子***的主体部分,其包括四个层级,每个层级的构成相同,均由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成,该部分用于对暗光视频特征进行初步的提取。具体地,特征提取重建模块包括特征嵌入模块、连续3DSwin-Transformer模块和特征重建模块。具体地,特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图,将特征图压缩转化为特征序列,随后送入3D Swin-Transformer模块,利用Transformer的非局部信息聚合及全局视野进行时间-空间信息处理,处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图。时序-通道注意力模块在时间和空间维度上构建注意力,从而将来自特征提取重建模块的重建特征和来自解码器模块某层级的解码特征,在通道维度和时间维度得到不同通道、时间序列的重要性,在更细粒度的时空维度上融合拼接,得到时空互补特征。
损失函数计算子***,包括编解码器损失函数计算模块和完整模型损失函数计算模块。其中,编解码器损失函数计算模块用于训练过程的第一阶段,对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差,该损失将通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化编解码器的暗光增强表现。完整模型损失计算模块用于训练过程的第二阶段,对编解码器结构添加特征提取重建模块、时序-通道注意力模块,得到完整暗光视频增强模型,对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差,并通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化完整模型的暗光增强表现。
结果评价子***,用于将增强视频和真实正常光下视频进行比对,计算PSNR、SSIM等客观评价指标,从而量化本***所增强暗光视频的质量。
上述组成***之间的连接关系为:
数据预处理子***与暗光增强模块子***、结果评价子***分别相连,向暗光增强模块子***提供经视频预处理和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频,向结果评价子***提供真实正常光下视频。
在数据预处理子***中,暗光视频预处理模块和数据增广模块相连。其中,暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据。
暗光增强模型子***与数据预处理子***、损失函数计算子***和结果评价子***分别相连,其根据数据预处理子***输入的暗光视频恢复出增强后的暗光视频至损失函数计算子***和结果评价子***。
在暗光增强模型子***中,编码器模块与解码器模块、特征提取重建模块相连。解码器模块与编码器模块、时序-通道注意力模块相连。
在特征提取重建模块中,特征嵌入模块与3D Swin-Transformer模块相连;3DSwin-Transformer模块与特征嵌入模块以及特征重建模块相连;特征重建模块与3D Swin-Transformer模块相连。
损失函数计算子***与数据预处理子***、暗光增强模型子***相连。其从数据预处理子***获取数据增广后的真实正常光视频,然后,从暗光增强模型子***获取编解码器增强视频和完整模型增强结果。解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失,并将该损失回传至暗光增强模型子***,用于更新暗光增强模型子***中模型的参数。
在损失函数计算子***中,编解码器损失计算模块与完整模型损失计算模块独立工作,互不连接。
结果评价子***与数据预处理子***、暗光增强模型子***分别相连,其从数据预处理子***中获取真实正常光下视频,从暗光增强模型子***中获取增强后视频,通过将二者比对计算评价指标,量化地反映增强后视频的质量。
上述***的处理过程如下:
步骤1:将暗光视频输入至数据预处理子***,进行视频数据预处理、数据增广;
步骤2:将暗光视频送入暗光增强模型子***中的编解码器模块,暗光视频经由该部分处理,生成增强视频待使用;
步骤3:损失函数计算子***中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子***生成的真实正常光下视频,计算损失值,并回传至编解码器模块中用于训练;
步骤4:暗光增强模型子***中的编解码器模块根据损失函数计算子***中的编解码器损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤5:重复执行上述步骤1至4,每当对全部训练集遍历一次后,在结果评价子***上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前编解码器模块的参数字典,继续步骤6;
步骤6:;将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分,完成完整模型的初始化工作;
步骤7:与步骤1相同,将暗光视频输入至数据预处理子***,进行预处理、数据增广,处理后的视频数据将被暂存在内存当中;
步骤8:将暗光视频送入暗光增强模型子***中的完整模型,暗光视频经由该部分处理,生成增强视频待使用;
步骤9:损失函数计算子***中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子***生成的真实正常光下视频,计算损失值,并回传至完整模型中用于训练;
步骤10:暗光增强模型子***中的完整模型根据损失函数计算子***中的完整模型损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤11:重复执行上述步骤7至10,每当对全部训练集遍历一次后,在结果评价子***上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前完整模型的参数字典,继续步骤12;
步骤12:采用步骤11保存的参数字典初始化完整模型,将目标暗光视频数据送入该模型中进行暗光增强,保存输出视频并采用结果评价子***评估增强后视频的图形质量。
有益效果
本发明方法,与现有技术相比,具有以下优点:
1.本发明设计使用了一个多尺度时空特征融合的暗光视频增强模型,在每个层级编、解码器之间的跳跃连接部分,模型设计并引入了基于3DSwin-Transformer的特征提取重建模块和时序-通道注意力模块。
与其他的暗光视频增强算法以及去噪算法比较,本发明设计使用的模型能够更有效地利用编、解码器信息,实现了更高精度和更高指标的暗光视频增强效果,尤其是恢复视频中物体纹理,去除噪声,维持帧间物体边界等方面均表现更优越。
2.本发明设计使用了基于3D Swin-Transformer的特征提取重建模块,在编解码暗器结构的各个尺度编、解码器跳跃连接之间,该模块通过3D滑动窗口的方式捕获全局上下文信息,对特征图中物体信息在时空域建立长程依赖,进而表达了同时具有空域和时域全局视野的重建特征,在多尺度信息提取重建过程中有效减少编、解码之间特征的差异性。
3.本发明设计使用了时序-通道注意力模块。在解码器特征拼接时,时序-通道注意力模块在时域和空域提取重建特征和解码特征注意力,并先后在特征维度和时空维度进行融合,从而得到同时具有两特征时空特点的时序-通道注意力和时空互补特征。相较于简单拼接特征的方式,时序-通道注意力模块能够将特征在更细粒度上微调融合,从而实现重建特征和解码特征间的时空互补。
附图说明
图1是本发明方法的流程图。
图2是本发明方法所述核心算法模型整体示意图。
图3是本发明方法所述特征提取重建模块及其子模块示意图。
图4是本发明方法所述时序-通道注意力模块示意图。
图5是本发明***的组成示意图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对发明方法做进一步说明。
实施例
本实施例公开了一种基于多尺度时空特征融合的暗光视频增强方法,包括训练阶段和使用阶段。
在训练阶段,在暗光视频-正常光视频配对的训练数据中,拜尔RAW格式的单通道暗光视频通过分解重组的方式拆分为GRBG四个不同颜色的通道,此外,若已知相机曝光设定,可根据视频昏暗程度的不同,对视频亮度进行初步的线性提升,以该数据作为训练阶段的输入数据。随后,暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实的RGB格式正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数;经过多次遍历训练数据集当中的成对数据,并重复执行上述步骤,直到达到预设的终止条件后,将模型结构与训练更新后得到的模型参数进行保存。在使用阶段,首先根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型,随后将待处理的暗光视频经过分解重组后作为输入数据送入模型当中进行暗光增强,最后将模型输出的增强视频数据进行存储。除此之外,若已有可参考的真实正常光下视频,***可通过评估方法衡量增强视频与正常光下真实视频的差异度,从而客观、定量地评估增强视频的质量,判断暗光视频增强模型的效果优劣。本实施例的流程图如图1所示。
以往暗光增强算法无法解决编、解码之间的特征差异性问题,并在特征拼接融合时可能产生伪细节纹理。因此,本实施例公开了一种多尺度时空特征融合的暗光视频增强方法,该方法结合跳跃连接特征提取重建模块与时序-通道注意力模块,使得模型在恢复视频中物体纹理,去除噪声,维持帧间物体边界等方面均取得更优的结果。该模型的结构示意图如图2所示。
本实施例公开的一种基于多尺度时空特征融合的暗光视频增强方法,在使用阶段能够直接将输入的暗光视频增强至正常光下效果,无需施加任何先验条件和限制,也不需人工干涉。
本实施例的详细内容如下。
一种基于多尺度时空特征融合的暗光视频增强方法,分为训练和使用两个阶段,包括如下步骤:
步骤1:训练阶段使用暗光视频-正常光视频配对数据集,迭代更新算法模型的参数字典。
步骤1.1:处于拜尔RAW格式的单通道暗光视频通过分解重组的方式拆分为GRBG四个不同颜色的通道,并对数据完成标准化、归一化等数据预处理与图像翻转、对称变换等数据增广。
对视频数据以逐帧图像的形式进行处理。对于每一帧拜尔RAW格式的图像,将单通道的图像按照排列顺序分解各个不同色彩滤波采集到的像素至GRBG四个不同的通道,形成空间分辨率为原本的四分之一,但是通道为之前四倍的图像数据。在拆分重组完毕后,对暗光数据和正常光数据随机进行旋转、翻转或中心对称变换。除此之外,若已知相机曝光设定,可根据具体的设定值对暗光视频的亮度进行初步线性的增强。
步骤1.2:暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实的RGB格式正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数。
从经步骤1.1处理后的训练数据集当中随机选取一段指定帧数的暗光视频输入算法模型。模型对该数据进行增强处理,输出同样帧数的增强后视频。其中,由于经过了分解重组过程,输入数据的宽和高是输出数据的一半。增强后的视频以逐帧形式进行输出,格式为RGB,其尺寸和分解重组前的RAW格式暗光视频一致。
本实施例中暗光视频增强算法模型包括三部分:编解码器主体结构、特征提取重建模块、时序-通道注意力模块。当分解重组后的暗光视频数据输入算法模型后,首先经过编码器部分进行特征的初步提取。该部分分为四个层级,每个层级的构成相同,都是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成。各层级编码器部分计算得到的特征张量有两个传递方向,一是经过降采样后传递至下一层级的编码器,作为其输入数据,二是传入特征提取重建模块当中,由特征提取重建模块进行下一步的特征处理过程。对于该部分,参数字典主要包括各个卷积操作中的参数。
在经过编码器部分的初步特征提取后,各个层级特征被传入同层级的特征提取重建模块当中。对于特征提取重建模块,其关键组成为特征嵌入模块、连续3D Swin-Transformer块、特征重建模块。特征嵌入模块作用是分割来自编码器部分的特征图,特征图压缩转化为特征序列,使得特征序列中包含全局的时空信息。连续3D Swin-Transformer块用于进一步处理具有全局时空信息的特征序列,并且,由于3D Swin-Transformer块的结构特性,该过程并不会引入过多的额外计算量。特征重建模块的作用是参考编码器特征,重建特征序列至指定大小的特征图,该特征图被进一步送至下一模块,也就是时序-通道注意力模块当中进行处理。特征提取重建模块及其子模块如图3所示。
时序-通道注意力模块的输入数据共有两部分,分别是来自特征提取重建模块的重建特征和来自解码器某层级的解码特征。时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作,产生维度等于通道数的向量GAP1(FR)以及向量GAP1(FD)。随后,对两向量相加取平均,再进行线性映射并通过ReLU引入非线性,Sigmoid构建注意力,得到注意力Mask1。然后,对重建特征和解码特征在时间维度进行全局平均池化,产生维度等于帧数的向量GAP2(FR)以及向量GAP2(FD)。随后,同样地,对两向量相加取平均,再进行线性映射并通过Sigmoid引入非线性,得到注意力Mask2。最后,对重建特征施加Mask1及Mask2注意力,使其在通道维度和时间维度得到不同通道、时间序列的重要性,得到时空互补特征。时序-通道注意力模块如图4所示。
解码器部分从整体结构上与编码器部分保持一致,都由四个不同层级的卷积操作以及激活函数组成,在结构上不同的是,解码器部分本实施例采用上采样增大空间分辨率,并且使用来自上一层级的解码特征和来同一层级的自时序-通道注意力模块的拼接特征作为输入数据。在经过四个层级的特征重建后,解码器部分输出特定维度的特征图至一层像素混洗层,该层可以使得特征的通道纬度数据以可学习的方式减少至原来的四分之一,并重组至空间维度,实现通道数的缩减和空间维度的扩增。最终,该层输出的数据即为RGB格式的增强后的视频数据。
在以上模型的训练过程中,采用渐进式训练方式,因此,模型的训练过程被分为两步。
第一步,仅对模型中的编解码器部分进行训练。该过程使用的损失函数为:
Figure BDA0003726953360000131
其中,
Figure BDA0003726953360000132
Figure BDA0003726953360000133
分别代表正常光条件下的RGB数据格式真值视频以及暗光条件下的RAW数据格式待处理视频,Θ1为模型的可训练参数,
Figure BDA0003726953360000141
代表仅包含编解码器的模型。
第二步,训练包含编解码器主体结构、特征提取重建模块、时序-通道注意力模块的完整暗光增强模型,在训练前,初始化编解码器部分的参数字典为第一步训练保存的结果。该过程使用的损失函数为
Figure BDA0003726953360000142
其中,
Figure BDA0003726953360000143
Figure BDA0003726953360000144
分别代表正常光条件下的RGB数据格式真值视频以及暗光条件下的RAW数据格式待处理视频,(Θ12)为模型的可训练参数,
Figure BDA0003726953360000145
代表完整的暗光增强模型。
步骤1.3:重复步骤1.2当中的第一步训练,直至满足设定的终止条件,将网络的结构和模型参数进行保存。初始化编解码器部分的参数字典为第一步训练保存的结果,重复步骤1.3当中的第二步训练,直至满足设定的终止条件,将网络的结构和模型参数进行保存。
具体地,在训练过程中,不断随机地向模型输入RAW格式暗光视频片段和RGB格式正常光视频片段,直到训练达到预设的轮次数量或者某个评估指标满足一定的预设值,训练过程停止,并将模型结构和模型参数保存。
步骤2.1:步骤1训练得到的模型参数初始化暗光视频增强算法模型,并使用该模型增强暗光视频并存储。
具体地,首先将RAW格式的暗光视频以逐帧处理的形式分解重组为四通道视频数据,若已知相机曝光设定,可根据具体的设定值对暗光视频的亮度进行初步线性的增强。随后,读取步骤1当中训练得到的模型参数,并依照模型结构进行模型的创建与加载。然后,将已处理的暗光视频数据送入该模型当中,生成增强后的RGB格式正常光视频。将该视频保存至本地,完成本步骤。
步骤2.1:如果存在暗光视频对应的真实正常光下视频,则可以评估增强视频的质量和效果,判断暗光增强模型的效果优劣。其中,可以使用峰值信噪比PSNR(Peak Signalto Noise Ratio)和结构相似性SSIM(Structural Similarity)计算增强视频和真值视频之间的客观差距。其中,峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值。峰值信噪比的单位常用分贝(dB)来表示,数值越高,表示图像、视频质量越高。PSNR的计算方法为:
Figure BDA0003726953360000151
其中,n表示单通道单像素点的比特深度,例如,灰度图像单个像素点为8bit,RGB图像每个通道对应的单像素点也为8bit,而一些原始感光RAW图像则为14bit。
MSE表示均方误差,计算方式为:
Figure BDA0003726953360000152
其中,H和W为图像的高与宽,I(i,j)与
Figure BDA0003726953360000153
表示在(i,j)位置上像素的值。
采用结构相似性(SSIM)作为结构的衡量指标,从结构上比较真值视频和增强视频之间的相似度。给定真值视频帧I与增强后视频帧
Figure BDA0003726953360000154
SSIM的计算方式为:
Figure BDA0003726953360000155
其中,μI是I的平均值,
Figure BDA0003726953360000156
Figure BDA0003726953360000157
的平均值;
Figure BDA0003726953360000158
是I的方差,
Figure BDA0003726953360000159
Figure BDA00037269533600001510
的方差,
Figure BDA00037269533600001511
表示I与
Figure BDA00037269533600001512
的协方差;c1=(k1L)2,c2=(k2L)2,c1、c2均是用于维持稳定的常数,k1、k2均为常数,用于调整c1、c2数值并使其远小于1,k1=0.01、k2=0.03;L是像素值的动态范围,即L=2n-1,n表示单通道单像素点的比特深度;SSIM的取值范围为[0,1],值越接近1,说明两视频帧结构越相似。
本实施例进一步公开了一种基于多尺度时空特征融合的暗光视频增强***,包括以下组成***:数据预处理子***、暗光增强模型子***、损失函数计算子***和结果评价子***。
其中,所述数据预处理子***包括暗光视频分解重组子***和数据增广子***。暗光视频分解重组子***用于将暗光视频中单通道的图像按照排列顺序分解各个不同色彩滤波采集到的像素至GRBG四个不同的通道,形成空间分辨率为原本的四分之一,但是通道为之前四倍的图像数据。数据增广子***则是将暗光视频和正常光视频进行旋转、翻转或中心对称变换,扩增可训练的数据集,从而增强暗光视频增强模型的泛化能力。
所述暗光增强模型子***包括编码器模块、解码器模块、特征提取重建模块、时序-通道注意力模块。其中,编解码器模块是暗光增强模型子***的主体部分,分为四个层级,每个层级的构成相同,都是由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成,该部分主要是对暗光视频特征进行初步的提取。特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图,将特征图压缩转化为特征序列,随后送入3D Swin-Transformer模块,利用Transformer的非局部信息聚合及全局视野进行大范围内的时间-空间信息处理,最后,处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图。时序通道注意力模块在时间和空间维度上构建注意力,从而将来自特征提取重建模块的重建特征和来自解码器某层级的解码特征,在通道维度和时间维度得到不同通道、时间序列的重要性,在更细粒度的时空维度上融合拼接,得到时空互补特征。
所述损失函数计算子***,包括编解码器损失函数计算模块和完整模型损失函数计算模块。编解码器损失函数计算模块用于训练过程的第一阶段,对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差,该损失将通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化编解码器的暗光增强表现。完整模型损失计算模块用于训练过程的第二阶段,对把编解码器结构添加征提取重建模块、时序-通道注意力模块,得到完整暗光视频增强模型,对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差,并通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化完整模型的暗光增强表现。
所述结果评价子***,用于将增强视频和真实正常光下视频进行比对,计算PSNR、SSIM等客观评价指标,从而量化本***所增强暗光视频的质量。
图5为上述***的组成示意图。
上述组成***之间的连接关系为:
数据预处理子***与暗光增强模块子***、结果评价子***相连,向暗光增强模块子***提供经分解重组和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频,向结果评价子***提供真实正常光下视频。
在数据预处理子***中,暗光视频预处理模块和数据增广模块相连。其中,暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据。
暗光增强模型子***与数据预处理子***、损失函数计算子***和结果评价子***相连接,其根据数据预处理子***输入的暗光视频恢复出增强后的暗光视频至损失函数计算子***和结果评价子***。
在暗光增强模型子***中,编码器模块与解码器模块、特征提取重建模块相连。解码器模块与编码器模块、时序-通道注意力模块相连。
在特征提取重建模块中,特征嵌入模块与3D Swin-Transformer模块相连;3DSwin-Transformer模块与特征嵌入模块以及特征重建模块相连;特征重建模块与3D Swin-Transformer模块相连。
损失函数计算子***与数据预处理子***、暗光增强模型子***相连。其从数据预处理子***获取数据增广后的真实正常光视频,然后,从暗光增强模型子***获取编解码器增强视频和完整模型增强结果。解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失,并将该损失回传至暗光增强模型子***,用于更新暗光增强模型子***中模型的参数。
在损失函数计算子***中,编解码器损失计算模块与完整模型损失计算模块独立工作,互不连接。
结果评价子***与数据预处理子***、暗光增强模型子***相连,其从数据预处理子***中获取真实正常光下视频,从暗光增强模型子***中获取增强后视频,通过将二者比对计算评价指标,量化地反映增强后视频的质量。
上述***的使用方法如下:
步骤1:将暗光视频输入至数据预处理子***,进行分解重组、数据增广,处理后的视频数据将被暂存在内存当中;
步骤2:将暗光视频送入暗光增强模型子***中的编解码器模块,暗光视频经由该部分处理,生成增强视频待使用;
步骤3:损失函数计算子***中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子***生成的真实正常光下视频,计算损失值,并回传至编解码器模块中用于训练;
步骤4:暗光增强模型子***中的编解码器模块根据损失函数计算子***中的编解码器损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤5:重复执行上述步骤1至4,每当对全部训练集遍历一次后,在结果评价子***上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或者当前训练迭代次数达到预设上线,则停止训练,保存当前编解码器模块的参数字典,继续步骤6;
步骤6:;将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分,完成完整模型的初始化工作;
步骤7:与步骤1相同,将暗光视频输入至数据预处理子***,进行分解重组、数据增广,处理后的视频数据将被暂存在内存当中;
步骤8:将暗光视频送入暗光增强模型子***中的完整模型,暗光视频经由该部分处理,生成增强视频待使用;
步骤9:损失函数计算子***中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子***生成的真实正常光下视频,计算损失值,并回传至完整模型中用于训练;
步骤10:暗光增强模型子***中的完整模型根据损失函数计算子***中的完整模型损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤11:重复执行上述步骤7至10,每当对全部训练集遍历一次后,在结果评价子***上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或者当前训练迭代次数达到预设上线,则停止训练,保存当前完整模型的参数字典,继续步骤12;
步骤12:采用步骤11保存的参数字典初始化完整模型,将目标暗光视频数据送入该模型中进行暗光增强,保存输出视频并采用结果评价子***评估增强后视频的图形质量。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,包括训练和使用阶段;
在训练阶段,使用暗光视频-正常光视频配对数据集迭代更新算法模型的参数字典;
首先,在暗光视频-正常光视频配对的训练数据中,将暗光视频依照其不同的数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道;若已知相机曝光设定,进一步根据视频昏暗程度的不同,对视频亮度进行初步的线性提升,以该数据作为训练阶段的输入数据;
随后,暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数;
持续遍历训练数据集当中的成对数据,并重复执行上述步骤,直到达到预设的终止条件;
在使用阶段,根据在训练阶段的模型结构与模型参数,构建暗光视频增强模型,将待处理的暗光视频经过数据预处理后作为输入数据送入模型当中进行暗光增强,最后,将模型输出的增强视频数据进行存储;
若已有可参考的真实正常光下视频,通过评估方法衡量增强视频与正常光下真实视频的差异度,从而实现客观、定量地评估增强视频的质量,判断暗光视频增强模型的效果优劣。
2.如权利要求1所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,训练阶段具体实现方法如下:
步骤1.1:对暗光视频数据,以逐帧图像的形式进行处理:将暗光视频依照其数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,形成便于后续模型处理的指定空间分辨率的视频数据;
在视频数据预处理之后,将暗光数据和正常光数据进行数据增广操作
如果已知相机曝光设定,根据具体的设定值对暗光视频的亮度进行初步线性的增强;
步骤1.2:从步骤1.1处理后的训练数据集中,随机选取一段指定帧数的暗光视频输入算法模型;算法模型对该数据进行增强处理,输出同样帧数的增强后视频,受数据格式和视频数据预处理过程的影响,输入数据的宽和高是输出数据的一半,或与输出数据相同;增强后的视频以逐帧形式进行输出;
暗光视频增强算法模型包括编解码器主体结构、特征提取重建模块、时序-通道注意力模块;
当预处理后的暗光视频数据输入算法模型后,首先经过编码器部分进行特征的初步提取;编码器部分包括四个层级,每个层级的构成相同,均是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成;各层级的编码器部分计算得到的特征张量有两个传递方向,一是经过降采样后传递至下一层级的编码器,作为其输入数据,二是传入特征提取重建模块当中,由特征提取重建模块进行下一步的特征处理过程;对于该部分,参数字典包括各个卷积操作中的参数;
经过初步特征提取后,各个层级特征被传入同层级的特征提取重建模块之中;特征提取重建模块包括特征嵌入模块、连续3D Swin-Transformer块、特征重建模块,其中,特征嵌入模块用于分割来自编码器部分的特征图,特征图压缩转化为特征序列,使得特征序列中包含全局的时空信息;连续3DSwin-Transformer块用于进一步处理具有全局时空信息的特征序列,由于3DSwin-Transformer块的结构特性,该过程不会引入过多的额外计算量;特征重建模块用于参考编码器特征,重建特征序列至指定大小的特征图,该特征图被进一步送至时序-通道注意力模块当中进行处理;
时序-通道注意力模块的输入数据包括两部分:来自特征提取重建模块的重建特征和来自解码器某层级的解码特征;其中,时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作,产生维度等于通道数的向量GAP1(FR)和向量GAP1(FD);随后,对两个向量相加取平均,再进行线性映射并通过ReLU引入非线性Sigmoid构建注意力,得到注意力Mask1;然后,对重建特征和解码特征在时间维度进行全局平均池化,产生维度等于帧数的向量GAP2(FR)以及向量GAP2(FD);随后,同样对两向量相加取平均,再进行线性映射并通过Sigmoid引入非线性,得到注意力Mask2;最后,对重建特征施加Mask1及Mask2注意力,使其在通道维度和时间维度得到不同通道、时间序列的重要性,得到时空互补特征;
解码器部分从整体结构上与编码器部分保持一致,都由四个不同层级的卷积操作和激活函数组成;不同之处在于,解码器部分是采用上采样增大空间分辨率,并且使用来自上一层级的解码特征和来自同一层级的自时序-通道注意力模块的拼接特征作为输入数据;
在经过四个层级的特征重建后,解码器部分输出特定维度的特征图至一层像素混洗层,该层使得特征的通道纬度数据以可学习的方式减少至原来的四分之一,并重组至空间维度,实现通道数的缩减和空间维度的扩增;最终,该层输出的数据即为增强后的视频数据。
3.如权利要求2所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,在模型训练过程中,采用渐进式训练方式,包括以下步骤:
第一步:仅对模型中的编解码器部分进行训练;该过程使用的损失函数
Figure FDA0003726953350000031
为:
Figure FDA0003726953350000032
其中,VNL、VLL分别代表正常光条件下的真值视频、暗光条件下的待处理视频,Θ1为模型的可训练参数,
Figure FDA0003726953350000033
代表仅包含编解码器的模型;
第二步:训练包含编解码器主体结构、特征提取重建模块、时序-通道注意力模块的完整的暗光增强模型;在训练前,初始化编解码器部分的参数字典为第一步训练保存的结果;该过程使用的损失函数
Figure FDA0003726953350000034
为:
Figure FDA0003726953350000035
其中,VNL、VNL分别代表正常光条件下的真值视频、暗光条件下的待处理视频,(Θ12)为模型的可训练参数,
Figure FDA0003726953350000036
代表完整的暗光增强模型;
重复步骤1.2中的第一步训练,直至满足设定的终止条件,保存网络的结构和模型参数;初始化编解码器部分的参数字典为第一步训练保存的结果,重复步骤1.2当中的第二步训练,直至满足设定的终止条件,保存网络的结构和模型参数。
4.如权利要求2所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,在训练过程中,不断随机地向模型输入暗光视频片段和正常光视频片段,直到训练达到预设的轮次数量或者评估指标满足的预设值时,训练过程停止,并保存模型结构和模型参数。
5.如权利要求1所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,使用阶段的实现方法如下:
首先将暗光视频依照模型输入数据要求进行预处理,若已知相机曝光设定,根据具体的设定值对暗光视频的亮度进行初步线性的增强;然后,读取步骤1训练得到的模型参数,并依照模型结构进行模型的创建与加载;之后,将已处理的暗光视频数据送入该模型当中,生成增强后的正常光视频;最后,保存该视频;
如果存在暗光视频对应的真实正常光下视频,则评估增强视频的质量和效果,判断暗光增强模型的效果优劣。
6.如权利要求5所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,使用峰值信噪比PSNR和结构相似性SSIM计算增强视频和真值视频之间的客观差距;
其中,峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值;峰值信噪比的单位常用分贝dB表示,峰值信噪比的数值越高,表示图像、视频质量越高;峰值信噪比PSNR的计算方法为:
Figure FDA0003726953350000041
其中,n表示单通道单像素点的比特深度;
MSE表示均方误差,计算方式为:
Figure FDA0003726953350000042
其中,H和W为图像的高与宽,I(i,j)、
Figure FDA0003726953350000043
均表示在(i,j)位置上像素的值;
采用结构相似性SSIM作为结构的衡量指标,从结构上比较真值视频和增强视频之间的相似度;给定真值视频帧I与增强后的视频帧
Figure FDA0003726953350000044
SSIM的计算方式为:
Figure FDA0003726953350000045
其中,μI是I的平均值,
Figure FDA0003726953350000046
Figure FDA0003726953350000047
的平均值;
Figure FDA0003726953350000048
是I的方差,
Figure FDA0003726953350000049
Figure FDA00037269533500000410
的方差,
Figure FDA00037269533500000411
表示I与
Figure FDA00037269533500000412
的协方差;c1=(k1L)2,c2=(k2L)2,c1、c2均是用于维持稳定的常数,k1、k2均为常数,用于调整c1、c2数值,使其远小于1;L是像素值的动态范围,L=2n-1,n表示单通道单像素点的比特深度;SSIM的取值范围为[0,1],值越接近1,说明两视频帧结构越相似。
7.如权利要求6所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,K1=0.01,K2=0.03。
8.一种基于多尺度时空特征融合的暗光视频增强***,其特征在于,包括数据预处理子***、暗光增强模型子***、损失函数计算子***和结果评价子***;
其中,数据预处理子***包括暗光视频预处理模块和数据增广模块;暗光视频预处理模块用于将暗光视频依照其数据格式进行预处理,将不同像素依照色彩滤镜分离至不同通道;数据增广模块用于将暗光视频和正常光视频进行旋转、翻转或中心对称变换,扩增可训练的数据集,从而增强暗光视频增强模型的泛化能力;
暗光增强模型子***包括编码器模块、解码器模块、特征提取重建模块、时序-通道注意力模块;其中,编解码器模块是暗光增强模型子***的主体部分,其包括四个层级,每个层级的构成相同,均由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成,该部分用于对暗光视频特征进行初步的提取;具体地,特征提取重建模块包括特征嵌入模块、连续3DSwin-Transformer模块和特征重建模块;
特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图,将特征图压缩转化为特征序列,随后送入3D Swin-Transformer模块,利用Transformer的非局部信息聚合及全局视野进行时间-空间信息处理,处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图;时序-通道注意力模块在时间和空间维度上构建注意力,从而将来自特征提取重建模块的重建特征和来自解码器模块某层级的解码特征,在通道维度和时间维度得到不同通道、时间序列的重要性,在更细粒度的时空维度上融合拼接,得到时空互补特征;
损失函数计算子***,包括编解码器损失函数计算模块和完整模型损失函数计算模块;其中,编解码器损失函数计算模块用于训练过程的第一阶段,对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差,该损失将通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化编解码器的暗光增强表现;完整模型损失计算模块用于训练过程的第二阶段,对编解码器结构添加特征提取重建模块、时序-通道注意力模块,得到完整暗光视频增强模型,对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差,并通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化完整模型的暗光增强表现;
结果评价子***,用于将增强视频和真实正常光下视频进行比对,计算PSNR、SSIM等客观评价指标,从而量化本***所增强暗光视频的质量;
上述组成***之间的连接关系为:
数据预处理子***与暗光增强模块子***、结果评价子***分别相连,向暗光增强模块子***提供经视频预处理和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频,向结果评价子***提供真实正常光下视频;
在数据预处理子***中,暗光视频预处理模块和数据增广模块相连;其中,暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据;
暗光增强模型子***与数据预处理子***、损失函数计算子***和结果评价子***分别相连,其根据数据预处理子***输入的暗光视频恢复出增强后的暗光视频至损失函数计算子***和结果评价子***;
在暗光增强模型子***中,编码器模块与解码器模块、特征提取重建模块相连;解码器模块与编码器模块、时序-通道注意力模块相连;
在特征提取重建模块中,特征嵌入模块与3D Swin-Transformer模块相连;3D Swin-Transformer模块与特征嵌入模块以及特征重建模块相连;特征重建模块与3D Swin-Transformer模块相连;
损失函数计算子***与数据预处理子***、暗光增强模型子***相连;其从数据预处理子***获取数据增广后的真实正常光视频,然后,从暗光增强模型子***获取编解码器增强视频和完整模型增强结果;解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失,并将该损失回传至暗光增强模型子***,用于更新暗光增强模型子***中模型的参数;
在损失函数计算子***中,编解码器损失计算模块与完整模型损失计算模块独立工作,互不连接;
结果评价子***与数据预处理子***、暗光增强模型子***分别相连,其从数据预处理子***中获取真实正常光下视频,从暗光增强模型子***中获取增强后视频,通过将二者比对计算评价指标,量化地反映增强后视频的质量。
9.如权利要求8所述的一种基于多尺度时空特征融合的暗光视频增强***,其特征在于,***的处理过程如下:
步骤1:将暗光视频输入至数据预处理子***,进行视频数据预处理、数据增广;
步骤2:将暗光视频送入暗光增强模型子***中的编解码器模块,暗光视频经由该部分处理,生成增强视频待使用;
步骤3:损失函数计算子***中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子***生成的真实正常光下视频,计算损失值,并回传至编解码器模块中用于训练;
步骤4:暗光增强模型子***中的编解码器模块根据损失函数计算子***中的编解码器损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤5:重复执行上述步骤1至4,每当对全部训练集遍历一次后,在结果评价子***上使用验证集数据对当前参数下模型效果进行评估;若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前编解码器模块的参数字典,继续步骤6;
步骤6:;将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分,完成完整模型的初始化工作;
步骤7:与步骤1相同,将暗光视频输入至数据预处理子***,进行预处理、数据增广,处理后的视频数据将被暂存在内存当中;
步骤8:将暗光视频送入暗光增强模型子***中的完整模型,暗光视频经由该部分处理,生成增强视频待使用;
步骤9:损失函数计算子***中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子***生成的真实正常光下视频,计算损失值,并回传至完整模型中用于训练;
步骤10:暗光增强模型子***中的完整模型根据损失函数计算子***中的完整模型损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤11:重复执行上述步骤7至10,每当对全部训练集遍历一次后,在结果评价子***上使用验证集数据对当前参数下模型效果进行评估;若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前完整模型的参数字典,继续步骤12;
步骤12:采用步骤11保存的参数字典初始化完整模型,将目标暗光视频数据送入该模型中进行暗光增强,保存输出视频并采用结果评价子***评估增强后视频的图形质量。
CN202210775619.4A 2022-07-01 2022-07-01 一种基于多尺度时空特征融合的暗光视频增强方法及*** Pending CN115345785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210775619.4A CN115345785A (zh) 2022-07-01 2022-07-01 一种基于多尺度时空特征融合的暗光视频增强方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210775619.4A CN115345785A (zh) 2022-07-01 2022-07-01 一种基于多尺度时空特征融合的暗光视频增强方法及***

Publications (1)

Publication Number Publication Date
CN115345785A true CN115345785A (zh) 2022-11-15

Family

ID=83948036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210775619.4A Pending CN115345785A (zh) 2022-07-01 2022-07-01 一种基于多尺度时空特征融合的暗光视频增强方法及***

Country Status (1)

Country Link
CN (1) CN115345785A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761472A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN116137023A (zh) * 2023-04-20 2023-05-19 中国民用航空飞行学院 基于背景建模和细节增强的低照度图像增强方法
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN117726541A (zh) * 2024-02-08 2024-03-19 北京理工大学 一种基于二值化神经网络的暗光视频增强方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761472A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN116137023A (zh) * 2023-04-20 2023-05-19 中国民用航空飞行学院 基于背景建模和细节增强的低照度图像增强方法
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN116596779B (zh) * 2023-04-24 2023-12-01 天津大学 基于Transformer的Raw视频去噪方法
CN117726541A (zh) * 2024-02-08 2024-03-19 北京理工大学 一种基于二值化神经网络的暗光视频增强方法及装置

Similar Documents

Publication Publication Date Title
CN115345785A (zh) 一种基于多尺度时空特征融合的暗光视频增强方法及***
CN110163815B (zh) 基于多阶段变分自编码器的低照度还原方法
US20200162789A1 (en) Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling
US8223837B2 (en) Learning-based image compression
CN110717868B (zh) 视频高动态范围反色调映射模型构建、映射方法及装置
EP2003896A1 (en) Statistical image enhancement
CN112866694A (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN113822147A (zh) 一种协同机器语义任务的深度压缩方法
WO2023130333A1 (zh) 编解码方法、编码器、解码器以及存储介质
CN113379858A (zh) 一种基于深度学习的图像压缩方法及装置
CN115984117A (zh) 基于通道注意力的变分自编码图像超分辨率方法及***
CN116916036A (zh) 视频压缩方法、装置及***
Ranjbar Alvar et al. Joint image compression and denoising via latent-space scalability
CN110728728A (zh) 一种基于非局部正则的压缩感知网络图像重建方法
Joshua et al. Comparison of DCT and DWT image compression
CN111641825B (zh) 一种嵌入到hevc编码过程的3d去噪方法及去噪装置
CN113628143A (zh) 一种基于多尺度卷积的加权融合图像去雾方法及装置
Lauga et al. Segmentation-based optimized tone mapping for high dynamic range image and video coding
CN116416216A (zh) 基于自监督特征提取的质量评价方法、存储介质及终端
CN116152088A (zh) 一种基于信息融合的轻量化图像去噪方法
CN115567712A (zh) 基于人眼恰可察觉失真的屏幕内容视频编码感知码率控制方法及装置
CN115665413A (zh) 图像压缩最优量化参数的估计方法
Xie et al. Just noticeable visual redundancy forecasting: a deep multimodal-driven approach
CN116012260B (zh) 一种基于深度Retinex的低光图像增强方法
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination