WO2021208122A1

WO2021208122A1 - 基于深度学习的视频盲去噪方法及装置

Info

Publication number: WO2021208122A1
Application number: PCT/CN2020/086094
Authority: WO
Inventors: 谢翔; 邹少锋; 李国林; 麦宋平; 王志华
Original assignee: 清华大学深圳国际研究生院; 清华大学
Priority date: 2020-04-15
Filing date: 2020-04-22
Publication date: 2021-10-21
Also published as: CN111539879B; CN111539879A; US11216914B2; US20210327031A1

Abstract

一种基于深度学习的视频盲去噪方法及装置，该方法包括：从待去噪视频中取包含预设数量帧的视频序列，将该视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧图像进行光流估计，获得多个两帧图像之间的光流场；根据光流场将视频序列中的其他每一帧图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为网络输入，以带噪参考帧作为网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。该方案即可仅利用单个视频而无需获得大量的噪声数据、干净的数据、准确的噪声分布模型，就能实现对视频的盲去噪。

Description

基于深度学习的视频盲去噪方法及装置

技术领域

本发明涉及视频去噪技术领域，特别涉及一种基于深度学习的视频盲去噪方法及装置。

背景技术

去噪是图像和视频处理中的基础问题。尽管去噪算法和摄像传感器尽年来都有一定的提升，但是对于暗光条件下的拍摄视频以及对于利用短曝光时间捕获高速运动物体的视频中仍然存在大量噪声，同时广泛使用的监控摄像头、手机等设备大部分使用质量较低的摄像传感器，即使在光照良好的条件下采集的图像与视频仍然存在大量噪声。所以，去噪是视频图像处理中必不可少的一部分。

一般的图像去噪算法常常将图像的噪声建模为加性噪声(与信号的关系是相加，不管有没有信号，噪声都存在)，并且将噪声假设为高斯白噪声，然后通过在干净图像上添加高斯白噪声生成大量的数量，以数据驱动的方式训练去噪模型。使用高斯白噪声来对噪声建模是因为对于CCD/CMOS成像***中的观测信号通常可以建模为泊松-高斯联合分布，而泊松-高斯联合分布又可以通过方差稳定变换(VST)转换为加性高斯白噪声。但是，在许多应用中，所需处理的数据并不是直接来自于成像传感器的原始数据，成像传感器的输出经过了量化、去马赛克、伽马校正、压缩等操作，此外对于手机等设备生成的图像和视频可能还会经过压缩、滤镜等处理。因此很多情况下，图像或视频中的噪声信号并不能简单的用加性高斯白噪声进行建模。

此外，现有的深度学习去噪算法常以数据驱动的方式构造去噪模型。当噪声模型已知时，可以获得优异的去噪性能，但当应用到噪声模型未知的数据时，这些模型的去噪性能将会受到很大限制。现在也有将多种不同噪声分布的数据进行混合训练，但是其去噪性能往往不及于在特定噪声分布下训练获得的模型。此外训练去噪模型所需的真实场景下的噪声数据以及对应的干净数据是通常也难以获取。

VBM3D是基于图像去噪算法BM3D的在视频去噪上的扩展。VBM3D基于视频序列利用其时域和空域上的相关性，在相邻帧以及当前帧中获取相似块。VBM3D算法在去噪性能以及计算复杂度上可以获得较好的折中。VBM3D的去噪效果往往会因视频序列中的视角变换、物体运动而影响到块匹配的准确性，从而导致较差的去噪效果，同时 VBM3D算法针对的是加性高斯白噪声，在去噪前需要先估计带噪图像的噪声水平，而实际场景中带噪图像的噪声水平往往无法直接获得，并且噪声分布也不满足高斯分布，因此该算法在应用具有一定的局限性。

Ehret等人提出了无监督的视频去噪算法，利用DnCNN网络，首先在含高斯白噪声的数据进行预训练，然后对未知噪声分布的视频进行逐帧训练，在未知视频中图像噪声模型分布情况下，实现对视频的盲去噪。具体是利用传统光流算法对视频的前后帧进行光流估计，再根据光流将相邻帧映射到当前帧进行配准，从而获得一对具有相同内容的带噪图像，再利用noise2noise的思想进行逐帧训练，实现了对含任意噪声分布的视频的盲去噪。通过获取相邻两帧的图像，经过光流进行运动补偿后，对这一对图像进行训练，可以达到去噪效果，但是其对高斯白噪声的去噪效果稍逊于直接使用预训练好的DnCNN网络。此外仅使用相邻两帧图像而未充分利用视频序列的时域信息，使得去噪效果受到一定的限制。同时在线学习过程中对单张图像多次迭代后去噪效果存在一定的不稳定性，视频序列之间的去噪效果存在一定的波动性，降低了视频的视觉效果。

发明内容

本发明实施例提供了一种基于深度学习的视频盲去噪方法及装置，解决了现有技术中仅使用相邻两帧图像而未充分利用视频序列的时域信息，使得去噪效果受到一定的限制的技术问题。

本发明实施例提供了一种基于深度学习的视频盲去噪方法，该方法包括：

从待去噪视频序列中取包含预设数量帧的视频序列，将视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场；

根据多个两帧图像之间的光流场，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；

基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。

本发明实施例还提供了一种基于深度学习的视频盲去噪装置，该装置包括：

光流估计模块，用于从待去噪视频序列中取包含预设数量帧的视频序列，将视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场；

图像变换模块，用于根据多个两帧图像之间的光流场，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；

多帧图像融合去噪模块，用于基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

在本发明实施例中，获取待去噪视频中预设数量帧的视频序列的中间帧作为带噪参考帧，利用该带噪参考帧和其他帧图像进行配准，再通过noise2noise的训练思想，仅利用一个视频就可以进行零样本学习，实现对视频序列的盲去噪，而无需获得大量的噪声数据和干净的数据，也不需要获取准确的噪声分布模型。利用多帧融合的方法，可以充分利用到视频序列的时域信息，解决时域信息缺失问题，有助于获得更优的去噪图像质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度学习的视频盲去噪方法流程图；

图2是本发明实施例提供的一种基于深度学习的视频盲去噪方法具体流程图；

图3是一种类似DnCNN结构的网络结构示意图；

图4是本发明实施例提供的一种Derf数据集中的station2视频序列中某帧图像的噪声图；

图5是一种使用VBM3D方法处理的去噪图；

图6是一种使用Ehret等人提出的无监督视频去噪方法处理的去噪图；

图7是一种使用本发明方法处理的去噪图；

图8是本发明实施例提供的一种基于深度学习的视频盲去噪装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，提供了一种基于深度学习的视频盲去噪方法，如图1所示，该方法包括：

步骤101：从待去噪视频序列中取包含预设数量帧的视频序列，将视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场。

步骤102：根据多个两帧图像之间的光流场，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；

步骤103：基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。

在本发明实施例中，如图2所示，对于步骤101：去噪时，依次取待去噪视频中N帧视频序列，并取该视频序列的中间帧作为带噪参考帧，可以利用N-1个光流估计网络对带噪参考帧和该视频序列中的其他每一帧对应的图像进行光流估计，这些光流估计网络拥有相同的网络结构和参数，每个光流估计网络取序列中对应的一帧对应的图像和带噪参考帧作为输入，获得这两帧图像之间的稠密光流场作为运动估计。

记带噪参考帧为I _t，t表示该带噪参考帧在视频序列中为第t帧，N帧中的其他帧相对于带噪参考帧可表示为I _t+i，i大于0表示其他帧相对于带噪参考帧是后i帧，i小于0表示其他帧相对于带噪参考帧是前i帧，故i的取值范围为[-(N-1)/2,(N-1)/2]。记带噪参考帧I _t对应的干净图像为U _t，记v _t,t+i表示从t帧到t+i帧的光流场，将I _t+i和v _t,t+i经过空间变化网络(Spatial Transformer Networks，STN)变换后得到

记

所对应的干净图像为

其中，w表示对图像进行空间变换。

光流估计网络可以采用Flownet2、SpyNet、PWCNet等光流网络。本发明实施例对光流估计网络不做具体限定，实现前后帧的光流估计即可，本实施例优选Flownet2。在进行视频去噪前，首先对光流估计网络进行预训练获得预训练模型，可以使用Sintel数据集进行训练，具体训练方式因不同网络而异。训练时用的数据集不局限于此，也可直接使用已公开的预训练权重，本实施例优选使用已公开的预训练权重。在进行视频去噪时，光流估计网络可以通过反向传播进行精调，也可以冻结网络权重，不进行梯度更新，仅使用预训练网络进行光流估计。本实施例优选冻结光流估计网络的权重，不进行反向传播更新网络权重。

关于N的选取，本实例优选N＝11，即取包含11帧图像的序列，取第6帧作为带噪参考帧，剩下的每帧和参考帧作为光流估计网络的输入获得对应的光流估计。准确的光流估计往往因为视频序列中光线的变化、运动模糊、遮挡等问题而变得困难，经过图像变换后的配准图像往往会出现边界与带噪参考帧无法对齐以及因两帧图像之间图像差异、视角变换而造成的信息缺失。因此通过多帧视频序列进行光流估计，可以弥补仅使用前后两帧进行光流而造成的信息损失。但是选取的两帧图像时间间隔越大，光流估计越不准确，所能带来的有效时域信息越少，同时也会增加***的复杂性和计算量，所以N的大小需要一定权衡。

对于光流估计，如果去噪时不更新光流估计网络的参数，那么也可以使用传统的光流估计算法，而不使用光流估计网络进行光溜估计，例如可以使用TV-L1算法完成光流估计，同样可以达到优异的去噪效果。

在本发明实施例中，如图2所示，对于步骤102：可以通过空间变换网络(Spatial Transformer Networks，STN)将输入帧变换到参考帧进行配准。具体而言，每个空间变换网络把视频序列中对应的图像转换到参考帧的视图上，N-1帧图像则需使用N-1个空间变换网络。

在根据光流场对输入帧变换到参考帧时需要进行双线性插值，使用空间变换网络可以通过一种可微的图像采样方式，在进行去噪训练时，损失函数的梯度能够从图像去噪网络反向传播至光流估计步骤，使得光流估计网络能够根据不同的视频进行微调，从而使整个视频去噪网络进行端到端的训练。

对于图像变换部分，如果整个网络不更新光流估计网络的参数或者使用传统的光流估计算法，也可以不使用空间变换网络，而是通过opencv使用传统图像处理算法完成对图像的空间变换。

在本发明实施例中，如图2所示，对于步骤103：使用一个卷积神经网络进行逐帧迭代训练和去噪。具体而言，将N-1帧配准后的图像堆叠在一起组成一个多通道的图像，再送入去噪网络进行训练，基于noise2noise算法的训练思想，无需任何干净图像作为训练数据，而是以N帧图像的中间帧作为带噪参考帧。训练时采用在线学***均，获得最终该带噪参考帧所对应的去噪图像。

对于卷积神经网络，可以采用当前的主流去噪网络，如DnCNN、U-Net等网络，具体使用的卷积神经去噪网络不局限于此。参考图3，本实例优选此种类似DnCNN结构的网络作为去噪网络。本实例包括了17个卷积层，第一个卷积层使用3x3的卷积核，并用ReLU作为激活函数，输出64个特征图，接下来的15层卷积层同样使用64个3x3的卷积核，并使用批量归一化和ReLU做激活，网络的输出层仅使用一个3x3的卷积核做卷积。与DnCNN不同的是，本实例并没有使用残差学习，即网络的输出是估计的去噪图而不是估计的噪声，因为网络的输入是N-1帧图像堆叠形成的图像，而网络的输出是参考帧的去噪估计图。

对于卷积神经网络的初始化设计，卷积层参数的初始化使用Kaming初始化，可以有效避免反向传播过程中的梯度弥散或者梯度***，加速网络收敛。

对于卷积神经网络的输入和输出，本发明将N-1帧经过STN变换后的图像堆叠在一起。若原图像的大小是(H,W,C)，其中H是图像的高度，W是图像的宽度，C是图像的通道数，经过堆叠后获得(H,W,(N-1)×C)大小的图像记为

将其作为去噪网络的输入。在此，做出以下假设：t+i帧视频序列中经过STN变换后所得图像

对应的干净图像

和带噪参考帧I _t对应的干净图像U _t在对应的像素点上近似匹配；N帧视频序列中每帧图像中的噪声是独立同分布的。

因此经过STN变换后的图像

和带噪参考帧I _t构成一对近似具有相同的干净图像但包含独立同分布的噪声，因此可以将

作为卷积神经网络输入，将I _t作为卷积神经网络的带噪参考帧，利用nose2noise的思想进行训练而无需使用干净图像。本发明再此基础上做进一步拓展，将序列中N-1帧经过STN变换后的堆叠在一起的图像

作为卷积神经网络的输入，再以I _t作为卷积神经网络的带噪参考帧，仍然可以达到相同的去噪目的，并且可以获得更好的去噪效果。

对于卷积神经网络的损失函数，在基于noise2noise算法进行训练时，使用的损失函数取决于噪声的分布。如果已知噪声分布，可以有针对性的选择损失函数，例如对于高斯噪声或者泊松噪声，可以使用L ₂损失函数，对于随机脉冲噪声，可以使用L ₁损失函数。而在实际应用中，往往在无法获得噪声分布模型，或者视频中的噪声是多种分布混合在一起，这种情况下，可以通过实验的方法来确定最优的损失函数。对于L ₂损失函数，可以表示为：

其中，L ₂( )表示L ₂损失函数；I _t表示带噪参考帧，t表示该带噪参考帧在视频序列中为第t帧；

表示经过空间转换后的多通道图像

经过去噪网络后输出的去噪图像；x表示视频序列的像素点的位置；I _t(x)表示带噪参考帧在x位置处的像素值；

表示去噪图像在x位置处的像素值。

此外，经过STN变换后的图像常常存在一定的光流场的遮挡区域，即在估计从I _t到I _t+i的光流时，在I _t中出现的区域在I _t+i可能并未出现，但是计算出的光流场v _t,t+i在该区域仍然会有赋值。可以通过判断光流散度绝对值大于一定阈值的区域记为遮挡区域。由此可定义一个二值化的遮挡掩膜：

其中，v _t,t+i为带噪参考帧到t+i帧图像的光流场；M _t,t+i为该光流场对应的遮挡掩膜；τ为设定阈值；div表示散度。

由此将N-1个光流场v _t,t+i对应的遮挡掩膜求和取平均获得最终的遮挡掩膜M _t。在计算损失时，用该掩膜来屏蔽遮挡部分参与损失函数的计算。此外，镜头变焦推拉、机位前后移动，物体运动等带来画面视野的变化，往往导致光流估计网络无法获得拥有有效边缘的光流场，由此获得的遮挡掩膜的图像边缘处取值总为0，故无法获得图像边缘处的损失，从而影响对图像边缘的去噪。因此，本发明将遮挡掩膜的边缘一定宽度内填充为1，由此可避免去噪图像边缘处的严重失真。由此L ₂损失函数，可以表示为：

对于卷积神经网络的训练方式，采用在线学***均，从而获得最终的去噪效果，既可以均衡迭代开始时的欠拟合以及后期的欠拟合，同时也消除训练过程中去噪效果浮动带来的影响，相比直接取一定次数迭代后的去噪图像，能够获得更优的去噪效果和更好的视觉效果。同时逐帧训练，可以有效解决视频采集过程中因环境、天气等变换而造成的噪声变化，实现了终生学习。

在本发明实施例中，对于光流估计和图像变换，如果去噪时不更新光流估计网络的参数或者使用传统的光流估计算法，可以在去噪进行之前，对整个视频序列进行逐帧光流估计和图像变换，将图像变换后获得的配准图和遮挡掩膜保存到计算机硬盘中，后续的去噪算法可以直接调用本地处理计算好的配准图像和遮挡掩膜，避免了去噪过程中可能对同一对图像重复进行光流估计和图像变换的情况，可以节省计算资源和时间。

对于多帧融合去噪部分，除了使用在线学习来对视频序列中的每帧图像进行依次去噪，也可以使用离线学习的方法，对整个视频序列进行逐帧多轮迭代训练，以整个视频序列训练一遍为一次迭代，通过逐帧多轮迭代进行卷积神经网络的权重更新，获得带噪参考帧对应的卷积神经网络，最后再利用带噪参考帧对应的卷积神经网络对整个视频序列(多帧带噪配准图像和带噪参考帧)进行测试，获得去噪视频序列。

对于多帧融合去噪部分，设计损失函数时可以不使用遮挡掩膜部分。由于使用了多帧图像进行融合，信息具有一定的冗余性，去噪网络也具有一定的鲁棒性，因此也可以获得相当甚至更优的去噪效果。

下面举例说明本发明方法的优点。

参照表1，使用不同算法对从Derf数据集中选取的7个视频序列进行去噪的PSNR量化指标对比。关于噪声序列的生成，首先把视频序列通过平均R、G、B三通道分量获得灰度图，再下采样2倍，确保视频序列中没有噪声。然后添加σ＝25的高斯白噪声，再以为10的质量因子进行JPEG压缩，获得对应的噪声视频序列。表中对应了Ehret等人提出了无监督的视频去噪的算法，Proposed-TVL1表示本发明方法中使用传统的TV-L1光流估计算法构建的视频去噪算法，Proposed-Flownet2表示本发明方法中使用基于深度学习的Flownet2网络构建的视频去噪。表中加粗表示当前视频中获得最高PNSR的算法。

表1

可以看出本发明在7个视频中都获得较大的PSNR提升。

参考图4至图7分别表示Derf数据集中的station2视频序列中某帧图像的噪声图，以及分别使用VBM3D方法、Ehret等人提出了无监督的视频去噪的算法以及本发明处理的去噪图。所添加的噪声与表1中的噪声相同。从视觉效果上可以看出，即使本发明在未知噪声分布及噪声水平，并没有进行任何去噪的预训练时，就可以获得很好的去噪效果，图7中可以较为清晰的看到铁轨和高架电车线。而VBM3D在设定噪声水平为25的情况下，去噪的结果出现了多处的伪影(即图5)，Ehret等人提出了无监督的视频去噪的算法(即图6)去噪的结果则过于模糊，失去了图像很多的细节信息。

可以看出，本发明可以显著提高视频去噪后图像细节清晰度，增强图像对于人眼的可识别性，改善图像主观质量，同时提高客观指标。

基于同一发明构思，本发明实施例中还提供了一种基于深度学习的视频盲去噪装置，如下面的实施例所述。由于基于深度学习的视频盲去噪装置解决问题的原理与基于深度学习的视频盲去噪方法相似，因此基于深度学习的视频盲去噪装置的实施可以参见基于深度学习的视频盲去噪方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是本发明实施例的基于深度学习的视频盲去噪装置的结构框图，如图8所示，包括：

光流估计模块02，用于从待去噪视频序列中取包含预设数量帧的视频序列，将视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场；

图像变换模块04，用于根据多个两帧图像之间的光流场，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；

多帧图像融合去噪模块06，用于基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。

在本发明实施例中，光流估计模块02具体用于：

利用光流估计网络，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计；

图像变换模块04具体用于：

通过空间变化网络将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像。

在本发明实施例中，光流估计模块02具体用于：

利用光流估计算法对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计；

图像变换模块04具体用于：

利用图像处理算法，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准。

在本发明实施例中，所述光流估计网络的数量为预设数量减1个，所述预设数量减1个光流估计网络具有相同的网络结构和参数；

光流估计模块02具体用于：

带噪参考帧和视频序列中的其他一帧对应的图像作为一个光流估计网络的输入，经过光流估计获得一个两帧图像之间的光流场；

对于预设数量减1个光流估计网络，获得预设数量减1个两帧图像之间的光流场。

在本发明实施例中，光流估计模块02还用于：

在进行光流估计之前，对所述光流估计网络进行预训练，获得预训练模型。

在本发明实施例中，所述空间变化网络的数量为预设数量减1个；

图像变换模块04具体用于：

每个空间变化网络将视频序列中的其他一帧对应的图像转换到带噪参考帧进行配准，获得一个配准后的视频序列；

对于预设数量减1个空间变化网络，获得预设数量减1个配准后的视频序列。

在本发明实施例中，多帧图像融合去噪模块06具体用于：

将多帧带噪配准图像堆叠在一起组成多通道图像；

以多通道图像为卷积神经网络的输入，带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，将每帧图像的整个迭代训练过程中去噪网络的输出去噪图像进行求和取平均，获得最终带噪参考帧的去噪图像。

在本发明实施例中，所述卷积神经网络中的损失函数可以采用公式(1)。

在本发明实施例中，多帧图像融合去噪模块06还用于：

根据光流场确定光流散度；

将光流散度的绝对值和设定阈值进行比较，将光流散度的绝对值大于设定阈值的区域记为光流场的遮挡区域；

根据所述遮挡区域定义二值化的遮挡掩膜；

将多个两帧图像之间的光流场对应的二值化的遮挡掩膜求和去平均，获得最终遮挡掩膜；

根据所述最终遮挡掩膜确定卷积神经网络中的损失函数。

在本发明实施例中，按照如公式(2)定义二值化的遮挡掩膜。

在本发明实施例中，所述损失函数可以采用公式(3)。

综上所述，本发明提出的基于深度学习的视频盲去噪方法和装置具有如下优点：

利用光流估计、图像变化的方法将对视频序列的前后帧进行光流估计、图像配准，再通过noise2noise的训练思想，仅利用一个视频就可以进行零样本学***均策略，对去噪网络结果求和取平均，有效均衡在线学习过程中过拟合和欠拟合的问题，并稳定了网络输出的波动，获得更优去噪效果，提升了视频帧之间去噪效果的连贯性与一致性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于深度学习的视频盲去噪方法，其特征在于，包括：

从待去噪视频序列中取包含预设数量帧的视频序列，将视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场；

根据多个两帧图像之间的光流场，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；

基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。
如权利要求1所述的基于深度学习的视频盲去噪方法，其特征在于，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，包括：

利用光流估计网络，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计；

将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，包括：

通过空间变化网络将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像。
如权利要求1所述的基于深度学习的视频盲去噪方法，其特征在于，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，包括：

利用光流估计算法对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计；

将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，包括：

利用图像处理算法，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准。
如权利要求2所述的基于深度学习的视频盲去噪方法，其特征在于，所述光流估计网络的数量为预设数量减1个，所述预设数量减1个光流估计网络具有相同的网络结构和参数；

利用光流估计网络，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场，包括：

带噪参考帧和视频序列中的其他一帧对应的图像作为一个光流估计网络的输入，经过光流估计获得一个两帧图像之间的光流场；

对于预设数量减1个光流估计网络，获得预设数量减1个两帧图像之间的光流场。
如权利要求2所述的基于深度学习的视频盲去噪方法，其特征在于，在进行光流估计之前，还包括：

对所述光流估计网络进行预训练，获得预训练模型。
如权利要求4所述的基于深度学习的视频盲去噪方法，其特征在于，所述空间变化网络的数量为预设数量减1个；

通过空间变化网络将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像，包括：

每个空间变化网络将视频序列中的其他一帧对应的图像转换到带噪参考帧进行配准，获得一个配准后的视频序列；

对于预设数量减1个空间变化网络，获得预设数量减1个配准后的视频序列。
如权利要求1所述的基于深度学习的视频盲去噪方法，其特征在于，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像，包括：

将多帧带噪配准图像堆叠在一起组成多通道图像；

以多通道图像为卷积神经网络的输入，带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，将每帧图像的整个迭代训练过程中去噪网络的输出去噪图像进行求和取平均，获得最终带噪参考帧的去噪图像。
如权利要求7所述的基于深度学习的视频盲去噪方法，其特征在于，所述卷积神经网络中的损失函数为：

其中，L ₂( )表示L ₂损失函数；I _t表示带噪参考帧，t表示该带噪参考帧在视频序列中为第t帧；
表示经过空间转换后的多通道图像
经过去噪网络后输出的去噪图像；x表示视频序列的像素点的位置。
如权利要求7所述的基于深度学习的视频盲去噪方法，其特征在于，还包括：

根据光流场确定光流散度；

将光流散度的绝对值和设定阈值进行比较，将光流散度的绝对值大于设定阈值的区域记为光流场的遮挡区域；

根据所述遮挡区域定义二值化的遮挡掩膜；

将多个两帧图像之间的光流场对应的二值化的遮挡掩膜求和去平均，获得最终遮挡掩膜；

根据所述最终遮挡掩膜确定卷积神经网络中的损失函数。
如权利要求9所述的基于深度学习的视频盲去噪方法，其特征在于，按照如下方式定义二值化的遮挡掩膜：

其中，v _t,t+i为带噪参考帧到t+i帧图像的光流场；M _t,t+i为该光流场对应的遮挡掩膜；τ为设定阈值；div表示散度，x表示视频序列的像素点的位置，i大于0表示其他帧相对于带噪参考帧是后i帧，i小于0表示其他帧相对于带噪参考帧是前i帧，故i的取值范围为[-(N-1)/2,(N-1)/2]，N表示视频序列的帧数。
如权利要求10所述的基于深度学习的视频盲去噪方法，其特征在于，所述损失函数为：

其中，L ₂( )表示L ₂损失函数；I _t表示带噪参考帧，t表示该带噪参考帧在视频序列中为第t帧；
表示经过空间转换后的多通道图像
经过去噪网络后输出的去噪图像；x表示视频序列的像素点的位置；M _t表示对多个光流场对应的遮挡掩膜求平均得到的遮挡掩膜。
一种基于深度学习的视频盲去噪装置，其特征在于，包括：

光流估计模块，用于从待去噪视频序列中取包含预设数量帧的视频序列，将视频序列的中间帧作为带噪参考帧，对带噪参考帧和视频序列中的其他每一帧对应的图像进行光流估计，获得多个两帧图像之间的光流场；

图像变换模块，用于根据多个两帧图像之间的光流场，将视频序列中的其他每一帧对应的图像分别转换到带噪参考帧进行配准，获得多帧带噪配准图像；

多帧图像融合去噪模块，用于基于卷积神经网络构建去噪网络，以多帧带噪配准图像作为卷积神经网络的输入，以带噪参考帧作为卷积神经网络的参考图像，利用nose2noise方法进行逐帧迭代训练和去噪，获得带噪参考帧对应的去噪图像。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11任一项所述方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至11任一项所述方法的计算机程序。