CN117044215A

CN117044215A - 用于低光照媒体增强的方法和***

Info

Publication number: CN117044215A
Application number: CN202280018046.9A
Authority: CN
Inventors: S 格林·罗什·K; 尼克希尔·克里施南; 亚什·哈布哈彊卡; 博德希萨特娃·曼达尔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-06-15
Filing date: 2022-06-13
Publication date: 2023-11-10
Also published as: EP4248657A1; EP4248657A4; US20220398700A1

Abstract

一种用于增强媒体的方法包括：由电子装置接收媒体流；由所述电子装置执行媒体流的多个帧的对齐；由所述电子装置校正所述多个帧的亮度；由所述电子装置通过分析具有校正的亮度的所述多个帧的参数来选择第一神经网络、第二神经网络或第三神经网络中的一个，其中，所述参数包括镜头边界检测和人造光闪烁中的至少一个；以及由电子装置通过使用第一神经网络、第二神经网络或第三神经网络中选择的一个处理媒体流的所述多个帧来生成输出媒体流。

Description

用于低光照媒体增强的方法和***

技术领域

本公开涉及媒体处理的领域，并且更具体地涉及低光照媒体增强。

背景技术

在低光照条件下捕获的或使用低质量传感器捕获的视频可能遭受各种问题：

高噪声：视频的最大曝光时间可能受到期望的每秒帧数(FPS)的限制，这在低光照条件下导致高噪声；

低亮度：在低光照条件下，缺乏足够的环境光导致暗视频；

颜色伪影：用于捕获准确的颜色的传感器的准确度下降，随着捕获的光子数量的减少而导致颜色准确度的损失；

通过执行低复杂度人工智能(AI)视频处理(全HD-30FPS)来获得良好的输出质量是困难的；

处理长持续时间视频捕获的功率和存储器约束；

由于时间一致性问题引起的闪烁；以及

缺乏用于训练的真实世界数据集。

在相关技术方法中，空间或时间滤波器可被用于对在低光照条件下捕获的视频进行去噪/增强。然而，当视频在低光照条件下或使用低质量传感器被捕获时，空间或时间滤波器可能无法有效地从视频中去除噪声。

在一些相关技术方法中，深度卷积神经网络(CNN)可被用于增强视频。然而，相关技术方法中使用的深度CNN可能计算量过大且存储器需求密集而无法被实时部署在电子装置/移动电话上。使用深度CNN的增强视频也可能由于连续视频帧的不一致去噪而遭受闪烁。

发明内容

技术问题

提供了用于增强在低光照条件下并使用劣质传感器捕获的媒体的方法和***。

本文的实施例的另一方面在于提供通过分析视频的多个帧的参数在第一神经网络、第二神经网络和第三神经网络之间切换以增强媒体的方法和***，其中，参数包括镜头边界检测和人造光闪烁，其中，第一神经网络是具有一个输入帧的高复杂度神经网络(HCN)，第二神经网络是具有‘q’数量的输入帧和先前输出帧的用于联合去闪烁或联合去噪的时间引导的较低复杂度神经网络(TG-LCN)，并且第三神经网络是具有‘p’数量的输入帧和先前输出帧的用于去噪的神经网络，其中，‘p’小于‘q’。

本文的实施例的另一方面是提供用于使用多帧连体(Siamese)训练方法来训练第一/第二/第三神经网络的方法和***。

问题的解决方案

根据本公开的一方面，一种用于增强媒体的方法包括：由电子装置接收媒体流；由所述电子装置执行媒体流的多个帧的对齐；由所述电子装置校正所述多个帧的亮度；由所述电子装置通过分析具有校正的亮度的所述多个帧的参数来选择第一神经网络、第二神经网络或第三神经网络中的一个，其中，所述参数包括镜头边界检测和人造光闪烁中的至少一个；以及由电子装置通过使用第一神经网络、第二神经网络或第三神经网络中选择的一个处理媒体流的所述多个帧来生成输出媒体流。

媒体流可在低光照条件下被捕获，并且媒体流可包括噪声、低亮度、人工闪烁和颜色伪影中的至少一个。

输出媒体流可以是具有增强的亮度和零闪烁的去噪媒体流。

校正媒体流的所述多个帧的亮度可包括：将媒体流的单个帧或所述多个帧识别为输入帧；使用逆相机响应函数(ICRF)来线性化输入帧；使用未来时间引导来选择用于校正输入帧的亮度的亮度倍增因子；基于亮度倍增因子对输入帧应用线性提升；以及对输入帧应用相机响应函数(CRF)以校正输入帧的亮度，其中，CRF是传感器类型和元数据的函数，其中，元数据包括曝光值和国际标准化组织(ISO)，并且CRF和ICRF被存储为查找表(LUT)。

选择亮度倍增因子可包括：分析输入帧的亮度；基于输入帧的亮度小于阈值并且未来时间缓冲中的所有帧的亮度小于所述阈值，将最大恒定提升值识别为亮度倍增因子；基于输入帧的亮度小于所述阈值并且未来时间缓冲中的所有帧的亮度大于所述阈值，将最大恒定提升值与1之间的单调递减函数的提升值识别为亮度倍增因子；基于输入帧的亮度大于所述阈值并且未来时间缓冲中的所有帧的亮度大于所述阈值，将单位增益提升值识别为亮度倍增因子；以及基于输入帧的亮度大于所述阈值并且未来时间缓冲中的帧的亮度小于所述阈值，将1与最大恒定提升值之间的单调递增函数的提升值识别为亮度倍增因子。

由所述电子装置选择第一神经网络、第二神经网络或第三神经网络中的一个可包括：相对于更早的帧分析每个帧，以确定镜头边界检测是否与多个帧中的每个帧相关联；基于镜头边界检测与所述多个帧相关联，选择第一神经网络以通过处理媒体流的所述多个帧来生成输出媒体流；基于镜头边界检测不与所述多个帧相关联，分析所述多个帧中人造光闪烁的存在；基于所述多个帧中存在人造光闪烁，选择第二神经网络以通过处理媒体流的所述多个帧来生成输出媒体流；以及基于所述多个帧中不存在人造光闪烁，选择第三神经网络以通过处理媒体流的所述多个帧来生成输出媒体流。

第一神经网络可以是具有一个输入帧的高复杂度神经网络，第二神经网络可以是具有‘q’数量的输入帧和先前输出帧的用于联合去闪烁或联合去噪的时间引导的较低复杂度神经网络，以及

第三神经网络可以是具有‘p’数量的输入帧和先前输出帧的用于去噪的神经网络，其中，‘p’小于‘q’。

第一神经网络可包括处于最低级别的多个残差块以增强噪声去除能力，并且第二神经网络可包括具有较少特征图的至少一个卷积运算以及作为引导的先前输出帧以处理多个输入帧。

可使用多帧连体训练方法训练第一神经网络、第二神经网络和第三神经网络，以通过处理媒体流的多个帧来生成输出媒体流。

所述方法还可包括：通过以下操作训练第一神经网络、第二神经网络和第三神经网络中的至少一个的神经网络：创建用于训练神经网络的数据集，其中，数据集包括局部数据集和全局数据集中的一个；从创建的数据集中选择至少两组帧，其中，每个组包括至少三个帧；将合成运动添加到选择的至少两组帧，其中，添加有合成运动的所述至少两组帧包括不同的噪声实现；以及使用基准真实媒体和添加有合成运动的所述至少两组帧来执行神经网络的连体训练。

创建数据集可包括：捕获突发数据集，其中，突发数据集包括具有噪声输入的低光照静态媒体和干净基准真实帧中的一个；分别使用合成轨迹生成和合成停止运动来模拟每个突发数据集的全局运动和局部运动；去除在干净基准真实帧与低光照静态媒体之间具有结构和亮度失配的至少一个突发数据集；以及通过包括所述至少一个突发数据集来创建数据集，所述至少一个突发数据集不包括干净基准真实帧与低光照静态媒体之间的结构和亮度失配。

模拟每个突发数据集的全局运动可包括：基于包括最大平移和最大旋转的参数来估计多项式系数范围；使用估计的多项式系数范围生成三阶多项式轨迹；使用最大深度和生成的三阶多项式轨迹来近似三阶轨迹；基于预定义采样率和近似的3D轨迹生成均匀采样点；基于生成的均匀采样点生成‘n’个仿射变换；以及对每个突发数据集应用生成的n个仿射变换。

模拟每个突发数据集的局部运动包括：使用合成停止运动在静态场景中从每个突发数据集捕获局部对象运动，捕获局部对象运动包括：捕获具有背景场景的输入和基准真实场景；捕获具有前景对象的输入和基准真实场景；裁剪出前景对象；以及通过将前景对象放置在背景场景的不同位置处来创建合成场景；以及通过对突发数据集的预定义数量的帧求平均来模拟用于每个局部对象运动的运动模糊。

执行神经网络的连体训练可包括：将具有不同噪声实现的所述至少两组帧传递到神经网络，以生成至少两组输出帧；通过计算所述至少两组输出帧之间的损失来计算连体损失；通过计算所述至少两组输出帧的平均值和基准真实来计算像素损失；使用连体损失和像素损失来计算总损失；以及使用计算的总损失来训练神经网络。

根据本公开的一方面，一种电子装置包括：存储器；以及处理器，耦接到存储器并且被配置为进行以下操作：接收媒体流；执行媒体流的多个帧的对齐；校正所述多个帧的亮度；通过分析具有校正的亮度的所述多个帧的参数来选择第一神经网络、第二神经网络或第三神经网络中的一个，其中，所述参数包括镜头边界检测和人造光闪烁中的至少一个；以及通过使用第一神经网络、第二神经网络或第三神经网络中的选择的一个处理媒体流的所述多个帧来生成输出媒体流。

附图说明

通过以下结合附图的描述，本公开的某些实施例的上述和其他方面、特征和优点将更加明显，其中：

图1示出根据本公开的实施例的用于增强媒体的电子装置；

图2示出根据本公开的实施例的在电子装置中可执行的用于增强媒体的媒体增强器；

图3是根据本公开的实施例的描绘视频的增强的示例概念图；

图4示出根据本公开的实施例的用于增强在低光照条件下和/或使用低质量传感器捕获的视频的示例图像信号处理(ISP)推理流水线；

图5和图6是描绘根据本公开的实施例的在增强视频的同时对视频执行的亮度校正的示例图；

图7示出根据本公开的实施例的用于在镜头边界检测与视频的帧相关联的情况下处理视频的帧的高复杂度网络(HCN)；

图8示出根据本公开的实施例的用于在多个帧中存在人造光闪烁的情况下处理视频的多个帧的时间引导的低复杂度网络(TG-LCN)；

图9是描绘根据本文公开的实施例的通过处理视频的帧来生成输出视频的多尺度金字塔方法的示例图；

图10是描绘根据本公开的实施例的用于增强视频/媒体流的第一/第二/第三神经网络的训练的示例图；

图11是描绘根据本公开的实施例的使用多帧连体训练方法的第一/第二/第三神经网络的训练的示例图；

图12是描绘根据本公开的实施例的用于训练第一/第二/第三神经网络的数据集的创建的示例图；

图13A和图13B是描绘根据本公开的实施例的在突发数据集上的全局运动和局部运动的模拟的示例图；

图14是描绘根据本公开的实施例的第一/第二/第三神经网络的连体训练的示例图；

图15A和图15B是描绘根据本公开的实施例的增强在低光照条件下捕获的低每秒帧数(FPS)视频的用例场景的示例图；

图16是描绘根据本公开的实施例的增强室内慢动作视频的用例场景的示例图；

图17是描绘根据本公开的实施例的增强实时高动态范围(HDR)视频的用例场景的示例图；以及

图18是描绘根据本公开的实施例的用于增强媒体流的方法的流程图。

具体实施方式

示例实施例及其各个方面、特征和有利细节在以下描述中参考附图更全面地被说明。对公知组件和处理技术的描述被省略，以免不必要地模糊本文的实施例。本文的描述仅旨在便于理解可实践本文的示例实施例的方式，并且进一步使本领域技术人员能够实践本文的示例实施例。因此，本公开不应被解释为限制实施例的范围。

本公开的实施例提供了用于使用时间引导的自适应卷积神经网络(CNN)切换来实时增强媒体/视频的方法和***，其中，媒体可在极低光照条件下、在高噪声条件下被捕获，和/或使用劣质/低质量传感器被捕获。

此外，本公开的实施例提供了用于使用基于深度学习的流水线在最小化噪声和闪烁伪影的同时增强媒体的方法和***。

此外，本公开的实施例提供了用于通过分析媒体的输入帧的时间一致性在高复杂度网络与低复杂度网络之间进行选择的方法和***，从而减少处理媒体所需的平均时间和功率。

此外，本公开的实施例提供了用于使用连体训练方法来减少闪烁的方法和***。

现在将参照附图描述本公开的实施例，其中，相似的参考字符表示相似的特征。

图1示出根据本公开的实施例的用于增强媒体的电子装置100。本文涉及的电子装置100可被配置为增强媒体。

电子装置100的示例可以是但不限于云计算装置(其可以是公共云或私有云的部分)、服务器、数据库、计算装置等。服务器可以是独立服务器、云上的服务器等中的至少一个。计算装置可以是但不限于个人计算机、笔记本、平板计算机、台式计算机、膝上型计算机、手持装置、移动装置、相机、物联网(IoT)装置、增强现实(AR)/虚拟现实(VR)装置等。此外，电子装置100可以是微控制器、处理器、片上***(SoC)、集成芯片(IC)、基于微处理器的可编程消费电子装置等中的至少一个。

媒体/媒体流的示例可以是但不限于视频、动画图像、图形交换格式(GIF)、一批移动图像等。在示例中，视频可包括低每秒帧数(FPS)视频、室内慢动作视频、高动态范围(HDR)视频等。在示例中，媒体可在低光照条件下被捕获。在另一示例中，媒体可使用劣质/低质量传感器来被捕获。在示例中，媒体可包括但不限于噪声、低亮度、人造光、闪烁、颜色伪影等中的至少一个。本文的实施例在整个公开中可互换地使用诸如“媒体”、“视频”、“媒体流”、“视频流”、“图像帧”等术语。

电子装置100可增强存储在存储器中或从至少一个外部装置接收的媒体/媒体流。可选地，电子装置100可增强实时被捕获的媒体。增强媒体是指对媒体进行去噪并且从媒体中去除不同的伪影(诸如，人造光闪烁、颜色伪影等)。

电子装置100包括存储器102、通信接口104、相机(相机传感器)106、显示器108和控制器(处理器)110。电子装置100还可使用通信网络与一个或更多个外部装置通信以接收用于增强的媒体。外部装置的示例可以是但不限于服务器、数据库等。通信网络可包括但不限于有线网络、增值网络、无线网络、卫星网络或其组合中的至少一个。有线网络的示例可以是但不限于局域网(LAN)、广域网(WAN)、以太网等。无线网络的示例可以是但不限于蜂窝网络、无线LAN(Wi-Fi)、蓝牙、蓝牙低功耗、Zigbee、Wi-Fi直连(WFD)、超宽带(UWB)、红外数据协会(IrDA)、近场通信(NFC)等。

存储器102可包括闪存型存储介质、硬盘型存储介质、多媒体卡微型存储介质、卡型存储器(例如，SD或XD存储器)、随机存取存储器(RAM)、静态RAM(SRAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘和/或光盘中的至少一种类型的存储介质。

存储器102可存储媒体、接收用于增强的输入媒体流、输出媒体流(即，增强的媒体流)等中的至少一个。

存储器102还可存储可被用于通过处理输入媒体流来生成输出媒体流的第一神经网络202a、第二神经网络202b和第三神经网络202c。在实施例中，第一神经网络202a可以是具有媒体的一个输入帧的高复杂度神经网络(HCN)。在实施例中，第二神经网络202b可以是使用‘q’数量的输入帧和先前输出帧进行联合去闪烁或联合去噪的时间引导的较低复杂度神经网络(TG-LCN)。在实施例中，第三神经网络202c可以是使用‘p’数量的输入帧和先前输出帧进行去噪的神经网络，其中，‘p’小于‘q’。稍后描述每个神经网络。

第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的示例可以是但不限于深度神经网络(DNN)、人工智能(AI)模型、机器学习(ML)模型、多类支持向量机(SVM)模型、卷积神经网络(CNN)模型、递归神经网络(RNN)、堆叠沙漏网络、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、生成对抗网络(GAN)、基于回归的神经网络、深度强化模型(具有ReLU激活)、深度Q网络、残差网络、条件生成对抗网络(CGAN)等。

第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)可包括可被布置在层中的多个节点。层的示例可以是但不限于卷积层、激活层、平均池化层、最大池化层、级联层、丢弃层、全连接(FC)层、软最大(SoftMax)层等。每层具有多个权重值，并且通过前一层的计算和多个权重/系数的运算来执行层运算。第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的层的拓扑可基于相应网络的类型而变化。在示例中，第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)可包括输入层、输出层和隐藏层。输入层接收层输入并将接收的层输入转发到隐藏层。隐藏层将从输入层接收的层输入变换为可被用于在输出层中生成输出的表示。隐藏层从输入中提取有用/低级特征，在网络中引入非线性，并且减小特征维度以使特征在缩放和平移方面是等变的。层的节点可经由边被完全连接到相邻层中的节点。在输入层的节点处接收的输入可经由激活函数被传播到输出层的节点，该激活函数基于分别与连接层的边中的每个边相关联的系数/权重来计算网络中的每个连续层的节点的状态。

可使用至少一种学习方法训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)以执行至少一个预期功能。学习方法的示例可以是但不限于监督学习、无监督学习、半监督学习、强化学习、基于回归的学习等。训练的第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)可以是神经网络模型，在该神经网络模型中，层的数量、用于处理层的序列和与每个层相关的参数可以是已知的并且是固定的，以执行至少一个预期功能。与每层相关的参数的示例可以是但不限于与第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的层相关的激活函数、偏置、输入权重、输出权重等。与学习方法相关联的功能可通过非易失性存储器、易失性存储器和控制器110来被执行。控制器110可包括一个或更多个处理器。此时，一个或更多个处理器可以是通用处理器(诸如中央处理单元(CPU)、应用处理器(AP)等)、仅图形处理单元(诸如图形处理单元(GPU)、视觉处理单元(VPU))和/或人工智能(AI)专用处理器(诸如神经处理单元(NPU))。

一个或更多个处理器可根据存储在非易失性存储器和易失性存储器中的第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的预定义操作规则来执行至少一个预期功能。第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的预定义操作规则通过使用学习方法训练模块来被提供。

这里，通过学习被提供意指：通过将学习方法应用于多个学习数据，预定义的操作规则、或者期望特性的第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)被形成。第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的预期功能可在根据实施例的学习被执行的电子装置100本身中被执行，和/或可通过单独的服务器/***被实现。

通信接口104可被配置为使用由通信网络已经支持的通信方法与一个或更多个外部装置通信。通信接口104可包括诸如有线通信器、短距离通信器、移动/无线通信器和广播接收器的组件。有线通信器可使电子装置100能够使用诸如但不限于有线LAN、以太网等的通信方法与外部装置通信。短距离通信器可使电子装置100能够使用诸如但不限于低功耗蓝牙(BLE)、近场通信器(NFC)、WLAN(或Wi-Fi)、Zigbee、红外数据协会(IrDA)、Wi-Fi直连(WFD)、UWB通信、Ant+(可互操作无线传输能力)通信、共享无线接入协议(SWAP)、无线宽带互联网(Wibro)、无线千兆联盟(WiGiG)等的通信方法与外部装置通信。移动通信器可与移动通信网络/蜂窝网络上的基站、外部终端或服务器中的至少一个收发无线信号。在示例中，根据文本/多媒体消息的收发，无线信号可包括语音呼叫信号、视频电话呼叫信号或各种类型的数据。广播接收器可通过广播频道从外部接收广播信号和/或广播相关信息。广播频道可包括卫星频道和地波频道。在实施例中，电子装置100可包括或可不包括广播接收器。

相机传感器106可被配置为捕获媒体。

显示器108可被配置为使得用户能够与电子装置100交互。显示器108还可被配置为向用户显示输出媒体流。

控制器110可被配置为实时增强媒体/媒体流。在实施例中，控制器110可使用时间引导的自适应神经网络/CNN切换来增强媒体。时间引导的自适应神经网络切换是指在第一神经网络、第二神经网络和第三神经网络(202a-202c)之间切换以增强媒体。

为了增强媒体流，控制器110接收媒体流。在示例中，控制器110可从存储器102接收媒体流。在另一示例中，控制器110可从外部装置接收媒体流。在另一示例中，控制器110可从相机106接收媒体流。本文的实施例可互换地使用诸如“媒体”、“媒体流”、“输入媒体流”、“输入视频”、“输入视频帧”、“输入视频序列”等术语来指代在低光照条件下或使用低质量传感器捕获的媒体。

当媒体流被接收时，控制器110执行媒体流的多个帧的对齐。在示例中，多个帧可与多个图像帧对应。

在对齐媒体流的多个帧之后，控制器110校正多个帧的亮度。为了校正多个帧，控制器110将媒体流的多个帧中的单个帧或多个帧识别为输入帧。控制器110使用逆相机响应函数(ICRF)来线性化输入帧。在线性化输入帧时，控制器110使用未来时间引导来选择用于校正输入帧的亮度的亮度值。为了根据未来时间引导来选择亮度值，控制器110分析输入帧和未来时间缓冲的亮度。未来时间缓冲是输入帧之后的接下来的n个帧。例如，当前输入帧将是第(t-n)帧，并且从(t-n)到t的帧包括(一个或更多个)未来时间缓冲。在相机流与输出之间可能存在n个帧的延迟。在分析输入帧的亮度小于阈值并且未来时间缓冲中的所有帧的亮度小于阈值时，控制器110选择恒定提升值作为亮度值。在实施例中，阈值可在实验之后以经验被设置。控制器110基于分析出输入帧的亮度小于阈值并且未来时间缓冲中的所有帧的亮度大于阈值，选择单调递减函数的提升值作为亮度值。控制器110基于分析出输入帧的亮度大于阈值并且未来时间缓冲中的所有帧的亮度大于阈值来选择零提升值作为亮度值。由此，控制器110基于选择零提升值而不提升输入帧的亮度。控制器110基于分析出输入帧的亮度大于阈值并且未来时间缓冲中的帧的亮度小于阈值，选择单调递增函数的提升值作为亮度值。在选择亮度值之后，控制器110基于选择的亮度值对输入帧应用线性提升。控制器110对输入帧应用相机响应函数(CRF)以校正输入帧的亮度。CRF可以是用于捕获媒体流的相机106的类型(以下称为传感器类型)和元数据的函数。元数据包括曝光值和国际标准化组织(ISO)。CRF和ICRF可被表征和存储在查找表(LUT)中。

在校正媒体流的多个帧的亮度之后，控制器110选择第一神经网络202a、第二神经网络202b和第三神经网络202c中的一个以处理媒体流。控制器110通过分析媒体流的多个帧的参数来选择三个神经网络(202a、202b和202c)中的一个。参数的示例可以是但不限于镜头边界检测和人造光闪烁。

为了在三个神经网络(220a、22b和202c)中选择一个以处理媒体流的多个帧，控制器110相对于更早的帧分析每个帧，以检查镜头边界检测是否与多个帧中的每个相关联。镜头边界检测可通过分析多个帧之间的时间相似性来被检查。控制器110可基于多个帧之间不存在时间相似性来分析出镜头边界检测与多个帧中的每个相关联。如果镜头边界检测与多个帧相关联，则控制器110选择第一神经网络202a以处理媒体流的多个帧。如果镜头边界检测不与多个帧相关联，则控制器110分析多个帧中人造光闪烁的存在。如果在多个帧中存在人造光闪烁，则控制器110选择第二神经网络202b以处理媒体流的多个帧。如果在多个帧中不存在人造光闪烁，则控制器110选择第三神经网络202c来处理媒体流的多个帧。

在实施例中，第一神经网络202a可以是具有媒体的一个输入帧(当前帧)的高复杂度网络(HCN)。第一神经网络202a包括处于最低级别的多个残差块以增强噪声去除能力。本文的实施例在整个公开中可互换地使用诸如“第一神经网络”、“HCN”、“高复杂度CNN”等术语。

在实施例中，第二神经网络202b可以是具有‘q’数量的输入帧和先前输出帧的用于联合去闪烁或联合去噪的时间引导的较低复杂度神经网络(TG-LCN)。第二神经网络202b包括具有较少的特征图的至少一个卷积运算和作为引导的先前输出帧以处理多个输入帧。本文的实施例在整个公开中可互换地使用诸如“第二神经网络”、“TG-LCN(n＝q)”、“TG-LCN”、“‘q’帧闪烁减少去噪器”等术语。

在实施例中，第三神经网络202c可以是具有‘p’数量的输入帧和先前输出帧的用于去噪的神经网络，其中，‘p’小于‘q’(即，媒体流的帧的数量)。在示例中，考虑媒体流可包括5个帧(即，‘q’＝5)。在这种场景下，‘p’可等于3数量的帧(即，‘p’＝3)。本文的实施例在整个公开中可互换地使用诸如“第三神经网络”、“TG-LCN(n＝p,p<q)”、“TG-LCN(n＝p)”等术语。

第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)可以是训练的神经网络。在实施例中，控制器110可使用多帧连体训练方法来训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。

为了训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)，控制器110创建数据集。数据集包括局部数据集和全局数据集中的一个。

为了创建数据集，控制器110捕获突发数据集，或者可选地，控制器110可从外部装置接收突发数据集。突发数据集包括但不限于具有噪声输入的低光照静态媒体和干净的基准真实(ground truth)帧等中的一个。干净的基准真实意指没有噪声的基准真实图像。可通过对突发中的单独帧求平均来获得干净的基准真实。在捕获突发数据集之后，控制器110分别使用合成轨迹生成和合成停止运动来模拟每个突发数据集的全局运动和局部运动。为了模拟每个突发数据集的全局运动，控制器110基于来自突发数据集的包括最大平移和最大旋转的参数来估计多项式系数范围。最大平移和旋转表示相机在捕获会话期间可经历的最大运动。这可被用于创建合成运动，并且可在实验之后以经验被设置。控制器110使用估计的多项式系数范围生成三阶多项式轨迹，并使用最大深度来近似三阶轨迹。对于近似平面场景，最大深度确定场景距相机的距离。最大深度可在实验之后以经验被设置。在本文的示例中，三阶多项式轨迹可以是由相机106使用以捕获突发数据集的轨迹。控制器110基于预定义采样率和近似的3D轨迹生成均匀采样点。预定义采样率可以是控制每个突发数据集的帧之间的平滑度的采样率。控制器110基于生成的均匀采样点生成‘n’个仿射变换，并将生成的‘n’个仿射变换应用于每个突发数据集。由此，通过模拟每个突发数据集的全局运动来创建全局数据集。为了模拟每个突发数据集的局部运动，控制器110使用合成停止运动在静态场景中从每个突发数据集捕获局部对象运动，为了捕获局部对象运动，控制器110从每个突发数据集捕获具有背景场景的输入和基准真实场景。控制器110还从每个突发数据集捕获具有前景对象的输入和基准真实场景。控制器110裁剪前景对象并且通过将前景对象放置在背景场景的不同位置处来创建合成场景。在捕获局部对象运动时，控制器110通过对突发数据集的预定义数量的帧求平均来模拟用于每个局部对象运动的运动模糊。由此，通过模拟每个突发数据集的局部运动来创建局部数据集。在模拟每个突发数据集的全局运动和局部运动之后，控制器110去除在干净基准真实帧与低光照静态媒体之间具有结构和亮度失配的一个或更多个突发数据集。控制器110通过包括不包含干净基准真实帧与低光照静态媒体之间的结构和亮度失配的一个或更多个突发数据集来创建数据集。

在创建数据集之后，控制器110从创建的数据集中选择至少两组帧。每组包括至少三个帧。控制器110将合成运动添加到选择的至少两组帧。添加有合成运动的至少两组帧包括不同的噪声实现。控制器110使用基准真实和添加有合成运动的至少两组帧来执行第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的连体训练。基准真实可被用于训练神经网络的损失计算。为了执行第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的连体训练，控制器110将具有不同噪声实现的至少两组帧传递到第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)中的至少两个，以生成至少两组输出帧。控制器110通过计算至少两组输出帧之间的L2损失来计算连体损失。控制器110通过计算至少两组输出帧的平均值和与输出帧对应的基准真实来计算像素损失。控制器110使用连体损失和像素损失来计算总损失，并使用计算的总损失来训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。

在第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)中选择神经网络之后，控制器110通过使用选择的神经网络(202a、202b或202c)处理媒体流的多个帧来生成输出媒体流。输出媒体流可以是具有增强的亮度和零闪烁的去噪媒体流。本文的实施例可互换地使用诸如“输出媒体流”、“输出”、“输出视频流”、“输出视频帧”、“输出图像帧”、“去噪媒体/视频”、“增强媒体/视频”等术语来指代包括零噪声和零人工闪烁(即，包括零伪像)和校正亮度的媒体。

为了生成输出媒体流，控制器110选择媒体流的单个或多个帧作为输入处理帧。控制器110在多个尺度上对输入处理帧进行下采样以生成低分辨率输入。在本文的示例中，控制器110对输入处理帧进行2倍下采样。在生成较低分辨率输入时，控制器110以较低分辨率使用在第一神经网络202a、第二神经网络202b或第三神经网络202c中选择的一个来处理低分辨率输入，以生成低分辨率输出。然后，控制器110在多个尺度上对处理的低分辨率输出进行放大，以生成输出媒体流。例如，控制器110将低分辨率输出放大2倍。已经被执行了下采样的尺度的数量可等于已经被执行了放大的尺度的数量。

控制器110还可被配置为通过改变用于处理低分辨率输入的尺度的数量来动态地改变第一神经网络202a、第二神经网络202b或第三神经网络202c中选择的一个的复杂度。第一神经网络202a、第二神经网络202b或第三神经网络202c中的选择的一个的复杂度可相对于媒体流的帧的数量以反比关系被变化。

控制器110将生成的输出媒体流保存/存储在存储器102中。

图2示出根据本公开的实施例的在电子装置100中可执行的用于增强媒体的媒体增强器200。媒体增强器200可被存储在存储器102中并且由电子装置100的控制器110处理/执行以增强媒体/媒体流。媒体增强器200包括接收和对齐器模块204、亮度校正模块206、神经网络选择模块208、输出生成模块210和训练模块212。

接收和对齐器模块204可被配置为接收媒体流/输入媒体以增强并执行媒体流的多个帧的对齐。

亮度校正模块206可被配置为校正媒体流的多个帧的亮度。亮度校正模块206将媒体流的单个帧或多个帧识别为输入帧。亮度校正模块206使用ICRF来线性化输入帧，并且使用未来时间引导来选择用于校正输入帧的亮度的亮度值。在选择亮度值之后，亮度校正模块206基于选择的亮度值对输入帧应用线性提升。亮度校正模块206对输入帧应用CRF以校正输入帧的亮度。

神经网络选择模块208可被配置为选择第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)中的一个以处理媒体流的多个帧。为了选择神经网络(202a、202b或202c)，神经网络选择模块208相对于更早的帧分析每个帧，以检查镜头边界检测是否与多个帧中的每个相关联。如果镜头边界检测与多个帧相关联，则控制器110选择第一神经网络202a以处理媒体流的多个帧。如果镜头边界检测不与多个帧相关联，则控制器110分析在媒体流的多个帧中人造光闪烁的存在。如果在多个帧中存在人造光闪烁，则控制器110选择第二神经网络202b以处理媒体流的多个帧。如果在多个帧中不存在人造光闪烁，则控制器110选择第三神经网络202c以处理媒体流的多个帧。

输出生成模块210可被配置为通过使用选择的第一神经网络202a、或第二神经网络202b、或第三神经网络202c处理媒体流的多个帧来生成输出媒体流。输出生成模块210选择媒体流的单个或多个帧作为输入处理帧。输出生成模块210在多个尺度上对输入处理帧进行下采样以生成低分辨率输入。输出生成模块210使用选择的第一神经网络202a、或第二神经网络202b、或第三神经网络202c来处理低分辨率输入。输出生成模块210使用较高分辨率帧作为引导在多个尺度上对低分辨率输出进行放大，以生成输出媒体流。

训练模块212可被配置为使用多帧连体训练方法来训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。为了训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)，训练模块212创建用于训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的数据集。数据集包括局部数据集和全局数据集中的一个。训练模块212从创建的数据集中选择至少两组帧，并将合成运动添加到选择的至少两组帧。在将合成运动添加到选择的至少两组帧时，训练模块212使用基准真实媒体和添加有合成运动的至少两组帧来执行第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的连体训练。

图1和图2示出电子装置100的示例性块，但是应当理解，其他实施例不限于此。在其他实施例中，电子装置100可包括更少或更多数量的块。此外，块的标签或名称仅被用于说明目的，并且不限制本文的实施例的范围。一个或更多个块可被组合在一起以在电子装置100中执行相同或基本相似的功能。

本文的实施例通过将媒体考虑为例如视频来进一步描述媒体的增强，但是对于本领域技术人员来说显而易见的是，任何其他类型的媒体可被考虑。

图3是根据本公开的实施例的描绘视频的增强的示例概念图。本文的实施例使得电子装置100能够基于镜头边界检测和人造光闪烁在高复杂度神经网络(202a、202b和202c)与低复杂度神经网络(202a、202b和202c)之间有效地切换，以进行去噪和去闪烁。因此，改进了针对基于神经网络的视频增强的平均运行时间。

电子装置100通过计算视频的帧之间的时间相似性来识别视频的关键帧。关键帧可参考已经与镜头边界检测相关联的视频的帧。电子装置100使用HCN 202a以对视频的关键帧进行去噪。电子装置100使用TG-LCN来利用时间输出引导对视频的非关键帧进行去噪。视频的非关键帧可以是包括人造光闪烁的视频的帧。时间输出引导可指代已经被用作引导的先前输出帧。HCN 202a和TG-LCN 202b两者都可包括多尺度输入以及卷积引导滤波器以用于快速处理和减少的存储器。电子装置100可使用第三神经网络202c来对不包括人造光闪烁或不与镜头边界检测相关联(即，与其他帧具有时间相似性)的视频的帧进行去噪。

图4示出根据本公开的实施例的用于增强在低光照条件下和/或使用低质量传感器捕获的视频的示例图像信号处理(ISP)推理流水线。

电子装置100接收用于增强的视频，其中，接收的视频可在低光照条件下或使用低质量传感器来被捕获。在接收视频时，电子装置100可对视频执行视觉缺陷识别***(VDIS)(可选步骤)以检测和校正视频中的任何缺陷。

在执行VDI之后，电子装置100对齐视频的帧(使用任何合适的现有方法)。在本文的示例中，考虑接收的视频可包括五个连续帧I_t-2，I_t-1，I_t，I_t+1，I_t+2(即，q＝5)(被称为输入帧)。在对齐视频的输入帧之后，电子装置100对视频的输入帧执行亮度校正。

在执行亮度校正之后，电子装置100通过检查视频的输入帧之间的时间相似性来检查镜头边界检测是否与输入帧相关联。如果输入帧不相似(即，镜头边界检测与输入帧相关联)，则电子装置100使用HCN来生成针对不相似的输入帧的输出帧。在本文的示例中，考虑输入帧(I_t)与镜头边界检测相关联。在这种场景下，电子装置100使用HCN通过对输入帧(I_t)进行去噪来生成输出帧(O_t)。

如果输入帧相似(即，不存在镜头边界检测)，则电子装置100检查输入帧(‘q’帧)以检测是否由于人造光而存在人造光闪烁。如果在‘q’(即，5)个输入帧中存在人造光闪烁，则电子装置100使用TG-LCN/‘q’帧闪烁减少去噪器202b(n＝q)使用‘q’个输入帧和先前输出帧‘O_t-1’来生成输出帧(O_t)。‘q’帧闪烁减少去噪器(TG-LCN)(n＝q)对‘q’个输入帧执行去噪和闪烁消除。如果在‘q’个输入帧中不存在由于人造光的人造闪烁，则电子装置100使用第三神经网络/TG-LCN(n＝p)202c来使用‘p’个输入帧(例如，在图4所示的示例中为‘p’＝3，I_t-1，I_t，I_t+1)和先前的输出帧‘O_t-1’生成输出帧(O_t)。使用O_t-1作为引导允许复杂度低得多的第二神经网络/TG-LCN 202b和第三神经网络/TG-LCN(n＝p)202c被使用。在如图4所示的视频序列中，大多数帧在时间上是相似的，因此较低的复杂度得到了大量部署，从而减少了平均时间和功率。

图5和图6是描绘根据本公开的实施例的在增强视频的同时对视频执行的亮度校正的示例图。本文的实施例使得电子装置100能够使用LUT执行用于校正视频的亮度的亮度校正。LUT可由电子装置100基于视频的直方图统计来选择。LUT/LUT的集合可通过调谐被预定义。CFR和ICFR可被表征在LUT中。LUT可包括用于存储CFR的CFR LUT组和用于存储ICFR的ICFR LUT组。

电子装置100接收视频/视频序列的单个或多个帧作为输入。电子装置100使用ICFR来线性化输入帧。然后，电子装置100使用时间未来时间引导来选择亮度值。选择亮度值在图6中示出。

如图6所示，为了选择亮度值，电子装置100分析输入帧(即，当前帧)和‘b’个帧的未来时间缓冲的亮度。在分析输入帧的亮度小于阈值(t)并且大小为‘b’的未来时间缓冲(即，‘b’个帧的未来时间缓冲)中的所有帧的亮度小于阈值(t)时，电子装置100选择恒定提升值作为亮度值。在分析输入帧的亮度小于阈值(t)并且大小为‘b’的未来时间缓冲中的所有帧的亮度小于阈值(t)时，电子装置100选择单调递减函数‘f’的提升值‘k’作为亮度值。在分析输入帧的亮度大于阈值(t)并且大小为‘b’的未来时间缓冲中的所有帧的亮度大于阈值(t)时，电子装置100不应用任何提升/亮度值。在分析输入帧的亮度大于阈值(t)并且大小为‘b’的未来时间缓冲中的任何帧的亮度小于阈值(t)时，电子装置100选择单调递增函数‘g’的提升值‘k’作为亮度值。因此，时间上线性变化的提升被应用于亮度的平滑过渡。在示例中，函数‘f’和函数‘g’可通过调整以经验被选择，并且可被计算为：

其中‘n’指示视频的帧的数量。

在选择亮度值之后，电子装置100基于选择的亮度值对输入帧应用线性提升。电子装置100对输入帧应用CRF以校正输入帧的亮度。CRF是传感器类型和元数据的函数。

图7示出根据本公开的实施例的用于在镜头边界检测与视频的帧相关联的情况下处理视频的帧的HCN 202a。

HCN 202a可以是单帧去噪网络。HCN 202a包括处于最低级别的多个残差块以提高噪声去除能力。HCN 202a可处理不具有时间相似性(即，与镜头边界检测相关联)的视频的输入帧，以生成输出视频，该输出视频是去噪视频。

图8示出根据本公开的实施例的用于在多个帧中存在人造光闪烁的情况下处理视频的多个帧的TG-LCN 202b。

TG-LCN/TG-LCN(n)可以是多帧去噪网络，其中‘n’描绘视频的输入帧。TG-LCN202b使用先前的输出帧作为引导来处理视频的输入帧以生成输出视频，这允许TG-LCN具有比HCN 202a低得多的复杂度。TG-LCN不使用残差块。TG-LCN中涉及的卷积运算可包含较少的特征图以减少计算。

图9是描绘根据本公开的实施例的通过处理视频的帧来生成输出视频的多尺度金字塔方法的示例图。实施例可采用多尺度金字塔方法来处理视频的帧以管理针对HCN 202a和TG-LCN(n)202b两者的执行时间，其中‘n’是输入帧的数量。

电子装置100接收视频的单个帧或多个帧作为一个输入处理帧/多个输入帧。电子装置100以较低分辨率在多个尺度上对输入处理帧进行下采样，以生成低分辨率输入。输入处理帧可以以分辨率被下采样。电子装置100使用选择的HCN 202a或TG-LCN(n＝q)202b或第三神经网络202c以处理低分辨率输入以生成低分辨率输出。电子装置100使用卷积引导滤波器(CGF)在多个尺度上对每个较低水平的低分辨率输出进行放大/上采样，以生成输出视频。CGF接受较高分辨率输入集、低分辨率输入和低分辨率输出，以生成具有较高分辨率输出图像的输出视频。

在本文的实施例中，多尺度金字塔方法被应用于HCN 202a的网络可由HCN’表示，并且多尺度金字塔方法被应用于TG-LCN 202b的网络由TG-LCN’表示。电子装置100以相对于视频的帧的数量的反比关系来动态地改变HCN 202a、TG-LCN 202b或第三神经网络202c的复杂度。

图10是描绘根据本公开的实施例的用于增强视频/媒体流的第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的训练的示例图。

为了训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)，电子装置100使用低曝光突发镜头(burst shot)和较高曝光突发镜头来创建数据集，并使用自监督方法以细化数据集。电子装置100校正创建的数据集的亮度。然后，为了时间一致性，电子装置100使用多帧连体训练方法和自相似性损失来训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。

图11是描绘根据本公开的实施例的使用多帧连体训练方法的第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的训练的示例图。视频可包括具有不同噪声实现的相似帧，这可能导致最终输出视频中的时间不一致。因此，连体训练可被用于训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。电子装置100在多次迭代/尺度上训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。

电子装置100首先创建用于训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的数据集。创建数据集在图12中示出。如图12所示，电子装置100使用相机106捕获低光照场景的突发数据集。在本文的示例中，每次捕获可由15个噪声输入和1个干净基准真实帧组成。在本文的示例中，突发数据集可在自动曝光、ET和输入k＞＞1的的情况下被捕获。在本文的示例中，突发数据集的每次捕获可由一组5×j个噪声输入和k≤j个干净基准真实帧组成。在本文的示例中，电子装置100可使用如定制转储(custom dump)应用的任何应用以捕获突发数据集。在捕获数据集之后，电子装置100分别使用合成轨迹生成和合成停止运动来模拟每个突发数据集的全局运动和局部运动。借此，创建局部数据集和全局数据集。模拟全局运动和局部运动在图13A和图13B中示出。在示例中，全局运动和局部运动可在数据扩增相对倍增因子的5次相对自动曝光MF∈{3，2，1(EV0)，0.5，0.33}的情况下捕获的突发数据集上被模拟。在示例中，突发数据集可在被限制为<33毫秒(即，每秒30帧(FPS))的EV0的自动曝光ET的情况下被捕获。在本文的示例中，干净基准真实帧可在ISO＝50和/>的情况下被捕获。

如图13A所示，为了模拟全局运动，电子装置100基于包括最大平移和最大旋转的参数来估计多项式系数范围。最大平移和最大旋转控制最大位移。电子装置基于包括最大平移和最大旋转的参数来估计多项式系数范围。然后，电子装置100使用估计的多项式系数范围生成三阶多项式轨迹，并使用最大深度来近似三阶轨迹。三阶轨迹可以是用于捕获突发数据集的相机106所遵循的轨迹。电子装置100基于生成的均匀采样点生成‘n’个仿射变换。在本文的示例中，可使用控制每个突发数据集的帧之间的平滑度的采样率来生成均匀采样点。电子装置100对每个突发数据集应用生成的‘n’个仿射变换。由此，通过在每个突发数据集上模拟全局运动来创建全局数据集。

如图13B所示，为了模拟局部运动，电子装置100使用两个局部运动特性：局部对象运动/对象运动以及运动模糊。电子装置100通过在静态场景中局部地移动属性(道具(prop))来捕获局部对象运动(即，合成停止运动)。在实施例中，捕获局部对象运动包括仅在背景的情况下捕获输入和基准真实场景，以及仅在前景对象的情况下捕获输入和基准真实场景。电子装置100裁剪前景对象并通过将前景对象放置在背景场景的不同位置处来创建合成场景。电子装置100从捕获的输入中选择针对每个训练对所需的3组输入帧(t-1，t，t+1)。电子装置100通过将选择的3组输入帧平均为针对属性(道具)的5((x-Δ，x，x+Δ))帧来模拟用于每个停止运动的运动模糊。电子装置100可使用每个静态场景的两个捕获来进行第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的连体训练。在本文的示例中，每个训练对的输入帧的最小数量j＝3×3×2＝18个帧。基准真实可被捕获并且被与‘t’帧对齐。在本文的示例中，包括1000个训练对(>500个捕获)的突发数据集可被捕获以创建用于训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的数据集。

如图12所示，在模拟全局运动和局部运动时，电子装置100去除在干净基准真实帧与低光照静态媒体之间具有结构和亮度失配的至少一个突发数据集。电子装置100通过包括至少一个突发数据集来创建数据集，该至少一个突发数据集不包括干净基准真实帧与低光照静态媒体之间的结构和亮度失配。电子装置100进一步提升创建的数据集和干净基准真实帧的亮度，并且将创建的数据集和干净基准真实帧保存在存储器102中。

一旦创建了数据集，如图11所示，电子装置100使用合成轨迹将合成运动添加到创建的数据集的至少两组帧中，以根据合成建模考虑推理期间的运动。合成建模包括使用三阶多项式执行针对3个旋转和平移自由度的轨迹建模。3个旋转和平移自由度可从间隔[0，t]均匀地被采样，以生成均匀的采样点，其中，t表示模拟的捕获持续时间。合成帧可通过对与选择的均匀采样点对应的选择的每组帧应用单应性来被生成。在将合成运动添加到选择的至少两组帧中的每个之后，电子装置100执行第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的连体训练。第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)的连体训练在图14中示出。

如图14所示，第一网络、第二网络和第三网络(202a、202b和202c)中的两个可在训练时被使用。电子装置100将来自创建的数据集的第一输入集(输入集1)传递到第一组神经网络(其可包括第一神经网络(202a)和/或第二神经网络(202b)和/或第三神经网络(202c))。电子装置100将来自创建的数据集的第二输入集(输入集2)传递到第二组神经网络(其可包括第一神经网络(202a)和/或第二神经网络(202b)和/或第三神经网络(202c))。第一组神经网络和第二组神经网络共享相同的加权/权重。第一组神经网络通过处理第一输入集来生成第一输出(输出1)。第二组神经网络通过处理第二输入集来生成第二输出(输出2)。第一输出/第二输出可以是包括具有零人造光闪烁的去噪帧的视频/媒体。

电子装置100通过计算输出1和输出2之间的L2损失来计算连体损失。电子装置100还通过计算输出1和输出2的平均值以及基准真实来计算像素损失。电子装置100使用连体损失和像素损失来计算总损失。电子装置100使用计算出的总损失来训练第一神经网络、第二神经网络和第三神经网络(202a、202b和202c)。

图15A和图15B是描绘根据本公开的实施例的增强在低光照条件下捕获的低FPS视频的用例场景的示例图。

考虑示例场景，其中，电子装置100接收在低光照条件下捕获的待增强的低FPS视频，其中，低FPS视频是指具有高达60的FPS的视频。在这种场景下，电子装置执行VDIS并且对齐视频的输入帧。电子装置100对视频的输入帧执行亮度校正，并附加视频的对齐的输入帧以形成输入视频序列。

电子装置100通过分析输入帧之间的时间相似性来检查镜头边界检测是否与输入视频序列的输入帧相关联。在本文的示例中，考虑输入帧(I_t)与其他输入帧不具有时间相似性。在这种场景下，电子装置100选择HCN 202a来处理输入帧(I_t)并且选择第三神经网络/TG-LCN(n＝p)202c来处理输入帧/>以生成输出视频O_t。

在实施例中，由于人造光闪烁在低FPS视频中是最小的，电子装置100不检查输入视频序列的输入帧中人造光闪烁的存在。

图16是描绘根据本公开的实施例的增强室内慢动作视频的用例场景的示例图。

考虑示例场景，其中，电子装置100接收以高帧率(240/960FPS)捕获的室内慢动作视频，从而导致具有噪声的视频帧。在这种场景下，电子装置100通过从慢动作视频去噪和去除人造光闪烁来增强室内慢动作视频。电子装置针对时间相似性检查慢动作视频的输入帧。如果输入帧不相似(即，存在镜头边界检测)，则电子装置100使用HCN 202a生成输出帧(O_t)，其中当前帧(I_t)用作HCN’202a的输入，并且HCN’202a对当前帧(I_t)进行去噪。如果慢动作视频的输入帧是相似的(即，不存在镜头边界检测)，则电子装置100检查是否由于人造光而在慢动作视频的输入帧(‘q’个输入帧)中存在人造光闪烁。如果在‘q’个输入视频帧中存在人造光闪烁，则电子装置100选择第二神经网络/‘q’帧闪烁减少去噪器(TG-LCN’)(n＝q)202b以使用‘q’个输入帧和先前的输出帧O_t-1来生成输出视频帧(O_t)。q帧闪烁减少去噪器(TG-LCN’)(n＝q)202b对q个输入视频帧执行去噪和闪烁消除。如果在‘q’个输入视频帧中不存在人造光闪烁，则电子装置100使用第三神经网络/TG-LCN’(n＝p)202c来使用p个输入帧((在所示示例中，p＝3)(I_t-1，I_t，I_t+1))和先前的输出帧O_t-1生成输出视频帧(O_t)。使用O_t-1作为引导允许使用复杂度低得多的网络，并且还有助于去除人造光闪烁。

图17是描绘根据本公开的实施例的增强实时高动态范围(HDR)视频的用例场景的示例图。HDR视频可使用交替曝光来被生成。每个连续的3帧形成来自HDR视频的输入数据集。在示例场景中，如图17所示，输出帧1(t)可使用低(t-1)、中(t)和高帧(*t+1)来被获得。输出帧2(t+1)可使用中(t)、高(t+1)和低(t+2)帧等来被获得。时间相似性可在先前输出帧与当前输入帧之间被测量。

图18是描绘根据本公开的实施例的用于增强媒体流的方法的流程图1800。

在步骤1802，该方法包括由电子装置100接收媒体流。在步骤1804，该方法包括由电子装置100执行媒体流的多个帧的对齐。在步骤1806，该方法包括由电子装置100校正多个帧的亮度。

在步骤1808，该方法包括：在校正多个帧的亮度之后，由电子装置100通过分析多个帧的参数来选择第一神经网络202a、第二神经网络202b或第三神经网络20c中的一个。参数包括镜头边界检测和人造光闪烁中的至少一个。

在步骤1810，该方法包括由电子装置100通过使用第一神经网络202a、第二神经网络202b或第三神经网络202c中选择的一个处理媒体流的多个帧来生成输出媒体流。方法1800中的各种动作可以以所提供的顺序、以不同的顺序或同时被执行。此外，在一些实施例中，图18中列出的一些动作可被省略。

本文的实施例提供了用于使用时间引导的自适应CNN切换来实时增强视频的方法和***，其中，视频已经以极低的光、在高噪声条件下被捕获和/或使用劣质传感器被捕获。本文的实施例提供了基于深度学***均时间和功率。本文的实施例提供了连体训练的使用以减少闪烁。

本文的实施例提供了一种用于低光照视频增强的方法。该方法包括接收被噪声、低亮度或颜色伪像破坏的输入视频流。使用预先调整的查找表将亮度提升到期望的水平。连续帧的时间相似性被分析。如果存在不相似的帧(基于连续帧的分析)，则高复杂度单帧DNN模型被部署。如果存在相似的帧(基于连续帧的分析)，则由先前输出引导的较低复杂度的多帧(p)DNN模型(例如，3帧DNN模型)被部署。在检测到输入视频流中的人造光闪烁时，包括多个帧(q，其中q>p)的输入(例如，输入包括五个帧)被用于执行连同降噪的闪烁去除。来自路径之一的输出被保存到输出视频流。

本文的实施例提供了一种用于快速视频去噪的方法。该方法包括接收单个或多个帧作为输入。使用多个尺度将帧下采样到较低分辨率。视频帧以较低分辨率被处理，生成低分辨率输出。使用较高分辨率帧作为引导，低分辨率输出在多个水平上被放大。为了时间一致性，可使用连体训练方法来训练用于下采样和上采样的低分辨率网络。

本文的实施例提供了一种基于深度学习的流水线，在最小化噪声和闪烁伪影的同时，实现实时视频增强。

本文的实施例提供了一种通过分析输入帧的时间一致性来在高复杂度网络与低复杂度网络之间进行选择的方法，从而减少处理视频/媒体所需的平均时间。

本文的实施例提供了一种在推理时动态地改变网络复杂度的方法。

本文中的实施例提供一种用于采用连体训练来减少闪烁的方法。

可通过至少一个软件程序在至少一个硬件装置上运行并执行网络管理功能以控制元件来实现本文的实施例。图1和图2中所示的元件可以是硬件装置或硬件装置和软件模块的组合中的至少一个。

本公开的实施例提供了用于低光照媒体增强的方法和***。因此，应当理解，保护范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外，当程序在服务器或移动装置或任何合适的可编程装置上运行时，这样的计算机可读存储装置包含用于实现该方法的一个或更多个步骤的程序代码装置。该方法通过或连同用例如超高速集成电路硬件描述语言(VHDL)或另一种编程语言编写的软件程序被实现在实施例中，或者由在至少一个硬件装置上被执行的一个或更多个VHDL或若干软件模块实现。硬件装置可以是可被编程的任何种类的便携式装置。该装置还可包括ASIC，或者硬件和软件装置的组合，例如，ASIC和FPGA，或者至少一个微处理器和至少一个具有位于其中的软件模块的存储器。本文描述的方法实施例可部分地以硬件被实现并且部分地以软件被实现。可选地，本发明可被实现在不同的硬件装置上，例如，使用多个CPU。

具体实施例的前述描述将如此充分地揭示本文的实施例的一般性质，使得其他人可通过应用当前知识来容易地修改和/或适应这些具体实施例用于各种应用而不脱离一般概念，并且因此，这些适应和修改应当并且旨在被理解在所公开的实施例的等同物的含义和范围内。应当理解，本文采用的措辞或术语是出于描述而非限制的目的。因此，虽然已经描述了实施例，但是本领域技术人员将认识到，本文的实施例可在如本文所述的实施例的精神和范围内通过修改来被实践。

Claims

1.一种用于增强媒体的方法，所述方法包括：

由电子装置接收媒体流；

由所述电子装置执行媒体流的多个帧的对齐；

由所述电子装置校正所述多个帧的亮度；

由所述电子装置通过分析具有校正的亮度的所述多个帧的参数来选择第一神经网络、第二神经网络或第三神经网络中的一个，其中，所述参数包括镜头边界检测和人造光闪烁中的至少一个；以及

由所述电子装置通过使用第一神经网络、第二神经网络或第三神经网络中选择的一个处理媒体流的所述多个帧来生成输出媒体流。

2.根据权利要求1所述的方法，其中，媒体流是在低光照条件下被捕获，并且

其中，媒体流包括噪声、低亮度、人工闪烁和颜色伪影中的至少一个。

3.根据权利要求1所述的方法，其中，输出媒体流是具有增强的亮度和零闪烁的去噪媒体流。

4.根据权利要求1所述的方法，其中，校正媒体流的所述多个帧的亮度，包括：

将媒体流的单个帧或者所述多个帧识别为输入帧；

使用逆相机响应函数ICRF来线性化输入帧；

使用未来时间引导来选择用于校正输入帧的亮度的亮度倍增因子；

基于亮度倍增因子对输入帧应用线性提升；以及

对输入帧应用相机响应函数CRF以校正输入帧的亮度，

其中，CRF是传感器类型和元数据的函数，

其中，元数据包括曝光值和国际标准化组织ISO，并且

其中，CRF和ICRF被存储为查找表LUT。

5.根据权利要求4所述的方法，其中，选择亮度倍增因子，包括：

分析输入帧的亮度；

基于输入帧的亮度小于阈值并且未来时间缓冲中的所有帧的亮度小于所述阈值，将最大恒定提升值识别为亮度倍增因子；

基于输入帧的亮度小于所述阈值并且未来时间缓冲中的所有帧的亮度大于所述阈值，将最大恒定提升值与1之间的单调递减函数的提升值识别为亮度倍增因子；

基于输入帧的亮度大于所述阈值并且未来时间缓冲中的所有帧的亮度大于所述阈值，将单位增益提升值识别为亮度倍增因子；以及

基于输入帧的亮度大于所述阈值并且未来时间缓冲中的帧的亮度小于所述阈值，将1与最大恒定提升值之间的单调递增函数的提升值识别为亮度倍增因子。

6.根据权利要求1所述的方法，其中，由所述电子装置选择第一神经网络、第二神经网络或第三神经网络中的一个，包括：

相对于更早的帧分析每个帧，以确定镜头边界检测是否与所述多个帧中的每个相关联；

基于镜头边界检测与所述多个帧相关联，选择第一神经网络以通过处理媒体流的所述多个帧来生成输出媒体流；

基于镜头边界检测不与所述多个帧相关联，分析所述多个帧中人造光闪烁的存在；

基于所述多个帧中存在人造光闪烁，选择第二神经网络以通过处理媒体流的所述多个帧来生成输出媒体流；以及

基于所述多个帧中不存在人造光闪烁，选择第三神经网络以通过处理媒体流的所述多个帧来生成输出媒体流。

7.根据权利要求6所述的方法，其中，第一神经网络是具有一个输入帧的高复杂度神经网络，

其中，第二神经网络是具有q数量的输入帧和先前输出帧的用于联合去闪烁或联合去噪的时间引导的较低复杂度神经网络，以及

其中，第三神经网络是具有p数量的输入帧和先前输出帧的用于去噪的神经网络，其中，p小于q。

8.根据权利要求7所述的方法，其中，第一神经网络包括处于最低级别的多个残差块以增强噪声去除能力，并且

其中，第二神经网络包括具有较少的特征图的至少一个卷积运算以及作为引导的先前输出帧以处理多个输入帧。

9.根据权利要求6所述的方法，其中，使用多帧连体训练方法训练第一神经网络、第二神经网络和第三神经网络，以通过处理媒体流的所述多个帧来生成输出媒体流。

10.根据权利要求9所述的方法，还包括：通过以下操作来训练第一神经网络、第二神经网络和第三神经网络中的至少一个的神经网络：

创建用于训练神经网络的数据集，其中，数据集包括局部数据集和全局数据集中的一个；

从创建的数据集中选择至少两组帧，其中，每组包括至少三个帧；

将合成运动添加到选择的至少两组帧，其中，添加有合成运动的所述至少两组帧包括不同的噪声实现；以及

使用基准真实媒体和添加有合成运动的所述至少两组帧来执行神经网络的连体训练。

11.根据权利要求10所述的方法，其中，创建数据集包括：

捕获突发数据集，其中，突发数据集包括具有噪声输入的低光照静态媒体和干净基准真实帧中的一个；

分别使用合成轨迹生成和合成停止运动来模拟每个突发数据集的全局运动和局部运动；

去除在干净基准真实帧与低光照静态媒体之间具有结构和亮度失配的至少一个突发数据集；以及

通过包括所述至少一个突发数据集来创建数据集，所述至少一个突发数据集不包括干净基准真实帧与低光照静态媒体之间的结构和亮度失配。

12.根据权利要求11所述的方法，其中，模拟每个突发数据集的全局运动，包括：

基于包括最大平移和最大旋转的参数来估计多项式系数范围；

使用估计的多项式系数范围生成三阶多项式轨迹；

使用最大深度和生成的三阶多项式轨迹来近似三阶轨迹；

基于预定义采样率和近似的3D轨迹生成均匀采样点；

基于生成的均匀采样点生成n个仿射变换；以及

对每个突发数据集应用生成的n个仿射变换。

13.根据权利要求11所述的方法，其中，模拟每个突发数据集的局部运动，包括：

使用合成停止运动在静态场景中从每个突发数据集捕获局部对象运动，捕获局部对象运动，包括：

捕获具有背景场景的输入和基准真实场景；

捕获具有前景对象的输入和基准真实场景；

裁剪出前景对象；以及

通过将前景对象放置在背景场景的不同位置处来创建合成场景；以及

通过对突发数据集的预定义数量的帧求平均来模拟用于每个局部对象运动的运动模糊。

14.根据权利要求10所述的方法，其中，执行神经网络的连体训练，包括：

将具有不同噪声实现的所述至少两组帧传递到神经网络，以生成至少两组输出帧；

通过计算所述至少两组输出帧之间的损失来计算连体损失；

通过计算所述至少两组输出帧的平均值和基准真实来计算像素损失；

使用连体损失和像素损失来计算总损失；以及

使用计算的总损失来训练神经网络。

15.一种电子装置，包括：

存储器；以及

处理器，耦接到存储器并且被配置为进行以下操作：

接收媒体流；

执行媒体流的多个帧的对齐；

校正所述多个帧的亮度；

通过分析具有校正的亮度的所述多个帧的参数来选择第一神经网络、第二神经网络或第三神经网络中的一个，其中，所述参数包括镜头边界检测和人造光闪烁中的至少一个；以及

通过使用第一神经网络、第二神经网络或第三神经网络中的选择的一个处理媒体流的所述多个帧来生成输出媒体流。