CN112272832A

CN112272832A - 用于基于dnn的成像的方法和***

Info

Publication number: CN112272832A
Application number: CN201980036395.1A
Authority: CN
Inventors: 特吉·普拉塔普·吉维斯; 维沙尔·凯沙夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-05-28
Filing date: 2019-05-28
Publication date: 2021-01-26
Also published as: EP3776377A1; WO2019231217A1; US11436440B2; EP3776377A4; US20190362190A1

Abstract

提供了一种通过成像设备进行基于DNN的图像处理的方法。该方法包括：由成像设备获得具有多个颜色通道的至少一个输入图像；由成像设备同时从至少一个输入图像的每个颜色通道提取语义信息和从至少一个输入图像的每个颜色通道提取颜色相关性信息；以及由成像设备基于所提取的语义信息和所提取的颜色相关性信息生成至少一个输出图像。

Description

用于基于DNN的成像的方法和***

技术领域

本公开涉及图像处理，更具体地，涉及一种用于基于深度神经网络(DNN)的成像的方法和***。

背景技术

在具有有限计算能力的移动平台上运行复杂的图像处理应用是重要的。现有的用于图像分类和检测的轻量级模型(例如，MobileNet、ShuffleNet等)是颜色信息不变量，因此不适用于复杂的视觉任务，例如弱光增强、去噪、去雾等。此外，现有的轻量级模型导致较差的精确度。

现有的重量级模型(基于台式机)重复使用现有的AlexNet和SqueezeNet架构来为视觉应用提供相当的精度，但是由于大量的存储器和计算需求而不适合在移动平台上进行计算。

此外，用于成像的现有DNN架构(基于移动和台式机)不是通用的。不同的图像使用情况需要不同的DNN架构，这增加了开发和训练时间。因此，使用现有的DNN架构不是高效能的，并且与移动设备平台不兼容。

此外，在用于成像的移动平台上运行基于逐深度卷积神经网络(DCNN)的应用的需求日益增长。然而，移动平台具有有限的计算能力和最小的存储能力。因此，需要具有轻量级、快速和通用的且不牺牲精确性的模型。

颜色恒定性是图像处理流水线的基本块，并且固有地存在于所有基于视觉的应用中，例如自动白平衡(AWB)、语义分割和分类等。用于颜色恒定性的现有技术方法着重于提高精度，但是以推理时间和存储器占用空间为代价。

图1A是具有包括用于图像处理的多个卷积块的神经网络的现有方法的示例。如图1A所示，输入图像通过滤波器1，然后执行第一卷积。该过程继续进行N次卷积，直到产生输出预测。由于在每个块中的卷积操作，这种常规方法具有非常高的计算复杂度。

图1B是具有包括用于图像处理的分解卷积块的神经网络的另一常规方法的示例。如图1B所示，输入图像通过滤波器1，然后进行逐深度卷积，接着进行逐点卷积。常规的方法对于每个卷积操作可以具有低的计算复杂度，但是需要增加许多层以获得更高的精度，这会显著地增加计算时间。因此，需要具有轻量级和更快的且不牺牲精确性的模型。

因此，希望解决上述缺点或其他缺点，或者至少提供一种有用的替代方案。

发明内容

因此，本文的实施例公开了一种用于成像设备的基于DNN的图像处理方法。该方法包括：由成像设备获得具有多个颜色通道的至少一个输入图像。该方法还包括：由成像设备同时从每个颜色通道中提取语义信息，以及从至少一个输入图像的每个颜色通道中提取颜色相关性信息。该方法还包括：由成像设备基于所提取的语义信息和所提取的颜色相关性信息生成至少一个输出图像。

附图说明

在附图中示出了该方法和***，在所有附图中，相同的附图标记在不同附图中表示相应部分。从以下参考附图的描述中，将更好地理解本文中的实施例，其中：

图1A示出了根据现有技术所公开的实施例的图像处理的框图；

图1B示出了根据现有技术所公开的实施例的图像处理的框图；

图2示出了根据实施例的用于基于DNN的训练的成像设备的框图；

图3A是根据实施例的用于基于DNN的训练的处理器的框图；

图3B示出了根据实施例的基于DNN的成像的示意图；

图4A示出了根据实施例的融合块操作的框图；

图4B示出了根据实施例的融合块操作的示意图；

图5A示出了根据实施例的输入图像中的语义数据的示意图；

图5B示出了根据实施例的输入图像中的颜色相关性数据的示意图；

图6A示出了根据实施例的用于对成像设备进行基于DNN的训练的方法的流程图；

图6B是说明成像设备对实施例进行基于DNN的图像处理的方法的流程图；

图7示出了根据实施例的用于将任何给定的基于CNN的通用模型转换为所提出的基于DNN的成像设备的方法的示意图；

图8示出了根据实施例的用于将任何给定的基于CNN的通用模型转换为所提出的基于DNN的成像设备的方法的流程图；

图9示出了根据实施例的示例性雾化图像、使用常规方法的去雾图像和使用所提出的方法的去雾图像的图；

图10A示出了根据实施例的对成像设备的示例性输入图像；

图10B示出了根据实施例的来自成像设备的示例性输出图像；

图10C示出了根据实施例的对成像设备的示例性输入图像；

图10D示出了根据实施例的来自成像设备的示例性输出图像；

图10E示出了根据实施例的对成像设备的示例性输入图像；

图10F示出了根据实施例的来自成像设备的示例性输出图像；

图11示出了根据一个实施例的使用所提出的方法的示例性弱光输入图像和增强输出图像的图；

图12示出了根据实施例的通过所提出的方法进行的示例性图像颜色校正的图。

图13示出了根据实施例的具有用于实现图像处理的更高精度的两个设计块的架构的图。

图14示出了根据实施例的使用所提出的方法所得的、通过使用相机捕获的示例性输入图像和增强输出图像的图。

具体实施方式

因此，这里的实施例公开了一种用于成像设备的基于DNN的图像处理方法。该方法包括：由成像设备获得具有多个颜色通道的至少一个输入图像。该方法还包括：由成像设备同时从每个颜色通道中提取语义信息，以及从至少一个输入图像的每个颜色通道中提取颜色相关性信息。该方法还包括：由成像设备基于所提取的语义信息和所提取的颜色相关性信息生成至少一个输出图像。

该方法还包括：由成像设备执行语义信息和颜色相关性信息的逐通道融合。在实施例中，提取语义信息和颜色相关性信息包括：通过使用每个分离的神经网络单独地提取语义信息和颜色相关性信息。

在实施例中，提取语义信息包括：通过使用逐深度卷积来提取语义信息。

在实施例中，提取颜色相关性信息包括：通过使用逐点卷积来提取颜色相关性信息。

在实施例中，执行语义信息和颜色相关性信息的逐通道融合还包括：将来自语义信息的每个通道的各个像素与来自颜色相关性信息的每个通道的各个像素进行融合。所述执行还包括：由成像设备针对通道中的每一个生成语义信息和颜色相关性信息之间的学习映射。

在实施例中，基于逐通道融合生成至少一个输出图像包括：由成像设备基于语义信息和颜色相关性信息的逐通道融合生成预测。获得还包括：由成像设备基于从逐通道融合操作生成的预测值来校正至少一个输入图像，并基于校正生成至少一个输出图像。

因此，本文的实施例公开了一种用于基于DNN的训练的成像设备，其包括存储器、通信联接到存储器的通信器和联接到存储器的处理器。处理器可配置为：接收具有多个颜色通道的至少一个输入图像。处理器还可以被配置为：同时从至少一个图像的每个颜色通道提取语义信息和从至少一个图像的每个颜色通道提取颜色相关性信息。处理器可还配置为：执行语义信息与颜色相关性信息的逐通道融合，且基于逐通道融合产生至少一个输出图像。

当结合以下描述和附图考虑时，将更好地理解和掌握本文中的实施例的这些和其他方面。然而，应该理解的是，下面的描述虽然指示了优选实施例及其许多具体细节，但是这是通过说明而非限制的方式给出的。在不脱离本发明的精神的情况下，可以在本文的实施例的范围内进行许多改变和修改，并且本文的实施例包括所有这样的修改。

本文的实施例及其各种特征和有利细节将参考附图中所示和以下描述中所详述的非限制性实施例来进行更全面地解释。省略了对众所周知的部件和处理技术的描述，以便不会不必要地使本文的实施例不清楚。此外，本文的各种实施例不必相互排斥，因为一些实施例可与一个或一个以上其他实施例组合以形成新的实施例。除非另有说明，否则本文所用的术语“或”是指非排他性的“或”。本文所用的示例仅旨在有助于理解可实践本文的实施例的方式，且进一步使本领域的技术人员能够实践本文的实施例。因此，不应将实施例解释为限制本文的实施例的范围。

如本领域中常规的那样，可以根据执行所描述的一个或多个功能的块来描述和说明实施例。这些块在本文中可以被称为管理器、单元、模块、硬件组件等，这些块在物理上由模拟和/或数字电路来实现，例如逻辑门、集成电路、微处理器、微控制器、存储器电路、无源电子组件、有源电子组件、光学组件、硬连线电路等，并且可以可选地由固件和软件来驱动。例如，电路可以在一个或多个半导体芯片中实现，或者在诸如印刷电路板等的衬底支撑件上实现。构成块的电路可以由专用硬件实现、或由处理器(例如，一个或多个编程的微处理器和相关联的电路)实现，或者由用于执行块的一些功能的专用硬件和用于执行块的其他功能的处理器的组合来实现。在不脱离本公开的范围的情况下，实施例的每个块可以被物理地分成两个或多个交互和离散的块。同样，在不脱离本公开的范围的情况下，可以将实施例的块物理地组合成更复杂的块。

附图用于帮助容易地理解各种技术特征，并且应当理解，在此呈现的实施例不受附图的限制。因此，本公开应当被解释为除了在附图中具体阐述的那些之外还延伸到任何改变、等同和替代。尽管术语“第一”、“第二”等在本文中可用于描述各种元件，但这些元件不应受到这些术语的限制。这些术语通常仅用于将一个元件与另一个元件区分开。

因此，这里的实施例公开了一种用于成像设备的基于DNN的训练方法的方法。该方法可以包括：由成像设备接收具有多个颜色通道的至少一个输入图像。该方法还可以包括：由成像设备同时地使用逐深度卷积从至少一个图像的每个颜色通道中提取语义信息，以及使用逐点卷积从至少一个图像的每个颜色通道中提取颜色相关性信息。该方法还包括：由成像设备执行语义信息和颜色相关性信息的逐通道融合。该方法还可以包括：由成像设备基于逐通道融合获得至少一个输出图像。

在实施例中，提供了一种用于成像设备的基于DNN的训练方法。在实施例中，同时从每个颜色通道中提取语义信息和颜色相关性信息。在实施例中，执行语义信息和颜色相关性信息的逐通道融合。在实施例中，基于逐通道融合获得至少一个输出图像。

在另一个实施例中，针对每个通道生成语义信息和颜色相关性信息之间的学习映射。

在另一个实施例中，基于语义信息和颜色相关性信息的逐通道融合来预测图像分量。

在另一个实施例中，基于预测的图像分量校正至少一个输入图像。

现在参考附图，并且更具体地参考图2至图10，其中相似的附图标记在所有附图中一致地表示相应的特征，示出了优选实施例。

图2是根据本文所公开的实施例的用于基于DNN的训练的成像设备200的框图。成像设备200可以是，例如但不限于，蜂窝电话、平板电脑、智能电话、膝上型电脑、个人数字助理(PDA)、全球定位***、多媒体设备、视频设备、物联网(IoT)设备、智能手表、游戏控制台等。成像设备200也可以被本领域技术人员称为移动站、订户站、移动单元、订户单元、无线单元、远程单元、移动设备、无线设备、无线通信设备、移动订户站、接入终端、移动终端、无线终端、远程终端、手机、用户代理、移动客户端等等。

在实施例中，成像设备200包括处理器210、存储器220和通信器230。

处理器210配置为执行存储在存储器220中的指令并执行各种处理。处理器210还配置为接收具有多个颜色通道的输入图像。处理器220还配置同时地使用逐深度卷积从输入图像的每个颜色通道提取语义信息，以及使用逐点卷积从至少一个图像的每个颜色通道提取颜色相关性信息。处理器210还配置为对语义信息和颜色相关性信息进行逐通道融合，并基于逐通道融合获得至少一个输出图像。

通信器230配置用于经由一个或多个网络在内部硬件组件之间进行内部通信以及与外部设备进行通信。

存储器210存储效果和条件。存储器1300还存储要由处理器210执行的指令。存储器1300可以包括非易失性存储元件。此类非易失性存储元件的示例可包括磁性硬盘、光盘、软盘、闪速存储器或电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。此外，在一些示例中，存储器220可以被认为是非暂时性存储介质。术语“非暂时性”可以表示存储介质没有包含在载波或传播信号中。然而，术语“非暂时性”不应被解释为存储器220是不可移动的。在一些示例中，存储器1300可配置为存储比存储器更大量的信息。在某些示例中，非暂时性存储介质可存储可随时间改变的数据(例如，在随机存取存储器(RAM)或高速缓存存储器中)。

尽管图2示出了成像设备200的各种硬件组件，但应理解，其他实施例不限于此。在其他实施例中，成像设备200可以包括更少或更多数量的组件。此外，组件的标签或名称仅用于说明目的，而不限制本发明的范围。一个或多个组件可组合在一起以执行与用于处理无线通信***中的PDCP操作相同或实质上类似的功能。

图3A是用于基于DNN的成像的处理器210的框图。如图3A所示，处理器210包括输入块302、语义信息提取块304、颜色相关性提取块306、子任务融合块308、图像后处理块310和输出块312。在实施例中，输入块302接收多个输入图像。输入图像包括多个颜色通道。在示例性实施例中，颜色通道可以是RGB通道。

在接收到多个输入图像之后，语义信息提取块304和颜色相关性提取块306同时对输入图像执行卷积操作。在实施例中，语义信息提取块304对输入图像的多个通道执行逐深度卷积操作。通过执行逐深度卷积操作，从输入图像的多个颜色通道中提取语义信息。在另一个实施例中，颜色相关性提取块306对输入图像的多个通道执行逐点卷积操作。通过执行逐点卷积操作，从输入图像的多个颜色通道中提取颜色相关性信息。

此外，子任务融合块308执行语义信息和颜色相关性信息的逐通道融合。在实施例中，子任务融合块308在来自语义信息的每个通道的各个像素与来自颜色相关性信息的每个通道的各个像素之间执行Hadamard变换。此外，子任务融合块308基于Hadamard变换生成每个通道的语义信息和颜色相关性信息之间的学习映射。可以通过本领域已知的其他方法来生成基于每个通道的、语义信息和颜色相关性信息之间的学习映射。

在实施例中，子任务融合块308被实现为语义和颜色相关性信息的简单点积。由于数据局部性，点积的计算机制是非常有效的。子任务融合块308帮助所提出的成像设备200获得比常规成像设备200更好的精度。

在由子任务融合块308执行逐通道融合之后，图像后处理块310基于语义信息和颜色相关性信息的逐通道融合来预测图像分量。在预测图像分量之后，输出块312基于预测的图像分量校正至少一个输入图像。此外，输出块312基于校正获得至少一个输出图像。

在示例性实施例中，在颜色校正情况下，将来自子任务融合块308的输出发送到后处理块310以预测RGB分量的照度。在另一个实施例中，在输入图像具有微光的情况下，处理块310生成微光增强图像。

图3B示出了根据本文所公开的实施例的基于DNN的成像的示意图。

在示例性实施例中，处理器210通过使用每个分离的神经网络单独地提取语义信息和颜色相关性信息。在示例性实施例中，从输入图像10中并行地提取语义信息和颜色相关性信息中的每个。

如图3B所示，在示例性实施例中，在314处，处理器210使用包括逐深度卷积操作的深度神经网络从输入图像10中提取语义信息。在示例性实施例中，在316处，处理器210使用包括逐点卷积操作的深度神经网络从输入图像10提取颜色相关性信息。

在示例性实施例中，在318，处理器210执行所提取的语义信息和所提取的颜色相关性信息的逐通道融合。

在示例性实施例中，处理器210基于所提取的语义信息和所提取的颜色相关性信息来生成输出图像20。处理器210基于语义信息和颜色相关性信息的融合生成输出图像20。

在示例性实施例中，处理器210基于并行地从输入图像10中单独地提取语义信息和颜色相关性信息来生成输出图像20。

在另一示例性实施例中，处理器210从输入图像中提取另一特征信息。处理器210并行地从输入图像中提取至少两个其他特征信息。

例如，处理器210提取关于像素值沿着空间维度的分布的信息。此外，例如，处理器210提取关于像素值沿着深度(通道)维度的分布的信息。在示例性实施例中，学习像素值跨越空间-时间或深度维度的分布可以提供像素的强度直方图。而且，学习像素值跨越空间-时间或深度维度的分布可以提供颜色恒定性。

对于另一个示例，处理器210提取关于跨越空间维度的统计规则的信息。此外，处理器210提取跨越深度(通道)维度的统计规则的信息。例如，处理器210提取统计特性，例如均值、中值、方差、偏度(像素值分布中的不对称性)、峰度(像素值分布中的强度峰值)。在示例性实施例中，学习峰度可以提供输入图像中存在的噪声量。

例如，由处理器210从输入图像提取的另一特征信息可以是关于捕获暗通道特征的信息。该特征可用于对图像进行去雾。图像的暗通道被定义为图像的局部切片中的所有像素颜色的最小值。在大多数不覆盖天空的局部区域中，通常一些像素(称为“暗像素”)在至少一个颜色(r，g，b)通道中具有非常低的强度。例如，在雾化图像(haze image)中，该通道中这些暗像素的强度主要由空气光贡献。因此，这些暗像素可以直接提供雾度透射的精确估计。这可以在所提出的架构的第一分支中执行。

例如，特征信息可以是关于估计大气光特征的信息。该特征可在图像去雾中使用。可以估计暗通道中最亮的像素。这些像素大部分是雾状不透明的。在这些像素中，选择输入图像中具有最高强度的像素作为大气光。这可以在所提出的架构的第二分支中执行。

例如，特征信息可以是关于图像中的显著特征的信息。该特征可用于对图像进行去模糊。为了检测图像中的重要部分，可以从背景中分割前景。可以检测图像中的模糊部分(背景)和非模糊(前景)部分并对它们进行分类。这可以在所提出的架构的第一分支中执行。

例如，特征信息可以是关于运动矢量或光流估计的信息。该特征可用于对图像进行去模糊。运动矢量用于确定光流，该光流估计运动及其方向。这用于补偿在图像中引起模糊的运动(对象或相机运动)。这可以在所提出的架构的第一分支中执行。

例如，特征信息可以是关于估计峰度的信息。该特征可用于对图像去噪。通过估计图像中存在的像素分布和估计像素值分布中的强度峰值，可以估计噪声量，并且可以对图像中存在的噪声进行建模。这在所提出的架构的两个分支中执行。

例如，特征信息可以是关于像素分布的信息。该特征可用于颜色校正和微光图像。图像中的R，G，B通道上的像素强度分布可以被捕获。它给出图像中存在的信息是太亮还是太暗的估计。此外，可以使用从像素分布生成的直方图来对照度和噪声进行建模。这在所提出的架构的第一分支中执行。

在实施例中，处理器210基于并行地从输入图像中提取至少两个其他特征信息来生成输出图像。

图4A是说明子任务融合块308的功能的示意图。如图4A所示，在语义信息提取块304处，从输入图像的多个通道中提取语义信息。

在示例性实施例中，在提取语义和颜色相关性信息之后，从输入图像例如生成两个输出特征映射(语义特征映射和颜色特征映射，每个都具有“N”个通道)。

两个输出特征映射具有多个通道。例如，语义特征映射(从第一分支提取的)具有“N”个通道。类似地，颜色特征映射(从第二分支提取的)具有“N”个通道。

在示例性实施例中，例如，如图4A所示，402a和该平面上的所有像素是语义信息的通道1。402b和该平面上的所有像素是颜色相关性信息的通道1。例如，如图4A所示，404a和该平面上的所有像素是语义信息的通道2。404b和该平面上的所有像素是颜色相关性信息的通道2。

402表示输入图像的多个深度通道中的第一深度通道。此外，402a表示从第一深度通道提取的语义信息，而402b表示从第一深度通道提取的颜色相关性信息。404表示输入图像的多个深度通道中的至少一个第二深度通道。另外404a表示从输入图像的多个通道中的至少一个第二深度通道提取的语义信息，并且另外404b表示从输入图像的多个通道中的至少一个第二深度通道提取的颜色相关性信息。

在示例性实施例中，402a和404a是用于它们各自的特征映射中的不同像素部分的语义特征块。402b和404b是用于它们各自的特征映射中的不同像素部分的颜色特征块。如子任务融合块308所示，402a和402b用(+)运算符进行融合，以在相应部分获得融合输出。第二特征映射中的404a和404b被融合以获得子任务融合块308中的相应部分。如图4A中的逐通道融合块中的融合算子(+)可以采用多个公式，例如加法、乘法、逐位或-或非-异或等。

子任务融合块308通过执行Hadamard变换将提取的语义信息402a与提取的颜色相关性信息402b融合。在实施例中，所提取的语义信息402a可以通过执行本领域已知的各种技术来与所提取的颜色相关性信息402b融合。此外，子任务融合块308将提取的语义信息404a与提取的颜色相关性信息404b融合。对于输入图像的多个通道，由子任务融合块308重复该过程。

图4B是说明融合块操作的示意图。

如图4B所示，在实施例中，子任务融合块308基于Hadamard变换为每个通道(通道1、通道2、通道N)生成语义信息和颜色相关性信息之间的多个学习映射406。通过子任务融合块308将多个学习映射融合在一起，以生成用于至少一个输入图像的图像分量。在实施例中，子任务融合块308可以基于现有技术中已知的技术为每个通道生成语义信息和颜色相关性信息之间的多个学习映射。

如图4B所示，在实施例中，为了将语义特征(来自分支1)应用于颜色特征(来自分支2)，可以使用被称为“逐通道加权合并(channel-wise weighted pooling)”的合并技术。所提出的逐通道加权合并不将加权滤波器的数量限制为1，而是为所提取的每个颜色相关性信息提供语义滤波器。在实施例中，由语义信息提取块生成的滤波器中的至少一个被应用于从颜色相关性提取块提取的颜色相关性信息中的至少一个。

此外，所提取的颜色相关性信息的数量可以多于三个，这稍后被减少以匹配所需的输出通道维度。

在实施例中，生成对应于每个深度通道的一个或多个语义过滤器。提取对应于每个深度通道的一个或多个颜色相关性信息。一个或多个语义过滤器中的每个都与对应于深度通道中的每个的颜色相关性信息相融合。

根据实施例，逐通道相乘可以使微调成为可能，并导致更好的性能。

图5A示出了根据本文所公开的实施例的包括语义信息和颜色相关性信息的示例性输入图像的示意图。图像502是示例性输入图像。图像中的语义信息在空间上跨越整个图像，并且像素颜色信息跨越图像的深度(R，G，B颜色通道)。如图5A所示，确定表示图像502的语义信息的前景、背景、图像中对象的存在、以及多个对象之间的关系。

图5B示出了根据本文所公开的实施例的包括颜色相关性信息的示例性输入图像的示意图。图像504是示例性输入图像。逐像素颜色信息跨越图像504的深度(R，G，B颜色通道)。如图5B所示，确定每个通道中的颜色值之间的关系。此外，颜色相关性信息还表示表征与图像504的颜色相关性信息相关的对比图像的独立像素的存在。

图6A是示出了根据本文所公开的实施例的用于对成像设备进行基于DNN的训练的方法的流程图600。在602处，成像设备200接收来自多个输入图像的至少一个输入图像。在接收到至少一个输入图像之后，在604处，通过对至少一个输入图像执行逐深度卷积，从至少一个输入图像中提取语义信息。在606处，通过对至少一个输入图像执行逐点卷积来从至少一个输入图像提取颜色相关性信息。在接收到输入图像之后，成像设备200同时执行步骤604和606。通过同时执行逐深度卷积操作和逐点卷积操作，与常规方法相比，计算减少了70倍。此外，与现有技术的方法相比，DNN模型尺寸也减小了50倍。因此，所提出的架构非常适于实时移动视觉应用。

在从至少一个输入图像提取语义信息和颜色相关性信息之后，流程600进行到608。

在608处，成像设备200执行用于获得至少一个输入图像的图像分量的逐通道加权融合操作。在实施例中，成像设备200产生多尺度上下文映射，并将其发送到图像后处理块310中的解码器。

在610处，成像设备200对多尺度上下文映射进行解码，并组合多尺度上下文映射，以便以原始分辨率重构至少一个输入图像。在612处，图像处理设备200基于在610处的校正产生输出图像。

图6B是示出了由成像设备对如本文所公开的实施例进行的基于DNN的图像处理的方法的流程图601。

在614处，成像设备200获得输入图像。在实施例中，成像设备200获得具有多个颜色通道的至少一个输入图像。

例如，成像设备200使用包括在成像设备200中的相机获得至少一个图像。例如，成像设备200从外部设备接收至少一个图像。例如，成像设备200获得存储在存储器220中的至少一个图像作为输入图像。

在616处，成像设备200从输入图像提取语义信息且从输入图像提取颜色相关性信息。在实施例中，成像设备200同时地从至少一个输入图像的每个颜色通道提取语义信息和从至少一个输入图像的每个颜色通道提取颜色相关性信息。

在实施例中，成像设备200执行语义信息和颜色相关性信息的逐通道融合。

在618处，成像设备200基于所提取的语义信息和所提取的颜色相关性信息生成输出图像。

在实施例中，成像设备200基于语义信息和颜色相关性信息的逐通道融合生成输出图像。图7是示出了用于将任何给定的基于CNN的通用模型转换为所提出的基于DNN的成像设备200的方法的示意图。

如图7所示，702是现有的CNN模型。然而，现有CNN模型不会如图3所示的基于DNN的模型一样高效。如图7所示，704是对应于至少一个输入图像的元数据信息。此外，在框706处，确定子任务选择模块。子任务选择模块决定并分割CNN计算，以匹配图3中所示的所提出的基于DNN的模型的计算。在框708处，自动生成引擎通过使用逐深度卷积操作、逐点卷积操作和逐通道加权融合块来生成高效的CNN模型。框710表示包括诸如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)和神经处理单元(NPU)的各种元件的高效CNN模型的SNAP框架。

图8是示出了用于将任何给定的基于通用CNN的模型转换为所提出的基于DNN的成像设备200的方法的过程800。在802处，成像设备200接收主要视觉任务和包含重复卷积块的相关联的卷积网络结构。此外，在804处，成像设备200接收来自主要任务的相关联子任务(例如，语义推理和低级像素相关推理)的元信息。在804处，成像设备200基于子任务来确定在神经网络的每一层处的每一子任务所需的滤波器的数量以及逐深度卷积与逐点卷积的关联。在806处，基于子任务，确定逐深度卷积与逐点卷积的关联以及在神经网络的每一层处的每一子任务所需的滤波器的数量。在808处，由成像设备200生成仅包括逐深度卷积或逐点卷积的多分支神经网络。在810处，通过利用逐通道加权合并将子任务的输出进行组合来产生完整的神经网络架构。

此外，通过利用SNAP能力，可以实现额外的加速，这使得所提出的DNN模型非常适于非常高的FPS实时移动视觉应用，例如：视频去模糊、视频颜色校正、高FPS弱光视频记录。

图9示出了示例性雾化图像、使用常规方法的去雾图像、以及使用所提出的方法的去雾图像的图。如图9所示，902表示示例性雾化图像，904是使用常规方法的去雾图像，而906是使用所提出的方法的去雾图像。图像去雾904由现有的重量级DNN模型执行。当在移动平台上运行时，现有的DNN模型由于更多的计算复杂度而面临帧丢失，从而导致不良的用户体验。此外，现有的DNN模型还占用更多的内存并导致存储器开销。

图像去雾906由所提出的轻量级且较快的DNN模型来执行。在移动平台上运行时，所提出的模型不会面临任何帧丢失，这是因为所提出的方法具有非常小的计算复杂度。此外，所提出的方法还占用较少的内存，几乎比现有方法少三十倍。

图10A至图10B分别示出使用所提出的方法的了示例性雾化图像和去雾图像。图10C至图10D分别示出了使用所提出的方法的示例性噪声图像和去噪声图像。图10E至10F分别示出了使用所提出的方法的示例性模糊图像和去模糊图像。

图11示出了根据本文所公开的实施例的使用所提出的方法的示例性弱光输入图像和增强输出图像的图。如图11所示，图像1102a、1104a和1106a是成像设备200的弱光输入图像。使用所提出的方法，图像1102b、1104b和1106b是来自成像设备200的相应的增强输出图像。如从图像1102b、1104b和1106b所看到的，应当理解，所提出的方法将非常低亮度的图像转换为最佳质量的自然图像。

图12示出了根据本文所公开的实施例的通过所提出的方法对示例性图像进行图像颜色校正的图。如图12所示，1202是成像设备200的输入图像。在1204处，成像设备200通过对输入图像1202执行逐点卷积操作来获悉输入图像1202上的相关颜色信息。在1206处，成像设备200学习哪些像素对于估计照度是重要的，且相应地使用对输入图像的逐深度卷积操作为其指派优先级。在1308处，成像设备200使用逐通道加权合并层来融合从1204和1206获得的输出。在1210处，成像设备200对在1208处获得的输出执行空间减小。在实施例中，在1210处，减小在1208处获得的输出的维度以匹配所需预测的维度。在1212处，通过从输入图像1202中减去1210的输出颜色以获得经颜色校正的图像1214来获得深度减小输出。

图13示出了根据本文所公开的实施例的用于实现更高精度的具有两个设计块的架构的示意图。图13所示的结构包括用于处理输入图像的两个设计块。如图13所示，对于设计A，使用卷积块执行逐点卷积和逐深度卷积的融合操作。设计A在级联的任务特定输入上进行卷积。对于设计B，使用多播块(multi-broadcast block)执行逐点卷积和逐深度卷积的融合操作。设计B使用逐通道加权合并方法来组合输入信号。在实施例中，在设计B中，可以使用Hadamard变换来执行融合操作。图13所示的结构为处理输入图像提供了更高的精度。

图14示出了根据本文所公开的实施例的、使用所提出的方法所得的、通过使用相机捕获的示例性输入图像和增强输出图像的图。

在实施例中，成像设备200包括至少一个相机(未示出)。在实施例中，成像设备200还包括显示器240。

如图14所示，在实施例中，处理器210基于用户输入控制至少一个相机来捕获图像。处理器210控制显示器240显示所捕获的图像1401。例如，所捕获的图像1401可以是具有雾度的图像。

在实施例中，处理器210使用所提出的方法由具有雾度的图像1401生成没有雾度的图像1402。在示例性实施例中，处理器210获得所捕获的图像1401作为用于图像处理的输入图像。处理器210生成图像1402作为输出图像，该图像1402的雾度被去除并且其图像质量被增强。

如图14所示，处理器210控制显示器240在没有雾度的情况下显示图像1402。

可以使用在至少一个硬件设备上运行并执行网络管理功能以控制元件的至少一个软件程序来实现本文公开的实施例。

前面对具体实施例的描述将非常充分地揭示本文中的实施例的一般性质，使得在不脱离主要构思的情况下，其他实施例可通过应用当前知识而容易地修改和/或适配于各种应用，且因此，此类适配和修改应且意欲被理解在所公开实施例的等效物的意义和范围内。应当理解，本文使用的措辞或术语是为了描述的目的而不是限制的目的。因此，虽然已经根据优选实施例描述了本文的实施例，但是本领域的技术人员将认识到，可以在本文描述的实施例的精神和范围内通过修改来实践本文的实施例。

Claims

1.基于DNN的图像处理的方法，所述图像处理由成像设备进行，所述方法包括：

由所述成像设备获取具有多个颜色通道的至少一个输入图像；

由所述成像设备同时提取：

来自所述至少一个输入图像的所述颜色通道中的每个的语义信息；以及

来自所述至少一个输入图像的所述颜色通道中的每个的颜色相关性信息；以及

由所述成像设备基于所提取的语义信息和所提取的颜色相关性信息生成至少一个输出图像。

2.如权利要求1所述的方法，还包括：

由所述成像设备执行所述语义信息和所述颜色相关性信息的逐通道融合。

3.如权利要求2所述的方法，还包括：

生成与所述深度通道中的每个对应的一个或多个语义过滤器，以及

其中，执行所述逐通道融合包括：将所述一个或多个语义过滤器中的每个同与所述深度通道中的每个对应的所提取的颜色相关性信息进行融合。

4.如权利要求1所述的方法，其中，提取所述语义信息和所述颜色相关性信息包括：通过使用各自分离的神经网络单独地提取所述语义信息和所述颜色相关性信息。

5.如权利要求1所述的方法，其中，提取所述语义信息包括：通过使用逐深度卷积来提取所述语义信息。

6.如权利要求1所述的方法，其中，提取所述颜色相关性信息包括：通过使用逐点卷积来提取所述颜色相关性信息。

7.如权利要求2所述的方法，其中，执行所述语义信息和所述颜色相关性信息的所述逐通道融合包括：

由所述成像设备针对所述通道中的每个对来自所述语义信息和所述颜色相关性信息的各个通道的像素进行融合；以及

由所述成像设备基于所述融合针对所述通道中的每个生成所述语义信息和所述颜色相关性信息之间的学习映射。

8.如权利要求2所述的方法，其中，生成至少一个输出图像包括：

由所述成像设备基于所述语义信息和所述颜色相关性信息的所述逐通道融合生成预测；

由所述成像设备基于从所述逐通道融合操作生成的所述预测值来校正所述至少一个输入图像；以及

由所述成像设备基于所述校正生成所述至少一个输出图像。

9.用于基于DNN的图像处理的成像设备，所述成像设备包括：

存储器；

处理器，联接到所述存储器并且配置为：

获取具有多个颜色通道的至少一个输入图像；

同时地从所述至少一个图像的颜色通道中的每个提取语义信息和从所述至少一个图像的颜色通道中的每个提取颜色相关性信息；以及

基于所提取的语义信息和所提取的颜色相关性信息生成至少一个输出图像。

10.如权利要求9所述的成像设备，其中，所述处理器还配置为：执行所述语义信息与所述颜色相关性信息的逐通道融合。

11.如权利要求10所述的成像设备，

其中，所述处理器还配置为：生成与所述深度通道中的每个对应的至少一个语义过滤器；以及

其中，所述处理器还配置为：将所述至少一个语义过滤器中的每个与对应于所述深度通道中的每个的所提取的颜色相关性信息进行融合。

12.如权利要求9所述的成像设备，其中，所述处理器配置为：通过使用各自分离的神经网络单独地提取所述语义信息和所述颜色相关性信息。

13.如权利要求9所述的成像设备，其中，所述处理器配置为：通过使用逐深度卷积来提取所述语义信息。

14.如权利要求9所述的成像设备，其中，所述处理器配置为：通过使用逐点卷积来提取所述颜色相关性信息。

15.非暂时性计算机可读记录介质，其上记录有可执行的程序，其中，所述程序在由至少一个处理器执行时指令计算机执行以下操作：

由成像设备获取具有多个颜色通道的至少一个输入图像；

由所述成像设备同时提取：

来自所述至少一个输入图像的颜色通道中的每个的语义信息；以及

来自所述至少一个输入图像的颜色通道中的每个的颜色相关性信息；以及