WO2021179147A1

WO2021179147A1 - 一种基于神经网络的图像处理方法及装置

Info

Publication number: WO2021179147A1
Application number: PCT/CN2020/078484
Authority: WO
Inventors: 李蒙; 胡慧; 陈海; 郑成林
Original assignee: 华为技术有限公司
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2021-09-16
Also published as: CN115244569A

Abstract

一种基于神经网络的图像处理方法及装置，用于在保证图像质量的基础上降低图像处理时延。该方法包括：待处理图像包括第一分量图像和第二分量图像，将待处理图像输入第一神经网络进行运算，以获得第一图像，所述第一图像为所述待处理图像的经所述第一神经网络处理后的第一分量图像；将所述第一图像和所述待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；将所述第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，所述第二图像为所述待处理图像的经所述第二神经网络处理后的第二分量图像；基于所述第二图像，获得处理后的图像。

Description

一种基于神经网络的图像处理方法及装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于神经网络的图像处理方法及装置。

背景技术

随着科学技术的发展，手机、平板电脑等具有拍照和视频录制功能的移动终端已被人们广泛使用。移动终端在拍照或视频录制过程中，对图像信号进行图像信号处理(image Signal processing，ISP)。

ISP主要作用是对前端图像传感器输出的图像信号进行后期处理。依赖于ISP，在不同的光学条件下得到的图像才能较好的还原现场细节。ISP处理流程如图1所示，自然景物101通过镜头(lens)102获得贝尔(bayer)图像，然后通过光电转换104得到模拟电信号105，进一步通过消噪和模拟转数字处理106获得数字电信号(即原始图像(raw image))107，接下来会进入数字信号处理芯片100中。在数字信号处理芯片100中的步骤是ISP处理的核心步骤，数字信号处理芯片100一般包含黑电平矫正(black level compensation，BLC)108、镜头阴影矫正(lens shading correction)109、坏点矫正(bad pixel correction，BPC)110、去马赛克(demosaic)111、拜耳域降噪(denoise)112、自动白平衡(auto white balance，AWB)113、Ygamma114、自动曝光(auto exposure，AE)115、自动对焦(auto focus，AF)(图1中未示出)、色彩矫正(color correction，CC)116、伽玛(gamma)矫正117、色域转换118、色彩去噪/细节增强119、色彩增强(color enhance，CE)120、编织器(formater)121、输入输出(input/output，I/O)控制122等模块。

目前，深度学习的应用越来越广泛，基于深度学习的ISP，在很多任务的应用中取得一定的效果。基于深度学习的ISP，会将图像数据经过神经网络进行处理后输出，但是神经网络的处理复杂度一般会很高，在非实时处理场景下，可以达到预计目的，但在需要实时处理的场景中，一般存在能耗、运行时间等问题。

因此基于神经网络的ISP需要进一步优化。

发明内容

本申请提供一种基于神经网络的图像处理方法及装置，以期优化基于神经网络的图像信号处理性能。

第一方面，提供一种基于神经网络的图像处理方法，采用第一神经网络和第二神经网络对待处理图像进行处理，输出处理后的图像。其中，待处理图像包括第一分量图像和第二分量图像，该方法的步骤如下所述：将待处理图像输入第一神经网络进行运算，以获得第一图像，所述第一图像为所述待处理图像的经所述第一神经网络处理后的第一分量图像；将所述第一图像和所述待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；将所述第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，所述第二图像为所述待处理图像的经所述第二神经网络处理后的第二分量图像；基于所述第二图像，获得处理后的图像。

将待处理图像经过第一神经网络运算后获得的第一图像，能够对待处理图像的一部分分量图像做处理，得到中间结果。将第一图像与待处理图像进行拼接，将拼接后的结果经过第二神经网络进行处理，得到第二图像。可以将中间结果应用到第二神经网络的处理过程中，减小第二神经网络的计算复杂度，并能够保证图像处理质量。例如，第二分量图像为待处理图像的亮度分量，亮度分量是图像处理过程中一个重要的分量，占用网络复杂度的比例较高，通过第一神经网络能够先处理亮度分量。将亮度分量的处理结果作为中间结果输入第二神经网络，第二神经网络的复杂度要求就会降低。通过两个神经网络的配合使用，当处理多帧图像时，能够比一个神经网络达到更低的复杂度。

可选的，所述基于所述第二图像，获得处理后的图像，可以有两种可能的实现方式。

一种方式中，合并所述第一图像和所述第二图像，以生成所述处理后的图像。另一种方式中，在所述获得第二图像时，同时获得第三图像，所述第三图像为所述待处理图像的经所述第二神经网络处理后的第一分量图像；对应的，合并所述第三图像和所述第二图像，以生成所述处理后的图像。

可选的，第二神经网络的复杂度低于第一神经网络的复杂度。

可选的，第一分量图像所需要的算力高于第二分量图像所需要的算力。

可选的，待处理图像可能是一帧或多帧。例如，所述待处理图像包括多帧时域邻近的图像，对应的，所述第一图像为多帧，所述第二图像为多帧，每帧待处理图像对应一帧第一图像和一帧第二图像。采用第一神经网络处理多帧图像之间的复杂算力的问题，采用第二神经网络处理多帧图像中每帧图像较低算力的问题，并输出多帧处理后的图像，使得第一神经网络和第二神经网络的综合算力分散到多帧图像上，使得每帧图像的处理复杂度相比上述方案得到降低，同时又能够保证图像或视频的质量。例如，第一分量图像为亮度通道，第二分量图像为色度通道，第一神经网络能够解决多帧图像之间的帧间运动问题，将亮度通道和对应帧的色度通道一起输入第二神经网络，第二神经网络对每帧图像的色度进行处理，这样在有一个已经处理的亮度通道的结果作为引导，可以使用较小算力的第二神经网络解决帧内的颜色问题。通过两个神经网络的合力处理，使得本申请提供的图像处理***在图像处理时具有较低复杂度，并保证图像或视频的质量。提高了深度学习技术在图像信号处理领域的应用。颜色通道理论上需要的算力小于亮度通道需要的算力，例如，YUV图像一般采用420的采样格式，即颜色通道的分辨率是亮度通道的一半。

在一个可能的设计中，在所述第二神经网络进行的运算，包括以下运算步骤：根据所述第一待处理图像矩阵获得所述第一待处理图像矩阵的特征图矩阵，将所述特征图矩阵分别与每帧第一图像进行向量拼接，以获得多个第二待处理图像矩阵，其中，每帧第二图像根据每个第二待处理图像矩阵获得。

在一个可能的设计中，所述将所述第一图像和所述待处理图像进行向量拼接，可能通过以下方式实现：将所述多帧时域临近的图像分组，以获得多组子组图像；将每帧第一图像和一组子组图像进行向量拼接，以生成多个待处理图像子矩阵。

可选的，进行向量拼接的第一图像和子组图像对应于同一帧待处理图像。

在一个可能的设计中，所述第一分量图像为所述待处理图像的亮度分量。

在一个可能的设计中，所述第二分量图像为所述待处理图像的一个或多个色度分量，或者一个或多个颜色分量。

在一个可能的设计中，所述第一分量图像和所述第二分量图像分别为所述待处理图像不同的颜色分量。

在一个可能的设计中，所述第一神经网络和所述第二神经网络组成图像处理***，所述图像处理***用于对所述待处理图像进行降噪、消除马赛克效应处理。

可选的，待处理图像的格式可以为红绿蓝(RGB)格式，也可以为亮色分离(YUV)格式，也可以为贝尔(bayer)格式。

第二方面，提供基于神经网络的图像处理装置，该装置可以是终端设备，也可以是终端设备中的装置(例如芯片、或者芯片***、或者电路)，或者是能够和终端设备匹配使用的装置。一种设计中，该装置可以包括执行第一方面中所描述的方法/操作/步骤/动作所一一对应的模块，该模块可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。该装置对待处理图像进行处理，获得处理后的图像。待处理图像包括第一分量图像和第二分量图像。一种设计中，该装置可以包括运算模块和拼接模块。处理模块用于调用通信模块执行接收和/或发送的功能。示例性地：

运算模块，用于将待处理图像输入第一神经网络进行运算，以获得第一图像，所述第一图像为所述待处理图像的经所述第一神经网络处理后的第一分量图像；拼接模块，用于将所述第一图像和所述待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；所述运算模块，还用于将所述第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，所述第二图像为所述待处理图像的经所述第二神经网络处理后的第二分量图像；基于所述第二图像，获得处理后的图像。

可选的，运算模块在基于所述第二图像获得处理后的图像时，可以有两种可能的实现方式。运算模块具体用于：

可选的，待处理图像可能是一帧或多帧。例如，所述待处理图像包括多帧时域邻近的图像，对应的，所述第一图像为多帧，所述第二图像为多帧，每帧待处理图像对应一帧第一图像和一帧第二图像。

在一个可能的设计中，在所述第二神经网络进行的运算，该运算模块用于：根据所述第一待处理图像矩阵获得所述第一待处理图像矩阵的特征图矩阵，将所述特征图矩阵分别与每帧第一图像进行向量拼接，以获得多个第二待处理图像矩阵，其中，每帧第二图像根据每个第二待处理图像矩阵获得。

在一个可能的设计中，在将所述第一图像和所述待处理图像进行向量拼接时，所述拼接模块用于：将所述多帧时域临近的图像分组，以获得多组子组图像；将每帧第一图像和一组子组图像进行向量拼接，以生成多个待处理图像子矩阵。

第二方面的有益效果可以参考第一方面对应的效果，在此不再赘述。

第三方面，本申请实施例提供一种基于神经网络的图像处理装置，所述装置包括处理器，处理器用于调用一组程序、指令或数据，执行上述第一方面或第一方面的任一可能的设计所描述的方法。所述装置还可以包括存储器，用于存储处理器调用的程序、指令或数据。所述存储器与所述处理器耦合，所述处理器执行所述存储器中存储的、指令或数据时，可以实现上述第一方面或任一可能的设计描述的方法。

第四方面，本申请实施例提供了一种芯片***，该芯片***包括处理器，还可以包括存储器，用于实现上述第一方面或第一方面中任一种可能的设计中所述的方法。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

第五方面，本申请实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，当所述计算机可读指令在计算机上运行时，使得如第一方面或第一方面中任一种可能的设计中所述的方法被执行。

第六方面，本申请实施例中还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面的任一可能的设计中所述的方法。

附图说明

图1为现有技术中ISP处理流程示意图；

图2为本申请实施例中***架构的结构示意图；

图3为本申请实施例中神经网络的原理示意图；

图4为本申请实施例中基于神经网络的图像处理方法流程示意图；

图5a为本申请实施例中图像处理的实现方式一的示意图；

图5b为本申请实施例中图像处理的实现方式二的示意图；

图6为本申请实施例中RGrGbB图像处理方法之一示意图；

图7为本申请实施例中RGrGbB图像处理方法之二示意图；

图8a为本申请实施例中第一神经网络的结构示意图之一；

图8b为本申请实施例中第一神经网络的结构示意图之二；

图9a为本申请实施例中典型卷积神经网络的部分处理过程示意图；

图9b为本申请实施例中多分枝神经网络的部分处理过程示意图；

图10a为本申请实施例中第二神经网络的结构示意图；

图10b为本申请实施例中第二神经网络的多分枝操作部分示意图；

图11为本申请实施例中第二神经网络中采用典型神经网络操作部分示意图；

图12为本申请实施例中第一图像与特征图矩阵进行向量拼接的示意图；

图13为本申请实施例中基于神经网络的图像处理装置结构示意图之一；

图14为本申请实施例中基于神经网络的图像处理装置结构示意图之二。

具体实施方式

下面将结合附图，对本申请实施例进行详细描述。

本申请实施例提供的基于神经网络(neural network,NN)的图像处理方法及装置，可应用于电子设备，该电子设备，可以是移动终端(mobile terminal)、移动台(mobile station，MS)、用户设备(user equipment，UE)等移动设备，也可以是固定设备，如固定电话、台式电脑等，还可以是视频监控器。该电子设备，具有图像信号采集与处理功能的图像采集与处理设备，具有ISP处理功能。该电子设备还可以选择性地具有无线连接功能，以向用户提供语音和/或数据连通性的手持式设备、或连接到无线调制解调器的其他处理设备，比如：该电子设备可以是移动电话(或称为“蜂窝”电话)、具有移动终端的计算机等，还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，当然也可以是可穿戴设备(如智能手表、智能手环等)、平板电脑、个人电脑(personal computer，PC)、个人数字助理(personal digital assistant，PDA)、销售终端(Point of Sales，POS)等。本申请实施例中不妨以一种终端设备为例进行说明。

图2所示为本申请实施例涉及的终端设备200的一种可选的硬件结构示意图。

如图2所示，终端设备200主要包括芯片组和外设装置，其中，图2中实线框中的电源管理单元(power management unit，PMU)、语音codec、短距离模块和射频(radio frequency，RF)、运算处理器、随机存储器(random-access memory，RAM)、输入/输出(input/output，I/O)、显示接口、图像处理器(image signal processor，ISP)、传感器接口(Sensor hub)、基带通信模块等各部件组成芯片或芯片组。USB接口、存储器、显示屏、电池/市电、耳机/扬声器、天线、传感器(Sensor)等部件可以理解为是外设装置。芯片组内的运算处理器、RAM、I/O、显示接口、ISP、Sensor hub、基带等部件可组成片上***(system-on-a-chip，SOC)，为芯片组的主要部分。SOC内的各部件可以全部集成为一个完整芯片，或者SOC内也可以是部分部件集成，另一部分部件不集成，比如SOC内的基带通信模块，可以与其他部分不集成在一起，成为独立部分。SOC中的各部件可通过总线或其他连接线互相连接。SOC外部的PMU、语音codec、RF等通常包括模拟电路部分，因此经常在SOC之外，彼此并不集成。

图2中，PMU用于外接市电或电池，为SOC供电，可以利用市电为电池充电。语音codec作为声音的编解码单元外接耳机或扬声器，实现自然的模拟语音信号与SOC可处理的数字语音信号之间的转换。短距离模块可包括无线保真(wireless fidelity，WiFi)和蓝牙，也可选择性包括红外、近距离无线通信(near field communication，NFC)、收音机(FM)或全球定位***(global positioning system，GPS)模块等。RF与SOC中的基带通信模块连接，用来实现空口RF信号和基带信号的转换，即混频。对手机而言，接收是下变频，发送则是上变频。短距离模块和RF都可以有一个或多个用于信号发送或接收的天线。基带用来做基带通信，包括多种通信模式中的一种或多种，用于进行无线通信协议的处理，可包括物理层(层1)、媒体接入控制(medium access control，MAC)(层2)、无线资源控制(radio resource control，RRC)(层3)等各个协议层的处理，可支持各种蜂窝通信制式，例如长期演进(long term evolution，LTE)通信、或5G新空口(new radio，NR)通信等。Sensor hub是SOC与外界传感器的接口，用来收集和处理外界至少一个传感器的数据，外界的传感器例如可以是加速计、陀螺仪、控制传感器、图像传感器等。运算处理器可以是通用处理器，例如中央处理器(central processing unit，CPU)，还可以是一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个数字信号处理器(digital singnal processor，DSP)，或微处理器，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。运算处理器可包括一个或多个核，并可选择性调度其他单元。RAM可存储一些计算或处理过程中的中间数据，如CPU和基带的中间计算数据。ISP用于图像传感器采集的数据进行处理。I/O用于SOC与外界各类接口进行交互，如可与用于数据传输的通用串行总线(universal serial bus，USB)接口进行交互等。存储器可以是一个或一组芯片。显示屏可以是触摸屏，通过显示接口与总线连接，显示接口可以是进行图像显示前的数据处理，比如需要显示的多个图层的混叠、显示数据的缓存或对屏幕亮度的控制调整等。

本申请实施例中涉及的终端设备200中包括有图像传感器，该图像传感器可从外界采集光线等外界信号，将该外界信号进行处理转换成传感器信号，即电信号。该传感器信号可以是静态图像信号，也可以是动态的视频图像信号。其中，该图像传感器例如可以是摄像头。

本申请实施例中涉及的终端设备200还包括有图像信号处理器，图像传感器采集到传感器信号传送给图像信号处理器，图像信号处理器获取到该传感器信号，可对该传感器信号进行图像信号处理，以得到清晰度、色彩、亮度等各方面均符合人眼特性的图像信号。

可以理解的是，本申请实施例中涉及的图像信号处理器可以是一个或一组芯片，即可以是集成的，也可以是独立的。例如，终端设备200中包括的图像信号处理器可以是集成在运算处理器中的集成ISP芯片。

本申请实施例中涉及的终端设备200具有拍摄照片或录制视频的功能。

本申请实施例提供的基于神经网络的图像处理方法主要针对如何基于神经网络进行图像信号处理进行说明。

为了更好的理解本申请实施例的方案，首先对本申请实施例涉及到的概念术语进行解释说明。

(1)神经网络

本申请实施例中采用神经网络对待处理的多帧图像进行处理。神经网络是一种模仿动物神经网络行为特征进行信息处理的网络结构，也简称为神经网络(neural networks,NN)。

其中，神经网络可以是由神经单元组成的，神经单元可以是指以输入信号x _s和截距1为输入的运算单元，该运算单元的输出可以如公式(1-1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

如图3所示，是一种神经网络的原理示意图，该神经网络300具有N个处理层，N≥3且N取自然数，该神经网络的第一层为输入层301，负责接收输入信号，该神经网络的最后一层为输出层303，输出神经网络的处理结果，除去第一层和最后一层的其他层为中间层304，这些中间层共同组成隐藏层302，隐藏层中的每一层中间层既可以接收输入信号，也可以输出信号，隐藏层负责输入信号的处理过程。每一层代表了信号处理的一个逻辑级别，通过多个层，数据信号可经过多级逻辑的处理。

在一些可行的实施例中该神经网络的输入信号可以是语音信号、文本信号、图像信号、温度信号等各种形式的信号。在本实施例中，被处理的图像信号可以是相机(图像传感器)拍摄的风景信号、显监控设备捕捉的社区环境的图像信号以及门禁***获取的人脸的面部信号等各类传感器信号，该神经网络的输入信号包括其他各种计算机可处理的工程信号，在此不再一一列举。若利用神经网络对图像信号进行深度学习，可提高图像质量。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：y＝α(Wx+b)，其中，x是输入向量，y是输出向量，b是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量x经过如此简单的操作得到输出向量y。由于DNN层数多，系数W和偏移向量b的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

本申请实施例中的神经网络可以是卷积神经网络，当然也可以是其它类型的神经网络，例如循环神经网络(recurrent neural network，RNN)。

应理解，本申请实施例中的图像可以为静态图像(或称为静态画面)或动态图像(或称为动态画面)，例如，本申请中的图像可以为视频或动态图片，或者，本申请中的图像也可以为静态图片或照片。为了便于描述，本申请在下述实施例中将静态图像或动态图像统一称为图像。

下面对本申请实施例提供的基于神经网络的图像处理方法进行介绍。该方法由基于神经网络的图像处理装置来执行。该基于神经网络的图像处理装置可以是任意具有图像处理功能的装置或设备来执行，例如，该方法由图2所示的终端设备200来执行，或者由与终端设备相关的设备来执行，或者由终端设备包含的部分设备来执行。

本申请实施例中，采用多个神经网络进行图像处理，例如采用两个神经网络对待处理图像进行处理，该两个神经网络记为第一神经网络和第二神经网络。第一神经网络和第二神经网络符合上述对神经网络的介绍。待处理图像包括一个或多个维度的分量图像，例如，待处理图像包括第一分量图像和第二分量图像。对待处理图像进行图像处理的过程中，包括对第一分量图像和第二分量图像的处理。

如图4所示，本申请实施例提供的基于神经网络的图像处理方法如下所述。

S401、将待处理图像输入第一神经网络进行运算，以获得第一图像。

第一图像为待处理图像的经第一神经网络处理后的第一分量图像。

S402、将第一图像和待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵。

S403、将第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像。

第二图像为待处理图像的经第二神经网络处理后的第二分量图像；

S404、基于第二图像，获得处理后的图像。

通过图4所示的方法，将待处理图像经过第一神经网络运算后获得的第一图像，能够对待处理图像的一部分分量图像做处理，得到中间结果。将第一图像与待处理图像进行拼接，将拼接经过第二神经网络进行处理，得到第二图像。可以将中间结果运用到第二神经网络的处理过程中，减小第二神经网络的计算复杂度，并能够保证图像处理质量。例如，第一分量图像为待处理图像的亮度分量，亮度分量是图像处理过程中一个重要的分量，占用网络复杂度的比例较高，通过第一神经网络能够先处理亮度分量。将亮度分量的处理结果作为中间结果输入第二神经网络，第二神经网络的复杂度要求就会降低。通过两个神经网络的配合使用，当处理多帧图像时，能够比一个神经网络达到更低的复杂度。

下面本申请实施例提供的基于神经网络的图像处理方法的一些可选的设计进行说明。

待处理图像包括第一分量图像和第二分量图像，处理后的图像也会包括第一分量图像和第二分量图像。如图5a所示，一种可能的实现方式中，基于第一神经网络获得第一图像，第二神经网络获得第二图像，合并第一图像和第二图像，即可获得处理后的图像。合并第一图像和第二图像，也可以认为将第一图像和第二图像进行组合，因为第一图像是经过第一神经网络处理后的第一分量图像，第二图像是经过第二神经网络处理后的第二分量图像，那么将第一图像和第二图像进行合并，即将处理后的第一分量图像和处理后的第二分量图像进行合并，得到处理后的图像。如图5b所示，在另一种可能的实现方式中，将第一待处理图像矩阵输入第二神经网络进行运算，在获得第二图像时，与此同时还获得了第三图像。第三图像为待处理图像的经过第二神经网络处理后的第一分量图像。这样可以合并第三图像和第二图像，以生成处理后的图像。

本申请实施例中，待处理图像可以是一帧，也可以是时域上邻近的多帧。时域上邻近的多帧包括时域上连续的多帧。时域上邻近的多帧以下在描述中简称为多帧。当待处理图像是多帧时，经过第一神经网络和第二神经网络处理后，处理后的图像也是对应的多帧。当待处理图像是多帧时，第一分量图像和第二分量图像分别为多帧，经过第一神经网络处理后获得的第一图像为多帧，经过第二神经网络获得的第二图像为多帧，每帧待处理图像对应一帧第一图像和一帧第二图像。每帧处理后的图像对应一帧第一图像和一帧第二图像，或者每帧处理后的图像对应一帧第一图像和一帧第三图像。

当待处理图像为多帧时本申请实施例的方案如下所述。将待处理的多帧图像输入第一神经网络进行处理，获得第一图像，第一图像是待处理的多帧图像的经第一神经网络处理后的多帧第一分量图像，即每帧待处理的图像经过第一神经网络后，都会得到一帧第一分量图像。将第一图像和待处理图像进行向量拼接，以获得第一待处理图像矩阵，对应的，第一待处理图像矩阵为多个。具体地，将每一帧第一图像与对应的一帧待处理图像进行向量拼接，获得第一待处理图像矩阵。将第一待处理图像矩阵输入第二神经网络进行运算，获得第二图像，第二图像为待处理的多帧图像的经第二神经网络处理后的多帧第二分量图像。基于第二图像获得处理后的图像。

其中，基于图5a和图5b的两种可能实现方式，基于第二图像获得处理后的图像，可选的两种可能方式如下所述。一种可能的实现方式中，将经过第一神经网络处理后的多帧第一分量图像和经过第二神经网络处理的多帧第二分量图像进行合并，生成多帧处理后的图像。在另一种可能的方式中，在获得第二图像的同时，获得第三图像，第三图像为待处理多帧图像的经过第二神经网络处理后的多帧第一分量图像，将第三图像和第二图像进行合并，生成处理后的图像。

图5a和图5b两种可选方式的区别在于，图5a所示的方式中经过第二神经网络获得的是图像的全部信号，图5b所示的方式中经过第二神经网络获得的是图像的第二分量图像。图像的全部信号由第二分量图像和第一分量图像组成。

本申请实施例中，第一分量图像可以是待处理图像的亮度分量或亮度通道。第二分量图像为待处理图像的一个或多个色度分量，或者第二分量图像为待处理图像的一个或多个颜色分量，或者第二分量图像为待处理图像的一个或多个颜色通道或色度通道。

或者，第一分量图像为待处理图像的一个或多个色度分量，第二分量图像为待处理图像的一个或多个色度分量，第一分量图像为待处理图像的不同色度分量。

其中，色度分量也可以称为色度通道或颜色分量或颜色通道。

本申请实施例中，可选的，待处理图像的格式可以为红绿蓝(RGB)格式，也可以为亮色分离(YUV)格式，也可以为贝尔(bayer)格式。本申请中不作限定。

例如，待处理图像的格式为RGB，第一分量图像可以是G通道，第二分量信号为RB通道。

当待处理图像为多帧时，一些可能的设计如下所述。

S403中，将第一待处理图像矩阵输入第二神经网络进行运算，获得第二图像。第二图像为多帧。其中，第一待处理图像矩阵是第一图像和待处理图像进行向量拼接而成。第一图像为多帧。第一待处理图像矩阵为多个矩阵或者包括多个待处理图像子矩阵。可选的，在第二神经网络中，根据第一待处理图像矩阵获得第一待处理图像矩阵的特征图矩阵，将特征图矩阵分别与每帧第一图像进行向量拼接，获得多个第二待处理图像矩阵，其中每帧第二图像是根据每个第二待处理图像矩阵获得的。

在S402中，将第一图像和待处理图像进行向量拼接，获得第一待处理图像矩阵。其中，第一图像为多帧，待处理图像为多帧。可以将多帧待处理图像分组，获得多组子组图像，将每帧第一图像和一组子组图像进行向量拼接，获得多个待处理图像子矩阵。第一待处理图像矩阵包括该多个待处理图像子矩阵，或者说，该多个待处理图像子矩阵组成第一待处理图像矩阵。其中，进行向量拼接的第一图像和一组子组图像对应于同一帧待处理图像。

例如，多帧待处理图像的数量为4帧，将4帧待处理图像输入第一神经网络进行运算，获得4个第一图像。其中，每一帧待处理图像对应得到一个第一图像，例如，第1帧待处理图像对应得到第1个第一图像；第2帧待处理图像对应得到第2个第一图像。将4个第一图像和4帧待处理图像进行向量拼接，其中，4帧待处理图像可以分成4个子组图像，每一个子组图像对应一帧待处理图像。例如，第一组子组图像对应第一帧待处理图像，第二组子组图像对应第二帧待处理图像。将第一组子组图像和第1个第一图像进行向量拼接。将第二组子组图像和第2个第一图像进行向量拼接。

可以理解的是，多帧第一图像和多组子组图像进行向量拼接可以看成是第二神经网络内部的处理过程。输入第二神经网络的是一个整体矩阵，即第一待处理图像矩阵。拼接为第一待处理图像矩阵的过程可以分解成上述多帧第一图像和多组子组图像的拼接。

本申请实施例中，第一神经网络和第二神经网络可以组合成图像处理***，该图像修理***用于对待处理图像进行处理，以提高图像或视频的质量。处理过程可以包括降噪、消除马赛克效应等处理。

一般情况下，第一神经网络的复杂度要高于第二神经网络的复杂度。

一些技术中，往往将多帧图像经过神经网络合成为一帧输出，以提高图像或视频质量。但是这样神经网络需要很高的复杂度，在视频场景下，需要很高的处理速度。例如，终端视频实施处理需要将分辨率8K的视频达到30帧/s的处理速度，即帧率30。在视频场景对处理速度的高要求下，如果采用神经网络将多帧图像合成一帧输出，需要面临计算复杂度和计算资源耗费较大的问题，且需要很大的时延。如果一味的降低神经网络的复杂度，用复杂度较低的网络，又会影响图像或视频的质量。

本申请实施例中，采用第一神经网络处理多帧图像之间的复杂算力的问题，采用第二神经网络处理多帧图像中每帧图像较低算力的问题，并输出多帧处理后的图像，使得第一神经网络和第二神经网络的综合算力分摊到多帧图像上，使得每帧图像的处理复杂度相比上述方案得到降低，同时又能够保证图像或视频的质量。例如，第一分量图像为亮度通道，第二分量图像为色度通道，第一神经网络能够解决多帧图像之间的帧间运动问题，第二神经网络对每帧图像的色度进行处理，这样通过两个神经网络的合力处理，使得本申请提供的图像处理***在图像处理时具有较低复杂度，并保证图像或视频的质量。提高了深度学习技术在图像信号处理领域的应用。

下面以第一神经网络和第二神经网络为卷积神经网络为例进行说明。假设待处理图像为4帧，处理后的图像为4帧。待处理图像的格式为贝尔格式图像，特别地图像格式为RGrGbB格式，一帧RGrGbB格式的图像包括4个通道(R、Gr、Gb、B)。4帧待处理图像经过图像处理***后，输出4帧处理后的图像。图像处理***包括第一神经网络和第二神经网络。

如图6所示，4帧待处理的连续的RGrGbB图像，拆分成4*4＝16个通道。16个通道包括(R1、Gr1、Gb1、B1、R2、Gr2、Gb2、B2、R3、Gr3、Gb3、B3、R4、Gr4、Gb4、B4)。将4帧连续的RGrGbB图像输入第一神经网络，获得4帧连续的第一图像，例如第一分量图像为Gr通道，则获得4帧连续的Gr通道图像(Gr1、Gr2、Gr3、Gr4)。4帧连续的Gr通道图像包括第一帧Gr通道图像Gr1、第二帧Gr通道图像Gr2、第三帧Gr通道图像Gr3、第四帧Gr通道图像Gr4。

4帧连续的Gr通道图像与4帧待处理的连续的RGrGbB图像进行向量拼接，获得的第一待处理图像矩阵输入到第二神经网络中进行处理，获得4帧连续的第二图像，例如，第二分量图像为R、Gb、B通道，则获得4帧连续的RGbB图像(R1、Gb1、B1、R2、Gb2、B2、R3、Gb3、B3、R4、Gb4、B4)。4帧连续的RGbB通道图像包括第一帧RGbB通道图像R1、Gb1、B1，第二帧RGbB通道图像R2、Gb2、B2，第三帧RGbB通道图像R3、Gb3、B3，第四帧RGbB通道图像R4、Gb4、B4。

将4帧连续的Gr图像和4帧连续的RGbB图像合并为4帧连续的RGrGbB图像，包括4*4＝16通道，16个通道包括(R1、Gr1、Gb1、B1、R2、Gr2、Gb2、B2、R3、Gr3、Gb3、B3、R4、Gr4、Gb4、B4)。

如图7所示，4帧待处理的连续的RGrGbB图像，拆分成4*4＝16个通道。16个通道包括(R1、Gr1、Gb1、B1、R2、Gr2、Gb2、B2、R3、Gr3、Gb3、B3、R4、Gr4、Gb4、B4)。将4帧连续的RGGB图像输入第一神经网络，获得4帧连续的第一图像，例如第一分量图像为Gr通道，则获得4帧连续的Gr通道图像(Gr1、Gr2、Gr3、Gr4)。4帧连续的Gr通道图像包括第一帧Gr通道图像Gr1、第二帧Gr通道图像Gr2、第三帧Gr通道图像Gr3、第四帧Gr通道图像Gr4。

4帧连续的Gr通道图像与4帧待处理的连续的RGrGbB图像进行向量拼接，获得的第一待处理图像矩阵输入到第二神经网络中进行处理，获得4帧连续的处理后图像，处理后图像为RGrGbB图像，包括4*4＝16个通道，16个通道包括(R1、Gr1、Gb1、B1、R2、Gr2、Gb2、B2、R3、Gr3、Gb3、B3、R4、Gr4、Gb4、B4)。其中，4帧连续的处理后图像还可以看成4帧连续的第二图像和4帧连续的第三图像。第三图像为Gr通道，4帧连续的第三图像为(Gr1、Gr2、Gr3、Gr4)。第二分量图像为RGbB通道，则获得4帧连续的RB图像(R1、Gb1、B1、R2、Gb2、B2、R3、Gb3、B3、R4、Gb4、B4)。4帧连续的RGbB通道图像包括第一帧RB通道图像R1、Gb1、B1，第二帧RGbB通道图像R2、Gb2、B2，第三帧RGbB通道图像R3、Gb3、B3，第四帧RGbB通道图像R4、Gb4、B4。将4帧连续的第三图像(Gr图像)和4帧连续的第二图像(RGbB图像)合并为4帧连续的RGGB图像，包括4*4＝16通道，16个通道包括(R1、Gr1、Gb1、B1、R2、Gr2、Gb2、B2、R3、Gr3、Gb3、B3、R4、Gr4、Gb4、B4)。

示例性的，第一神经网络中的架构图8a和图8b所示，由于第一神经网络的附图过大，因此将第一神经网络拆分为两部分，分别由图8a和图8b示出。图8a和图8b共同组成第一神经网络的架构。图8a中的add之后连接图8b中的第一个层。

在图8a和图8b中，卷积层用矩形框表示。矩形框中的Conv2d+bias stride＝2 3x3_16_32表示卷积层。其中Conv2d代表2维的卷积，bias表示偏置项，1x1/3x3代表卷积核大小，Stride表示步长，_32_16表示输入输出特征图个数，32表示输入该层的特征图个数为32，16表示输出该层的特征图个数为16。

Split表示拆分层，表示特征图在通道(chanel)维度进行拆分。Split 2表示将图像在特征图维度进行拆分，如一个具有32个特征图的图像输入经过上述操作，会变成两个具有16个特征图的图像。

concat表示跳链层，表示将图像在特征图维度进行合并，例如将两个具有16个特征图的图像合并成一个具有32个特征图的图像。

add表示矩阵加法操作。

图8a和图8b所示的第一神经网络的卷积层采用多分枝的操作，可以很好地解决多帧亮度通道之间的运动信息干扰，进而通过一个复杂的卷积神经网络解决多帧图像亮度通道间的运动干扰。假设本申请实施例神经网络***是一种用于降噪的网络，则使用上述多分枝的操作方式可以很好的获得多帧亮度通道降噪后的结果，并且可以保证多帧亮度通道降噪后的结果不存在运动模糊、运动拖尾等问题。可选的，第一神经网络的卷积层还可以采用群卷积(group convolution)的操作。其中，群卷积是一个特殊的卷积层，假设上一层的输出特征图(feature map)有N个，即通道数channel＝N，也就是说上一层有N个卷积核。再假设群卷积的群数目M。那么该群卷积层的操作就是，先将N个通道(channel)分成M份。每一个组(group)对应N/M个通道，各个群(group)卷积独立进行，完成后将输出的特征图进行向量拼接(concat)在一起，作为这一层的输出通道。采用群卷积的操作方式能够获得采用分枝的方式相同或相似的技术效果。

如图9a所示，若不采用多分枝的神经网络，也可以采用典型的卷积神经网络，若采用典型的卷积神经网络，则在获得4帧连续Gr通道图像之前，与图8b不同的是，在最后一步跳链层concat结果之后的操作。为了更好的对比，将图8b中的多分枝操作如图9b所示。图9a和图9b中，相同的跳连层结果32层的特征图分别作为经典的神经网络和多分枝神经网络的输入。经典的神经网络多个卷积层采取共享的方式，32层的特征图经过4个卷积层的操作，最终输出4层特征图(4帧Gr通道图像)。多分枝神经网络采取4分枝的方法，每一个分支独立的通过4层卷积操作获取一个通道的特征图输出，作为一帧的亮度通道结果，四个分支，分别获得4个亮度通道结果。使用经典卷积层和多分枝卷积层混合使用的神经网络，既可以很好地解决图像降噪问题，也能保证多帧Gr通道同时输出时不存在运动模糊、运动拖尾等问题。

以下对第二神经网络的架构进行说明。示例性的，第二神经网络中的架构如图10a所示。

在图10a中各参数的含义可以参考图8a和图8b中的描述。图10a中，_20_16表示输入该层的特征图个数为20，输出该层的特征图个数为16。

图10a所示的第二神经网络的卷积层采用多分枝的操作。若不采用多分枝的神经网络，也可以采用典型的卷积神经网络。为了更好的对比，将图10a中的多分枝操作部分如图10b所示。采用典型的卷积神经网络的操作部分如图11所示。图10b和图11将输出的Gr通道图像和RGbB通道图像也进行显示。

图10b中的最左边的跳链层(concat)和图11最左边的跳链层(concat)输出的结果相同，该concat之后的操作不同。图11中的每个_17_3表示输入该层的特征图个数为17，输出该层的特征图个数为3。图10b中的_17_12表示输入该层的特征图个数为17，输出该层的特征图个数为12。图10b和图11相同的跳链层结果17层的特征图分别作为经典的神经网络和多分枝神经网络的输入。经典的神经网络多个卷积层采取共享的方式，17层的特征图经过1个卷积层的操作，最终输出12层特征图(4帧R\Gb\B通道图像)。多分支神经网络采取4分枝的方法，每一个分支独立的通过跳链的方式，把对应帧的第一神经网络结果Gr通道链接过来，在通过1个卷积层操作,获取3个通道的特征图输出，作为一帧的颜色通道(R\Gb\B通道)图像结果，四个分支，分别获得4帧颜色结果，使用多分枝卷积层神经网络，同时使用跳链层将对应已经降噪干净的亮度通道链接过来，可以在很低复杂度网络中，很好地解决图像降噪问题，也能保证多帧R\Gb\B通道同时输出不存在运动模糊、运动拖尾等问题。

基于上述对第一神经网络和第二神经网络的示例性架构，经过第一神经网络，获得4帧连续的Gr通道图像(Gr1、Gr2、Gr3、Gr4)。将第一图像和待处理图像进行向量拼接的过程中，可以将4帧连续RGrGbB图像，拆分成4*4＝16通道(R1、Gr1、Gb1、B1、R2、Gr2、Gb2、B2、R3、Gr3、Gb3、B3、R4、Gr4、Gb4、B4)，将16通道进行分组，将一组子组图像与一帧Gr通道图像进行向量拼接。例如，将4组子组图像为：(R1、Gr1、Gb1、B1)、(R2、Gr2、Gb2、B2)、(R3、Gr3、Gb3、B3)、(R4、Gr4、Gb4、B4)。将Gr1与(R1、Gr1、Gb1、B1)进行向量拼接，将Gr2与(R2、Gr2、Gb2、B2)进行向量拼接，将Gr3与(R3、Gr3、Gb3、B3)进行向量拼接，将Gr4与(R4、Gr4、Gb4、B4)进行向量拼接。进行向量拼接的第一图像和子组图像对应于同一帧待处理图像。向量拼接后获得的第一待处理图像矩阵。

基于上述对第一神经网络和第二神经网络的示例性架构，在第二神经网络结构中，根据第一待处理图像矩阵获得第一待处理图像矩阵的特征图矩阵。如图12所示，为特征图矩阵分别与每帧第一图像进行向量拼接，以获得多个第二待处理图像矩阵的示意图。第一图像为第一神经网络获得的。将每帧第一图像输入到第二神经网络中，与特征图矩阵进行向量拼接。其中，第一待处理图像矩阵的特征图矩阵对应图12中最左侧的跳链层concat的结果。将每一帧第一图像与特征图矩阵进行向量拼接，获得4个第二待处理图像矩阵，再经过一个卷积层的处理，获得多个第二向量或者获得多个处理后的图像。图12中以获得多个第二向量为例。

本申请实施例中，第一神经网络和第二神经网络在使用之前，需要对神经网络的模型进行训练。在对神经网络进行训练过程中，训练的数据可以包括训练图像和真值图像。训练图像包括第一分量图像和第二分量图像。

在训练第一神经网络的模型时：首先使用第一分量图像的真值图像对采集的训练图像进行处理，获得并输出图像。将输出的图像与第一分量图像的真值图像进行对比，直到网络收敛，完成对第一神经网络的模型的训练。所谓网络收敛例如可以是指输出的图像与第一真值图像的差值小于设定的第一阈值。

固定第一神经网络训练得到的第一分量图像的参数，使用第二分量图像的真值图像对采集的训练图像进行处理，获得并输出图像。将输出的图像与第二分量图像的真值图像进行对比，直到网络收敛，完成对第二神经网络的模型的训练。这里网络收敛可以是指输出的图像与第二分量图像的真值图像的差值小于设定的第二阈值。

假设训练图像的格式为RGB图像，在训练第一神经网络和第二神经网络时，输入的训练图像为时域相邻或连续的四帧。例如训练图像的四帧连续图像分别为R ₁G ₁B ₁，R ₂G ₂B ₂，R ₃G ₃B ₃，R ₄G ₄B ₄。假设第一分量图像为亮度通道，第二分量图像为颜色通道。对第一神经网络(或者称为亮度通道帧间网络)和第二神经网络(或者称为颜色通道帧内网络)的训练过程如下所述。构造亮度通道和颜色通道两种真值图像。首先使用四帧的亮度通道 G ₁G ₂G ₃G ₄作为真值，训练亮度通道帧间网络，待亮度通道帧间网络收敛后，其次使用R ₁B ₁、R ₂B ₂，R ₃B ₃，R ₄B ₄作为真值，固定上述亮度通道帧间网络参数，只训练颜色通道帧内网络，直到颜色通道帧内网络收敛为止。最后，调小学习率，同时训练上述两个网络，最终获得两个网络的模型。

在训练好第一神经网络和第二神经网络的模型之后，可以对两个网络的模型进行测试。在测试时，有两种输出测试结果的方式。一种可选的方式中，将四帧图像R ₁G ₁B ₁，R ₂G ₂B ₂，R ₃G ₃B ₃，R ₄G ₄B ₄作为输入，通过帧间亮度网络输出G′ ₁ G′ ₂ G′ ₃ G′ ₄，然后通过帧内颜色网络输出R′ ₁ B′ ₁ R′ ₂ B′ ₂ R′ ₃ B′ ₃ R′ ₄ B′ ₄，将上述帧间亮度网络输出的G′ ₁G′ ₂G′ ₃G′ ₄与帧内颜色网络输出的R′ ₁B′ ₁R′ ₂B′ ₂R′ ₃B′ ₃R′ ₄B′ ₄进行通道组合，获取四帧输出R′ ₁ G′ ₁ B′ ₁、R′ ₂ G′ ₂ B′ ₂、R′ ₃ G′ ₃ B′ ₃、R′ ₄ G′ ₄ B′ ₄。在另一种可选的方式中，将四帧图像R ₁G ₁B ₁，R ₂G ₂B ₂，R ₃G ₃B ₃，R ₄G ₄B ₄作为输入，通过帧间亮度网络输出G′ ₁ G′ ₂ G′ ₃ G′ ₄，然后通过帧内颜色网络输出R′ ₁ G′ ₁ B′ ₁、R′ ₂ G′ ₂ B′ ₂、R′ ₃ G′ ₃ B′ ₃、R′ ₄ G′ ₄ B′ ₄。

本申请实施例，通过第一神经网络和第二神经网络构成图像处理***，使用该图像处理***对多帧待处理图像进行处理，输出多帧处理后的图像。第二神经网络的复杂度要低于第一神经网络的复杂度。图像处理***对每帧待处理图像的计算量，相比一些技术中将多帧图像通过基础网络处理成一帧的方案，计算量有一定程度的降低。进而能够降低图像处理时延，并且能够保证图像或视频的质量。下面对两个神经网络处理多帧待处理图像的算力进行举例说明。假设待处理图像为4帧，经过第一神经网络和第二神经网络输出的处理后的图像为4帧。经过基础网络处理后输出一帧。第一神经网络如图8a和图8b所示，第二神经网络如图10a所示。

第一神经网络的计算量与基础网络的计算量大约相同，为12000MAC左右。例如基础网络的网络复杂度计算过程如下：

(23*32*1*1+32*16*3*3)/4#1336

+16*32*3*3/16#288

+(32*32*3*3)/16#576

+32*64*3*3/64#288

+(64*96*3*3+(48*48*3*3*2+96*96*1*1*1)*2+96*64*3*3+32*32*3*3*2+64*64*1*1*1+64*64*3*3*1)/64#4240

+(64*32*2*2)/16+(concat)#512

+(64*32*3*3)/16#1152

+(32*16*2*2)/4+(concat)#512

+(32*16*3*3)/4#1152

+(16*16*3*3+16*16*3*3+16*4*3*3)/4#1296

＝11352

下面给出第二神经网络的运动细节层网络复杂度计算过程：

(52*32*1*1+32*16*3*3)/4#1568

+16*32*3*3/16#288

+(32*32*3*3)/16#576

+32*64*3*3/64#288

+(64*64*3*3)/64#576

+(64*32*2*2)/16+(concat)#512

+(64*32*3*3)/16#1152

+(32*16*2*2)/4+(concat)#512

+(32*16*3*3)/4#1152

＝6664

可见，第二神经网络的计算量为6000左右，假设为6000。

则当输入4帧待处理图像并同时输出4帧处理后图像时，图像处理***的计算量为(6000+12000)/4＝4500；当输入8帧待处理图像并同时输出8帧处理后图像时，图像处理***的计算量为(6000+12000)/8＝2250；当输入16帧待处理图像并同时输出16帧处理后图像时，图像处理***的计算量为(6000+12000)/16＝1125。均小于通过基础网络将多帧处理成一帧的算力12000。可以看出通过本申请实施例提供的第一神经网络和第二神经网络进行的多帧输入多帧输出的方案，能够降低计算量，从而降低图像处理的时延，对于视频场景下能够满足视频对图像处理时延的要求。分辨率为8千(K)个像素，帧率为30帧/秒的视频的网络算力要求大概在3000MAC左右，本申请实施例在输出8帧的时候，图像处理***规定的计算量基本可以满足8K 30视频的网络算力要求。

需要说明的是，本申请中的各个应用场景中的举例仅仅表现了一些可能的实现方式，是为了对本申请的方法更好的理解和说明。本领域技术人员可以根据申请提供的参考信号的指示方法，得到一些演变形式的举例。

为了实现上述本申请实施例提供的方法中的各功能，基于神经网络的图像处理装置可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

如图13所示，基于同一技术构思，本申请实施例还提供了一种基于神经网络的图像处理装置1300，该基于神经网络的图像处理装置1300可以是移动终端或任意具有图像处理功能的设备。一种设计中，该基于神经网络的图像处理装置1300可以包括执行上述方法实施例中各方法/操作/步骤/动作所一一对应的模块，该模块可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。一种设计中，该基于神经网络的图像处理装置1300可以包括运算模块1301和拼接模块1302。

运算模块1301用于将待处理图像输入第一神经网络进行运算，以获得第一图像，第一图像为待处理图像的经第一神经网络处理后的第一分量图像；

拼接模块1302，用于将第一图像和待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；

运算模块1301，还用于将第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，第二图像为待处理图像的经第二神经网络处理后的第二分量图像；基于第二图像，获得处理后的图像。

运算模块1301和拼接模块1202还可以用于执行上述方法实施例的其它对应的步骤或操作，在此不再一一赘述。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于同一技术构思，如图14所示，本申请实施例还提供一种基于神经网络的图像处理装置1400。该神经网络的图像处理装置1400包括处理器1401。该处理器1401用于调用一组程序，以使得上述方法实施例被执行。该神经网络的图像处理装置1400还包括存储器1402，存储器1402用于存储处理器1401执行的程序指令和/或数据。存储器1402和处理器1401耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理器1401可能和存储器1402协同操作。处理器1401可能执行存储器1402中存储的程序指令。存储器1402可以包括于处理器1401中。

该基于神经网络的图像处理装置1400可以为芯片***。本申请实施例中，芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

处理器1401用于将待处理图像输入第一神经网络进行运算，以获得第一图像，第一图像为待处理图像的经第一神经网络处理后的第一分量图像；以及用于将第一图像和待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；以及用于将第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，第二图像为待处理图像的经第二神经网络处理后的第二分量图像；基于第二图像，获得处理后的图像。

处理器1401还可以用于执行上述方法实施例其它对应的步骤或操作，在此不再一一赘述。

处理器1401可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1402可以是非易失性存储器，比如硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本申请上述方法实施例所描述的各个操作和功能中的部分或全部，可以用芯片或集成电路来完成。

本申请实施例还提供一种芯片，包括处理器，用于支持该基于神经网络的图像处理装置实现上述方法实施例所涉及的功能。在一种可能的设计中，该芯片与存储器连接或者该芯片包括存储器，该存储器用于保存该通信装置必要的程序指令和数据。

本申请实施例提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序包括用于执行上述方法实施例的指令。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种基于神经网络的图像处理方法，待处理图像包括第一分量图像和第二分量图像，其特征在于，包括：

将待处理图像输入第一神经网络进行运算，以获得第一图像，所述第一图像为所述待处理图像的经所述第一神经网络处理后的第一分量图像；

将所述第一图像和所述待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；

将所述第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，所述第二图像为所述待处理图像的经所述第二神经网络处理后的第二分量图像；

基于所述第二图像，获得处理后的图像。
根据权利要求1所述的方法，其特征在于，所述基于所述第二图像，获得处理后的图像，包括：

合并所述第一图像和所述第二图像，以生成所述处理后的图像。
根据权利要求1所述的方法，其特征在于，在所述获得第二图像时，同时获得第三图像，所述第三图像为所述待处理图像的经所述第二神经网络处理后的第一分量图像；

对应的，所述基于所述第二图像，获得处理后的图像，包括：合并所述第三图像和所述第二图像，以生成所述处理后的图像。
根据权利要求1-3任一项所述的方法，其特征在于，所述待处理图像包括多帧时域邻近的图像，对应的，所述第一图像为多帧，所述第二图像为多帧，每帧待处理图像对应一帧第一图像和一帧第二图像。
根据权利要求4所述的方法，其特征在于，在所述第二神经网络进行的运算，包括：根据所述第一待处理图像矩阵获得所述第一待处理图像矩阵的特征图矩阵，将所述特征图矩阵分别与每帧第一图像进行向量拼接，以获得多个第二待处理图像矩阵，其中，每帧第二图像根据每个第二待处理图像矩阵获得。
根据权利要求5所述的方法，其特征在于，所述将所述第一图像和所述待处理图像进行向量拼接，包括：

将所述多帧时域临近的图像分组，以获得多组子组图像；

将每帧第一图像和一组子组图像进行向量拼接，以生成多个待处理图像子矩阵。
根据权利要求6所述的方法，其特征在于，进行向量拼接的第一图像和子组图像对应于同一帧待处理图像。
根据权利要求1-7任一项所述的方法，其特征在于，所述第一分量图像为所述待处理图像的亮度分量。
根据权利要求8任一项所述的方法，其特征在于，所述第二分量图像为所述待处理图像的一个或多个色度分量，或者一个或多个颜色分量。
根据权利要求1-7任一项所述的方法，其特征在于，所述第一分量图像和所述第二分量图像分别为所述待处理图像不同的颜色分量。
根据权利要求1-10任一项所述的方法，其特征在于，所述第一神经网络和所述第二神经网络组成图像处理***，所述图像处理***用于对所述待处理图像进行降噪、消除马赛克效应处理。
一种基于神经网络的图像处理装置，待处理图像包括第一分量图像和第二分量图像，其特征在于，包括：

运算模块，用于将待处理图像输入第一神经网络进行运算，以获得第一图像，所述第一图像为所述待处理图像的经所述第一神经网络处理后的第一分量图像；

拼接模块，用于将所述第一图像和所述待处理图像进行向量拼接(concatenate)，以获得第一待处理图像矩阵；

所述运算模块，还用于将所述第一待处理图像矩阵输入第二神经网络进行运算，以获得第二图像，所述第二图像为所述待处理图像的经所述第二神经网络处理后的第二分量图像；基于所述第二图像，获得处理后的图像。
根据权利要求12所述的装置，其特征在于，在所述基于所述第二图像，获得处理后的图像时，所述运算模块用于：

合并所述第一图像和所述第二图像，以生成所述处理后的图像。
根据权利要求12所述的装置，其特征在于，所述运算模块还用于，在所述获得第二图像时，同时获得第三图像，所述第三图像为所述待处理图像的经所述第二神经网络处理后的第一分量图像；

对应的，在所述基于所述第二图像，获得处理后的图像时，所述运算模块用于：合并所述第三图像和所述第二图像，以生成所述处理后的图像。
根据权利要求12-14任一项所述的装置，其特征在于，所述待处理图像包括多帧时域邻近的图像，对应的，所述第一图像为多帧，所述第二图像为多帧，每帧待处理图像对应一帧第一图像和一帧第二图像。
根据权利要求15所述的装置，其特征在于，在所述第二神经网络进行运算时，所述运算模块用于：根据所述第一待处理图像矩阵获得所述第一待处理图像矩阵的特征图矩阵，将所述特征图矩阵分别与每帧第一图像进行向量拼接，以获得多个第二待处理图像矩阵，其中，每帧第二图像根据每个第二待处理图像矩阵获得。
根据权利要求16所述的装置，其特征在于，在将所述第一图像和所述待处理图像进行向量拼接时，所述拼接模块用于：

将所述多帧时域临近的图像分组，以获得多组子组图像；

将每帧第一图像和一组子组图像进行向量拼接，以生成多个待处理图像子矩阵。
根据权利要求17所述的装置，其特征在于，进行向量拼接的第一图像和子组图像对应于同一帧待处理图像。
根据权利要求12-18任一项所述的装置，其特征在于，所述第一分量图像为所述待处理图像的亮度分量。
根据权利要求19所述的装置，其特征在于，所述第二分量图像为所述待处理图像的一个或多个色度分量，或者一个或多个颜色分量。
根据权利要求12-18任一项所述的装置，其特征在于，所述第一分量图像和所述第二分量图像分别为所述待处理图像不同的颜色分量。
根据权利要求12-21任一项所述的装置，其特征在于，所述第一神经网络和所述第二神经网络组成图像处理***，所述图像处理***用于对所述待处理图像进行降噪、消除马赛克效应处理。
一种芯片，其特征在于，所述芯片与存储器相连，用于读取并执行所述存储器中存储的软件程序，以实现如权利要求1-11中任一项所述的方法。
一种基于神经网络的图像处理装置，其特征在于，包括处理器和存储器，所述处理器用于运行一组程序，以使得如权利要求1-11中任一项的方法被执行。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可读指令，当所述计算机可读指令在基于神经网络的图像处理装置上运行时，使得所述装置执行权利要求1-11任一项所述的方法。