CN106934426A

CN106934426A - 基于图像信号处理的神经网络的方法和设备

Info

Publication number: CN106934426A
Application number: CN201611033526.5A
Authority: CN
Inventors: 张强; 冀正平; 王兵; 王一兵; 伊利亚·奥维先尼科夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-12-29
Filing date: 2016-11-15
Publication date: 2017-07-07
Also published as: KR20170078516A; KR102630035B1; US20170185871A1; US10460231B2

Abstract

提供一种基于图像信号处理的神经网络的方法和设备。提供一种图像信号处理(ISP)***。所述***包括：神经网络，通过输入原始数据图像的集以及相关的期望质量输出图像的集来训练；神经网络包括用于接收输入图像数据的输入，并且提供经处理的输出；其中，经处理的输出包括已经针对至少一个图像质量属性调整的输入图像数据。一种方法和一种成像装置被公开。

Description

基于图像信号处理的神经网络的方法和设备

技术领域

在此公开的本发明涉及神经网络，具体地说，涉及用于使用神经网络执行图像信号处理的技术。

背景技术

成像传感器的广泛可用性已经允许制造商在很多装置中包括成像能力。例如，难以找到不包括数字相机的蜂窝电话。尽管用于成像传感器的制造成本已经大大减小并且用于成像的技术已经大大提高，但是图像信号处理仍是个挑战。

一般地，图像信号处理已经要求为特定的成像传感器而构造的专用组件。专用图像信号处理器的发展可能是非常昂贵的。例如，必须写入大量的计算机代码以处理图像。写入这样的代码涉及用于执行处理的调整和设计的许多专门知识。此外，这样的代码必须为各个传感器量身定制，并且可能需要针对特定的用户而定制。使事情更复杂的是，这样的代码不考虑在制造过程中可能产生的一组成像传感器的制造变异性。

除了增加的制造成本和复杂度以外，专用于图像信号处理的特定的芯片集可能相对固定并且不能很好地适合所有环境。因此，包括在成像装置中的图像信号处理能力越高，装置内所需的相关联的成本和空间越高。

需要改进的技术来更加高效地提供图像信号处理。该技术应该利用常见的资源，诸如，多用处理器和存储器。优选地，该技术应该是高度灵活的，使得该技术可被容易地改进。

发明内容

在一个实施例中，提供一种图像信号处理(ISP)***。所述***包括通过输入原始数据图像的集以及相关的期望质量的输出图像的集训练的神经网络；神经网络包括用于接收输入图像数据的输入，并且提供处理的输出；其中，处理的输出包括已经针对至少一个图像质量属性调整的输入图像数据。

神经网络可包括卷积神经网络。神经网络可通过反向传播技术被训练。神经网络可被配置为被下载到移动成像装置。所述至少一个图像质量属性可包括：图像大小、纵横比、亮度、强度、位深度、白度值、动态范围、灰阶、轮廓、平滑、斑点、颜色空间值、交错、校正、伽马校正、边缘增强、对比度增强、锐度和去马赛克。

在另一实施例中，提供一种用于提供图像信号处理(ISP)***的方法。所述方法包括：配置用于图像处理的神经网络；使用原始数据图像的集和期望质量输出图像的集来训练神经网络，其中，原始数据图像的集中的图像与期望质量的输出图像的集中的图像相关；配置训练的神经网络来接收输入图像数据并且提供处理的输出数据，其中，处理的输出包括已经针对至少一个图像质量属性调整的输入图像数据。

所述方法还可包括通过反向传播来训练神经网络。所述方法还可包括使用成像装置来采集原始图像数据的集。所述方法还可包括：处理原始图像数据的集，以提供将被用作期望质量输出图像的集的传统处理的图像数据的集。所述传统处理指通过使用不采用神经网络的典型图像处理方法来处理图像数据。所述方法还可包括使用参考成像装置来采集期望质量的输出图像的集。所述方法还可包括具有期望质量输出图像中的至少一些的属性参考数据。训练的步骤可在远程***上执行，并且配置训练的神经网络的步骤包括将神经网络下载到成像装置。所述至少一个图像质量属性可包括：图像大小、纵横比、亮度、强度、位深度、白度值、动态范围、灰阶、轮廓、平滑、斑点、颜色空间值、交错、校正、伽马校正、边缘增强、对比度增强、锐度和去马赛克。

在另一实施例中，提供一种成像装置。所述装置包括：成像传感器、处理器和存储器；以及图像信号处理(ISP)***，包括：存储在非暂时性机器可读介质上的机器可执行的指令，所述指令包括通过输入原始数据图像的集和相关的期望质量的输出图像的集来训练的神经网络；神经网络包括用于从成像传感器接收输入图像数据的输入并且提供处理的输出；其中，处理的输出包括已经针对至少一个图像质量属性调整的输入图像数据。

所述成像装置可包括智能电话、平板计算机、照相机和医学成像装置中的一个。图像信号处理(ISP)***可被提供作为补充传统的图像信号处理***和代替传统的图像信号处理***之一。所述成像装置还可被配置用于与远程***进行通信，以在所述成像装置与远程***之间分配计算任务。所述成像装置还可被配置用于周期的重新训练。所述成像装置还可被配置用于通用成像、医学成像、安全成像和产品成像中的一个。可通过反向传播来执行训练。

所述成像装置可被重新配置以更新图像信号处理***。重新配置的操作可(例如)根据装置的地理位置，通过与远程***通信自动地完成。重新配置的操作可根据用户的偏好通过与远程***通信来完成。

附图说明

从下面结合附图的描述，本公开的特征和优点是显而易见的，其中：

图1是适合于实现在此公开的神经网络的实施例的计算资源的框图；

图2是描述神经网络的广义方面的示图；

图3是描述用于图像信号处理的神经网络的实施方式的方面的示图；

图4是描述用于图像信号处理的神经网络的实施方式的方面的另一示图；

图5是描述用于训练神经网络以执行图像信号处理的神经网络的示例性处理的方面的示图；

图6是用于图像信号处理的神经网络的示例的说明；

图7A、图7B、图7C和图7D(在此共同地称为图7)是图形图像的集合的代表，其中，图7A描述输入图像；图7B描述参考图像；图7C描述现有技术中的图像信号处理器的状态的输出；图7D描述被配置用于图像信号处理的神经网络的输出；

图8A、图8B、图8C和图8D(在此共同地称为图8)是图形图像的另一集合的代表，其中，图8A描述输入图像；图8B描述参考图像；图8C描述现有技术中的图像信号处理器的状态的输出；图8D描述被配置用于图像信号处理的神经网络的输出；

图9A和图9B(在此共同地称为图9)是图形图像的另一集合(图8)的一部分的放大的示图的代表，其中，图9A描述现有技术中的图像信号处理器的状态的输出；图9B描述被配置用于图像信号处理的神经网络的输出。

具体实施方式

在此公开了使用神经网络执行图像信号处理(ISP)的技术。该技术可提供高质量图像信号处理(ISP)，其中，高质量图像信号处理(ISP)利用多用组件(诸如，中央处理器(CPU)、存储器、通信能力)以及通常在很多电子装置内发现的其他组件。例如，技术可利用在蜂窝电话或以低端、消费者为导向的数字相机内发现的多用组件。

作为概述，技术的实施例一般利用神经网络来执行图像信号处理(ISP)。为神经网络的有效学习和输出图像的优化提供实施例。

根据这里的教导训练的神经网络可用于与图像信号处理相关联的各种计算复杂的任务。例如，神经网络可用于处理用于对象识别的图像。可为面部识别、笔迹分析、医学图像分析以及需要分析图像以识别图像中的对象和特征的其他任务提供对象识别。处理的图像可用于各种任务(诸如，环境监视)，以控制产品和制造、帮助医疗诊断和各种其他相似的处理。

为了给这里的教导提供一些背景，现在介绍一些方面。

如在此讨论的，术语“神经网络”一般表示实现具有自适应特性并且在机器学习中是有用的统计学习算法的软件。神经网络可包括连接在一起以形成模拟生物神经网络的网络的多个人工节点(被称为“神经元”、“处理元件”、“单元”或其他相似的术语)。通常，神经网络包括自适应权重(即，通过学习算法调整的数字参数)的集，并且能够逼近它们的输入的非线性函数。自适应权重是神经元之间的概念性地连接的强度，在训练和预测期间被激活。一般，以非线性、分布式、并行以及局部处理和适应的规则来操作神经网络。一般，第一层被称为“输入层”，该层内的神经元被称为输入神经元。“输出层”包括输出神经元。由于中间层中的神经元既不是输入也不是输出，因此中间层被称为“隐藏层”。神经元可包括特征检测器、梯度和其他类似的组件。

通常，“卷积”是对两个函数f和g的数学运算，并且产生可被视为原始函数中的一个函数的修改的版本的第三函数。第三函数一般包括两个函数之间重叠的区域，作为原始函数中的一个函数被平移的量的函数。

通常，术语“卷积神经网络(CNN)”表示下面类型的神经网络：各个神经元以它们响应视野中的重叠区域的方式被铺设。一般，卷积神经网络(CNN)将采用局部感受野、共享权重和池化以处理图像。局部感受野可被视为输入像素与隐藏神经元的层的连接。作为一个示例，第一隐藏层中的每个神经元对应于输入图像的小的、局部化的区域。与隐藏神经元对应的输入图像的区域被称为针对隐藏神经元的“局部感受野”。第一隐藏层中的每个隐藏神经元使用相同的权重以及与其他隐藏神经元的偏差，因此具有“共享权重”。这表示第一隐藏层中的全部神经元仅在不同的位置准确检测相同的特征。来自输入层的结果图被称为“特征图”，定义特征图的权重被称为“共享权重”。“池化层”通常在卷积层之后被立即使用。池化层简化来自卷积层的输出中的信息。也就是说，池化层获取从卷积层输出的每个特征图，并且准备压缩的特征图。用于池化的一个一般过程被称为“最大池化(max-pooling)”。在最大池化中，池化单元简单地输出输入区域的最大激活(从特征图输出)。

深度卷积神经网络(CNN)可被描述为卷积层的堆叠、与标准化层(normalizationlayer，正规化层)、(对输入进行空间地下采样的)池化层和/或其他类型的层的交错、在顶部中具有完全连接的层和代价层(cost layer)(例如，逻辑回归)。每个卷积层被一组滤波器(例如，采用RGB图像作为输入并且提供响应的第一层中的滤波器)参数化。深度CNN的能力来自深度堆叠的层，开始于简单的特征(例如，原始RGB图像数据)并且通过层来学习越来越复杂的特征，随后的层可用于识别高级语义(high level semantics)。

如在此讨论的，术语“滤波器”或“核”一般称为连接权重的层。当将图像用作滤波器的输入时，该输入包括小的二维图像块，然后输出是单个单元。由于滤波器被重复使用，因此产生的连接性看起来像一系列重叠的感受野。

如在此讨论的，术语“特征检测器”一般表示学习数据输入的转换并且提供可被神经网络使用的表示法的技术的集合。

如在此讨论的术语“子采样(subsampling)”或“下采样”一般指降低信号的整体大小。在二维滤波器输出的情况下，诸如用于图像处理，子采样还可被认为是增加滤波器的位置不变性。被称为“最大池化”的一种技术涉及获取每个网格中的最大值作为约化矩阵中的值。从语义上看，这对应于将通过卷积层回答的问题从“该滤波器在这里应用得怎么样”改变为“将该滤波器应用于该区域怎么样”。通过在卷积层之间应用这样的最大的池化层，空间抽象性可随着特征抽象性的增大而增大。

如在此讨论的，术语“图像”表示数字化图像数据的二维阵列，然而，这仅是说明性的并且不是限制的。如在此讨论的，提供到服务器的图像可通过另一装置(例如，远程输入装置，诸如，包含在移动装置中的照相机)来采集，准备通过中间工具(诸如，软件客户端)来训练，并且被配置为模仿由(例如)客户端提供的图像的形式。可以(诸如，来自移动装置中的照相机的)数字化的形式提供通过客户端采集的图像。在示例性实施例中，诸如训练图像的像素的数量和维度的方面一般与产品图像的像素的数量和维度相同。此外，仅为了将训练图像与在客户端操作期间采集的其他图像进行区分的目的，用于训练神经网络的图像被称为“训练图像”。为了随后被给定的神经网络分析而通过成像装置采集的图像被称为“产品图像”和其他相似的不同术语。

如在此讨论的，术语“产品”一般表示用于分析输入数据的神经网络的使用。相比之下，“训练”一般表示在针对产品开发神经网络时涉及的序列。

如在此讨论的，“对象”或“特征”可出现在或包括在图像内。例如，汽车(对象)可出现在风景(对象的集合)的照片(图像)内。特征的示例可包括线、曲线以及图像内的强度、颜色和其他具体的特性。在一些实施例中，术语对象和特征是可互换的，并且一般是同义的。

如在此讨论的，术语“服务器”一般表示具有稳健计算资源的计算资源。示例性的资源包括对于执行在此描述的任务重要的资源，并且可包括大量的存储器、处理能力、数据储存器等。在示例性实施例中，服务器包括传统服务器(诸如，刀片服务器)、大型机、个人计算机网络或仅仅是个人计算机(PC)。服务器可距离另一装置(诸如，用于输入的移动装置)是远的。输入装置的一个示例是智能电话。

如在此讨论的，术语“移动装置”一般表示被配置用于移动使用的计算资源。通常，被配置为移动装置的装置将具有计算资源的缩减集。因此，移动装置的各种实施例可保持与服务器的通信以补充计算能力。移动装置的示例包括：智能电话、平板计算机和/或专用装置。

如在此讨论的，术语“成像装置”一般表示设置有可具有计算资源的缩减集的成像传感器的装置。示例性的资源包括对执行在此描述的任务重要的资源，并且可包括最小量的内存储器、处理能力、数据存储器等。在一些实施例中，成像装置包括成像能力，以提供输入到神经网络中的输入图像的集合。在一些实施例中，成像装置被配置为在移动装置上使用，并且更加稳健地与在远程服务器上操作的补充资源进行通信。

如在此讨论的，术语“程序”、“软件”、“应用”、“插件”以及其他相似的术语表示存储在非暂时性机器可读介质上的机器可执行指令。机器可执行指令提供通过对计算资源和认为合适的任意相关联的组件的控制来执行方法。

如在此讨论的，术语“视频”、“影片”以及其他相似的术语一般表示一连串的图像。

如在此讨论的，术语“通常的”或“传统的”在用于介绍图像信号处理器时，通常对已经被编程或另外被配置用于图像信号处理的专用图形处理单元或芯片集做出说明。

如在此讨论的，术语“图像信号处理”一般表示调整原始图像数据的方面以提高输出图像的视觉外观。各种图像质量属性可在图像信号处理期间***纵。例如，可被调整的图像质量属性包括：图像大小、纵横比、亮度、强度、位深度、白度值、动态范围、灰阶、轮廓、平滑、斑点(例如，可在医学成像中发现)、颜色空间值、交错、校正、伽马校正、边缘增强、对比度增强、锐度、去马赛克以及可被认为是合适的数字图像的其他方面。去马赛克(也称为“反贝尔”(debayering))算法是数字图像处理，该数字图像处理用于从自覆盖有滤色器阵列(CFA)的图像传感器输出的不完全颜色样本重建全色图像。它也被称为CFA插值或颜色重建。

在示例性实施例中，在此公开的方法和设备对于训练神经网络是有用的。通过具有参考图像数据的集合的训练来配置神经网络。然而，示例性实施例将被认为仅是说明性的，并且不是这里的教导的限制。因此，公开的方法和设备可被同样用于涉及神经网络的使用的其他应用。

现在参照图1，描述了计算***100的说明性方面和非限制实施例。在该示例中，计算***100包括服务器130。服务器130具有一个或多个中央处理单元(处理器)101a、101b、101c等(共同地或一般被称为处理器101)。处理器101通过***总线113连接到随机存取存储器(RAM)140(还被称为“***存储器”或简称为“存储器”)以及各种其他组件。计算***100可包括连接到***总线113的只读存储器(ROM)141。ROM 141可包括控制计算***100的某些基本功能的内置操作***(BIOS)。

图1还描述了连接到***总线113的输入/输出(I/O)适配器107和通信适配器106。I/O适配器107可包括并行ATA(PATA，还被称为IDE或EIDE)、串行ATA(SATA)、SCSI、串行连接SCSI(SAS，serial attached SCSI)和光纤通道，或者包括被认为合适的任意其他类型的接口。I/O适配器107一般提供用于与硬盘103和/或长期储存单元105(诸如，磁带驱动器)或任意其他相似的组件(诸如，光学驱动器)进行通信。I/O适配器107、硬盘103和长期储存单元105(以及可能包括的其他相似的组件)在此被共同地称为大容量储存器104。

通信适配器106将***总线113与启用服务器130的外部网络150互相连接，以与其他***通信。通信适配器106可支持有线通信协议和无线通信协议中的至少一个。例如，通信适配器106可支持诸如以下的协议：有线以太网、wi-fi(例如，802.11协议)、UMTS、拨号、动态同步、蜂窝(使用诸如GSM、GPRS、EDGE、CDMA、TDMA、3G、4G等的协议)。一般，通信适配器106与网络150进行通信，并且可与因特网121(直接地或间接地)通信。

服务器130通过合适的电源120来供电。在一些实施例中，电源120包括用于接收交流(AC)并且将AC转换为合适形式的直流(DC)的至少一个转换器。在其他实施例中，电源120包括至少一个电池。电源可包括用于接收和控制各种形式的输入电力的合适的电路。

输入/输出装置被示出为通过用户接口(UI)适配器108连接到***总线113。键盘109、指示装置110(例如，鼠标)和扬声器111可被包括并且通过用户接口适配器108连接到***总线113。可包括被认为合适的其他用户接口组件。

连接到显示监视器136的显示适配器112连接到***总线113。显示适配器112和/或显示监视器136可配置有各种组件，诸如，用于提高图形密集应用的性能的图形适配器、视频控制器、电容性(即，触摸屏)显示器等。显示监视器136可用于显示用户接口。

在一些实施例中，适配器106、适配器107、适配器108和适配器112可通过中间总线桥(未示出)，连接到与***总线113连接的一个或多个输入/输出(I/O)总线。用于连接***装置(诸如，硬盘控制器、网络适配器和图形适配器)的合适的I/O总线可包括通用协议，诸如，***组件接口(PCI)总线。

一般，计算***100将机器可读指令存储在非暂时性机器可读介质上(诸如，存储在ROM、RAM或大容量储存单元104中)。机器可读指令(在此可被称为“软件”、“应用”、“客户端”、“处理”、“插件程序”以及其他相似的术语)一般提供用于在此将被进一步详细讨论的功能。

计算***100可包括附加组件。附加组件还可用作其他功能。例如，计算***100可利用或依赖于第三方通信***151。为了简明，第三方通信***151在此还被称为“***操作器”151。此外，计算***100可包括至少一个成像装置180。至少一个成像装置180可包括诸如智能电话182的装置。智能电话182装置的说明性示例包括：来自加州库比蒂诺的苹果公司的IPHONE、在加州山景城的谷歌公司的ANDROID平台上操作的装置以及由华盛顿州雷德蒙德的微软公司提供的WINDOWS环境中操作的装置。成像装置180的其他示例包括照相机181。

在说明性实施例中，至少一个成像装置180包括与在服务器130中发现的组件相似的组件。例如，至少一个成像装置180包括至少一个中央处理单元(CPU)。中央处理单元(CPU)通过内部***总线连接到其他组件，或与其他组件进行通信。成像装置180内的其他组件的示例包括电源、存储器、软件、用户控制、显示器、前置传感器和/或后置传感器、灯具以及通信接口。

CPU可以是ARM或其他处理器。电源可以来自电池或直流(DC)源，诸如，连接到传统的交流(AC)电插座的转换器。用户控制可包括主页按钮以及on/off开关。显示器可包括LCD、LED、OLED、AMOLED、IPS和其他技术中的至少一个。灯可以是发光二极管(LED)。

通信接口可包括有线接口和/或无线接口。无线接口可包括无线服务处理器。说明性的无线接口可利用诸如蜂窝、蓝牙、Wi-Fi、近场技术(NFC)、ZigBee或其他技术的协议。通过无线通信接口提供的通信服务可包括Wi-Fi、蓝牙、以太网、DSL、LTE、PCS、2G、3G、4G、LAN、CDMA、TDMA、GSM、WDM和WLAN。通信接口可包括听觉通道。即，通信接口可包括用于接收语音命令的麦克风，并且还可包括扬声器。在一些实施例中，扬声器可在条形码已经被读取时提供听觉信号。通信接口还可包括状态灯或其他此类的视觉指示器。

此外，通信接口提供用于语音通信以及数据通信。数据通信可用于提供软件和数据(诸如，至少一个图像、分析的结果和其他这样的类型的数据)的通信。通过通信接口的通信可以是双向或单向。

成像装置180可包括附加组件，诸如，环境传感器。环境传感器的示例可包括提供方向信息的加速度计以及提供位置信息的GPS传感器。成像装置180还可包括***接口和通信端口。

在服务器130的一些实施例中，存储在服务器130中的机器可读指令包括被配置为与其他组件进行通信的驱动器。例如，驱动器可使得服务器130与成像装置180的照相机和/或环境传感器进行通信。

存储在非暂时性机器可读介质上的机器可读指令中的一些可包括操作环境。例如，如在此呈现的，合适的操作环境是(来自华盛顿雷蒙德的微软公司可用的)WINDOWS。例如，可以以作为用于管理关系数据库的跨厂商查询语言(cross-vendor query language)的SQL语言来开发在此提供的软件。可使用其他软件来实现软件的多个方面。例如，可以以XML、HTML等来设置用户接口。

计算***100可适当地包括或排除上述的组件和其他组件。例如，可使用其他组件，诸如，路由器、网桥、防火墙、开关、其他服务器、中间件及其他组件。可以以软件和/或硬件来实现一些组件。在一些实施例中，术语“服务器”表示在还可执行其他功能的硬件上运行的软件引擎。

计算***100可包括多个计算机。例如，在计算***100中，多个计算机中的至少一个计算机可包括大量的储存器、内存储器、处理器、大容量储存器等。其他装置，诸如，成像装置180可包括组件的缩减集。多个计算机中的至少一个计算机可被设计具有移动性作为主要目的。例如，存储器可由于存储器的物理紧凑特性来代替硬盘。成像装置180的其他示例包括；平板计算机、扫描器和若干专用装置中的任意一个。专用装置的非限制示例包括针对机器视觉设计的应用专用装置。

计算***100中的特定计算机可以是定向的目的(purpose-oriented)。例如，计算基础结构可使用主要作为文件服务器的一个计算机(即，用于将数据有效存储在计算基础机构内的数据储存装置)、作为输入装置的多个其他计算机(例如，通过用户远程操作以与计算基础结构交互的移动站)、控制台(例如，用于管理计算基础结构的专用***)等。

应认识到如在此描述的一些功能可通过硬件(诸如通过前述的组件)或通过软件来适当地实现。因此，以一种方式或其他方式引用实施方式，这样的实施方式仅是说明性的，并且不限制在此描述的技术。简而言之，上述的计算***100和利用计算***100的***仅针对这里的教导来提供环境并且不被解释为限制的，而是作为计算***100的说明性方面。

一般，计算***100实现使得用户能够训练和/或操作神经网络***的软件方案。计算***100可为了各种目的(诸如，通信、消息传送、图形编辑、统计分析以及其他类似的目的)来实现第三方软件***。

图2是对特征检测器的开发和/或对关于对象的识别做出的决断有用的卷积神经网络(CNN)200的全部说明性基本方面的抽象的示意图。卷积神经网络(CNN)200可被提供为软件，诸如，存储在服务器130的大容量储存单元104中和/或存储在至少一个成像装置180的数据储存器中的软件。可使用被认为合适的任意应用来建立卷积神经网络(CNN)200。适合于编码卷积神经网络(CNN)200的一个应用是作为来自俄勒冈州比佛顿的Python软件基金会的可用的开源软件的Python。因为计算机编程和编码的方面已知，所以在此一般不讨论汇编的卷积神经网络(CNN)200的技术性细节。相反，以对本领域的技术人员可理解的功能术语，来呈现卷积神经网络(CNN)200的方面。

在该示例性实施例中，为了提供一些背景，卷积神经网络(CNN)200包括输入特征图209、卷积输出层214和池化层216。在该示例中，输入特征图209包括三维输入量。输入特征图209通过N×N×D的维度来表示，其中，N表示输入的高度和宽度，D表示输入的深度(例如，与输入特征图209相关联的隐藏层的数量)。多个滤波器211用于对输入特征图209进行滤波。每个滤波器211通过k×k×D的维度来表示，其中，附加的变量k表示每个滤波器211的高度和宽度。在该示例中，输入特征图209的高度和宽度是相等的并且每个滤波器211的高度和宽度是相等的，因此各个组件是方形的。然而，这仅是为了简单起见，应该认识到，输入特征图209和/或滤波器211可以是矩形的(因此，各个组件中的每个组件的宽度可不同于高度)。

在卷积神经网络(CNN)200的操作中，每个滤波器211以滑动窗类的方式移动穿过输入特征图209。移动的量被称为“步长(stride length)”或简称为“步幅(stride)”s。在每次移动期间，属于特定的滤波器211的各个权重与来自输入量的重叠区域的每个成对的输入元素相乘并且相加，以提供卷积212。在卷积212之后，可选的池化层216用于通过滑动二维窗穿过三维卷积输出并且选择经过窗的最大(或平均)值215，来对卷积输出进行子采样。在该示例中，可选的池化层216通过参数p和s来定义，其中，p×p定义用于池化操作的区域，s表示滤波器211的步幅。

现在转到图3和图4，示出了图像信号处理(ISP)神经网络300的示例的方面。图3提供图像信号处理(ISP)神经网络300的概念示图。在该示例中，图像信号处理(ISP)神经网络300接收输入图像数据301并且提供处理的输出302。在该示例中，输入图像数据301包括贝尔图案。通过训练的图像信号处理(ISP)神经网络300来提供处理的输出302。图像信号处理(ISP)神经网络300包括多个处理滤波器311。如图4中所示，图像信号处理(ISP)神经网络300提供图像信号处理的子集的替换。在该示例中，图像信号处理的其余阶段被保持，该其余阶段包括颜色校正401、伽马校正402、边缘增强403和对比增强404。

现在参照图5，示出用于训练图像信号处理500的示例性实施例的方面。在示例性实施例中，特定的成像装置180用于采集多个图像。多个图像被提供作为原始数据图像501。每个原始数据图像501与描述相同图像的期望质量输出图像510相关。一般，期望质量输出图像510可以是参考图像511和传统处理的图像512之一。

通常，期望质量输出图像510用于神经网络的训练，同时处理的输出302可被称为“产品”图像(即，训练的神经网络的产物)。

例如，可通过使用参考装置(诸如，最先进的照相机)成像来获得参考图像511。在一些实施例中，每个参考图像511可额外地包括属性参考数据。在一些实施例中，属性参考数据可用于神经网络的训练。可通过使用参考图像处理技术处理原始数据图像501来获得传统处理的图像512。共同地，与期望质量输出图像510的集相关的原始数据图像501的集被用作为训练数据，并且被加载到图像数据库520中。然后，存储在图像数据库520中的训练数据用于训练525。训练525可使用各种训练算法来实现。例如，反向传播可用于图像信号处理(ISP)神经网络300的训练。

为了证明该方法的效力，卷积神经网络被训练并且被用于图像生成。从公开的数据集(微软研究院去马赛克数据集(demosaic data set))选择训练数据。图像和相应的RGB图像来自使用的三个相机模型。噪声图像和无噪声图像二者被使用。从每个图像(不重叠地)提取32×32的块，以形成输入和输出。大约10,000对的图像用于训练，大约5,000对的图像用于测试。在图6中描述在此公开的用于技术的验证的神经网络的配置。

在图6中，示出了多尺度图像处理神经网络600的方面。多尺度图像处理神经网络600配置有用于分开不同的频带的三个尺度。多个3×3滤波器被使用。均方差函数被用作代价函数。

在验证中，针对噪声Panasonic数据集的结构相似度指数测量(SSIM)和峰值信噪比(PSNR)被计算。PSNR被确定为36.0234，SSIM被确定为0.8958。相比之下，最先进的方法(通过学习型无参数随机场的联合去马赛克和去噪声)报告了36.9137的PSNR和0.8904的SSIM。自适应定向均匀性去马赛克(Adaptive Homogeneity-Directed Demosaicing)(AHD)提供34.3756的PSNR和0.8593的SSIM。因此，验证证明用于图像信号处理(ISP)的神经网络的使用是有效的，在大部分情况下用于执行图像信号处理的技术是优秀的。

在图7和图8中，提供图形图像的比较。每组的A图像呈现原始图像数据301(图7A、图8A)。每组的B图像呈现期望质量输出图像510(图7B、图8B)。每组的C图像呈现传统处理的图像512(图7C、图8C)。每组的D图像呈现处理的输出302(图7D、图8D)。

现在参照图9，示出了来自图8的图像的两个图像的近视图(特写镜头)。在图9A中，示出了传统处理的图像512的一部分。在图9B中，示出了与图9A相关的传统处理的图像512的一部分。可以看出，除了别的以外，图9B中描述的图像是更轮廓清晰的并且更少像素化的。

因此已经介绍了图像信号处理(ISP)神经网络的方面，一些附加特征和实施例被呈现。

有利地，每当期望的时候，可更新图像信号处理(ISP)神经网络。例如，如果成像装置180被重新配置有新的硬件(诸如，新的相机镜头)，重新训练图像信号处理(ISP)神经网络以考虑改进的光学特性可以是合适的。在一些实施例中，更新可被称为成像装置180的“重新训练”或“校准”。如果需要，则更新可包括训练数据的更小集。除了别的以外，各种性能测量可被跟踪。如果特定的性能测量反映差的性能，则可建议完整的重新训练。

在一些实施例中，成像装置180与远程***(诸如，服务器130)进行通信，以在图像信号处理(ISP)神经网络的可操作性的方面被下载到成像装置180之后，执行训练。因此，在一些实施例中，在使用成像装置180上的资源对图像信号处理(ISP)神经网络进行本地操作的同时，可以通过使用远程资源来训练图像信号处理(ISP)神经网络。用于分布计算的其他模型可被采用。

如上所述，图像信号处理(ISP)神经网络可被提供为存储在机器可读介质上的并且被配置用于执行在此描述的技术的机器可执行指令。图像信号处理(ISP)神经网络可补充或代替传统图像信号处理组件，诸如，图形处理芯片集。

图像信号处理(ISP)神经网络可通过与远程***(例如，服务器)进行通信来重新配置。例如，重新配置可根据产品的地理位置自动地完成。重新配置可根据用户的偏好来完成。

例如，在一些实施例中，图像信号处理(ISP)神经网络可用于传统的成像装置180，其中，成像装置180的输出用作用于图像信号处理(ISP)神经网络的原始数据输入301。在一些其他实施例中，加载到传统的成像装置180中的软件关闭存在的图形处理芯片集，并且安装图像信号处理(ISP)神经网络以执行图像信号处理任务。

图像信号处理(ISP)神经网络可以是定向的目的。例如，图像信号处理(ISP)神经网络可包括专用于给定目的(例如，医学成像)的***。更具体地说，仅作为示例，图像信号处理(ISP)神经网络可专用于处理与超声成像、CT扫描成像、磁共振成像(MRI)、x射线成像相关联的图像以及从伽马照相机和其他类型的医学成像输出的图像。

相似地，图像信号处理(ISP)神经网络可专用于其他目的。例如，仅作为示例，图像信号处理(ISP)神经网络可专用于安全任务，诸如，面部识别。图像信号处理(ISP)神经网络可专用于产品定向任务，诸如，机器视觉。除了别的以外，邮件分拣(即，笔迹分析)以及其他类似的任务可需要机器视觉。

可针对这里的教导的方面包括并且要求提供各种其他组件。例如，额外的材料、材料的组合和/或材料的省略可用于提供在这里的教导范围内的添加的实施例。

当解释本发明的元素或其实施例时，单数冠词意图表示存在元素中的一个或多个。相似地，形容词“其他的”在用于解释元素时，意图表示一个或多个元素。术语“包括”和“具有”意图是包含的，从而可存在除了列出的元素之外的额外的元素。术语“示例性”意在表示许多可行示例中的一个示例，而不被解释为必须涉及最佳或最好实施例。然而，在一些情况下，示例性实施例实际上可以是最佳或最好实施例的代表。

尽管已经参照示例性实施例描述了本发明，本领域技术人员将理解在不脱离本发明的范围的情况下可进行各种改变，并且等价物可代替其元素。此外，许多修改将被本领域技术人员理解，以在不脱离本发明的必要范围的情况下，将具体的仪器、情况或材料应用于本发明的教义。因此，意图是不将本发明限制为作为用于实现本发明的预期的最佳方式的公开的具体实施例，而本发明将包括落入权利要求范围内的全部实施例。

Claims

1.一种图像信号处理***，包括：

神经网络，通过输入原始数据图像的集以及相关的期望质量的输出图像的集来训练，

其中，神经网络包括用于接收输入图像数据的输入以及提供经处理的输出的输出；

其中，经处理的输出包括已经被针对至少一个图像质量属性调整的输入图像数据。

2.如权利要求1所述的图像信号处理***，其中，神经网络包括卷积神经网络。

3.如权利要求1所述的图像信号处理***，其中，神经网络已经通过反向传播技术被训练。

4.如权利要求1所述的图像信号处理***，其中，神经网络被配置为被下载到移动成像装置。

5.如权利要求1所述的图像信号处理***，其中，所述至少一个图像质量属性包括：图像大小、纵横比、亮度、强度、位深度、白度值、动态范围、灰阶、轮廓、平滑、斑点、颜色空间值、交织、校正、伽马校正、边缘增强、对比度增强、锐度和去马赛克。

6.一种用于提供图像信号处理***的方法，所述方法包括：

配置用于图像处理的神经网络；

使用原始数据图像的集和期望质量的输出图像的集来训练神经网络，其中，原始数据图像的集中的图像与期望质量的输出图像的集中的图像相互关联；

配置训练的神经网络来接收输入图像数据并且提供经处理的输出数据，其中，经处理的输出数据包括已经被针对至少一个图像质量属性调整的输入图像数据。

7.如权利要求6所述的方法，还包括：通过反向传播来训练神经网络。

8.如权利要求6所述的方法，还包括：使用成像装置来采集原始图像数据的集。

9.如权利要求8所述的方法，还包括：处理原始图像数据的集，以提供将被用作期望质量的输出图像的集的经传统处理的图像数据的集。

10.如权利要求6所述的方法，还包括：使用参考成像装置来采集期望质量的输出图像的集。

11.如权利要求10所述的方法，还包括：包括具有期望质量的输出图像中的至少一些的属性参考数据。

12.如权利要求6所述的方法，还包括：通过将存在的图像信号处理***应用到采集的原始图像，来采集期望质量的输出图像的集。

13.如权利要求6所述的方法，其中，训练的步骤在远程***上执行，并且配置训练的神经网络的步骤包括：将神经网络下载到成像装置。

14.如权利要求6所述的方法，其中，所述至少一个图像质量属性包括：图像大小、纵横比、亮度、强度、位深度、白度值、动态范围、灰阶、轮廓、平滑、斑点、颜色空间值、交织、校正、伽马校正、边缘增强、对比度增强、锐度和去马赛克。

15.一种成像装置，包括：

成像传感器、处理器和存储器；

图像信号处理***，包括：通过输入原始数据图像的集和相关的期望质量的输出图像的集来训练的神经网络，神经网络包括用于从成像传感器接收输入图像数据的输入以及提供经处理的输出的输出；其中，经处理的输出包括已经被针对至少一个图像质量属性调整的输入图像数据。

16.如权利要求15所述的成像装置，其中，所述成像装置包括：智能电话、平板计算机、相机和医学成像装置中的一个。

17.如权利要求15所述的成像装置，其中，包括神经网络的所述图像信号处理***被提供为对不包括神经网络的通用图像信号处理***的补充和对不包括神经网络的通用图像信号处理***的替代这两者之一。

18.如权利要求15所述的成像装置，还被配置用于与远程***进行通信，以在所述成像装置与远程***之间分配计算任务。

19.如权利要求15所述的成像装置，还被配置用于通用成像、医学成像、安全成像和产品成像中的一个。

20.如权利要求15所述的成像装置，其中，通过反向传播来执行训练操作。