CN107851193B

CN107851193B - 混合机器学习***

Info

Publication number: CN107851193B
Application number: CN201680041514.9A
Authority: CN
Inventors: 伊利亚·罗曼年科
Original assignee: Apical Ltd
Current assignee: Apical Ltd
Priority date: 2015-07-14
Filing date: 2016-07-13
Publication date: 2022-07-05
Anticipated expiration: 2036-07-13
Also published as: GB2556592A; US11055824B2; GB2556592B; CN107851193A; US20180130186A1; GB201512278D0; GB201802349D0; WO2017009396A1

Abstract

一种混合机器学习***(100、200、300、400、500、600、700、800)用于处理从图像传感器(105、205、305、405、505、605、705、805)获得的图像数据(110、210、310、410、510、610、710、810)。该***包括具有一个或多个硬编码滤波器(120、220、320、420、520、620、720、820)的前端(115、215、315、415、515、615、715、815)。该一个或多个硬编码滤波器中的每一个被布置为执行设定的任务。该***还包括被布置为接收并处理来自前端的输出的神经网络(125、225、325、425、525、625、725、825)。该一个或多个硬编码滤波器包括被硬编码为补偿从其获得图像数据的图像传感器的噪声分布的一个或多个硬编码噪声补偿滤波器。

Description

混合机器学习***

相关申请的交叉引用

本申请要求于2015年7月14日递交的英国专利申请No.1512278.1在35U.S.C.§119(a)和37CFR§1.55之下的权益，该申请的全部内容通过引用被结合于此。

技术领域

本公开涉及混合机器学习***和相关联的方法及计算机软件。

背景技术

机器学***铺：它们可以响应视野中的重叠区域。当用于图像识别时，已知的CNN具有看着输入图像的小部分的多层小神经元集合，称为感受域。随后平铺这些集合的结果，以使得它们重叠从而获得原始图像的更好的表示。这针对每个这种层进行重复。这些层形成层级***，其中第一层查找较低级别的特征。这通过卷积核与图像之间的卷积完成。后续层查找较高级别的特征。

虽然在机器学习***中使用ANN，特别是CNN存在益处，但它们可能引入限制或其他考虑。例如，用于CNN的训练阶段可能是不合需要地耗时的和/或计算密集型的。另一限制是CNN在计算量和网络配置数据的相关联大小方面的复杂性。这两个限制都使ANN的实际应用在许多方面困难且受约束。

将期望提供改进的机器学习***。

发明内容

根据本发明的第一方面，提供了一种用于处理从图像传感器获得的图像数据的混合机器学习***，该***包括：

包括一个或多个硬编码滤波器的前端，该一个或多个硬编码滤波器中的每一个被布置为执行设定任务；以及

被布置为接收并处理来自前端的输出的神经网络，

其中该一个或多个硬编码滤波器包括被硬编码为补偿从其获得图像数据的图像传感器的噪声分布的一个或多个硬编码噪声补偿滤波器。

根据本发明的第二方面，提供了一种在混合机器学习***中处理图像数据的方法，该方法包括：

在混合机器学习***的前端中处理从图像传感器获得的图像数据，该前端包括一个或多个硬编码滤波器，该一个或多个硬编码滤波器中的每一个被布置为执行设定任务；以及

在混合机器学习***的神经网络部分中接收并处理来自前端的输出，

其中该一个或多个硬编码滤波器包括被硬编码为补偿从其获得图像数据的图像传感器的噪声分布的硬编码噪声补偿滤波器。

根据本发明的第三方面，提供了一种配置混合机器学习***用于处理从图像传感器获得的图像数据的方法，该混合机器学习***包括：

包括一个或多个滤波器的前端；以及

被配置为接收并处理来自前端的输出的神经网络，该方法包括：

将滤波器中的一个或多个硬编码为噪声补偿滤波器，该噪声补偿滤波器被硬编码为补偿从其获得图像数据的图像传感器的噪声分布。

根据本发明的第四方面，提供了一种计算机软件，当被执行时，该计算机软件被适配为执行在混合机器学习***中处理图像数据的方法，该方法包括：

在该混合机器学习***的前端中处理从图像传感器获得的图像数据，该前端包括一个或多个硬编码滤波器，该一个或多个硬编码滤波器中的每一个被布置为执行设定任务；以及

根据本发明的第五方面，提供了一种计算机软件，当被执行时，该计算机软件被适配为执行配置混合机器学习***用于处理从图像传感器获得的图像数据的方法，该混合机器学习***包括：

包括一个或多个滤波器的前端；以及

根据本发明的第六方面，提供了一种用于处理图像数据的***，该***包括：

包括一个或多个硬编码滤波器的前端，该一个或多个硬编码滤波器被适配为补偿与从其获得图像数据的一个或多个图像传感器相关联的传感器噪声；以及

包括一个或多个神经网络的后端，该一个或多个神经网络被适配为接收并处理来自前端的输出。

可以提供一种非暂态计算机可读存储介质，其包括存储在其上的一组计算机可读指令，当由处理***执行时，该计算机可读指令使得处理***执行如本文所述的方法中的任一种。

本文所述的***可被包括在包括处理***的装置(例如，便携式设备)中，该处理***可以包括至少一个处理器和包括计算机程序指令的至少一个存储器，该至少一个存储器和计算机程序指令被配置成与该至少一个处理器一起使得装置至少执行如本文所述的方法。

根据以下参考附图仅以示例的方式给出的描述，其他特征和优点将变得明显。

附图说明

图1示出根据本发明的实施例的混合机器学习***的示例的示意性框图；

图2示出根据本发明的实施例的混合机器学习***的另一示例的示意性框图；

图3示出根据本发明的实施例的混合机器学习***的另一示例的示意性框图；

图4示出根据本发明的实施例的混合机器学习***的另一示例的示意性框图；

图5示出根据本发明的实施例的混合机器学习***的另一示例的示意性框图；

图6示出根据本发明的实施例的混合机器学习***的另一示例的示意性框图；

图7示出根据本发明的实施例的混合机器学习***的另一示例的示意性框图；

图8示出了示出根据本发明的实施例的方法的示例的流程图；以及

图9示出了示出根据本发明的实施例的方法的另一示例的流程图。

具体实施方式

在描述根据本发明的实施例的混合机器学习***的各种示例之前，现在将提供对机器学习***的进一步解释。

一些已知的机器学习***专注于层级特征提取和分类。分类涉及基于包含其类别成员关系已知的观察结果(或“实例”)的数据训练集来标识新观察结果属于一组类别(或“子群体”)中的哪一个。各个观察结果被分析成一组可量化属性，称为“解释变量”或“特征”。实现分类的算法可以称为分类器。

在一些已知的机器学习***中，算法在低级别进行操作以检测原始图像中的特定特征。此类特征的示例包括例如边缘和拐角。随后，在较高级别，基于在较低级别标识的特征来检测更复杂或较高层的特征。随后应用经训练的分类器来标识所检测到的、复杂的特征所属的类别。

滤波器可以由工程师在称为“手工制作”或“硬编码”的过程中设计。硬编码滤波器是其值被设定或固定以使得滤波器执行设定任务的滤波器。硬编码滤波器的值在迭代学习或训练过程中不变。

例如，较低级别的滤波器可以被设计为例如检测拐角和/或边缘。较高级别的滤波器还可以被设计为标识与直角拐角相连的边缘。识别器可以使用这些工程滤波器来构建。原始图像数据可以被发送到识别器并由识别器处理，以使得较低级别的特征提取操作以标识图像中的拐角和边缘，并且在较高级别，特征提取操作标识与直角拐角相连的边缘。随后分类器可以针对例如存在方形对象而激活。然而，工程师手动创建待检测的一组特征的特征工程阶段可能是复杂且耗时的。

深度学习与手工制作的特征和分类方法形成对照。21世纪后期，深度学习技术的出现已推进ANN的早期工作。深度学习，特别是CNN，现在已成为机器学习中的主导且高效力量。CNN涉及基于构建***来搜索或标识的对象来在具有大量示例的原始数据上训练***。特征未在CNN中预定义。相反，CNN在训练阶段自学习特征。因此，不同于其中在训练阶段期间不学习滤波器的值的上述硬编码特征提取***，不需要初始地考虑或限定常规CNN中的最佳特征，因为这些特征在训练阶段期间被学习。

CNN使用卷积核，该卷积核还被称作内核、卷积矩阵和掩码。卷积核是对模糊、锐化、压印、边缘检测等有用的小矩阵。这通过卷积核与图像之间的卷积实现。输出图像中的给定像素的值通过将卷积核中的每个值乘以对应的输入图像像素值并对结果进行求和来计算。

例如，人可以通过识别动物的特征(例如，肢体的数量、皮肤的纹理(例如，有毛皮的、有羽毛的、还是有鳞的等)、动物的大小等)来分类动物的图像。然而，单层ANN将需要学习输出标签的功能，以仅使用图像中的像素的强度来对分类图像中的动物。单层ANN不能学习输入数据的任何抽象特征，因为它仅限于只有一层。然而，多层ANN可以创建内部表示并学习其多层中的每一层中的不同特征。例如，第一层可以负责使用来自图像中的各个像素的输入来学习图像中的线的方向。第二层例如可以组合在第一层中学习到的特征并学习标识简单形状(例如，圆)。每个更高层学习更抽象特征，例如，肢体的数量、皮肤纹理等，这些抽象特征可以随后用来分类图像。每一层找到在它下面的层中的模式。这种创建独立于外部输入的内部表示的能力赋予多层ANN它们的能力。

ANN使用反向传播算法来训练网络。开发反向传播算法的目标和动机是找到一种方法来训练多层ANN，以使得其可以学习适当的内部表示以允许其学习输入到输出的任何任意映射。

如上所指示，CNN需要训练阶段。在训练阶段期间，CNN被展示大量(例如，数百万)原始图像作为输入。应用于跨所有层(或“堆叠层”)的卷积核的参数在训练阶段期间通过自动化过程逐渐调整，直到持续地实现所期望的输出。例如可能存在此类卷积核的10-30个堆叠层。例如，如果CNN被设计成识别猫，则CNN被展示为数百万的猫和非猫的图像，并且用于跨所有堆叠层的卷积核的参数改变，直到CNN可以可靠地标识带有猫的图像。训练之后，这些层形成层级***，其中第一层查找较低级别的特征(例如，边缘和拐角)，较高级别查找由边缘和拐角形成的整体形状，并且最高级别仅当在图像中呈现CNN已被训练来检测的复杂且特定对象(该示例中为猫)时才激活。

CNN遭受许多问题，包括多尺度问题、缺乏灵活性以及难以快速学习。

在已知的CNN中的多尺度问题方面，一个具有挑战性的问题是能够识别对象，而不管其尺度，因为CNN中的卷积层难以标识跨包含对象的不同图像大小变化非常大的对象。这主要是因为卷积层具有特定大小的内核或滤波器。与此同时，在多个尺度的图像上使用CNN并且在每个尺度上评估大量区域方案将使***的复杂性增加几个数量级，从而使得在实时***中使用CNN来进行目标检测是不可能的。作为示例，如果5×5卷积核被应用于图像以检测大小为224×224像素的对象，则卷积滤波器的输出将充分地对图像特征进行编码，从而描述重要的对象特征。如果相同的对象由具有四倍的分辨率的照相机捕获，或者以一半的距离捕获，则该对象将以448×448分辨率的像素阵列表示。应用相同的5×5内核可能导致具有噪声的响应，该响应将包含图像特征以及噪声和不显著的图像细节，这将过于精细而不能描述显著的对象特征。因此，根据内核的大小，输出可能不可用。在CNN中应用显著更大的内核存在问题，主要是由于***复杂性的增加并且因此训练工作的大大增加。因此，将需要加强CNN，以使得其可以标识覆盖至少10倍大小变化的对象。随后将可以分类同一对象，无论其是大的还是小的、在远处还是在近处。由加州大学伯克利分校开发的已知方法包括在CNN中的卷积核阶段之后添加若干层(例如，五层)，以分析不同尺度的对象。该方法涉及计算特征响应之间的空间依赖性并增加CNN的大小。

在已知的CNN中的缺乏灵活性方面，每个卷积核都响应于特定特征而激活。可能难以准确地理解那些特征是什么，特别是在CNN层级中的较高层中，其中，这些较高层激活于更抽象、更高级别的特征。解决该问题的一种已知方式是增加层数。因此做时，CNN至少理论上将具有更多层，每层同样至少理论上都能够响应于不同的特征而激活。总的来说，具有更多层的CNN在能够激活于更多数量的对象(例如，不仅是猫，还可以是狗、马、人、汽车等)的意义上说将更加灵活。然而，增加另外的层可以大大增加CNN的复杂性。对于云实现的CNN，复杂性可能是较小问题。然而，这在硬件设备(例如，图形处理单元(GPU)或片上***(SoC))中实现CNN可能是严重的障碍，特别是在该硬件设备在功率受限产品(例如，智能电话)中操作的情况下。

在已知的CNN中的难以快速学习的方面，可以训练CNN来检测并分类许多不同的对象，例如多达1000个类或对象。但是，学习每个新对象或类设计提供足够大的训练集，以使得CNN可以检测该特定对象或类。这种CNN训练可能需要大量的时间来学习新对象。例如，在高性能计算集群上全面训练CNN可能要花费好几天。已知的CNN的这个特征意味着已知的CNN不适合于在线学习功能，其中移动设备通过简单暴露于新对象来学习该对象以及对象的清楚注解。

总之，特征工程是使用将被识别和分类的原始数据的域知识来手动创建使机器学习算法更好地工作的特征的过程。深度学习***的感知优势之一是不存在任何特征工程。相反，深度学习***常规上是完全自学习，其中随着从深度学习***的输入层到输出层吸收并处理原始数据，自动产生特征学习和层级特征提取。一方面的基于手工制作的滤波器的特征提取和/或分类以及另一方面的深度学习已被看作递送例如用于计算机视觉中的高效机器学习的单独且不同的方法。

如上所指示，在机器学习中，特征是正在观察的现象的个体可测量属性。选择信息型、有差别且独立的特征是用于模式识别、分类和回归中的高效算法的重要的手工制作步骤。机器学习和模式识别的一些常规应用中的预备步骤涉及选择特征的子集，或者构建新的且减少的特征集以促进学习并提高泛化能力和可解释性。然而，在常规的深度学习***(例如，ANN)中不执行选择明确的特定特征或明确地构建特定特征。这是因为深度学习***的感知能力从原始数据开始并且随后构建端到端***，该端到端***可以从原始数据开始为自身学习用于检测的最佳特征。因此，在常规的深度学习***中，不存在用于特定特征的检测器或滤波器的先验的手工制作的硬编码。

现在将描述各种示例，针对视频帧内的具有变化大小的较大或可能无限数目的对象和/或在不需要利用包括具有变化大小的特定对象的图像来训练***的情况下，这些示例能够实时搜索并分类图像。在这些示例中，提供了一种使用硬编码的前端和神经网络后端两者的混合机器学习***。此外，混合机器学习***通过补偿用来获得在混合机器学习***中处理的图像数据的图像传感器的传感器噪声，来产生更准确的结果。

参考图1，示出了混合机器学习***100的示例的示意性框图。混合机器学习***100使用手工制作的滤波器子***和深度学习子***两者。混合机器学习***100用于处理图像数据。

混合机器学习***100可以被配置为用作计算机视觉***。计算机视觉***例如可以是自主车辆计算机视觉***和/或机器人计算机视觉***。计算机视觉***例如可以是用于图像、人、面部、动物、场景和/或另一种类型的对象的识别、检测、解释、字幕和/或分类***。

混合机器学习***100包括一个或多个图像传感器105。图像传感器是检测并输送可以用来表示图像的信息的传感器。(一个或多个)图像传感器105例如可以包括一个或多个电荷耦合设备(CCD)和/或一个或多个互补金属氧化物半导体(CMOS)设备。

一个或多个图像传感器105被配置为输出图像数据110。因此，图像数据110从(一个或多个)图像传感器105获得。

在一些已知***中，假定产生更强响应的滤波器代表更强的图像特征。然而，在此类***中使用的图像数据可以是图像处理流水线的产品，从而用未知或至少未使用的设定来处理图像传感器数据。与原始传感器数据相比，这种处理可以显著地改变图像数据，从而破坏图像的各个部分之间的线性相关性并且使不同图像元素的外观不平衡。

在一些示例中，图像数据110可以是原始图像数据。原始图像数据是已从(一个或多个)图像传感器105获得的经最低限度处理的数据。原始图像数据例如可以是拜耳图像数据。

替代地，图像数据110可能例如通过已被转换成另一格式(例如，RGB)而已被处理。

图像数据110可被包括在视频帧中。

一个或多个图像传感器105被配置为将图像数据110输出到混合机器学习***100的前端115。

前端115包括一个或多个硬编码滤波器120。一个或多个硬编码滤波器120中的每一个被布置为执行设定任务或特定任务。(一个或多个)滤波器120可以包括大致地或以其他方式复制在常规CNN的较低级别处执行的功能的任何硬编码滤波器。

如上所指示，硬编码滤波器是其值被设定或固定以使得滤波器执行设定任务的滤波器。硬编码滤波器的值在迭代学习或训练过程中不变，而是被设定或固定的。硬编码滤波器的值不受在混合机器学习***100中进行的训练或学习的影响。

常规CNN例如可以花费大量的时间来在其较低层处会聚到非常接近于伽柏(Gabor)滤波器的层。伽柏滤波器是可以用于边缘检测的一类滤波器。因此，在已知CNN的早期阶段学习并隐式地生成的特征可以替代地基于先前已知的特征并独立于正在执行的任何训练而被明确地硬编码或手工制作到滤波器120中。使用明确的、硬编码的滤波器意味着对于将要建模的(一个或多个)滤波器120已知或可疑的信息可以被构建到混合机器学习***100中，而不是必须在训练阶段期间被学习。

在该示例中，前端115包括一个或多个硬编码噪声补偿滤波器120。一个或多个硬编码噪声补偿滤波器120被布置为执行的设定任务是噪声补偿任务。在该示例中，一个或多个硬编码噪声补偿滤波器120被硬编码为补偿从其获得图像数据110的(一个或多个)图像传感器105的噪声分布。常规CNN不能被容易地编程为使用传感器噪声分布信息。

特征提取可能涉及过滤图像数据100并使滤波器的响应归一化。因此，混合机器学习***100可以基于并考虑从其获得图像数据110的(一个或多个)图像传感器105的噪声分布来使(一个或多个)硬编码噪声补偿滤波器120的响应归一化。

可能存在与图像传感器相关联的不同类型的噪声。

例如，由模拟电路产生的模拟噪声具有热性质，并且可以通过零均值高斯随机过程来近似。模拟噪声不依赖于光的特性，并通过模拟传感器组件被添加到有用的图像数据。

固定模式噪声可能来源于多路复用器和传感器缺陷，并且不是时间的函数。传感器缺陷影响与图像传感器相关联的所产生的噪声的水平。传感器中所发现的传感器缺陷的示例包括行噪声、列噪声和固定模式噪声。

光子噪声(还称作散粒噪声)也可被添加到图像数据。由于由传感器捕获的光子的数量的增加，光子噪声随着光照水平的增加而增加。

在边缘检测期间考虑传感器特性(例如，(一个或多个)图像传感器105的噪声的模型或分布)可以提供更稳健的边缘检测，这可以例如在弱光条件下产生改进的特征或对象提取或检测。因此，在全部或限定部分的图像中，(一个或多个)图像传感器105的噪声的模型或分布可以用来通过考虑一个或多个传感器特性而使特征提取响应归一化。

(一个或多个)噪声补偿滤波器120可能不一定补偿与(一个或多个)图像传感器105相关联的所有噪声，例如它们可能仅补偿噪声中的一些。当已分析了(一个或多个)图像传感器105的噪声分布时，硬编码滤波器可以被设计为明确地补偿(一个或多个)图像传感器105的特定噪声分布。

因此，可以分析(一个或多个)图像传感器105的噪声分布以改进特征提取，从而例如为边缘检测可靠性估计提供参考。从而可以通过在边缘检测期间考虑传感器特性来提供更稳健的边缘检测方法。

GB专利申请No.1422787.0和国际专利申请No.PCT/GB2015/054076更详细地描述了使用传感器噪声分布，并且其全部内容通过引用被结合于此。

前端115可以包括其他类型的硬编码滤波器。此类滤波器的示例包括但不限于伽柏滤波器和相关滤波器。相关滤波器的示例包括但不限于：锐化滤波器、增亮滤波器、噪声补偿、移除或减少滤波器、纹理特征提取滤波器、自动白平衡滤波器、颜色提取滤波器和非伽柏边缘检测滤波器。

前端115被配置为将数据输出到一个或多个神经网络125。一个或多个神经网络125被布置为接收并处理来自前端115的输出。(一个或多个)神经网络125可以包括一个或多个CNN。实际上，前端115可以替代常规CNN的较低层中的几个。

混合机器学习***100可以被布置为实时处理图像数据110。因此，在被使用情况下，原始图像传感器数据可以被实时处理。

混合机器学习***100可以包括是在便携式装置中。便携式装置可以是智能手机。

因此，混合机器学习***100包括前端115，该前端115包括一个或多个滤波器，即(一个或多个)硬编码噪声补偿滤波器120。在下面更详细描述的一些示例中，前端115可以额外地或替代地包括一个或多个算子，例如一个或多个分割算子。一个或多个滤波器和/或一个或多个算子各自被明确地限定以执行设定任务，并且不是迭代学习过程的结果，例如，参见已知CNN。前端115的一个或多个输出被馈送到(一个或多个)神经网络125并由其处理，该(一个或多个)神经网络125可以包括一个或多个CNN。因此，(一个或多个)滤波器和/或(一个或多个)算子不是可编程的或可适配的，但是是硬编码的。因此，它们不同于已知的典型CNN中使用的卷积核，在已知的典型CNN中，通过迭代训练过程来调整或调节其参数，以使得在训练之后，它们最终触发图像中的特定特征，如边缘和拐角。

混合机器学习***100还不同于简单地将层的预先训练的前端添加到已知ANN，例如，CNN。预先训练的前端中的层曾经是常规的、可编程的或可适配的层，并且因此不是硬编码的或手工制作的。本文所述的(一个或多个)硬编码滤波器和/或(一个或多个)算子与预先训练的CNN层的不同之处在于，(一个或多个)硬编码滤波器和/(一个或多个)或算子的数学建模可以用来选择完全正交的基函数，这些基函数可以用来以最紧凑和高校的形式表示图像数据110中的信息。

还如上所指示，例如考虑基于(一个或多个)图像传感器105的表征的信噪比，本文所述的(一个或多个)硬编码滤波器和/或(一个或多个)算子允许根据(一个或多个)图像传感器105的噪声分布来对它们的响应进行加权。这种行为不能由已知CNN来学习。因此，(一个或多个)滤波器和/或(一个或多个)算子是手工制作的或硬编码的以使用图像传感器噪声分布数据。

提供混合机器学习***100，其实际上绕过已知CNN中存在的初始卷积阶段，并且替代地用一个或多个手工制作的滤波器(其可以包括一个或多个伽柏滤波器和/或一个或多个相关滤波器)的特定选择来代替初始阶段。

因此，机器学习***100可以被看作混合***，其组合了来自计算机视觉的两个常规的单独且不同的区域的方面，即，使用一个或多个硬编码滤波器和/或一个或多个硬编码算子来组合特征提取，该一个或多个硬编码滤波器和/或一个或多个硬编码算子执行已知CNN最终将在训练之后学习如何与在图像中存在较高级别特征时激活的已知CNN的方面一起执行的任务。

已知CNN的许多较低端层可以实际上被消除，所以机器学习***的总体结构比已知CNN的更紧凑。CNN的其余的层把已经在前端115中经历显著的相关解释和处理并且因此可以更高校地学习激活或被训练为识别特定类型的物品或这些物品的实例的图像数据当作其输入。

混合机器学习***100颠覆了常规深度学习***的关键假设之一，即它们应该把原始数据当作输入并且完全避免手工制作或硬编码的特征工程。

与已知CNN相比，混合机器学习***100导致神经元的数量减少，因为前端115不包括卷积核。相反，混合机器学习***100提供清晰的初始状态，从而产生等同于线性分类器的结果，使进一步的训练更加可预测并且更快。

参考图2，示出了混合机器学习***200的示例的示意性框图。图2所示的混合机器学习***200包括与图1所示的和上述的混合机器学习***100的对应部件相同或相类似的许多组件。此类组件在图2中使用与图1中的对应组件相同的附图标记来指示，但增加了100。

在该示例中，混合机器学习***200的前端215包括一个或多个算子230。

一个或多个算子230可以包括一个或多个分割算子。分割算子将图像划分成几个不重叠的区域，这些区域中的每一个在一个或多个特征中是同质的，并且在这种同质性方面是最大的。可以使用对象分割的方法，该方法创建与图像背景分开的对象的模板。分割方法通过选择起始点开始，并通过使用算法来寻找围绕初始起始点的类似像素。该算法继续寻找其他类似像素，直到其最终到达边缘或边界并停止。每个起始点都演变成形成对象的部分的多个假设层。然后组合来自每个起始点的多个假设以创建对象的总体轮廓的模板。分割方法具有比CNN执行分割更小的尺寸依赖性。分割方法对于变形的对象也更有弹性。可以使用从分割方法得到的多个假设的整个集合。

因此，该示例提供了被布置为在一个或多个神经网络225的前端215处实现一个或多个分割技术的一个或多个硬编码滤波器220和一个或多个分割算子230的组合。

一个或多个硬编码滤波器220和一个或多个算子230(例如，一个或多个分割算子)可以以多种大小尺度来以这种方式组合在特征工程的前端215中，因为它们是不相关的过程。(一个或多个)滤波器220和(一个或多个)算子230是不相关的，并且在不同尺度上计算的那些也是弱相关的。组合结果随后被馈送到(一个或多个)神经网络225中用于较高级别特征或概念的提取或通过较高级别特征或概念的激活。

在已知CNN中，许多层被训练以提供尺度不变性。上述的架构形成比已知CNN更简单的网络，但具有可比较的性能。另外，它具有显著的尺度不变性特征。因为它具有比具有可比较的性能的已知CNN更少的层，所以实现它的计算量也较小。在可以在功率受限的设备(例如，智能电话)上运行的包括基于硬件的***(例如，SoC)的实时***中进行实现也更高效。由于混合机器学习***可以实时访问所需数量的图像并且可以实时学习新对象，所以复杂性降低支持在线学习功能。具体地，通过使用手工制作特征提供的降维使CNN参数的数量减少了5-10的因子。这使对(一个或多个)神经网络的训练更快，并减少训练(一个或多个)神经网络所需的图像数量。

在训练初始化方面，硬编码的前端阶段以合理的初始概率比给出初始响应，这进而使得更高效地汇聚到解。

混合机器学习***200的训练可以从准备训练数据集开始。包含在训练集中的图像通过(一个或多个)手工制作的输入滤波器220和/或(一个或多个)算子230，以创建用于训练(一个或多个)神经网络225的数据集。此外，混合机器学习***200的(一个或多个)神经网络225部分使用已知的常规随机反向传播方法在预先计算的数据集上进行训练。对(一个或多个)神经网络225的训练使用比训练已知神经网络更有效的反向传播方法来执行，因为混合机器学习***200已经知道初始有用的解。相比之下，训练传统CNN是完全随机的并且涉及具有大维空间的大量参数。

使用预先计算的CNN数据输入允许使用线性回归、费歇(Fisher)线性判别或支持向量机(SVM)来建立线性分类器，以找到分类的解。所获得的解可以转换成CNN初始状态，这将允许更快地训练混合机器学习***220的CNN部分225。

通过使用一个或多个滤波器220和分割方法的组合的结果，与CNN相比，混合机器学习***220可以利用更好的起始点来预先初始化，以便高效地寻找感兴趣的对象。(一个或多个)神经网络225中的神经元的数量和线性层的大小由此减小。

在该示例中，如上所限定的，前端215包括一个或多个滤波器220，例如，除了(一个或多个)硬编码噪声补偿滤波器和一个或多个算子230(例如，一个或多个分割算子)之外，它还可以包括一个或多个伽柏滤波器。(一个或多个)滤波器220和/或(一个或多个)算子230可以被选择以形成用于表示图像数据210的完整的正交基。具体地，一个或多个滤波器220和/或(一个或多个)算子230可以被选择以完整地表示图像数据210，从而允许从滤波器-算子表示无损地重新构建图像数据210。存在可以用来编码或表示图像数据210的各种不同的基(例如，傅立叶、小波和伽柏)，所以可以将其反转回图像形式或另一原始形式。正交基表示具有最小损失的信息，并且其特性可以使用数学方法进行研究。正交基不一定以用于机器学习过程的最佳形式来表示数据，例如，SVM。然而，伽柏表示可以与神经网络(例如，CNN)成功地耦合，特别是考虑到如上所述的使用传感器表征数据的能力。

分割方法可以独立于(一个或多个)滤波器220而与神经网络模型相结合来使用。分割方法可以用于特征提取作为用于图像分类的前端。随后图像分类可以发生在(一个或多个)神经网络225中。已开发方法来寻找并理解多边形，这些多边形进而形成线性分类器需要理解的模式。已开发方法来限定(一个或多个)线性分类器可以用来识别对象的特征。从分割方法产生的包含关于图像中的(一个或多个)对象的信息的中间假设的整个集合可被保持并用于分类。区域之间的重叠可被高效地使用和传播。分割可以高效地生成任何形状，这产生灵活的网络。

参考图3，示出了混合机器学习***300的示例的示意性框图。图3所示的混合机器学习***300包括与图1所示的和上述的混合机器学习***100的对应部件相同或相类似的许多组件。此类组件在图3中使用与图1中的对应组件相同的附图标记指示，但增加了200。混合机器学习***300可以包括一个或多个其他部件，例如一个或多个算子。

在机器学习***中检测特定颜色可能是困难的。例如，检测与红色裙子相反的蓝色裙子可能是挑战性的。存在许多已知的方法来检测正确的视觉颜色。

一种已知的方法涉及测量像素统计，并使用自动白平衡(AWB)算法来尝试估计光源。颜色校正矩阵被编程并应用于像素以便获得经白平衡(WB)校正的像素。当原始颜色接近可以表示的位数的极限时，会出现这种方法的局限性。在这种情况下，发生削减并且信息丢失，特别是在边缘处。例如，明亮的红色对象最后可能变成粉红色，而蓝色可能变成天空的苍白色。

另一种已知的方法是实现嵌入在照相机引擎内的颜色校正算法，以使得可以操纵像素流并针对各种不同的设置(例如，针对室内应用以及户外应用)校正颜色变化。然而，这可能导致色域的削减，其中，丢失可能已使用的像素信息。作为示例，在汽车应用中使用的高动态范围(HDR)照相机可以操纵图像以避免削减。图像可能曝光不足3的因子，从而降低图像色域。可以避免削减，但图像比原始图像显著更暗。

由于即使在上述(一个或多个)滤波器或(一个或多个)算子之前校正了颜色，颜色信息也仍可能丢失，所以在混合机器学习***300中提供用于真实颜色提取的特征提取层。

在该示例中，混合机器学习***300的前端315包括一个或多个颜色特征提取器335。混合机器学习***300被配置为将来自(一个或多个)图像传感器305的一个或多个输入像素流340直接从该(一个或多个)图像传感器305提供给(一个或多个)颜色特征提取器335。

(一个或多个)颜色特征提取器335可以在不削减的情况下将经由(一个或多个)输入像素流340获得的输入像素转换成YUV色彩空间分量。YUV色彩空间考虑到人类感知来对彩色图像进行编码。YUV色彩空间根据与明度相关的亮度(Y)和与颜色分量相关的色度(UV)来定义颜色。与RGB相比，YUV的使用可能是有益的，其中希望掩盖来自人类感知的传输误差或压缩伪像。

(一个或多个)颜色特征提取器335可以将经由(一个或多个)输入像素流340获得的输入像素转换成HSV色彩空间分量，即色调、饱和度和明暗度。HSV使用与和RGB(笛卡尔)相关联的几何结构不同的几何结构(圆柱坐标)。色调是颜色的阴影，饱和度与颜色的纯净度和清晰度相关，并且明暗度是颜色的亮度或暗度。HSV分量可以从RGB值导出。可以使用转换饱和度方法从(一个或多个)输入像素流340提取色调和饱和度分量。与RGB或YUV相比，HSV的使用可能是有益的，其中寻找检测特定颜色

此外，YUV和HSV色域比RGB的色域更宽，所以例如RGB到YUV的转换可以完全限定原始的RGB空间。然而，YUV空间内的操纵可能产生不能被映射回RGB形式的数据。

颜色特征提取算法可被嵌入在照相机引擎内，并且直接利用来自图像传感器的线性原始数据。因此，可以在前端315中添加附加的颜色特征提取器层。

参考图4，示出了混合机器学习***400的示例的示意性框图。图4所示的混合机器学习***400包括与图1所示的和上述的混合机器学习***100的对应部件相同或相类似的许多组件。此类组件在图4中使用与图1中的对应组件相同的附图标记指示，但增加了300。混合机器学习***400可以包括一个或多个其他组件，例如一个或多个算子和/或一个或多个颜色特征提取器。

在该示例中，混合机器学习***400的前端415包括一个或多个伽柏滤波器445。

参考图5，示出了混合机器学习***500的示例的示意性框图。图5所示的混合机器学习***500包括与图1所示的和上述的混合机器学习***100的对应部件相同或相类似的许多组件。此类组件在图5中使用与图1中的对应组件相同的附图标记指示，但增加了400。混合机器学习***500可以包括一个或多个其他部件，例如一个或多个算子和/或一个或多个颜色特征提取器和/或一个或多个伽柏滤波器。

在该示例中，混合机器学习***500的前端515包括一个或多个相关滤波器550。一个或多个相关滤波器550可以包括一个或多个锐化滤波器。一个或多个相关滤波器550可以包括一个或多个增亮滤波器。一个或多个相关滤波器550可以包括一个或多个边缘检测滤波器。一个或多个相关滤波器550可以包括一个或多个纹理特征提取滤波器。一个或多个相关滤波器550可以包括一个或多个另外的噪声补偿滤波器。

参考图6，示出了混合机器学习***600的示例的示意性框图。图6所示的混合机器学习***600包括与图1所示的和上述的混合机器学习***100的对应组件相同或类似的许多组件。此类组件在图6中使用与图1中的对应组件相同的附图标记指示，但增加了500。混合机器学习***600可以包括一个或多个其他组件，例如一个或多个算子和/或一个或多个颜色特征提取器和/或一个或多个伽柏滤波器和/或一个或多个卷积滤波器。

在该示例中，混合机器学习***600包括一个或多个多尺度分解引擎655。多尺度分解引擎是可以将图像数据分解成多个不同的等级或尺度，并且搜索具有许多不同大小尺度的图像周围的窗口的高效硬件引擎。这些不同的等级或尺度中的每一个对应于不同的分辨率。(一个或多个)多尺度分解引擎655被布置为从图像传感器605接收图像数据610并且将数据输出到前端615。图像数据610可以是原始图像数据。(一个或多个)多尺度分解引擎655可以是(一个或多个)粗糙多尺度分解引擎，因为经受分解的图像的分辨率相对较低。

参考图7，示出了混合机器学习***700的示例的示意性框图。图7所示的混合机器学习***700包括与图1所示的和上述的混合机器学习***100的对应组件相同或类似的许多组件。此类组件在图7中使用与图1中的对应组件相同的附图标记指示，但增加了600。混合机器学习***700可以包括一个或多个其他组件，例如一个或多个算子和/或一个或多个颜色特征提取器和/或一个或多个伽柏滤波器和/或一个或多个卷积滤波器和/或一个或多个其他多尺度分解引擎。

在该示例中，混合机器学习***700包括被布置为从前端715接收数据的一个或多个多尺度分解引擎760。

在该示例中，一个或多个多尺度分解引擎760被布置为将数据输出到神经网络725。在一些示例中，前端中的一个或多个滤波器和/或一个或多个算子中的每一个被布置为将特征输出到(一个或多个)多尺度分解引擎。(一个或多个)多尺度分解引擎760可以是详细的(或“精细的”)(一个或多个)多尺度分解引擎，因为经受分解的图像的分辨率相对较高。

来自一个或多个硬编码滤波器720和/或一个或多个算子中的一些或全部的输出可以被发送到(一个或多个)多尺度分解引擎760。来自(一个或多个)多尺度引擎760的输出随后被进一步组合并被发送到(一个或多个)神经网络725。具体地，在每一层处，部分和被计算并通过(一个或多个)神经网络725中的神经元。计算神经元之间的交叉依赖性并且提供空间依赖性。结果随后与各种权重组合。该过程重复多次。

参考图8，示出了处理图像数据的方法800的示例。该方法在混合机器学习***中执行。

在项805处，在混合机器学习***的前端中处理从图像传感器获得的图像数据。混合机器学习***的前端包括一个或多个硬编码滤波器。一个或多个硬编码滤波器中的每一个被布置为执行设定任务。一个或多个硬编码滤波器包括硬编码噪声补偿滤波器，该硬编码噪声补偿滤波器被硬编码以补偿从其获得图像数据的图像传感器的噪声分布。

在项810处，在混合机器学习***的神经网络部分中接收并处理来自前端的输出。

参考图9，示出了配置混合机器学习***用于处理从图像传感器获得的图像数据的方法900的示例。混合机器学习***包括具有一个或多个滤波器的前端和被配置为接收并处理来自前端的输出的神经网络。

在项905处，滤波器中的一个或多个被硬编码为噪声补偿滤波器，该噪声补偿滤波器被硬编码为补偿从其获得图像数据的图像传感器的噪声分布。

提供各种措施(例如，混合机器学习***、方法和计算机软件)用于在混合机器学习***中处理从图像传感器获得的图像数据。该***包括具有一个或多个硬编码滤波器的前端。一个或多个硬编码滤波器中的每一个被布置为执行设定任务。该***还包括被布置为接收并处理来自前端的输出的神经网络。一个或多个硬编码滤波器包括被硬编码为补偿从其获得图像数据的图像传感器的噪声分布的一个或多个硬编码噪声补偿滤波器。

前端可以包括一个或多个分割算子。

前端可以包括一个或多个颜色特征提取器。

混合机器学习***可以被配置为经由一个或多个输入像素流将从图像传感器获得的输入像素提供给一个或多个颜色特征提取器。

(一个或多个)颜色特征提取器可以被配置为在不削减的情况下将一个或多个输入像素流中的输入像素转换成YUV色彩空间分量。

(一个或多个)颜色特征提取器可以被配置为从一个或多个输入像素流提取色调饱和度分量。

前端可以包括一个或多个伽柏滤波器。

前端可以包括一个或多个相关滤波器。

一个或多个相关滤波器可以包括一个或多个锐化滤波器、一个或多个增亮滤波器、一个或多个边缘检测滤波器、一个或多个纹理特征提取滤波器、一个或多个自动白平衡滤波器、一个或多个颜色提取滤波器和/或一个或多个另外的噪声补偿滤波器。

混合机器学习***可以包括被布置为从图像传感器接收图像数据并且将数据输出到前端的一个或多个多尺度分解引擎。

混合机器学习***可以包括被布置为从前端接收数据的一个或多个多尺度分解引擎。

被布置为从前端接收数据的一个或多个多尺度分解引擎可以被布置为将数据输出到神经网络。

图像数据可以是原始图像数据。

图像数据可被包括在视频帧中。

混合机器学习***可以被布置为实时处理图像数据。

神经网络可以是CNN。

混合机器学习***可以是在便携式设备中。

便携式设备可以是智能电话。

混合机器学习***可以被配置为用作计算机视觉***。

计算机视觉***可以包括图像识别***。

计算机视觉***可以包括面部识别***。

混合机器学习***可以被配置为用作分类和加字幕***。

***可以被布置为基于从其获得图像数据的图像传感器的噪声分布来使一个或多个硬编码噪声补偿滤波器的响应归一化。

提供各种措施(例如，混合机器学习***、方法和计算机软件)用于在混合机器学习***中处理图像数据。在混合机器学习***的前端中处理从图像传感器获得的图像数据。前端包括一个或多个硬编码滤波器。一个或多个硬编码滤波器中的每一个被布置为执行设定任务。来自前端的输出在混合机器学习***的神经网络部分中被接收和处理。一个或多个硬编码滤波器包括硬编码噪声补偿滤波器，该硬编码噪声补偿滤波器被硬编码为补偿从其获得图像数据的图像传感器的噪声分布。

提供各种措施(例如，混合机器学习***、方法和计算机软件)用于配置混合机器学习***用于处理从图像传感器获得的图像数据。混合机器学习***包括具有一个或多个滤波器的前端和被配置为接收并处理来自前端的输出的神经网络。滤波器中的一个或多个被硬编码为噪声补偿滤波器，该噪声补偿滤波器被硬编码为补偿从其获得图像数据的图像传感器的噪声分布。

提供各种措施(例如，***、方法和计算机软件)用于在***中处理图像数据。该***包括具有一个或多个硬编码滤波器的前端和具有一个或多个神经网络的后端，该一个或多个硬编码滤波器被适配为补偿与从其获得图像数据的一个或多个图像传感器相关联的传感器噪声，该一个或多个神经网络被适配为接收并处理来自前端的输出。

以上的实施例应被理解为说明性示例。设想另外的实施例。

在上述示例中，在(一个或多个)神经网络中执行分类。在其他示例中，混合机器学习***包括一个或多个线性分类器，该一个或多个线性分类器被布置为接收来自前端的输出，执行分类并且输出到(一个或多个)神经网络。在一些此类示例中，一个或多个多尺度分解引擎可被馈送到(一个或多个)线性分类器中。在一些示例中，(一个或多个)线性分类器馈送到一个或多个CNN中。

上面描述了各种措施(例如，混合机器学习***、方法和计算机软件)用于在混合机器学习***中处理从图像传感器获得的图像数据。该***包括具有一个或多个硬编码滤波器的前端。一个或多个硬编码滤波器中的每一个被布置为执行设定任务。该***还包括被布置为接收并处理来自前端的输出的神经网络。

在上述示例中，前端包括被硬编码为补偿从其获得图像数据的图像传感器的噪声分布的一个或多个硬编码噪声补偿滤波器。

在其他示例中，前端不包括一个或多个此类硬编码噪声补偿滤波器。在此类其他示例中，***可以包括如上所述一个或多个分割算子和/或一个或多个颜色特征提取器和/或一个或多个伽柏滤波器和/或一个或多个相关滤波器。

应理解的是，关于任何一个实施例所描述的任何特征可以单独使用，或与所描述的其他特征相结合来使用，并且还可以与任何其他实施例中的一个或多个特征、或任何其他实施例的任何组合相结合来使用。此外，在不脱离在所附权利要求中限定的本发明的范围的情况下，还可以采用上面未描述的等同物和修改。

Claims

1.一种用于处理从图像传感器获得的图像数据的混合机器学习***，所述***包括：

前端，所述前端包括一个或多个硬编码滤波器，所述一个或多个硬编码滤波器中的每一个被布置为执行设定任务；以及

神经网络，所述神经网络被布置为接收并处理来自所述前端的输出，

其中所述一个或多个硬编码滤波器包括被硬编码为补偿从其获得所述图像数据的所述图像传感器的噪声分布的一个或多个硬编码噪声补偿滤波器，并且其中所述***被布置为基于从其获得所述图像数据的所述图像传感器的噪声分布来使所述一个或多个硬编码噪声补偿滤波器的响应归一化。

2.根据权利要求1所述的***，其中所述前端包括一个或多个分割算子。

3.根据权利要求1或2所述的***，其中所述前端包括一个或多个颜色特征提取器。

4.根据权利要求3所述的***，其中所述混合机器学习***被配置为经由一个或多个输入像素流将从所述图像传感器获得的输入像素提供给所述一个或多个颜色特征提取器。

5.根据权利要求4所述的***，其中所述一个或多个颜色特征提取器被配置为在不削减的情况下将所述一个或多个输入像素流中的输入像素转换成YUV色彩空间分量。

6.根据权利要求4或5所述的***，其中所述一个或多个颜色特征提取器被配置为从所述一个或多个输入像素流提取色调和饱和度分量。

7.根据权利要求1或2所述的***，其中所述前端包括一个或多个伽柏滤波器。

8.根据权利要求1或2所述的***，其中所述前端包括一个或多个相关滤波器。

9.根据权利要求8所述的***，其中所述一个或多个相关滤波器包括一个或多个锐化滤波器、一个或多个增亮滤波器、一个或多个边缘检测滤波器、一个或多个纹理特征提取滤波器、一个或多个自动白平衡滤波器、一个或多个颜色提取滤波器和/或一个或多个另外的噪声补偿滤波器。

10.根据权利要求1或2所述的***，其中所述混合机器学习***包括被布置为从所述图像传感器接收所述图像数据并将数据输出到所述前端的一个或多个多尺度分解引擎。

11.根据权利要求1或2所述的***，所述混合机器学习***包括被布置为从所述前端接收数据的一个或多个多尺度分解引擎。

12.根据权利要求11所述的***，其中被布置为从所述前端接收数据的所述一个或多个多尺度分解引擎被布置为将数据输出到所述神经网络。

13.根据权利要求1或2所述的***，其中所述图像数据是原始图像数据。

14.根据权利要求1或2所述的***，其中所述图像数据被包括在视频帧中。

15.根据权利要求1或2所述的***，其中所述混合机器学习***被布置为实时处理所述图像数据。

16.根据权利要求1或2所述的***，其中所述神经网络是卷积神经网络。

17.根据权利要求1或2所述的***，其中所述混合机器学习***是在便携式设备中。

18.根据权利要求17所述的***，其中所述便携式设备是智能电话。

19.根据权利要求1或2所述的***，其中所述混合机器学习***被配置为用作计算机视觉***。

20.根据权利要求19所述的***，其中所述计算机视觉***包括图像识别***。

21.根据权利要求19所述的***，其中所述计算机视觉***包括面部识别***。

22.根据权利要求1或2任一项所述的***，其中所述混合机器学习***被配置为用作分类和加字幕***。

23.一种在混合机器学习***中处理图像数据的方法，所述方法包括：

在所述混合机器学习***的前端中处理从图像传感器获得的图像数据，所述前端包括一个或多个硬编码滤波器，所述一个或多个硬编码滤波器中的每一个被布置为执行设定任务，其中所述一个或多个硬编码滤波器包括被硬编码为补偿从其获得所述图像数据的所述图像传感器的噪声分布的一个或多个硬编码噪声补偿滤波器；

基于从其获得所述图像数据的所述图像传感器的噪声分布来使所述一个或多个硬编码噪声补偿滤波器的响应归一化；以及

在所述混合机器学习***的神经网络部分中接收并处理来自所述前端的输出。

24.一种用于配置混合机器学习***来处理从图像传感器获得的图像数据的方法，所述混合机器学习***包括：

前端，所述前端包括一个或多个滤波器；以及

神经网络，所述神经网络被配置为接收并处理来自所述前端的输出，所述方法包括：

将所述滤波器中的一个或多个硬编码为一个或多个硬编码噪声补偿滤波器，所述噪声补偿滤波器被硬编码为补偿从其获得所述图像数据的所述图像传感器的噪声分布，其中所述***被布置为基于从其获得所述图像数据的所述图像传感器的噪声分布来使所述一个或多个硬编码噪声补偿滤波器的响应归一化。

25.一种计算机软件，当被执行时，所述计算机软件被适配为执行根据权利要求23或24所述的方法。

26.一种用于处理图像数据的混合机器学习***，所述混合机器学习***包括：

前端，所述前端包括一个或多个硬编码滤波器，所述一个或多个硬编码滤波器被适配为补偿从其获得所述图像数据的一个或多个图像传感器的噪声分布，其中所述***被布置为基于所述噪声分布来使所述一个或多个硬编码滤波器的响应归一化；以及

后端，所述后端包括一个或多个神经网络，所述一个或多个神经网络被适配为接收并处理来自所述前端的输出。