CN116157805A

CN116157805A - 利用神经嵌入的相机图像或视频处理流水线

Info

Publication number: CN116157805A
Application number: CN202180053716.6A
Authority: CN
Inventors: 凯文·戈登; 马丁·汉弗莱斯; 科林·达莫尔
Original assignee: Spectrum Optix Inc
Current assignee: Spectrum Optix Inc
Priority date: 2020-08-28
Filing date: 2021-08-27
Publication date: 2023-05-23
Also published as: US20220070369A1; EP4205069A1; KR20230058417A; TW202223834A; CA3193037A1; JP2023540930A; WO2022043942A1

Abstract

一种包括静物相机或视频相机的图像处理流水线包括图像处理***的第一部分，该第一部分被布置成使用至少部分地从神经嵌入推导的信息。图像处理***的第二部分可以用于至少部分地基于神经嵌入信息来修改图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个。

Description

利用神经嵌入的相机图像或视频处理流水线

相关申请

本申请要求于2020年8月28日提交且标题为“CAMERA IMAGE OR VIDEOPROCESSING PIPELINES WITH NEURAL EMBEDDING”的序列号为63/071,966的美国临时申请的权益，该美国临时申请在此通过引用以其整体并入。

技术领域

本公开涉及用于使用神经嵌入技术来改进图像以降低处理复杂性并改进图像或视频的***。特别地，描述了一种使用神经嵌入来提供可用于配置图像处理参数或相机设置的分类器的方法和***。

背景

数码相机通常需要将由图像传感器接收的信号转换成可用图像的数字图像处理流水线(pipeline)。处理可以包括信号放大、对拜耳掩模或其他滤波器的校正、去马赛克、颜色空间转换以及黑白电平调整。更高级的处理步骤可以包括HDR填充、超分辨率、饱和度、活力(vibrancy)或其他颜色调整、着色(tint)或IR去除以及对象或场景分类。使用各种专门的算法，可以在相机上进行校正，或可以稍后在RAW图像的后处理中进行校正。然而，这些算法中的许多是专有的，难以修改，或者需要大量熟练的用户工作来获得最佳结果。在许多情况下，由于有限的可用处理能力以及问题的高维数，使用传统的神经网络方法是不切实际的。成像***可以另外利用多个图像传感器来实现其预期用例。这样的***可以完全独立地、联合地或以其某种组合来处理每个传感器。在许多情况下，由于用于每个传感器的专用硬件的成本，独立地处理每个传感器是不切实际的，而由于有限的***通信总线带宽和高的神经网络输入复杂性，联合地处理所有传感器是不切实际的。需要能够改进图像处理、减少用户工作并允许更新和改进的方法和***。

附图简述

参考以下附图描述了本公开的非限制性的并且非穷举的实施例，其中，除非另有说明，否则在所有各个附图中相似的附图标记指代相似的部分。

图1A示出了神经网络支持的图像或视频处理流水线；

图1B示出了神经网络支持的图像或视频处理***；

图1C是示出神经网络支持的软件***的另一个实施例；

图1D-图1G示出了神经网络支持的图像处理的示例；

图2示出了具有控制子***、成像子***和显示子***的***；

图3示出了RGB图像的神经网络处理的一个示例；

图4示出了全卷积神经网络的实施例；

图5示出了神经网络训练过程的一个实施例；

图6示出了用于使用神经嵌入降低维数和进行处理的过程；

图7示出了用于使用神经嵌入进行分类、比较或匹配的过程；

图8示出了用于将神经嵌入信息保存在元数据中的过程；

图9示出了用于在神经网络***中定义和利用潜在向量(latent vector)的一般程序；

图10示出了用于使用潜在向量在神经网络***中的各种供应商的模块之间传递信息的一般程序；

图11示出了神经网络推导的信息的总线介导的通信，该神经网络推导的信息包括潜在向量；

图12示出了使用潜在向量信息的图像数据库搜索；以及

图13示出了用户对潜在向量参数的操纵。

详细描述

在以下描述的一些实施例中，描述了用于使用神经嵌入信息或技术以降低处理复杂性并改进图像或视频来改进图像的***。特别地，一种使用神经嵌入来提供可用于配置图像处理参数或相机设置的分类器的方法和***。在一些实施例中，用于生成神经嵌入并将这些神经嵌入用于各种应用的方法和***包括：分类和其他机器学习任务，减少成像***中的带宽，减少神经推理(inference)***中的计算需求(以及因此的功率)，识别和关联***(诸如数据库查询和对象跟踪)，组合来自多个传感器和传感器类型的信息，生成用于训练或创造性目的的新数据，以及重建***输入。

在一些实施例中，包括静物相机或视频相机的图像处理流水线还包括图像处理***的第一部分，该第一部分被布置成使用至少部分地从神经嵌入推导的信息。图像处理***的第二部分可以用于至少部分地基于神经嵌入信息来修改图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理(portfolio post processing)中的至少一个。

在一些实施例中，图像处理流水线可以包括静物相机或视频相机，该静物相机或视频相机包括图像处理***的第一部分，该第一部分被布置成使用神经处理***来降低数据维数并有效地对一个图像、更多个图像或其他数据进行下采样，以提供神经嵌入信息。图像处理***的第二部分可以被布置成至少部分地基于神经嵌入信息来修改图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个。

在一些实施例中，图像处理流水线可以包括图像处理***的第一部分，该第一部分被布置成使用从神经处理***推导的神经嵌入信息进行分类、跟踪和匹配中的至少一个。图像处理***的第二部分可以被布置成至少部分地基于神经嵌入信息来修改图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个。

在一些实施例中，图像处理流水线可以包括图像处理***的第一部分，该第一部分被布置成使用神经处理***来降低数据维数并有效地对一个图像、更多个图像或其他数据进行下采样，以提供神经嵌入信息。图像处理***的第二部分可以被布置成将神经嵌入信息保存在图像或视频元数据内。

在一些实施例中，图像捕获设备包括用于控制图像捕获设备操作的处理器。神经处理器由图像捕获设备支持，并且可以连接到处理器以接收神经网络数据，其中神经处理器使用神经网络数据来提供从包括传感器处理、全局后处理和局部后处理的组中选择的至少两个处理程序。

图1A示出了神经网络支持的图像或视频处理流水线***和方法100A的一个实施例。该流水线100A可以在图像处理流水线中的多个点处使用神经网络。例如，在图像捕获之前发生的基于神经网络的图像预处理(步骤110A)可以包括使用神经网络来选择ISO、焦点、曝光、分辨率、图像捕获时刻(例如，当眼睛睁开时)或其他图像或视频设置中的一个或更多个。除了使用神经网络来简单地选择合理的图像或视频设置之外，这种模拟和原像(pre-image)捕获因子可以被自动调整或被调整以有利于会改进稍后的神经网络处理的效率的因子。例如，可以增加闪光或其他场景照明的强度、持续时间，或对闪光或其他场景照明进行重定向。可以从光路中移除滤光片，可以将光圈开得更大，或者可以降低快门速度。图像传感器的效率或放大率可以通过ISO选择来进行调整，所有这些都是为了(例如)改进神经网络颜色调整或HDR处理。

在图像捕获之后，基于神经网络的传感器处理(步骤112A)可以用于提供定制的去马赛克、色调映射(tone map)、去雾(dehazing)、像素故障补偿或除尘。其他基于神经网络的处理可以包括拜耳滤色器(Bayer color filter)阵列校正、色彩空间转换、黑白电平调整或其他传感器相关的处理。

基于神经网络的全局后处理(步骤114A)可以包括分辨率或颜色调整，以及焦点堆叠或HDR处理。其他全局后处理功能可以包括HDR填充、散景调整、超分辨率、鲜艳度、饱和度或颜色增强，以及着色或IR去除。

基于神经网络的局部后处理(步骤116A)可以包括红眼去除、瑕疵去除、黑眼圈(dark circle)去除、蓝天增强、绿叶增强或对图像的局部部分、区部(section)、对象或区域的其他处理。特定局部区域的识别可以涉及使用其他神经网络辅助功能(包括例如面部或眼睛检测器)。

基于神经网络的组合后处理(步骤116A)可以包括与识别、分类或发布相关的图像或视频处理步骤。例如，神经网络可以用于识别人，并提供该信息用于元数据标记。其他示例可以包括使用神经网络来分类为诸如宠物图片、风景或肖像的类别。

图1B示出了神经网络支持的图像或视频处理***120B。在一个实施例中，硬件级神经控制模块122B(包括设置和传感器)可以用于支持处理、存储器访问、数据传输和其他低级计算活动。***级神经控制模块124B与硬件模块122B交互，并提供初步的或所需要的低级自动图片呈现工具(包括确定有用的或所需要的分辨率、照明或颜色调整)。可以使用***级神经控制模块126B来处理图像或视频，该***级神经控制模块126B可以包括用户偏好设置、历史用户设置或基于第三方信息或偏好的其他神经网络处理设置。***级神经控制模块128B也可以包括第三方信息和偏好，以及包括用于确定是否需要本地的、远程的或分布式神经网络处理的设置。在一些实施例中，分布式神经控制模块130B可以用于协同数据交换(cooperative data exchange)。例如，随着社交网络社区改变所偏好的肖像图像的风格(例如，从硬聚焦风格到软聚焦)，肖像模式神经网络处理也可以被调整。可以使用网络潜在向量、提供的训练集或模式相关的设置建议来将该信息传输到各种公开的模块中的任何一个。

图1C是示出神经网络支持的软件***120B的另一个实施例。如所示的，例如通过对外部照明***的控制或在相机闪光灯***上的控制，检测和潜在地改变关于环境的信息(包括光、场景和捕获介质)。包括光学和电子子***的成像***可以与神经处理***和软件应用层交互。在一些实施例中，远程的、本地的或协同的神经处理***可以用于提供与设置和神经网络处理条件相关的信息。

更详细地说，成像***可以包括被控制并与电子***交互的光学***。光学***包括诸如透镜和照明发射器的光学硬件，以及快门、焦点、滤光和光圈的电子、软件或硬件控制器。电子***包括传感器和其他电子、软件或硬件控制器，这些控制器提供滤光、设置曝光时间、提供模数转换(ADC)、提供模拟增益以及充当照明控制器。来自成像***的数据可以被发送到应用层以进行进一步的处理和分发，并且可以向神经处理***(NPS)提供控制反馈。

神经处理***可以包括前端模块、后端模块、用户偏好设置、组合模块和数据分发模块。用于模块的计算可以是远程的、本地的，或者通过本地或远程的多个协同的神经处理***进行。神经处理***可以向应用层和成像***发送和接收数据。

在所示实施例中，前端包括针对成像***的设置和控制、环境补偿、环境合成、嵌入和滤光。后端提供线性化、滤光片校正、黑电平设置、白平衡和去马赛克。用户偏好可以包括曝光设置、色调和颜色设置、环境合成、滤光和创造性转换。组合模块可以接收这类数据并提供分类、人识别或地理标记。分发模块可以协调从多个神经处理***发送和接收数据，并向应用层发送和接收嵌入。应用层提供自定义设置的用户接口，以及图像或设置结果预览。可以存储和传输图像或其他数据，并且可以聚合与神经处理***相关的信息以供将来使用或简化分类任务、活动或对象检测任务或做决策(decision making)任务。

图1D示出了神经网络支持的图像处理140D的一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括曝光设置确定142D、RGB或拜耳滤波器处理142D、颜色饱和度调整142D、红眼减少142D、或识别诸如所有者自拍的图片类别、或提供元数据标记和互联网介导的分发辅助(142D)。

图1E示出了神经网络支持的图像处理140E的另一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括去噪142E、颜色饱和度调整144E、眩光去除146E、红眼减少148E和眼睛滤色器150E。

图1F示出了神经网络支持的图像处理140F的另一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤可以包括但不限于多个图像的捕获142F、从多个图像中选择图像144F、高动态范围(HDR)处理146F、亮点去除148F以及自动分类和元数据标记150F。

图1G示出了神经网络支持的图像处理140G的另一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括视频和音频设置选择142G、电子帧稳定144G、对象中心化(object centering)146G、运动补偿148G和视频压缩150G。

广泛的静物相机或视频相机可以从使用神经网络支持的图像或视频处理流水线***和方法中受益。相机类型可以包括但不限于具有静物或视频能力的传统DSLR、智能手机、平板电脑相机或膝上型电脑相机、专用视频相机、网络摄像机(webcam)或安全相机。在一些实施例中，可以使用专用相机，例如红外相机、热成像仪、毫米波成像***、x射线或其他放射成像仪。实施例还可以包括具有能够检测红外线、紫外线或其他波长以允许超光谱图像处理的传感器的相机。

相机可以是独立的、便携式的或固定的***。通常，相机包括处理器、存储器、图像传感器、通信接口、相机光学和致动器***以及存储器储存器(memory storage)。处理器控制相机的整体操作，例如操作相机光学和传感器***以及可用的通信接口。相机光学和传感器***控制相机的操作，例如针对在图像传感器处捕获的图像的曝光控制。相机光学和传感器***可以包括固定的透镜***或可调整的透镜***(例如，变焦和自动聚焦能力)。相机可以支持存储器储存器***，例如可移动存储卡、有线USB或无线数据传输***。

在一些实施例中，神经网络处理可以在将图像数据传输到远程计算资源之后进行，远程计算资源包括专用神经网络处理***、膝上型电脑、PC、服务器或云。在其他实施例中，可以使用优化的软件、神经处理芯片、专用ASIC、定制的集成电路或可编程FPGA***在相机内进行神经网络处理。

在一些实施例中，神经网络处理的结果可以用作其他机器学习或神经网络***(包括那些为对象识别、模式识别、面部识别、图像稳定、机器人或车辆里程计(odometry)和定位、或跟踪或瞄准应用而开发的机器学习或神经网络***)的输入。有利地，这样的神经网络处理后的图像归一化可以例如减少计算机视觉算法在高噪声环境中的故障，使得这些算法能够在它们通常由于与噪声相关的特征置信度方面的降低将发生故障的环境中工作。典型地，这可以包括但不限于低光环境、多雾、多尘或朦胧环境、或受光闪烁或光闪耀影响的环境。实际上，通过神经网络处理去除了图像传感器噪声，使得稍后的学习算法具有降低的性能退化。

在某些实施例中，多个图像传感器可以结合所描述的神经网络处理来共同工作，以实现更宽的操作和检测包络，其中例如具有不同光敏度的传感器一起工作以提供高动态范围图像。在其他实施例中，具有单独的神经网络处理节点的一系列光学或算法成像***可以耦合在一起。在另外的其他实施例中，神经网络***的训练可以作为一个整体与成像***解耦，作为与特定成像仪相关联的嵌入式部件进行操作。

图2总体上描述了对神经网络和图像处理算法的使用和训练的硬件支持。在一些实施例中，神经网络可以适用于一般的模拟和数字图像处理。提供了一种控制和储存模块202，该控制和储存模块202能够向成像***204和显示***206发送相应的控制信号。成像***204可以将处理后的图像数据提供给控制和储存模块202，同时还从显示***206接收剖析数据(profiling data)。以监督或半监督的方式训练神经网络需要高质量的训练数据。为了获得这样的数据，***200提供自动成像***剖析。控制和储存模块202包含要传输到显示***206的校准数据和原始剖析数据。校准数据可以包含但不限于用于评估分辨率、焦点或动态范围的目标。原始剖析数据可以包含但不限于从高质量成像***(参考***)捕获的自然场景和人造场景，以及程序生成的场景(从数学上推导的)。

显示***206的示例是高质量的电子显示器。该显示器可以使其亮度被调整，或者可以利用诸如中性密度滤光器的物理滤光元件来增强。可替代的显示***可能包括高质量的参考印刷件(reference print)或滤光元件，或者要与前照式(front lit)光源或背照式(back lit)光源一起使用。在任何情况下，显示***的目的是产生要传输到成像***的各种图像或图像序列。

被剖析的成像***集成到剖析***中，使得它可以由控制和储存计算机以编程方式控制，并且可以对显示***的输出成像。相机参数(例如光圈、曝光时间和模拟增益)是变化的，并且对单个显示的图像进行多次曝光。由此得到的曝光被传输到控制和储存计算机，并被保留用于训练目的。

整个***被放置在受控的照明环境中，使得光子“噪声基底(noise floor)”在剖析期间是已知的。

整个***被设置成使得限制分辨率的因子是成像***。这是通过考虑参数的数学模型来实现的，这些参数包括但不限于：成像***传感器像素间距、显示***像素尺寸、成像***焦距、成像***工作f数、传感器像素数(水平和垂直)、显示***像素数(垂直和水平)。实际上，可以对特定的传感器、传感器品牌或类型或传感器类别进行剖析，以产生针对单独的传感器或传感器模型精确定制的高质量的训练数据。

各种类型的神经网络可以与参照图1B和图2公开的***一起使用，这些神经网络包括全卷积网络、递归网络(recurrent network)、生成对抗网络或深度卷积网络。卷积神经网络对于例如本文所述的图像处理应用特别有用。如参照图3所见，承担诸如参照图1A所讨论的基于神经的传感器处理的卷积神经网络300可以接收单个曝光不足的RGB图像310作为输入。优选RAW格式，但是可以使用压缩的JPG图像，但质量会有所损失。可以利用传统的像素操作对图像进行预处理，或者可以优选地以最小的修改将图像馈送到经训练的卷积神经网络300中。处理可以通过一个或更多个卷积层312、池化(pooling)层314、全连接层316进行，并以改进后的图像的RGB输出316结束。在操作中，一个或更多个卷积层对RGB输入应用卷积操作，将结果传递给接下来的层。在卷积后，局部或全局的池化层可以将输出组合成下一层中的单个节点或少量节点。重复的卷积、或卷积/池化对是可能的。在基于神经的传感器处理完成后，RGB输出可以被传递到基于神经网络的全局后处理，这个RGB图像可以被传递到基于神经网络的全局后处理，以进行附加的基于神经网络的修改。

一个特别有用的神经网络实施例是全卷积神经网络。全卷积神经网络由卷积层组成，没有任何全连接层(通常会在网络末端发现全连接层)。有利地，全卷积神经网络是与图像大小无关的，其中任何大小的图像都可接受为用于训练或亮点图像修改的输入。参照图4示出了全卷积网络400的示例。可以在收缩路径上处理数据，该收缩路径包括两个3x3卷积(未填充卷积)的重复应用，每个卷积后跟线性修正单元(ReLU)和2x2最大池化操作(其步长为2，用于下采样)。在每个下采样步骤处，特征通道的数量被加倍。扩展路径中的每个步骤由特征图(feature map)的上采样组成，特征图的上采样后跟2x2卷积(上卷积)，该2x2卷积将特征通道的数量减半，提供与来自收缩路径的相应裁剪的特征图的级联，并包括两个3x3卷积，每个3x3卷积后跟ReLU。特征图裁剪补偿了每个卷积中边界像素的损失。在最后一层，使用1x1卷积将每个64分量特征向量映射到期望数量的类别。虽然所描述的网络具有23个卷积层，但是在其他实施例中可以使用更多或更少的卷积层。训练可以包括使用随机梯度下降技术处理具有相应分割图的输入图像。

图5示出了神经网络训练***500的一个实施例，该神经网络训练***的参数可以***纵，使得它们为一组输入产生期望的输出。操纵网络参数的一种这样的方式是通过“监督训练”。在监督训练中，操作者向网络提供源/目标对510和502，并且当该源/目标对与目标函数(objective function)结合时，操作者可以根据一些方案(例如反向传播)修改网络***500中的一些或所有参数。

在图5的所描述的实施例中，准备来自各种源(例如剖析***、数学模型和公开可用的数据集)的高质量训练数据(源510和目标502对)以输入到网络***500。该方法包括数据封装目标504和数据封装源512，以及预处理lambda目标506和预处理lambda源514。

数据封装获取一个或多个训练数据样本，根据确定的方案对其进行归一化，并在张量中布置用于输入到网络的数据。训练数据样本可以包括序列或时间数据。

预处理lambda允许操作者在源输入数据或目标数据输入到神经网络或目标函数之前修改源输入数据或目标数据。这可以是增强数据，根据某种方案拒绝张量，向张量添加合成噪声，对数据执行扭曲和变形以用于对齐目的，或者从图像数据转换为数据标签。

被训练的网络516具有至少一个输入和输出518，但是在实践中发现，多个输出(每个输出具有其自身的目标函数)可以具有协同效应(synergetic effect)。例如，通过其目标是对张量中的对象进行分类的“分类器头”输出可以提高性能。目标输出数据508、源输出数据518和目标函数520一起定义要最小化的网络损失，该损失的值可以通过附加的训练或数据集处理来改进。

图6是示出神经网络处理的替代方法、互补方法或补充方法的一个实施例的流程图。被称为神经嵌入，可以降低处理问题的维数，并且可以大大提高图像处理速度。神经嵌入提供了高维图像到由向量(“潜在向量”)表示的低维流形上的位置的映射。潜在向量的分量是可以被约束以表示特定离散变量的经学习的连续表示。在一些实施例中，神经嵌入是离散变量到连续数向量的映射，提供离散变量的低维、经学习的连续向量表示。有利地，这允许例如它们输入到机器学习模型用于有监督的任务或在嵌入空间中寻找最近邻。

在一些实施例中，神经网络嵌入是有用的，因为它们可以降低分类变量的维数，并表示变换后的空间中的类别。神经嵌入对于分类、跟踪和匹配特别有用，并且允许将域特定知识简化地转移到新的相关域，而不需要神经网络的完整再训练。在一些实施例中，可以提供神经嵌入供后续使用，例如通过将潜在向量保存在图像或视频元数据中以允许可选的后续处理或对图像相关查询的改进的响应。例如，图像处理***的第一部分可以被布置成使用神经处理***降低数据维数并有效地对一个图像、更多个图像或其他数据进行下采样以提供神经嵌入信息。图像处理***的第二部分也可以被布置用于使用从神经处理***推导的神经嵌入信息来进行分类、跟踪和匹配中的至少一个。类似地，神经网络训练***可以包括神经网络算法的第一部分，该第一部分被布置成使用神经处理***来降低数据维数并有效地对图像或其他数据进行下采样，以提供神经嵌入信息。神经网络算法的第二部分被布置用于使用从神经处理***推导的神经嵌入信息进行分类、跟踪和匹配中的至少一个，并且训练程序用于优化神经网络算法的第一和第二部分。

在一些实施例中，训练和推理***可以包括分类器或其他深度学习算法，其可以与神经嵌入算法相结合以创建新的深度学习算法。神经嵌入算法可以被配置成使得其权重是可训练的或不可训练的，但是在任何一种情况下都将是完全可微的，使得新算法是端到端可训练的，允许新的深度学习算法直接从目标函数向原始数据输入优化。

在推理期间，上述算法(C)可以被划分，使得嵌入算法(A)在边缘或端点设备上执行，而算法(B)可以在集中式计算资源(云、服务器、网关设备)上执行。

更特别地，如在图6中所见，神经嵌入过程600的一个实施例从供应商A提供的视频(步骤610)开始。通过嵌入对视频进行下采样(步骤612)，以为供应商B的分类器(步骤614)提供低维输入。供应商B的分类器受益于降低的计算成本，以提供改进的图像处理(步骤616)，同时降低输出618的精确度损失。在一些实施例中，来自改进的图像处理步骤616的输出618的图像、参数或其他数据可以由供应商B提供给供应商A，以改进嵌入步骤612。

图7示出了对分类、比较或匹配有用的另一个神经嵌入过程700。如在图7中所见，神经嵌入过程700的一个实施例从视频(步骤710)开始。通过嵌入对视频进行下采样(步骤712)，以提供可用于添加分类、比较或匹配(步骤714)的低维输入。在一些实施例中，可以直接使用输出716，而在其他实施例中，可以使用从步骤716输出的参数或其他数据来改进嵌入步骤。

图8示出了用于将神经嵌入信息保存在元数据中的过程。如在图8中所见，适用于元数据创建的神经嵌入过程800的一个实施例从视频(步骤810)开始。通过嵌入对视频进行下采样(步骤812)，以提供可用于***到与视频相关联的可搜索元数据中(步骤814)的低维输入。在一些实施例中，可以直接使用输出816，而在其他实施例中，可以使用从步骤816输出的参数或其他数据来改进嵌入步骤。

图9示出了用于在神经网络***中定义和利用从静物图像或视频图像推导出的潜在向量的一般过程900。如在图9中所见，处理通常可以首先在训练阶段模式902下发生，随后是在推理阶段模式904下进行训练处理。输入图像910沿着收缩神经处理路径912传递以进行编码。在收缩路径912(即编码器)中，学习神经网络权重以提供从高维输入图像到具有更小维数的潜在向量914的映射。扩展路径916(解码器)可以被联合学习以从潜在向量恢复原始输入图像。实际上，该架构可以创建“信息瓶颈”，该信息瓶颈只能对对于视频或图像处理任务最有用的信息进行编码。在进行训练之后，许多在线目的只需要网络的编码器部分。

图10示出了用于使用潜在向量在神经网络***中的模块之间传递信息的一般程序1000。在一些实施例中，模块可以由不同的供应商(例如，供应商A(1002)和供应商B(1004))提供，而在其他实施例中，处理可以由单个处理服务提供商进行。图10示出了用于编码的神经处理路径1012。在收缩路径1012(即编码器)中，学习神经网络权重以提供从高维输入图像到具有更小维数的潜在向量1014的映射。该潜在向量1014可以用于到分类器1020的后续输入。在一些实施例中，分类器1020可以用{潜在向量，标签}对来训练，而不是用{图像，标签}对来训练。该分类器受益于降低的输入复杂性，以及由神经嵌入“骨干(backbone)”网络提供的高质量特征。

图11示出了神经网络推导的信息的总线介导的通信，该神经网络推导的信息包括潜在向量。例如，多传感器处理***1100可以操作来发送从一个或更多个图像1110推导的并使用神经处理路径1112进行处理以用于编码的信息。该潜在向量连同可选的其他图像数据或元数据可以通过通信总线1114或其他合适的互连发送到集中式处理模块1120。实际上，这允许单独的成像***利用神经嵌入来降低通信总线的带宽要求以及中央处理模块1120中的后续处理要求。

诸如关于图11所讨论的神经网络的总线介导通信可以大大减少数据传输要求和成本。例如，可以配置城市、场地或运动场IP相机***，使得每个相机输出用于视频馈送的潜在向量。这些潜在向量可以补充或完全代替被发送到中央处理单元(例如，网关、本地服务器、VMS等)的图像。接收到的潜在向量可以用于执行视频分析或与原始视频数据进行组合以呈现给人类操作者。这允许在数百或数千台相机上执行实时分析，而不需要访问大型数据流水线和大且昂贵的服务器。

图12示出了用于为了识别和关联目的使用神经嵌入和潜在向量信息进行图像数据库搜索的过程1200。在一些实施例中，图像1210可以沿着收缩神经处理路径1212被处理，以编码成包括潜在向量的数据。由神经嵌入网络产生的潜在向量可以存储在数据库1220中。可以进行包括潜在向量信息(1214)的数据库查询，利用数据库操作以根据某种方案识别外观上最接近给定潜在向量X的潜在向量。例如，在一个实施例中，潜在向量之间的欧几里德距离(例如1222)可以用于寻找匹配，但是其他方案是可能的。所得到的匹配可以与包括原始源图像或元数据的其他信息相关联。在一些实施例中，如果提供可以被存储、被传输或被添加到图像元数据的另一潜在向量1224，进一步的编码是可能的。

作为另一示例，城市、场地或运动场IP相机***可以被配置成使得每个相机输出被存储或以其他方式可用于视频分析的潜在向量。可以搜索这些潜在向量以识别对象、人、场景或其他图像信息，而不需要提供对大量图像数据的实时搜索。这允许在数百或数千台相机上执行实时视频或图像分析，以寻找例如与某个人或场景相关联的红色汽车，而不需要访问大型数据流水线和大且昂贵的服务器。

图13示出了用户操纵潜在向量的过程1300。例如，可以沿着收缩神经处理路径处理图像，以将其编码成包括潜在向量的数据。用户可以通过直接改变向量元素或通过组合几个潜在向量(潜在空间算术，1304)来操纵(1302)输入的潜在向量以获得新图像。可以使用扩展路径处理(1320)来扩展潜在向量，以提供生成的图像(1322)。在一些实施例中，该程序可以重复或迭代进行以提供期望的图像。

如将理解的，本文描述的相机***和方法可以在本地操作，或通过连接到有线或无线连接子***来操作，用于与诸如服务器、台式电脑、膝上型电脑、平板电脑或智能手机的设备进行交互。数据和控制信号可以在各种外部数据源之间被接收、被生成或被传输，这些外部数据源包括无线网络、个人区域网络、蜂窝网络、互联网或云介导的数据源。此外，本地数据源(例如硬盘驱动器、固态驱动器、闪存或任何其他合适的存储器(包括动态存储器，例如SRAM或DRAM))可以允许用户指定的偏好或协议的本地数据储存。在一个特定实施例中，可以提供多个通信***。例如，可以使用直接Wi-Fi连接(802.11b/g/n)以及单独的4G蜂窝连接。

到远程服务器的连接实施例还可以在云计算环境中实现。云计算可以被定义为用于实现对可配置计算资源(例如，网络、服务器、储存器，应用和服务)的共享池进行普遍、方便、按需的网络访问的模型，这些计算资源可以经由虚拟化被快速提供，并以最小的管理努力或服务提供商交互来释放，然后进行相应的扩展。云模型可以由各种特征(例如，按需自助服务、广泛的网络访问、资源池化、快速弹性、可度量的服务等等)、服务模型(例如，软件即服务(“SaaS”)、平台即服务(“PaaS”)、基础设施即服务(“IaaS”))和部署模型(例如，私有云、社区云、公共云、混合云等等)组成。

在整个该说明书中，提及的“一个实施例”、“实施例”、“一个示例”或“示例”意味着结合实施例或示例所描述的特定的特征、结构或特性被包括在本公开的至少一个实施例中。因此，在贯穿本说明书的各个地方中出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指相同的实施例或示例。此外，特定特征、结构、数据库或特性可以在一个或更多个实施例或示例中以任何适合的组合和/或子组合进行组合。另外，应当理解，随此提供的附图是出于对本领域普通技术人员的解释目的，并且附图不一定按比例绘制。

所描述的附图中的流程图和框图旨在示出根据本公开的各种实施例的***、方法和计算机程序产品的可能实现的架构、功能和操作。就这一点而言，流程图或框图中的每个框可以表示代码的模块、段或部分，其包括用于实现指定的逻辑功能的一个或更多个可执行指令。还要注意的是，框图和/或流程图中的每个框以及在框图和/或流程图中的框的组合可由执行指定功能或动作的专用的基于硬件的***或专用的硬件和计算机指令的组合实现。这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以指导计算机或其他可编程数据处理装置以特定方式运行，使得存储在计算机可读介质中的指令产生包括指令装置的制品，该指令装置实现在流程图和/或一个或更多个框图框中指定的功能/动作。

根据本公开的实施例可以被体现为装置、方法或计算机程序产品。因此，本公开可以采用完全由硬件组成的实施例、完全由软件组成的实施例(包括固件、常驻软件、微代码等)或者组合软件和硬件方面的实施例的形式，该软件和硬件方面通常都可以在本文中称为“电路”、“模块”或“***”。此外，本公开的实施例可以采用以任何有形表达介质体现的计算机程序产品的形式，该表达介质具有体现在该介质中的计算机可用程序代码。

可以利用一种或更多种计算机可用或计算机可读介质的任何组合。例如，计算机可读介质可以包括便携式计算机磁盘、硬盘、随机存取存储器(RAM)设备、只读存储器(ROM)设备、可擦可编程只读存储器(EPROM或闪存)设备、便携式光盘只读存储器(CDROM)、光学存储设备和磁性存储设备中的一种或更多种。可以以一种或多更种编程语言的任何组合来编写用于执行本公开的操作的计算机程序代码。可以将此类代码从源代码编译为适合于将在其上执行代码的设备或计算机的计算机可读汇编语言或机器代码。

受益于前述描述和相关联的附图中呈现的教导的本领域技术人员将会想到本发明的许多修改和其他实施例。因此，应当理解，本发明不限于所公开的特定实施例，并且修改和其他实施例被认为被包括在所附权利要求的范围内。还应当理解，本发明的其他实施例可以在没有本文具体公开的元素/步骤的情况下实施。

Claims

1.一种包括静物相机或视频相机的图像处理流水线，包括：

图像处理***的第一部分，所述第一部分被布置成使用至少部分地从神经嵌入信息推导的信息；以及

所述图像处理***的第二部分，所述第二部分用于至少部分地基于所述神经嵌入信息来修改图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个。

2.根据权利要求1所述的图像处理流水线，其中，所述神经嵌入信息包括潜在向量。

3.根据权利要求1所述的图像处理流水线，其中，所述神经嵌入信息包括在所述图像处理***中的模块之间发送的至少一个潜在向量。

4.根据权利要求1所述的图像处理流水线，其中，所述神经嵌入包括在所述图像处理***中的一个或更多个神经网络之间发送的至少一个潜在向量。

5.一种包括静物相机或视频相机的图像处理流水线，包括：

图像处理***的第一部分，所述第一部分被布置成使用神经处理***降低数据维数并有效地对一个图像、更多个图像或其他数据进行下采样以创建神经嵌入信息；以及

所述图像处理***的第二部分，所述第二部分被布置成至少部分地基于所述神经嵌入信息来修改图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个。

6.根据权利要求5所述的图像处理流水线，其中，所述神经嵌入信息包括潜在向量。

7.根据权利要求5所述的图像处理流水线，其中，所述神经嵌入信息包括在所述图像处理***中的模块之间发送的至少一个潜在向量。

8.根据权利要求5所述的图像处理流水线，其中，所述神经嵌入包括在所述图像处理***中的一个或更多个神经网络之间发送的至少一个潜在向量。

9.一种包括静物相机或视频相机的图像处理流水线，包括：

图像处理***的第一部分，所述第一部分被布置用于使用从神经处理***推导的神经嵌入信息来进行分类、跟踪和匹配中的至少一个；以及

10.根据权利要求9所述的图像处理流水线，其中，所述神经嵌入信息包括潜在向量。

11.根据权利要求9所述的图像处理流水线，其中，所述神经嵌入信息包括在所述图像处理***中的模块之间发送的至少一个潜在向量。

12.根据权利要求9所述的图像处理流水线，其中，所述神经嵌入包括在所述图像处理***中的一个或更多个神经网络之间发送的至少一个潜在向量。

13.一种包括静物相机或视频相机的图像处理流水线，包括：

图像处理***的第一部分，所述第一部分被布置成使用神经处理***降低数据维数并有效地对一个图像、更多个图像或其他数据进行下采样以提供神经嵌入信息；以及

所述图像处理***的第二部分，所述第二部分被布置成将所述神经嵌入信息保存在图像或视频元数据中。

14.根据权利要求13所述的图像处理流水线，其中，所述神经嵌入信息包括潜在向量。

15.根据权利要求13所述的图像处理流水线，其中，所述神经嵌入信息包括在所述图像处理***中的模块之间发送的至少一个潜在向量。

16.根据权利要求13所述的图像处理流水线，其中，所述神经嵌入包括在所述图像处理***中的一个或更多个神经网络之间发送的至少一个潜在向量。

17.一种包括静物相机或视频相机的图像处理流水线，包括：

所述图像处理***的第二部分，所述第二部分被布置用于使用从所述神经处理***推导的神经嵌入信息来进行分类、跟踪和匹配中的至少一个。

18.根据权利要求17所述的图像处理流水线，其中，所述神经嵌入信息包括潜在向量。

19.根据权利要求17所述的图像处理流水线，其中，所述神经嵌入信息包括在所述图像处理***中的模块之间发送的至少一个潜在向量。

20.根据权利要求17所述的图像处理流水线，其中，所述神经嵌入包括在所述图像处理***中的一个或更多个神经网络之间发送的至少一个潜在向量。

21.一种神经网络训练***，包括：

具有神经网络算法的第一部分，所述第一部分被布置成使用神经处理***来降低数据维数并有效地对一个图像、更多个图像或其他数据进行下采样以提供神经嵌入信息；

具有神经网络算法的第二部分，所述第二部分被布置用于使用从神经处理***推导的神经嵌入信息进行分类、跟踪和匹配中的至少一个；以及

训练程序，所述训练程序优化所述第一部分的神经网络算法和所述第二部分的神经网络算法的操作。