CN116113952A

CN116113952A - 用于图像的属于分布内度量的分布之间的距离

Info

Publication number: CN116113952A
Application number: CN202080103521.3A
Authority: CN
Inventors: 斯捷潘·阿列克谢维奇·科姆科夫; 亚历山大·亚历山大罗维奇·帕特尤斯基; 伊万·列昂尼多维奇·马祖连科; 李江
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2023-05-12
Also published as: US20230229897A1; WO2022045915A1; EP4189632A4; EP4189632A1

Abstract

本发明涉及通过神经网络处理输入数据。一些实施例提供的方法和装置通过所述神经网络中的至少一层处理所述输入数据，并通过所述输入数据获取特征张量。然后，估计所述获取到的特征张量的分布。获取其它分布。这种其它分布可以是其它输入数据的分布，或者是通过组合为相应多个输入数据获取到的多种分布得到的分布。然后，计算表示两种分布之间的距离的距离值，并根据所述距离值确定所述输入数据的特性。所述特性可以与某一类数据或分布外数据检测或类别确定的可靠性确定等有关。

Description

用于图像的属于分布内度量的分布之间的距离

技术领域

本申请实施例大体上涉及神经网络领域和通过神经网络进行的处理。

背景技术

神经网络最近应用于各种数据分类任务。随着硬件架构的改进，一些神经网络已经部署用于图像或视频的分类或识别等目的。

神经网络(neural network，NN)是一种支持机器学习的信号处理模型，这种模型模仿人脑，包括多个相互连接的神经元。在神经网络实现方式中，两个神经元连接处的信号是一个数字，而且每个神经元的输出是通过其加权输入和的某一非线性函数计算出的。这些连接称为边。神经元和边通常具有随着学习进行而调整的权重。权重增加或减少连接处的信号强度。加权和的非线性函数也称为“激活函数(activation function)”或“神经元的传递函数(transfer function)”。在一些简单的实现方式中，输出可以是二进制的，取决于加权和是否大于某一阈值，对应于作为非线性激活函数的阶跃函数(step function)。在其它实现方式中，可以使用其它激活函数，例如sigmoid等。通常，神经元聚集成一层一层的。不同的层可以对其输入执行不同的变换。信号从第一层(输入层)传输到最后一层(输出层)，可能在穿越多层之后。权重是通过训练学习的，训练可以通过监督学习或无监督学习执行。需要说明的是，上述模型只是一种通用模型。对于具体应用，神经网络可以具有不同的处理阶段，这些处理阶段可以对应于卷积神经网络(convolutional neural network，CNN)层且适用于期望输入，例如图像等。

前馈神经网络是一种人工神经网络，其中节点之间的连接不形成循环。这类NN通常用于数据分类任务。在深度神经网络(Deep Neural Network，DNN)中，深度学习中的形容词“深度”源于网络中的多层。深度学习是一类机器学习算法，这些算法使用多层以从原始输入中逐步提取高层特征。例如，在图像处理中，低层可以识别边，而高层可以识别与人类相关的概念，例如数字或字母或脸等。

在DNN训练的过程中，使用(x,y)对的标记数据集，其中，x是模型的输入(例如图像)，y是这种输入类别的标签。DNN的训练是一种在参数化模型f(θ,·)中搜索最佳参数的过程，使得

这里，L是损失函数(损失)。在分类任务的情况下，f(x)分解为g°h(x)(表示f(x)的形式为g(h(x)))，其中，h(x)是为输入获取到的特征向量(特征(embedding))，g(h(x))是每个类别y的特征向量h(x)和平均特征向量c_y(质心)之间的相似性的向量。相似性是h(x)和c_y之间的相似性函数的值。

闭集场景任务是一种在训练阶段和生产(推理)阶段内能够识别相同类别的任务。封闭场景中典型的常用损失是交叉熵(cross-entropy，CE)损失函数。这种损失训练模型，以使输入的每个特征与相同类别的质心的距离小于与任何其它质心的距离。对于闭集场景，在生产过程中同时使用函数h和g。

CE并不适合于开集场景任务(即，在生产过程中也要识别新类别的任务)，因为对于开集任务，不仅需要很好地分离的已知类别，而且还应该在特征(特征向量)空间中为新类别保留位置。在这种情况下，开集场景可能只保留函数h。换句话说，在训练过程中估计相似性的函数h可以替换为修改或扩展后的函数，该函数估计没有固定到预定义类别的特征向量之间的相似性。函数h可以完全省略，因此推理阶段的输出可以只是特征向量。函数h也可以简化为仅仅区分一些关键类别。

获取到的特征可以在模型之外使用，取决于使用上下文。对于生产，可以应用与训练过程中使用的不同的相异性函数。具体地，训练中使用的类别不必在生产过程中使用。即使是一个新类别的单个示例(例如，x_2)也足以创建新的质心。相应地，相似性函数通常在h(x)和h(x_2)之间计算，而不是在h(x)和某一c_y之间计算。因此，直接比较两个(或两个以上)对象。

无论使用场景、训练过程和模型架构如何，DNN都存在因训练数据集有限而产生的共性问题。该问题是模型倾向于预测图像的相似特征向量，而不考虑语义：

(1)图像具有相似的像素RGB值分布和/或具有相同的中层语义特征(可能与特征无关，这些特征实际上用于识别)；

(2)图像与训练数据集的常见分布相差甚远。

有几个众所周知的示例证实了这个问题。首先是MNIST(Y.LeCun、C.Cortes和Ch.J.C.Burges的“THE MNIST DATABASE of handwritten digits(手写数字的MNIST数据库)”，可在http://yann.lecun.com/exdb/mnist/上查阅)—数字识别的经典闭集任务。在神经网络时代之初，MNIST模型的准确率已经达到99.5％以上。尽管如此，即使是最好的方案也会存在同样的问题：由于训练数据集中没有峰值点“6”的示例，如果输入了峰值点6，则模型就无法预测正确数字。

又如，可以考虑低假正率(Low False-Positive Rate，Low FPR)人脸识别(FaceRec)。这是一项开集任务，因为每个人都要从监控摄像头捕获到的人之中被识别。适合于Face Rec模型训练的开放数据集主要包括从互联网收集到的名人图像。只有少数年长名人或年幼名人。因此，Face Rec模型通常不能很好地处理年幼或年长人脸识别。

发明内容

本申请实施例提供了装置和方法，可以提高输入数据的性能，类似于训练数据集分布中的罕见示例。

上述和其它目的通过独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、说明书和附图中是显而易见的。

根据一方面，本发明涉及一种通过神经网络处理第一输入数据的方法。所述神经网络是前馈神经网络。所述方法包括：通过所述神经网络中的至少一层处理第一输入数据，得到第一特征张量；估计所述得到的第一特征张量的第一分布；获取第二分布；确定表示所述第一分布和所述第二分布之间的距离的距离值；根据所述确定的距离值确定所述第一输入数据的特性。

所述表示所述第一分布和所述第二分布之间的距离的距离值可以是与距离相关的任何值。例如，所述距离值可以是任何相异性或相似性度量。通常认为距离是衡量相异性的，因为距离增加表示相异性增加。但是还可以认为距离是相似性指标，但带有相反的符号/比例，表示距离越高，相似性越小。因此，这里的距离值通常可以，例如通过计算相异性度量(或一般称为指标)或通过计算相似性度量(或一般称为指标)获得，因为这两个度量的结果都表示分布之间的距离。

通过这种方法，可以提高输入数据的性能，类似于训练数据集分布中的罕见示例。此外，额外评估第一张量分布为任何预训练、开集或闭集任务提供了灵活的方式。

在一个示例性实施例中，所述估计第一分布包括：获取第一特征张量值的取值区间的数量n；对于所述n个取值区间中的每个取值区间，确定属于所述取值区间的值在所述第一特征张量值中的出现次数。

这可以认为对应于将张量分布离散到n个间隔(tick)。这种离散化提供了可扩展的复杂性。所述数字n可以根据应用和包括复杂性(必要的计算次数)和准确率的考虑因素来选择。例如，n可以是可调的。

例如，所述获取n个取值区间包括：根据所述第一特征张量的维度确定所述数量n。

以这种方式调整n能够考虑可用数据量以及这些数据分配到的间隔的有意义大小和分布方面的可行准确率。

另外或可选地，所述获取n个取值区间包括：根据所述第一特征张量值的熵确定取值区间长度。

调整间隔的宽度相应地能够实现间隔长度相对于对应张量特征值的量的高效分布，例如，使得每个间隔的信息量大致相同。

根据一个实施例，在所述确定所述第一输入数据的特性中，所述特性是以下项中的至少一个：多种预定数据类别中的一种类别和所述第一输入数据是否属于所述预定数据类别中的一种类别。

包括评估分布的额外处理能够改进第一数据处理，所述第一数据处理可以是开集分类、闭集分类，还可以是分布外分类。

根据一种示例性实现方式，所述获取第二分布包括：通过所述至少一层处理第二输入数据，得到第二特征张量；估计所述得到的第二特征张量的第二分布；所述确定所述第一输入数据的特性包括：通过相似性度量确定所述第一输入数据与所述第二输入数据的相似性，其中，所述相似性度量是所述距离值的函数。

这样可以执行开集分类，即通过将输入数据与其它输入数据进行比较并构建可能的新类别/集群。

例如，所述相似性度量还是通过所述神经网络中的所有层处理所述第一输入数据得到的特征张量和/或通过所述神经网络中的所有层处理所述第二数据得到的特征张量的函数。

本实施例可以改进分类任务。换句话说，根据本发明的实施例，所述神经网络输出的特性可以通过评估分布函数或某一张量来补充。可以组合结果，即通过根据阈值应用加权或一些条件。

另外或可选地，所述函数是所述距离值的单调递增函数。

这些特性能够根据分布相似性对基于神经网络的任务进行一致评估。

具体地，在一种示例性实现方式中，所述函数ψ由ψ(s,d)＝p₁(s)+w·p₂(min(d,Θ))给出，其中，p_i(x)＝x^ai，ai是正整数，i是1或2，w是预定权重因子，Θ是预定最大距离。

这种示例性函数随着距离d单调递增，并且易于计算。

例如，所述第二分布是通过平均为属于相同类别的相应多个输入数据确定的多种分布获取的。

这个特征能够比较分布函数与分布外检测，这种检测实现罕见的输入数据检测和/或对应动作，包括估计神经网络分类的可靠性。

根据一种可能的实现方式，所述第一输入数据的特性包括：将所述距离值与阈值进行比较；根据比较结果估计属于所述相同类别的所述第一输入数据的可靠性。

所述分类可靠性提供了信息，这些信息能够正确解析神经网络处理的结果，和/或提供了训练质量。

例如，所述距离值是根据海林格距离计算的。

海林格距离是一种特别适合比较分布的指标。

具体地，在一种示例性实现方式中，所述距离值是通过将所述海林格距离近似为投影到通过应用主成分分析(Principal Component Analysis，PCA)减小的空间的差方和计算的。

这种方法能够降低评估分布产生的额外处理的复杂性。

所述方法还可以包括：将所述神经网络中的所述至少一层确定为所述输出特征张量提供最大分类准确率的层。

这个特征提供了将评估后的张量调整到特定任务的可能性。换句话说，这个特征能够找到最佳区分分类的期望特征的层。

例如，所述第一输入数据是包括c个通道的图像数据，其中，c是等于或大于1的整数。

通道可以是颜色通道和/或深度通道和/或运动通道或其它通道。处理更多通道可以提高处理的准确率，因为处理了其它信息。

在一个实施例中，对每个通道c单独执行处理所述第一输入数据、估计所述得到的第一特征张量的第一分布和确定距离值的步骤；所述确定所述第一输入数据的特性通过聚合为每个通道确定的距离值进行。

首先单独处理独立通道能够更好地提取相应的特性特征。随后组合这些通道的贡献率，可以提高评估的准确率。

根据一个实施例，上述任一方法方法用于人脸识别。

人脸识别，尤其是开集，是一项艰巨的任务。上述实施例非常适合于改进用于诸如老年人或儿童的罕见输入的任何人脸识别方法的可靠性估计，这些输入可能不会频繁地存在于训练数据集中。

根据一方面，提供了一种通过神经网络处理第一输入数据的信号处理装置。所述神经网络是前馈神经网络，所述信号处理装置包括处理电路，所述处理电路用于：通过所述神经网络中的至少一层处理所述第一输入数据，得到第一特征张量；估计所述得到的第一特征张量的第一分布；获取第二分布；确定表示所述第一分布和所述第二分布之间的距离的距离值；根据所述确定的距离值确定所述第一输入数据的特性。

根据一方面，提供了一种通过神经网络处理第一输入数据的信号处理装置。所述神经网络是前馈神经网络，所述信号处理装置包括：神经网络，用于通过所述神经网络中的至少一层处理所述第一输入数据，得到第一特征张量；分布估计器，用于估计所述得到的第一特征张量的第一分布；输入，用于获取第二分布；距离确定单元，用于确定表示所述第一分布和所述第二分布之间的距离的距离值；特性确定单元，用于根据所述确定的距离值确定所述第一输入数据的特性。

根据一方面，提供了一种存储有指令的计算机可读存储介质。当所述指令被执行时，所述指令使得一个或多个处理器用于对视频数据进行译码。所述指令使得所述一个或多个处理器执行上述任一方法。所述存储介质可以是非瞬时性介质。

根据一方面，本发明涉及一种包括程序代码的计算机程序。当所述程序代码在计算机上执行时，所述程序代码用于执行上述任一方法或下文描述的任一可能实施例。

以下附图和说明书详细阐述了一个或多个实施例。其它特征、目标和优点将从说明书、附图和权利要求中显而易见。

附图说明

下面结合附图对本发明实施例进行更加详细地描述，在附图中：

图1是用于确定特征的离散分布的功能块和信号流的示意图；

图2是用于确定修改后的相似性指标的功能块和信号流的示意图；

图3A为一个实施例提供的一种方法的流程图；

图3B是一个实施例提供的一种装置的功能结构的框图；

图4是用于区分普通输入和分布外输入的功能块和信号流的示意图；

图5是一种装置的一个示例的框图；

图6是3种不同的累积分布函数的说明性表示；

图7是正确和错误数据集对的弱分离的示意图；

图8是正确和错误数据集对的改进分离的示意图；

图9是检测为分布外的一些罕见数据集图像的特定示例的示意图；

图10A是用于闭集图像识别的神经网络架构的示意图；

图10B是用于开集图像识别的神经网络架构的推理部分的示意图；

图10C是用于开集图像识别的神经网络架构的训练部分的示意图。

在下文，如果没有另外明确说明，相同的附图标记指代相同特征或至少在功能上等效的特征。

具体实施方式

在以下描述中，参考构成本发明一部分的附图，这些附图通过说明的方式示出了本发明实施例的具体方面或可以使用本发明实施例的具体方面。应当理解的是，本发明实施例可以在其它方面中使用，并且可以包括附图中未描绘的结构变化或逻辑变化。因此，以下详细描述并不以限制性意义来理解，且本发明的范围由所附权利要求书界定。

例如，应当理解的是，与描述的方法有关的公开内容对于用于执行所述方法的对应设备或***也同样适用，反之亦然。例如，如果描述一个或多个具体方法步骤，则对应的设备可以包括一个或多个单元(例如功能单元)来执行所描述的一个或多个方法步骤(例如，一个单元执行一个或多个步骤，或者多个单元分别执行多个步骤中的一个或多个步骤)，即使附图中未明确描述或示出这类一个或多个单元。另一方面，例如，如果根据一个或多个单元(例如功能单元)来描述具体装置，则对应的方法可以包括一个步骤来执行一个或多个单元的功能(例如，一个步骤执行一个或多个单元的功能，或者多个步骤分别执行多个单元中的一个或多个单元的功能)，即使附图中未明确描述或示出这类一个或多个步骤。此外，应当理解的是，除非另外明确说明，本文中描述的各个示例性实施例和/或方面的特征可以相互组合。

根据一个实施例，通过包括至少一个中间层的神经网络处理输入数据。针对输入数据分析预定层的张量，以得到张量特征的离散分布函数。然后，可以将分布函数作为进一步处理的基础。

例如，为了开集或闭集分类，可以将输入数据张量的分布与以类似方式得到的其它数据的分布进行比较。在闭集分类的情况下，每个类别可以与张量的代表性分布相关联。将输入数据张量分布与类别对应的代表性张量分布进行比较产生了符合该类别的指标(指示)。

可以认为计算分布以及比较分布或相应地获取输入数据特性构成相对于神经网络正常操作的额外处理。这种额外处理的结果可以通过各种不同的方式使用。

如下详述，为两条输入数据(它们的特征张量)获取到的分布可以用于确定距离值，并使用该距离值修改神经网络正常操作的结果。例如，NN可以输出与一些预定义类别的一些相似性。通过将输入数据张量分布与代表性类别张量分布进行比较，可以得到符合度最高的类别。这种类别可能与NN确定的类别不同。因此，可以根据额外处理的结果修改分类。类似地，对于开集分类，可以将输入数据张量分布与先前输入的其它数据的数据张量分布进行比较，得到距离值。距离值可以用于在比较NN输出特征向量的相似性之前修改它们的相似性。这可以提高模型的主要指标，例如准确率。得到的相似性函数可以提高大的代表性生产测试集的测试结果。

额外处理可以用于或有助于形成新类别，或将输入数据分配给之前形成的类别。额外处理可以用于估计NN结果的准确率或检测分布外输入数据，等等。换句话说，张量分布不一定要取代神经网络输出，而神经网络输出实际上是用于分类。除了神经网络的通用分类之外，还有利地使用了张量分布比较。例如，可以对这两个结果进行加权和/或通过张量分布比较得到的指示可以用于表示分类的可靠性，等等。

除了或代替改进分类(尤其是对于训练集中罕见的数据种类)，输入数据的张量分布可以用于针对输入数据确定输入数据是否偏离某种预定分布(或输入数据偏离某种预定分布的程度)(例如训练集数据或先前生产输入数据等的分布的平均值)。如果有必要估计输入与训练数据集的常见分布相距多远(即，是否是分布外(out-of-the-distribution，OOD)示例)，则本实施例是有优势的。这也有助于不确定性估计或置信度估计。

本发明实施例的一种可能改进涉及一个问题，即如何改进现有方案以提高其在训练数据集分布方面罕见示例的性能。本发明指定了额外处理，这一额外处理可以与任何现有(前馈)神经网络集成以提高其性能。这种额外处理与训练阶段无关。因此，额外处理可以在生产中部署在使用神经网络的任何设备侧。

需要说明的是，本发明不一定是为了提高所有场景中的模型的主要速率，例如准确率、真正率(True-Positive Rate，TPR)、F1指标等。例如，OOD估计用于了解何时可以信任预测(分类)和/或信任程度。分布外(或可靠性)测量可以视为更好区分罕见训练集示例的结果。

根据一个实施例，提供了一种通过神经网络处理第一输入数据的方法。例如，神经网络(neural network，NN)是前馈神经网络。神经网络可以是可能应用于输入数据(即图像数据)的卷积NN，如图1和图2所示。图1和图2示出了上述方法的一种特定示例性实现方式。在图1中，第一输入图像101可以表示第一输入数据。

上述方法如图3A所示，包括步骤310：通过神经网络中的至少一层处理第一输入数据，得到第一特征张量。这个步骤可以通过图1中的步骤110_1……110_K直到可能包括的最终层(在本示例中是全连接层)120实现，下面详述论述。具体地，通过神经网络中的一个或多个层处理第一输入数据可以理解为从第一输入数据中提取特征，例如，如果第一数据是图像数据，提取图像特征。一个或多个NN层的输出可以称为特征通道。

上述方法还包括估计320得到的第一特征张量的第一分布。这个步骤可以通过步骤140_1至145_n、150和155实现。然后，执行步骤330：获取第二分布。这个步骤的示例可以通过步骤160实现，表示步骤110_1至155中描述的相同管道。

上述方法还包括步骤340(对应于步骤230_1至230_C等)：确定表示第一分布和第二分布之间的距离的距离值。距离值可以是，例如相似性或相异性度量等度量，因为它们都表示距离值(与距离值相关联)。

最后，上述方法包括步骤350：根据确定的距离值确定第一输入数据的特性。这个步骤的示例可以通过步骤250实现。确定特性可以是，例如分类，例如在封闭或开放的多种类别中确定一种类别。然而，本发明并不限于分类。上述确定可以包括确定第一输入数据是分布外数据还是普通数据，或者确定第一输入数据属于下面详述类别的置信度。

与之前的方法相反，参考图3A描述的实施例可以实现以下效果。该实施例的目标是改进模型的基本目标(例如准确率、真正率(True Positive Ratio，TPR)、固定的假正率(False Positive Ratio，FPR)、F1指标等)。没有过滤掉可疑数据，而是更好地识别到。这种方法不需要任何特殊的训练过程，但能够使用任何训练。因此，能够在任何预训练模型中的生产阶段中实现。即使是OOD检测也可以在不需要任何额外训练的情况下执行。上述方法的参数可以在终端设备中进行调整。另外，还能够用于闭集和开集场景，如下所示。上述方法的实现方式在使用已经调整的参数运行时，可能只会稍微增加计算时间。

图1和图2示出了NN是卷积神经网络(Convolutional Neural Network，CNN)的一个示例。CNN以3D张量101为输入。在本示例中，3D张量是宽度为W、高度为H且包括C个分量(通道)的图像。本示例中的C个分量可以是红色(R)、绿色(G)、蓝色(B)等3个颜色分量。但是，一般来言，分量可以属于除RGB以外的其它颜色空间，例如，YUV或YCbCr或其它颜色空间。此外，分量不一定非得是颜色分量，而是可以包括不同的分量，例如深度图或其它特征图像或颜色和特征图的组合。分量通常称为通道。

换句话说，图1中的张量的尺寸称为高度(H)(即图像的以像素为单位的高度)、宽度(W)(即图像的以像素为单位的宽度)和通道数量(C)(RGB图像有3个通道)。这里的术语“样本”和“像素”能够互换使用。在图像和视频的情况下，数据的样本有时称为像素，对应于典型传感器和显示设备的像素矩阵结构。

神经网络对张量应用一些变换，这些变换通常会减小张量的宽度和高度，而通常会增加张量的通道数量。但是，一般而言，一些层也可以增加宽度和高度而减少通道数量，或者将张量扁平化为1D向量等。最后，得到1×1×C'张量。这个张量是一个特征向量，(C'个通道中的)每个通道都有一个特征。在下一个步骤中，可以对输出应用全连接(FullyConnected，FC)层操作。需要说明的是，一般而言，C可以等于C'，但C'也可以更小或更大。通常情况下，在用于对象识别的CNN中，C'会变大。FC层120通常用于将从之前的层中提取的复杂特征嵌入到预期尺寸(大小)的特征向量中。FC层120的输出125是大小为S的特征向量。这些向量还可以用于确定新类别或输入数据与现有类别的相关性，等等。

需要说明的是，NN不一定必须包括任何FC层，而是可以直接输出最后一个(例如卷积)NN层的特征向量(特征)。还需要说明的是，在本文中，特征张量也可以称为不同通道对应的特征图(具有一定的高度和宽度)。这种张量可以进行矢量化，因此称为特征向量。换句话说，本文中的术语“特征(embedding)”用于对特征向量、特征张量等数据进行任何分组。

CNN推理过程中的中间张量的值通常称为中间层特征，因为它们不用于最终特征，但最终特征是根据这些特征计算的。因此，这些张量包括关于输入的有用语义信息，这些信息可以在一些额外处理之后识别目标特性。

大小为H'×W'×C的某一中间张量的值(假设C在这里没有减小到C')用于评估(一个或多个)中间层特征的分布函数，这些分布函数用作输入。高度H'和宽度W'通常不同于H和W。如果使用CNN，H'和W'通常分别小于H和W，因为CNN通常在每个步骤中应用子采样以提取不同层的特征。

需要说明的是，术语“分布函数”通常表示随机变量的连续概率分布。这种分布函数通常对于第一输入数据是未知的，因此必须估计。可以通过计算某些值的出现频率(例如属于某些区间的值的出现率)(也称为间隔(tick))来执行估计。这种分布函数在一些固定点上计算，从而得到，例如每个输入的中间层语义的离散化分布。请注意，离散化分布不仅可以对一个输入进行评估，还可以通过分布的算术平均值对整个类别或整个数据集进行评估。

可以使用任何分布距离/偏差/相似性指标来比较获得的分布。这样可以识别和惩罚中间层特征紧密分布的对象之间的高相似性，以防止出现上述问题。换句话说，对相似性函数进行修改，使其对OOD示例更准确，从而提高整体识别率。

在图1中，输入处理部分包括图像101的输入。图像101可以从相机、流媒体服务、任何类型的存储器等源获取。

上述处理还包括对第一输入数据应用第一110_1层和其它层(包括原始模型中的中间NN层中的第K层110_K)的操作。通过处理，得到形状为H₁×W₁×C₁……H′×W′×C……1×1×S的一系列张量，其中，S是正常(普通)特征125的大小，即最后一层120的结果。在本示例中，K是1或大于1，直到NN中的总层数。需要说明的是，本发明适用于包括任意数量(一个或多个)层(包括最后一层，可能还包括一个或多个中间层)的神经网络。

在第K层110_K之后的形状为H′×W′×C的中间张量划分成沿着通道轴的形状为H′×W′的C个张量130_1至130_C。计算在张量130_1对应的功能块140_1到140_n中，小于

的值的出现率和比例。每个通道c都独立进行计算。这由功能块145_n示出，其中，对第C个通道进行计算，得到最高(第n个)值。除法150用于归一化目的。在这种情况下，归一化是通过每个通道C计算的总出现次数进行的归一化。总出现次数对应于张量的大小，在这种情况下，即H′×W′。

在功能块155中，将归一化离散化分布级联为形状为n×1的向量。通道c上的小于

的值的比例表示为

这对应于估计第c通道中的第K个张量的值的累积分布函数。索引i跨越离散化取值区间，例如，i可以是等于或大于1且等于或小于n的整数。累积分布函数是可能值在0到1之间的递增函数。一般而言，累积分布函数在负无穷大时为0，在正无穷大时为1。

形状为n×1的每个向量表示新的分布函数：

这些是中间张量的每个通道c的离散化分布。为所有相应的C个通道获取到的所有向量都级联为形状为n×C的张量。这里，c等于或大于1且等于或大于C。

在本示例中，估计单独的通道分布，因为一个通道上的每个值都是使用图像(在空间上)的不同部分作为输入的相同公式计算的。因此，每个离散化分布都表示输入上的一个具体语义特征的分布。

在图1中，输出1(由标有1的虚线圆圈表示)是通过神经网络层110_1……110_K……120处理第一输入数据的结果。输出2(由标有2的虚线圆圈表示)是包括n个取值区间(间隔)的C个通道的离散化分布。

总之，离散化分布是通过以下方式计算的：获取第一特征张量值的取值区间的数量n，以及对于n个取值区间中的每个取值区间，确定属于所述取值区间的值在第一特征张量值中的出现次数。在上面示出的示例性实现方式中，离散化分布是累积分布函数(cumulative distribution function，CDF)，其中，取值区间以具体的方式重叠，即一个值可以落入几个区间内。但是，本发明并不限于分布是CDF。相反，分布可以是区间不重叠的概率密度函数(probability density function，PDF)的估计。

原始特征f(x)(输出1)可以与具有离散化分布D(x)的张量(输出2)级联，作为某些输入数据对应的新特征e(x)＝[f(x),D(x)]。

图2涉及相似性计算部分。在得到估计的分布之后，可以出于各种目的进一步评估分布，例如与其它一些(估计或理想)分布进行比较。评估可以通过确定(计算)相似性函数值或相异性或偏差值，或通常通过任何距离指标等来执行。例如，可以确定第一数据和第二数据之间的距离指标。为此，在图1的示例中，通过处理管道160处理第二输入数据102，得到输出3(由标有3的虚线圆圈表示)，即通过神经网络层110_1……110_K……120处理第二输入数据的结果。输出4(由标有4的虚线圆圈表示)是包括n个取值区间的C个通道的第二输入数据102的第K个张量的离散化分布。离散化可以对应于图1中的处理130至155。

换句话说，获取第二分布包括：通过至少一层处理第二输入数据，得到第二特征张量；估计得到的第二特征张量的第二分布。然后，确定第一输入数据的特性可以包括：通过相似性度量(即所述距离值的函数)确定第一输入数据与第二输入数据的相似性，下面参考图2进一步描述。

然而，本发明不限于两个输入图像的分布的比较。相反，可以通过某一质心进行比较，例如某一类别的所有示例的平均离散化分布，等等。

示例性相似性计算部分接收新的特征e(x₁)和e(x₂)。然后，将新的特征e(x₁)和e(x₂)拆分成原始特征f(x₁)(输出1)和f(x₂)(输出3)以及离散化分布D(x₁)(输出2)和D(x₂)(输出4)。这里，术语“特征”是指特征向量，即特征数据的分组、集合或排列。一般而言，离散化分布也对应于特征。具体地，可以认为离散化分布是长度为n的特征向量。

然后，输出1和3用于计算210原始特征f(x₁)和f(x₂)之间的(第一)相似性函数的值s₁。输出2和4还用于确定新的相似性值。具体地，对于每个通道图，将具有离散化分布的张量进行拆分，得到形状为n×1的C个独立向量220_1至220_C。这里的拆分只是说明性的，不一定要执行。例如，参考图1描述的输入处理不一定要执行级联，因此也不需要拆分。

在下一个步骤中，计算230_1第一通道图中分布之间的分布相异性或距离或偏差d₁：

其中，H(·,·)是分布距离/偏差，

是c＝1时的离散化分布函数。这在每个c＝1..C时执行，直到为第C个通道图中的每个通道图获取230_C分布之间的分布距离/偏差d_C。

然后，可以将分布距离/偏差聚合或组合240为标量d_aggr。接着，计算250新的(第二)相似性函数(s₁,d_aggr)。第二相似性函数ψ(s₁,d_aggr)可以被设计为每个变量s₁、d_aggr的单调递增函数。

需要说明的是，不一定为其它(第二)输入数据102计算相似性s₁。如上所述，可以通过平均训练数据集分布执行比较，在这种情况下，可以很容易地实现OOD示例的检测。具体地，OOD是分布与数据集的平均分布相差甚远的示例。距离可以通过新得到的(第二)相似性来测量。

换句话说，根据一个实施例，第二分布是通过平均为属于相同类别的相应多个输入数据确定的多种分布获取的。例如，确定第一输入数据的特性可以包括：将距离值与阈值进行比较；根据比较结果估计属于所述相同类别的第一输入数据的可靠性。

在这些实施例中，上述类别可以对应于在任何预训练中设置的类别。类别集可以是封闭的，即包括预定义和预先训练的不会随时间变化的多种类别。但是，本发明也适用于可以在训练甚至生产(处理)过程中定义新类别的开放模型。

需要说明的是，一般而言，类别不一定是可识别类别，例如由真实名称标记的类别，例如人、汽车、树木、人物A、人物B等。相反，类别可以是某一元类别，例如模糊图像、儿童照，甚至是含义并不相当明显的类别。

现在将根据图4所示的功能块方案描述OOD检测的一个示例。

在图4的示例中，输入图像401对应于第一输入数据。在本示例中，输入图像401是类似于图像101的输入图像，具有H个样本的高度和W个样本的宽度以及3个颜色通道(分量)。如上所述，本发明不受3个颜色通道的限制。一般而言，本发明也适用于一个通道，例如亮度通道。可以具有2个、3个或以上的颜色通道。可选地或另外，除了颜色通道之外，可以使用深度通道、运动流通道或任何其它特征通道等。

将输入图像401输入到包括层410_1……410_K……420的卷积神经网络。换句话说，将CNN的操作一致地应用于输入，从而得到形状为H₁×W₁×C₁……H′×W′×C的一系列张量。如图4所示，在本示例中，H₁×W₁×C₁对应于H/2×W/2×64。在本示例中，在通过K个层(第K层的410_K)进行处理之后，通过CNN进行处理的结果用于导出离散化分布。为此，将形状为H′×W′×C的中间张量拆分成沿着通道轴的形状为H′×W′的C个张量。这与参考图1示出的处理类似。如上所述，不需要有多个通道。在具有一个通道的实现方式中，不执行拆分。

在功能块440_1至440_n和直到445_n的其它功能块中，执行分布函数的估计。与上面类似，为每个通道c独立确定小于

的值的比例，并将每个通道的结果级联为形状为n×1的向量。通道c上的小于c(i＝1至n)的值的数量(或者归一化时的比例)是估计的分布函数，表示为

形状为nx1的每个向量表示新的分布函数(这种情况下是累积分布函数)：

这些

是中间张量的每个通道c的离散化分布。将所有向量都级联为形状为n×C的张量。

然后，将得到的第一输入数据(在本示例中是输入图像401)的一种或多种分布450_1到450_C与训练数据集的一种或多种平均分布455_1到455_C进行比较460_1至460_C，并将结果组合470为d_aggr(可以是标量)。组合(聚合)可以是，例如第一图像401的一种或多种分布450_1至450_C与平均分布455_1至455_C之间的偏差或相异性的计算。这种偏差或相异性可以是表示两种分布之间的距离的任何指标。指标可以按通道计算，从而产生C个结果。然后，可以通过计算平均值或加权平均值或计算最小值或最大值等任何范数等方式组合这C个结果。

在功能块480中，将特性值d_aggr与阈值进行比较。如果d_aggr大于阈值，则第一输入数据(例如图像401)是OOD数据495，因为第一输入数据(即中间张量的分布)与训练数据集的(中间张量的)常见分布455_1至455_C相差甚远。如果d_aggr不大于阈值，则第一输入数据是普通数据(不是OOD数据)490。如果等式适用，则可以通过固定约定定义第一个数据是OOD。但是，还可以约定第一数据不是ODD。

需要说明的是，使用上述方法，一部分训练示例也可能标记为OOD示例。这是正确的，因为一些训练示例在它们包含的中间层特征(第K个中间张量的特性)方面可能是罕见的。

下文论述了上述两个实施例(图1/图2、图4)的一些其它示例性详细参数和实现方式。存在为了提高具体应用的性能的许多参数，例如用于确定一种或多种分布的中间张量的索引K、用于分布函数计算的点(取值范围)及其数量(量)、分布距离/偏差指标ψ(函数)等。可以根据训练集和期望应用通过经验选择OOD检测480的阈值。

一般而言，本发明提供了一种方法，不仅能够更准确地确定离群值，而且还可以降低计算复杂性，从而提高效率。例如，所有离散化分布比较都可以简化为一个二进制操作。例如，如果距离值是根据海林格(Hellinger)距离计算的，则可以实现这一点。海林格距离可以在C(C是等于或大于1的整数)个第一分布和对应的第二分布之间计算。在这种情况下，结果值是与第一输入数据的特性值对应的标量。换句话说，具有离散化分布的张量可以从n×C减小到1×1，以便使用海林格距离实现。

两种分布P和Q之间的海林格距离H(P,Q)通常定义为：

对于离散(或离散化)分布，海林格距离具有以下形式：

其中，t₀＝-∞，t_n+1＝∞。

在d_aggr等于

之和(平方距离和)的情况下，则

其中，

是输入k的通道图c的离散化分布的累积分布函数，t_i是用于分布函数评估的点(取值范围)，t₀＝-∞(因此

)，t_n+1＝∞(因此

)。

由于海林格距离简化为简单的差方和，因此可以应用主成分分析(PrincipalComponent Analysis，PCA)来减少计算次数。也就是说，应用PCA等于(对应于)计算投影到某个子空间而不是初始空间上的差方和。

例如，d_aggr的估计简化为平方和，可以重写如下：

其中，

是l₂范数。

考虑ν作为欧几里得

空间中的点，并针对大量输入评估这些点的值，以得到足够的统计数据，可以在这些点上拟合PCA。一旦PCA被拟合，就可以用于通过矩阵向量点积获取欧几里德空间

(m＜＜C·(n+1))中的新点：

μ＝Mv^τ，

其中，M是形状为m×C(n+1)的矩阵，每个矩阵行的l₂范数等于1。这个等式表示μ是点v在子空间上投影的坐标向量，子空间的基向量坐标通过矩阵M中的行定义。

因此，如果PCA用于获取新的d′_aggr，则变成

这等于v₁和v₂在子空间上的投影之间的平方l₂距离，子空间的基向量坐标由矩阵M中的行定义。

由于m(用于投影的子空间的维数)可以任意值，因此可以将所有点投影到直线(一维子空间)上。因此，可以将定义离散化分布的全部n·C个值映射到一个值。

总之，新空间可以通过PCA确定。因此，所有v个值都可以投影到

空间中的直线上。因此，v个值可以特征，例如作为一个浮点数(直线上投影点的坐标)。换句话说，空间尺寸可以通过PCA减小，使得在维度较小的空间中(例如在一条直线上的投影之间)计算距离。

示例性流水线如下所述：

1.选择用于统计的层(K)，选择用于分布的数量n和间隔的位置。

2.(可选的)如果***需要快速计算，则可以使用海林格距离和平方和+PCA形式的聚合来减少生产过程中的操作数量。以间隔为单位的值是根据之前的步骤针对大量输入估计的，以拟合PCA，但这个过程是预定的。PCA通过固定公式拟合。

3.新的相似性函数取决于第二步骤。其参数根据d_aggr的公式确定。

海林格距离和PCA是简化计算的手段，但只是示例性和可选的。本发明可以使用其它距离，并且不需要应用PCA。

因此，海林格距离可以使用二进制函数(具体是直线上的l₂距离)近似，与原始相似性函数相比，只需要稍微增加一些计算能力。

总之，根据一种示例性实现方式，距离值是通过将海林格距离近似为投影到通过应用主成分分析减小的空间的差方和计算的。

具体的张量序号K取决于网络架构和中间层特征的复杂性。接下来描述如何从任何张量中获取分布。

考虑张量l的通道图c的值作为随机变量

的值。目的是估计张量l的每个通道图c上的值的分布函数

由于可以使用任意数量的正确输入(分布中的输入)，因此分布函数可以近似如下，通过计算比例使用归一化：

换句话说，为了得到与用于估计的值的数量无关的估计分布函数，执行通过值的数量的归一化。分布函数具有某些属性，然后满足这些属性。例如，累积分布函数返回0到1之间的值，而概率密度函数的面积总和为1。

为了通过离散分布函数估计连续分布函数，必须使取值范围离散化。这可以通过各种不同的方式执行。例如，可以选择n个点(定义分布函数的分辨率)，使得这些点沿着取值范围等距间隔。该取值范围是第K个中间张量的值所在的范围。然后，落入两个相邻点之间的区间的值针对所有区间计算，从而产生估计的离散分布函数，表示落入相应区间的值的出现频率。但是，本发明不限于等距选择与相同大小的区间对应的点。虽然这种方法有效且简单，但根据值的出现频率选择点是有优势的。

例如，可以在(相当少的)浮点中选择点(t₁……t_n)，然后应用变换

点的位置可以在分布的中值附近(或在均值附近等)更密集。换句话说，频繁出现的值的分布函数具有更高的分辨率，对应于更小的区间和定义区间的更密集的点。

例如，点的选择可以如下所述：

其中，std(.)表示与均值的标准偏差，即随机变量

的期望E。值

和

表示：对于第c个通道，分布的左右部分相对于均值的标准偏差。

点数(分布函数的分辨率)可以确定如下：

在这里，层高是CNN中的第K层中的张量的高度H'。倒数第二层的高度是第(K–1)层的高度。例如，对于He K.等人在2016年的图像识别的深度残差学习//IEEE计算机视觉和模式识别会议录的第770至778页上描述的众所周知的ResNet的层2中的单元2，n′可以是

此外，点(也可称为间隔或阈值)可以由以下公式给出：

这里，P是一个参数，它最大化随机变量

的香农熵之和。数字8是示例性的。一般而言，合适的值可以不同，并且可以事先(在生产阶段之前)通过实验确定，然后用作预定义值。除了8，可以使用，例如区间0.5至16中的其它值。离散随机变量X的香农熵H(X)定义为：

其中，P(x_i)是值为x_i的X的概率。对数函数的底为2，在这种情况下，熵的单位是比特。但是，对数和单位的底也可能不同。

因此，参数P使间隔位置提供更多信息，因为每个点在分布中的占比相同。

图6示出了小P(左上角)、大P(右上角)和最优P(底部)的示例。在x轴上，示出了i个间隔

在y轴上，示出了值

使用之前的步骤中确定的点，输入X的离散话分布的张量T_dist计算如下：

这个张量设置C种分布

其中

最后，可以通过使用如上所述的任何分布距离或偏差来比较得到的分布。

总之，获取n个取值区间可以包括(i)根据第一特征张量的维度确定数字n和(ii)根据第一特征张量值的熵确定取值区间长度中的至少一个。

需要说明的是，熵只是一种可能性，这可以提供以下优势：使分布函数的分辨率适应值的出现频率。但是，本发明不受这种方法的限制，并且通常可以使用不同于熵的其它统计数据，或者可以根据预定义标准(例如等距)选择区间。数字n可以是固定的，也可以根据除第K个张量的维度(或一维)之外的其它标准选择。

为了选择用于获得离散分布的张量(即K的值)，可以评估OOD示例集。OOD示例集可以包括正确输入(ODD)，这在正常训练数据集中是罕见的。ODD示例的训练集应该有利地具有至少数百个示例。生成这种数据在本发明的范围之外，但在神经网络训练的背景下，技术人员都知道。另外，可以为分布内示例提供同样大的数据集。

使用这两个数据集，最佳张量可以确定如下：

(a)平均离散化分布函数

(c∈{1,...,C_l})是使用每个张量l的所有分布内示例生成的。如上所述，层l输出的张量是第l个张量。

(b)计算

(c∈{1,...,C_l})与每个张量l的每个输入X(OOD输入以及分布内输入)的分布之间的分布距离/偏差

的聚合值(例如平方海林格距离和)。

(c)接下来，认为该问题是二元分类任务，其中只有一个说明变量可用，即

换句话说，根据变量

的值，确定输入是属于OOD类别还是分布内类别。具体地，如果

的值大于或等于阈值，则用于计算

的输入数据被归类为ODD，否则被归类为分布内。

(d)然后，选择张量l(选择为第K个张量)，根据某一度量，例如准确率、F1得分等，可以使用分布距离/偏差

至

(c∈{1,...,C_l})的聚合值为输入实现最佳二元分类率。例如，可以使用TPR＝90％时的FPR等度量。

上面关于查找K的示例并不限制。但是，这种方法能够找到合适的张量，以分析特定应用/期望准确率和/或复杂性或其它标准。

换句话说，上述方法还可以包括：将神经网络中的至少一层确定为输出特征张量提供最大分类准确率的层。需要说明的是，在上面的描述中，仅选择和使用单层(以及对应的张量)。但是，本发明并不仅限于一层。相反，神经网络中的2个、3个或以上层可以通过离散化分布在单层示出的类似管道中进行分析。然后，可以单独使用或聚合结果。

为了找到新的相似性，可以使用一组难(表示难以区分)对，即原始特征具有高相似性的不同类别的输入对和原始特征具有低相似性的一个类别的输入对。除了难对之外，还可以提供更大的一组普通对，这些对可以使用不同的置信度正确识别。生成这种数据不在本方法的范围内，但在技术人员的能力范围内。

为每个变量提供单调递增函数ψ(s₁,d_aggr)可能是有优势的。这里，s₁是输入之间的原始相似性，d_aggr是分布距离/偏差的聚合值。因此，具有较大初始相似性的输入具有较大的新相似性。同时，增加了输入的相似性，中间层特征的分布彼此相差甚远。这等于对中间层特征分布紧密的输入的惩罚。

请注意，例如，在余弦相似性的情况下，初始相似性函数通常是有限制的，而分布距离/偏差通常是无限制的。这就是在表示为某一值θ的ψ(s₁,min(d_aggr,θ))的函数中查找ψ(s₁,d_aggr)函数有优势的原因。

为了使新的相似性函数ψ快速并防止过拟合，在可以表示为ψ(s₁,d_aggr)＝p₁(s₁)+w·p₂(min(d_aggr,θ))的函数中查找有优势，其中，

a₁和a₂是(正)整数参数，w和θ是预定参数。这些参数可以是浮点参数或整数参数，取决于特定的实现方式。参数Θ是预定最大距离。

可以认为该问题对应于二元分类任务(类别是一个类别的对和不同类别的对)，其中只有一个说明变量可用，即ψ(s₁,d_aggr)。然后，根据正确率、F1得分等(本实现方式是正确率)某一度量选择参数a₁、a₂、w、θ的最优组合。然后，这种新的相似性度量可以用于参数已经优化的特定应用，例如人脸识别或通用对象识别或其它特定对象识别，例如汽车识别。

上述示例性新的相似性函数并不限制本发明。相反，可以使用其它函数。一般而言，可以使用任何相似性度量，其是预定层(K)中的输出张量的分布之间的距离的函数。新的相似性度量还可以是通过神经网络中的所有层处理第一输入数据得到的特征张量和/或通过神经网络中的所有层处理第二数据得到的特征张量的函数。具体地，该函数可以是距离值d_aggr的单调递增函数。

需要说明的是，在图1、图2和图4的上述示例中，第一输入数据是包括C个通道的图像数据，其中，C是等于或大于1的整数。换句话说，本发明可以适用于一个通道(例如图像输入情况下的亮度)。但是，本发明可以适用于更多通道，例如颜色通道或其它通道。此外，如上面的示例所示，可以根据应用和输入到神经网络的数据的类型选择分析张量的层以及其它参数。不一定必须是图像数据。可以使用音频或文本数据，或其它类型的数据或特征数据。

在多个通道的情况下，根据一个实施例(如图1、图2和图4等所示)，对(通道1至C中的)每个通道c单独执行处理第一输入数据、估计得到的第一特征张量的第一分布和确定距离值(例如度量)的步骤。确定第一输入数据的特性通过聚合为每个通道确定的距离值进行。

例如，在处理一个类别的多个实例时，可以使用平均。当组合多个通道的分布(包括单独输入实例处理)时，可以使用聚合，例如平方和与海林格距离。由于海林格距离应用平方根，因此平方可能特别容易确定。但是，也可以使用其它形式的聚合。

如上所述，本发明可以用于人脸识别。

本发明可以通过如上所述的方法实现。但是，本发明的实施例和示例也可以实现为各种装置。例如，可以提供一种通过神经网络处理第一输入数据的信号处理装置。所述信号处理装置包括处理电路，用于：通过所述神经网络中的至少一层处理所述第一输入数据，得到第一特征张量；估计所述得到的第一特征张量的第一分布；获取第二分布；确定表示所述第一分布和所述第二分布之间的距离的距离值；根据所述确定的距离值确定所述第一输入数据的特性。

图5是一个示例性实施例提供的装置500的简化框图。装置500可以用作图1和图2或图3或图4中的信号处理装置。

装置500中的处理器502可以是中央处理器。可选地，处理器502可以是现有的或今后将开发出的能够操作或处理信息的任何其它类型的设备或多个设备。虽然所公开的实现方式可以使用如图所示的处理器502等单个处理器来实施，但使用多个处理器可以提高速度和效率。

在一种实现方式中，装置500中的存储器504可以是只读存储器(read onlymemory，ROM)设备或随机存取存储器(random access memory，RAM)设备。存储器可以在处理电路(包括一个或多个处理器)的内部或外部，并且可以在相同芯片上或单独实现。任何其它合适类型的存储设备都可以用作存储器504。存储器504可以包括处理器502通过总线512访问的代码和数据506。存储器504还可包括操作***508和应用程序510，应用程序510包括至少一个程序，这个程序使得处理器502执行本文描述的方法。例如，应用程序510可以包括应用1至应用N，还包括执行本文描述的方法的信号处理装置。

装置500还可以包括一个或多个输出设备，例如显示器518。在一个示例中，显示器518可以是将显示器与触敏元件组合的触敏显示器，该触敏元件能够用于感测触摸输入。显示器518可以通过总线512耦合到处理器502。

虽然装置500中的总线512在本文描述为单个总线，但是总线512可以包括多个总线。此外，辅助存储器514可以直接耦合到装置500中的其它组件或可以通过网络被访问，并且可以包括单个集成单元(例如一个存储卡)或多个单元(例如多个存储卡)。因此，装置500可以通过多种配置实现。

本文中参考图1至图4等描述的实施例和功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则这些功能可以作为一个或多个指令或代码存储在计算机可读介质中或通过通信介质发送，且由基于硬件的处理单元执行。计算机可读介质可以包括与有形介质(例如数据存储介质)对应的计算机可读存储介质，或者包括任何根据通信协议等便于将计算机程序从一个地方发送到另一个地方的通信介质。通过这种方式，计算机可读介质通常可以对应(1)非瞬时性的有形计算机可读存储介质或(2)信号或载波等通信介质。数据存储介质可以是通过一个或多个计算机或一个或多个处理器访问的任何可用介质，以检索用于实现本发明所述技术的指令、代码和/或数据结构。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储设备、闪存或可以用于存储指令或数据结构形式的所需程序代码并且可以由计算机访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果指令通过同轴缆线、光纤缆线、双绞线和数字用户线(digital subscriber line，DSL)、或红外线、无线电和微波等无线技术从网站、服务器或其它远程源进行传输，则同轴缆线、光纤缆线、双绞线和DSL、或红外线、无线电和微波等无线技术也包括在上述介质的定义中。但是，应当理解的是，计算机可读存储介质和数据存储介质并不包括连接、载波、信号或其它瞬时性介质，而是涉及非瞬时性有形存储介质。本文所使用的磁盘和光盘包括压缩光盘(compact disc，CD)、激光光盘、光学光盘、数字多功能光盘(digital versatile disc，DVD)和蓝光光盘，其中，磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。上述各项的组合也应包括在计算机可读介质的范围内。

指令可以通过一个或多个数字信号处理器(digital signal processor，DSP)、一个或多个通用微处理器、一个或多个专用集成电路(application specific integratedcircuit，ASIC)、一个或多个现场可编程逻辑阵列(field programmable logic array，FPGA)或其它同等集成或离散逻辑电路等一或多个处理器来执行。因此，本文使用的术语“处理器”可以指任何上述结构或任何适合于实现本文所描述的技术的任何其它结构。另外，在一些方面中，本文描述的各种功能可以提供在用于编码和解码的专用硬件和/或软件模块内，或者并入组合编解码器中。此外，这些技术可以在一个或多个电路或逻辑元件中完全实现。

本发明中的技术可以在多种设备或装置中实现，这些设备或装置包括无线手机、集成电路(integrated circuit，IC)或一组IC(例如芯片组)。本发明中描述各种组件、模块或单元是为了强调用于执行所公开技术的装置的功能方面，但未必需要由不同硬件单元实现。相反，如上所述，各种单元可以结合合适的软件和/或固件组合在编解码器硬件单元中，或者通过包括如上所述的一个或多个处理器的互操作硬件单元的集合来提供。

一种示例性实现方式提供了一种通过神经网络处理第一输入数据的信号处理装置，所述信号处理装置包括以下功能模块，所述功能模块可以在如上所述的任何硬件和/或软件模块中实现。所述信号处理装置如图3B所示，包括神经网络360，用于通过所述神经网络中的至少一层处理所述第一输入数据，得到第一特征张量。所述神经网络可以是适合于处理所述第一输入数据的任何类型的神经网络。例如，可以是用于处理图像数据的CNN。所述神经网络可以包括用于向其它功能模块提供第K个张量(第一特征张量)的接口/输出，如图1、图2和图4详细示出。

此外，所述信号处理装置包括用于估计所述得到的第一特征张量的第一分布的分布估计器370和用于获取第二分布的输入375。所述第二分布可以与所述第一分布类似地获取，即通过从第二图像的张量中估计分布。或者，所述第二分布是根据多个(训练)数据获取的预定分布，例如类别的质心或平均分布等。

所述信号处理装置还包括用于确定表示所述第一分布和所述第二分布之间的距离的距离值的距离确定单元380和用于根据所述确定的距离值确定所述第一输入数据的特性的特性确定单元390。上面详细描述了这些模块的功能。

包括方法和装置的本发明采用中间张量值的离散化(估计)分布。与神经网络的正常部署相比，这构成了其它信号处理。本发明的实施例可以仅用于推理(生产阶段)，而学习(训练)是正常进行的，即根据任何众所周知的训练方法。本发明可以用于使用相同管道的任何基于深度学习的计算机视觉任务。本发明既可以用于开集识别任务，也可以用于闭集识别任务。

确定第一输入数据(例如输入图像)的特性可以对应于确定多个预定数据类别中的一种类别。这可以是开集或闭集分类。

可选地或另外，确定第一输入数据的特性可以对应于确定第一输入数据是否属于预定数据类别中的一种类别。这样能够区分第一输入数据的分布外和分布内情况。

其它实施例和示例性实施例可以提供其它的效果和优点。例如，如上所述，在海林格距离的情况下，所需的操作可以减少为一个二进制操作。最优参数可以通过参数选择算法(自动)选择。因此，可以在终端设备上调整最优参数。例如，可以选择中间张量K以最佳区分期望特征。离散化分布的分辨率可以根据所选张量选择。

图7至图9是上述实施例的效果的示意图。

图7示出了在初始人脸识别模型中构成的神经网络。输入层输入人脸图像。人脸图像可以是一个“难例”，难以识别。如上所述，儿童脸或老年人脸可能难以识别。此外，一些不寻常的人脸或计算机图形人脸或动物事例可能难以识别或难以与人脸区分。这在faceID等应用或其它采用人脸识别的应用中可能很重要。输入层的输出通过初始人脸识别模型的更多(中间)层(低层、中间层和高层)传递。在右侧，在输入数据的输出(或高层)特征对之间示出了估计余弦相似性的分布，这些特征对包括正确对(应该相似)和错误对(不应该相似)。从难例的分布图中可以看出，正确对和错误对的相似性分布是重叠和反转的，以至于不容易设置实现可靠区分的阈值。正确对的相似性在图的左边，但一般而言，它们应该在右边。错误对的相似性应该在左边。错误定位是因为可视化是针对难例的。本发明的方法将至少一些正确对移到右边。

图8示意性地示出了关于输入图像比较的本发明一个实施例的使用。除了直接评估(0)之外，例如，如结合图7所述，还执行进一步的额外处理。具体地，对于一对中的第一图像(dP)和第二图像(dQ)，根据(1)计算中间层的特征的分布。然后根据(2)比较分布，如(3)所示确定新的相似性(两种分布之间的距离)，作为补充用于与根据(0)计算的相似性聚合(和校正)，以更好地区分正确对和错误对。

图9示出了用于检测分布外示例(输入图像)的一个实施例的示意性示例。步骤(1)和(2)与结合图8描述的相同。将分布与预定分布进行比较，以根据(3)确定输入数据张量分布是否与预定分布足够相似(分布内)。右上角示出了人脸在分布外的一些示例。

如上所述，本发明适用于任何类型的前馈神经网络并适用于包括闭集和开集架构的任务。

用于闭集图像识别的神经网络的示例性架构如图10A所示。这种架构对于训练阶段和推理阶段可能是相同的。将具有高度H、宽度W和3个输入通道的输入图像1010输入到神经网络。神经网络包括N个卷积层1110_1至1110_N。本示例中的第一个卷积层输出具有高度H/2、宽度W/2和64个通道的特征图。最后一个卷积层输出具有高度7、宽度7和S个通道的特征图。平均池化层1020输出具有高度1、宽度1和S个通道的特征图。池化操作为1和S之间的每个j计算7×7特征的平均值。在步骤1030中，将1×1×S张量扁平化为大小为S的一维特征向量。下一层是表示为FC的全连接(密集)层1040。将长度为S的特征向量输入到这一层，这一层将该向量(作为行向量)与大小为S×K的矩阵进行点乘，得到大小为K的向量1045。这个向量是包括K个相应类别的K个相似性的向量。这里，(与上面的描述不同)K对应于这个闭集模型中的类别的数量。由于是一个闭集模型，因此在训练阶段和推理(生产)阶段内，类别的数量K保持不变。

上述采用基于中间层的分布函数的额外处理的实施例可以在卷积层1110_1至1110_N中的任一个之后实现。然后，额外处理输出K个类别的其它相似性(或距离)。然后，新的相似性可以计算为从神经网络输出的相似性和通过额外处理得到的相似性两者的函数。

图10B示出了开集推理阶段的示例性神经网络架构。类似的架构适用于FaceID中的图像识别。输入图像1010和卷积NN层1110_1至1110_N与上文参考图10A所述的类似。在这个架构中，没有池化层。相反，最后一个卷积层的输出7×7×S张量被扁平化1050为大小为49S的一维特征向量。然后，全连接(fully connected，FC)层1060将大小为49S的输入向量与大小为49S×512的矩阵相乘。这里，512是常用值。但是，本发明并不限于这种值。相反，对于一些应用，其它大小可能更合适。然后，可以存储大小为512(特征)的输出特征向量1065，以便与其它此类特征向量(从其它输入图像中获取)进行比较，以评估相似性。

类似于在参考图10A描述的架构的情况下，额外处理可以在卷积层1110_1至1110_N中的任一个之后实现。然后，额外处理输出其它相似性(或距离)。然后，新的相似性计算为根据特征向量比较从神经网络输出的相似性和通过额外处理得到的相似性两者的函数。

图10C示出了用于开集训练阶段的示例性神经网络架构。输入图像1010和卷积NN层1110_1至1110_N以及偏平化层1050和第一FC层1060与上文参考图10B描述的类似。另外，第二FC层可以用于训练阶段，其将大小为512的特征向量与大小为512×K的矩阵相乘。因此，结果1075是与在训练阶段内训练的相应K个类别的相似性。

也可以将额外处理用于训练目的，例如使用图10A和图10C所示的架构。具体地，可以在训练过程中评估与K个类别的新相似性ψ(s₁,d_aggr)，而不是相似性s₁(1045和1075)。

需要说明的是，NN架构只是示例性的。一般而言，特征图的维度和通道数量可能不同。此外，一些架构不一定存在FC层1040。扁平化层1030也是如此。

总之，本发明涉及通过神经网络处理输入数据。一些实施例提供的方法和装置通过所述神经网络中的至少一层处理所述输入数据，并通过所述输入数据获取特征张量。然后，估计所述获取到的特征张量的分布。获取其它分布。这种其它分布可以是其它输入数据的分布，或者是通过组合为相应多个输入数据获取到的多种分布得到的分布。然后，计算表示两种分布之间的距离的距离值，并根据所述距离值确定所述输入数据的特性。所述特性可以与某一类数据或分布外数据检测或类别确定的可靠性确定等有关。

Claims

1.一种通过神经网络处理第一输入数据的方法，其特征在于，所述神经网络是前馈神经网络，所述方法包括：

通过所述神经网络中的至少一层处理(310)所述第一输入数据，得到第一特征张量；

估计(320)所述得到的第一特征张量的第一分布；

获取(330)第二分布；

确定(340)表示所述第一分布和所述第二分布之间的距离的距离值；

根据所述确定的距离值确定(350)所述第一输入数据的特性。

2.根据权利要求1所述的方法，其特征在于，所述估计(320)第一分布包括：

获取第一特征张量值的取值区间的数量n；

对于所述n个取值区间中的每个取值区间，确定属于所述取值区间的值在所述第一特征张量值中的出现次数。

3.根据权利要求2所述的方法，其特征在于，所述获取n个取值区间包括(i)根据所述第一特征张量的维度确定所述数量n和(ii)根据所述第一特征张量值的熵确定取值区间长度中的至少一个。

4.根据权利要求1至3中任一项所述的方法，其特征在于，在所述确定(350)所述第一输入数据的特性中，所述特性是以下项中的至少一个：

多种预定数据类别中的一种类别和

所述第一输入数据是否属于(480)所述预定数据类别中的一种类别。

5.根据权利要求1至4中任一项所述的方法，其特征在于，

所述获取(330、160)第二分布包括：

通过所述至少一层处理(110_1至120)第二输入数据，得到第二特征张量；

估计(130_1至150)所述得到的第二特征张量的第二分布；

所述确定(350)所述第一输入数据的特性包括：通过相似性度量确定(250)所述第一输入数据与所述第二输入数据的相似性，其中，所述相似性度量是所述距离值的函数。

6.根据权利要求5所述的方法，其特征在于，所述相似性度量还是通过所述神经网络中的所有层处理所述第一输入数据得到的特征张量和/或通过所述神经网络中的所有层处理所述第二数据得到的特征张量的函数。

7.根据权利要求5或6所述的方法，其特征在于，所述函数是所述距离值的单调递增函数。

8.根据权利要求7所述的方法，其特征在于，所述函数ψ由ψ(s,d)＝p₁(s)+w·p₂(min(d,Θ))给出，其中，p_i(x)＝x^ai，ai是正整数，i是1或2，w是预定权重因子，Θ是预定最大距离。

9.根据权利要求1至4中任一项所述的方法，其特征在于，所述第二分布是通过平均为属于相同类别的相应多个输入数据确定的多种分布获取(240、470)的。

10.根据权利要求9所述的方法，其特征在于，所述确定(350)所述第一输入数据的特性包括：

将所述距离值与阈值进行比较(480)；

根据比较结果估计(490、495)属于所述相同类别的所述第一输入数据的可靠性。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述距离值是根据海林格距离计算的。

12.根据权利要求11所述的方法，其特征在于，所述距离值是通过将所述海林格距离近似为投影到通过应用主成分分析减小的空间的差方和计算的。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：将所述神经网络中的所述至少一层确定为所述输出特征张量提供最大分类准确率的层。

14.根据权利要求1至13中任一项所述的方法，其特征在于，所述第一输入数据是包括c个通道的图像数据，其中，c是等于或大于1的整数。

15.根据权利要求14所述的方法，其特征在于，

对每个通道c单独执行处理(310)所述第一输入数据、估计所述得到的第一特征张量的第一分布和确定距离值的步骤；

所述确定(340)所述第一输入数据的特性通过聚合为每个通道确定的距离值进行。

16.根据权利要求14或15所述的方法，其特征在于，所述方法用于人脸识别。

17.一种存储在非瞬时性介质中的包括指令的计算机程序，其特征在于，当所述指令在一个或多个处理器上执行时，所述指令执行根据权利要求1至16中任一项所述的步骤。

18.一种通过神经网络处理第一输入数据的信号处理装置(500)，其特征在于，所述神经网络是前馈神经网络，所述信号处理装置包括处理电路(502)，所述处理电路用于：

通过所述神经网络中的至少一层处理所述第一输入数据，得到第一特征张量；

估计所述得到的第一特征张量的第一分布；

获取第二分布；

确定表示所述第一分布和所述第二分布之间的距离的距离值；

根据所述确定的距离值确定所述第一输入数据的特性。

19.一种通过神经网络处理第一输入数据的信号处理装置，其特征在于，所述神经网络是前馈神经网络，所述信号处理装置包括：

神经网络(360)，用于通过所述神经网络中的至少一层处理所述第一输入数据，得到第一特征张量；

分布估计器(370)，用于估计所述得到的第一特征张量的第一分布；

输入(375)，用于获取第二分布；

距离确定单元(380)，用于确定表示所述第一分布和所述第二分布之间的距离的距离值；

特性确定单元(390)，用于根据所述确定的距离值确定所述第一输入数据的特性。