CN112470131B

CN112470131B - 检测数据集中异常的装置和方法以及它们相应的计算机程序产品

Info

Publication number: CN112470131B
Application number: CN201880095812.5A
Authority: CN
Inventors: 瓦列里·尼古拉耶维奇·格卢霍夫; 张亮; 潘继雨
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2023-02-07
Anticipated expiration: 2038-07-20
Also published as: WO2020014957A1; EP3811221A4; EP3811221A1; CN112470131A; US20210144167A1

Abstract

本发明涉及数据处理领域，且更具体而言，涉及用于通过使用两种或多种异常检测算法来检测数据集中异常的装置和方法以及它们相应的计算机程序产品。根据本发明，通过使用两种或多种异常检测算法所获得的结果根据特定组合规则进行组合，从而提供具有更高准确性的异常检测。

Description

检测数据集中异常的装置和方法以及它们相应的计算机程序产品

技术领域

本发明涉及数据处理领域，且更具体而言，涉及用于通过使用两种或多种异常检测算法来检测数据集中异常的装置和方法以及它们相应的计算机程序产品。

背景技术

异常检测是指识别出无法确认预期行为模式的数据项或与数据集中的其它(正常)数据项不对应的数据项。目前，异常检测算法的用途非常广泛，例如，股票市场中的欺诈检测、计算机或通信网络中的恶意活动检测、软件或硬件中的故障检测、医学中的疾病检测等。

异常可以简单地分为与感兴趣事件相关的异常以及与感兴趣事件无关的异常。后一种异常，也称为虚假异常，可能对用户体验有负面影响，导致误告警，因此在搜索数据集中的前异常时须将其排除出考虑范围。为此，可以应用特定的异常检测算法来计算一定数量的重要异常并按异常重要性降序显示这些重要异常，从而允许用户手动滤除虚假异常。然而，这种手动工作不仅耗时而且还需具有特定使用领域的扎实知识。

为了降低虚警率，可以使用两种或多种异常检测算法相互配合以对感兴趣数据集中的每个数据项给出平均异常分数。通过将异常检测算法与无监督学习和监督学习等传统机器学习技术相结合，至少可以避免部分手动工作。同时，所有已知的异常检测***均无法提供足够的准确性，并且仍然依赖于用户定义的规则，这些规则可能会根据特定的使用领域而变化。

因此，仍然需要一种新的解决方案，来减轻或甚至消除现有技术所特有的上述缺点。

发明内容

本发明内容简单地介绍了一系列概念，这些概念将在下文进一步详细描述。本发明内容并非旨在识别所要求保护的主题的关键特征或必要特征，也非旨在用于限制所要求保护的主题的范围。

本发明的目的是提供一种技术解决方案以提高异常检测准确性并最小化用户参与。

上述目的通过所附权利要求书中的独立权利要求的特征来实现。根据所附权利要求书、详细描述和附图，进一步的实施例和示例将显而易见。

根据第一方面，提供了一种检测数据集中异常的装置。所述装置包括至少一个处理器以及耦合到所述至少一个处理器并存储可执行指令的存储器。所述指令在执行时使得所述至少一个处理器：接收包括多个数据项的数据集，其中至少一个数据项异常；并选择至少两种异常检测算法。然后，通过使用所述至少两种异常检测算法中的每一种，指示所述至少一个处理器：计算所述数据项中每一项的异常分数；基于所述异常分数获得所述数据项的部分排序，所述部分排序使得所述数据项被分成对应于不同中间等级区间的子集；基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型；并且基于所述概率模型为每个子集中的所述数据项的每一项的中间等级分配信度。接下来，指示所述至少一个处理器按照预定义的组合规则同时使用所述至少两种异常检测算法，通过组合所获得的所述数据项中每一项的中间等级的信度来获得所述中间等级的总信度。之后，指示所述至少一个处理器将所述数据项的中间等级的总信度转换为描述所述数据项的预期等级的概率分布函数。进一步指示所述至少一个处理器根据所述数据项的所述预期等级对所述数据项进行排序，并在排序后的所述数据项中找出至少一个异常数据项。这样可以以更准确、更稳健的方式检测异常，而无需使用特定知识领域特有的专家规则。

在所述第一方面的一种实施形式中，所述至少一个处理器用于基于所述数据项所属的使用领域来选择所述至少两种异常检测算法。根据所述第一方面所述的装置能够在不同的使用领域中进行同样操作，因而提供了使用的灵活性。

在所述第一方面的另一种实施形式中，所述至少两种异常检测算法中的每一种配置有不同的权重系数，并且所述至少一个处理器还用于与所述异常检测算法的所述权重系数配合基于所述概率模型分配所述信度。通过将所述不同的权重系数分配给所述异常检测算法，可以获得每个子集中每个数据项的中间等级的更客观的信度。

在所述第一方面的另一种实施形式中，所述至少两种异常检测算法是基于无监督学习的异常检测算法，并且所述至少两种异常检测算法的所述不同权重系数是基于用户偏好指定的，使得所述权重系数的和等于1。这样可以最小化用户参与异常检测，即，使根据所述第一方面所述的装置更加自动化。

在所述第一方面的另一种实施形式中，所述至少两种异常检测算法是基于监督学习的异常检测算法，并且所述至少两种异常检测算法的所述权重系数使用预先准备的训练集来调整，所述训练集包括不同的前数据集以及与所述前数据集一一对应的目标排序。这样可以最小化用户参与异常检测。

在所述第一方面的另一种实施形式中，当使用所述基于监督学习的异常检测算法时，基于Kendall tau距离进一步调整所述至少两种异常检测算法的所述权重系数。所述Kendall tau距离用于测量由所述至少两种异常检测算法所获得的组合部分排序与所述训练集中的所述目标排序中每一个之间的距离。利用所述Kendall tau距离，可以更有效地调整每个异常检测算法的比重。

在所述第一方面的另一种实施形式中，基于所述数据项的所述部分排序所获得的所述子集包括至少两个第一子集，每个第一子集包括具有相同异常分数的数据项。这样可以简单有效地将所述数据项分成多个异常类别。

在所述第一方面的另一种实施形式中，所述至少两个第一子集的所述中间等级区间不重叠。这样可以更明确地将所述数据项划分到所述异常类别。

在所述第一方面的另一种实施形式中，基于所述数据项的所述部分排序所获得的所述子集还包括第二子集，所述第二子集包括不属于所述至少两个第一子集的数据项，并且所述至少一个处理器还用于基于所述第二子集选择所述概率模型。根据所述第一方面所述的装置在检测所述数据集中的一个或多个异常时能够考虑所述不同的异常类别，在此意义上，使得所述装置更加灵活。

在所述第一方面的另一种实施形式中，所述第二子集的所述数据项可能是错误遗漏的数据项或者是所具有的异常分数与属于所述至少两个第一子集的所述数据项不同的数据项。这样，即使在根据所述第一方面所述的装置的操作期间存在错误未排序或遗漏的数据项，也可以提供具有一定准确性和鲁棒性的异常检测。

在所述第一方面的另一种实施形式中，所述第二子集的所述中间等级区间包含所述至少两个第一子集的所述中间等级区间。这意味着，即使一些数据项的中间等级在整个中间等级区间中偶然且任意分布，根据所述第一方面所述的装置也能够成功操作。

在所述第一方面的另一种实施形式中，所述预定义的组合规则包括Dempster组合规则。这样能够完全基于统计融合方法而不是所述专家规则来组合所述信度，从而在更大程度上最小化用户参与，并使得根据所述第一方面所述的装置易于使用。

在所述第一方面的另一种实施形式中，所述至少两种异常检测算法包括以下算法的任意组合：基于最近邻的异常检测算法、基于聚类的异常检测算法、统计异常检测算法、基于子空间的异常检测算法和基于分类器的异常检测算法。由于以上列出的算法中的每一种在特定使用领域应用时都具有优势，因而提供了更大的使用灵活性。

在所述第一方面的另一种实施形式中，所述中间等级的所述信度包括基本信度分配。这样能够更大程度地提高异常检测的准确性。

在所述第一方面的另一种实施形式中，所述至少一个处理器还用于通过使用pignistic变换将所述数据项的所述中间等级的所述总信度转换为所述概率分布函数，并且所述概率分布函数是pignistic概率函数。这样能够更大程度地提高异常检测的准确性。

在所述第一方面的另一种实施形式中，所述数据项包括网络流数据，且所述至少一个异常数据项与异常网络流行为有关。这样能够快速检测并响应计算机网络中的恶意活动或设备故障。

根据第二方面，提供了一种检测数据集中异常的方法。所述方法包括：接收数据集，所述数据集包括多个数据项，其中至少一个数据项异常。接下来，选择至少两种异常检测算法。通过使用所述至少两种异常检测算法中的每一种，执行以下步骤：计算所述数据项中每一项的异常分数；基于所述异常分数获得所述数据项的部分排序，所述部分排序使得所述数据项被分成对应于不同中间等级区间的子集；基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型；并基于所述概率模型为每个子集中各数据项的每一项的中间等级分配信度。接下来，按照预定义的组合规则同时使用所述至少两种异常检测算法，通过组合所获得的所述数据项中每一项的中间等级的所述信度来获得所述中间等级的总信度。将所述数据项的所述中间等级的所述总信度进一步转换为描述所述数据项的预期等级的概率分布函数。根据所述数据项的所述预期等级对所述数据项进行排序，并最终在排序后的所述数据项中找出所述至少一个异常数据项。这样可以以更准确、更稳健的方式检测异常，而无需使用特定知识领域特有的专家规则。

根据第三方面，提供了一种计算机程序产品，包括存储计算机程序的计算机可读存储介质。所述计算机程序在由至少一个处理器执行时使得所述至少一个处理器执行根据所述第二方面所述的方法。因此，根据所述第二方面所述的方法可以以所述计算机程序的形式体现，从而提供其使用的灵活性。

通过阅读以下详细描述和查阅附图，本发明的其它特征和优点将显而易见。

附图说明

以下结合附图解释本发明的本质，其中：

图1示出了将异常检测算法应用于数据集的典型示例。

图2所示为在发生恶意网络活动的情况下数字异常分数的示例性时间直方图。

图3所示为根据本发明一方面的一种检测给定数据集中异常的装置的框图。

图4所示为图3所述装置所获得的示例性部分排序。

图5所示为在不存在未排序数据项的情况下中间等级的概率分布。

图6所示为在存在未排序数据项的情况下中间等级的概率分布。

图7所示为已排序数据项中未排序数据项的示例性排列。

图8所示为根据本发明另一方面的一种检测数据集中异常的方法的框图。

图9A至9C所示为通过使用基于SVD的异常检测算法(图9A)、基于聚类的异常检测算法(图9B)和图8的方法(图9C)所获得的异常检测结果。

图10所示为中值等级聚合方法与图8所示方法的比较结果。

具体实施方式

结合附图进一步详细描述本发明的各种实施例。然而，本发明内容可以以多种其它形式体现，并且不应被解释为限于以下描述中公开的任何特定结构或功能。相反，提供这些实施例是为了使描述详细和完整。

根据详细描述，本领域技术人员应当清楚，本发明的范围涵盖本文所公开的任何实施例，而不论该实施例是独立实现还是与任何其它实施例一起实现。例如，本文所公开的装置和方法可以通过使用本文提供的任何数量的实施例在实践中实施。此外，应该理解，任何实施例都可以使用所附权利要求书中呈现的一个或多个元件或步骤来实现。

本文所用的术语“异常”及其派生词，例如“反常”、“不正常”等，是指偏离标准、正常或预期的情况。特别是，本文还使用的术语“异常数据项”来表示数据集中不属于该数据集中各数据项的标准偏差范围的数据项。异常可以以两个或多个相邻或接近的异常数据项为特征，在这种情况下称为集体异常。异常可能涉及感兴趣事件，即，待检测和解决的问题，或与感兴趣事件无关的问题。在后一种情况下，异常被称为虚假异常。在一个示例中，异常包括可能由恶意软件引起的大得可疑的(非典型)网络流。尽管此处提及了网络流数据，但本领域技术人员应该清楚，仅通过示例实施本发明，而并非对本发明的限制。换句话说，本文所公开的实施例同样可以应用于需要异常检测的其它使用领域，例如，检测欺诈性抛售股票，检测在花样滑冰或其它体育运动中错误发布的过高分数等。

本文使用的术语“组合规则”是指可以应用于多个数据源的输出数据，以将输出数据整合为比任何单个数据源的输出数据更加一致、准确和有用的信息的分析规则或条件。数据源在本文中呈现为异常检测算法，其待整合或组合的输出数据包括信度。组合规则的一个示例包括Dempster组合规则。

本文使用的术语“信度”是指被称为信度函数的数学对象，在信度函数理论中使用，也称为证据理论或Dempster-Shafer理论。信度函数理论允许组合来自不同数据源的证据，以达到一定的信度，该信度考虑到了所有可用的证据。如下文所示，信度在本文应用于使用异常检测算法所获得的数据项的中间等级。在一个示例中，信度是基本信度分配(basic belief assignments，bbas)，下面将在本文所公开的实施例中进行论述。根据定义，假设θ表示一组假设值H(例如，考虑到的所有***可能状态)，称为识别框架，则基本信度分配表示为幂集2^θ中的每个数据元素分配信度质量m的函数，该幂集2^θ是θ的所有子集的集合，包括空集

因此m:2^θ→[0,1]。基本信度分配具有以下两个主要属性：

其中，θ的子集H_n被称为m(非零质量)的焦点元素

本文所使用的术语“等级”是指用于将数据项分为不同异常类别的数字参数。每个异常类别由特定等级区间表示。本文论述的中间等级通过使用任意一个异常检测算法获得。同样在本文论述的预期等级是使用通过多个异常检测算法获得的中间等级所产生的更有效的等级。

图1示出了将异常检测算法应用于数据集100的一个典型示例。数据集100包括数据项102a至102n并且可能涉及不同的使用领域。例如，数据项可以包括由一个或多个网络设备传送的日志消息。在这种种情况下，可能发生异常，该异常包括由于有害第三方干预导致的每时间单位传送的日志消息数量迅速增加。为了检测异常，使用异常检测算法计算数据项102a至102n中每一项的异常分数，并基于异常分数为数据项指定特定异常类别。每个异常类别以异常分数的指定区间为特征。异常分数可以是实数或有序因子变量。异常分数越大，异常数据项越多。具体而言，数据项102a至102n可以分为两类，104a和104b，即，简单地分为“正常”和“异常”数据项，或者可以进行更复杂的分类。在后一种情况下，对应于每个类别的异常分数可以沿着异常分数轴106定义，此时存在两个以上异常类别108a至108d，包括例如“常见”、“不常见”、“非常常见”和“极其不常见”的数据项。实际上，异常类别的数量可以根据异常检测算法的类型而变化(下文进行论述)。虽然图1中仅示出了数据项102k的分类，但这是为了简化起见，应当清楚，数据项102a至102n中的每一项均具有同等分类。

图2所示为按预期检测恶意网络活动的数字异常分数的示例性时间直方图。异常分数已经通过对网络设备传送的日志消息应用基于奇异值分解(singular valuedecomposition，SVD)的异常检测算法获得。具体而言，基于SVD的异常检测算法使用从日志消息中提取的状态变化的频率作为恶意网络活动的主要特征，并为特定时间区间指定异常分数。最高峰值很适合作为必须使用异常检测算法得以本地化的恶意网络活动。从图2中可以看出，存在四个需要考虑的最高峰值200a至200d。线202指示恶意网络活动的实际发生时间。线202更靠近第四峰值200d，因此应该仅考虑第四峰值200d。峰值200a至200c与感兴趣事件无关，即，对应虚假异常，且在此示例中应排除出考虑范围。当然，仅使用一个异常检测算法不可能得出峰值200a至200c与恶意网络活动无关的结论。应当注意，类似的时间直方图可以用于检测网络通信中发生的除恶意网络活动之外的任何其它问题，例如，线202可能涉及任何网络设备故障。

一般来说，异常分数本身的绝对值没有意义，它们仅用于建立数据项之间的排序关系。因此，在仅使用一个异常检测算法的情况下，异常检测的准确性很低。

下面论述的本发明的各方面考虑了上述缺点，并且旨在提高异常检测的准确性和鲁棒性，特别是在网络流数据中。

图3所示为根据本发明一方面的检测如图1所示的给定数据集中异常的装置300的框图。如图3所示，装置300包括存储器302和耦合到存储器302的处理器304。存储器302存储可由处理器304执行用以检测数据集中异常的可执行指令306。数据集旨在包括至少一个异常数据项。

存储器302可以实现为现代电子计算机器中使用的易失性或非易失性存储器。非易失性存储器包括，例如，只读存储器(random-access memory，ROM)、闪存、铁电随机存取存储器(random-access memory，RAM)、可编程ROM(programmable rom，PROM)、电可擦除PROM(electrically erasable prom，EEPROM)、固态驱动器(solid state drive，SSD)、磁盘存储器(例如，硬盘驱动器和磁带)、光盘存储器(例如，CD、DVD和蓝光光盘)等。易失性存储器包括，例如，动态RAM、同步DRAM(synchronous DRAM，SDRAM)、双倍数据速率SDRAM(double data rate SDRAM，DDR SDRAM)、静态RAM等。

处理器304可以实现为中央处理器(central processing unit，CPU)、通用处理器、单用途处理器、微控制器、微处理器、专用集成电路(application specificintegrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)、数字信号处理器(digital signal processor，DSP)、复杂可编程逻辑设备等。还应注意，处理器304可以实现为前述中的一个或多个的任何组合。例如，处理器304可以是两个或多个微处理器的组合。

存储在存储器302中的可执行指令306可以用作计算机可执行代码，其使得处理器304执行本发明的各方面。用于执行本发明各方面的操作或步骤的计算机可执行代码可以用一种或多种编程语言的任何组合来编写，例如Java、C++等。在一些示例中，计算机可执行代码可以是高级语言形式或者是预编译形式，并且由运行中的解释器(同样预先存储在存储器302中)生成。

可执行指令306使得处理器304先接收包括多个数据项的数据集，其中至少一个数据项异常，如上所述。之后，处理器304基于数据项所属的使用领域来选择至少两种异常检测算法。使用两种或多种异常检测算法的原因在于协同效应，即，两种或多种异常检测算法提供的异常检测的准确性高于任何单个异常检测算法所提供的异常检测的准确性。更具体而言，如果装置300的用户绝对确信异常检测算法之一提供100％的准确性，那么该用户不会将该算法与任何其它异常检测算法组合。然而，在实践中，任何异常检测算法都容易出错，这迫使用户必须决定在什么情况下选择哪种异常检测算法。这就是为什么两种或多种异常检测算法提供的聚合准确性在异常检测过程中更为可取和有用的原因。

在一个实施例中，至少两种异常检测算法包括以下算法的任意组合：基于最近邻的异常检测算法、基于聚类的异常检测算法、统计异常检测算法、基于子空间的异常检测算法和基于分类器的异常检测算法。Goldstein M.和Uchida S.在他们的著作“多变量数据的无监督异常检测算法的比较评估”，PLoS ONE 11(4)：e0152173(2016)中描述了此等异常检测算法的一些示例。此外，所述至少两种异常检测算法可以是基于无监督学习或监督学习的异常检测算法，从而使得装置300在使用中更加自动化和灵活。正如本领域技术人员应该清楚的，无监督学习或监督学习可能涉及到神经网络、决策树和/或其它人工智能技术，这取决于具体应用。

在选择至少两种异常检测算法时，处理器304会使用它们来计算每个数据项的异常分数。然后，处理器304使用异常分数来获得数据项的部分排序。部分排序使得数据项被划分为多个子集，每个子集对应于不同的中间等级区间，如图4所示。更具体而言，图4所示的部分排序通过指定有序子集400a至400c(以图形方式显示为桶)来定义，每个子集划分有对应的数据项。一个子集中的任意数据项不能同时属于另一个子集，在此意义上，子集400a至400c彼此不相互重叠。子集400a至400c对应特定的异常类别，如上文结合图1所论述的。换句话说，子集400a至400c可以分别对应“非常不常见”、“不常见”和“常见”数据项。基于此等子集，“不常见”子集中的任何数据项的高度(等级)小于“常见”子集中的任何数据项的高度(等级)，而每个子集内各数据项的相对高度(等级)是不确定的(这就是为什么本文的排序被称为“部分排序”的原因)。实现部分排序的最简单方法是将具有相同异常分数的数据项分配给对应的子集，并按其异常分数倒序排列子集。本领域技术人员应该清楚，子集的数量可以多于三个，这取决于所使用的异常检测算法的能力。

通过部分排序，处理器304进一步选择概率模型以描述每个子集中各数据项的中间等级。总的来说，概率模型定义每个子集中各数据项之间的中间等级的概率分布。图5所示为部分排序的一个示例，在该示例中数据集的所有数据项形成了两个非重叠子集500a和500b。然后，可以假定子集500a和500b中的每一个的中间等级的概率均匀分布—这两种分布P_a和P_b相邻。这种概率均匀分布相对于理想情况，在实践中几乎不会发生。

然而，如果由于错误或者存在所具有的异常分数与已放在非重叠子集中的数据项的异常分数不同的数据项，导致并非所有数据项都放在非重叠子集中，则会违反非重叠子集的概率均匀分布。这种情况在图6中示出，两个非重叠子集600a和600b旨在分别对应于“不常见”和“常见”异常类别，并且其余数据项，即，未分配给子集600a和600b因而具有未知中间等级的数据项，划分在沿子集600a和600b扩展的全高子集600c中。然后，可以假定子集600c中各数据项的中间等级的概率均匀分布P_c。该假定将为子集600a和600b重塑中间等级的概率分布P_a、P_b，即P_c与P_a和P_b之间差异缩小并开始重叠。

为了在存在未排序数据项的情况下计算感兴趣子集中的中间等级的概率分布，处理器304可以用于执行以下过程。首先，假设存在任意数量的已排序子集(桶)，如图6中的子集600a和600b，以及划分有未排序数据项的一个子集(桶)，如图6中的子集600c，作为部分排序的结果。此外，假设对一个已排序子集中各数据项的中间等级的概率分布非常感兴趣且必须计算。将该已排序子集表示为第j个子集。上文假设的情况在图7中示出，其中有底纹的圆圈表示第j个子集的数据项，白色圆圈表示其它已排序子集的数据项(例如，由于包括“常见”或不太异常的数据项，因而不被关注)，黑色圆圈表示未排序数据项。通过这样的圆圈排列，处理器304还可以用于将圆圈分成三组—“顶部”、“中间”和“底部”—中间组包括第j个子集的所有数据项以及一些未排序的数据项，而顶部和底部组包括剩余的未排序数据项和属于除第j个子集之外的已排序子集的所有数据项。如此构建的三个组可以用以下参数表征：

1)N—已排序子集中已排序数据项的数量，

其中|X|为数据集中的数据项数量，N_B为已排序子集的数量，B_i为对应的已排序子集，并且K＝|B_Θ|为构成子集B_Θ的未排序数据项的数量；

2)n_middle—中间组中的数据项数量；

3)n_top—顶部组中的数据项数量；

4)n_bottom—底部组中的数据项数量；

5)k_middle—中间组中未排序数据项(即，黑色圆圈)的数量，

其中B_j表示第j个子集，y和z分别为中间组中的左右边界数据项，x为未排序数据项；

6)k_top—顶部组中未排序数据项(即，黑色圆圈)的数量，

7)K_bottom—底部组中未排序数据项(即，黑色圆圈)的数量，

此外，处理器304使用伪代码来计算B_j中各数据项的中间等级的概率分布P_j，如下文的算法1所示。假设P_j是|X|-分量向量，使得对于任意x∈B_j且r∈{1,…,|X|}，P_j(r)＝Pr(rank(x)＝r)。按照定义，

算法1：计算B_j中各数据项的中间等级的概率分布。

在算法1中，p_decomp是未分类数据项的分解概率，由参数k_middle、k_bottom、k_top定义，符号“←”是赋值运算符，函数Hyp()是超几何分布。具体而言，函数Hyp()描述了在不重复抽样的情况下获得长度为n的样本中的总数为k的黑色圆圈的概率，抽取N个圆圈，其中包含K个黑色圆圈。也就是说，

其中

是二项系数。

因此，通过使用算法1，处理器304使用至少两种异常检测算法中的每一种来计算B_j中各数据项的中间等级的概率分布P_j。

也就是说，如果处理器304使用L种异常检测算法，那么处理器304需要为B_j中各数据项的中间等级分别计算概率分布

当计算概率模式，或者换言之，概率分布P_j，处理器304进一步基于P_j将信度分配给中每个数据项的中间等级。此外，信度的典型示例为基本信度分配(bba)。当然，信度不仅限于bba，可以表现为针对Dempster-Shafer理论的任何其它信度函数。

在一个实施例中，处理器304用于向至少两种异常检测算法中的每一种提供不同的权重系数，并且基于概率模型配合异常检测算法的权重系数分配bba。这样可以将每个异常检测算法的比重调整为异常检测的聚合准确性。

在一个实施例中，在基于无监督学习的异常检测算法的情况下，处理器304用于基于用户偏好指定至少两种异常检测算法的不同权重系数，使得权重系数的和等于1，即，

其中L是使用的异常检测算法的数量。这样，装置300的用户可以根据经验对异常检测算法进行优先级排序。

在另一个实施例中，在基于监督学习的异常检测算法的情况下，处理器304用于通过使用预先准备的训练集来调整至少两种异常检测算法的权重系数，该训练集包括不同的前数据集以及与前数据集一一对应的目标排序。训练集可以预先，即在装置300的操作之前，存储在存储器302中。在这种情况下，处理器304先搜索与感兴趣数据集类似的前数据集，然后更改每个异常检测算法的权重系数，直到部分排序与该前数据集的目标排序一致。处理器304可以基于Kendall tau距离进一步调整至少两种异常检测算法的权重系数，该距离用于测量通过至少两种异常检测算法所获得的组合部分排序与训练集中的目标排序中每一个之间的距离。在这种情况下，对于一对部分排序σ和τ，利用类似于先前计算的P_j的概率分布的Kendall tau距离表示如下(此处符号“∨”和“∧”分别表示分组和交集符号)：

并且该Kendall tau距离的标准化类比通过如下公式给出：

受M训练集控制，权重系数自适应程序努力找出非负权重系数w₁,…,w_L，从而最小化以下损失函数：

并满足条件

此处

是已知第i个训练集中各数据项为真的部分排序，

是通过第l个异常检测算法对第i个训练集中各数据项计算的部分排序，

是处理器304获得的部分排序，即通过使用权重系数w₁,…,w_L组合部分排序

现在回到bbas的分配，应当注意，处理器304可以基于此目的使用下文给出的算法2，该算法考虑异常检测算法的权重系数。

算法2：为由第l个异常检测算法排序的数据项计算bba。

也就是说，通过使用算法2，处理器304考虑以下每个数据项的识别框架Θ＝{rank(x)＝1,…,rank(x)＝|X|}，并计算(|X|+1)-分量bbas，其中各分量对应于结果rank(x)＝1、……、rank(x)＝|X|、rank(x)＝Θ。最后一个结果，即rank(x)＝Θ，表示x可以具有任意中间等级。通过构建，∑_lm_l＝1。

在获得所有异常检测算法的bbas之后，处理器304获得各数据项的中间等级的总信度，即总bba。为此，处理器304根据预定义的组合规则组合所获得的中间等级的bbas。下文给出的算法3以Dempster组合规则作为预定义组合规则的一个示例来描述该操作。

算法3：将Dempster组合规则应用到数据项x。

在算法3中，A、B、C是索引，可以是1到|X|+1之间的任意值，m_1,2、m₁和m₂是长度|X|+1的向量，其中m₁和m₂分别对应于第一和第二异常检测算法，将第一和第二异常检测算法的结果进行组合获得组合结果m_1,2。由于Dempster组合规则同时具有可交换性和结合性，因此可以将所有L个bbas(根据异常检测算法的数量)组合在一个总的bba m中。

之后，处理器304将各数据项的中间等级的总bbas转换为描述数据项的预期等级的概率分布函数。在一个实施例中，上述转换可以通过使用pignistic变换来完成，并且在这种情况下，概率分布函数是pignistic概率函数betP。由处理器304执行的pignistic变换在下文概括为算法4。

算法4：为数据项x计算pignistic概率betP。

接下来，处理器304通过使用pignistic概率betP计算每个数据项x∈X的预期等级，并根据以下公式对数据集X中的所有数据项按其预期等级进行排序：

最后，处理器304在已排序的数据项中找出至少一个异常数据项。因此，通过使用包括算法1至4的上述过程，处理器304能够检测数据集中的感兴趣异常，甚至在数据集中存在虚假异常的情况下还能够过滤掉虚假异常。

在一个实施例中，处理器304可以进一步将预期等级转换为部分排序，其方式与原始异常分数被转换为部分排序的方式相同，但子集的顺序相反，因为按照惯例，等级越小，异常分数越高。

现在结合图8，根据本发明另一方面描述了检测数据集中异常的方法800。方法800本身表示装置300的操作，并且方法800的每个步骤可以由装置300中包括的处理器304执行。

方法800开始于步骤802，在此步骤中接收到包括至少一个异常数据项的数据集。如前所述，数据集可能涉及不同的使用领域。在接收到数据集之后，该方法就转到步骤804，在该步骤中基于数据集所属的使用领域来选择至少两种异常检测算法。进一步地，通过单独使用至少两种异常检测算法中的每一种来执行步骤806至步骤812。

具体而言，在步骤806中计算每个数据项的异常分数。在步骤808中，基于异常分数获得数据项的部分排序。部分排序表示将数据项划分为多个子集，每个子集对应于不同的中间等级区间，因此对应不同的异常类别。上文已经结合图4至6论述了这种子集的示例。基于数据项的部分排序所获得的子集可以包括至少两个第一子集，例如，一个包含正常数据项，另一个包含异常数据项。至少两个第一子集中的每一个可以由具有相同异常分数的数据项组成。同一数据项不能同时属于不同的两个或多个第一子集，在此意义上，至少两个第一子集的中间等级区间是不重叠的。如果存在未排序的数据项，即那些错误地或由于异常分数而不属于至少两个第一子集的数据项，则基于数据项的部分排序所获得的子集还可以包括第二子集，该子集包括未排序数据项。第二子集的中间等级区间包含至少两个第一子集的中间等级区间。接下来，方法800转到步骤810，在此步骤中基于部分排序选择概率模型。概率模型描述了每个子集中的数据项的中间等级，并且可以使用上文讨论的算法1来计算。之后，通过使用概率模型，在步骤812中，为每个子集中的每个数据项的中间等级分配信度。例如，信度是bba，可以通过使用上文论述的算法2来计算。

在通过使用至少两种异常检测算法中的每一种获得每个中间等级的信度之后，方法800继续转到步骤814，在此步骤中根据组合规则组合信度以获得总信度。上述步骤可以使用上文讨论的算法3来完成，其中组合规则的典型示例为Dempster组合规则。此外，在步骤816中，将数据项的中间等级的总信度转换为描述数据项的预期等级的概率分布函数。这种转换可以通过使用上文结合算法4描述的pignistic转换来实现。之后，在步骤818中，根据数据项的预期等级对数据项进行排序。最后，在步骤820中，在已排序的数据项中找到至少一个异常数据项。

图9A至9C所示为方法800中如何帮助减少异常检测算法发现的虚假异常，并因此检测感兴趣异常。在该实际示例中，感兴趣异常旨在对应于路由器中的故障，并且方法800的目标是基于路由器产生的日志消息来跟踪故障。为此，使用两种不同的异常检测算法，即基于SVD的异常检测算法和聚类异常检测算法，将给定的一段时间划分为较小的时间间隔，并计算时间间隔的异常分数，异常分数越高，异常日志消息越多。感兴趣异常(即故障)的时间间隔在图9A至9C中表示为900，且更靠近时间间隔900的柱状或峰值表示为902。基于SVD的异常检测算法的结果如图9A所示，其中意外性表示网络状态的异常程度，该程度是根据路由器产生的日志消息计算而获得。从图9A可以看出，意外性的时间直方图包括三个最高峰值904至908，其对应于虚假异常并且高于目标峰值902。因此，如果仅依赖于基于SVD的异常检测算法的结果，用户将难以检测到感兴趣异常。图9B示出了每个特定时间间隔由路由器产生的若干新日志消息的另一个直方图。同样，由于存在对应于虚假异常的最高峰值910，用户无法仅基于图9B中所示的直方图来找到感兴趣异常。最后，图9C表示通过使用方法800获得的倒转的预期等级，即|X|-E[rank(x)]的时间直方图。更具体而言，图9C所示的结果是通过组合基于SVD的异常检测算法和聚类异常检测算法以及相等的权重系数(w₁＝w₂＝0.5)而获得。可以看出，目标峰值902是与时间间隔900相符的第一个最高峰值。因此，方法800成功增强了对应于故障的目标峰值902，同时减弱由峰值904至910表示的虚假异常。

应当注意，针对由方法800使用Dempster组合规则解决的问题，现有技术也提出了替代解决方案。具体而言，替代解决方案涉及采用中值等级聚合来进行部分排序。然而，中值等级聚合方法提供的异常检测准确性低于方法800的准确性。这已经通过数值实验得到证明，数值实验的结果显示在图10中。具体来说，两种方法都使用了|X|＝100个数据项和L＝10种异常检测算法。随机部分排序已生成，多达N_B＝30个子集(“桶”)，并且通过随机排列组合的方式将各部分排序扰乱了L＝10次。然后，通过使用方法800或中值等级聚合方法重建原始的未受干扰的部分排序，并且使用标准的Kendall tau距离

来计算所重建的和原始的部分排名之间的距离。另外，已计算出受干扰的和原始部分排序之间同一距离的平均值，其中同一距离的平均值大于

图10所示为两个距离之间的差异如何取决于干扰程度。可以看出，无论干扰程度如何，方法800都超越了中值等级聚合方法。对于参数|X|、L和N_B的任何其它值，观察到了相同的结果。

本领域技术人员应该理解，方法800的每个步骤或步骤的任意组合可以通过各种手段来实现，例如硬件、固件和/或软件。作为示例，上述一个或多个步骤可以由计算机或处理器可执行指令、数据结构、程序模块和其它适当的数据表达来体现。此外，体现上述步骤的计算机可执行指令可以存储在相应的数据载体上，并且由包括在装置300中的处理器304等至少一个处理器执行。该数据载体可以实现为任何计算机可读存储介质，用于可被所述至少一个处理器读取以执行计算机可执行指令。这样的计算机可读存储介质可以包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质包括以适于存储信息的任何方法或技术实现的介质。更详细地说，计算机可读介质的实际示例包括但不限于信息传递介质、RAM、ROM，EEPROM、闪存或其它存储技术、CD-ROM、数字多功能光盘(digital versatile disk，DVD)、全息媒体或其它光盘存储器、磁带、盒式磁带、磁盘存储器和其它磁存储设备。

尽管本文公开了示例性实施例，但应该注意，在不脱离由所附权利要求限定的法律保护的范围的情况下，可以在这些实施例中进行任何各种变更和修改。在所附权利要求中，如果没有另外明确说明，以单数形式提及的元件并不排除存在多个这样的元件。

Claims

1. 一种检测数据集中异常的装置，其特征在于，所述装置包括：

至少一个处理器；以及

耦合到所述至少一个处理器并存储可执行指令的存储器，当由所述至少一个处理器执行时，所述指令使得所述至少一个处理器：

接收包括多个数据项的数据集，其中至少一个数据项异常，

选择至少两种异常检测算法；

通过使用所述至少两种异常检测算法中的每一种：

为所述数据项中的每一项计算异常分数；

基于所述异常分数，获得所述数据项的部分排序，所述部分排序使得所述数据项被划分为多个子集，每个子集对应于不同的中间等级区间；

基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型；以及

基于所述概率模型为每个子集中的所述数据项的所述中间等级分配信度；

按照预定义的组合规则同时使用所述至少两种异常检测算法，通过组合所获得的所述数据项中每一项的中间等级的信度来获得所述中间等级的总信度；

将所述数据项的所述中间等级的所述总信度转换为描述所述数据项的预期等级的概率分布函数；

根据所述数据项的所述预期等级将所述数据项进行排序；以及

在排序后的所述数据项中找出所述至少一个异常数据项。

2.根据权利要求1所述的装置，其特征在于，所述至少一个处理器还用于基于所述数据项所属的使用领域来选择所述至少两种异常检测算法。

3.根据权利要求1所述的装置，其特征在于，所述至少两种异常检测算法中的每一种配置有不同的权重系数，并且所述至少一个处理器还用于与所述异常检测算法的所述权重系数配合基于所述概率模型分配所述信度。

4.根据权利要求3所述的装置，其特征在于，所述至少两种异常检测算法是基于无监督学习的异常检测算法，并且所述至少两种异常检测算法的所述不同权重系数是基于用户偏好指定的，使得所述权重系数的和等于1。

5.根据权利要求3所述的装置，其特征在于，所述至少两种异常检测算法是基于监督学习的异常检测算法，并且所述至少两种异常检测算法的所述权重系数使用预先准备的训练集来调整，所述训练集包括不同的前数据集以及与所述前数据集一一对应的目标排序。

6. 根据权利要求5所述的装置，其特征在于，基于Kendall tau距离进一步调整所述至少两种异常检测算法的所述权重系数，所述Kendall tau距离用于测量通过所述至少两种异常检测算法所获得的组合部分排序与所述训练集中的所述目标排序中每一个之间的距离。

7.根据权利要求1至6中任一项所述的装置，其特征在于，基于所述数据项的所述部分排序所获得的所述子集包括至少两个第一子集，每个第一子集包括具有相同异常分数的数据项。

8.根据权利要求7所述的装置，其特征在于，所述至少两个第一子集的所述中间等级区间是不重叠的。

9.根据权利要求7所述的装置，其特征在于，基于所述数据项的所述部分排序所获得的所述子集还包括第二子集，所述第二子集包括不属于所述至少两个第一子集的数据项，并且所述至少一个处理器还用于基于所述第二子集选择所述概率模型。

10.根据权利要求9所述的装置，其特征在于，所述第二子集的所述数据项是错误遗漏的数据项或者是所具有的所述异常分数与属于所述至少两个第一子集的所述数据项不同的数据项。

11.根据权利要求9所述的装置，其特征在于，所述第二子集的所述中间等级区间包含所述至少两个第一子集的所述中间等级区间。

12.根据权利要求1至6中任一项所述的装置，其特征在于，所述预定义的组合规则包括Dempster组合规则。

13.根据权利要求1至6中任一项所述的装置，其特征在于，所述至少两种异常检测算法包括以下算法的任意组合：基于最近邻的异常检测算法、基于聚类的异常检测算法、统计异常检测算法、基于子空间的异常检测算法和基于分类器的异常检测算法。

14.根据权利要求1至6中任一项所述的装置，其特征在于，所述中间等级的所述信度包括基本信度分配。

15.根据权利要求1至6中任一项所述的装置，其特征在于，所述至少一个处理器还用于通过使用pignistic变换将所述数据项的所述中间等级的所述总信度转换为所述概率分布函数，并且所述概率分布函数是pignistic概率函数。

16.根据权利要求1至6中任一项所述的装置，其特征在于，所述数据项包括网络流数据，且所述至少一个异常数据项与异常网络流行为有关。

17.一种检测数据集中异常的方法，其特征在于，所述方法包括：

接收包括多个数据项的数据集，其中至少一个数据项异常；

选择至少两种异常检测算法；

通过使用所述至少两种异常检测算法中的每一种：

为所述数据项中的每一项计算异常分数；

基于所述异常分数获得所述数据项的部分排序，所述部分排序使得所述数据项被划分为多个子集，每个子集对应于不同的中间等级区间，

基于所述部分排序选择描述每个子集中的各数据项的中间等级的概率模型；以及

基于所述概率模型，为每个子集中的所述数据项的所述中间等级分配信度；

在排序后的所述数据项中找出所述至少一个异常数据项。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序在由至少一个处理器执行时实现权利要求17所述的方法。