CN112470131B - 检测数据集中异常的装置和方法以及它们相应的计算机程序产品 - Google Patents

检测数据集中异常的装置和方法以及它们相应的计算机程序产品 Download PDF

Info

Publication number
CN112470131B
CN112470131B CN201880095812.5A CN201880095812A CN112470131B CN 112470131 B CN112470131 B CN 112470131B CN 201880095812 A CN201880095812 A CN 201880095812A CN 112470131 B CN112470131 B CN 112470131B
Authority
CN
China
Prior art keywords
data items
anomaly detection
data
detection algorithms
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880095812.5A
Other languages
English (en)
Other versions
CN112470131A (zh
Inventor
瓦列里·尼古拉耶维奇·格卢霍夫
张亮
潘继雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN112470131A publication Critical patent/CN112470131A/zh
Application granted granted Critical
Publication of CN112470131B publication Critical patent/CN112470131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/257Belief theory, e.g. Dempster-Shafer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及数据处理领域,且更具体而言,涉及用于通过使用两种或多种异常检测算法来检测数据集中异常的装置和方法以及它们相应的计算机程序产品。根据本发明,通过使用两种或多种异常检测算法所获得的结果根据特定组合规则进行组合,从而提供具有更高准确性的异常检测。

Description

检测数据集中异常的装置和方法以及它们相应的计算机程序 产品
技术领域
本发明涉及数据处理领域,且更具体而言,涉及用于通过使用两种或多种异常检测算法来检测数据集中异常的装置和方法以及它们相应的计算机程序产品。
背景技术
异常检测是指识别出无法确认预期行为模式的数据项或与数据集中的其它(正常)数据项不对应的数据项。目前,异常检测算法的用途非常广泛,例如,股票市场中的欺诈检测、计算机或通信网络中的恶意活动检测、软件或硬件中的故障检测、医学中的疾病检测等。
异常可以简单地分为与感兴趣事件相关的异常以及与感兴趣事件无关的异常。后一种异常,也称为虚假异常,可能对用户体验有负面影响,导致误告警,因此在搜索数据集中的前异常时须将其排除出考虑范围。为此,可以应用特定的异常检测算法来计算一定数量的重要异常并按异常重要性降序显示这些重要异常,从而允许用户手动滤除虚假异常。然而,这种手动工作不仅耗时而且还需具有特定使用领域的扎实知识。
为了降低虚警率,可以使用两种或多种异常检测算法相互配合以对感兴趣数据集中的每个数据项给出平均异常分数。通过将异常检测算法与无监督学习和监督学习等传统机器学习技术相结合,至少可以避免部分手动工作。同时,所有已知的异常检测***均无法提供足够的准确性,并且仍然依赖于用户定义的规则,这些规则可能会根据特定的使用领域而变化。
因此,仍然需要一种新的解决方案,来减轻或甚至消除现有技术所特有的上述缺点。
发明内容
本发明内容简单地介绍了一系列概念,这些概念将在下文进一步详细描述。本发明内容并非旨在识别所要求保护的主题的关键特征或必要特征,也非旨在用于限制所要求保护的主题的范围。
本发明的目的是提供一种技术解决方案以提高异常检测准确性并最小化用户参与。
上述目的通过所附权利要求书中的独立权利要求的特征来实现。根据所附权利要求书、详细描述和附图,进一步的实施例和示例将显而易见。
根据第一方面,提供了一种检测数据集中异常的装置。所述装置包括至少一个处理器以及耦合到所述至少一个处理器并存储可执行指令的存储器。所述指令在执行时使得所述至少一个处理器:接收包括多个数据项的数据集,其中至少一个数据项异常;并选择至少两种异常检测算法。然后,通过使用所述至少两种异常检测算法中的每一种,指示所述至少一个处理器:计算所述数据项中每一项的异常分数;基于所述异常分数获得所述数据项的部分排序,所述部分排序使得所述数据项被分成对应于不同中间等级区间的子集;基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型;并且基于所述概率模型为每个子集中的所述数据项的每一项的中间等级分配信度。接下来,指示所述至少一个处理器按照预定义的组合规则同时使用所述至少两种异常检测算法,通过组合所获得的所述数据项中每一项的中间等级的信度来获得所述中间等级的总信度。之后,指示所述至少一个处理器将所述数据项的中间等级的总信度转换为描述所述数据项的预期等级的概率分布函数。进一步指示所述至少一个处理器根据所述数据项的所述预期等级对所述数据项进行排序,并在排序后的所述数据项中找出至少一个异常数据项。这样可以以更准确、更稳健的方式检测异常,而无需使用特定知识领域特有的专家规则。
在所述第一方面的一种实施形式中,所述至少一个处理器用于基于所述数据项所属的使用领域来选择所述至少两种异常检测算法。根据所述第一方面所述的装置能够在不同的使用领域中进行同样操作,因而提供了使用的灵活性。
在所述第一方面的另一种实施形式中,所述至少两种异常检测算法中的每一种配置有不同的权重系数,并且所述至少一个处理器还用于与所述异常检测算法的所述权重系数配合基于所述概率模型分配所述信度。通过将所述不同的权重系数分配给所述异常检测算法,可以获得每个子集中每个数据项的中间等级的更客观的信度。
在所述第一方面的另一种实施形式中,所述至少两种异常检测算法是基于无监督学习的异常检测算法,并且所述至少两种异常检测算法的所述不同权重系数是基于用户偏好指定的,使得所述权重系数的和等于1。这样可以最小化用户参与异常检测,即,使根据所述第一方面所述的装置更加自动化。
在所述第一方面的另一种实施形式中,所述至少两种异常检测算法是基于监督学习的异常检测算法,并且所述至少两种异常检测算法的所述权重系数使用预先准备的训练集来调整,所述训练集包括不同的前数据集以及与所述前数据集一一对应的目标排序。这样可以最小化用户参与异常检测。
在所述第一方面的另一种实施形式中,当使用所述基于监督学习的异常检测算法时,基于Kendall tau距离进一步调整所述至少两种异常检测算法的所述权重系数。所述Kendall tau距离用于测量由所述至少两种异常检测算法所获得的组合部分排序与所述训练集中的所述目标排序中每一个之间的距离。利用所述Kendall tau距离,可以更有效地调整每个异常检测算法的比重。
在所述第一方面的另一种实施形式中,基于所述数据项的所述部分排序所获得的所述子集包括至少两个第一子集,每个第一子集包括具有相同异常分数的数据项。这样可以简单有效地将所述数据项分成多个异常类别。
在所述第一方面的另一种实施形式中,所述至少两个第一子集的所述中间等级区间不重叠。这样可以更明确地将所述数据项划分到所述异常类别。
在所述第一方面的另一种实施形式中,基于所述数据项的所述部分排序所获得的所述子集还包括第二子集,所述第二子集包括不属于所述至少两个第一子集的数据项,并且所述至少一个处理器还用于基于所述第二子集选择所述概率模型。根据所述第一方面所述的装置在检测所述数据集中的一个或多个异常时能够考虑所述不同的异常类别,在此意义上,使得所述装置更加灵活。
在所述第一方面的另一种实施形式中,所述第二子集的所述数据项可能是错误遗漏的数据项或者是所具有的异常分数与属于所述至少两个第一子集的所述数据项不同的数据项。这样,即使在根据所述第一方面所述的装置的操作期间存在错误未排序或遗漏的数据项,也可以提供具有一定准确性和鲁棒性的异常检测。
在所述第一方面的另一种实施形式中,所述第二子集的所述中间等级区间包含所述至少两个第一子集的所述中间等级区间。这意味着,即使一些数据项的中间等级在整个中间等级区间中偶然且任意分布,根据所述第一方面所述的装置也能够成功操作。
在所述第一方面的另一种实施形式中,所述预定义的组合规则包括Dempster组合规则。这样能够完全基于统计融合方法而不是所述专家规则来组合所述信度,从而在更大程度上最小化用户参与,并使得根据所述第一方面所述的装置易于使用。
在所述第一方面的另一种实施形式中,所述至少两种异常检测算法包括以下算法的任意组合:基于最近邻的异常检测算法、基于聚类的异常检测算法、统计异常检测算法、基于子空间的异常检测算法和基于分类器的异常检测算法。由于以上列出的算法中的每一种在特定使用领域应用时都具有优势,因而提供了更大的使用灵活性。
在所述第一方面的另一种实施形式中,所述中间等级的所述信度包括基本信度分配。这样能够更大程度地提高异常检测的准确性。
在所述第一方面的另一种实施形式中,所述至少一个处理器还用于通过使用pignistic变换将所述数据项的所述中间等级的所述总信度转换为所述概率分布函数,并且所述概率分布函数是pignistic概率函数。这样能够更大程度地提高异常检测的准确性。
在所述第一方面的另一种实施形式中,所述数据项包括网络流数据,且所述至少一个异常数据项与异常网络流行为有关。这样能够快速检测并响应计算机网络中的恶意活动或设备故障。
根据第二方面,提供了一种检测数据集中异常的方法。所述方法包括:接收数据集,所述数据集包括多个数据项,其中至少一个数据项异常。接下来,选择至少两种异常检测算法。通过使用所述至少两种异常检测算法中的每一种,执行以下步骤:计算所述数据项中每一项的异常分数;基于所述异常分数获得所述数据项的部分排序,所述部分排序使得所述数据项被分成对应于不同中间等级区间的子集;基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型;并基于所述概率模型为每个子集中各数据项的每一项的中间等级分配信度。接下来,按照预定义的组合规则同时使用所述至少两种异常检测算法,通过组合所获得的所述数据项中每一项的中间等级的所述信度来获得所述中间等级的总信度。将所述数据项的所述中间等级的所述总信度进一步转换为描述所述数据项的预期等级的概率分布函数。根据所述数据项的所述预期等级对所述数据项进行排序,并最终在排序后的所述数据项中找出所述至少一个异常数据项。这样可以以更准确、更稳健的方式检测异常,而无需使用特定知识领域特有的专家规则。
根据第三方面,提供了一种计算机程序产品,包括存储计算机程序的计算机可读存储介质。所述计算机程序在由至少一个处理器执行时使得所述至少一个处理器执行根据所述第二方面所述的方法。因此,根据所述第二方面所述的方法可以以所述计算机程序的形式体现,从而提供其使用的灵活性。
通过阅读以下详细描述和查阅附图,本发明的其它特征和优点将显而易见。
附图说明
以下结合附图解释本发明的本质,其中:
图1示出了将异常检测算法应用于数据集的典型示例。
图2所示为在发生恶意网络活动的情况下数字异常分数的示例性时间直方图。
图3所示为根据本发明一方面的一种检测给定数据集中异常的装置的框图。
图4所示为图3所述装置所获得的示例性部分排序。
图5所示为在不存在未排序数据项的情况下中间等级的概率分布。
图6所示为在存在未排序数据项的情况下中间等级的概率分布。
图7所示为已排序数据项中未排序数据项的示例性排列。
图8所示为根据本发明另一方面的一种检测数据集中异常的方法的框图。
图9A至9C所示为通过使用基于SVD的异常检测算法(图9A)、基于聚类的异常检测算法(图9B)和图8的方法(图9C)所获得的异常检测结果。
图10所示为中值等级聚合方法与图8所示方法的比较结果。
具体实施方式
结合附图进一步详细描述本发明的各种实施例。然而,本发明内容可以以多种其它形式体现,并且不应被解释为限于以下描述中公开的任何特定结构或功能。相反,提供这些实施例是为了使描述详细和完整。
根据详细描述,本领域技术人员应当清楚,本发明的范围涵盖本文所公开的任何实施例,而不论该实施例是独立实现还是与任何其它实施例一起实现。例如,本文所公开的装置和方法可以通过使用本文提供的任何数量的实施例在实践中实施。此外,应该理解,任何实施例都可以使用所附权利要求书中呈现的一个或多个元件或步骤来实现。
本文所用的术语“异常”及其派生词,例如“反常”、“不正常”等,是指偏离标准、正常或预期的情况。特别是,本文还使用的术语“异常数据项”来表示数据集中不属于该数据集中各数据项的标准偏差范围的数据项。异常可以以两个或多个相邻或接近的异常数据项为特征,在这种情况下称为集体异常。异常可能涉及感兴趣事件,即,待检测和解决的问题,或与感兴趣事件无关的问题。在后一种情况下,异常被称为虚假异常。在一个示例中,异常包括可能由恶意软件引起的大得可疑的(非典型)网络流。尽管此处提及了网络流数据,但本领域技术人员应该清楚,仅通过示例实施本发明,而并非对本发明的限制。换句话说,本文所公开的实施例同样可以应用于需要异常检测的其它使用领域,例如,检测欺诈性抛售股票,检测在花样滑冰或其它体育运动中错误发布的过高分数等。
本文使用的术语“组合规则”是指可以应用于多个数据源的输出数据,以将输出数据整合为比任何单个数据源的输出数据更加一致、准确和有用的信息的分析规则或条件。数据源在本文中呈现为异常检测算法,其待整合或组合的输出数据包括信度。组合规则的一个示例包括Dempster组合规则。
本文使用的术语“信度”是指被称为信度函数的数学对象,在信度函数理论中使用,也称为证据理论或Dempster-Shafer理论。信度函数理论允许组合来自不同数据源的证据,以达到一定的信度,该信度考虑到了所有可用的证据。如下文所示,信度在本文应用于使用异常检测算法所获得的数据项的中间等级。在一个示例中,信度是基本信度分配(basic belief assignments,bbas),下面将在本文所公开的实施例中进行论述。根据定义,假设θ表示一组假设值H(例如,考虑到的所有***可能状态),称为识别框架,则基本信度分配表示为幂集2θ中的每个数据元素分配信度质量m的函数,该幂集2θ是θ的所有子集的集合,包括空集
Figure BDA0002907969320000041
因此m:2θ→[0,1]。基本信度分配具有以下两个主要属性:
Figure BDA0002907969320000042
Figure BDA0002907969320000043
其中,θ的子集Hn被称为m(非零质量)的焦点元素
本文所使用的术语“等级”是指用于将数据项分为不同异常类别的数字参数。每个异常类别由特定等级区间表示。本文论述的中间等级通过使用任意一个异常检测算法获得。同样在本文论述的预期等级是使用通过多个异常检测算法获得的中间等级所产生的更有效的等级。
图1示出了将异常检测算法应用于数据集100的一个典型示例。数据集100包括数据项102a至102n并且可能涉及不同的使用领域。例如,数据项可以包括由一个或多个网络设备传送的日志消息。在这种种情况下,可能发生异常,该异常包括由于有害第三方干预导致的每时间单位传送的日志消息数量迅速增加。为了检测异常,使用异常检测算法计算数据项102a至102n中每一项的异常分数,并基于异常分数为数据项指定特定异常类别。每个异常类别以异常分数的指定区间为特征。异常分数可以是实数或有序因子变量。异常分数越大,异常数据项越多。具体而言,数据项102a至102n可以分为两类,104a和104b,即,简单地分为“正常”和“异常”数据项,或者可以进行更复杂的分类。在后一种情况下,对应于每个类别的异常分数可以沿着异常分数轴106定义,此时存在两个以上异常类别108a至108d,包括例如“常见”、“不常见”、“非常常见”和“极其不常见”的数据项。实际上,异常类别的数量可以根据异常检测算法的类型而变化(下文进行论述)。虽然图1中仅示出了数据项102k的分类,但这是为了简化起见,应当清楚,数据项102a至102n中的每一项均具有同等分类。
图2所示为按预期检测恶意网络活动的数字异常分数的示例性时间直方图。异常分数已经通过对网络设备传送的日志消息应用基于奇异值分解(singular valuedecomposition,SVD)的异常检测算法获得。具体而言,基于SVD的异常检测算法使用从日志消息中提取的状态变化的频率作为恶意网络活动的主要特征,并为特定时间区间指定异常分数。最高峰值很适合作为必须使用异常检测算法得以本地化的恶意网络活动。从图2中可以看出,存在四个需要考虑的最高峰值200a至200d。线202指示恶意网络活动的实际发生时间。线202更靠近第四峰值200d,因此应该仅考虑第四峰值200d。峰值200a至200c与感兴趣事件无关,即,对应虚假异常,且在此示例中应排除出考虑范围。当然,仅使用一个异常检测算法不可能得出峰值200a至200c与恶意网络活动无关的结论。应当注意,类似的时间直方图可以用于检测网络通信中发生的除恶意网络活动之外的任何其它问题,例如,线202可能涉及任何网络设备故障。
一般来说,异常分数本身的绝对值没有意义,它们仅用于建立数据项之间的排序关系。因此,在仅使用一个异常检测算法的情况下,异常检测的准确性很低。
下面论述的本发明的各方面考虑了上述缺点,并且旨在提高异常检测的准确性和鲁棒性,特别是在网络流数据中。
图3所示为根据本发明一方面的检测如图1所示的给定数据集中异常的装置300的框图。如图3所示,装置300包括存储器302和耦合到存储器302的处理器304。存储器302存储可由处理器304执行用以检测数据集中异常的可执行指令306。数据集旨在包括至少一个异常数据项。
存储器302可以实现为现代电子计算机器中使用的易失性或非易失性存储器。非易失性存储器包括,例如,只读存储器(random-access memory,ROM)、闪存、铁电随机存取存储器(random-access memory,RAM)、可编程ROM(programmable rom,PROM)、电可擦除PROM(electrically erasable prom,EEPROM)、固态驱动器(solid state drive,SSD)、磁盘存储器(例如,硬盘驱动器和磁带)、光盘存储器(例如,CD、DVD和蓝光光盘)等。易失性存储器包括,例如,动态RAM、同步DRAM(synchronous DRAM,SDRAM)、双倍数据速率SDRAM(double data rate SDRAM,DDR SDRAM)、静态RAM等。
处理器304可以实现为中央处理器(central processing unit,CPU)、通用处理器、单用途处理器、微控制器、微处理器、专用集成电路(application specificintegrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)、数字信号处理器(digital signal processor,DSP)、复杂可编程逻辑设备等。还应注意,处理器304可以实现为前述中的一个或多个的任何组合。例如,处理器304可以是两个或多个微处理器的组合。
存储在存储器302中的可执行指令306可以用作计算机可执行代码,其使得处理器304执行本发明的各方面。用于执行本发明各方面的操作或步骤的计算机可执行代码可以用一种或多种编程语言的任何组合来编写,例如Java、C++等。在一些示例中,计算机可执行代码可以是高级语言形式或者是预编译形式,并且由运行中的解释器(同样预先存储在存储器302中)生成。
可执行指令306使得处理器304先接收包括多个数据项的数据集,其中至少一个数据项异常,如上所述。之后,处理器304基于数据项所属的使用领域来选择至少两种异常检测算法。使用两种或多种异常检测算法的原因在于协同效应,即,两种或多种异常检测算法提供的异常检测的准确性高于任何单个异常检测算法所提供的异常检测的准确性。更具体而言,如果装置300的用户绝对确信异常检测算法之一提供100%的准确性,那么该用户不会将该算法与任何其它异常检测算法组合。然而,在实践中,任何异常检测算法都容易出错,这迫使用户必须决定在什么情况下选择哪种异常检测算法。这就是为什么两种或多种异常检测算法提供的聚合准确性在异常检测过程中更为可取和有用的原因。
在一个实施例中,至少两种异常检测算法包括以下算法的任意组合:基于最近邻的异常检测算法、基于聚类的异常检测算法、统计异常检测算法、基于子空间的异常检测算法和基于分类器的异常检测算法。Goldstein M.和Uchida S.在他们的著作“多变量数据的无监督异常检测算法的比较评估”,PLoS ONE 11(4):e0152173(2016)中描述了此等异常检测算法的一些示例。此外,所述至少两种异常检测算法可以是基于无监督学习或监督学习的异常检测算法,从而使得装置300在使用中更加自动化和灵活。正如本领域技术人员应该清楚的,无监督学习或监督学习可能涉及到神经网络、决策树和/或其它人工智能技术,这取决于具体应用。
在选择至少两种异常检测算法时,处理器304会使用它们来计算每个数据项的异常分数。然后,处理器304使用异常分数来获得数据项的部分排序。部分排序使得数据项被划分为多个子集,每个子集对应于不同的中间等级区间,如图4所示。更具体而言,图4所示的部分排序通过指定有序子集400a至400c(以图形方式显示为桶)来定义,每个子集划分有对应的数据项。一个子集中的任意数据项不能同时属于另一个子集,在此意义上,子集400a至400c彼此不相互重叠。子集400a至400c对应特定的异常类别,如上文结合图1所论述的。换句话说,子集400a至400c可以分别对应“非常不常见”、“不常见”和“常见”数据项。基于此等子集,“不常见”子集中的任何数据项的高度(等级)小于“常见”子集中的任何数据项的高度(等级),而每个子集内各数据项的相对高度(等级)是不确定的(这就是为什么本文的排序被称为“部分排序”的原因)。实现部分排序的最简单方法是将具有相同异常分数的数据项分配给对应的子集,并按其异常分数倒序排列子集。本领域技术人员应该清楚,子集的数量可以多于三个,这取决于所使用的异常检测算法的能力。
通过部分排序,处理器304进一步选择概率模型以描述每个子集中各数据项的中间等级。总的来说,概率模型定义每个子集中各数据项之间的中间等级的概率分布。图5所示为部分排序的一个示例,在该示例中数据集的所有数据项形成了两个非重叠子集500a和500b。然后,可以假定子集500a和500b中的每一个的中间等级的概率均匀分布—这两种分布Pa和Pb相邻。这种概率均匀分布相对于理想情况,在实践中几乎不会发生。
然而,如果由于错误或者存在所具有的异常分数与已放在非重叠子集中的数据项的异常分数不同的数据项,导致并非所有数据项都放在非重叠子集中,则会违反非重叠子集的概率均匀分布。这种情况在图6中示出,两个非重叠子集600a和600b旨在分别对应于“不常见”和“常见”异常类别,并且其余数据项,即,未分配给子集600a和600b因而具有未知中间等级的数据项,划分在沿子集600a和600b扩展的全高子集600c中。然后,可以假定子集600c中各数据项的中间等级的概率均匀分布Pc。该假定将为子集600a和600b重塑中间等级的概率分布Pa、Pb,即Pc与Pa和Pb之间差异缩小并开始重叠。
为了在存在未排序数据项的情况下计算感兴趣子集中的中间等级的概率分布,处理器304可以用于执行以下过程。首先,假设存在任意数量的已排序子集(桶),如图6中的子集600a和600b,以及划分有未排序数据项的一个子集(桶),如图6中的子集600c,作为部分排序的结果。此外,假设对一个已排序子集中各数据项的中间等级的概率分布非常感兴趣且必须计算。将该已排序子集表示为第j个子集。上文假设的情况在图7中示出,其中有底纹的圆圈表示第j个子集的数据项,白色圆圈表示其它已排序子集的数据项(例如,由于包括“常见”或不太异常的数据项,因而不被关注),黑色圆圈表示未排序数据项。通过这样的圆圈排列,处理器304还可以用于将圆圈分成三组—“顶部”、“中间”和“底部”—中间组包括第j个子集的所有数据项以及一些未排序的数据项,而顶部和底部组包括剩余的未排序数据项和属于除第j个子集之外的已排序子集的所有数据项。如此构建的三个组可以用以下参数表征:
1)N—已排序子集中已排序数据项的数量,
Figure BDA0002907969320000071
其中|X|为数据集中的数据项数量,NB为已排序子集的数量,Bi为对应的已排序子集,并且K=|BΘ|为构成子集BΘ的未排序数据项的数量;
2)nmiddle—中间组中的数据项数量;
3)ntop—顶部组中的数据项数量;
4)nbottom—底部组中的数据项数量;
5)kmiddle—中间组中未排序数据项(即,黑色圆圈)的数量,
Figure BDA0002907969320000072
其中Bj表示第j个子集,y和z分别为中间组中的左右边界数据项,x为未排序数据项;
6)ktop—顶部组中未排序数据项(即,黑色圆圈)的数量,
Figure BDA0002907969320000073
7)Kbottom—底部组中未排序数据项(即,黑色圆圈)的数量,
Figure BDA0002907969320000074
此外,处理器304使用伪代码来计算Bj中各数据项的中间等级的概率分布Pj,如下文的算法1所示。假设Pj是|X|-分量向量,使得对于任意x∈Bj且r∈{1,…,|X|},Pj(r)=Pr(rank(x)=r)。按照定义,
Figure BDA0002907969320000075
算法1:计算Bj中各数据项的中间等级的概率分布。
Figure BDA0002907969320000076
Figure BDA0002907969320000081
在算法1中,pdecomp是未分类数据项的分解概率,由参数kmiddle、kbottom、ktop定义,符号“←”是赋值运算符,函数Hyp()是超几何分布。具体而言,函数Hyp()描述了在不重复抽样的情况下获得长度为n的样本中的总数为k的黑色圆圈的概率,抽取N个圆圈,其中包含K个黑色圆圈。也就是说,
Figure BDA0002907969320000082
其中
Figure BDA0002907969320000083
是二项系数。
因此,通过使用算法1,处理器304使用至少两种异常检测算法中的每一种来计算Bj中各数据项的中间等级的概率分布Pj
也就是说,如果处理器304使用L种异常检测算法,那么处理器304需要为Bj中各数据项的中间等级分别计算概率分布
Figure BDA0002907969320000084
当计算概率模式,或者换言之,概率分布Pj,处理器304进一步基于Pj将信度分配给中每个数据项的中间等级。此外,信度的典型示例为基本信度分配(bba)。当然,信度不仅限于bba,可以表现为针对Dempster-Shafer理论的任何其它信度函数。
在一个实施例中,处理器304用于向至少两种异常检测算法中的每一种提供不同的权重系数,并且基于概率模型配合异常检测算法的权重系数分配bba。这样可以将每个异常检测算法的比重调整为异常检测的聚合准确性。
在一个实施例中,在基于无监督学习的异常检测算法的情况下,处理器304用于基于用户偏好指定至少两种异常检测算法的不同权重系数,使得权重系数的和等于1,即,
Figure BDA0002907969320000085
其中L是使用的异常检测算法的数量。这样,装置300的用户可以根据经验对异常检测算法进行优先级排序。
在另一个实施例中,在基于监督学习的异常检测算法的情况下,处理器304用于通过使用预先准备的训练集来调整至少两种异常检测算法的权重系数,该训练集包括不同的前数据集以及与前数据集一一对应的目标排序。训练集可以预先,即在装置300的操作之前,存储在存储器302中。在这种情况下,处理器304先搜索与感兴趣数据集类似的前数据集,然后更改每个异常检测算法的权重系数,直到部分排序与该前数据集的目标排序一致。处理器304可以基于Kendall tau距离进一步调整至少两种异常检测算法的权重系数,该距离用于测量通过至少两种异常检测算法所获得的组合部分排序与训练集中的目标排序中每一个之间的距离。在这种情况下,对于一对部分排序σ和τ,利用类似于先前计算的Pj的概率分布的Kendall tau距离表示如下(此处符号“∨”和“∧”分别表示分组和交集符号):
Figure BDA0002907969320000086
并且该Kendall tau距离的标准化类比通过如下公式给出:
Figure BDA0002907969320000091
受M训练集控制,权重系数自适应程序努力找出非负权重系数w1,…,wL,从而最小化以下损失函数:
Figure BDA0002907969320000092
并满足条件
Figure BDA0002907969320000093
此处
Figure BDA0002907969320000094
是已知第i个训练集中各数据项为真的部分排序,
Figure BDA0002907969320000095
是通过第l个异常检测算法对第i个训练集中各数据项计算的部分排序,
Figure BDA0002907969320000096
是处理器304获得的部分排序,即通过使用权重系数w1,…,wL组合部分排序
Figure BDA0002907969320000097
现在回到bbas的分配,应当注意,处理器304可以基于此目的使用下文给出的算法2,该算法考虑异常检测算法的权重系数。
算法2:为由第l个异常检测算法排序的数据项计算bba。
Figure BDA0002907969320000098
也就是说,通过使用算法2,处理器304考虑以下每个数据项的识别框架Θ={rank(x)=1,…,rank(x)=|X|},并计算(|X|+1)-分量bbas,其中各分量对应于结果rank(x)=1、……、rank(x)=|X|、rank(x)=Θ。最后一个结果,即rank(x)=Θ,表示x可以具有任意中间等级。通过构建,∑lml=1。
在获得所有异常检测算法的bbas之后,处理器304获得各数据项的中间等级的总信度,即总bba。为此,处理器304根据预定义的组合规则组合所获得的中间等级的bbas。下文给出的算法3以Dempster组合规则作为预定义组合规则的一个示例来描述该操作。
算法3:将Dempster组合规则应用到数据项x。
Figure BDA0002907969320000099
在算法3中,A、B、C是索引,可以是1到|X|+1之间的任意值,m1,2、m1和m2是长度|X|+1的向量,其中m1和m2分别对应于第一和第二异常检测算法,将第一和第二异常检测算法的结果进行组合获得组合结果m1,2。由于Dempster组合规则同时具有可交换性和结合性,因此可以将所有L个bbas(根据异常检测算法的数量)组合在一个总的bba m中。
之后,处理器304将各数据项的中间等级的总bbas转换为描述数据项的预期等级的概率分布函数。在一个实施例中,上述转换可以通过使用pignistic变换来完成,并且在这种情况下,概率分布函数是pignistic概率函数betP。由处理器304执行的pignistic变换在下文概括为算法4。
算法4:为数据项x计算pignistic概率betP。
Figure BDA0002907969320000101
接下来,处理器304通过使用pignistic概率betP计算每个数据项x∈X的预期等级,并根据以下公式对数据集X中的所有数据项按其预期等级进行排序:
Figure BDA0002907969320000102
最后,处理器304在已排序的数据项中找出至少一个异常数据项。因此,通过使用包括算法1至4的上述过程,处理器304能够检测数据集中的感兴趣异常,甚至在数据集中存在虚假异常的情况下还能够过滤掉虚假异常。
在一个实施例中,处理器304可以进一步将预期等级转换为部分排序,其方式与原始异常分数被转换为部分排序的方式相同,但子集的顺序相反,因为按照惯例,等级越小,异常分数越高。
现在结合图8,根据本发明另一方面描述了检测数据集中异常的方法800。方法800本身表示装置300的操作,并且方法800的每个步骤可以由装置300中包括的处理器304执行。
方法800开始于步骤802,在此步骤中接收到包括至少一个异常数据项的数据集。如前所述,数据集可能涉及不同的使用领域。在接收到数据集之后,该方法就转到步骤804,在该步骤中基于数据集所属的使用领域来选择至少两种异常检测算法。进一步地,通过单独使用至少两种异常检测算法中的每一种来执行步骤806至步骤812。
具体而言,在步骤806中计算每个数据项的异常分数。在步骤808中,基于异常分数获得数据项的部分排序。部分排序表示将数据项划分为多个子集,每个子集对应于不同的中间等级区间,因此对应不同的异常类别。上文已经结合图4至6论述了这种子集的示例。基于数据项的部分排序所获得的子集可以包括至少两个第一子集,例如,一个包含正常数据项,另一个包含异常数据项。至少两个第一子集中的每一个可以由具有相同异常分数的数据项组成。同一数据项不能同时属于不同的两个或多个第一子集,在此意义上,至少两个第一子集的中间等级区间是不重叠的。如果存在未排序的数据项,即那些错误地或由于异常分数而不属于至少两个第一子集的数据项,则基于数据项的部分排序所获得的子集还可以包括第二子集,该子集包括未排序数据项。第二子集的中间等级区间包含至少两个第一子集的中间等级区间。接下来,方法800转到步骤810,在此步骤中基于部分排序选择概率模型。概率模型描述了每个子集中的数据项的中间等级,并且可以使用上文讨论的算法1来计算。之后,通过使用概率模型,在步骤812中,为每个子集中的每个数据项的中间等级分配信度。例如,信度是bba,可以通过使用上文论述的算法2来计算。
在通过使用至少两种异常检测算法中的每一种获得每个中间等级的信度之后,方法800继续转到步骤814,在此步骤中根据组合规则组合信度以获得总信度。上述步骤可以使用上文讨论的算法3来完成,其中组合规则的典型示例为Dempster组合规则。此外,在步骤816中,将数据项的中间等级的总信度转换为描述数据项的预期等级的概率分布函数。这种转换可以通过使用上文结合算法4描述的pignistic转换来实现。之后,在步骤818中,根据数据项的预期等级对数据项进行排序。最后,在步骤820中,在已排序的数据项中找到至少一个异常数据项。
图9A至9C所示为方法800中如何帮助减少异常检测算法发现的虚假异常,并因此检测感兴趣异常。在该实际示例中,感兴趣异常旨在对应于路由器中的故障,并且方法800的目标是基于路由器产生的日志消息来跟踪故障。为此,使用两种不同的异常检测算法,即基于SVD的异常检测算法和聚类异常检测算法,将给定的一段时间划分为较小的时间间隔,并计算时间间隔的异常分数,异常分数越高,异常日志消息越多。感兴趣异常(即故障)的时间间隔在图9A至9C中表示为900,且更靠近时间间隔900的柱状或峰值表示为902。基于SVD的异常检测算法的结果如图9A所示,其中意外性表示网络状态的异常程度,该程度是根据路由器产生的日志消息计算而获得。从图9A可以看出,意外性的时间直方图包括三个最高峰值904至908,其对应于虚假异常并且高于目标峰值902。因此,如果仅依赖于基于SVD的异常检测算法的结果,用户将难以检测到感兴趣异常。图9B示出了每个特定时间间隔由路由器产生的若干新日志消息的另一个直方图。同样,由于存在对应于虚假异常的最高峰值910,用户无法仅基于图9B中所示的直方图来找到感兴趣异常。最后,图9C表示通过使用方法800获得的倒转的预期等级,即|X|-E[rank(x)]的时间直方图。更具体而言,图9C所示的结果是通过组合基于SVD的异常检测算法和聚类异常检测算法以及相等的权重系数(w1=w2=0.5)而获得。可以看出,目标峰值902是与时间间隔900相符的第一个最高峰值。因此,方法800成功增强了对应于故障的目标峰值902,同时减弱由峰值904至910表示的虚假异常。
应当注意,针对由方法800使用Dempster组合规则解决的问题,现有技术也提出了替代解决方案。具体而言,替代解决方案涉及采用中值等级聚合来进行部分排序。然而,中值等级聚合方法提供的异常检测准确性低于方法800的准确性。这已经通过数值实验得到证明,数值实验的结果显示在图10中。具体来说,两种方法都使用了|X|=100个数据项和L=10种异常检测算法。随机部分排序已生成,多达NB=30个子集(“桶”),并且通过随机排列组合的方式将各部分排序扰乱了L=10次。然后,通过使用方法800或中值等级聚合方法重建原始的未受干扰的部分排序,并且使用标准的Kendall tau距离
Figure BDA0002907969320000112
来计算所重建的和原始的部分排名之间的距离。另外,已计算出受干扰的和原始部分排序之间同一距离的平均值,其中同一距离的平均值大于
Figure BDA0002907969320000111
图10所示为两个距离之间的差异如何取决于干扰程度。可以看出,无论干扰程度如何,方法800都超越了中值等级聚合方法。对于参数|X|、L和NB的任何其它值,观察到了相同的结果。
本领域技术人员应该理解,方法800的每个步骤或步骤的任意组合可以通过各种手段来实现,例如硬件、固件和/或软件。作为示例,上述一个或多个步骤可以由计算机或处理器可执行指令、数据结构、程序模块和其它适当的数据表达来体现。此外,体现上述步骤的计算机可执行指令可以存储在相应的数据载体上,并且由包括在装置300中的处理器304等至少一个处理器执行。该数据载体可以实现为任何计算机可读存储介质,用于可被所述至少一个处理器读取以执行计算机可执行指令。这样的计算机可读存储介质可以包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质包括以适于存储信息的任何方法或技术实现的介质。更详细地说,计算机可读介质的实际示例包括但不限于信息传递介质、RAM、ROM,EEPROM、闪存或其它存储技术、CD-ROM、数字多功能光盘(digital versatile disk,DVD)、全息媒体或其它光盘存储器、磁带、盒式磁带、磁盘存储器和其它磁存储设备。
尽管本文公开了示例性实施例,但应该注意,在不脱离由所附权利要求限定的法律保护的范围的情况下,可以在这些实施例中进行任何各种变更和修改。在所附权利要求中,如果没有另外明确说明,以单数形式提及的元件并不排除存在多个这样的元件。

Claims (18)

1. 一种检测数据集中异常的装置,其特征在于,所述装置包括:
至少一个处理器;以及
耦合到所述至少一个处理器并存储可执行指令的存储器,当由所述至少一个处理器执行时,所述指令使得所述至少一个处理器:
接收包括多个数据项的数据集,其中至少一个数据项异常,
选择至少两种异常检测算法;
通过使用所述至少两种异常检测算法中的每一种:
为所述数据项中的每一项计算异常分数;
基于所述异常分数,获得所述数据项的部分排序,所述部分排序使得所述数据项被划分为多个子集,每个子集对应于不同的中间等级区间;
基于所述部分排序选择描述每个子集中各数据项的中间等级的概率模型;以及
基于所述概率模型为每个子集中的所述数据项的所述中间等级分配信度;
按照预定义的组合规则同时使用所述至少两种异常检测算法,通过组合所获得的所述数据项中每一项的中间等级的信度来获得所述中间等级的总信度;
将所述数据项的所述中间等级的所述总信度转换为描述所述数据项的预期等级的概率分布函数;
根据所述数据项的所述预期等级将所述数据项进行排序;以及
在排序后的所述数据项中找出所述至少一个异常数据项。
2.根据权利要求1所述的装置,其特征在于,所述至少一个处理器还用于基于所述数据项所属的使用领域来选择所述至少两种异常检测算法。
3.根据权利要求1所述的装置,其特征在于,所述至少两种异常检测算法中的每一种配置有不同的权重系数,并且所述至少一个处理器还用于与所述异常检测算法的所述权重系数配合基于所述概率模型分配所述信度。
4.根据权利要求3所述的装置,其特征在于,所述至少两种异常检测算法是基于无监督学习的异常检测算法,并且所述至少两种异常检测算法的所述不同权重系数是基于用户偏好指定的,使得所述权重系数的和等于1。
5.根据权利要求3所述的装置,其特征在于,所述至少两种异常检测算法是基于监督学习的异常检测算法,并且所述至少两种异常检测算法的所述权重系数使用预先准备的训练集来调整,所述训练集包括不同的前数据集以及与所述前数据集一一对应的目标排序。
6. 根据权利要求5所述的装置,其特征在于,基于Kendall tau距离进一步调整所述至少两种异常检测算法的所述权重系数,所述Kendall tau距离用于测量通过所述至少两种异常检测算法所获得的组合部分排序与所述训练集中的所述目标排序中每一个之间的距离。
7.根据权利要求1至6中任一项所述的装置,其特征在于,基于所述数据项的所述部分排序所获得的所述子集包括至少两个第一子集,每个第一子集包括具有相同异常分数的数据项。
8.根据权利要求7所述的装置,其特征在于,所述至少两个第一子集的所述中间等级区间是不重叠的。
9.根据权利要求7所述的装置,其特征在于,基于所述数据项的所述部分排序所获得的所述子集还包括第二子集,所述第二子集包括不属于所述至少两个第一子集的数据项,并且所述至少一个处理器还用于基于所述第二子集选择所述概率模型。
10.根据权利要求9所述的装置,其特征在于,所述第二子集的所述数据项是错误遗漏的数据项或者是所具有的所述异常分数与属于所述至少两个第一子集的所述数据项不同的数据项。
11.根据权利要求9所述的装置,其特征在于,所述第二子集的所述中间等级区间包含所述至少两个第一子集的所述中间等级区间。
12.根据权利要求1至6中任一项所述的装置,其特征在于,所述预定义的组合规则包括Dempster组合规则。
13.根据权利要求1至6中任一项所述的装置,其特征在于,所述至少两种异常检测算法包括以下算法的任意组合:基于最近邻的异常检测算法、基于聚类的异常检测算法、统计异常检测算法、基于子空间的异常检测算法和基于分类器的异常检测算法。
14.根据权利要求1至6中任一项所述的装置,其特征在于,所述中间等级的所述信度包括基本信度分配。
15.根据权利要求1至6中任一项所述的装置,其特征在于,所述至少一个处理器还用于通过使用pignistic变换将所述数据项的所述中间等级的所述总信度转换为所述概率分布函数,并且所述概率分布函数是pignistic概率函数。
16.根据权利要求1至6中任一项所述的装置,其特征在于,所述数据项包括网络流数据,且所述至少一个异常数据项与异常网络流行为有关。
17.一种检测数据集中异常的方法,其特征在于,所述方法包括:
接收包括多个数据项的数据集,其中至少一个数据项异常;
选择至少两种异常检测算法;
通过使用所述至少两种异常检测算法中的每一种:
为所述数据项中的每一项计算异常分数;
基于所述异常分数获得所述数据项的部分排序,所述部分排序使得所述数据项被划分为多个子集,每个子集对应于不同的中间等级区间,
基于所述部分排序选择描述每个子集中的各数据项的中间等级的概率模型;以及
基于所述概率模型,为每个子集中的所述数据项的所述中间等级分配信度;
按照预定义的组合规则同时使用所述至少两种异常检测算法,通过组合所获得的所述数据项中每一项的中间等级的信度来获得所述中间等级的总信度;
将所述数据项的所述中间等级的所述总信度转换为描述所述数据项的预期等级的概率分布函数;
根据所述数据项的所述预期等级将所述数据项进行排序;以及
在排序后的所述数据项中找出所述至少一个异常数据项。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序在由至少一个处理器执行时实现权利要求17所述的方法。
CN201880095812.5A 2018-07-20 2018-07-20 检测数据集中异常的装置和方法以及它们相应的计算机程序产品 Active CN112470131B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/096425 WO2020014957A1 (en) 2018-07-20 2018-07-20 Apparatus and method for detecting anomaly in dataset and computer program product therefor

Publications (2)

Publication Number Publication Date
CN112470131A CN112470131A (zh) 2021-03-09
CN112470131B true CN112470131B (zh) 2023-02-07

Family

ID=69163822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880095812.5A Active CN112470131B (zh) 2018-07-20 2018-07-20 检测数据集中异常的装置和方法以及它们相应的计算机程序产品

Country Status (4)

Country Link
US (1) US20210144167A1 (zh)
EP (1) EP3811221A4 (zh)
CN (1) CN112470131B (zh)
WO (1) WO2020014957A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102290039B1 (ko) * 2020-12-16 2021-08-13 한국인터넷진흥원 IoT 기기의 이상 행위 모니터링 방법 및 그 장치
WO2022189818A1 (en) * 2021-03-11 2022-09-15 Huawei Technologies Co., Ltd. Apparatus and methods for anomaly detection
CN113918937B (zh) * 2021-09-10 2023-07-18 广州博依特智能信息科技有限公司 一种基于大数据的非法事件识别方法及***
CN117313900B (zh) * 2023-11-23 2024-03-08 全芯智造技术有限公司 用于数据处理的方法、设备和介质
CN117574363B (zh) * 2024-01-15 2024-04-16 杭州美创科技股份有限公司 数据安全事件检测方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2447846A1 (en) * 2010-10-19 2012-05-02 Siemens Aktiengesellschaft Method, system and computer program for system diagnosis detection
CN103561347A (zh) * 2013-10-30 2014-02-05 乐视致新电子科技(天津)有限公司 一种基于浏览器的快捷菜单生成方法和装置
CN106407083A (zh) * 2016-10-26 2017-02-15 华为技术有限公司 故障检测方法及装置
CN106598822A (zh) * 2015-10-15 2017-04-26 华为技术有限公司 一种用于容量评估的异常数据检测方法及装置
CN107409075A (zh) * 2015-03-24 2017-11-28 华为技术有限公司 用于网络时间序列数据的自适应的基于异常检测的预测器
CN107786368A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 异常节点检测方法以及相关装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8862520B2 (en) * 2009-12-14 2014-10-14 Massachusetts Institute Of Technology Methods, systems and media utilizing ranking techniques in machine learning
US8930295B2 (en) * 2011-09-12 2015-01-06 Stanley Victor CAMPBELL Systems and methods for monitoring and analyzing transactions
US9349103B2 (en) * 2012-01-09 2016-05-24 DecisionQ Corporation Application of machine learned Bayesian networks to detection of anomalies in complex systems
US9275333B2 (en) * 2012-05-10 2016-03-01 Eugene S. Santos Augmented knowledge base and reasoning with uncertainties and/or incompleteness
US9471544B1 (en) 2012-05-24 2016-10-18 Google Inc. Anomaly detection in a signal
US20150170196A1 (en) * 2013-12-18 2015-06-18 Kenshoo Ltd. Trend Detection in Online Advertising
US9661010B2 (en) * 2014-11-21 2017-05-23 Honeywell International Inc. Security log mining devices, methods, and systems
US11025478B2 (en) 2015-05-27 2021-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for analysing performance of a network by managing network data relating to operation of the network
US10021130B2 (en) * 2015-09-28 2018-07-10 Verizon Patent And Licensing Inc. Network state information correlation to detect anomalous conditions
US20180096261A1 (en) * 2016-10-01 2018-04-05 Intel Corporation Unsupervised machine learning ensemble for anomaly detection
US11777963B2 (en) * 2017-02-24 2023-10-03 LogRhythm Inc. Analytics for processing information system data
FR3082963A1 (fr) * 2018-06-22 2019-12-27 Amadeus S.A.S. Systeme et procede d'evaluation et de deploiement de modeles d'apprentissage automatique non supervises ou semi-supervises

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2447846A1 (en) * 2010-10-19 2012-05-02 Siemens Aktiengesellschaft Method, system and computer program for system diagnosis detection
CN103561347A (zh) * 2013-10-30 2014-02-05 乐视致新电子科技(天津)有限公司 一种基于浏览器的快捷菜单生成方法和装置
CN107409075A (zh) * 2015-03-24 2017-11-28 华为技术有限公司 用于网络时间序列数据的自适应的基于异常检测的预测器
CN106598822A (zh) * 2015-10-15 2017-04-26 华为技术有限公司 一种用于容量评估的异常数据检测方法及装置
CN107786368A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 异常节点检测方法以及相关装置
CN106407083A (zh) * 2016-10-26 2017-02-15 华为技术有限公司 故障检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于积分通道特征的异常行为检测算法;汤义等;《科学技术与工程》;20160731;第16卷(第21期);第284-288页 *

Also Published As

Publication number Publication date
WO2020014957A1 (en) 2020-01-23
EP3811221A4 (en) 2021-07-07
EP3811221A1 (en) 2021-04-28
CN112470131A (zh) 2021-03-09
US20210144167A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
CN112470131B (zh) 检测数据集中异常的装置和方法以及它们相应的计算机程序产品
WO2021018228A1 (en) Detection of adverserial attacks on graphs and graph subsets
US11093845B2 (en) Tree pathway analysis for signature inference
KR102247181B1 (ko) Xai에 기초하여 생성된 학습데이터를 이용한 이상행위탐지모델 생성방법 및 장치
US8682813B2 (en) Sample class prediction method, prediction program, and prediction apparatus
Sobolewski et al. Concept Drift Detection and Model Selection with Simulated Recurrence and Ensembles of Statistical Detectors.
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
JP7195264B2 (ja) 段階的な機械学習を使用する自動化された意思決定
US11971892B2 (en) Methods for stratified sampling-based query execution
Shi et al. Generative adversarial networks for black-box API attacks with limited training data
KR101693405B1 (ko) Ldfgb 알고리즘을 이용한 비정상 침입 탐지 장치 및 방법
CN110083507B (zh) 关键性能指标分类方法及装置
US10394631B2 (en) Anomaly detection and automated analysis using weighted directed graphs
TW201942814A (zh) 物件分類方法、裝置、伺服器及儲存媒體
CN113935440A (zh) 一种电压互感器误差状态迭代评估方法及***
Dal Pozzolo et al. Using HDDT to avoid instances propagation in unbalanced and evolving data streams
Mhawi et al. Proposed Hybrid CorrelationFeatureSelectionForestPanalizedAttribute Approach to advance IDSs
Setiono et al. Using sample selection to improve accuracy and simplicity of rules extracted from neural networks for credit scoring applications
Gias et al. Samplehst: Efficient on-the-fly selection of distributed traces
CN108460117A (zh) 一种预测结果驱动的数据修复方法
CN116523172A (zh) 基于跨指标的多维度根本原因分析
Irissappane et al. A case-based reasoning framework to choose trust models for different E-marketplace environments
Gavrylenko et al. Study of Methods for Improving the Meta-Algorithm of the Bagging Classifier
CN109905340B (zh) 一种特征优化函数选取方法、装置及电子设备
Mohd Shaharanee et al. Interestingness of association rules using symmetrical tau and logistic regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant