CN113435464B - 异常数据检测方法、装置、电子设备及计算机存储介质 - Google Patents

异常数据检测方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN113435464B
CN113435464B CN202010154535.XA CN202010154535A CN113435464B CN 113435464 B CN113435464 B CN 113435464B CN 202010154535 A CN202010154535 A CN 202010154535A CN 113435464 B CN113435464 B CN 113435464B
Authority
CN
China
Prior art keywords
data
abnormal data
abnormal
distance
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010154535.XA
Other languages
English (en)
Other versions
CN113435464A (zh
Inventor
欧阳昭暐
谢峰
田赟
龙欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010154535.XA priority Critical patent/CN113435464B/zh
Publication of CN113435464A publication Critical patent/CN113435464A/zh
Application granted granted Critical
Publication of CN113435464B publication Critical patent/CN113435464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开了一种异常数据检测方法、装置、电子设备及计算机存储介质,所述方法包括:获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。该技术方案能够突破检测方法对于算法要求前提的限制,实现异常数据的全面检测,提高异常数据检测的有效性的准确性,进而为后续未来数据的预测提供可靠的数据支持。

Description

异常数据检测方法、装置、电子设备及计算机存储介质
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种异常数据检测方法、装置、电子设备及计算机存储介质。
背景技术
随着数据技术的发展,数据的应用也越来越广泛。比如,在机器学习、人工智能等很多场景下,都需要借助对于历史数据的分析来预测未来的数据。显然,在该场景下,未来数据预测的准确性在很大程度上都依赖于历史数据的有效性,但实际上,并非所有的历史数据都是有效数据或者有用信息,有些数据点或者数据段可能是由于随机小概率事件的发生而引入的异常数据,这些异常数据势必会在一定程度上影响历史数据的有效性,进而为后续的数据预测引入异常因素,影响数据预测的准确性,因此需要将这些异常数据有效地检测出来。但目前大部分的异常数据检测方法仅实现了异常数据的单纯检测,并未考虑异常数据若存在在历史数据中将会对于预测结果产生多大的影响,而本申请发明人在发明创造的过程中发现,若异常数据对于预测结果影响程度不同,对于异常数据的处理方式也会有所不同。而且,目前的异常数据检测方法基本都是局限于一种单一模式的异常数据检测,在不符合其假定值或不满足其算法要求前提时是无法进行检测的,这就为异常数据的处理以及未来数据的预测带来极大的不便。
发明内容
本发明实施例提供一种异常数据检测方法、装置、电子设备及计算机存储介质。
第一方面,本发明实施例中提供了一种异常数据检测方法。
具体的,所述异常数据检测方法,包括:
获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集,包括:
获取预设时间段内的数据样本;
根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
结合第一方面和第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据,包括:
获取待检测数据;
计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;
将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据,包括:
将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
结合第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,还包括:
对于所述异常数据进行作用评估。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述对于所述异常数据进行作用评估,包括:
获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
根据所述异常数据的属性信息对于所述异常数据进行作用评估。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述根据所述异常数据的属性信息对于所述异常数据进行作用评估,包括:
根据所述异常数据的高度计算得到高度评估值;
根据所述异常数据的宽度计算得到宽度评估值;
根据所述异常数据的距离比例计算得到距离评估值;
确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,还包括:
根据所述作用评估值对于所述异常数据进行预设处理。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述根据所述作用评估值对于所述异常数据进行预设处理,包括:
当所述作用评估值超过预设评估阈值时,对于所述异常数据进行过滤处理。
第二方面,本发明实施例中提供了一种异常数据检测装置。
具体的,所述异常数据检测装置,包括:
获取模块,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
比较模块,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
确定模块,被配置为对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述获取模块包括:
第一获取子模块,被配置为获取预设时间段内的数据样本;
聚类子模块,被配置为根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
提取子模块,被配置为训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
结合第二方面和第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述比较模块包括:
第二获取子模块,被配置为获取待检测数据;
第一计算子模块,被配置为计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;
第一确定子模块,被配置为将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述确定模块包括:
分段子模块,被配置为将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
第二计算子模块,被配置为计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
第二确定子模块,被配置为将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,还包括:
评估模块,被配置为对于所述异常数据进行作用评估。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,所述评估模块包括:
第三获取子模块,被配置为获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
评估子模块,被配置为根据所述异常数据的属性信息对于所述异常数据进行作用评估。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,所述评估子模块包括:
第三计算子模块,被配置为根据所述异常数据的高度计算得到高度评估值;
第四计算子模块,被配置为根据所述异常数据的宽度计算得到宽度评估值;
第五计算子模块,被配置为根据所述异常数据的距离比例计算得到距离评估值;
第六计算子模块,被配置为确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
第七计算子模块,被配置为获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,还包括:
处理模块,被配置为根据所述作用评估值对于所述异常数据进行预设处理。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式和第二方面的第七种实现方式,本公开在第二方面的第八种实现方式中,所述处理模块被配置为:
当所述作用评估值超过预设评估阈值时,对于所述异常数据进行过滤处理。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持异常数据检测装置执行上述第一方面中异常数据检测方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述异常数据检测装置还可以包括通信接口,用于异常数据检测装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储异常数据检测装置所用的计算机指令,其包含用于执行上述第一方面中异常数据检测方法为异常数据检测装置所涉及的计算机指令。
本发明实施例提供的技术方案可包括以下有益效果:
上述技术方案结合数据样本的分类和数据段之间距离的比较来检测确定异常数据,即先通过数据样本分类简化异常数据筛选和距离比较的复杂度,然后对于不符合数据样本分类要求的数据再通过数据段距离比较来最终确定异常数据。该技术方案能够突破检测方法对于算法要求前提的限制,实现异常数据的全面检测,提高异常数据检测的有效性的准确性,进而为后续未来数据的预测提供可靠的数据支持。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本发明实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本发明一实施方式的异常数据检测方法的流程图;
图2示出根据本发明另一实施方式的异常数据检测方法的流程图;
图3示出CPU负载时间序列数据的示例图;
图4示出另一时间序列数据的示例图;
图5示出滑窗分段示意图;
图6示出根据本发明再一实施方式的异常数据检测方法的流程图;
图7示出根据本发明一实施方式的异常数据检测装置的结构框图;
图8示出根据本发明另一实施方式的异常数据检测装置的结构框图;
图9示出根据本发明再一实施方式的异常数据检测装置的结构框图;
图10是适于用来实现根据本发明一实施方式的异常数据检测方法的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本发明实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。
本发明实施例提供的技术方案结合数据样本的分类和数据段之间距离的比较来检测确定异常数据,即先通过数据样本分类简化异常数据筛选和距离比较的复杂度,然后对于不符合数据样本分类要求的数据再通过数据段距离比较来最终确定异常数据。该技术方案能够突破检测方法对于算法要求前提的限制,实现异常数据的全面检测,提高异常数据检测的有效性的准确性,进而为后续未来数据的预测提供可靠的数据支持。
图1示出根据本发明一实施方式的异常数据检测方法的流程图,如图1所示,所述异常数据检测方法包括以下步骤S101-S103:
在步骤S101中,获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
在步骤S102中,获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
在步骤S103中,对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。
上文提及,随着数据技术的发展,数据的应用也越来越广泛。比如,在机器学习、人工智能等很多场景下,都需要借助对于历史数据的分析来预测未来的数据。显然,在该场景下,未来数据预测的准确性在很大程度上都依赖于历史数据的有效性,但实际上,并非所有的历史数据都是有效数据或者有用信息,有些数据点或者数据段可能是由于随机小概率事件的发生而引入的异常数据,这些异常数据势必会在一定程度上影响历史数据的有效性,进而为后续的数据预测引入异常因素,影响数据预测的准确性,因此需要将这些异常数据有效地检测出来。但目前大部分的异常数据检测方法仅实现了异常数据的单纯检测,并未考虑异常数据若存在在历史数据中将会对于预测结果产生多大的影响,而本申请发明人在发明创造的过程中发现,若异常数据对于预测结果影响程度不同,对于异常数据的处理方式也会有所不同。而且,目前的异常数据检测方法基本都是局限于一种单一模式的异常数据检测,在不符合其假定值或不满足其算法要求前提时是无法进行检测的,这就为异常数据的处理以及未来数据的预测带来极大的不便。
考虑到上述问题,在该实施方式中,提出一种异常数据检测方法,该方法结合数据样本的分类和数据段之间距离的比较来检测确定异常数据,即先通过数据样本分类简化异常数据筛选和距离比较的复杂度,然后对于不符合数据样本分类要求的数据再通过数据段距离比较来最终确定异常数据。该技术方案能够突破检测方法对于算法要求前提的限制,实现异常数据的全面检测,提高异常数据检测的有效性的准确性,进而为后续未来数据的预测提供可靠的数据支持。
在本发明一实施方式中,所述待检测数据指的是有可能既包括正常数据也包括异常数据,需经检测来确定其中是否存在异常数据的数据,比如包括有可能既包括正常数据也包括异常数据的时间序列数据。根据应用场景的不同,所述待检测数据的数据内容也相应不同。
在本发明一实施方式中,所述疑似异常数据指的是经过数据样本分类初步检测得到的有可能是异常数据的数据,这些数据后续还会经过数据段之间距离的比较来最终确定是否真正为异常数据。上述数据样本分类与数据段距离比较两种方法的结合判断和检测,能够突破检测方法对于算法要求前提的限制,避免出现由于数据特征类型不全面使得有些数据类型无法被覆盖或者由于前提条件不满足从而无法被有效检测的情况,进而实现异常数据的全面检测。
在本发明一实施方式中,所述预设时间段可根据实际应用的需要以及数据样本的特点进行设置,本公开对其不作具体限定,所述预设时间段既可以是历史时间段也可以是当前或者未来的一个时间段,只要在该时间段内能够获取得到数据样本即可。
在本发明一实施方式中,所述步骤S101,即获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集的步骤,包括以下步骤:
获取预设时间段内的数据样本;
根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
为了对于所述数据样本进行有效并且准确的分类,在该实施方式中,利用聚类方法将所述数据样本分为不同类别的数据样本集,具体地,首先获取预设时间段内的数据样本;然后根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集,其中,所述数据样本之间的相似性可利用数据样本之间的距离来度量,当然也可以利用其它相似性度量方式,本公开对其不作具体限定;最后训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线,其中,所述数据基线用于表征数据样本集的数据分布特征,可作为比较基准值进行实时数据的分类,在本发明一实施方式中,所述基线可以取为在时间维度下不同时间戳对应的数据的均值、质心或重心。
在本发明一实施方式中,所述步骤S102,即获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据的步骤,包括以下步骤:
获取待检测数据;
计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;
将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
在该实施方式中,在对于获取的待检测数据进行分类处理时,首先计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离,若与所述不同类别数据样本集数据基线之间的最小距离小于或等于第一预设距离阈值,可认为该数据属于该最小距离对应的数据类别,若与所述不同类别数据样本集数据基线之间的最小距离大于所述第一预设距离阈值,则认为该数据不属于任一数据类别,其有可能是异常数据,但也有可能是不满足数据聚类方法数据特征或类型要求的正常数据,即疑似异常数据,后续需借助其他方法进行进一步的检测和识别。
其中,所述第一预设距离阈值可根据实际应用的需要、不同的应用场景以及数据特点进行确定,本公开对其不作具体限定。
在本发明一实施方式中,所述步骤S103,即对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据的步骤,包括以下步骤:
将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
在该实施方式中,利用数据段之间的距离比较来对疑似异常数据进行进一步的检测和识别,具体地,首先将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;然后计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵,其中,对于时间序列数据,所述距离可以取为DTW(Dynamic Time Warping)距离作为距离度量方式;然后比较每个疑似异常数据段与其它疑似异常数据段之间的距离,通过迭代计算方式获取每个疑似异常数据段与其它疑似异常数据段之间的最大距离,若所述最大距离小于或等于第二预设距离阈值,说明该数据与该最大距离对应的数据同属同一类别,为正常数据,但若所述最大距离大于所述第二预设距离阈值,则说明该数据与其他疑似异常数据段均不属于同一类别,确定为异常数据。
其中,所述第二预设距离阈值可根据实际应用的需要、不同的应用场景以及数据特点进行确定,本公开对其不作具体限定。
在本发明一实施方式中,所述方法还包括对于所述异常数据进行作用评估的步骤,即如图2所示,所述异常数据检测方法包括以下步骤S201-S204:
在步骤S201中,获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
在步骤S202中,获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
在步骤S203中,对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据;
在步骤S204中,对于所述异常数据进行作用评估。
上文提及,目前大部分的异常数据检测方法仅实现了异常数据的单纯检测,并未考虑异常数据若存在在历史数据中将会对于预测结果产生多大的影响,但本申请发明人在发明创造的过程中发现,若异常数据对于预测结果影响程度不同,对于异常数据的处理方式也会有所不同。因此,在该实现方式中,在确定了异常数据之后,还对于所述异常数据进行作用评估,以确定后续异常数据的处理方式,其中,所述作用评估指的是对于若所述异常数据存在在历史数据中将会对数据预测结果所产生的影响的评估。
在本发明一实施方式中,所述步骤S204,即对于所述异常数据进行作用评估的步骤,包括以下步骤:
获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
根据所述异常数据的属性信息对于所述异常数据进行作用评估。
在该实施方式中,在对于所述异常数据进行作用评估时,首先获取所述异常数据的属性信息;然后再根据所述异常数据的属性信息对于所述异常数据进行作用评估。
在本发明一实施方式中,所述异常数据的属性信息可包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例。
其中,以时间序列数据为例,所述异常数据的宽度指的是异常数据段在时间维度上的跨度;所述异常数据的高度指的是异常数据段内的数据最大值。
在本发明一实施方式中,通过自适应滑窗方法来确定所述异常数据的宽度。
接下来以图3所示的CPU负载时间序列数据为例对于通过自适应滑窗方法来确定所述异常数据的宽度进行具体的解释和说明。
首先,设置初始滑窗的属性,利用设置的初始滑窗对于所述待检测数据进行滑窗分段,确定第一异常滑窗,其中,所述滑窗的属性至少包括滑窗的宽度等信息;
具体地,可根据经验值确定初始滑窗的宽度大小WSlidingWindow,并以所述初始滑窗的宽度大小作为滑动步长S=WSlidingWindow,对所述待检测数据进行滑窗分段,并将每个滑窗中数据的最大值与最小值均与预设数值阈值进行比较,以判断该滑窗内是否存在异常数据,筛选出第一批含有异常数据的滑动窗口,即第一异常滑窗。其中,所述预设数值阈值可根据数据基线值确定,也可根据所述待检测数据的均值确定。
然后,判断所述第一异常滑窗是否连续并记录所述第一异常滑窗连续的次数N;
如图3所示的时间序列数据,存在两个异常数据段,假设所述初始滑窗的宽度大小WSlidingWindow=5,理论上,依次滑动滑窗进行比较可筛选出这两个异常数据段,但是实际情况通常比较复杂,仅借助一次或几次滑窗操作很难正好捕获到某个完整的异常数据段,也很难使得滑窗的宽度正好等于异常数据段的宽度WOutlier,比如图3右侧显示的异常数据段。再比如,图4所示为另一时间序列数据,对于图4所示的时间序列数据,若同样设置初始滑窗的宽度大小WSlidingWindow=5,则第一个出现的异常数据段就横跨了2个滑窗宽度。当然也有可能出现滑窗宽度太宽,在一个滑窗宽度内包含有两段异常数据段的情况,如图4右侧中所显示的异常数据段。
因此,为了能够准确地捕获到异常数据段的信息,需要对于所述初始滑窗的大小进行自适应的调整,即,对于所述初始滑窗的宽度进行自适应调整,确认异常数据段的起点。
在本发明一实施方式中,所述第一异常滑窗连续出现的次数N与所述预初始滑窗的宽度大小WSlidingWindow和异常数据段宽度WOutlier存在如下关系:
当N=1时:WOutlier<WSlidingWindow
当N=2时:2≤WOutlier<2*WSlidingWindow
当N>2时:(N-2)*WSlidingWindow≤WOutlier<N*WSlidingWindow
由上可知,在不能确定异常数据段的起点时,通过自适应改变滑窗的大小WSlidingWindow来确定所述异常数据段的宽度WOutlier很复杂,准确性也不高,因此需要首先确认异常数据段的起点位置。
在确认异常数据段的起点时,对于各个存在异常数据的异常滑窗,重复缩小滑窗的宽度大小进行滑窗分段,删除非异常滑窗的步骤,直至所述滑窗的宽度达到精度要求,将首个异常滑窗的起点确定为所述异常数据段的起点;
具体地:对于各个存在异常数据的异常滑窗,首先缩小滑窗的宽度大小,比如,将滑窗的宽度大小设置为:WSlidingWindow=WSlidingWindow/2,然后从存在异常数据的异常滑窗的起始位置处利用宽度缩小后的滑窗重新进行滑窗分段,假设对于宽度测量精度的要求为
Figure BDA0002403611170000141
那么当所述滑窗的宽度大小还未达到精度
Figure BDA0002403611170000142
的要求但所述滑窗的大小又足够小时,重新滑窗分段时会出现非异常滑窗,即不包含异常数据段的滑窗,如图5中的窗口是对图4中的第一组异常滑窗重新进行的滑窗分段,重新分段之后,出现了一个非异常滑窗,将其过滤掉,然后继续缩小滑窗的宽度大小,对后续的异常滑窗进行滑窗分段,从而逐渐逼近所述异常数据段的起点,直至所述滑窗的宽度达到精度要求
Figure BDA0002403611170000143
此时首个异常滑窗的起点即为所述异常数据段的起点。
接下来确定所述异常数据段的宽度,从所述异常数据段的起点开始进行滑窗分段,对于滑窗的宽度进行自适应调整,直至异常滑窗的连续次数N出现变化,确定所述异常数据段的宽度,进而也可得到所述异常数据段的终点。
具体地:从找到的所述异常数据段的起点开始进行滑窗,这种情况下,异常滑窗是否连续对滑窗宽度大小WSlidingWindow和异常数据宽度WOutlier的影响只有两种情况:
当N=1时:WOutlier<WSlidingWindow
当N>1时:WOutlier>WSlidingWindow
在这两种情况下可进行不同的滑窗自适应处理,当滑窗宽度较大时,可按照不同的缩减幅度减小滑窗的宽度,比如可将滑窗宽度直接降为WSlidingWindow=WSlidingWindow/2,也可对滑窗宽度执行递减操作;当滑窗宽度较小时,可按照不同的增加幅度增加滑窗的宽度,比如可将滑窗宽度直接增加为WSlidingWindow=WSlidingWindow*2,也可对滑窗宽度执行递增操作。在滑窗自适应处理过程中,若N从1变成了2,则所述异常数据段的宽度为上一次滑窗的宽度大小:WOutlier=last(WSlidingWindow),若N>1变成了N=1,则所述异常数据的宽度为当前滑窗的宽度大小:WOutlier=WSlidingWindow,确定所述异常数据段的宽度,进而也可得到所述异常数据段的终点。
借助上述自适应滑窗宽度调整方法,能够提高异常数据段的检测速度,在大大降低计算成本的前提下,能够有效、准确地确定异常数据段的属性信息。
在本发明一实施方式中,所述根据所述异常数据的属性信息对于所述异常数据进行作用评估的步骤,包括以下步骤:
根据所述异常数据的高度计算得到高度评估值;
根据所述异常数据的宽度计算得到宽度评估值;
根据所述异常数据的距离比例计算得到距离评估值;
确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
在本发明一实施方式中,基于下式根据所述异常数据的高度计算得到高度评估值:
Iheight=(ci·h+cj)m
其中,Iheight为高度评估值,h为所述异常数据的高度,ci,cj为常数,m为实数。
在本发明一实施方式中,基于下式根据所述异常数据的宽度计算得到宽度评估值:
Iwidth=(cp·w+cq)n
其中,Iwidth为宽度评估值,w为所述异常数据的宽度,cp,cq为常数,n为实数。
在本发明一实施方式中,基于下式根据所述异常数据的距离比例计算得到距离评估值:
Figure BDA0002403611170000163
其中,Idist为距离评估值,d为所述异常数据的距离比例,cu,ck,ch为常数。
在本发明一实施方式中,基于下式根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值:
Figure BDA0002403611170000161
其中,α为总权重值,wheight为高度权重值,wwidth为宽度权重值,wdist为距离权重值,ct为常数。
在本发明一实施方式中,基于下式根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值:
Figure BDA0002403611170000162
其中,α为总权重值,Iheight为高度评估值,Iwidth为宽度评估值,Idist为距离评估值,S{h,w,v,…}和γ组成不确定因素评估值,S{h,w,v,…}为形状评估值,{h,w,v,…}用于表征所述异常数据的高度h、宽度w和方差v对形状的影响,γ为其他不确定因素评估值。
其中,所述常数ci、cj、cp、cq、cu、ck、ch、ct,实数m、n,高度权重值wheight,宽度权重值wwidth,距离权重值wdist,形状评估值S{h,w,v,…}和其他不确定因素评估值γ可根据实际应用的需要和数据的特点进行确定,也可根据经验值进行确定,本公开对于上述各参数的具体取值不作特别限定。
按照上述实施方式计算得到所述异常数据的作用评估值后,可以实现异常数据对预测结果影响的量化,就可以很直观地根据影响程度对不同异常数据段采取不同的处理手段。
在本发明一实施方式中,所述方法还包括根据所述作用评估值对于所述异常数据进行预设处理的步骤,即如图6所示,所述异常数据检测方法包括以下步骤S601-S605:
在步骤S601中,获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
在步骤S602中,获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
在步骤S603中,对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据;
在步骤S604中,对于所述异常数据进行作用评估;
在步骤S605中,根据所述作用评估值对于所述异常数据进行预设处理。
其中,所述预设处理可包括以下处理中的一种或多种:过滤处理、删除处理、放大处理、缩小处理等等。本领域技术人员可根据实际应用的需要以及数据的特点选择合适的处理方式,本公开对其不作具体限定。
在本发明一实施方式中,所述步骤S605,即根据所述作用评估值对于所述异常数据进行预设处理的步骤,包括以下步骤:
当所述作用评估值超过预设评估阈值时,认为所述异常数据将会对于预测结果产生较大的不利影响,此时,应当对于所述异常数据进行过滤处理;
当所述作用评估值未超过所述预设评估阈值,即小于或等于所述预设评估阈值时,可认为所述异常数据不会对于预测结果产生较大的不利影响,此时,可对于所述异常数据采取保留措施,不进行过滤处理。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图7示出根据本发明一实施方式的异常数据检测装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示,所述异常数据检测装置包括:
获取模块701,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
比较模块702,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
确定模块703,被配置为对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。
上文提及,随着数据技术的发展,数据的应用也越来越广泛。比如,在机器学习、人工智能等很多场景下,都需要借助对于历史数据的分析来预测未来的数据。显然,在该场景下,未来数据预测的准确性在很大程度上都依赖于历史数据的有效性,但实际上,并非所有的历史数据都是有效数据或者有用信息,有些数据点或者数据段可能是由于随机小概率事件的发生而引入的异常数据,这些异常数据势必会在一定程度上影响历史数据的有效性,进而为后续的数据预测引入异常因素,影响数据预测的准确性,因此需要将这些异常数据有效地检测出来。但目前大部分的异常数据检测方法仅实现了异常数据的单纯检测,并未考虑异常数据若存在在历史数据中将会对于预测结果产生多大的影响,而本申请发明人在发明创造的过程中发现,若异常数据对于预测结果影响程度不同,对于异常数据的处理方式也会有所不同。而且,目前的异常数据检测方法基本都是局限于一种单一模式的异常数据检测,在不符合其假定值或不满足其算法要求前提时是无法进行检测的,这就为异常数据的处理以及未来数据的预测带来极大的不便。
考虑到上述问题,在该实施方式中,提出一种异常数据检测装置,该装置结合数据样本的分类和数据段之间距离的比较来检测确定异常数据,即先通过数据样本分类简化异常数据筛选和距离比较的复杂度,然后对于不符合数据样本分类要求的数据再通过数据段距离比较来最终确定异常数据。该技术方案能够突破检测方法对于算法要求前提的限制,实现异常数据的全面检测,提高异常数据检测的有效性的准确性,进而为后续未来数据的预测提供可靠的数据支持。
在本发明一实施方式中,所述待检测数据指的是有可能既包括正常数据也包括异常数据,需经检测来确定其中是否存在异常数据的数据,比如包括有可能既包括正常数据也包括异常数据的时间序列数据。根据应用场景的不同,所述待检测数据的数据内容也相应不同。
在本发明一实施方式中,所述疑似异常数据指的是经过数据样本分类初步检测得到的有可能是异常数据的数据,这些数据后续还会经过数据段之间距离的比较来最终确定是否真正为异常数据。上述数据样本分类与数据段距离比较两种方法的结合判断和检测,能够突破检测方法对于算法要求前提的限制,避免出现由于数据特征类型不全面使得有些数据类型无法被覆盖或者由于前提条件不满足从而无法被有效检测的情况,进而实现异常数据的全面检测。
在本发明一实施方式中,所述预设时间段可根据实际应用的需要以及数据样本的特点进行设置,本公开对其不作具体限定,所述预设时间段既可以是历史时间段也可以是当前或者未来的一个时间段,只要在该时间段内能够获取得到数据样本即可。
在本发明一实施方式中,所述获取模块701包括:
第一获取子模块,被配置为获取预设时间段内的数据样本;
聚类子模块,被配置为根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
提取子模块,被配置为训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
为了对于所述数据样本进行有效并且准确的分类,在该实施方式中,聚类子模块利用聚类方法将第一获取子模块获取的数据样本分为不同类别的数据样本集,具体地,首先获取预设时间段内的数据样本;然后根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集,其中,所述数据样本之间的相似性可利用数据样本之间的距离来度量,当然也可以利用其它相似性度量方式,本公开对其不作具体限定;提取子模块训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线,其中,所述数据基线用于表征数据样本集的数据分布特征,可作为比较基准值进行实时数据的分类,在本发明一实施方式中,所述基线可以取为在时间维度下不同时间戳对应的数据的均值、质心或重心。
在本发明一实施方式中,所述比较模块702包括:
第二获取子模块,被配置为获取待检测数据;
第一计算子模块,被配置为计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;
第一确定子模块,被配置为将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
在该实施方式中,在对于获取的待检测数据进行分类处理时,第一计算子模块首先计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离,若与所述不同类别数据样本集数据基线之间的最小距离小于或等于第一预设距离阈值,可认为该数据属于该最小距离对应的数据类别,若与所述不同类别数据样本集数据基线之间的最小距离大于所述第一预设距离阈值,则认为该数据不属于任一数据类别,其有可能是异常数据,但也有可能是不满足数据聚类方法数据特征或类型要求的正常数据,即疑似异常数据,后续需借助其他方法进行进一步的检测和识别。
其中,所述第一预设距离阈值可根据实际应用的需要、不同的应用场景以及数据特点进行确定,本公开对其不作具体限定。
在本发明一实施方式中,所述确定模块703包括:
分段子模块,被配置为将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
第二计算子模块,被配置为计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
第二确定子模块,被配置为将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
在该实施方式中,利用数据段之间的距离比较来对疑似异常数据进行进一步的检测和识别,具体地,分段子模块将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;第二计算子模块计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵,其中,对于时间序列数据,所述距离可以取为DTW(Dynamic Time Warping)距离作为距离度量方式;第二确定子模块比较每个疑似异常数据段与其它疑似异常数据段之间的距离,通过迭代计算方式获取每个疑似异常数据段与其它疑似异常数据段之间的最大距离,若所述最大距离小于或等于第二预设距离阈值,说明该数据与该最大距离对应的数据同属同一类别,为正常数据,但若所述最大距离大于所述第二预设距离阈值,则说明该数据与其他疑似异常数据段均不属于同一类别,确定为异常数据。
其中,所述第二预设距离阈值可根据实际应用的需要、不同的应用场景以及数据特点进行确定,本公开对其不作具体限定。
在本发明一实施方式中,所述装置还包括对于所述异常数据进行作用评估的部分,即如图8所示,所述异常数据检测装置包括:
获取模块801,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
比较模块802,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
确定模块803,被配置为对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据;
评估模块804,被配置为对于所述异常数据进行作用评估。
上文提及,目前大部分的异常数据检测装置仅实现了异常数据的单纯检测,并未考虑异常数据若存在在历史数据中将会对于预测结果产生多大的影响,但本申请发明人在发明创造的过程中发现,若异常数据对于预测结果影响程度不同,对于异常数据的处理方式也会有所不同。因此,在该实现方式中,在确定了异常数据之后,还对于所述异常数据进行作用评估,以确定后续异常数据的处理方式,其中,所述作用评估指的是对于若所述异常数据存在在历史数据中将会对数据预测结果所产生的影响的评估。
在本发明一实施方式中,所述评估模块804包括:
第三获取子模块,被配置为获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
评估子模块,被配置为根据所述异常数据的属性信息对于所述异常数据进行作用评估。
在该实施方式中,在对于所述异常数据进行作用评估时,第三获取子模块首先获取所述异常数据的属性信息;评估子模块再根据所述异常数据的属性信息对于所述异常数据进行作用评估。
在本发明一实施方式中,所述异常数据的属性信息可包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例。
其中,以时间序列数据为例,所述异常数据的宽度指的是异常数据段在时间维度上的跨度;所述异常数据的高度指的是异常数据段内的数据最大值。
在本发明一实施方式中,第三获取子模块通过自适应滑窗方法来确定所述异常数据的宽度。
接下来以图3所示的CPU负载时间序列数据为例对于通过自适应滑窗方法来确定所述异常数据的宽度进行具体的解释和说明。
首先,设置初始滑窗的属性,利用设置的初始滑窗对于所述待检测数据进行滑窗分段,确定第一异常滑窗,其中,所述滑窗的属性至少包括滑窗的宽度等信息;
具体地,可根据经验值确定初始滑窗的宽度大小WSlidingWindow,并以所述初始滑窗的宽度大小作为滑动步长S=WSlidingWindow,对所述待检测数据进行滑窗分段,并将每个滑窗中数据的最大值与最小值均与预设数值阈值进行比较,以判断该滑窗内是否存在异常数据,筛选出第一批含有异常数据的滑动窗口,即第一异常滑窗。其中,所述预设数值阈值可根据数据基线值确定,也可根据所述待检测数据的均值确定。
然后,判断所述第一异常滑窗是否连续并记录所述第一异常滑窗连续的次数N;
如图3所示的时间序列数据,存在两个异常数据段,假设所述初始滑窗的宽度大小WSlidingWindow=5,理论上,依次滑动滑窗进行比较可筛选出这两个异常数据段,但是实际情况通常比较复杂,仅借助一次或几次滑窗操作很难正好捕获到某个完整的异常数据段,也很难使得滑窗的宽度正好等于异常数据段的宽度WOutlier,比如图3右侧显示的异常数据段。再比如,图4所示为另一时间序列数据,对于图4所示的时间序列数据,若同样设置初始滑窗的宽度大小WSlidingWindow=5,则第一个出现的异常数据段就横跨了2个滑窗宽度。当然也有可能出现滑窗宽度太宽,在一个滑窗宽度内包含有两段异常数据段的情况,如图4右侧中所显示的异常数据段。
因此,为了能够准确地捕获到异常数据段的信息,需要对于所述初始滑窗的大小进行自适应的调整,即,对于所述初始滑窗的宽度进行自适应调整,确认异常数据段的起点。
在本发明一实施方式中,所述第一异常滑窗连续出现的次数N与所述预初始滑窗的宽度大小WSlidingWindow和异常数据段宽度WOutlier存在如下关系:
当N=1时:WOutlier<WSlidingWindow
当N=2时:2≤WOutlier<2*WSlidingWindow
当N>2时:(N-2)*WSlidingWindow≤WOutlier<N*WSlidingWindow
由上可知,在不能确定异常数据段的起点时,通过自适应改变滑窗的大小WSlidingWindow来确定所述异常数据段的宽度WOutlier很复杂,准确性也不高,因此需要首先确认异常数据段的起点位置。
在确认异常数据段的起点时,对于各个存在异常数据的异常滑窗,重复缩小滑窗的宽度大小进行滑窗分段,删除非异常滑窗的步骤,直至所述滑窗的宽度达到精度要求,将首个异常滑窗的起点确定为所述异常数据段的起点;
具体地:对于各个存在异常数据的异常滑窗,首先缩小滑窗的宽度大小,比如,将滑窗的宽度大小设置为:WSlidingWindow=WSlidingWindow/2,然后从存在异常数据的异常滑窗的起始位置处利用宽度缩小后的滑窗重新进行滑窗分段,假设对于宽度测量精度的要求为
Figure BDA0002403611170000241
那么当所述滑窗的宽度大小还未达到精度
Figure BDA0002403611170000242
的要求但所述滑窗的大小又足够小时,重新滑窗分段时会出现非异常滑窗,即不包含异常数据段的滑窗,如图5中的窗口是对图4中的第一组异常滑窗重新进行的滑窗分段,重新分段之后,出现了一个非异常滑窗,将其过滤掉,然后继续缩小滑窗的宽度大小,对后续的异常滑窗进行滑窗分段,从而逐渐逼近所述异常数据段的起点,直至所述滑窗的宽度达到精度要求
Figure BDA0002403611170000243
此时首个异常滑窗的起点即为所述异常数据段的起点。
接下来确定所述异常数据段的宽度,从所述异常数据段的起点开始进行滑窗分段,对于滑窗的宽度进行自适应调整,直至异常滑窗的连续次数N出现变化,确定所述异常数据段的宽度,进而也可得到所述异常数据段的终点。
具体地:从找到的所述异常数据段的起点开始进行滑窗,这种情况下,异常滑窗是否连续对滑窗宽度大小WSlidingWindow和异常数据宽度WOutlier的影响只有两种情况:
当N=1时:WOutlier<WSlidingWindow
当N>1时:WOutlier>WSlidingWindow
在这两种情况下可进行不同的滑窗自适应处理,当滑窗宽度较大时,可按照不同的缩减幅度减小滑窗的宽度,比如可将滑窗宽度直接降为WSlidingWindow=WSlidingWindow/2,也可对滑窗宽度执行递减操作;当滑窗宽度较小时,可按照不同的增加幅度增加滑窗的宽度,比如可将滑窗宽度直接增加为WSlidingWindow=WSlidingWindow*2,也可对滑窗宽度执行递增操作。在滑窗自适应处理过程中,若N从1变成了2,则所述异常数据段的宽度为上一次滑窗的宽度大小:WOutlier=last(WSlidingWindow),若N>1变成了N=1,则所述异常数据的宽度为当前滑窗的宽度大小:WOutlier=WSlidingWindow,确定所述异常数据段的宽度,进而也可得到所述异常数据段的终点。
借助上述自适应滑窗宽度调整方法,能够提高异常数据段的检测速度,在大大降低计算成本的前提下,能够有效、准确地确定异常数据段的属性信息。
在本发明一实施方式中,所述评估子模块包括:
第三计算子模块,被配置为根据所述异常数据的高度计算得到高度评估值;
第四计算子模块,被配置为根据所述异常数据的宽度计算得到宽度评估值;
第五计算子模块,被配置为根据所述异常数据的距离比例计算得到距离评估值;
第六计算子模块,被配置为确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
第七计算子模块,被配置为获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
在本发明一实施方式中,第三计算子模块基于下式根据所述异常数据的高度计算得到高度评估值:
Iheight=(ci·h+cj)m
其中,Iheight为高度评估值,h为所述异常数据的高度,ci,cj为常数,m为实数。
在本发明一实施方式中,第四计算子模块基于下式根据所述异常数据的宽度计算得到宽度评估值:
Iwidth=(cp·w+cq)n
其中,Iwidth为宽度评估值,w为所述异常数据的宽度,cp,cq为常数,n为实数。
在本发明一实施方式中,第五计算子模块基于下式根据所述异常数据的距离比例计算得到距离评估值:
Figure BDA0002403611170000261
其中,Idist为距离评估值,d为所述异常数据的距离比例,cu,ck,ch为常数。
在本发明一实施方式中,第六计算子模块基于下式根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值:
Figure BDA0002403611170000262
其中,α为总权重值,wheight为高度权重值,wwidth为宽度权重值,wdist为距离权重值,ct为常数。
在本发明一实施方式中,第七计算子模块基于下式根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值:
Figure BDA0002403611170000271
其中,α为总权重值,Iheight为高度评估值,Iwidth为宽度评估值,Idist为距离评估值,S{h,w,v,…}和γ组成不确定因素评估值,S{h,w,v,…}为形状评估值,{h,w,v,…}用于表征所述异常数据的高度h、宽度w和方差v对形状的影响,γ为其他不确定因素评估值。
其中,所述常数ci、cj、cp、cq、cu、ck、ch、ct,实数m、n,高度权重值wheight,宽度权重值wwidth,距离权重值wdist,形状评估值S{h,w,v,…}和其他不确定因素评估值γ可根据实际应用的需要和数据的特点进行确定,也可根据经验值进行确定,本公开对于上述各参数的具体取值不作特别限定。
按照上述实施方式计算得到所述异常数据的作用评估值后,可以实现异常数据对预测结果影响的量化,就可以很直观地根据影响程度对不同异常数据段采取不同的处理手段。
在本发明一实施方式中,所述装置还包括根据所述作用评估值对于所述异常数据进行预设处理的部分,即如图9所示,所述异常数据检测装置包括:
获取模块901,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
比较模块902,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
确定模块903,被配置为对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据;
评估模块904,被配置为对于所述异常数据进行作用评估;
处理模块905,被配置为根据所述作用评估值对于所述异常数据进行预设处理。
其中,所述预设处理可包括以下处理中的一种或多种:过滤处理、删除处理、放大处理、缩小处理等等。本领域技术人员可根据实际应用的需要以及数据的特点选择合适的处理方式,本公开对其不作具体限定。
在本发明一实施方式中,所述处理模块905被配置为:
当所述作用评估值超过预设评估阈值时,认为所述异常数据将会对于预测结果产生较大的不利影响,此时,应当对于所述异常数据进行过滤处理;
当所述作用评估值未超过所述预设评估阈值,即小于或等于所述预设评估阈值时,可认为所述异常数据不会对于预测结果产生较大的不利影响,此时,可对于所述异常数据采取保留措施,不进行过滤处理。
本发明实施例还公开了一种电子设备,所述电子设备包括存储器处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现上述任一方法步骤。
图10是适于用来实现根据本发明一实施方式的异常数据检测方法的计算机***的结构示意图。
如图10所示,计算机***1000包括处理单元1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行上述实施方式中的各种处理。在RAM1003中,还存储有***1000操作所需的各种程序和数据。处理单元1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。其中,所述处理单元1001可实现为CPU、GPU、FPGA、NPU等处理单元。
特别地,根据本发明的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本发明的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述异常数据检测方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。
附图中的流程图和框图,图示了按照本发明各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (18)

1.一种异常数据检测方法,其特征在于,包括:
获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
提取所述不同类别的数据样本集的数据基线,所述数据基线用于表征数据样本集的数据分布特征;
获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据;
其中,所述将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据包括:
计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;
将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集,包括:
获取预设时间段内的数据样本;
根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
所述提取所述不同类别的数据样本集的数据基线,包括:训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
3.根据权利要求1-2任一所述的方法,其特征在于,所述对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据,包括:
将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
4.根据权利要求1-3任一所述的方法,其特征在于,还包括:
对于所述异常数据进行作用评估。
5.根据权利要求4所述的方法,其特征在于,所述对于所述异常数据进行作用评估,包括:
获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
根据所述异常数据的属性信息对于所述异常数据进行作用评估。
6.根据权利要求5所述的方法,其特征在于,所述根据所述异常数据的属性信息对于所述异常数据进行作用评估,包括:
根据所述异常数据的高度计算得到高度评估值;
根据所述异常数据的宽度计算得到宽度评估值;
根据所述异常数据的距离比例计算得到距离评估值;
确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
7.根据权利要求6所述的方法,其特征在于,还包括:
根据所述作用评估值对于所述异常数据进行预设处理。
8.根据权利要求7所述的方法,其特征在于,所述根据所述作用评估值对于所述异常数据进行预设处理,包括:
当所述作用评估值超过预设评估阈值时,对于所述异常数据进行过滤处理。
9.一种异常数据检测装置,其特征在于,包括:
获取模块,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集,提取所述不同类别的数据样本集的数据基线,所述数据基线用于表征数据样本集的数据分布特征;
比较模块,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
确定模块,被配置为对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据;
其中,所述将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据包括:计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
10.根据权利要求9所述的装置,其特征在于,所述获取模块包括:
第一获取子模块,被配置为获取预设时间段内的数据样本;
聚类子模块,被配置为根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
提取子模块,被配置为训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
11.根据权利要求9-10任一所述的装置,其特征在于,所述确定模块包括:
分段子模块,被配置为将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
第二计算子模块,被配置为计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
第二确定子模块,被配置为将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
12.根据权利要求9-11任一所述的装置,其特征在于,还包括:
评估模块,被配置为对于所述异常数据进行作用评估。
13.根据权利要求12所述的装置,其特征在于,所述评估模块包括:
第三获取子模块,被配置为获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
评估子模块,被配置为根据所述异常数据的属性信息对于所述异常数据进行作用评估。
14.根据权利要求13所述的装置,其特征在于,所述评估子模块包括:
第三计算子模块,被配置为根据所述异常数据的高度计算得到高度评估值;
第四计算子模块,被配置为根据所述异常数据的宽度计算得到宽度评估值;
第五计算子模块,被配置为根据所述异常数据的距离比例计算得到距离评估值;
第六计算子模块,被配置为确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
第七计算子模块,被配置为获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
15.根据权利要求14所述的装置,其特征在于,还包括:
处理模块,被配置为根据所述作用评估值对于所述异常数据进行预设处理。
16.根据权利要求15所述的装置,其特征在于,所述处理模块被配置为:
当所述作用评估值超过预设评估阈值时,对于所述异常数据进行过滤处理。
17.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-8任一项所述的方法步骤。
18.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法步骤。
CN202010154535.XA 2020-03-08 2020-03-08 异常数据检测方法、装置、电子设备及计算机存储介质 Active CN113435464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010154535.XA CN113435464B (zh) 2020-03-08 2020-03-08 异常数据检测方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010154535.XA CN113435464B (zh) 2020-03-08 2020-03-08 异常数据检测方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113435464A CN113435464A (zh) 2021-09-24
CN113435464B true CN113435464B (zh) 2022-05-17

Family

ID=77752357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010154535.XA Active CN113435464B (zh) 2020-03-08 2020-03-08 异常数据检测方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113435464B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807547B (zh) * 2024-02-29 2024-05-10 国网山东省电力公司经济技术研究院 一种区域级综合能源大规模数据清洗方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436277A (zh) * 2017-07-12 2017-12-05 广东旭诚科技有限公司 基于相似距离判别的单指标数据质量控制方法
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109767352A (zh) * 2018-12-24 2019-05-17 国网山西省电力公司信息通信分公司 一种电力信息物理融合***安全态势评估方法
CN109978070A (zh) * 2019-04-03 2019-07-05 北京市天元网络技术股份有限公司 一种改进的K-means异常值检测方法以及装置
CN110008979A (zh) * 2018-12-13 2019-07-12 阿里巴巴集团控股有限公司 异常数据预测方法、装置、电子设备及计算机存储介质
CN110634080A (zh) * 2018-06-25 2019-12-31 中兴通讯股份有限公司 异常用电检测方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436277A (zh) * 2017-07-12 2017-12-05 广东旭诚科技有限公司 基于相似距离判别的单指标数据质量控制方法
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置
CN110634080A (zh) * 2018-06-25 2019-12-31 中兴通讯股份有限公司 异常用电检测方法、装置、设备及计算机可读存储介质
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN110008979A (zh) * 2018-12-13 2019-07-12 阿里巴巴集团控股有限公司 异常数据预测方法、装置、电子设备及计算机存储介质
CN109767352A (zh) * 2018-12-24 2019-05-17 国网山西省电力公司信息通信分公司 一种电力信息物理融合***安全态势评估方法
CN109978070A (zh) * 2019-04-03 2019-07-05 北京市天元网络技术股份有限公司 一种改进的K-means异常值检测方法以及装置

Also Published As

Publication number Publication date
CN113435464A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN110348522B (zh) 一种图像检测识别方法及***、电子设备、图像分类网络优化方法及***
CN110288017B (zh) 基于动态结构优化的高精度级联目标检测方法与装置
EP3220353A1 (en) Image processing apparatus, image processing method, and recording medium
US10332244B2 (en) Methods and apparatuses for estimating an ambiguity of an image
CN113435464B (zh) 异常数据检测方法、装置、电子设备及计算机存储介质
CN112434717B (zh) 一种模型训练方法及装置
CN116309344A (zh) 一种绝缘子异常检测方法、装置、设备和存储介质
CN116704208B (zh) 基于特征关系的局部可解释方法
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
WO2019177130A1 (ja) 情報処理装置および情報処理方法
CN115904955A (zh) 性能指标的诊断方法、装置、终端设备及存储介质
CN111368837A (zh) 一种图像质量评价方法、装置、电子设备及存储介质
CN113177603B (zh) 分类模型的训练方法、视频分类方法及相关设备
Yu et al. Design for an SPRT control scheme based on linguistic data
CN113808088A (zh) 一种污染检测方法及***
Thike et al. Parking space detection using complemented-ULBP background subtraction
CN111798237A (zh) 基于应用日志的异常交易诊断方法及***
CN110580494A (zh) 一种基于分位数逻辑回归的数据分析方法
CN111597934A (zh) 用于为统计应用处理训练数据的***和方法
CN114638851B (zh) 一种基于生成对抗网络的图像分割方法、***及存储介质
CN118037137B (zh) 一种基于卷积神经网络的产品质量事故数量的确定方法
CN117132896B (zh) 一种建筑物开裂的检测与识别方法
CN117474915B (zh) 一种异常检测方法、电子设备及存储介质
CN115083442B (zh) 数据处理方法、装置、电子设备以及计算机可读存储介质
CN111835830B (zh) 一种数据感知***、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40062496

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20230601

Address after: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Aliyun Computing Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right