CN111695083A - 一种检测方法和检测设备 - Google Patents
一种检测方法和检测设备 Download PDFInfo
- Publication number
- CN111695083A CN111695083A CN201910199392.1A CN201910199392A CN111695083A CN 111695083 A CN111695083 A CN 111695083A CN 201910199392 A CN201910199392 A CN 201910199392A CN 111695083 A CN111695083 A CN 111695083A
- Authority
- CN
- China
- Prior art keywords
- data
- detected
- parameter
- abnormal
- attribute values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 131
- 230000002159 abnormal effect Effects 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 description 12
- 230000002354 daily effect Effects 0.000 description 11
- 230000001174 ascending effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例公开了一种检测方法和检测设备,所述方法包括:采集在当前检测周期内的待检测数据;获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
Description
技术领域
本申请涉及检测技术,具体涉及一种检测方法和检测设备。
背景技术
在大数据的时代背景下,如何从众多数据中分析出异常数据成为了学者们研究的一项课题。目前,采用最多的一种方法是:从统计学角度出发,计算待检测数据的平均值、标准差和/或方差等统计数值,并基于统计数值与合理数值之间的大小关系来确定待检测数据是否为异常数据。这种方法虽然具有一定的使用意义,但是考虑到每项待检测数据所代表的含义可能不同,如待检测数据可以是学***均值、标准差和/或方差取值等统计数值入手,一方面过于片面,另一方面可能存在检测准确率不足的问题。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种检测方法和检测设备,至少能够提高对异常数据的检测准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种检测方法,所述方法包括:
采集在当前检测周期内的待检测数据;
获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;
获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
上述方案中,所述方法包括:
基于所述至少二个第一属性值和所述至少二个权重参数,确定第一参数,所述第一参数为表征所述待检测数据为异常数据的可能性;
比较所述第一参数与第一阈值之间的大小,得到比较结果;
根据比较结果确定所述待检测数据是否异常。
上述方案中,所述获取所述待检测数据在当前检测周期内的至少二个权重参数,包括:
采集至少一个在前检测周期的所述待检测数据;
计算所述待检测数据在第一时期内的所述至少二个第一属性值,所述第一时期为所述至少一个在前检测周期的集合;
获取预定函数;
依据所述预定函数及在所述第一时期内的所述至少二个第一属性值,确定所述待检测数据在当前检测周期内的至少二个权重参数。
上述方案中,所述方法还包括:
获取所述待检测数据的至少一个第二属性值,所述至少一个第二属性值用于表征所述待检测数据的日期类型值和/或数据类型值;
获取对应于所述至少一个第二属性值的权重参数;
依据对应于所述至少二个第一属性值的至少二个权重参数以及对应于所述至少一个第二属性值的权重参数,确定所述待检测数据是否为异常。
上述方案中,所述方法包括:
当所述第一参数大于等于所述第一阈值时,确定所述待检测数据为异常数据;
当所述第一参数小于所述第一阈值时,确定所述待检测数据为非异常数据。
本发明实施例提供一种检测设备,所述检测设备包括:
采集装置,用于采集在当前检测周期内的待检测数据;
处理装置,用于获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;
获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
上述方案中,所述处理装置还用于:
基于所述至少二个第一属性值和所述至少二个权重参数,确定第一参数,所述第一参数为表征所述待检测数据为异常数据的可能性;
比较所述第一参数与第一阈值之间的大小,得到比较结果;
根据比较结果确定所述待检测数据是否异常。
上述方案中,所述处理装置还用于:
采集至少一个在前检测周期的所述待检测数据;
计算所述待检测数据在第一时期内的所述至少二个第一属性值,所述第一时期为所述至少一个在前检测周期的集合;
获取预定函数;
依据所述预定函数及在所述第一时期内的所述至少二个第一属性值,确定所述待检测数据在当前检测周期内的至少二个权重参数。
上述方案中,所述处理装置还用于:
获取所述待检测数据的至少一个第二属性值,所述至少一个第二属性值用于表征所述待检测数据的日期类型值和/或数据类型值;
获取对应于所述至少一个第二属性值的权重参数;
依据对应于所述至少二个第一属性值的至少二个权重参数以及对应于所述至少一个第二属性值的权重参数,确定所述待检测数据是否为异常。
上述方案中,所述处理装置还用于:
当所述第一参数大于等于所述第一阈值时,确定所述待检测数据为异常数据;
当所述第一参数小于所述第一阈值时,确定所述待检测数据为非异常数据。
本申请实施例的检测方法和检测设备,所述方法包括:采集在当前检测周期内的待检测数据;获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
本申请中从至少二个属性出发来判断是否异常,这种结合多个(第一)属性、从多个属性角度来综合判断的方式,可显著提高异常数据的检测准确率,降低误判率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的检测方法实施例的流程示意图一;
图2为本申请提供的检测方法实施例的流程示意图二;
图3为本申请提供的检测原理示意图;
图4为本申请提供的ROC曲线图;
图5为本申请提供的检测设备实施例的组成结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员可以理解,大数据背景下的异常数据,指的是偏离于样本群体本应有的数值。也就是说,本方案中的异常数据可以是取值为非合理数据(本不应出现的取值),也可以是取值为合理但取值出现概率较低的数据。一项异常数据属于非合理数据还是属于合理数据视具体的应用场景而定,分析异常数据是非合理数据还是合理数据的过程并非是本方案中的重点,本申请实施例在于对如何从众多数据中检测出异常数据的过程进行描述。
本申请实施例提供一种检测方法、具体是一种对异常数据的检测方法,如图1所示,所述方法包括:
步骤101:采集在当前检测周期内的待检测数据;
本领域技术人员应该理解,本申请实施例中的待检测数据可以是实际应用中能够使用到的大数据中的任何类型的数据,如交易额、学习成绩、报考人数等。本步骤中采集在检测周期内的待检测数据的取值,如交易额是5000、学习成绩是90分等,视具体的应用场景而定。其中,检测周期可以日、月、年为单位,还可以以时、分、秒为单位,不做具体限定。
步骤102:获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;
本步骤中,计算待检测数据在当前检测周期内的如下至少二个(第一)属性:波动性(由波动参数表征)、相对于至少一个在前检测周期是否具有周期性(由周期参数表征)和是否具有上升趋势(由趋势参数表征)。
其中,波动参数与至少一个在前检测周期的待检测数据的M(M为大于等于1的正整数)标准差有关,如与3标准差有关,可以理解,M标准差就是M倍的标准差,如拉依达准则(3σ准则)中涉及的3标准差,3标准差的计算方法请参见现有相关说明,本文不做具体说明。在具体实现上,如果在前检测周期内的所述待检测数据大于前N(N为大于等于1的正整数)个检测周期(N个在前检测周期)的3标准差,波动较大,则取波动参数为1,如果小于则取值波动参数为-1(波动较小),如果等于(可视为无波动)则取波动参数为0。
其中,是否存在周期性和趋势性由上升趋势还是下降趋势根据时间序列模型来计算,具体计算过程不做相关说明。如果当前检测周期内的待检测数据相对于前N个检测周期存在周期性,则取周期参数为1,否则取为0。如果当前检测周期内的待检测数据相对于前N个检测周期存在上升趋势,则取趋势参数为1,否则取为0。
步骤103:获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
本步骤中,计算对应于以上各个(第一)属性的权重参数。
步骤104:基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
基于在当前检测周期内得到的至少一个第一属性值及其权重参数,确定所述待检测数据是否异常。
综上所述,本实施例中,基于待检测数据在当前检测周期内相对于至少一个在前检测周期的波动性、周期性和趋势性中的至少二个属性来判断所述当前检测周期内的待检测数据是否存在异常。与相关技术中的仅从统计学角度出发确定数据异常的方式相比,本申请中从至少二个属性出发来判断是否异常,考虑的更为全面,从多个属性角度来综合判断待检测数据是否异常,这种结合多个(第一)属性、从多个属性角度来综合判断的方式,可显著提高异常数据的检测准确率,降低误判率。
在一个可选的实施例中,如图2所示,前述步骤104进一步可以为:
步骤1040:基于所述至少二个第一属性值和所述至少二个权重参数,确定第一参数,所述第一参数为表征所述待检测数据为异常数据的可能性;
步骤1041:比较所述第一参数与第一阈值之间的大小,得到比较结果;
步骤1042:根据比较结果确定所述待检测数据是否异常。
在步骤1041和1042中,如果所述第一参数大于等于所述第一阈值则确定待检测数据为异常数据;如果第一参数小于第一阈值则确定待检测数据为非异常数据即为正常取值数据。其中,第一阈值根据经验而得,可设置为0~1之间的任何数值,具体取值视应用情况而灵活设定。
在步骤1040~1042中,根据第一参数与第一阈值之间的大小来判断待检测数据是否异常的方式,至少可保证判断准确率。
在一个可选的实施例中,前述的步骤103可进一步为:采集至少一个在前检测周期的所述待检测数据;计算所述待检测数据在第一时期内的所述至少二个第一属性值,所述第一时期为所述至少一个在前检测周期的集合;获取预定函数;依据所述预定函数及在所述第一时期内的所述至少二个第一属性值,确定所述待检测数据在当前检测周期内的至少二个权重参数。此处,所述待检测数据在当前检测周期内的至少二个权重参数基于所述待检测数据在至少一个在前检测周期的至少一个(第一)属性值而定,也就是说,当前检测周期内使用的权重参数是由至少一个在前检测周期内待检测数据的波动参数、周期参数和/或趋势参数中的至少二个参数计算而得。从时间轴上来看,本申请中的对应于各个(第一)属性值的权重参数是随着时间发生更新的,并非是一成不变的,权重参数的适时更新使得权重参数更为准确,如此便可大大保证对当前检测周期内的待检测数据是否为异常的判断准确性。
在一个可选的实施例中,所述方法还包括:获取所述待检测数据的至少一个第二属性值,所述至少一个第二属性值用于表征所述待检测数据的日期类型值和/或数据类型值;获取对应于所述至少一个第二属性值的权重参数;依据对应于所述至少二个第一属性值的至少二个权重参数以及对应于所述至少一个第二属性值的权重参数,确定所述待检测数据是否为异常。
前述方案中,不仅从波动性、周期性和/或趋势性等几个角度考虑,还考虑到了待检测数据的日期类型和/或数据类型等(第二)属性,综合多个第一属性和第二属性判断待检测数据是否异常,使得考虑因素更为全面,更贴近待检测数据的实际应用情况,可进一步提升判断准确性,降低判断错误率。其中,日期类型由日期类型参数来表征,数据类型由数据类型参数来表征。具体请参见后续相关描述。
下面结合图3所示的原理图对本申请实施例的检测设备如何检测异常数据的方案做进一步说明。
在一个应用场景中,假定待检测数据为交易额,具体是电商A在一段时间内如2月1-2月28日内每天的交易额。本领域技术人员可以理解,在一段时间内的日交易额通常在一定数值内波动,当然也存在有某日的日交易额过低或过高、超出预期的情况,本申请实施例中将这种超出预期的数据视为异常数据。如前所述,这种超出预期的数据(异常)可能是合理数据,例如,由于某日促销力度较大而导致该日交易额远超出预期;也可以是不合理的数据,例如某日的交易额远远低于预期值。本申请实施例基于以下的方案进行异常数据的检测,在实际应用中检测出数据的异常可以帮助电商制定指导性意见,例如,由于春节给出的促销力度使春节期间的日交易额远超预期,那么春节的下一个法定节假日如劳动节还可以采用类似的促销方式进行产品销售。还例如,某日的交易额远远低于预期值是因为网络瘫痪,那么可从软件和硬件方面同时入手,如升级网络设备和***,尽量避免类似情况的出现等等。
如图3所示,2月1日~28日的交易额为1万、1.2万、1.2万、1.3万、1.1万….3万。本实施例的应用场景中,通过如下方式来确定2月28的交易额(3万)是否超出预期、为异常数据。也即本应用场景中以检测周期为1日为单位进行交易额这一待检测数据是否为异常的判断。
可以理解,本应用场景下的待检测数据-交易额具有日期类型和数据类型等两个第二属性。其中,日期类型指的是交易额为A的交易日是工作日、工作日、双休日还是节假日。数据类型指的是销售产品的类型是哪类产品,如3C(电子类)产品、快消类(日用品)产品、服饰类产品。可以这样理解,本应用场景下,电商平台对每日不同产品类型的销售额、统计日为哪种日期类型进行对应统计,检测设备从电商平台处采集统计结果,得到表格1:
表格1
日期 | 交易额 | 日期类型参数 | 数据类型参数 |
2月1日 | 1万 | 0(节假日) | 1(3C类产品) |
2月2日 | 1.2万 | -1(双休日) | 1(3C类产品) |
…… | …… | …… | …… |
…… | …… | …… | …… |
2月28日 | 3万 | 1(工作日) | 1(3C类产品) |
可以理解,在表格1中检测设备对电商平台从2月1日~28日的同一类型产品-3C产品的销售数据进行采集,表格1仅以采集出的3C类产品的数据为例。基于此,可以认为本应用场景是对2月28日这日的3C产品的交易额是否存在异常进行检测。如果日期类型为工作日则取日期类型参数为1、如果日期类型为双休日则取日期类型参数为-1,如果日期类型参数为节假日则取日期类型参数为0。如果为3C产品的交易额,则取数据类型参数为1,如果为快消类产品的交易额,则取数据类型参数为-1,如果为服饰类产品的交易额,则取数据参数类型为0。
检测设备计算在2月28日的3标准差、2月28日的交易额数值相对于2月14~27日这半个月(14个在前检测周期)是否存在周期性和上升趋势。其中,3标准差的概念来源于拉依达准则,在本应用场景中,3标准差用于考察近期交易额的波动情况。在具体实现上,可以判断2月28日的交易额是否大于该日的前7日的3个标准差,如果大于则波动参数取值为1,如果小于则波动参数取值为-1,如果等于则波动参数取值为0。是否存在周期性和上升趋势则根据时间序列模型进行计算,该计算方法请参见现有相关说明。如果计算出2月28日的交易额数值相对于2月14~27日这半个月存在周期性,则取周期参数为1,否则取值为0。类似的,如果计算出2月28日的交易额数值相对于2月14~27日这半个月存在上升趋势,则取值趋势参数为1,否则为下降取值趋势参数为0。将以上计算而得的三个第一属性作为对表1的增加内容,得到表格2:
表格2
可以理解,表格2中记载了所有属性(包括交易额、三个第一属性和二个第二属性)的取值。其中,表格1和表格2可作为一种评分卡模型,利用评分卡模型中的各个属性的取值来得到对待检测数据是否异常的判断结果。根据表格2中各个属性值的记载可根据公式(1)的记载计算出2月28日这天的交易额是否存在异常。
其中,e-z是以自然常数e为底的指数函数,e取值为2.718。wi为权重参数,xi代表在所有属性中(包括交易额、日期类型参数、数据类型参数、波动参数、周期参数和趋势参数)可使用的属性的取值。本应用场景中由于使用所有属性,故取L=6。
公式(1)为本应用场景中的预定函数,在利用该预定函数与表格2中的各个属性的取值进行待检测数据是否为异常数据的判断之前,还需要计算wi(i=1、2…6)。前面方案已经描述过:确定2月28日这日的交易额是否为异常数据所使用的权重参数可通过2月28日前的多个在前检测周期的待检测数据的至少一个属性取值而定的。本应用场景中,假定权重参数通过1月1日~2月27日这段时间内的交易额及其对应属性值而定。在具体实现上,检测设备读取电商平台1月1日~2月27日这段时间内的3C产品的每日交易额数据、日期类型和数据类型等数据,并生成如表格1所示的表格。并利用拉依达准则和时间序列模型计算出各日的周期参数、波动参数和趋势参数,以此生成诸如表格2的表格,得到从1月1日~2月27日这段时间内的每日的交易额数据、日期类型参数、数据类型参数、周期参数、波动参数和趋势参数。并将这些数值作为输入代入R语言中逻辑回归模型(logistic回归模型)函数-glm中,并运行以下程序:
fit<-glm(formula=abnormal~.+0,data,family=binomial('logit'))
其中,glm函数具有三个输入:formula、data和family。在本应用场景中,data为从1月1日~2月27日这段时间内的每日的交易额数据、日期类型参数、周期参数、数据类型参数、趋势参数和波动参数等参数。family=binomial('logit'),指示利用逻辑回归模型进行程序的响应。formula=abnormal~.+0为默认格式。
经运行R语言中的以上程序可得到:
由此得到公式(1)中的z的表达式。在公式(1)中的表达式确定后,取x1、x2…x6依次为2月28日的交易额、日期类型参数、周期参数、数据类型参数、趋势参数和波动参数值,并代入至公式(1)得到第一参数y的取值,第一参数y表征为2月28日的交易额为异常数据的可能性。
比较第一参数y与第一阈值如0.5之间的大小关系,如果y≥0.5,则确认2月28日的交易额(3万)为异常数据;否则视为正常数据。本应用场景中,假定计算出的y=0.62、大于等于0.5,则确认2月28日的交易额(3万)为异常数据,检测设备的输出装置输出异常提醒信号。电商分析该日交易额异常的原因并制定指导性意见:例如,造成2月28日的交易额较高的原因是这日的促销力度较大,在后续的促销方案中仍可以采用同样的促销方式进行产品销售。
前述方案中,综合多个第一属性和第二属性判断待检测数据是否异常,使得考虑因素更为全面,更贴近待检测数据的实际应用情况,可进一步提升判断准确性,降低判断错误率。
本应用场景中,通过图4所示的受试者工作特征曲线(ROC曲线,ReceiverOperating Characteristic Curve)来说明以上方案计算得到的y的表达式的可靠性。在图4中,横坐标代表假阳率(False positive rate),纵坐标代表真阳率(True positiverate)。本领域技术人员应该而知,ROC曲线越靠近左上角,说明y表达式的准确性就越高。最靠近左上角的ROC曲线的点是使得假阳率最少的最好的点,其误判率最小。ROC曲线与x轴、y轴形成的封闭空间的面积(AUC)越大,说明误判率最小。本应用场景中的ROC曲线如图4所示的走向,其AUC=0.81、取值较大,说明本应用场景中所计算而得y的表达式较为准确,通过y表达式与第一阈值之间的判断,可使得误判率小,由此可提高判断准确性。
以上方案是以第一属性为周期性、波动性和趋势性为例,第二属性是以日期数据类型和数据类型为例进行的说明,考虑到待检测数据的同比上涨参数也会对判断结果存在影响,还可以根据表格3记载中的属性值进行是否异常的判断。
表格3
其中,第一增长参数为同比上周增长的百分比,第二增长参数为同比上月的百分比,在属性值又增加2个的基础上,对应的权重参数w的数量也应该随着增长,如取L=8。在增加这2个属性的基础上计算w1~w8的方法参见前述的w1~w6的方法,不再重复描述。
在前述方案中,判断2月28日这天的交易额是否异常所使用的权重参数通过1月1日~2月27日这段时间内的交易额及其对应属性值计算而来的。相应的,判断3月1日这天的交易额是否异常所使用的权重参数可通过1月1日~2月28日这段时间内的交易额及其对应属性值计算而来的,依次类推,在判断某日的交易额是否异常所使用的权重参数可通过该日之前的多日的交易额及属性值来计算。相当于本方案公式(1)中的权重参数wi是定期发生更新的如每日发生一次更新,并不是一成不变的,权重参数均依据采集到的最新待检测数据进行适时更新,这种适时更新使得权重参数更为准确,如此便可大大保证对检测周期内的待检测数据是否为异常的判断准确性。
本申请实施例还提供一种检测设备,如图5所示,所述检测设备包括:
采集装置501,用于采集在当前检测周期内的待检测数据;
处理装置502,用于获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;
获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
在一个可选的实施例中,所述处理装置502还用于:
基于所述至少二个第一属性值和所述至少二个权重参数,确定第一参数,所述第一参数为表征所述待检测数据为异常数据的可能性;
比较所述第一参数与第一阈值之间的大小,得到比较结果;
根据比较结果确定所述待检测数据是否异常。
在一个可选的实施例中,所述处理装置502还用于:
采集至少一个在前检测周期的所述待检测数据;
计算所述待检测数据在第一时期内的所述至少二个第一属性值,所述第一时期为所述至少一个在前检测周期的集合;
获取预定函数;
依据所述预定函数及在所述第一时期内的所述至少二个第一属性值,确定所述待检测数据在当前检测周期内的至少二个权重参数。
在一个可选的实施例中,所述处理装置502还用于:
获取所述待检测数据的至少一个第二属性值,所述至少一个第二属性值用于表征所述待检测数据的日期类型值和/或数据类型值;
获取对应于所述至少一个第二属性值的权重参数;
依据对应于所述至少二个第一属性值的至少二个权重参数以及对应于所述至少一个第二属性值的权重参数,确定所述待检测数据是否为异常。
在一个可选的实施例中,所述处理装置502还用于:
当所述第一参数大于等于所述第一阈值时,确定所述待检测数据为异常数据;
当所述第一参数小于所述第一阈值时,确定所述待检测数据为非异常数据。
需要说明的是,本申请实施例提供的检测设备,由于该检测设备解决问题的原理与前述的检测方法相似,因此,检测设备的实施过程及实施原理均可以参见前述检测方法的实施过程及实施原理描述,重复之处不再赘述。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时执行以下步骤:
步骤101:采集在当前检测周期内的待检测数据;
步骤102:获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征所述待检测数据在当前检测周期内的标准差、周期性和/或趋势性;
步骤103:获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
步骤104:基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种检测方法,其特征在于,所述方法包括:
采集在当前检测周期内的待检测数据;
获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;
获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
基于所述至少二个第一属性值和所述至少二个权重参数,确定第一参数,所述第一参数为表征所述待检测数据为异常数据的可能性;
比较所述第一参数与第一阈值之间的大小,得到比较结果;
根据比较结果确定所述待检测数据是否异常。
3.根据权利要求1所述的方法,其特征在于,所述获取所述待检测数据在当前检测周期内的至少二个权重参数,包括:
采集至少一个在前检测周期的所述待检测数据;
计算所述待检测数据在第一时期内的所述至少二个第一属性值,所述第一时期为所述至少一个在前检测周期的集合;
获取预定函数;
依据所述预定函数及在所述第一时期内的所述至少二个第一属性值,确定所述待检测数据在当前检测周期内的至少二个权重参数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待检测数据的至少一个第二属性值,所述至少一个第二属性值用于表征所述待检测数据的日期类型和/或数据类型;
获取对应于所述至少一个第二属性值的权重参数;
依据对应于所述至少二个第一属性值的至少二个权重参数以及对应于所述至少一个第二属性值的权重参数,确定所述待检测数据是否为异常。
5.根据权利要求2所述的方法,其特征在于,所述方法包括:
当所述第一参数大于等于所述第一阈值时,确定所述待检测数据为异常数据;
当所述第一参数小于所述第一阈值时,确定所述待检测数据为非异常数据。
6.一种检测设备,其特征在于,所述设备包括:
采集装置,用于采集在当前检测周期内的待检测数据;
处理装置,用于获取所述待检测数据在所述当前检测周期内的至少二个第一属性值,所述至少二个第一属性值用于表征在当前检测周期内的所述待检测数据相对于至少一个在前检测周期的所述待检测数据的波动性、周期性和/或趋势性;
获取所述待检测数据在当前检测周期内的至少二个权重参数,所述至少二个权重参数与所述至少二个第一属性值对应;
基于所述至少二个第一属性值和所述至少二个权重参数,确定所述待检测数据是否异常。
7.根据权利要求6所述的设备,其特征在于,所述处理装置还用于:
基于所述至少二个第一属性值和所述至少二个权重参数,确定第一参数,所述第一参数为表征所述待检测数据为异常数据的可能性;
比较所述第一参数与第一阈值之间的大小,得到比较结果;
根据比较结果确定所述待检测数据是否异常。
8.根据权利要求6所述的设备,其特征在于,所述处理装置还用于:
采集至少一个在前检测周期的所述待检测数据;
计算所述待检测数据在第一时期内的所述至少二个第一属性值,所述第一时期为所述至少一个在前检测周期的集合;
获取预定函数;
依据所述预定函数及在所述第一时期内的所述至少二个第一属性值,确定所述待检测数据在当前检测周期内的至少二个权重参数。
9.根据权利要求6所述的设备,其特征在于,所述处理装置还用于:
获取所述待检测数据的至少一个第二属性值,所述至少一个第二属性值用于表征所述待检测数据的日期类型和/或数据类型;
获取对应于所述至少一个第二属性值的权重参数;
依据对应于所述至少二个第一属性值的至少二个权重参数以及对应于所述至少一个第二属性值的权重参数,确定所述待检测数据是否为异常。
10.根据权利要求7所述的设备,其特征在于,所述处理装置还用于:
当所述第一参数大于等于所述第一阈值时,确定所述待检测数据为异常数据;
当所述第一参数小于所述第一阈值时,确定所述待检测数据为非异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199392.1A CN111695083A (zh) | 2019-03-15 | 2019-03-15 | 一种检测方法和检测设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199392.1A CN111695083A (zh) | 2019-03-15 | 2019-03-15 | 一种检测方法和检测设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111695083A true CN111695083A (zh) | 2020-09-22 |
Family
ID=72475398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910199392.1A Pending CN111695083A (zh) | 2019-03-15 | 2019-03-15 | 一种检测方法和检测设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695083A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN105718715A (zh) * | 2015-12-23 | 2016-06-29 | 华为技术有限公司 | 异常检测方法和设备 |
CN106815255A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 检测数据访问异常的方法及装置 |
CN107016398A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置 |
CN107968731A (zh) * | 2016-10-20 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 一种显号异常检测方法及服务器 |
US20180308362A1 (en) * | 2017-04-24 | 2018-10-25 | Panasonic Intellectual Property Management Co., Ltd. | Differential detection device and differential detection method |
CN108775914A (zh) * | 2018-05-07 | 2018-11-09 | 青岛海信网络科技股份有限公司 | 一种交通设备检测方法及检测设备 |
CN109191451A (zh) * | 2018-09-11 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 异常检测方法、装置、设备和介质 |
-
2019
- 2019-03-15 CN CN201910199392.1A patent/CN111695083A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN106815255A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 检测数据访问异常的方法及装置 |
CN105718715A (zh) * | 2015-12-23 | 2016-06-29 | 华为技术有限公司 | 异常检测方法和设备 |
CN107016398A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置 |
CN107968731A (zh) * | 2016-10-20 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 一种显号异常检测方法及服务器 |
US20180308362A1 (en) * | 2017-04-24 | 2018-10-25 | Panasonic Intellectual Property Management Co., Ltd. | Differential detection device and differential detection method |
CN108775914A (zh) * | 2018-05-07 | 2018-11-09 | 青岛海信网络科技股份有限公司 | 一种交通设备检测方法及检测设备 |
CN109191451A (zh) * | 2018-09-11 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 异常检测方法、装置、设备和介质 |
Non-Patent Citations (2)
Title |
---|
于明;张雨;刘畅;张丹丹;: "云环境下基于多属性信息熵的虚拟机异常检测", 华中科技大学学报(自然科学版), no. 05, 23 May 2015 (2015-05-23) * |
林晶;黄添强;李小琛;林玲鹏;: "基于光流周期特性的视频帧率上转篡改检测", 计算机***应用, no. 06, 15 June 2017 (2017-06-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220358528A1 (en) | Methods and apparatus for self-adaptive time series forecasting engine | |
US10579938B2 (en) | Real time autonomous archetype outlier analytics | |
US9536208B1 (en) | Kernel parameter selection in support vector data description for outlier identification | |
US20120123994A1 (en) | Analyzing data quality | |
US20140067461A1 (en) | System and Method for Predicting Customer Attrition Using Dynamic User Interaction Data | |
US8583408B2 (en) | Standardized modeling suite | |
US11127026B2 (en) | Predicting economic conditions | |
CN105550173A (zh) | 文本校正方法和装置 | |
CN110503459B (zh) | 基于大数据的用户信用度评估方法、装置及存储介质 | |
US20200342340A1 (en) | Techniques to use machine learning for risk management | |
US10032167B2 (en) | Abnormal pattern analysis method, abnormal pattern analysis apparatus performing the same and storage medium storing the same | |
EP2816524A1 (en) | Future credit score projection | |
US9639809B1 (en) | Monitoring system based on a support vector data description | |
CN114202256A (zh) | 架构升级预警方法、装置、智能终端及可读存储介质 | |
CN117788115A (zh) | 一种物品需求信息确定方法、装置、设备及存储介质 | |
US20190065987A1 (en) | Capturing knowledge coverage of machine learning models | |
CN111046947B (zh) | 分类器的训练***及方法、异常样本的识别方法 | |
US20240020436A1 (en) | Automated data quality monitoring and data governance using statistical models | |
WO2018044955A1 (en) | Systems and methods for measuring collected content significance | |
CN111695083A (zh) | 一种检测方法和检测设备 | |
US20150134564A1 (en) | Predicting economic conditions | |
US20150134410A1 (en) | Predicting economic conditions | |
US20150134565A1 (en) | Predicting economic conditions | |
JP2017084229A (ja) | 投資シミュレーション装置および方法 | |
CN113761082A (zh) | 一种数据可视化方法、装置和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |