CN111726341A - 一种数据检测方法、装置、电子设备及存储介质 - Google Patents

一种数据检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111726341A
CN111726341A CN202010491155.5A CN202010491155A CN111726341A CN 111726341 A CN111726341 A CN 111726341A CN 202010491155 A CN202010491155 A CN 202010491155A CN 111726341 A CN111726341 A CN 111726341A
Authority
CN
China
Prior art keywords
data
time period
unit time
abnormal
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010491155.5A
Other languages
English (en)
Other versions
CN111726341B (zh
Inventor
庄伟�
史忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN202010491155.5A priority Critical patent/CN111726341B/zh
Publication of CN111726341A publication Critical patent/CN111726341A/zh
Application granted granted Critical
Publication of CN111726341B publication Critical patent/CN111726341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种数据检测方法、装置、电子设备及存储介质,涉及计算机技术领域。所述方法,包括:针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据;基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据;根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。取得了数据检测结果准确性的有益效果。

Description

一种数据检测方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据检测方法、装置、电子设备及存储介质。
背景技术
各行各业,各个领域,各个渠道,都需要有一系列的完整的风险控制,即风控,以保证事情向好的方向发展,以减少损失。这时候一套完备的风控***应运而生,以解决实际在业务中的各种难题。在风控***运行期间,监控***可以依据报警规则通过发送报警信息给相关人员实现一种监控行为,让技术人员及时参与,防患于未然。所以预警是风控***中应有的功能。
相关技术中,风控***中一般基于规则引擎进行监控预警。但是,规则引擎中的策略很难命中所有类型的异常数据,数据检测结果的准确性不足,而且,规则引擎的策略对数据采用硬指标报警,泛化性不够。
发明内容
本发明实施例提供一种数据检测方法、装置、电子设备及存储介质,以解决现有的风控***等相关技术中数据检测结果准确性不足且泛化性不够的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种数据检测方法,包括:
针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据;
基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据;
根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。
可选地,所述基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据的步骤,包括:
基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
可选地,所述基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据的步骤,包括:
基于每个所述单位时间段内的真实数据和预测数据,通过以下对比策略中的至少一种对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
其中,所述比对策略包括:
所述单位时间段内的数据差值的发展趋势,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略;
所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,所述N为正整数;
所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,所述M为正整数;
所述数据差值为同一单位时间内的真实数据与预测数据的差值。
可选地,所述获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据的步骤,包括:
针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列;
响应于所述数据序列满足正态分布,根据基于拉依达准则针对所述初始异常数据设置的阈值条件,获取所述候选异常数据;
响应于所述数据序列不满足正态分布,根据基于局部异常因子算法设置的阈值条件,获取所述候选异常数据。
可选地,所述根据历史时间数据获取每个单位时间段内的预测数据步骤,包括:
针对每个所述单位时间段,获取所述单位时间段对应的历史时间数据的时间序列特征;
根据所述时间序列特征,生成所述单位时间段对应的时间序列模型;
基于所述时间序列模型,获取所述单位时间段内的预测数据;
其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征,以及表征发散程度的非线性特征中的至少一种。
第二方面,本发明实施例另外提供了一种数据检测装置,包括:
数据预测模块,用于针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据;
候选数据获取模块,用于基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据;
异常数据获取模块,用于根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。
可选地,所述候选数据获取模块,包括:
初始数据获取子模块,用于基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
候选数据获取子模块,用于获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
可选地,所述初始数据获取子模块,还用于基于每个所述单位时间段内的真实数据和预测数据,通过以下对比策略中的至少一种对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
其中,所述比对策略包括:
所述单位时间段内的数据差值的发展趋势,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略;
所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,所述N为正整数;
所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,所述M为正整数;
所述数据差值为同一单位时间内的真实数据与预测数据的差值。
可选地,所述候选数据获取子模块,具体用于:
针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列;
响应于所述数据序列满足正态分布,根据基于拉依达准则针对所述初始异常数据设置的阈值条件,获取所述候选异常数据;
响应于所述数据序列不满足正态分布,根据基于局部异常因子算法设置的阈值条件,获取所述候选异常数据。
可选地,所述数据预测模块,包括:
数据特征获取子模块,用于针对每个所述单位时间段,获取所述单位时间段对应的历史时间数据的时间序列特征;
时间序列模型构建子模块,用于根据所述时间序列特征,生成所述单位时间段对应的时间序列模型;
数据预测子模块,用于基于所述时间序列模型,获取所述单位时间段内的预测数据;
其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征,以及表征发散程度的非线性特征中的至少一种。
第三方面,本发明实施例另外提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如前述的数据检测方法的步骤。
第四方面,本发明实施例另外提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的数据检测方法的步骤。
在本发明实施例中,通过每个单位时间段对应的历史时间数据预测单位时间段内的数据,基于真实数据以及预测数据选出候选异常数据,然后再对候选异常数据进行个性化智能检测,最终提高数据检测结果的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种数据检测方法的步骤流程图;
图2是本发明实施例中的另一种数据检测方法的步骤流程图;
图3是本发明实施例中的一种数据检测装置的结构示意图;
图4是本发明实施例中的另一种数据检测装置的结构示意图;
图5是本发明实施例中的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
详细介绍本发明实施例提供的一种数据检测方法。
参照图1,示出了本发明实施例中一种数据检测方法的步骤流程图。
步骤110,针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据。
步骤120,基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据。
步骤130,根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。
在相关的风险策略监控***中一般可以存在多种风险控制的指标,但是由于风险策略在不同的场景和时间内会有不同的周期及趋势,导致人工无法根据实际情况配置报警策略。例如,对于某一网络平台而言,风险策略监控包含其主站各业务线(例如黄页、房产、招聘、二手车等)不同策略下的拦截量、违规帖子发布拦截量、不同违规统计拦截量、微聊骚扰信息拦截量等风险控制的指标,但是人工很难准确且快速判断各项指标是否异常,而且人工的主观性较强且稳定性较差,容易影响结果的准确性。因此,在本发明实施例中,提出了一种基于历史数据进行实时预测并结合真实数据对异常数据智能识别的模型,能够在早期检测到数据异常,无论在维护监控数据一致性方面,还是在保护企业免受恶意攻击方面都发挥着非常关键的作用。
具体地,可以根据历史时间数据获取每个单位时间段内的预测数据。其中,单位时间段的具体时间长度可以根据需求进行自定义设置,对此本发明实施例不加以限定。例如,可以设置单位时间段为一天,那么每个单位时间段则可以理解为每天。而历史时间数据则可以为相对于每个单位时间段而言,在其之前产生的数据都可以为其对应的历史时间数据。但是一般而言,与单位时间段越接近的数据与相应单位时间段内数据的相关度越大,因此在本发明实施例中,针对每个单位时间段,可以取在其之前预设时间段内的真实数据,作为其历史时间数据以预测相应单位时间段内的预测数据。其中的预设时间段则可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以设置预设时间段为6个月、一周,等等。
另外,在实际应用中,数据可以分为多种类型,而且在不同的应用场景下,根据不同的检测需求,所需预测的数据类型可以有所不同。但是,历史时间数据所包含的数据维度应该与相应需要进行预测的预测数据的数据维度相同,或者是历史时间数据所包含的数据维度应该包含相应需要进行预测的预测数据的数据维度。
例如,假设在针对每天的访问量进行检测时,针对任一单位时间段(例如任意一天),预测数据则可以为相应单位时间段内的访问量的预测值,该单位时间段相应的历史时间数据则可以为在其之前预设时间段内每天真实的访问量。
针对任意一个单位时间段,在到达其所在时间之后,则可以获取相应单位时间段内的真实数据,那么在获取得到其预测数据以及真实数据之后,则可以进一步基于相应单位时间段内的真实数据和预测数据,获取候选异常数据。其中,异常数据需要满足的条件可以根据需求进行自定义设置,对此本发明实施例不加以限定。
例如,可以比较同一单位时间段内的真实数据和预测数据,如果真实数据与预测数据的差距超出预设阈值,则可以认定相应单位时间段内的真实数据为候选异常数据。
或者,也可以参照历史时间数据,通过比较该单位时间段的预测数据相对于历史时间数据的发展趋势与真实数据相对于历史时间数据的正常发展趋势、比较该单位时间段的预测数据与历史时间数据中的峰值、比较该单位时间段的预测数据与历史时间数据中的最低值、比较该单位时间段内以及其之前最近的N个单位时间段的预测数据的波动方差与其对应的历史时间数据的平均方差、比较该单位时间段内以及其之前最近的N个单位时间段的预测数据的发散程度与其对应的历史时间数据的平均发散程度;等等方式获取候选异常数据。
或者,也可以参照历史时间数据,基于每个所述单位时间段内的真实数据和预测数据,根据拉依达准则或者是局部异常因子算法,判断各个真实数据是否异常,进而从中获取候选异常数据;等等。
当然,在本发明实施例中,可以根据需求设置候选异常数据所需满足的条件,对此本发明实施例不加以限定。
但是上述获取候选异常数据的方式,主要是基于比较真实数据与预测数据,或者是基于真实数据和预测数据本身获取的相关属性参数进行比对,而在实际应用中,在某些特定时间段数据可能会出现一些正常的波动,但是基于历史时间数据进行预测则很难预测数据产生的波动。例如,对于网站访问量而言,如果网站在某一时间段打广告,或者是进行优惠活动,那么在相应时间段内相应网站的网站访问量会明显增高,但是此时如果基于历史时间数据针对相应时间段内的数网站访问量进行预测,很难准确预测其增高的情况,使得相应时间段的预测数据明显低于真实数据,从而将相应时间段内的真实数据误判为候选异常数据,影响数据检测结果的准确性。
因此,在本发明实施例中,在获取得到候选异常数据之后,为了避免数据误判,提高数据检测结果的准确性,则可以进一步根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。其中的过滤规则可以根据具体的应用场景进行自定义设置,对此本发明实施例不加以限定。例如,可以根据节假日等特定时间、不同业务下设置的运营活动等设置过滤规则。
而且,对于每条候选异常数据而言,如果其满足预设的过滤规则,则可以认定其不是异常数据,将其过滤掉,而如果其不满足预设的过滤规则,则可以认定其是异常数据。
例如,假设根据特定的节假日设置过滤规则为如果候选异常数据对应的单位时间段为预设节假日,则认定其为正常数据,否则可以认定相应候选异常数据为异常数据。
参照图2,在本发明实施例中,所述步骤120进一步可以包括:
步骤121,基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
步骤122,获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
在本发明实施例中,为了提高数据检测过程的效率,可以预先基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据,进一步对初始异常数据进行进一步检测,以获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
而且在异常检测过程中,异常数据所需满足的条件可以根据需求进行自定义设置,那么则可以根据每个单位时间段内的预测数据和真实数据,确认相应的真实数据是否为初始异常数据。
例如,在异常检测过程中,可以如上述比较同一单位时间段内的真实数据和预测数据,如果真实数据与预测数据的差距超出预设阈值,则可以认定相应单位时间段内的真实数据为初始异常数据。
或者,也可以参照历史时间数据,通过比较该单位时间段的预测数据相对于历史时间数据的发展趋势与真实数据相对于历史时间数据的正常发展趋势、比较该单位时间段的预测数据与历史时间数据中的峰值、比较该单位时间段的预测数据与历史时间数据中的最低值、比较该单位时间段内以及其之前最近的N个单位时间段的预测数据的波动方差与其对应的历史时间数据的平均方差、比较该单位时间段内以及其之前最近的N个单位时间段的预测数据的发散程度与其对应的历史时间数据的平均发散程度;等等方式获取初始异常数据。
例如,如果某一单位时间段的预测数据相对于历史时间数据的发展趋势与真实数据相对于历史时间数据的正常发展趋势相反,则可以认定相应单位时间段的真实数据为初始异常数据;或者,如果某一单位时间段的预测数据高于历史时间数据中的峰值,或相应单位时间段的预测数据低于历史时间数据中的最低值,则可以认定相应单位时间段的真实数据为初始异常数据;或者,如果某一单位时间段内以及其之前最近的N个单位时间段的预测数据的波动方差与其对应的历史时间数据的平均方差之间的差距超出预设的方差阈值,和/或相应单位时间段内以及其之前最近的N个单位时间段的预测数据的发散程度与其对应的历史时间数据的平均发散程度之间的差距超出预设的发散程度阈值,则可以认定相应单位时间段的真实数据为初始异常数据;等等。
另外,在本发明实施例中,为了方便获取以及记录初始异常数据,则可以预先构建一异常数据库,用于记录经异常检测得到的初始异常数据。
在获取得到初始异常数据之后,则可以进一步从各个初始异常数据中获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。而且此时由于初始异常数据均是一种真实数据,而不是预测数据,而且预测数据也是基于历史时间数据预测得到的,也即此时是基于真实产生的数据进行进一步判断,以获取最终的异常数据。
其中的阈值条件则可以根据需求以及具体的应用场景进行自定义设置,对此本发明实施例不加以限定。
例如,可以基于每个所述初始异常数据相对于其对应的真实数据的偏移程度设置阈值条件为获取偏移程度最大的L个初始异常数据即为最终的异常数据,等等。L的具体取值则可以根据需求进行自定义设置,对此本发明实施例不加以限定。
可选地,在本发明实施例中,所述步骤121进一步可以包括:基于每个所述单位时间段内的真实数据和预测数据,通过以下对比策略中的至少一种对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
其中,所述比对策略包括:
所述单位时间段内的数据差值的发展趋势,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略,所述数据差值为同一单位时间内的真实数据与预测数据的差值;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略;
所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,所述N为正整数;
所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,所述M为正整数。
其中,所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略,具体可以为如果单位时间段内的数据差值的发展趋势与其之前的预设时间段内的数据差值的发展趋势相同,则可以认为相应单位时间段内的真实数据通过该对比策略,否则认为相应单位时间段内的真实数据不通过相应对比策略;所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略,具体可以为如果单位时间段内的数据差值不高于其之前的预设时间段内的数据差值的峰值,则认为相应单位时间段内的真实数据通过该对比策略,否则认为相应单位时间段内的真实数据不通过该对比策略;所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略,具体可以为如果单位时间段内的数据差值不低于其之前的预设时间段内的数据差值的最低值,则认为相应单位时间段内的真实数据通过该对比策略,否则认为相应单位时间段内的真实数据不通过该对比策略;所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,具体为如果某一单位时间段及其之前最近的N个单位时间段的数据差值的平均方差与其之前的预设时间段内的数据差值的的平均方差之间的差值在预设方差阈值内,则可以认定相应单位时间段内的真实数据通过该对比策略,否则认为相应单位时间段内的真实数据不通过该对比策略;所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,具体可以为如果某一单位时间段内及其之前的近M个单位时间段的数据差值的发散程度与其之前的预设时间段内的数据差值的发散程度之间的差值在预设发散程度阈值内,则可以相应单位时间段内的真实数据通过该对比策略,否则认为相应单位时间段内的真实数据不通过该对比策略。
而且,如果通过多个对比策略中对每个所述单位时间段内的真实数据进行异常检测,那么需要某一单位时间内的真实数据同时满足全部进行异常检测的对比策略的情况下,确认相应单位时间内的真实数据不是初始异常数据,而如果某一单位时间段内的真实数据未通过相应地多个对比策略中的任意至少一个,则可以确认相应单位时间段内的真实数据为初始异常数据。
上述的N和M的具体取值均可以根据需求进行自定义设置,对此本发明实施例不加以限定。一般而言,M的取值需要保证任一单位时间段内及其之前最近的M个单位时间段的时间长度之和小于预设时间段,相应地N的取值需要保证任一单位时间段内及其之前最近的N个单位时间段的时间长度之和小于预设时间段。
其中,发散程度也可以称为发散度量(measure of dispersion),在本发明实施例中,可以通过任何可用方式表征发散程度,对此本发明实施例不加以限定。例如,可以通过四分位距(interquartile range,IQR)获取发散程度。四分位距,也被称为midspread、middle 50%、H-spread,它等于75th百分位数与25th百分位数的差值,也就是IQR=Q3-Q1,其中,对于长度为2n或者2n+1的数列而言,Q1就是n个最小数的中位数,也就是Q1在有序数列从小到大排序的25%位置。Q3就是n个最大数的中位数,也就是Q3在有序数列从小到大排序的75%的位置。IQR反映了数据的集中程度,IQR越小,表示数据越集中于中线附近,IQR越大,表示数据越发散于两端。或者,也可以通过四分位发散系数(quartile coefficient ofdispersion)表征发散程度,其的定义就是(Q3-Q1)/(Q3+Q1)。或者,也可以通过范围(range)表征发散程度,在统计学中,对于集合而言,它的最大值减去最小值的差值就是范围,该值越大,表示集合的最大值与最小值的差异越大,数据更加发散;该值越小,表示集合的最大值与最小值的差异越小,数据就更加集中;等等。
可选地,在本发明实施例中,所述步骤122进一步可以包括:
步骤1221,针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列;
步骤1222,响应于所述数据序列满足正态分布,根据基于拉依达准则针对所述初始异常数据设置的阈值条件,获取所述候选异常数据;
步骤1223,响应于所述数据序列不满足正态分布,根据基于局部异常因子算法设置的阈值条件,获取所述候选异常数据。
另外,在对初始异常数据进行再次筛选,以获取最终的异常数据。而且是,在本发明实施例中,为了尽量提高最终筛选得到的异常数据的准确性,则可以针对每个初始异常数据,分配不同的筛选方式。同时为了提高异常数据的检测效率,则可以针对每个所述初始异常数据,根据所述初始异常数据及其对应的历史时间数据,获取其分布形式,基于数据满足的分布形式采用不同的方法设置阈值条件。
具体地,可以针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列,进而检测每个初始异常数据的数据序列是否满足正态分布,对于满足正态分布的数据序列对应的初始异常数据,则可以基于拉依达准则设置其阈值条件,以判定其是否为候选异常数据;而对于不满足正态分布的数据序列对应的初始异常数据,则可以基于局部异常因子算法设置其阈值条件,以判定其是否为候选异常数据。
其中,拉依达准则也可以称为3σ准则。拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。其中,σ可以理解为数据序列的标准偏差。
假设某一数据序列中各个数据的算术平均值为μ,如果该数据序列对应的初始异常数据的取值在平均值的三个标准偏差之内,也即在(μ-3σ,μ+3σ)范围内,则认为该初始异常数据为正常值,否则可以认定其为含有粗大误差值的坏值,也即为候选异常值。此时的阈值条件可以为上述的(μ-3σ,μ+3σ)。
另外,在本发明实施例中,也可以自定义上述3σ为Kσ,相应地阈值条件则可以为(μ-Kσ,μ+Kσ),其中K的取值可以为自定义设置,例如为1、2、3等等。此时则可以根据所需的敏感度,测量给定的初始异常数据是否在K=2或1的对应的阈值条件之内。需要说明的是,此时,对于每个初始异常数据而言,均可以获取其对应的数据序列,而如果相应的数据序列满足正态分布,则可以基于上述方式设置相应初始异常数据的阈值条件,由于不同数据序列的σ和μ并不完全相同,因此不同初始异常数据对应的阈值条件也可以相应有所不同,对此本发明实施例不加以限定。
而对于不满足正态分布的数据序列而言,则无法通过上述的方式设置其相应的初始异常数据的阈值条件。那么此时则可以基于局部异常因子算法(Local Outlier Factor,LOF)设置阈值条件。具体地,针对全部不满足正态分布的数据序列对应的初始异常数据而言,可以基于LOF算法获取其偏差度量分布,然后获取其中密度最低的P个低密度区域,依次针对每个低密度区域进行识别,获取其中包含的初始异常数据即为候选异常数据。其中P的取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。此时的阈值条件则可以为上述的密度最低的P个低密度区域。
例如,可以通过LOF算法获取每个不满足正态分布的数据序列对应的初始异常数据的离群因子LOF,通过判断LOF是否接近于1来判定是否是离群因子。若LOF远大于1,则认为是离群点,也即为候选异常数据,而若LOF接近于1,则相应初始异常数据则不作为候选异常数据;等等。
参照图2,在本发明实施例中,所述步骤110进一步可以包括:
步骤111,针对每个所述单位时间段,获取所述单位时间段对应的历史时间数据的时间序列特征;其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征、非线性特征中的至少一种。
步骤112,根据所述时间序列特征,生成所述单位时间段对应的时间序列模型。
步骤113,基于所述时间序列模型,获取所述单位时间段内的预测数据。
在本发明实施例中,为了提高每次预测得到的预测数据的准确性,针对每个单位时间段,则可以获取相应单位时间段对应的历史时间数据的时间序列特征;其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征、非线性特征中的至少一种。进而可以根据所述时间序列特征,生成相应单位时间段对应的时间序列模型。从而则可以基于所述时间序列模型,获取相应单位时间段内的预测数据。
其中,在本发明实施例中,可以通过任何可用方法生成时间序列模型,对此本发明实施例不加以限定。例如,可以使用树模型(例如回归树模型)通过回归算法,创建时间序列模型用于预测下一单位时间段数据,等等。而且,对于不同的单位时间段而言,其对应的历史时间数据有所不同,那么模拟得到的时间序列模型也可以有所不同。另外,在本发明实施例中,可以通过任何可用方式获取上述时间序列特征,对此本发明实施例不加以限定。
例如,可以在离线阶段对历史时间数据进行特征分解,然后对分解得到的时间序列特征进行建模拟合,得到模拟产生的时间序列模型,另外还可以将模拟得到的时间序列模型存储到预设的预测模型数据库,以方便后续使用。
周期特征可以为表征数据周期相关的任何特征数据,例如历史时间数据是否为周期性变化的数据,历史时间数据的变化周期等等;趋势特征可以为表征数据变化趋势相关的任何特征数据,例如变化趋势类型,变化趋势的变化周期,等等;季节性特征可以为表征数据季节性变化相关的任何特征数据,例如不同季节的数据变化情况,等等;自相关特征可以为表征不同时间段的数据之间的相关性特征,例如可以通过自相关函数(autocorrelation function,ACF)获取自相关特征,等等;偏度特征也可以理解为偏度系数,是描述分布偏离对称性程度的一个特征数,使用不同的计量单位时,偏度系数的计算公式可以是不同的,具体可以根据需求进行自定义设置,对此本发明实施例不加以限定;峰度特征也可以理解为峰度系数,峰度系数(Kurtosis)是用来反映频数分布曲线顶端尖峭或扁平程度的指标,峰度系数用来度量数据在中心聚集程度;非线性特征则可以为任意一种非线性表示的特征数据,例如表征数据发散程度的特征数据,等等。
本发明从历史时间数据中提取时间序列的周期、趋势、季节性、自相关等多维特征,采用机器学习的方法拟合时间序列模型,根据模型预测下一单位时间段数据,采取统一的异常检测算法抛出候选异常数据,然后再对候选异常数据进行个性化智能检测报警,最终保证警报的准确率。
而且,相比于基于规则引擎的监控预警,基于预测模型和异常检测的风控智能预警能够对所有业务线的监控数据进行智能报警,并且能预测出各个场景的未来数据值,并且可以根据预测值对***(例如风险策略)进行动态调整,也可以根据业务要求对异常数据进行报警等,具有较多的落地场景。
参照图3,示出了本发明实施例中一种数据检测装置的结构示意图。
本发明实施例的数据检测装置包括:数据预测模块210、候选数据获取模块220和异常数据获取模块230。
下面分别详细介绍各模块的功能以及各模块之间的交互关系。
数据预测模块210,用于针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据;
候选数据获取模块220,用于基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据;
异常数据获取模块230,用于根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。
参照图4,在本发明实施例中,所述所述候选数据获取模块220,进一步可以包括:
初始数据获取子模块221,用于基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
候选数据获取子模块222,用于获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
可选地,在本发明实施例中,所述初始数据获取子模块,还用于基于每个所述单位时间段内的真实数据和预测数据,通过以下对比策略中的至少一种对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
其中,所述比对策略包括:
所述单位时间段内的数据差值的发展趋势,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略;
所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,所述N为正整数;
所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,所述M为正整数;
所述数据差值为同一单位时间内的真实数据与预测数据的差值。
可选地,在本发明实施例中,所述候选数据获取子模块,具体用于:
针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列;
响应于所述数据序列满足正态分布,根据基于拉依达准则针对所述初始异常数据设置的阈值条件,获取所述候选异常数据;
响应于所述数据序列不满足正态分布,根据基于局部异常因子算法设置的阈值条件,获取所述候选异常数据。
参照图4,在本发明实施例中,所述数据预测模块210,进一步可以包括:
数据特征获取子模块211,用于针对每个所述单位时间段,获取所述单位时间段对应的历史时间数据的时间序列特征;其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征,以及表征发散程度的非线性特征中的至少一种。
时间序列模型构建子模块212,用于根据所述时间序列特征,生成所述单位时间段对应的时间序列模型。
数据预测子模块213,用于基于所述时间序列模型,获取所述单位时间段内的预测数据。
本发明实施例提供的数据检测装置能够实现图1至图2的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
图5为实现本发明各个实施例的一种电子设备的硬件结构示意图。
该电子设备300包括但不限于:射频单元301、网络模块302、音频输出单元303、输入单元304、传感器305、显示单元306、用户输入单元307、接口单元308、存储器309、处理器310、以及电源311等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
应理解的是,本发明实施例中,射频单元301可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器310处理;另外,将上行的数据发送给基站。通常,射频单元301包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元301还可以通过无线通信***与网络和其他设备通信。
电子设备通过网络模块302为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元303可以将射频单元301或网络模块302接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元303还可以提供与电子设备300执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元303包括扬声器、蜂鸣器以及受话器等。
输入单元304用于接收音频或视频信号。输入单元304可以包括图形处理器(Graphics Processing Unit,GPU)3041和麦克风3042,图形处理器3041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元306上。经图形处理器3041处理后的图像帧可以存储在存储器309(或其它存储介质)中或者经由射频单元301或网络模块302进行发送。麦克风3042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元301发送到移动通信基站的格式输出。
电子设备300还包括至少一种传感器305,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板3061的亮度,接近传感器可在电子设备300移动到耳边时,关闭显示面板3061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器305还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元306用于显示由用户输入的信息或提供给用户的信息。显示单元306可包括显示面板3061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板3061。
用户输入单元307可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元307包括触控面板3071以及其他输入设备3072。触控面板3071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板3071上或在触控面板3071附近的操作)。触控面板3071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器310,接收处理器310发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板3071。除了触控面板3071,用户输入单元307还可以包括其他输入设备3072。具体地,其他输入设备3072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板3071可覆盖在显示面板3061上,当触控面板3071检测到在其上或附近的触摸操作后,传送给处理器310以确定触摸事件的类型,随后处理器310根据触摸事件的类型在显示面板3061上提供相应的视觉输出。虽然在图5中,触控面板3071与显示面板3061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板3071与显示面板3061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元308为外部装置与电子设备300连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元308可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备300内的一个或多个元件或者可以用于在电子设备300和外部装置之间传输数据。
存储器309可用于存储软件程序以及各种数据。存储器309可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器309可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器310是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器309内的软件程序和/或模块,以及调用存储在存储器309内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器310可包括一个或多个处理单元;优选的,处理器310可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器310中。
电子设备300还可以包括给各个部件供电的电源311(比如电池),优选的,电源311可以通过电源管理***与处理器310逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
另外,电子设备300包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供了一种电子设备,包括:处理器310,存储器309,存储在存储器309上并可在处理器310上运行的计算机程序,该计算机程序被处理器310执行时实现上述数据检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述数据检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种数据检测方法,其特征在于,包括:
针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据;
基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据;
根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据的步骤,包括:
基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
3.根据权利要求2所述的方法,其特征在于,所述基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据的步骤,包括:
基于每个所述单位时间段内的真实数据和预测数据,通过以下对比策略中的至少一种对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
其中,所述比对策略包括:
所述单位时间段内的数据差值的发展趋势,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略;
所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,所述N为正整数;
所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,所述M为正整数;
所述数据差值为同一单位时间内的真实数据与预测数据的差值。
4.根据权利要求2或3所述的方法,其特征在于,所述获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据的步骤,包括:
针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列;
响应于所述数据序列满足正态分布,根据基于拉依达准则针对所述初始异常数据设置的阈值条件,获取所述候选异常数据;
响应于所述数据序列不满足正态分布,根据基于局部异常因子算法设置的阈值条件,获取所述候选异常数据。
5.根据权利要求1所述的方法,其特征在于,所述根据历史时间数据获取每个单位时间段内的预测数据步骤,包括:
针对每个所述单位时间段,获取所述单位时间段对应的历史时间数据的时间序列特征;
根据所述时间序列特征,生成所述单位时间段对应的时间序列模型;
基于所述时间序列模型,获取所述单位时间段内的预测数据;
其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征,以及表征发散程度的非线性特征中的至少一种。
6.一种数据检测装置,其特征在于,包括:
数据预测模块,用于针对任意一个单位时间段,根据所述单位时间段对应的历史时间数据,获取所述单位时间段内的预测数据,所述历史时间数据为所述单位时间段之前预设时间段内的真实数据;
候选数据获取模块,用于基于每个所述单位时间段内的真实数据和预测数据,获取候选异常数据;
异常数据获取模块,用于根据预设的过滤规则,从所述候选异常数据中获取得到最终的异常数据。
7.根据权利要求6所述的装置,其特征在于,所述候选数据获取模块,包括:
初始数据获取子模块,用于基于每个所述单位时间段内的真实数据和预测数据,对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
候选数据获取子模块,用于获取满足预设的阈值条件的初始异常数据,作为所述候选异常数据。
8.根据权利要求7所述的装置,其特征在于,所述初始数据获取子模块,还用于基于每个所述单位时间段内的真实数据和预测数据,通过以下对比策略中的至少一种对每个所述单位时间段内的真实数据进行异常检测,获取初始异常数据;
其中,所述比对策略包括:
所述单位时间段内的数据差值的发展趋势,相对于所述单位时间段之前的预设时间段内的数据差值的发展趋势的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的峰值的对比策略;
所述单位时间段内的数据差值,相对于所述单位时间段之前的预设时间段内的数据差值的最低值的对比策略;
所述单位时间段内及其之前最近的N个单位时间段的数据差值的平均方差,相对于所述单位时间段之前的预设时间段内的数据差值的平均方差的对比策略,所述N为正整数;
所述单位时间段内及其之前的近M个单位时间段的数据差值的发散程度,相对于所述单位时间段之前的预设时间段内的数据差值的发散程度的对比策略,所述M为正整数;
所述数据差值为同一单位时间内的真实数据与预测数据的差值。
9.根据权利要求7或8所述的装置,其特征在于,所述候选数据获取子模块,具体用于:
针对每个所述初始异常数据,按照时间顺序对所述初始异常数据对应的历史时间数据、以及所述初始异常数据进行排序,得到数据序列;
响应于所述数据序列满足正态分布,根据基于拉依达准则针对所述初始异常数据设置的阈值条件,获取所述候选异常数据;
响应于所述数据序列不满足正态分布,根据基于局部异常因子算法设置的阈值条件,获取所述候选异常数据。
10.根据权利要求6所述的装置,其特征在于,所述数据预测模块,包括:
数据特征获取子模块,用于针对每个所述单位时间段,获取所述单位时间段对应的历史时间数据的时间序列特征;
时间序列模型构建子模块,用于根据所述时间序列特征,生成所述单位时间段对应的时间序列模型;
数据预测子模块,用于基于所述时间序列模型,获取所述单位时间段内的预测数据;
其中,所述时间序列特征包括周期特征、趋势特征、季节性特征、自相关特征、偏度特征、峰度特征,以及表征发散程度的非线性特征中的至少一种。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的数据检测方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的数据检测方法的步骤。
CN202010491155.5A 2020-06-02 2020-06-02 一种数据检测方法、装置、电子设备及存储介质 Active CN111726341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010491155.5A CN111726341B (zh) 2020-06-02 2020-06-02 一种数据检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010491155.5A CN111726341B (zh) 2020-06-02 2020-06-02 一种数据检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111726341A true CN111726341A (zh) 2020-09-29
CN111726341B CN111726341B (zh) 2022-10-14

Family

ID=72565550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010491155.5A Active CN111726341B (zh) 2020-06-02 2020-06-02 一种数据检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111726341B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328789A (zh) * 2020-11-06 2021-02-05 广州笑脸教育科技有限公司 一种基于区块链的数据处理方法及***
CN112732693A (zh) * 2021-01-18 2021-04-30 深圳市宇航智造技术有限公司 智能化物联网数据采集方法、装置、设备及存储介质
CN112925950A (zh) * 2021-01-27 2021-06-08 中国人民大学 一种面向连续星表数据的数据质量控制方法及***
CN113094408A (zh) * 2021-03-19 2021-07-09 深圳力维智联技术有限公司 基于鸽群的空气质量监测方法、装置及计算机存储介质
CN113342502A (zh) * 2021-06-30 2021-09-03 招商局金融科技有限公司 数据湖的性能诊断方法、装置、计算机设备及存储介质
CN113965805A (zh) * 2021-10-22 2022-01-21 北京达佳互联信息技术有限公司 预测模型的训练方法及装置和目标视频剪辑方法及装置
CN116582702A (zh) * 2023-07-11 2023-08-11 成都工业职业技术学院 一种基于大数据的网络视频播放量预测方法、***及介质

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055477A1 (en) * 2005-09-02 2007-03-08 Microsoft Corporation Web data outlier detection and mitigation
US20100030544A1 (en) * 2008-07-31 2010-02-04 Mazu Networks, Inc. Detecting Outliers in Network Traffic Time Series
CN104486353A (zh) * 2014-12-26 2015-04-01 北京神州绿盟信息安全科技股份有限公司 一种基于流量的安全事件检测方法及装置
CN106612202A (zh) * 2015-10-27 2017-05-03 网易(杭州)网络有限公司 一种网游渠道刷量的预估判别方法及***
CN107222780A (zh) * 2017-06-23 2017-09-29 中国地质大学(武汉) 一种直播平台综合状态感知和内容实时监管方法及***
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和***
CN108667856A (zh) * 2018-08-10 2018-10-16 广东电网有限责任公司 一种网络异常检测方法、装置、设备及存储介质
US20180337836A1 (en) * 2011-11-07 2018-11-22 Netflow Logic Corporation Method and system for confident anomaly detection in computer network traffic
CN108920336A (zh) * 2018-05-25 2018-11-30 麒麟合盛网络技术股份有限公司 一种基于时间序列的服务异常提醒方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109560984A (zh) * 2018-11-13 2019-04-02 苏宁易购集团股份有限公司 一种网络服务响应时间异常检测方法及装置
CN109587008A (zh) * 2018-12-28 2019-04-05 华为技术服务有限公司 检测异常流量数据的方法、装置及存储介质
CN109800483A (zh) * 2018-12-29 2019-05-24 北京城市网邻信息技术有限公司 一种预测方法、装置、电子设备和计算机可读存储介质
CN109902265A (zh) * 2019-02-28 2019-06-18 西南石油大学 一种基于隐马尔可夫模型的井下预警方法
CN110032670A (zh) * 2019-04-17 2019-07-19 腾讯科技(深圳)有限公司 时序数据的异常检测方法、装置、设备及存储介质
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质
CN110210508A (zh) * 2018-12-06 2019-09-06 北京奇艺世纪科技有限公司 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
CN110286656A (zh) * 2019-05-07 2019-09-27 清华大学 一种错误数据容忍的虚警过滤方法和装置
CN110377447A (zh) * 2019-07-17 2019-10-25 腾讯科技(深圳)有限公司 一种异常数据检测方法、装置及服务器
US20190369570A1 (en) * 2018-05-30 2019-12-05 Mitsubishi Electric Us, Inc. System and method for automatically detecting anomalies in a power-usage data set
CN110808962A (zh) * 2019-10-17 2020-02-18 奇安信科技集团股份有限公司 一种畸形数据包检测方法及装置
US20200110689A1 (en) * 2018-10-08 2020-04-09 Acer Cyber Security Incorporated Method and device for detecting abnormal operation of operating system
CN111130940A (zh) * 2019-12-26 2020-05-08 众安信息技术服务有限公司 异常数据检测方法、装置及服务器
CN111143169A (zh) * 2019-12-30 2020-05-12 杭州迪普科技股份有限公司 异常参数检测方法及装置、电子设备、存储介质

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055477A1 (en) * 2005-09-02 2007-03-08 Microsoft Corporation Web data outlier detection and mitigation
US20100030544A1 (en) * 2008-07-31 2010-02-04 Mazu Networks, Inc. Detecting Outliers in Network Traffic Time Series
US20180337836A1 (en) * 2011-11-07 2018-11-22 Netflow Logic Corporation Method and system for confident anomaly detection in computer network traffic
CN104486353A (zh) * 2014-12-26 2015-04-01 北京神州绿盟信息安全科技股份有限公司 一种基于流量的安全事件检测方法及装置
CN106612202A (zh) * 2015-10-27 2017-05-03 网易(杭州)网络有限公司 一种网游渠道刷量的预估判别方法及***
CN107222780A (zh) * 2017-06-23 2017-09-29 中国地质大学(武汉) 一种直播平台综合状态感知和内容实时监管方法及***
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和***
CN108920336A (zh) * 2018-05-25 2018-11-30 麒麟合盛网络技术股份有限公司 一种基于时间序列的服务异常提醒方法及装置
US20190369570A1 (en) * 2018-05-30 2019-12-05 Mitsubishi Electric Us, Inc. System and method for automatically detecting anomalies in a power-usage data set
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN108667856A (zh) * 2018-08-10 2018-10-16 广东电网有限责任公司 一种网络异常检测方法、装置、设备及存储介质
US20200110689A1 (en) * 2018-10-08 2020-04-09 Acer Cyber Security Incorporated Method and device for detecting abnormal operation of operating system
CN109560984A (zh) * 2018-11-13 2019-04-02 苏宁易购集团股份有限公司 一种网络服务响应时间异常检测方法及装置
CN110210508A (zh) * 2018-12-06 2019-09-06 北京奇艺世纪科技有限公司 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
CN109587008A (zh) * 2018-12-28 2019-04-05 华为技术服务有限公司 检测异常流量数据的方法、装置及存储介质
CN109800483A (zh) * 2018-12-29 2019-05-24 北京城市网邻信息技术有限公司 一种预测方法、装置、电子设备和计算机可读存储介质
CN109902265A (zh) * 2019-02-28 2019-06-18 西南石油大学 一种基于隐马尔可夫模型的井下预警方法
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质
CN110032670A (zh) * 2019-04-17 2019-07-19 腾讯科技(深圳)有限公司 时序数据的异常检测方法、装置、设备及存储介质
CN110286656A (zh) * 2019-05-07 2019-09-27 清华大学 一种错误数据容忍的虚警过滤方法和装置
CN110377447A (zh) * 2019-07-17 2019-10-25 腾讯科技(深圳)有限公司 一种异常数据检测方法、装置及服务器
CN110808962A (zh) * 2019-10-17 2020-02-18 奇安信科技集团股份有限公司 一种畸形数据包检测方法及装置
CN111130940A (zh) * 2019-12-26 2020-05-08 众安信息技术服务有限公司 异常数据检测方法、装置及服务器
CN111143169A (zh) * 2019-12-30 2020-05-12 杭州迪普科技股份有限公司 异常参数检测方法及装置、电子设备、存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328789A (zh) * 2020-11-06 2021-02-05 广州笑脸教育科技有限公司 一种基于区块链的数据处理方法及***
CN112732693A (zh) * 2021-01-18 2021-04-30 深圳市宇航智造技术有限公司 智能化物联网数据采集方法、装置、设备及存储介质
CN112732693B (zh) * 2021-01-18 2021-08-17 深圳市宇航智造技术有限公司 智能化物联网数据采集方法、装置、设备及存储介质
CN112925950A (zh) * 2021-01-27 2021-06-08 中国人民大学 一种面向连续星表数据的数据质量控制方法及***
CN113094408A (zh) * 2021-03-19 2021-07-09 深圳力维智联技术有限公司 基于鸽群的空气质量监测方法、装置及计算机存储介质
CN113094408B (zh) * 2021-03-19 2024-06-07 深圳力维智联技术有限公司 基于鸽群的空气质量监测方法、装置及计算机存储介质
CN113342502A (zh) * 2021-06-30 2021-09-03 招商局金融科技有限公司 数据湖的性能诊断方法、装置、计算机设备及存储介质
CN113965805A (zh) * 2021-10-22 2022-01-21 北京达佳互联信息技术有限公司 预测模型的训练方法及装置和目标视频剪辑方法及装置
CN116582702A (zh) * 2023-07-11 2023-08-11 成都工业职业技术学院 一种基于大数据的网络视频播放量预测方法、***及介质
CN116582702B (zh) * 2023-07-11 2023-09-15 成都工业职业技术学院 一种基于大数据的网络视频播放量预测方法、***及介质

Also Published As

Publication number Publication date
CN111726341B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN111726341B (zh) 一种数据检测方法、装置、电子设备及存储介质
US11405268B2 (en) Fine grained network management to edge device features
EP3644219A1 (en) Human face feature point tracking method, device, storage medium and apparatus
KR20200085490A (ko) 신경망 모델을 이용한 센서 이상 감지를 위한 서비스 제공 시스템 및 방법, 그리고 컴퓨터 프로그램이 기록된 비휘발성 기록매체
CN111614634B (zh) 流量检测方法、装置、设备及存储介质
CN110659179B (zh) 一种评估***运行状况的方法、装置及电子设备
CN109154965A (zh) 用于使用3d抽象建模的离散时间参考中的威胁事件证实的***和方法
CN115145788A (zh) 一种针对智能运维***的检测数据生成方法和装置
CN111753520A (zh) 一种风险预测方法、装置、电子设备及存储介质
CN112256732B (zh) 一种异常检测方法、装置、电子设备及存储介质
CN112256748B (zh) 一种异常检测方法、装置、电子设备及存储介质
CN113836241B (zh) 时序数据分类预测方法、装置、终端设备及存储介质
CN113052198A (zh) 一种数据处理方法、装置、设备及存储介质
CN116227917A (zh) 建筑防汛风险的处理方法、装置、电子设备及存储介质
CN114581230A (zh) 流式图中的洗钱行为检测方法、装置、介质
CN113360908A (zh) 数据处理方法、违规识别模型训练方法及相关设备
CN113128693B (zh) 一种信息处理方法、装置、设备及存储介质
CN111818548A (zh) 一种数据的处理方法、装置及设备
CN116128689A (zh) 一种监测模型建立方法、装置、电子设备及存储介质
US20230421639A1 (en) Fine grained network management to edge device features
CN113128693A (zh) 一种信息处理方法、装置、设备及存储介质
CN118283177A (zh) 异常号码的识别方法、装置、电子设备及存储介质
CN116155754A (zh) 风险预测模型的生成方法、装置、电子设备及存储介质
CN118013416A (zh) 风险操作的检测方法、装置、电子设备及存储介质
CN116227325A (zh) 基于神经元模型的电器故障预测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant