CN109726068A - 一种数据检测方法及装置 - Google Patents
一种数据检测方法及装置 Download PDFInfo
- Publication number
- CN109726068A CN109726068A CN201711045508.3A CN201711045508A CN109726068A CN 109726068 A CN109726068 A CN 109726068A CN 201711045508 A CN201711045508 A CN 201711045508A CN 109726068 A CN109726068 A CN 109726068A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- report
- data detection
- table item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Automatic Analysis And Handling Materials Therefor (AREA)
Abstract
本申请公开一种数据检测方法及装置,该方法包括:首先确定待检测报表,然后,获取为所述待检测报表设置的数据检测范围,并获取为所述数据检测范围设置的检测指标,这样便可以根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,即可以确定所述数据检测范围内存在异常数据,从而可以输出异常检测结果。可见,本申请可以实现自动数据检测,不但降低了人力成本,还能够及时、准确地发现异常数据。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据检测方法及装置。
背景技术
报表导出即为将***生成的报表数据导出为excel表格或其它形式的文件。但是,用户一般只关心报表数据是否能够成功导出,对于导出的报表数据的准确性把控和关注度还不够。
目前,当导出报表数据后,只是由人工对报表数据做一个判断,即判断报表数据是否异常,但是,这种人工判断方式不但耗费较多的人力,还无法及时、准确地发现异常数据。
发明内容
鉴于上述问题,本申请提供了一种数据检测方法及装置,能够及时、准确地发现异常数据。
本申请提供了一种数据检测方法,所述方法包括:
确定待检测报表;
获取为所述待检测报表设置的数据检测范围;
获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件;
根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据;
若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
可选的,所述获取为所述数据检测范围设置的检测指标,包括:
获取用户为所述数据检测范围设置的检测指标。
可选的,当所述数据检测范围包括至少一个表项的表项数据时,所述检测指标包括每一表项对应的指标集合,所述指标集合包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项;
则,所述根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,包括:
若所述指标集合包括所述最大阈值,则检测对应表项数据中是否存在大于所述最大阈值的数据;
若所述指标集合包括所述最小阈值,则检测对应表项数据中是否存在小于所述最小阈值的数据;
若所述指标集合包括所述平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在所述平均值范围内;
若所述指标集合包括所述数据占比阈值,则计算对应表项数据中处于所述最大阈值与所述最小阈值之间的数据量,计算所述数据量在对应表项数据中的占比,并检测所述占比是否低于所述数据占比阈值;
相应地,所述若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,包括:
若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
可选的,所述获取为所述数据检测范围设置的检测指标,包括:
获取至少一份目标样本报表,所述目标样本报表为正常报表、且所述目标样本报表中存在所述数据检测范围内的每一表项;
利用所述至少一份目标样本报表为所述数据检测范围设置检测指标。
可选的,所述方法还包括:
建立样本报表库,所述样本报表库包括至少一份样本报表;
则,所述获取至少一份目标样本报表,包括:
判断所述样本报表库中的目标样本报表是否达到第一预设数量;
若是,则从所述样本报表库中选取所述第一预设数量的目标样本报表;
若否,则从所述样本报表库中选取所有目标样本报表。
可选的,所述利用所述至少一份目标样本报表为所述数据检测范围设置检测指标,包括:
当所述数据检测范围包括至少一个表项的表项数据时,为所述数据检测范围设置检测指标,所述检测指标包括每一表项对应的指标集合,所述指标集合包括每一目标样本报表关于对应表项的最大阈值、最小阈值、平均值范围、以及样本数据范围中的一个或多个指标项;
其中,所述最大阈值为对应表项的样本数据中的最大值,所述最小阈值为对应表项的样本数据中的最小值,所述平均值范围为包括对应表项的样本数据的平均值在内的数值范围,所述样本数据范围为所述最大值与所述最小值之间的数值范围,所述样本数据为所述对应表项的全部或部分数据。
可选的,所述根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,包括:
对于所述数据检测范围内的每一表项,若对应表项的指标集合包括每一目标样本报表对应的最大阈值,则检测对应表项数据中是否存在大于第二预设数量的最大阈值的数据;
若对应表项的指标集合包括每一目标样本报表对应的最小阈值,则检测对应表项数据中是否存在小于第三预设数量的最小阈值的数据;
若对应表项的指标集合包括每一目标样本报表对应的平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在第四预设数量的平均值范围内;
若对应表项的指标集合包括每一目标样本报表对应的样本数据范围,则计算对应表项数据所在的数据范围,并检测所述数据范围是否在第五预设数量的样本数据范围内;
其中,所述第二预设数量、所述第三预设数量、所述第四预设数量、所述第五预设数量均小于所述目标样本报表的总数量;
相应地,所述若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,包括:
若存在检测结果为否的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
本申请还提供了一种一种数据检测装置,所述装置包括:
待检报表确定单元,用于确定待检测报表;
检测范围获取单元,用于获取为所述待检测报表设置的数据检测范围;
检测指标获取单元,用于获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件;
异常数据检测单元,用于根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据;
检测结果输出单元,用于若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
本申请还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任一项所述的方法。
本申请还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任一项所述的方法。
借由上述技术方案,本申请提供的一种数据检测方法及装置中,首先确定待检测报表,然后,获取为所述待检测报表设置的数据检测范围,并获取为所述数据检测范围设置的检测指标,这样便可以根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,即可以确定所述数据检测范围内存在异常数据,从而可以输出异常检测结果。可见,本申请可以实现自动数据检测,不但降低了人力成本,还能够及时、准确地发现异常数据。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的数据检测方法的流程示意图之一;
图2示出了本申请实施例提供的数据检测方法的流程示意图之二;
图3示出了本申请实施例提供的广告报表示意图;
图4示出了本申请实施例提供的数据检测方法的流程示意图之三;
图5示出了本申请实施例提供的数据检测装置的组成示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请提供的一种数据检测方法,对于一个待检测报表,在检测该报表数据是否异常之前,需要预先为其配置数据检测规则,这样,检测装置可以基于人工设置或***自动设置的检测指标,使用该检测指标对应的数据检测规则对报表数据进行检测,当数据存在异常时,可以输出异常检测结果。可见,本申请可以自动进行数据检测,不但降低了人力成本,还能够及时、准确地发现异常数据。
实施例一
参见图1,为本实施例一提供的一种数据检测方法的流程示意图,该方法包括以下步骤:
S101:确定待检测报表。
所述待检测报表可以是当前导出的报表,也可以是从某个存储位置调取的报表,本实施例不限定所述待检测报表的获取方式。
S102:获取为所述待检测报表设置的数据检测范围。
关于所述数据检测范围,可以由用户设置,具体来讲,由于用户可能只想对所述待检测报表中的部分数据进行异常检测,因此,用户可以选择待检测报表中需要被检测的数据,比如选择这些数据对应的行和列,这些行和列组成的数据集合即为本次的数据检测范围。当然,如果用户不进行相应设置,检测装置默认所述待检测报表中的全部数据为本次的数据检测范围。
S103:获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件。
需要说明的是,在进行数据检测之前,需要为所述数据检测范围设置检测指标,从而可以确定为所述检测指标配置的检测规则和异常判定条件,其中,所述检测规则是指具体的数据检测方式,所述异常判定条件是指什么样的检测结果属于异常检测结果。这样,后续步骤S104便可以采用所述检测指标对应的检测规则进行数据检测,得到检测结果,且后续步骤S105可以进一步采用所述检测指标对应的异常判定条件确定该检测结果是否属于异常检测结果。
所述检测指标可以由用户设置、也可以由检测装置自动设置,在后续实施例二和实施例三中,将分别对用户设置方式与自动设置方式进行具体介绍。
S104:根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据。
在本实施例中,由于所述待检测报表可能涉及一个或多个表项(比如表中的各个列表项和/或各个行表项),那么,所述数据检测范围也可能涉及一个或多个表项,因此,可以针对这些表项进行数据检测。具体地,对于其中的列表项和/或行表项,为每一表项设置检测指标,具体可以为每一表项设置一个或多个指标项,从而可以利用每一指标项对应的检测规则对该表项进行数据检测,以判断该表项数据关于每个指标项是否异常。
S105:若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
所述数据检测范围内的每一表项将对应一个或多个指标项,而每一指标项均对应一异常判定条件。例如,假设为某表项设置的一个指标项为最大阈值,在对该表项数据进行检测后,如果该表项数据中存在大于所述最大阈值的数据,则认为其满足异常判定条件,进而确定这些大于所述最大阈值的数据为异常数据。
在输出异常检测结果时,可以采用多种形式,比如,只说明某表项数据是异常的,或者进一步说明某表项数据中哪些数据是异常的,等等,本实施例不对异常检测结果的输出内容进行限定。
此外,当数据存在异常时,还可以进行数据报警,比如采用发送邮件等方式提示报表所有者进行数据检查,使报表所有者重点关注该报表。
本实施例提供的一种数据检测方法,首先确定待检测报表,然后,获取为所述待检测报表设置的数据检测范围,并获取为所述数据检测范围设置的检测指标,这样便可以根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,即可以确定所述数据检测范围内存在异常数据,从而可以输出异常检测结果。可见,本申请可以实现自动数据检测,不但降低了人力成本,还能够及时、准确地发现异常数据。
实施例二
本实施例二是由用户设置检测指标,并基于用户设置的检测指标对数据进行检测,下面进行具体介绍。
参见图2,为本实施例二提供的一种数据检测方法的流程示意图,该方法包括以下步骤:
S201:确定待检测报表。
S202:获取为所述待检测报表设置的数据检测范围。
需要说明的是,步骤S201-S202与上述实施例一中的S101-S102一致,相关内容请参见实施例一,在此不再赘述。
S203:获取用户为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件。
关于所述检测指标,可以由用户设置,具体来讲,检测装置上安装的应用软件,可以为用户提供指标选项和/或指标输入框等指标设置方式,用户可以采用其中一种方式,在应用软件提供的设置界面上为所述数据检测范围设置检测指标。
需要说明的是,所述待检测报表中可能存在多个表项,比如图3所示的广告报表示意图,该广告报表存在“展现量”、“点击量”和“购买量”这3个列表项,同时存在第1天、第2天……第7天这7个行表项。因此,在通过S202设定所述数据检测范围时,实际需要设置哪些表项需要被检测,而这些表项对应的表项数据即为需要被检测的数据。
需要说明的是,本实施例后续提及的“表项”均是所述数据检测范围内需要被检测的表项。
在本申请的一种实施方式中,当所述数据检测范围包括至少一个表项的表项数据时,所述检测指标可以包括每一表项对应的指标集合,所述指标集合可以包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项。
在本实施方式中,如果所述数据检测范围涉及一个或多个待检测的表项,可以为每一表项设置一个或多个指标项,不同表项对应的指标项可以相同也可以不同。例如,如图3所示,假设所述数据检测范围涉及两个待检测的表项,分别为“展现量”和“点击量”,可以分别为“展现量”和“点击量”设置检测指标,“展现量”的检测指标可以包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项,“点击量”的检测指标也可以包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项。
关于“所述检测指标所对应的检测规则和异常判定条件”的相关介绍,请参见实施例一,在此不再赘述。
S204:根据所述数据检测范围内每一表项对应的指标集合,对对应表项的表项数据进行检测。
如前所述,对于所述数据检测范围内的每一表项,由于该表项的指标集合可能包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项,因此,对于任一指标项,可以按照以下方式对该表项的表项数据进行检测,下面结合图3所示的“点击量”这一表项为例进行具体介绍。
1、若所述指标集合包括所述最大阈值,则检测对应表项数据中是否存在大于所述最大阈值的数据。
以图3所示“点击量”这一表项为例,检测7个点击数据中是否存在大于所述最大阈值的数据,比如2个点击数据大于所述最大阈值,则说明数据超范围,这2个点击数据为异常数据。
2、若所述指标集合包括所述最小阈值,则检测对应表项数据中是否存在小于所述最小阈值的数据。
以图3所示“点击量”这一表项为例,检测7个点击数据中是否存在小于所述最小阈值的数据,比如1个点击数据小于所述最小阈值,则说明数据超范围,这1个点击数据为异常数据。
3、若所述指标集合包括所述平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在所述平均值范围内。
以图3所示“点击量”这一表项为例,计算7个点击数据的平均值,如果该平均值不在所述平均值范围内,则说明点击数据的平均值偏低或偏高。
4、若所述指标集合包括所述数据占比阈值,则计算对应表项数据中处于所述最大阈值与所述最小阈值之间的数据量,计算所述数据量在对应表项数据中的占比,并检测所述占比是否低于所述数据占比阈值。
以图3所示“点击量”这一表项为例,统计7个点击数据中几个数据处于所述最大阈值与所述最小阈值之间,比如5个点击数据,那么,检测5/7是否低于所述数据占比阈值(比如5/6),如果低于,说明异常点击数据较多。
S205:若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
由于所述数据检测范围包括一个或多个被检测的表项,经检测后,可以输出哪些表项是异常表项,还可以进一步输出所述异常表项关于哪些指标项是异常的,还可以进一步输出关于该指标项的具体异常情况。
实施例三
本实施例三是自动设置检测指标,并基于自动设置的检测指标对数据进行检测,下面进行具体介绍。
参见图4,为本实施例三提供的一种数据检测方法的流程示意图,该方法包括以下步骤:
S401:确定待检测报表。
S402:获取为所述待检测报表设置的数据检测范围。
需要说明的是,步骤S401-S402与上述实施例一中的S101-S102一致,相关内容请参见实施例一,在此不再赘述。
S403:获取至少一份目标样本报表,所述目标样本报表为正常报表、且所述目标样本报表中存在所述数据检测范围内的每一表项。
为实现本步骤,可以预先建立一个样本报表库,所述样本报表库包括至少一份样本报表。基于此,本步骤S403具体可以包括:判断所述样本报表库中的目标样本报表是否达到第一预设数量;若是,则从所述样本报表库中选取所述第一预设数量的目标样本报表;若否,则从所述样本报表库中选取所有目标样本报表。
具体来讲,所述样本报表库中可以包括不同类型的样本报表,比如关于广告的样本报表、关于财务的样本报表等等。例如,假设某广告或某组广告以周为周期导出一次广告报表,比如图3所示的广告报表示意图,该广告报表即为对应的周报表,该周报表包括7个行表项和3个列表项,其中,7个行表项分别表示该周的第几天,3个列表项分别为某广告或某组广告的总展现量、总点击量、以及相关广告产品的总购买量;这样,可以对每个周报表进行人工检测或采用本申请进行自动检测,将检测结果正常的周报表添加到所述样本报表库中,并将所有正常的周报表归属为同一报表类型。
在进行数据检测之前,可以预设用于生成所述检测指标的样本报表数量,为便于区分,本实施例将这些样本报表定义为所述目标样本报表,将预设的样本报表数量定义为所述第一预设数量。例如,假设所述待检测报表为图3所示的广告报表,如果该广告报表是最新生成的周报表,则可以从所述样本报表库中选取所述第一预设数量的历史周报表,比如选取7份历史周报表,具体可以选择最近生成的7份周报表作为所述目标样本报表,但如果所述样本报表库中不足7份周报表,比如只有5份,则选择全部周报表作为所述目标样本报表。
进一步地,若通过后续步骤S404-S405确定所述待检测报表为正常报表,则将所述待检测报表添加至所述样本报表库中,以更新所述样本报表库。
S404:利用所述至少一份目标样本报表为所述数据检测范围设置检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件。
在本实施例中,由于这些目标样本报表均为不存在异常数据的正常报表,因此,可以基于这些目标样本报表为所述数据检测范围设置检测指标,以此确定所述数据检测范围内的待检测数据是否是正常。
需要说明的是,所述待检测报表中可能存在多个表项,比如图3所示的广告报表示意图,该广告报表存在“展现量”、“点击量”和“购买量”这3个列表项,同时存在第1天、第2天……第7天这7个行表项。因此,在通过S402设定所述数据检测范围时,实际需要设置哪些表项需要被检测,而这些表项对应的表项数据即为需要被检测的数据。因此,对于每个目标样本报表,将包含所述数据检测范围内需要被检测的表项以及这些表项对应的正常样本数据。
需要说明的是,本实施例后续提及的“表项”均是所述数据检测范围内需要被检测的表项。
在本申请的一种实施方式中,本步骤S404具体可以包括:
当所述数据检测范围包括至少一个表项的表项数据时,为所述数据检测范围设置检测指标,所述检测指标包括每一表项对应的指标集合,所述指标集合包括每一目标样本报表关于对应表项的最大阈值、最小阈值、平均值范围、以及样本数据范围中的一个或多个指标项。其中,所述最大阈值为对应表项的样本数据中的最大值,所述最小阈值为对应表项的样本数据中的最小值,所述平均值范围为包括对应表项的样本数据的平均值在内的数值范围,所述样本数据范围为所述最大值与所述最小值之间的数值范围,所述样本数据为所述对应表项的全部或部分数据。
在本实施方式中,对于同一表项,分别读取每一目标样本报表中关于该表项的数据,可以读取该表项的全部数据或部分数据,如果读取部分数据,可以设定一个所读取数据的百分比,比如90%,此时,可以去除排序在前的5%较大数据、并去除排序在后的5%较小数据,只读取剩下的90%数据,采用这种方式读取的数据更可能是正常数据,本实施例将这些数据定义为该表项的样本数据。
然后,如果需要检测所述数据检测范围内关于该表项的较大数据是否超范围,可以找出每一目标样本报表的最大值(即该表项对应的样本数据中的最大值),并将这些最大值分别作为最大阈值。以图3所示“点击量”这一表项为例,如果有8个目标样本报表,可以找出其中的最大点击数据作为最大阈值,这样将存在8个最大阈值,这8个最大阈值可能相同、也可能不同;
如果需要检测所述数据检测范围内关于该表项的较小数据是否超范围,可以找出每一目标样本报表的最小值(即该表项对应的样本数据中的最小值),并将这些最小值分别作为最小阈值。以图3所示“点击量”这一表项为例,如果有8个目标样本报表,可以找出其中的最小点击数据作为最小阈值,这样将存在8个最小阈值,这8个最小阈值可能相同、也可能不同;
如果需要检测所述数据检测范围内关于该表项的数据平均值是否超范围,可以计算每一目标样本报表关于该表项的样本数据的平均值,并将包含该平均值的一个数值范围作为平均值范围。以图3所示“点击量”这一表项为例,如果有8个目标样本报表,可以计算每个目标样本报表中的点击数据的平均值,比如该平均值为X,可以将[X-a,X+b]作为一个平均值范围,a和b不相等且为大于或等于0的数,这样将存在8个平均值范围,这8个平均值范围可能相同、也可能不同;
如果需要检测所述数据检测范围内关于该表项的正常数据量是否超范围,可以计算每一目标样本报表关于该表项的样本数据的取值范围[c,d],其中,c为该样本数据的最大值,d为该样本数据的最小值,该数据范围[c,d]即为一个样本数据范围。以图3所示“点击量”这一表项为例,如果有8个目标样本报表,从每一目标样本报表中找出最大点击数据c和最小点击数据d,这样将存在8个关于“点击量”的样本数据范围[c,d],这8个样本数据范围可能相同、也可能不同。
关于“所述检测指标所对应的检测规则和异常判定条件”的相关介绍,请参见实施例一,在此不再赘述。
S405:根据所述数据检测范围内每一表项对应的指标集合,对对应表项的表项数据进行检测。
如前所述,对于所述数据检测范围内的每一表项,由于该表项的指标集合可能包括每一目标样本报表关于该表项的最大阈值、最小阈值、平均值范围、以及样本数据范围中的一个或多个指标项,因此,对于任一指标项,可以按照以下方式对该表项的表项数据进行检测,下面结合图3所示的“点击量”这一表项为例进行具体介绍。
1、对于所述数据检测范围内的每一表项,若对应表项的指标集合包括每一目标样本报表对应的最大阈值,则检测对应表项数据中是否存在大于第二预设数量的最大阈值的数据;其中,所述第二预设数量小于或等于所述目标样本报表的总数量。
以所述数据检测范围包括图3所示“点击量”这一表项为例,当有8个目标样本报表时,关于“点击量”的指标项将包括8个最大阈值,将这8个最大阈值分别与图3中的点击数据进行比较,假设这些点击数据中有部分数据大于其中的3个最大阈值,那么,如果所述第二预设数量为2,由于3大于2,则说明点击数据超范围。
或者,进一步确定大于所述最大阈值的数据量在该表项总数据量中的百分比,如果该百分比超出预设百分比,比如预设百分比为30%,当满足该要求的相关最大阈值超过所述第二预设数量时,则说明该表项数据超范围。
2、若对应表项的指标集合包括每一目标样本报表对应的最小阈值,则检测对应表项数据中是否存在小于第三预设数量的最小阈值的数据;其中,所述第三预设数量小于或等于所述目标样本报表的总数量。
以所述数据检测范围包括图3所示“点击量”这一表项为例,当有8个目标样本报表时,关于“点击量”的指标项将包括8个最小阈值,将这8个最小阈值分别与图3中的点击数据进行比较,假设这些点击数据中有部分数据小于其中的3个最大阈值,那么,如果所述第三预设数量为2,由于3大于2,则说明点击数据超范围。
或者,进一步确定小于所述最小阈值的数据量在该表项总数据量中的百分比,如果该百分比超出预设百分比,比如预设百分比为30%,当满足该要求的相关最小阈值超过所述第三预设数量时,则说明该表项数据超范围。
3、若对应表项的指标集合包括每一目标样本报表对应的平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在第四预设数量的平均值范围内;其中,所述第四预设数量小于或等于所述目标样本报表的总数量。
以所述数据检测范围包括图3所示“点击量”这一表项为例,当有8个目标样本报表时,关于“点击量”的指标项将包括8个平均值范围。计算全部点击数据的平均值,如果该平均值不在某些平均值范围内,则统计这些平均值范围的数量,如果统计数量为3,那么,如果所述第四预设数量为2,由于3大于2,则说明点击数据的平均值超范围。
4、若对应表项的指标集合包括每一目标样本报表对应的样本数据范围,则计算对应表项数据所在的数据范围,并检测所述数据范围是否未在第五预设数量的样本数据范围内;其中,所述第五预设数量小于或等于所述目标样本报表的总数量。
以所述数据检测范围包括图3所示“点击量”这一表项为例,当有8个目标样本报表时,关于“点击量”的指标项将包括8个样本数据范围。如果全部点击数据不在某些样本数据范围内,则统计这些样本数据范围的数量,如果统计数量为3,那么,如果所述第五预设数量为2,由于3大于2,则说明点击数据超范围。
S406:若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
由于所述数据检测范围包括一个或多个被检测的表项,经检测后,可以输出哪些表项是异常表,还可以进一步输出所述异常表项关于哪些指标项是异常的,还可以进一步输出关于该指标项的具体异常情况。
实施例四
参见图5,为本申请实施例四提供的一种数据检测装置的组成示意图,所述装置500包括:
待检报表确定单元501,用于确定待检测报表;
检测范围获取单元502,用于获取为所述待检测报表设置的数据检测范围;
检测指标获取单元503,用于获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件;
异常数据检测单元504,用于根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据;
检测结果输出单元505,用于若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
在本申请的一种实施方式中,所述检测指标获取单元503具体用于:
获取用户为所述数据检测范围设置的检测指标。
在本申请的一种实施方式中,当所述数据检测范围包括至少一个表项的表项数据时,所述检测指标包括每一表项对应的指标集合,所述指标集合包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项;
则,所述异常数据检测单元504具体用于:
若所述指标集合包括所述最大阈值,则检测对应表项数据中是否存在大于所述最大阈值的数据;
若所述指标集合包括所述最小阈值,则检测对应表项数据中是否存在小于所述最小阈值的数据;
若所述指标集合包括所述平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在所述平均值范围内;
若所述指标集合包括所述数据占比阈值,则计算对应表项数据中处于所述最大阈值与所述最小阈值之间的数据量,计算所述数据量在对应表项数据中的占比,并检测所述占比是否低于所述数据占比阈值;
相应地,所述检测结果输出单元505具体用于:
若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
在本申请的一种实施方式中,所述检测指标获取单元503包括:
样本报表获取子单元,用于获取至少一份目标样本报表,所述目标样本报表为正常报表、且所述目标样本报表中存在所述数据检测范围内的每一表项;
检测指标获取子单元,用于利用所述至少一份目标样本报表为所述数据检测范围设置检测指标。
在本申请的一种实施方式中,所述方法还包括:
建立样本报表库,所述样本报表库包括至少一份样本报表;
则,所述样本报表获取子单元具体用于:
判断所述样本报表库中的目标样本报表是否达到第一预设数量;若是,则从所述样本报表库中选取所述第一预设数量的目标样本报表;若否,则从所述样本报表库中选取所有目标样本报表。
在本申请的一种实施方式中,所述检测指标获取子单元具体用于:
当所述数据检测范围包括至少一个表项的表项数据时,为所述数据检测范围设置检测指标,所述检测指标包括每一表项对应的指标集合,所述指标集合包括每一目标样本报表关于对应表项的最大阈值、最小阈值、平均值范围、以及样本数据范围中的一个或多个指标项;
其中,所述最大阈值为对应表项的样本数据中的最大值,所述最小阈值为对应表项的样本数据中的最小值,所述平均值范围为包括对应表项的样本数据的平均值在内的数值范围,所述样本数据范围为所述最大值与所述最小值之间的数值范围,所述样本数据为所述对应表项的全部或部分数据。
在本申请的一种实施方式中,所述异常数据检测单元504具体用于:
对于所述数据检测范围内的每一表项,若对应表项的指标集合包括每一目标样本报表对应的最大阈值,则检测对应表项数据中是否存在大于第二预设数量的最大阈值的数据;
若对应表项的指标集合包括每一目标样本报表对应的最小阈值,则检测对应表项数据中是否存在小于第三预设数量的最小阈值的数据;
若对应表项的指标集合包括每一目标样本报表对应的平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在第四预设数量的平均值范围内;
若对应表项的指标集合包括每一目标样本报表对应的样本数据范围,则计算对应表项数据所在的数据范围,并检测所述数据范围是否未在第五预设数量的样本数据范围内;
其中,所述第二预设数量、所述第三预设数量、所述第四预设数量、所述第五预设数量均小于或等于所述目标样本报表的总数量;
相应地,所述检测结果输出单元505具体用于:
若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
另外,所述数据检测装置500包括处理器和存储器,上述待检报表确定单元501、检测范围获取单元502、检测指标获取单元503、异常数据检测单元504和检测结果输出单元505等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来自动化的完成数据检测,能够及时、准确地发现异常数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供的数据检测装置能够实现以下功能:首先确定待检测报表,然后,获取为所述待检测报表设置的数据检测范围,并获取为所述数据检测范围设置的检测指标,这样便可以根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,即可以确定所述数据检测范围内存在异常数据,从而可以输出异常检测结果。可见,本申请可以实现自动数据检测,不但降低了人力成本,还能够及时、准确地发现异常数据。
本还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
确定待检测报表;
获取为所述待检测报表设置的数据检测范围;
获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件;
根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据;
若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据检测方法,其特征在于,所述方法包括:
确定待检测报表;
获取为所述待检测报表设置的数据检测范围;
获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件;
根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据;
若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取为所述数据检测范围设置的检测指标,包括:
获取用户为所述数据检测范围设置的检测指标。
3.根据权利要求1或2所述的方法,其特征在于,当所述数据检测范围包括至少一个表项的表项数据时,所述检测指标包括每一表项对应的指标集合,所述指标集合包括最大阈值、最小阈值、平均值范围、以及数据占比阈值中的一个或多个指标项;
则,所述根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,包括:
若所述指标集合包括所述最大阈值,则检测对应表项数据中是否存在大于所述最大阈值的数据;
若所述指标集合包括所述最小阈值,则检测对应表项数据中是否存在小于所述最小阈值的数据;
若所述指标集合包括所述平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在所述平均值范围内;
若所述指标集合包括所述数据占比阈值,则计算对应表项数据中处于所述最大阈值与所述最小阈值之间的数据量,计算所述数据量在对应表项数据中的占比,并检测所述占比是否低于所述数据占比阈值;
相应地,所述若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,包括:
若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
4.根据权利要求1所述的方法,其特征在于,所述获取为所述数据检测范围设置的检测指标,包括:
获取至少一份目标样本报表,所述目标样本报表为正常报表、且所述目标样本报表中存在所述数据检测范围内的每一表项;
利用所述至少一份目标样本报表为所述数据检测范围设置检测指标。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
建立样本报表库,所述样本报表库包括至少一份样本报表;
则,所述获取至少一份目标样本报表,包括:
判断所述样本报表库中的目标样本报表是否达到第一预设数量;
若是,则从所述样本报表库中选取所述第一预设数量的目标样本报表;
若否,则从所述样本报表库中选取所有目标样本报表。
6.根据权利要求4或5所述的方法,其特征在于,所述利用所述至少一份目标样本报表为所述数据检测范围设置检测指标,包括:
当所述数据检测范围包括至少一个表项的表项数据时,为所述数据检测范围设置检测指标,所述检测指标包括每一表项对应的指标集合,所述指标集合包括每一目标样本报表关于对应表项的最大阈值、最小阈值、平均值范围、以及样本数据范围中的一个或多个指标项;
其中,所述最大阈值为对应表项的样本数据中的最大值,所述最小阈值为对应表项的样本数据中的最小值,所述平均值范围为包括对应表项的样本数据的平均值在内的数值范围,所述样本数据范围为所述最大值与所述最小值之间的数值范围,所述样本数据为所述对应表项的全部或部分数据。
7.根据权利要求6所述的方法,其特征在于,所述根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据,包括:
对于所述数据检测范围内的每一表项,若对应表项的指标集合包括每一目标样本报表对应的最大阈值,则检测对应表项数据中是否存在大于第二预设数量的最大阈值的数据;
若对应表项的指标集合包括每一目标样本报表对应的最小阈值,则检测对应表项数据中是否存在小于第三预设数量的最小阈值的数据;
若对应表项的指标集合包括每一目标样本报表对应的平均值范围,则计算对应表项数据的平均值,并检测所述平均值是否未在第四预设数量的平均值范围内;
若对应表项的指标集合包括每一目标样本报表对应的样本数据范围,则计算对应表项数据所在的数据范围,并检测所述数据范围是否未在第五预设数量的样本数据范围内;
其中,所述第二预设数量、所述第三预设数量、所述第四预设数量、所述第五预设数量均小于或等于所述目标样本报表的总数量;
相应地,所述若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,包括:
若存在检测结果为是的表项数据,则确定所述数据检测范围内存在异常表项数据,输出所述异常表项数据的异常检测结果。
8.一种数据检测装置,其特征在于,所述装置包括:
待检报表确定单元,用于确定待检测报表;
检测范围获取单元,用于获取为所述待检测报表设置的数据检测范围;
检测指标获取单元,用于获取为所述数据检测范围设置的检测指标,并确定与所述检测指标所对应的检测规则和异常判定条件;
异常数据检测单元,用于根据所述检测指标对应的检测规则,检测所述数据检测范围内的数据;
检测结果输出单元,用于若所述数据检测范围内的数据符合所述检测指标对应的异常判定条件,则确定所述数据检测范围内存在异常数据,并输出异常检测结果。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711045508.3A CN109726068A (zh) | 2017-10-31 | 2017-10-31 | 一种数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711045508.3A CN109726068A (zh) | 2017-10-31 | 2017-10-31 | 一种数据检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109726068A true CN109726068A (zh) | 2019-05-07 |
Family
ID=66293173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711045508.3A Pending CN109726068A (zh) | 2017-10-31 | 2017-10-31 | 一种数据检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726068A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021062741A1 (zh) * | 2019-09-30 | 2021-04-08 | 深圳迈瑞生物医疗电子股份有限公司 | 一种信息处理方法、样本检测***及计算机存储介质 |
CN112685244A (zh) * | 2020-12-07 | 2021-04-20 | 武汉虹信科技发展有限责任公司 | 设备指标检测方法及装置 |
CN113253499A (zh) * | 2021-06-18 | 2021-08-13 | 深圳市泰科盛自动化***有限公司 | 基于液晶屏检测的液晶屏自调节组装*** |
CN114663893A (zh) * | 2022-03-25 | 2022-06-24 | 李成卫 | 一种基于人工智能的数据识别方法、***及云平台 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447323A (zh) * | 2015-12-11 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 一种数据异常波动检测方法和装置 |
CN106371983A (zh) * | 2016-08-31 | 2017-02-01 | 五八同城信息技术有限公司 | 基于数据开发的报警方法和装置 |
US20170180214A1 (en) * | 2015-12-16 | 2017-06-22 | International Business Machines Corporation | On-Demand Remote Predictive Monitoring For Industrial Equipment Analysis and Cost Forecast |
CN107094207A (zh) * | 2017-06-26 | 2017-08-25 | 携程旅游信息技术(上海)有限公司 | 一种话务指标异常的自动检测方法及其自动检测装置 |
-
2017
- 2017-10-31 CN CN201711045508.3A patent/CN109726068A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447323A (zh) * | 2015-12-11 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 一种数据异常波动检测方法和装置 |
US20170180214A1 (en) * | 2015-12-16 | 2017-06-22 | International Business Machines Corporation | On-Demand Remote Predictive Monitoring For Industrial Equipment Analysis and Cost Forecast |
CN106371983A (zh) * | 2016-08-31 | 2017-02-01 | 五八同城信息技术有限公司 | 基于数据开发的报警方法和装置 |
CN107094207A (zh) * | 2017-06-26 | 2017-08-25 | 携程旅游信息技术(上海)有限公司 | 一种话务指标异常的自动检测方法及其自动检测装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021062741A1 (zh) * | 2019-09-30 | 2021-04-08 | 深圳迈瑞生物医疗电子股份有限公司 | 一种信息处理方法、样本检测***及计算机存储介质 |
CN112685244A (zh) * | 2020-12-07 | 2021-04-20 | 武汉虹信科技发展有限责任公司 | 设备指标检测方法及装置 |
CN113253499A (zh) * | 2021-06-18 | 2021-08-13 | 深圳市泰科盛自动化***有限公司 | 基于液晶屏检测的液晶屏自调节组装*** |
CN113253499B (zh) * | 2021-06-18 | 2021-09-28 | 深圳市泰科盛自动化***有限公司 | 基于液晶屏检测的液晶屏自调节组装*** |
CN114663893A (zh) * | 2022-03-25 | 2022-06-24 | 李成卫 | 一种基于人工智能的数据识别方法、***及云平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726068A (zh) | 一种数据检测方法及装置 | |
US11257005B2 (en) | Training method and training system for machine learning system | |
US20150235133A1 (en) | Data concentration prediction device, data concentration prediction method, and recording medium recording program thereof | |
CN106874280A (zh) | 异常数据的报警方法和装置 | |
CN109561052A (zh) | 网站异常流量的检测方法及装置 | |
CN109508846A (zh) | 一种机组数据异常波动的检测方法及装置 | |
CN112365070B (zh) | 一种电力负荷预测方法、装置、设备及可读存储介质 | |
CN106202280A (zh) | 一种信息处理方法及服务器 | |
EP3644184A1 (en) | System and method for anomaly characterization based on joint historical and time-series analysis | |
CN109283416A (zh) | 一种敏感设备故障率的计算方法及装置 | |
CN111767957A (zh) | 一种日志异常的检测方法、装置、存储介质及电子设备 | |
CN109886956A (zh) | 检测缺陷点聚集性的方法及装置 | |
CN112926636A (zh) | 牵引变流器柜体温度异常检测方法和装置 | |
CN116307460A (zh) | 一种用于安全生产的化工设备管理方法、设备及介质 | |
CN109359346A (zh) | 一种热负荷预测方法、装置、可读介质及电子设备 | |
CN103733041B (zh) | 管理装置及管理方法 | |
CN112527610A (zh) | 设备运作状态的监测方法及装置 | |
CN112579847A (zh) | 生产数据的处理方法和装置、存储介质及电子设备 | |
CN106485526A (zh) | 一种数据挖掘模型的诊断方法和装置 | |
CN115510998A (zh) | 交易异常值检测方法及装置 | |
CN110019196A (zh) | 数据处理方法及装置 | |
CN110058811A (zh) | 信息处理装置、数据管理***、方法以及计算机可读介质 | |
CN106325227A (zh) | 制程管控线的生成方法和装置及制程管控*** | |
CN109600245A (zh) | 服务器自动配置方法及装置 | |
CN114330569A (zh) | 一种检测风机组部件故障的方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190507 |
|
RJ01 | Rejection of invention patent application after publication |