CN108334417A - 确定数据异常的方法和装置 - Google Patents

确定数据异常的方法和装置 Download PDF

Info

Publication number
CN108334417A
CN108334417A CN201810078842.7A CN201810078842A CN108334417A CN 108334417 A CN108334417 A CN 108334417A CN 201810078842 A CN201810078842 A CN 201810078842A CN 108334417 A CN108334417 A CN 108334417A
Authority
CN
China
Prior art keywords
data
group
tested
groups
exception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810078842.7A
Other languages
English (en)
Other versions
CN108334417B (zh
Inventor
李龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810078842.7A priority Critical patent/CN108334417B/zh
Publication of CN108334417A publication Critical patent/CN108334417A/zh
Priority to TW107141072A priority patent/TWI703455B/zh
Priority to SG11202004544YA priority patent/SG11202004544YA/en
Priority to US16/257,741 priority patent/US11061994B2/en
Priority to EP19707913.0A priority patent/EP3695329A1/en
Priority to PCT/US2019/015182 priority patent/WO2019147957A1/en
Priority to US16/722,946 priority patent/US11003739B2/en
Application granted granted Critical
Publication of CN108334417B publication Critical patent/CN108334417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Debugging And Monitoring (AREA)
  • Storage Device Security (AREA)

Abstract

本说明书提供一种确定数据异常的方法,包括:获取对应于预定特征的多个待检测数据,作为第一待检测数据组;获取所述待检测数据的多个历史数据,作为对比数据组;对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。

Description

确定数据异常的方法和装置
技术领域
本说明书一个或多个实施例涉及数据处理领域,尤其涉及确定数据异常的方法和装置。
背景技术
随着互联网的升级,不同平台之间的数据交互和共享越来越频繁。例如,银行或金融平台会将多个用户的交易数据发送到另一个相关平台以进行数据分析。然而,各个平台为了安全性和自身用户保密性的考虑,在将数据发送给其他平台处理之前,往往会对数据进行一些隐私保护处理。这样处理之后的数据会失去其业务含义。接收平台在接收到这些数据之后,很难根据业务规则对数据中是否存在异常进行判断。例如,数据中是否存在空值、是否存在异常等。
另一方面,在大数据背景下,数据量指数增长,而业务规则又是不断变化难以穷尽的,因此仅通过业务规则来发现数据异常,工作量巨大而不够全面。
因此,需要更有效的方式,对数据的异常进行判断和预警。
发明内容
本说明书实施例旨在提供一种更有效的确定数据异常的方法和装置,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种确定数据异常的方法,包括:获取对应于预定特征的多个待检测数据,作为第一待检测数据组;获取所述待检测数据的多个历史数据,作为对比数据组;对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。
在一个实施例中,在上述确定数据异常的方法中,所述获取所述待检测数据的多个历史数据,作为对比数据组包括:获取所述待检测数据的多组历史数据,对其中每两组历史数据进行第二两组间显著性检验,并根据所述第二两组间显著性检验的检验结果,确定无异常的一组历史数据,作为所述对比数据组。
在一个实施例中,上述确定数据异常的方法还包括:在根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组,对每个所述第二待检测数据组与所述对比数据组进行第三两组间显著性检验,以及,根据所述第三两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。
在一个实施例中,在上述确定数据异常的方法中,所述第一、第二和第三两组间显著性检验各自是以下检验中的一种:t检验、z检验和t’检验。
在一个实施例中,上述确定数据异常的方法还包括:在对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。
在一个实施例中,在上述确定数据异常的方法中,所述预处理为如下数据变换中的一种:对数变换、平方根变换、倒数变换和平方根反正弦变换。
本说明书另一方面提供一种确定数据异常的装置,包括:第一获取单元,配置为,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;第二获取单元,配置为,获取所述待检测数据的多个历史数据,作为对比数据组;第一检验单元,配置为,对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及第一确定单元,配置为,根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。
在一个实施例中,上述确定数据异常的装置还包括:划分单元,配置为,在根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组,第二检验单元,配置为,对每个所述第二待检测数据组与所述对比数据组进行第三两组间显著性检验,以及第二确定单元,配置为,根据所述第三两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。
在一个实施例中,上述确定数据异常的装置还包括预处理单元,配置为,在对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。
本说明书另一方面提供一种计算机可读的存储介质,其上存储有指令代码,所述指令代码在计算机中执行时,令计算机执行上述确定数据异常的方法。
通过以上实施例的方法和装置,可以更有效地发现数据异常,进而进行预警和干预。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1为本说明书披露的一个实施例的示意图;
图2示出根据一个实施例的确定数据异常的方法流程图;
图3示出了根据一个实施例的t检验的流程图;
图4示出了t界值表的一个示例;
图5示出了对应于图4所示的t分布的示意曲线图;
图6示出根据本说明书实施例的z检验流程图;
图7示出根据本说明书实施例的t’检验的流程图;以及
图8示出了根据本说明书实施例的确定数据异常的装置800。
具体实施方式
下面将结合附图描述本说明书实施例。
图1为本说明书披露的一个实施例的示意图。在图1中,处理平台(例如支付宝服务器)从数据提供平台获取对应于预定特征的多个待检测数据,作为待检测数据组(例如,对应于用户交易额的数据组)。另一方面,处理平台还获取所述待检测数据的多个历史数据作为对比数据组,该历史数据也对应于上述相同预定特征,对比数据组可由数据提供平台预先提供。接着,处理平台对所述待检测数据组与所述对比数据组进行两组间显著性检验,根据检验结果,确定是否存在数据异常。如果不存在数据异常,处理平台可以继续处理这些数据,或者将这些数据发送到下一业务环节。如果确定存在数据异常,则可以启动预警,通知相关人员分析数据异常的原因,触发相关解决方案。下面描述确定数据异常的具体实施过程。
图2示出根据一个实施例的确定数据异常的方法流程图。该方法的执行主体可以是任何具有计算能力和处理能力的处理平台,例如服务器。如图2所示,该方法包括:步骤21,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;步骤22,获取所述待检测数据的多个历史数据,作为对比数据组;步骤23,对所述待检测数据组与所述对比数据组进行两组间显著性检验;以及,步骤24,根据所述显著性检验的检验结果,确定所述待检测数据组是否存在数据异常。下面结合具体例子描述以上各个步骤的执行方式。
首先,在步骤21,获取对应于预定特征的多个待检测数据,作为第一待检测数据组。
例如,处理平台(例如支付宝服务器)从数据提供平台(例如银行或金融平台)获取对应于预定特征的待检测数据组。该预定特征例如可以是不同用户的年龄、征信、交易额、支出额、贷款额等等,也可以是例如年龄在预定范围内的用户的支出额等。数据提供平台一般成批量地向处理平台发送多批数据,每批数据例如可以是该数据提供平台在一定时段内接收的全部数据,例如一星期内的数据、一个月内的数据等。每批数据中包括对应于多个特征的多列数据,例如对应于用户年龄的一列数据,对应于用户征信的一列数据、对应于用户交易额的一列数据等。例如每批数据的量级为10w个,即,该10w量级的数据中对应于特定特征(例如用户交易额)的数据可构成一个待检测数据组。在一个实施例中,待检测数据组可以包括较少数据,例如包括20个数据。
当上述预定特征涉及用户隐私时,出于安全性和保密性的考虑,数据提供平台在向处理平台发送数据之前会对该数据进行加密处理。这样处理之后的数据失去了其业务含义,即,很难通过人工进行检查。而这些数据中可能包含很多空值和异常值,这些空值和异常值可能是采集数据时产生的,也可能是在进行表join(多表连接)时产生的,还可能是在业务的各个环节中产生的。
在步骤22,获取所述待检测数据的多个历史数据,作为对比数据组。
通常,对比数据组与上述待检测数据组具有相同的数据来源。例如,由数据提供平台预先向处理平台提供一组对应于所述预定特征(例如用户交易额)的历史数据作为对比数据组。并且,同样地,当上述预定特征涉及用户隐私时,数据提供平台在向处理平台发送该历史数据之前会对该数据进行加密处理。通常,历史数据是由数据提供平台在之前一段较长时间段内(例如,一周,一个月等)接收的大量同类数据。并且,数据提供平台在向处理平台发送该对比数据组之前会对该对比数据组进行检查,以确保该数据准确无误。即,默认为该对比数据组是不包含空值和异常值的。该对比数据组包括的数据越多越好,这样可以保证样本的分布更趋近于真实的分布。在一个实施例中,对比数据组的数据量为20w量级。在一个实施例中,对比数据组可包括较少的数据,例如包括20个数据。
接下来,在步骤S23,对所述待检测数据组与所述对比数据组进行两组间显著性检验。
本领域技术人员可知,两组间显著性检验是假设两个数据组的分布相同(例如总体均值相等),然后通过样本信息判断该假设是否合理。即,判断样本与所设定的假设之间的差异是纯属机会变异(接受所述假设),还是由于所述假设与样本的总体真实分布不一致所引起的(拒绝所述假设)。两组间显著性检验包括:t检验、z检验和t’检验,其适用于不同的样本情况。
在一个实施例中,由于所述对比数据组与所述待检测数据组来自于相同的数据来源,因此,默认为所述对比数据组与所述待检测组具有相同的总体分布,即,所述对比数据组与所述待检测组具有方差齐性。并且,所述对比数据组与所述待检测数据组的总体例如为金融平台用户,即,总体数据量足够大,总体为正态分布。因此,对所述对比数据组与所述待检测组进行t检验,这里的t检验是用于两独立样本的t检验。图3示出了根据一个实施例的t检验的流程图。
在一个实施例中,所述待检测数据组包括n1个数据,所述n1个数据的样本均数为样本标准偏差为S1,以及总体均数为μ1。所述对比数据组包括n2个数据,所述n2个数据的样本均数为样本标准偏差为S2,以及总体均数为μ2。其中n1和n2是自然数,这里n1和n2一般最小为5个,对n1和n2的最大值不作限制。如图3所示,对所述待检测数据组与所述对比数据组进行t检验包括以下步骤:
在步骤S31,设定假设μ1=μ2;
在步骤S32,根据以下公式计算t检验统计量:
在步骤S33,根据以下公式计算t检验统计量的自由度:ν=n1+n2-2;以及
在步骤S34,根据所述t检验统计量及其自由度ν,确定假设μ1=μ2成立的第一概率P1。
在通过计算获得t检验统计量及其自由度ν之后,可通过查询t界值表获取P1值。图4示出了t界值表的一个示例。这里,t检验为双侧检验。在一个实施例中,t检验为单侧检验。如图4所示,例如,在自由度ν为34的情况中,当t为2.032时,P=0.05,并且从图4中还可以看出,当t大于2.032时,P<0.05。通常,将两组间显著性检验的信度α设置为0.05,即当P≤0.05时,所述假设μ1=μ2成立的概率较小,而当t>2.032时,假设μ1=μ2成立的概率越来越小。
图5示出了对应于图4所示的t分布的示意曲线图。t分布曲线的形态与自由度ν大小有关,自由度ν越小,t分布曲线越平坦,曲线中间越低,曲线双侧尾部翘得越高;自由度ν越大,t分布曲线越接近正态分布曲线,当自由度ν=∞时,t分布曲线为标准正态分布曲线。图5所示为对应于图4中自由度ν=34的t分布的示意曲线图。当t=2.032时,如图5所示,其对应的P=0.05为t分布曲线双侧的阴影面积之和,即,相对于t分布曲线下的总面积1,阴影面积总面积为0.05。而当t>2.032时,其对应的t分布曲线双侧的阴影面积更小,即概率P更小。
在一个实施例中,数据总体分布与上述t检验的相同,即,所述对比数据组与所述待检测组具有相同的总体分布,所述对比数据组与所述待检测组具有方差齐性,且其总体都为正态分布。在该实施例中,所述待检测数据组与所述对比数据组的样本数较大,例如,n1和n2都大于30,则对所述对比数据组与所述待检测组进行z检验。图6示出根据本说明书实施例的z检验流程图。如图6所示,包括以下步骤:
在步骤S61,设定假设μ1=μ2;
在步骤S62,根据以下公式计算z检验统计量:
以及
在步骤S63,根据所述z检验统计量确定假设μ1=μ2成立的第二概率P2。
在通过计算获得z检验统计量之后,可通过查询正态分布表获得P2值。
在一个实施例中,所述对比数据组与所述待检测组总体都为正态分布,但是不确定其是否具有方差齐性。在该情况中,在对所述待检测数据组与所述对比数据组进行两组间显著性检验之前,还包括:对所述待检测数据组与所述对比数据组进行方差齐性检验(F检验)。所述F检验包括:计算所述待检测数据组与所述对比数据组的F检验值:并根据F值判断所述待检测数据组与所述对比数据组的方差齐性。
当确定所述待检测数据组与所述对比数据组的总体方差不齐时,对所述待检测数据组与所述对比数据组进行t’检验。图7示出根据本说明书实施例的t’检验的流程图。如图7所示,所述t’检验包括以下步骤:
在步骤S71,设定假设μ1=μ2;
在步骤S72,根据以下公式计算t’检验统计量:
在步骤S73,根据以下公式计算t’检验统计量的自由度ν:
以及
在步骤S74,根据所述t’检验统计量及其自由度ν确定假设μ1=μ2成立的第三概率P3。
在一个实施例中,在对所述待检测数据组与所述对比数据组进行两组间显著性检验之前,根据所述待检测数据组和所述对比数据组的共同分布特性,对所述待检测数据组的数据和所述对比数据组的数据进行相同的预处理。两组间显著性检验适用于总体分布为正态分布的两组数据。当数据的总体分布呈不对称分布时(即,偏态分布),可通过根据数据的分布特性对数据进行对应的数据变换,来将数据的总体分布转换为正态分布。
在一个实施例中,所述待检测数据组和所述对比数据组的数据呈正偏态分布,即,较小数据多,较大数据少。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行对数变换。即,对原始数据x取对数,例如,x’=logx或x’=lnx,并以x’的值作为分析变量。通过该对数变换,将服从正偏态分布的数据转换为服从正态分布的数据,并且还可以使方差不齐的两组数据达到方差齐的要求。
在一个实施例中,所述待检测数据组和所述对比数据组的数据呈泊松分布。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行平方根变换。即,对原始数据x取平方根,例如,并以x’的值作为分析变量。通过该平方根变换,将总体服从泊松分布的数据或总体轻度偏态的数据正态化,并且可以使方差不齐且各样本的方差与均数间呈正相关的数据总体达到方差齐的要求。
在一个实施例中,所述待检测数据组和所述对比数据组的数据呈极严重的正偏态分布。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行倒数变换。在另一个实施例中,所述待检测数据组和所述对比数据组的数据的总体呈总体率较小或总体率较大的二项分布。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行平方根反正弦变换。
在一个实施例中,可通过例如如下方法中的任意一种或多种方法检验两组数据的正态性:图示法(P-P图、Q-Q图)、矩法、W检验、D检验、Kolmogorov D检验和x2检验等。
再参考图2,在步骤S24,根据所述两组间显著性检验的检验结果,确定是否存在数据异常。
根据在对步骤S23的描述中所述的t检验、z检验和t’检验对应的概率值P(P为P1、P2或P3),当P≤0.05时,所述假设μ1=μ2成立的概率较小,即,所述待检测数据组与所述对比数据组的差异显著。当P≤0.01时,所述假设μ1=μ2成立的概率极小,即,所述待检测数据组与所述对比数据组的差异非常显著。
在一个实施例中,设定当P≤0.01时,所述待检测数据组与所述对比数据组都有可能存在数据异常。在默认对比数据组为无异常数据的情况中,确定所述待检测数据组存在数据异常。
在一个实施例中,在上述步骤S22中的获取所述待检测数据的多个历史数据作为对比数据组可以包括:获取所述待检测数据的多组历史数据,对其中每两组历史数据进行第二两组间显著性检验,并根据所述第二两组间显著性检验的检验结果,确定无异常的一组历史数据,作为所述对比数据组。这里的两组间显著性检验根据历史数据组的数据情况也可以为t检验、z检验或t’检验中的一种,这三种显著性检验的具体计算步骤如上文所述,在此不再赘述。通过对多个历史数据组之间进行两组间显著性检验来进一步确保对比数据组的无异常性,进一步提高了对待检测数据组的异常检测的准确性。
在一个实施例中,在上述步骤S24中的根据所述显著性检验的检验结果,确定否存在数据异常之后,在确定所述待检测数据组中存在数据异常的情况中,可以将所述待检测数据组分为预定数目个的组作为新待检测数据组,例如分为两个或四个组。对每个所述待检测数据组与所述对比数据组进行两组间显著性检验,并根据检验结果,确定出存在数据异常的新待检测数据组。这里的两组间显著性检验根据新待检测数据组的数据情况也可以为t检验、z检验或t’检验中的一种,这三种显著性检验的具体计算步骤如上文所述,在此不再赘述。
例如,在待检测数据组是10w量级的情况中,当确定待检测数据组中存在异常时,如果将该待检测数据组直接转至人工检查,工作量将非常大。通过将该待检测组再划分为例如四个组作为新待检测数据组,再次进行所述显著性检验,可以确定出存在数据异常的新待检测数据组。而该新待检测数据组的数据数量级已经降了一个量级,从而可以大大降低人工检查的工作量。
图8示出了根据本说明书实施例的确定数据异常的装置800。如图8所示,装置800包括:第一获取单元81,配置为,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;第二获取单元82,配置为,获取所述待检测数据的多个历史数据,作为对比数据组;第一检验单元83,配置为,对所述第一待检测数据组与所述对比数据组进行两组间显著性检验;以及第一确定单元84,配置为,根据所述两组间显著性检验的检验结果,确定是否存在数据异常。
在一个实施例中,装置800还包括:划分单元85,配置为,在根据所述显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组;第二检验单元86,配置为,对每个所述第二待检测数据组与所述对比数据组进行两组间显著性检验;以及第二确定单元87,配置为,根据所述两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。
在一个实施例中,装置800还包括预处理单元88,配置为,在对所述第一待检测数据组与所述对比数据组进行两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上文所述的确定数据异常的方法。
通过以上实施例的方法和装置,即使获取的数据因加密处理而失去了业务含义,也可以通过将其与对比数据进行显著性检验而确定是否存在数据异常,从而更有效地发现数据异常,进而进行预警和干预。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种确定数据异常的方法,包括:
获取对应于预定特征的多个待检测数据,作为第一待检测数据组;
获取所述待检测数据的多个历史数据,作为对比数据组;
对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及
根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。
2.根据权利要求1所述的确定数据异常的方法,其中,所述获取所述待检测数据的多个历史数据,作为对比数据组包括:获取所述待检测数据的多组历史数据,对其中每两组历史数据进行第二两组间显著性检验,并根据所述第二两组间显著性检验的检验结果,确定无异常的一组历史数据,作为所述对比数据组。
3.根据权利要求1所述的确定数据异常的方法,还包括:在根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常之后,
在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组,对每个所述第二待检测数据组与所述对比数据组进行第三两组间显著性检验,以及,根据所述第三两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。
4.根据权利要求1-3中任一项所述的确定数据异常的方法,其中所述第一、第二和第三两组间显著性检验各自是以下检验中的一种:t检验、z检验和t’检验。
5.根据权利要求1所述的确定数据异常的方法,还包括:在对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。
6.根据权利要求5所述的确定数据异常的方法,其中所述预处理为如下数据变换中的一种:对数变换、平方根变换、倒数变换和平方根反正弦变换。
7.一种确定数据异常的装置,包括:
第一获取单元,配置为,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;
第二获取单元,配置为,获取所述待检测数据的多个历史数据,作为对比数据组;
第一检验单元,配置为,对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及
第一确定单元,配置为,根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。
8.根据权利要求7所述的确定数据异常的装置,其中,所述获取所述待检测数据的多个历史数据,作为对比数据组包括:获取所述待检测数据的多组历史数据,对其中每两组历史数据进行第二两组间显著性检验,并根据所述第二两组间显著性检验的检验结果,确定无异常的一组历史数据,作为所述对比数据组。
9.根据权利要求7所述的确定数据异常的装置,还包括:
划分单元,配置为,在根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组,
第二检验单元,配置为,对每个所述第二待检测数据组与所述对比数据组进行第三两组间显著性检验,以及
第二确定单元,配置为,根据所述第三两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。
10.根据权利要求7-9中任一项所述的确定数据异常的装置,其中所述第一、第二和第三两组间显著性检验各自是以下检验中的一种:t检验、z检验和t’检验。
11.根据权利要求7所述的确定数据异常的装置,还包括预处理单元,配置为,在对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。
12.根据权利要求11所述的确定数据异常的装置,其中所述预处理为如下数据变换中的一种:对数变换、平方根变换、倒数变换和平方根反正弦变换。
13.一种计算机可读的存储介质,其上存储有指令代码,所述指令代码在计算机中执行时,令计算机执行权利要求1-6中任一项所述的方法。
CN201810078842.7A 2018-01-26 2018-01-26 确定数据异常的方法和装置 Active CN108334417B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201810078842.7A CN108334417B (zh) 2018-01-26 2018-01-26 确定数据异常的方法和装置
TW107141072A TWI703455B (zh) 2018-01-26 2018-11-19 確定資料異常的方法和裝置
SG11202004544YA SG11202004544YA (en) 2018-01-26 2019-01-25 Method and apparatus for determining data exception
US16/257,741 US11061994B2 (en) 2018-01-26 2019-01-25 Abnormal data detection
EP19707913.0A EP3695329A1 (en) 2018-01-26 2019-01-25 Method and apparatus for determining data exception
PCT/US2019/015182 WO2019147957A1 (en) 2018-01-26 2019-01-25 Method and apparatus for determining data exception
US16/722,946 US11003739B2 (en) 2018-01-26 2019-12-20 Abnormal data detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810078842.7A CN108334417B (zh) 2018-01-26 2018-01-26 确定数据异常的方法和装置

Publications (2)

Publication Number Publication Date
CN108334417A true CN108334417A (zh) 2018-07-27
CN108334417B CN108334417B (zh) 2021-03-02

Family

ID=62925963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810078842.7A Active CN108334417B (zh) 2018-01-26 2018-01-26 确定数据异常的方法和装置

Country Status (6)

Country Link
US (2) US11061994B2 (zh)
EP (1) EP3695329A1 (zh)
CN (1) CN108334417B (zh)
SG (1) SG11202004544YA (zh)
TW (1) TWI703455B (zh)
WO (1) WO2019147957A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325059A (zh) * 2018-12-03 2019-02-12 枘熠集成电路(上海)有限公司 一种数据比较方法及装置
CN109872813A (zh) * 2019-01-24 2019-06-11 广州金域医学检验中心有限公司 检测***阳性率评估方法及装置、计算机可读存储介质
CN110377491A (zh) * 2019-07-10 2019-10-25 ***股份有限公司 一种数据异常检测方法及装置
CN112597144A (zh) * 2020-12-29 2021-04-02 农业农村部环境保护科研监测所 一种产地环境监测数据的自动化清洗方法
CN114666123A (zh) * 2022-03-21 2022-06-24 阿里云计算有限公司 异常对象识别方法及装置
CN114666123B (zh) * 2022-03-21 2024-07-16 阿里云计算有限公司 异常对象识别方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334417B (zh) 2018-01-26 2021-03-02 创新先进技术有限公司 确定数据异常的方法和装置
KR102131922B1 (ko) * 2018-08-29 2020-07-08 국방과학연구소 복수의 주변 디바이스로부터 데이터를 수신하는 방법 및 디바이스
CN112433932B (zh) * 2019-08-26 2024-05-28 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机存储介质
US11651031B2 (en) * 2020-08-10 2023-05-16 International Business Machines Corporation Abnormal data detection
CN113360308A (zh) * 2021-05-31 2021-09-07 珠海大横琴科技发展有限公司 一种异常事件处理方法和装置
CN114692760B (zh) * 2022-03-30 2023-03-24 中国民航科学技术研究院 下降率估算模型构建、下降率估算方法、装置及电子设备
CN115150196B (zh) * 2022-09-01 2022-11-18 北京金睛云华科技有限公司 正态分布下基于密文数据的异常检测方法、装置和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164318A (zh) * 2011-12-13 2013-06-19 ***股份有限公司 联机***的自动化健康检查方法和装置
CN105279386A (zh) * 2015-11-16 2016-01-27 拉扎斯网络科技(上海)有限公司 一种指标异常数据确定的方法及装置
CN105589796A (zh) * 2014-12-31 2016-05-18 ***股份有限公司 用于监测信息交互数据异常的方法
CN105700989A (zh) * 2016-01-13 2016-06-22 焦点科技股份有限公司 一种日志文件的异常检测与处理的方法与装置
CN106202389A (zh) * 2016-07-08 2016-12-07 ***股份有限公司 一种基于交易数据的异常监测方法及装置
CN106446697A (zh) * 2016-07-26 2017-02-22 邬超 隐私数据的保存方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2648796B2 (ja) 1993-10-12 1997-09-03 富士通株式会社 データ伝送異常検出方式およびデータ伝送機器
JP3996428B2 (ja) 2001-12-25 2007-10-24 松下電器産業株式会社 異常検知装置及び異常検知システム
US7099320B1 (en) 2002-04-19 2006-08-29 Conxion Corporation Method and apparatus for detection of and response to abnormal data streams in high bandwidth data pipes
US20040142351A1 (en) * 2002-10-24 2004-07-22 Oklahoma Medical Research Foundation Associative analysis of gene expression array data
TWM334411U (en) * 2007-12-19 2008-06-11 Hsiuping Inst Technology Automatic test and efficiency real-time monitoring apparatus of production line
US8730056B2 (en) * 2008-11-11 2014-05-20 Itron, Inc. System and method of high volume import, validation and estimation of meter data
JP2010165242A (ja) 2009-01-16 2010-07-29 Hitachi Cable Ltd 稼動体の異常検出方法及び異常検出システム
US10204376B2 (en) * 2010-10-20 2019-02-12 Fis Financial Compliance Solutions, Llc System and method for presenting multivariate information
US10241887B2 (en) 2013-03-29 2019-03-26 Vmware, Inc. Data-agnostic anomaly detection
HUE061261T2 (hu) 2013-04-03 2023-05-28 Sequenom Inc Eljárások és folyamatok genetikai variánsok nem invazív értékelésére
US20170012775A1 (en) 2014-10-17 2017-01-12 Philip J. Lafer Encryption Methods and Apparatus
TWM508860U (zh) * 2014-11-27 2015-09-11 Avancetec Co Ltd 精準落點分析之賽鴿查詢系統
WO2017184614A1 (en) 2016-04-20 2017-10-26 S.C. Johnson & Son, Inc. Foaming antimicrobial compositions
FI127416B (en) * 2016-09-29 2018-05-31 Oy Medix Biochemica Ab Cardiovascular risk assessment method
CN108334417B (zh) 2018-01-26 2021-03-02 创新先进技术有限公司 确定数据异常的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164318A (zh) * 2011-12-13 2013-06-19 ***股份有限公司 联机***的自动化健康检查方法和装置
CN105589796A (zh) * 2014-12-31 2016-05-18 ***股份有限公司 用于监测信息交互数据异常的方法
CN105279386A (zh) * 2015-11-16 2016-01-27 拉扎斯网络科技(上海)有限公司 一种指标异常数据确定的方法及装置
CN105700989A (zh) * 2016-01-13 2016-06-22 焦点科技股份有限公司 一种日志文件的异常检测与处理的方法与装置
CN106202389A (zh) * 2016-07-08 2016-12-07 ***股份有限公司 一种基于交易数据的异常监测方法及装置
CN106446697A (zh) * 2016-07-26 2017-02-22 邬超 隐私数据的保存方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325059A (zh) * 2018-12-03 2019-02-12 枘熠集成电路(上海)有限公司 一种数据比较方法及装置
CN109872813A (zh) * 2019-01-24 2019-06-11 广州金域医学检验中心有限公司 检测***阳性率评估方法及装置、计算机可读存储介质
CN110377491A (zh) * 2019-07-10 2019-10-25 ***股份有限公司 一种数据异常检测方法及装置
CN112597144A (zh) * 2020-12-29 2021-04-02 农业农村部环境保护科研监测所 一种产地环境监测数据的自动化清洗方法
CN112597144B (zh) * 2020-12-29 2022-11-08 农业农村部环境保护科研监测所 一种产地环境监测数据的自动化清洗方法
CN114666123A (zh) * 2022-03-21 2022-06-24 阿里云计算有限公司 异常对象识别方法及装置
CN114666123B (zh) * 2022-03-21 2024-07-16 阿里云计算有限公司 异常对象识别方法及装置

Also Published As

Publication number Publication date
US11003739B2 (en) 2021-05-11
CN108334417B (zh) 2021-03-02
EP3695329A1 (en) 2020-08-19
TWI703455B (zh) 2020-09-01
TW201933151A (zh) 2019-08-16
US20190236114A1 (en) 2019-08-01
WO2019147957A1 (en) 2019-08-01
US20200133999A1 (en) 2020-04-30
US11061994B2 (en) 2021-07-13
SG11202004544YA (en) 2020-06-29

Similar Documents

Publication Publication Date Title
CN108334417A (zh) 确定数据异常的方法和装置
US10783457B2 (en) Method for determining risk preference of user, information recommendation method, and apparatus
Berger et al. A roadmap to using randomization in clinical trials
US8666861B2 (en) Software and methods for risk and fraud mitigation
US11308497B2 (en) Detecting fraud using machine-learning
US7124054B2 (en) System and method for mining model accuracy display
CN109685454A (zh) 数据审核方法、装置、设备及存储介质
CN112529575B (zh) 风险预警方法、设备、存储介质及装置
Ding et al. Subgroup mixable inference on treatment efficacy in mixture populations, with an application to time‐to‐event outcomes
CN111915427A (zh) 数据处理方法、装置、电子设备及存储介质
CN110503567A (zh) 数据校验方法、设备、存储介质及装置
AU2014203818B9 (en) Fraud management system and method
CN113077247A (zh) 一种电商平台支付风控方法及装置
Kaseniit et al. Strategies to minimize false positives and interpret novel microdeletions based on maternal copy-number variants in 87,000 noninvasive prenatal screens
CN109800889A (zh) 特征对机器学习模型的输出结果的贡献评估方法
CN114066513A (zh) 一种用户分类的方法和装置
CN114757757A (zh) 一种风控方法
KR102282144B1 (ko) 기업 가치 평가 시스템
Baiocchi Monte Carlo methods in environmental economics
CN114880369A (zh) 一种基于弱数据技术的风险授信方法和***
CN112632543B (zh) 一种区块链信息内容安全事件的监管方法、装置及终端
CA2662200A1 (en) Request for quote system and method
US20190005504A1 (en) Dynamic gating fraud control system
WO2024113317A1 (en) Computer-based systems and methods for building and implementing attack narrative tree to improve successful fraud detection and prevention
Ogungbenro et al. Sample‐size calculations for multi‐group comparison in population pharmacokinetic experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201015

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201015

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant