CN111199018A - 异常数据检测方法、装置、存储介质及电子设备 - Google Patents

异常数据检测方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111199018A
CN111199018A CN201911381944.7A CN201911381944A CN111199018A CN 111199018 A CN111199018 A CN 111199018A CN 201911381944 A CN201911381944 A CN 201911381944A CN 111199018 A CN111199018 A CN 111199018A
Authority
CN
China
Prior art keywords
service
data curve
time period
traffic
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911381944.7A
Other languages
English (en)
Other versions
CN111199018B (zh
Inventor
任卫杰
张德阳
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911381944.7A priority Critical patent/CN111199018B/zh
Publication of CN111199018A publication Critical patent/CN111199018A/zh
Application granted granted Critical
Publication of CN111199018B publication Critical patent/CN111199018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Economics (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开涉及一种异常数据检测方法、装置、存储介质及电子设备,用于解决利用现有技术进行数据运维成本较高的技术问题。该方法包括:获取预设时段的业务数据曲线特征,该业务数据曲线特征包括业务周期类型信息;根据业务周期类型信息从多组业务阈值基线中,确定与业务周期类型信息对应的目标业务阈值基线,其中,每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测;若业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定预设时段内存在业务数据异常。

Description

异常数据检测方法、装置、存储介质及电子设备
技术领域
本公开涉及运维监控技术领域,具体地,涉及一种异常数据检测方法、装置、存储介质及电子设备。
背景技术
IT运维管理是确保应用***正常运行的重要技术支撑部分,银联商务***为了保障服务质量和数据可靠性,需要对核心业务指标进行实时监控,根据数据的异常波动情况可以及时发现***运行的不稳定因素,避免造成巨大的经济损失。在现有技术中,运维人员每天面对着各项业务指标的交易数据,通常基于自身经验手动维护各项业务指标的报警阈值,若发现交易数据波动异常(如交易量陡降),则在最短时间内定位故障原因,以恢复服务的正常运转。但在该方式中数据运维成本较高,不但对运维人员的知识储备要求严格,而且不能灵活地对不同交易情况下业务指标做出准确的评估。
发明内容
本公开的目的是提供一种异常数据检测方法、装置、存储介质及电子设备,用以解决利用现有技术进行数据运维成本较高的技术问题。
为了实现上述目的,本公开第一方面提供一种异常数据检测方法,所述方法包括:
获取预设时段的业务数据曲线特征,所述业务数据曲线特征包括业务周期类型信息;
根据所述业务周期类型信息从多组业务阈值基线中,确定与所述业务周期类型信息对应的目标业务阈值基线,其中,每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测;
若所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定所述预设时段内存在业务数据异常。
可选地,所述方法还包括业务数据曲线特征的形变量的计算方法,包括:
计算所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的相异度;
基于所述相异度确定所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量。
可选地,所述计算所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的相异度,包括:
通过如下公式计算所述相异度k:
Figure BDA0002342479520000021
其中,RNCC表示归一化互相关系数,Dr表示预设时段的业务数据曲线特征值,Db表示目标业务阈值基线中与预设时段对应时段的业务数据曲线特征值,
Figure BDA0002342479520000022
表示在全周期内目标业务阈值基线中所有业务数据曲线特征值的均值。
可选地,所述基于所述相异度确定所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量,包括:
在所述相异度小于等于基准相异度时,输出所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为零值。
本公开第二方面提供一种异常数据检测装置,所述装置包括:
数据获取模块,用于获取预设时段的业务数据曲线特征,所述业务数据曲线特征包括业务周期类型信息;
基线确定模块,用于根据所述业务周期类型信息从多组业务阈值基线中,确定与所述业务周期类型信息对应的目标业务阈值基线,其中,每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测;
异常检测模块,用于若所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定所述预设时段内存在业务数据异常。
可选地,所述异常检测模块包括:
计算子模块,用于计算所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的相异度;
确定子模块,用于基于所述相异度确定所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量。
可选地,所述计算子模块用于通过如下公式计算所述相异度k:
Figure BDA0002342479520000031
其中,RNCC表示归一化互相关系数,Dr表示预设时段的业务数据曲线特征值,Db表示目标业务阈值基线中与预设时段对应时段的业务数据曲线特征值,
Figure BDA0002342479520000032
表示在全周期内目标业务阈值基线中所有业务数据曲线特征值的均值。
可选地,所述确定子模块用于在所述相异度小于等于基准相异度时,输出所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为零值。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的异常数据检测方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的异常数据检测方法的步骤。
根据上述技术方案,针对不同业务周期类型的业务数据曲线特征,采用不同的业务阈值基线进行计算评估,可以确定该业务数据曲线特征对应预设时段内是否存在业务数据异常。这样,通过预先标定每一业务周期类型对应的业务阈值基线,***自动分析业务数据曲线特征的形变量以判断是否存在业务数据异常,可以避免静态设置检测阈值导致灵活性低的问题,又可以避免动态设置检测阈值导致数据计算过程复杂的问题;自适应对不同交易情况下的业务数据曲线特征做出合理准确的评估,不但可以降低数据运维的人力成本,减轻运维人员的工作负担,还避免了由于运维人员经验不足可能导致的判断失误,提高了异常数据检测的效率与准确率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种异常数据检测方法的流程图;
图2是本公开实施例提供的一种业务数据曲线特征的形变量的计算方法的流程图;
图3是本公开实施例提供的一种业务周期类型的实时业务数据曲线、目标业务阈值基线及对应的相异度曲线图;
图4是本公开实施例提供的一种异常数据检测装置的框图;
图5是本公开实施例提供的一种异常数据检测装置的异常检测模块的框图;
图6是本公开实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
为了保障银联商务***服务的稳定性和数据的可靠性,运维人员需要对各项业务指标的交易数据进行实时监控,并基于自身经验手动维护各项业务指标的报警阈值,若发现交易数据波动异常(如交易量陡降),则在最短时间内定位故障原因,以恢复服务的正常运转,避免***服务的不稳定运行可能导致的巨大经济损失。
本公开实施例提供一种异常数据检测方法、装置、存储介质及电子设备,可以应用于上述银联商务***,用于解决利用现有技术进行数据运维成本较高的技术问题,下面结合具体实施例对本公开提供的技术方案进行详细说明。
图1是本公开实施例提供的一种异常数据检测方法的流程图,如图1所示,该方法包括以下步骤:
S11、获取预设时段的业务数据曲线特征。
示例地,业务数据包括核心存款比例、贷款总额与总资产的比例、流动资产与总资产的比例、易变负债与总资产的比例中的一种或多种,业务数据曲线特征可以是由预设时段内的单个维度的KPI(Key Performance Indicator,关键绩效指标)值或包含多个数据维度的KPI向量按照时间顺序排列构成的业务数据曲线的特征,获取到的业务数据曲线特征包括数据曲线的边缘特征、轮廓特征或纹理特征中的至少一者,用于表征业务数据在预设时段内的波动趋势。例如,业务数据曲线特征可以是HOG(Histogram of OrientedGradient,方向梯度直方图)特征,还可以是SIFT(Scale-invariant feature transform,尺度不变特征变换)特征。
其中,业务数据曲线特征还包括业务周期类型信息,业务周期类型表示根据银联业务数据分布特点及规模所划分的多种数据场景类型,例如业务周期类型包括但不限于工作日、双休日、小长假以及典型日期。例如,对于2019年11月11日14:00至2019年11月11日14:01时段内获取到的若干个业务数据,其对应的业务周期类型信息为典型日期。
需要说明的是,预设时段持续时长可以根据人为经验进行合理设置,预设时段的间隔时长可以反映用户对风险承受能力的大小。例如,预设时段的间隔时长可以设置为1min,或者可以设置为5min,其中,每5min获取一次业务数据曲线特征进行异常数据检测的风险把控难度大于每1min获取一次业务数据曲线特征进行异常检测的风险把控难度。
S12、根据业务周期类型信息从多组业务阈值基线中,确定与业务周期类型信息对应的目标业务阈值基线。
具体地,对于银联商务***核心业务指标通常表现出以下特点:
1、每项业务指标呈现出较强的趋势性、周期性,例如午晚高峰陡升明显,凌晨期间为数值低峰期;
2、同一业务指标在不同业务周期类型下交易数据波动趋势区别较明显。
在本公开实施例中,将***平台采集到的某项业务指标的历史KPI序列数据作为训练数据集,对训练数据集进行数据预处理,该数据预处理操作包括异常数据清洗以及数据平滑处理,以消除线上营销活动带来的噪声干扰,有助于提高训练数据集的有效性,然后按照业务周期类型对预处理后的KPI序列数据进行分类得到每一业务周期类型的历史KPI序列数据集合,基于同一业务周期类型的多个业务周期的同一时刻对应的多个KPI数据,计算得到该时刻的多个KPI数据的均值,重复上述计算过程即可确定该业务周期类型的整个周期中每一时刻的KPI数据均值。另外,也可以基于上述训练数据集结合TSD(Time SeriesData,时间序列数据)预测模型或者小波分解预测模型预测得到该业务周期类型下业务指标的在整个周期内每一时刻的KPI数据均值。
将任一种方式得到的每一时刻的KPI数据均值作为对应时刻的指标阈值数据,并按照时间顺序对每一指标阈值数据进行排列绘制得到业务阈值基线,该业务阈值基线可以体现业务***处于平稳运行状态、不出现任何故障时某项业务指标成交量的基本波动趋势,其中主要包括三种波动趋势:上涨趋势、下跌趋势以及无波动。因而,通过上述方法得到的每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测。对应地,根据业务阈值基线与业务周期类型之间存在预设的对应关系,业务阈值基线上任一时刻的指标阈值数据可以是单个维度的KPI值,也可以是包含多个数据维度的KPI向量。根据业务阈值基线与业务周期类型之间存在预设的对应关系,即可确定与预设时段内业务数据的业务周期类型对应的目标业务阈值基线。例如,业务阈值基线与业务数据的业务周期类型之间一种预设对应关系为当业务周期类型为工作日时,对应的业务阈值基线为参数曲线B;当业务周期类型为双休日时,对应的业务阈值基线为参数曲线C;当业务周期类型为小长假时,对应的业务阈值基线为参数曲线D;当业务周期类型为典型日期时,对应的业务阈值基线为参数曲线E。这样,对于2019年11月11日14:00至2019年11月11日14:01时段内获取到的若干个业务数据,其对应的业务周期类型信息为典型日期,则对应的目标业务阈值基线为参数曲线E。
举例说明,对于业务周期类型为工作日的“贷款总额”这项业务指标,通过上述方法步骤计算得到全周期24小时内每一整点时刻的KPI数据均值分别为(149,91,61,41,29,29,74,234,631,974,1149,1237,1263,1046,1059,1106,1164,1271,1369,1266,1164,927,445,215),单位“百万”,则将每一整点时刻的KPI数据均值分别作为“贷款总额”这一业务指标的对应整点时刻的指标阈值数据,并按照时间顺序对每一指标阈值数据进行排列,可以绘制得到如图3所示的业务阈值基线K0,该业务阈值基线K0即业务周期类型为工作日的“贷款总额”这一业务指标所对应的目标业务阈值基线,用于表征业务***处于平稳运行状态、不出现任何故障时,“贷款总额”这一业务指标成交量的基本波动趋势。
对于2019年11月12日00:00至2019年11月13日00:00时段内获取到的“贷款总额”这项业务指标在每一整点时刻的KPI数据(152,89,82,40,29,30,76,232,631,980,1470,1157,1253,996,1055,1127,1172,1150,1411,1257,1136,940,429,223),单位“百万”,按照时间顺序对每一KPI数据进行排列,可以绘制得到如图3所示的实时业务数据曲线K1,该实时业务数据曲线K1对应的业务周期类型信息为工作日。因此,业务阈值基线K0适用于对实时业务数据曲线K1包括的业务数据曲线特征进行异常检测。
值得说明的是,本公开实施例训练得到的业务阈值基线主要关注曲线形状,而非具体数值。
S13、若业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定预设时段内存在业务数据异常。
具体地,图2是本公开实施例提供的一种业务数据曲线特征的形变量的计算方法的流程图,如图2所示,业务数据曲线特征的形变量的计算方法包括步骤S21和步骤S22,其中:
S21、计算业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的相异度。
在一种可能的实施方式中,业务数据曲线特征为多维向量,业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的相异度表示为(1-RNCC),RNCC表示归一化互相关系数,该归一化互相关系数可以通过如下公式计算:
Figure BDA0002342479520000091
其中,f(n)表示目标业务阈值基线中对应n时刻的业务数据,g(n)表示实时业务数据曲线中对应n时刻的业务数据,u为时间窗口起点,W为时间窗口大小,τ为时间偏移参数,[τ1,τ2]为时间偏移参数的取值范围。那么,在时刻u至时刻u+W-1的预设时段内,目标业务阈值基线中业务数据曲线特征可以表示为向量f=[f(u),f(u+1)...f(u+W-1)],实时业务数据曲线中业务数据曲线特征可以表示为向量g=[g(u),g(u+1)...g(u+W-1]。
例如,设定W=3,τ∈[-1,1],业务数据曲线特征向量与时间偏移参数对应关系如下表所示:
表1业务数据曲线特征向量与时间偏移参数对应关系示例1
τ=-1 τ=0 τ=1
f<sub>1</sub> (1,2,3) (1,2,3) (1,2,3)
g<sub>1</sub> (2,3) (2,3,2) (3,2,4)
表2业务数据曲线特征向量与时间偏移参数对应关系示例2
τ=-1 τ=0 τ=1
f<sub>2</sub> (2,3,4) (2,3,4) (2,3,4)
g<sub>2</sub> (2,3,2) (3,2,4) (2,4,6)
由表1可知,当τ=-1时,f1=(1,2,3),g1=(2,3),由于向量f1、g1维度不同,无法计算两者之间的归一化互相关系数RNCC;当τ=0时,f1=(1,2,3),g1=(2,3,2)此时计算得到向量f1、g1之间的归一化互相关系数
Figure BDA0002342479520000092
同样地,由表2可知,当τ=-1时,f2=(2,3,4),g2=(2,3,2),此时计算得到向量f2、g2之间的归一化互相关系数
Figure BDA0002342479520000093
当τ=0时,f2=(2,3,4),g2=(3,2,4),此时计算得到向量f2、g2之间的归一化互相关系数RNCC=0.72;当τ=1时,f2=(2,3,4),g2=(2,4,6),此时计算得到向量f2、g2之间的归一化互相关系数RNCC=0.25。通过在一定范围内调整时间偏移参数τ,计算得到相应的归一化互相关系数RNCC,并选取其中最大的数值作为f2与g2之间的最终RNCC,这样可以减小时间偏移对计算结果的影响,提高了归一化互相关系数RNCC的准确性。
因此,按照上述方法步骤可以计算得到实时业务数据曲线中预设时段的业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的归一化互相关系数RNCC,进一步可以得到两者的相异度(1-RNCC),该相异度(1-RNCC)表征实时业务数据曲线中预设时段的业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的差异性大小。按照时间顺序对每一相异度(1-RNCC)数据进行排列,可以绘制得到如图3所示的曲线K2,即实时业务数据曲线K1与目标业务阈值基线K0之间的相异度曲线图。若某一预设时段计算得到的相异度数值大于预设相异度阈值,则可以确定预设时段内存在业务数据异常。
在另一种可能的实施方式中,为了减少业务数据量级对相异度结果的影响,通过如下公式计算对相异度k:
Figure BDA0002342479520000101
其中,RNCC表示归一化互相关系数,计算公式与上一实施例中公开的相同。Dr表示预设时段的业务数据曲线特征值,Db表示目标业务阈值基线中与预设时段对应时段的业务数据曲线特征值表示,
Figure BDA0002342479520000102
表示在全周期内目标业务阈值基线中所有业务数据曲线特征值的均值。
例如,全周期内目标业务阈值基线中所有业务数据曲线特征值分别为(1,2,3,4,3,5,2,1),对于业务数据曲线特征f2=(2,3,4),g2=(2,3,2),当前时刻业务数据值等于3,相应地,业务阈值基线上对应时刻的指标阈值数据等于3,此时计算得到向量f2、g2之间的归一化互相关系数
Figure BDA0002342479520000111
Figure BDA0002342479520000112
根据相异度k计算公式可以计算得到实时业务数据曲线中预设时段的业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的相异度:
Figure BDA0002342479520000113
采用该种计算方法可以减弱如凌晨时段的业务数据数量级较小造成相异度与实际感受差异误差较大的情况。如图3所示,经过上述方法计算得到实时业务数据曲线K1和目标业务阈值基线K0之间的相异度曲线为曲线K3,根据曲线K3进行异常数据报警可以减少误报情况的发生,提高了异常数据检测的准确性。
S22、基于相异度确定业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量。
示例地,在计算得到实时业务数据和目标业务阈值基线之间的相异度k之后,通过以下公式确定业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量f(k):
Figure BDA0002342479520000114
其中,kmin表示基准相异度,基准相异度kmin可以根据服务***标准进行自行设定,表示对相异度k浮动程度的可接受能力。由此可知,在相异度小于等于基准相异度时,输出业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为零值,表示预设时段内不存在业务数据异常;在相异度大于基准相异度时,输出业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量等于相异度k的非零值,表示预设时段内存在业务数据异常,且根据k的具体数值可以直接确定告警等级。例如,kmin=0.5,若|k|≤0.5,则形变量f(k)=0;若|k|>0.5,则形变量f(k)=k,当0.5<k≤1时,为蓝色告警,当1<k≤3时为橙色告警,当k>3时为红色告警。因此,通过判断形变量是否为零值即可确定预设时段内是否存在业务数据异常,形变量为非零值时可以直接确定具体告警程度,这样对业务数据进行异常检测,判断方式简单便捷,且形变量计算方法包容性好,可以减少数据的合理波动所造成的误报现象。
综上,针对不同业务周期类型的业务数据曲线特征,采用不同的业务阈值基线进行计算评估,可以确定该业务数据曲线特征对应预设时段内是否存在业务数据异常。这样,通过预先标定每一业务周期类型对应的业务阈值基线,***自动分析业务数据曲线特征的形变量以判断是否存在业务数据异常,可以避免静态设置检测阈值导致灵活性低的问题,又可以避免动态设置检测阈值导致数据计算过程复杂的问题;自适应对不同交易情况下的业务数据曲线特征做出合理准确的评估,不但可以降低数据运维的人力成本,减轻运维人员的工作负担,还避免了由于运维人员经验不足可能导致的判断失误,提高了异常数据检测的效率与准确率。
图4是本公开实施例提供的一种异常数据检测装置的框图,该装置400可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。参照图4,该装置400包括:
数据获取模块41,用于获取预设时段的业务数据曲线特征,业务数据曲线特征包括业务周期类型信息;
基线确定模块42,用于根据业务周期类型信息从多组业务阈值基线中,确定与业务周期类型信息对应的目标业务阈值基线,其中,每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测;
异常检测模块43,用于若业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定预设时段内存在业务数据异常。
具体地,如图5所示,异常检测模块43包括计算子模块431以及确定子模块432。其中,计算子模块431用于计算业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的相异度,确定子模块432用于基于相异度确定业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量。
可选地,计算子模块431用于通过如下公式计算相异度k:
Figure BDA0002342479520000131
其中,RNCC表示归一化互相关系数,Dr表示预设时段的业务数据曲线特征值,Db表示目标业务阈值基线中与预设时段对应时段的业务数据曲线特征值,
Figure BDA0002342479520000132
表示在全周期内目标业务阈值基线中所有业务数据曲线特征值的均值。
可选地,确定子模块432用于在相异度小于等于基准相异度时,输出业务数据曲线特征与目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为零值。
采用上述装置,利用基线确定模块针对不同业务周期类型的业务数据曲线特征,选取不同的业务阈值基线进行计算评估,异常检测模块可以确定该业务数据曲线特征对应预设时段内是否存在业务数据异常。这样,通过预先标定每一业务周期类型对应的业务阈值基线,自动分析业务数据曲线特征的形变量以判断是否存在业务数据异常,可以避免静态设置检测阈值导致灵活性低的问题,又可以避免动态设置检测阈值导致数据计算过程复杂的问题;自适应对不同交易情况下的业务数据曲线特征做出合理准确的评估,不但可以降低数据运维的人力成本,减轻运维人员的工作负担,还避免了由于运维人员经验不足可能导致的判断失误,提高了异常数据检测的效率与准确率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备600的框图。如图6所示,该电子设备600可以包括:处理器601,存储器602。该电子设备600还可以包括多媒体组件603,输入/输出(I/O)接口604,以及通信组件605中的一者或多者。
其中,处理器601用于控制该电子设备600的整体操作,以完成上述的异常数据检测方法中的全部或部分步骤。存储器602用于存储各种类型的数据以支持在该电子设备600的操作,这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件603可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器602或通过通信组件605发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口604为处理器601和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件605用于该电子设备600与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件605可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的异常数据检测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的异常数据检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器602,上述程序指令可由电子设备600的处理器601执行以完成上述的异常数据检测方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种异常数据检测方法,其特征在于,所述方法包括:
获取预设时段的业务数据曲线特征,所述业务数据曲线特征包括业务周期类型信息;
根据所述业务周期类型信息从多组业务阈值基线中,确定与所述业务周期类型信息对应的目标业务阈值基线,其中,每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测;
若所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定所述预设时段内存在业务数据异常。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括业务数据曲线特征的形变量的计算方法,包括:
计算所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的相异度;
基于所述相异度确定所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量。
3.根据权利要求2所述的方法,其特征在于,所述计算所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的相异度,包括:
通过如下公式计算所述相异度k:
Figure FDA0002342479510000011
其中,RNCC表示归一化互相关系数,Dr表示预设时段的业务数据曲线特征值,Db表示目标业务阈值基线中与预设时段对应时段的业务数据曲线特征值,
Figure FDA0002342479510000012
表示在全周期内目标业务阈值基线中所有业务数据曲线特征值的均值。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述相异度确定所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量,包括:
在所述相异度小于等于基准相异度时,输出所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为零值。
5.一种异常数据检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取预设时段的业务数据曲线特征,所述业务数据曲线特征包括业务周期类型信息;
基线确定模块,用于根据所述业务周期类型信息从多组业务阈值基线中,确定与所述业务周期类型信息对应的目标业务阈值基线,其中,每一组业务阈值基线适用于对对应业务周期类型的业务数据曲线特征进行异常检测;
异常检测模块,用于若所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为非零值,则确定所述预设时段内存在业务数据异常。
6.根据权利要求5所述的装置,其特征在于,所述异常检测模块包括:
计算子模块,用于计算所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的相异度;
确定子模块,用于基于所述相异度确定所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量。
7.根据权利要求6所述的装置,其特征在于,所述计算子模块用于通过如下公式计算所述相异度k:
Figure FDA0002342479510000031
其中,RNCC表示归一化互相关系数,Dr表示预设时段的业务数据曲线特征值,Db表示目标业务阈值基线中与预设时段对应时段的业务数据曲线特征值,
Figure FDA0002342479510000032
表示在全周期内目标业务阈值基线中所有业务数据曲线特征值的均值。
8.根据权利要求6或7所述的装置,其特征在于,所述确定子模块用于在所述相异度小于等于基准相异度时,输出所述业务数据曲线特征与所述目标业务阈值基线中、相同时段的业务数据曲线特征的形变量为零值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至4中任一项所述方法的步骤。
CN201911381944.7A 2019-12-27 2019-12-27 异常数据检测方法、装置、存储介质及电子设备 Active CN111199018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911381944.7A CN111199018B (zh) 2019-12-27 2019-12-27 异常数据检测方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911381944.7A CN111199018B (zh) 2019-12-27 2019-12-27 异常数据检测方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111199018A true CN111199018A (zh) 2020-05-26
CN111199018B CN111199018B (zh) 2024-03-05

Family

ID=70746422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911381944.7A Active CN111199018B (zh) 2019-12-27 2019-12-27 异常数据检测方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111199018B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380100A (zh) * 2020-12-01 2021-02-19 北京威努特技术有限公司 基于方向偏差的业务异常检测方法、装置和介质
CN112799923A (zh) * 2020-12-24 2021-05-14 深圳前海微众银行股份有限公司 ***异常原因确定方法、装置、设备及存储介质
CN113094197A (zh) * 2021-04-09 2021-07-09 中国工商银行股份有限公司 一种指令提交异常的判断方法、装置、设备和存储介质
CN113595240A (zh) * 2021-06-21 2021-11-02 深圳供电局有限公司 电力数据的检测方法、装置、设备及存储介质
CN113688929A (zh) * 2021-09-01 2021-11-23 睿云奇智(重庆)科技有限公司 预测模型确定方法、装置、电子设备及计算机存储介质
CN113705684A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 反向迭代的异常检测方法、装置、电子设备及介质
WO2022252573A1 (zh) * 2021-05-31 2022-12-08 深圳前海微众银行股份有限公司 一种业务数据的监测方法及装置
CN116243675A (zh) * 2023-05-08 2023-06-09 北京众驰伟业科技发展有限公司 一种血凝仪清洗液生产异常监控方法
CN116610537A (zh) * 2023-07-20 2023-08-18 中债金融估值中心有限公司 一种数据量监控方法、***、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164786A (zh) * 2018-08-24 2019-01-08 杭州安恒信息技术股份有限公司 一种基于时间相关基线的异常行为检测方法、装置及设备
CN109882834A (zh) * 2019-03-27 2019-06-14 新奥数能科技有限公司 锅炉设备的运行数据监测方法及装置
CN110163417A (zh) * 2019-04-26 2019-08-23 阿里巴巴集团控股有限公司 一种业务量的预测方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164786A (zh) * 2018-08-24 2019-01-08 杭州安恒信息技术股份有限公司 一种基于时间相关基线的异常行为检测方法、装置及设备
CN109882834A (zh) * 2019-03-27 2019-06-14 新奥数能科技有限公司 锅炉设备的运行数据监测方法及装置
CN110163417A (zh) * 2019-04-26 2019-08-23 阿里巴巴集团控股有限公司 一种业务量的预测方法、装置及设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380100A (zh) * 2020-12-01 2021-02-19 北京威努特技术有限公司 基于方向偏差的业务异常检测方法、装置和介质
CN112799923A (zh) * 2020-12-24 2021-05-14 深圳前海微众银行股份有限公司 ***异常原因确定方法、装置、设备及存储介质
CN113094197A (zh) * 2021-04-09 2021-07-09 中国工商银行股份有限公司 一种指令提交异常的判断方法、装置、设备和存储介质
WO2022252573A1 (zh) * 2021-05-31 2022-12-08 深圳前海微众银行股份有限公司 一种业务数据的监测方法及装置
CN113595240A (zh) * 2021-06-21 2021-11-02 深圳供电局有限公司 电力数据的检测方法、装置、设备及存储介质
CN113595240B (zh) * 2021-06-21 2024-01-19 深圳供电局有限公司 电力数据的检测方法、装置、设备及存储介质
CN113705684A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 反向迭代的异常检测方法、装置、电子设备及介质
CN113705684B (zh) * 2021-08-30 2023-11-24 平安科技(深圳)有限公司 反向迭代的异常检测方法、装置、电子设备及介质
CN113688929A (zh) * 2021-09-01 2021-11-23 睿云奇智(重庆)科技有限公司 预测模型确定方法、装置、电子设备及计算机存储介质
CN113688929B (zh) * 2021-09-01 2024-02-23 睿云奇智(重庆)科技有限公司 预测模型确定方法、装置、电子设备及计算机存储介质
CN116243675A (zh) * 2023-05-08 2023-06-09 北京众驰伟业科技发展有限公司 一种血凝仪清洗液生产异常监控方法
CN116610537A (zh) * 2023-07-20 2023-08-18 中债金融估值中心有限公司 一种数据量监控方法、***、设备及存储介质
CN116610537B (zh) * 2023-07-20 2023-11-17 中债金融估值中心有限公司 一种数据量监控方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN111199018B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN111199018A (zh) 异常数据检测方法、装置、存储介质及电子设备
CN109034244B (zh) 基于电量曲线特征模型的线损异常诊断方法及装置
CN111143102A (zh) 异常数据检测方法、装置、存储介质及电子设备
CN111064614A (zh) 一种故障根因定位方法、装置、设备及存储介质
CN116633816A (zh) 一种基于企业数字化的传媒展示终端***预警***
CN102158879A (zh) 要因失分的数据处理方法及设备
CN107886009B (zh) 防隐私泄露的大数据生成方法和***
CN110647447B (zh) 用于分布式***的异常实例检测方法、装置、设备和介质
CN106452934B (zh) 一种网络性能指标变化趋势的分析方法和装置
CN112532643B (zh) 基于深度学习的流量异常检测方法、***、终端及介质
WO2024093256A1 (zh) 一种异常根因定位方法、装置、设备及介质
CN107330709B (zh) 确定目标对象的方法及装置
CN115378143B (zh) 电力营销智能稽查***
CN116955068A (zh) 序列相似度计算及告警处理方法、装置以及存储介质
CN107846586B (zh) 视频流质量的监测方法、装置和服务端
CN110764975A (zh) 设备性能的预警方法、装置及监控设备
CN115375886A (zh) 一种基于云计算服务的数据采集方法及***
CN114358548A (zh) 一种确定评价指标的方法、装置及电子设备
CN113656452A (zh) 调用链指标异常的检测方法、装置、电子设备及存储介质
CN114338429B (zh) 网络带宽的确定方法、装置及电子设备
US12045261B2 (en) Method and apparatus for measuring material risk in a data set
CN115001997B (zh) 基于极值理论的智慧城市网络设备性能异常阈值评估方法
CN112612996B (zh) 一种抽样时间粒度选取方法、装置、电子设备及存储介质
RU2475854C1 (ru) Способ определения времени проведения очередного профилактического обслуживания объекта и система для его реализации
CN111626586B (zh) 数据质量检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant