CN113591897A - 一种监控数据异常的检测方法、装置、设备及可读介质 - Google Patents

一种监控数据异常的检测方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN113591897A
CN113591897A CN202110592483.9A CN202110592483A CN113591897A CN 113591897 A CN113591897 A CN 113591897A CN 202110592483 A CN202110592483 A CN 202110592483A CN 113591897 A CN113591897 A CN 113591897A
Authority
CN
China
Prior art keywords
monitoring data
training set
data
features
anomaly detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110592483.9A
Other languages
English (en)
Inventor
苏海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN202110592483.9A priority Critical patent/CN113591897A/zh
Publication of CN113591897A publication Critical patent/CN113591897A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/148Wavelet transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种监控数据异常的检测方法,包括:采集监控数据,并基于滑动窗口对监控数据进行分割以得到训练集和测试集/待检测数据;提取训练集中样本点的小波包分解特征与统计特征以构建监控数据的特征集,并基于卡方检验对特征集中的特征进行选择以排除冗余特征,得到最终训练集;基于最终训练集训练集成学习模型以得到异常检测模型;以及将测试集/待检测数据输入异常检测模型,以得到异常检测结果。本发明还公开了一种监控数据异常的检测装置、计算机设备和可读存储介质。本发明利用小波包分解与统计,提取时序数据中的瞬时变化与整体变化,并进行特征选择与增强,增强了异常检测模型的泛化能力,提高了单维监控数据异常检测的准确率。

Description

一种监控数据异常的检测方法、装置、设备及可读介质
技术领域
本发明涉及云计算平台技术领域,尤其涉及一种监控数据异常的检测 方法、装置、设备及可读介质。
背景技术
云平台也称为云计算平台,是指基于硬件资源和软件资源的服务,提 供计算、网络和存储能力。云平台监控***不间断的从平台中采集大量时 序KPI,例如CPU使用率、网络吞吐量等,来判断云平台的运行状态。
随着云平台技术的越来越成熟,云平台规模也从最初的几台、十几台 上升到几百台甚至上千台,同时云平台自身的服务也越来越多、调用也越 来越复杂,使监控数据具有海量且复杂的特点。
传统云平台中针对KPI的异常监测大多采用阈值的方式,即运维人员 根据经验设置阈值,当KPI数据达到预设阈值时,产生异常告警。但实际 的应用过程中发现,阈值设置太依赖与经验,很难全面对繁杂的KPI准确 设置阈值。阈值太高,会对异常情况产生漏报,质量隐患难以发现;阈值 太低,往往会引发告警风暴,干扰运维人员的判断。另外,对于一些数据 抖动但低于阈值的情况,无法通过这种方式检测,会产生漏报。
综上,单纯基于阈值来判定异常的方式无法满足云平台中异常检测的 需求,这就要求我们使用机器学***台监控中,异常发生概率比较低,难以积累大量异常样本,这 就导致在机器学***稳型、波动型和周期型。在监控*** 中数据模式随业务改变而发生变化,这就要求在针对时序监控数据的异常 检测中,检测模型有足够的泛化能力在不同的数据模式下检测出异常。
发明内容
有鉴于此,本发明实施例的目的在于提出一种监控数据异常的检测方 法、装置、设备及可读介质,使用小波包分解特征与统计特征,提取时序 数据中的瞬时变化与整体变化,并使用卡方检验对特征进行选择,排除了 冗余特征带来的影响,之后使用自适应过采样的方法对特征样本集进行增 强,增强了异常检测模型的泛化能力,提高了单维监控数据异常检测的准 确率。
基于上述目的,本发明实施例的一方面提供了一种监控数据异常的检 测方法,包括以下步骤:采集监控数据,并基于滑动窗口对所述监控数据 进行分割以得到训练集和测试集/待检测数据;提取所述训练集中样本点的 小波包分解特征与统计特征以构建所述监控数据的特征集,并基于卡方检 验对所述特征集中的特征进行选择以排除冗余特征,得到最终训练集;基 于所述最终训练集对集成学习模型进行训练以得到异常检测模型;以及将所述测试集/待检测数据输入所述异常检测模型,以得到异常检测结果。
在一些实施方式中,提取所述训练集中样本点的小波包分解特征与统 计特征以构建所述监控数据的特征集包括:提取所述训练集中样本点的小 波包分解特征以表述所述监控数据的瞬时变化;提取所述训练集中样本点 的统计特征以表述所述监控数据的整体变化。
在一些实施方式中,提取所述训练集中样本点的小波包分解特征以表 述所述监控数据的瞬时变化包括:基于三层小波包分解将每个样本点的通 频带分解为八个频带,所述频带表述所述监控数据的瞬时变化信息。
在一些实施方式中,提取所述训练集中样本点的统计特征以表述所述 监控数据的整体变化包括:提取所述训练集中样本的统计特征,所述统计 特征包括由最大值、最小值、均值、中位数、标准差、均方值和能量值构 成的七维特征向量。
在一些实施方式中,基于卡方检验对所述特征集中的特征进行选择以 排除冗余特征,得到最终训练集还包括:基于卡方检验对所述特征集中的 特征进行选择以排除冗余特征,并使用自适应过采样的方法对特征集进行 增强以平衡正常样本与异常样本的比例,得到最终训练集。
在一些实施方式中,采集监控数据,基于滑动窗口对所述监控数据进 行分割以得到训练集和测试集/待检测数据包括:通过采集工具采集云平台 的监控数据,并对异常点进行标注;基于滑动窗口对所述监控数据进行分 割以滤除所述监控数据中的缺失点,并分别为正常样本和异常样本进行标 记。
在一些实施方式中,基于所述最终训练集对集成学习模型进行训练以 得到异常检测模型包括:基于极端梯度提升算法和所述最终训练集对集成 学习模型进行训练以得到异常检测模型。
本发明实施例的另一方面,还提供了一种监控数据异常的检测装置, 包括:第一模块,配置用于采集监控数据,并基于滑动窗口对所述监控数 据进行分割以得到训练集和测试集/待检测数据;第二模块,配置用于提取 所述训练集中样本点的小波包分解特征与统计特征以构建所述监控数据的 特征集,并基于卡方检验对所述特征集中的特征进行选择以排除冗余特征, 得到最终训练集;第三模块,配置用于基于所述最终训练集对集成学习模 型进行训练以得到异常检测模型;以及第四模块,配置用于将所述测试集/ 待检测数据输入所述异常检测模型,以得到异常检测结果。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一 个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令, 指令由处理器执行时实现上述方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算 机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:使用小波包分解特征与统计特征,提 取时序数据中的瞬时变化与整体变化,并使用卡方检验对特征进行选择, 排除了冗余特征带来的影响,之后使用自适应过采样的方法对特征样本集 进行增强,增强了异常检测模型的泛化能力,提高了单维监控数据异常检 测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实 施例。
图1为本发明提供的监控数据异常的检测方法的实施例的示意图;
图2为本发明提供的监控数据异常的检测方法的实施例的流程示意图;
图3为本发明提供的小波包分解的二叉树示意图;
图4为本发明提供的监控数据异常的检测装置的实施例的示意图;
图5为本发明提供的计算机设备的实施例的示意图;
图6为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述 均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一” “第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实 施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了监控数据异常的 检测方法的实施例。图1示出的是本发明提供的监控数据异常的检测方法 的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
S01、采集监控数据,并基于滑动窗口对监控数据进行分割以得到训练 集和测试集/待检测数据;
S02、提取训练集中样本点的小波包分解特征与统计特征以构建监控数 据的特征集,并基于卡方检验对特征集中的特征进行选择以排除冗余特征, 得到最终训练集;
S03、基于最终训练集对集成学习模型进行训练以得到异常检测模型; 以及
S04、将测试集/待检测数据输入异常检测模型,以得到异常检测结果。
在本实施例中,适用于多种云平台基础架构的性能优化,例如x86,arm 及mips平台均可适用。图2示出了本发明提供的监控数据异常的检测方法 的实施例的流程示意图,如图2所示,流程包含了数据特征提取、特征选 择、特征提取、XGBoost(Extreme GradientBoosting,极限梯度提升)模型 训练与检测。其中,监控数据预处理包含了监控数据缺失点填充,基于滑 动窗口的数据分割,训练集与测试集划分;特征提取提取样本点中的小波 包分解特征与统计特征,构造异常检测的特征集;特征选择与增强使用卡 方检验对提取的特征进行选择,并使用ADASYN(adaptive synthetic sampling,自适应综合过采样)算法对特征数据集进行增强,平衡正常样本 与异常样本的比例;XGBoost模型训练与参数优化使用训练集训练XGBoost 模型,并对模型参数进行网格搜索,确定模型的最优参数,完成模型训练; XGBoost模型异常检测对测试集或线上数据提取小波包分解特征与统计特 征,将特征输入训练好的模型中,输出异常检测结果。
在本发明的一些实施例中,提取训练集中样本点的小波包分解特征与 统计特征以构建监控数据的特征集包括:提取训练集中样本点的小波包分 解特征以表述监控数据的瞬时变化;提取训练集中样本点的统计特征以表 述监控数据的整体变化。
在本实施例中,在一个时间序列中,时序数据变化有随机性,所以在 进行特征工程是既要考虑时序的瞬时变化,又要考虑数据的整体变化。使 用小波包变换与统计学特征来描述时序数据的特点,小波包变换表述数据 的瞬时变化,统计学特征描述时序数据的整体离散特征。
小波变换是时域分析的代表方法,具有多分辨率特性,小波变换只对 信号的低频部分做进一步分解而对高频部分不再继续分解,这对于包含大 量瞬时信息的时序监控数据来说是不够的。而小波包变换不仅可以分解时 序数据的低频部分,也可以分解数据中的高频部分,所以这种分解方式是 一种更精细时序数据分解方法,提高了时序数据的时域分辨率。
在本发明的一些实施例中,提取训练集中样本点的小波包分解特征以 表述监控数据的瞬时变化包括:基于三层小波包分解将每个样本点的通频 带分解为八个频带,频带表述监控数据的瞬时变化信息。
在本实施例中,图3示出的是本发明提供的小波包分解的二叉树示意 图,如图3所示,小波包分解可用一个完整的二叉树描述,在一个三层的 小波包分解过程中,每个节点表示一个通频带,数字表示小波包的分解层 数,经过小波包分解不但可以覆盖所有原始信号频带,还可以在任意多尺 度分解信号,得到全面的局部信息。经过三层小波包分解后,可以得到时 序数据的8个频带,使用每个频带上的能量特征作为时频特征,特征计算 表述为:
Figure BDA0003089757810000061
其中j表示小波分解后的相应频带,N为数据点数,ni表示 各个频带上的系数。时序数据包含了瞬时变化与整体变化,本文中通过小 波包分析提取时序数据的瞬时变化信息,并进行描述,之后需要提取时序 数据的整体变化信息。
在本发明的一些实施例中,提取训练集中样本点的统计特征以表述监 控数据的整体变化包括:提取训练集中样本的统计特征,统计特征包括由 最大值、最小值、均值、中位数、标准差、均方值和能量值构成的七维特 征向量。
在本实施例中,统计的特点是描述数据的数量性与总体性,可以反映 数据的数量特征,而不是着眼于个别数据,因此本文使用统计特征来描述 样本数据的整体变化。本文中提取的统计特征向量有最大值、最小值、均 值、中位数、标准差、均方值、能量值,构成统计特征维度为7维特征向 量。
在本发明的一些实施例中,基于卡方检验对特征集中的特征进行选择 以排除冗余特征,得到最终训练集还包括:基于卡方检验对特征集中的特 征进行选择以排除冗余特征,并使用自适应过采样的方法对特征集进行增 强以平衡正常样本与异常样本的比例,得到最终训练集。
在本实施例中,提取了数据的小波包变换特征与统计特征,对数据样 本从瞬时与整体两个角度进行描述,但需要知道特征中各个维度对分类任 务的影响程度,由此可以排除冗余特征,减少特征维度,本发明选用卡方 检验对各维度特征进行判定。卡方检验是一种用途很广的特征选择方法, 主要比较两个及两个以上样本及两个分类之间的关联性。使用卡方检验来 测试提取的小波包分解特征和统计特征与正常样本、异常样本分类间的关联性,公式如下:
Figure BDA0003089757810000071
其中A代表实际值,T代表理论值。
在本实施例中,使用的数据中包含的异常样本与正常样本比例失衡, 异常样本比例过少,对于分类任务而言,极易造成模型不可用。研究认为, 两类样本比例为1:1时,分类效果最佳,而本文中的数据,正常样本与异常 样本比例达到了将近20:1。因此本文使用ADASYN算法平衡正常样本与异 常样本比例。ADASYN算法的思想为在异常样本周围计算其K近邻,并对 其K近邻中包含正常样本的比例为权值,依据权值计算合成样本数,并在 异常样本K近邻中随机选择异常样本,公式如下:
s=x+(xz-x)*λ,λ∈[0,1],其中xz为K近邻中选择的随机样本,x为异常 样本,s为合成样本,λ为随机因子。
在本发明的一些实施例中,采集监控数据,基于滑动窗口对监控数据 进行分割以得到训练集和测试集/待检测数据包括:通过采集工具采集云平 台的监控数据,并对异常点进行标注;基于滑动窗口对监控数据进行分割 以滤除监控数据中的缺失点,并分别为正常样本和异常样本进行标记。
在本实施例中,以使用的训练数据为云平台四个月的监控数据为例, 监控数据采集工具为telegraf,使用其自带插件cpu、disk、mem采集,采 集周期为60s。采集的数据包含CPU、内存等关键性能指标的监控数据。异 常点使用机器识别与人工判定的方式标注。基于滑动窗口的方式对数据进 行分割,滤除数据中的缺失点,并添加数据标签,正常样本标签为0,异常 样本标签为1。共提取出样本数据总数为21542,其中正常样本总数为20074, 异常样本数为1468。
在本发明的一些实施例中,基于最终训练集对集成学习模型进行训练 以得到异常检测模型包括:基于极端梯度提升算法和最终训练集对集成学 习模型进行训练以得到异常检测模型。
在本实施例中,XGBoost算法全称为极端梯度提升算法,是一种基于 集成学习的弱学习算法。弱分类器即为比随机猜测略好但准确率不高的分 类器。XGBoost的核心在于在分类器中不断添加特征***树,每一棵树就 相当于一个弱分类器,将这些树进行集成组合,使得XGBoost模型拥有较 好的泛化能力。这种树模型不止能提升拟合效果,也能在一定程度上解决 样本分布不均的问题。
在本实施例中,输入XGBoost模型的数据为{(x1,y1),(x2,y2),...,(xm,ym)}, 其中x为根据样本提取的特征,y为标签,正常样本标签为0,异常样本标 签为1。XGBoost模型的输出可以表述为:
Figure RE-GDA0003247546720000081
其中,fk(x)表示第k个弱学习器,在XGBoost模型中弱学 习器中的总量为K个。这K个弱分类器,为了组成强分类器,需要最小化函 数:
Figure RE-GDA0003247546720000082
其中l(·)为损失函数,Ω(·)为正则化函数。正则化项中T为树的叶子节点个数,w为叶子节点的权值,γ 和λ为正则项中的超参数。在每一轮迭代时,只对第t棵回归树的目标函数 进行优化:
Figure RE-GDA0003247546720000091
其中
Figure RE-GDA0003247546720000092
为前t-1棵树对应样本xi的输 出,ft(xi)是当前树的输出。对目标函数进行泰勒展开,保留式中的一次项 与二次项,得到目标的近似值为:
Figure RE-GDA0003247546720000093
其中:
Figure RE-GDA0003247546720000094
为每个样本在损失函数上的一阶导 数与二阶数,i∈Ij表示每个映射到第j个叶子节点上的样本数据。
对wj求导等于0,求得wj的最优解:
Figure RE-GDA0003247546720000095
Figure RE-GDA0003247546720000096
带入原目标函数得到:
Figure RE-GDA0003247546720000097
其中T为叶子节点数量。
通过以上的迭代,可以找到树的最优***变量和切分值。使用
Figure RE-GDA0003247546720000098
寻找 具有最佳结构的树并将其添加到模型中,利用贪心算法来找到最优树结构。
通过特征提取、特征选择、XGBoost模型训练后可生成异常检测模型, 提取测试集或者线上数据小波包分解特征与统计特征,并根据训练时的特 征选择结果剔除冗余特征。将特征输入训练好的模型中,得出异常检测结 果。
需要特别指出的是,上述监控数据异常的检测方法的各个实施例中的 各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组 合变换之于监控数据异常的检测方法也应当属于本发明的保护范围,并且 不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种监控数据异 常的检测装置。图4示出的是本发明提供的监控数据异常的检测装置的实 施例的示意图。如图4所示,本发明实施例包括如下模块:第一模块S41, 配置用于采集监控数据,并基于滑动窗口对监控数据进行分割以得到训练 集和测试集/待检测数据;第二模块S42,配置用于提取训练集中样本点的 小波包分解特征与统计特征以构建监控数据的特征集,并基于卡方检验对 特征集中的特征进行选择以排除冗余特征,得到最终训练集;第三模块S43, 配置用于基于最终训练集对集成学习模型进行训练以得到异常检测模型; 以及第四模块S44,配置用于将测试集/待检测数据输入异常检测模型,以 得到异常检测结果。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。 图5示出的是本发明提供的计算机设备的实施例的示意图。如图5所示, 本发明实施例包括如下装置:至少一个处理器S51;以及存储器S52,存储 器S52存储有可在处理器上运行的计算机指令S53,指令由处理器执行时实 现以上方法的步骤。
本发明还提供了一种计算机可读存储介质。图6示出的是本发明提供 的计算机可读存储介质的实施例的示意图。如图6所示,计算机可读存储 介质存储S61有被处理器执行时执行如上方法的计算机程序S62。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方 法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,监 控数据异常的检测方法的程序可存储于一计算机可读取存储介质中,该程 序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介 质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM) 等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例 相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的 计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算 机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及***单元也可以利用控制器以及用于存储使 得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实 现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性 逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两 者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意 性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种 功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系 统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范 围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意 组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代 码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介 质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序 从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或 专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、 磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指 令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专 用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机 可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它 远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外 线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁 盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软 盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现 数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要 求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。 根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以 任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式 描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况, 单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用 的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有 可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优 劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以 通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储 于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器, 磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例 性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这 些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术 特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多 其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的 精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含 在本发明实施例的保护范围之内。

Claims (10)

1.一种监控数据异常的检测方法,其特征在于,包括以下步骤:
采集监控数据,并基于滑动窗口对所述监控数据进行分割以得到训练集和测试集/待检测数据;
提取所述训练集中样本点的小波包分解特征与统计特征以构建所述监控数据的特征集,并基于卡方检验对所述特征集中的特征进行选择以排除冗余特征,得到最终训练集;
基于所述最终训练集对集成学习模型进行训练以得到异常检测模型;以及
将所述测试集/待检测数据输入所述异常检测模型,以得到异常检测结果。
2.根据权利要求1所述的监控数据异常的检测方法,其特征在于,提取所述训练集中样本点的小波包分解特征与统计特征以构建所述监控数据的特征集包括:
提取所述训练集中样本点的小波包分解特征以表述所述监控数据的瞬时变化;
提取所述训练集中样本点的统计特征以表述所述监控数据的整体变化。
3.根据权利要求2所述的监控数据异常的检测方法,其特征在于,提取所述训练集中样本点的小波包分解特征以表述所述监控数据的瞬时变化包括:
基于三层小波包分解将每个样本点的通频带分解为八个频带,所述频带表述所述监控数据的瞬时变化信息。
4.根据权利要求2所述的监控数据异常的检测方法,其特征在于,提取所述训练集中样本点的统计特征以表述所述监控数据的整体变化包括:
提取所述训练集中样本的统计特征,所述统计特征包括由最大值、最小值、均值、中位数、标准差、均方值和能量值构成的七维特征向量。
5.根据权利要求1所述的监控数据异常的检测方法,其特征在于,基于卡方检验对所述特征集中的特征进行选择以排除冗余特征,得到最终训练集还包括:
基于卡方检验对所述特征集中的特征进行选择以排除冗余特征,并使用自适应过采样的方法对特征集进行增强以平衡正常样本与异常样本的比例,得到最终训练集。
6.根据权利要求1所述的监控数据异常的检测方法,其特征在于,采集监控数据,基于滑动窗口对所述监控数据进行分割以得到训练集和测试集/待检测数据包括:
通过采集工具采集云平台的监控数据,并对异常点进行标注;
基于滑动窗口对所述监控数据进行分割以滤除所述监控数据中的缺失点,并分别为正常样本和异常样本进行标记。
7.根据权利要求1所述的监控数据异常的检测方法,其特征在于,基于所述最终训练集对集成学习模型进行训练以得到异常检测模型包括:
基于极端梯度提升算法和所述最终训练集对集成学习模型进行训练以得到异常检测模型。
8.一种监控数据异常的检测装置,其特征在于,包括:
第一模块,配置用于采集监控数据,并基于滑动窗口对所述监控数据进行分割以得到训练集和测试集/待检测数据;
第二模块,配置用于提取所述训练集中样本点的小波包分解特征与统计特征以构建所述监控数据的特征集,并基于卡方检验对所述特征集中的特征进行选择以排除冗余特征,得到最终训练集;
第三模块,配置用于基于所述最终训练集对集成学习模型进行训练以得到异常检测模型;以及
第四模块,配置用于将所述测试集/待检测数据输入所述异常检测模型,以得到异常检测结果。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN202110592483.9A 2021-05-28 2021-05-28 一种监控数据异常的检测方法、装置、设备及可读介质 Pending CN113591897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110592483.9A CN113591897A (zh) 2021-05-28 2021-05-28 一种监控数据异常的检测方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110592483.9A CN113591897A (zh) 2021-05-28 2021-05-28 一种监控数据异常的检测方法、装置、设备及可读介质

Publications (1)

Publication Number Publication Date
CN113591897A true CN113591897A (zh) 2021-11-02

Family

ID=78243465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110592483.9A Pending CN113591897A (zh) 2021-05-28 2021-05-28 一种监控数据异常的检测方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN113591897A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987190A (zh) * 2021-11-16 2022-01-28 全球能源互联网研究院有限公司 一种数据质量校验规则提取方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389475A (zh) * 2015-12-22 2016-03-09 中国石油大学(华东) 一种基于小波包分解的电厂设备故障检测方法
US20190158522A1 (en) * 2018-01-02 2019-05-23 Maryam AMIRMAZLAGHANI Generalized likelihood ratio test (glrt) based network intrusion detection system in wavelet domain
CN109981630A (zh) * 2019-03-19 2019-07-05 齐鲁工业大学 基于卡方检验和ldof算法的入侵检测方法及***
CN110059737A (zh) * 2019-04-11 2019-07-26 东南大学 基于集成深度神经网络的配电变压器连接关系辨识方法
CN110390348A (zh) * 2019-06-11 2019-10-29 仲恺农业工程学院 一种不平衡数据集分类方法、***、装置和存储介质
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及***
CN111858108A (zh) * 2020-06-23 2020-10-30 新华三技术有限公司 一种硬盘故障预测方法、装置、电子设备和存储介质
CN111949496A (zh) * 2019-05-15 2020-11-17 华为技术有限公司 一种数据检测方法及装置
CN112329713A (zh) * 2020-11-25 2021-02-05 恩亿科(北京)数据科技有限公司 网络流量异常在线检测方法、***、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389475A (zh) * 2015-12-22 2016-03-09 中国石油大学(华东) 一种基于小波包分解的电厂设备故障检测方法
US20190158522A1 (en) * 2018-01-02 2019-05-23 Maryam AMIRMAZLAGHANI Generalized likelihood ratio test (glrt) based network intrusion detection system in wavelet domain
CN109981630A (zh) * 2019-03-19 2019-07-05 齐鲁工业大学 基于卡方检验和ldof算法的入侵检测方法及***
CN110059737A (zh) * 2019-04-11 2019-07-26 东南大学 基于集成深度神经网络的配电变压器连接关系辨识方法
CN111949496A (zh) * 2019-05-15 2020-11-17 华为技术有限公司 一种数据检测方法及装置
CN110390348A (zh) * 2019-06-11 2019-10-29 仲恺农业工程学院 一种不平衡数据集分类方法、***、装置和存储介质
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及***
CN111858108A (zh) * 2020-06-23 2020-10-30 新华三技术有限公司 一种硬盘故障预测方法、装置、电子设备和存储介质
CN112329713A (zh) * 2020-11-25 2021-02-05 恩亿科(北京)数据科技有限公司 网络流量异常在线检测方法、***、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987190A (zh) * 2021-11-16 2022-01-28 全球能源互联网研究院有限公司 一种数据质量校验规则提取方法及***
CN113987190B (zh) * 2021-11-16 2023-02-28 国网智能电网研究院有限公司 一种数据质量校验规则提取方法及***

Similar Documents

Publication Publication Date Title
CN109472075B (zh) 一种基站性能分析方法及***
CN111310139B (zh) 行为数据识别方法、装置及存储介质
CN116451142A (zh) 一种基于机器学习算法的水质传感器故障检测方法
JP2023504103A (ja) モデル更新システム、モデル更新方法及び関連装置
CN116955936A (zh) 企业大数据算法属性数据预测方法
CN116126569A (zh) 智能运维方法及装置
CN114416423B (zh) 一种基于机器学习的根因定位方法和***
CN117156442A (zh) 基于5g网络的云数据安全保护方法及***
CN113591897A (zh) 一种监控数据异常的检测方法、装置、设备及可读介质
CN117782198B (zh) 一种基于云边端架构的公路机电设备运行监测方法及***
CN113726558A (zh) 基于随机森林算法的网络设备流量预测***
CN107025293A (zh) 一种电力二次设备缺陷数据挖掘方法及***
CN113891342B (zh) 基站巡检方法、装置、电子设备及存储介质
CN118115098A (zh) 基于深度学习的大数据分析与处理***
CN113824580B (zh) 一种网络指标预警方法及***
CN117216702A (zh) 变电设备参数处理方法、装置及电子设备
CN117557827A (zh) 一种基于自编码级联森林的板形异常检测方法
CN116432099A (zh) 日志分类方法、装置、电子设备及存储介质
CN113377630B (zh) 一种通用的kpi异常检测框架实现方法
CN113807716A (zh) 一种基于人工智能的网络运维自动化方法
Schmitz et al. Change detection of land use: a deep learning case-study
CN114547147A (zh) 时序数据的异常检测方法、装置、设备及作业机械
CN118445733A (zh) 数据异常检测方法、装置、设备、介质和程序产品
CN117076454B (zh) 一种工程质量验收表单数据结构化存储方法及***
CN117219250A (zh) 一种医疗大数据全流程智能监管方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination