CN113535522A - 一种异常情况的检测方法、装置和设备 - Google Patents

一种异常情况的检测方法、装置和设备 Download PDF

Info

Publication number
CN113535522A
CN113535522A CN202110861825.2A CN202110861825A CN113535522A CN 113535522 A CN113535522 A CN 113535522A CN 202110861825 A CN202110861825 A CN 202110861825A CN 113535522 A CN113535522 A CN 113535522A
Authority
CN
China
Prior art keywords
target
parameter set
target system
condition
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110861825.2A
Other languages
English (en)
Inventor
胡艳霞
徐林嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110861825.2A priority Critical patent/CN113535522A/zh
Publication of CN113535522A publication Critical patent/CN113535522A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供了一种异常情况的检测方法、装置和设备,涉及人工智能技术领域,其中,该方法包括:获取在目标时间段内目标***的初始运行参数集;对初始运行参数集进行预处理,得到目标运行参数集;目标运行参数集中的各组运行参数按照时间顺序排列;根据目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。在本说明书实施例中,利用检测模型可以准确地在故障影响范围较小、甚至在故障发生以前检测到目标***的异常,以便及时对目标***进行维护,使***运维工作更加高效地进行。

Description

一种异常情况的检测方法、装置和设备
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种异常情况的检测方法、装置和设备。
背景技术
随着IT建设的不断深入和完善、数据量的迅速增加、设备数的不断上升、软硬件***的愈发复杂,计算机硬软件***的运行维护已经成为了各行各业的信息服务部门普遍关注和不堪重负的问题。
现有技术中,通常是由***运维人员手动针对运行参数设置一个固定的监控阈值来对***进行监测,采用该方式依赖于运维人员的经验,在不同的情况下均采用相同的监控阈值可能会存在遗漏和误报的情况。由此可见,采用现有技术中的技术方案无法准确地进行异常情况的检测。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种异常情况的检测方法、装置和设备,以解决现有技术中无法准确地进行异常情况的检测的问题。
本说明书实施例提供了一种异常情况的检测方法,包括:获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。
本说明书实施例还提供了一种异常情况的检测装置,包括:获取模块,用于获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;预处理模块,用于对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;确定模块,用于根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。
本说明书实施例还提供了一种异常情况的检测设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例的步骤。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。
本说明书实施例提供了一种异常情况的检测方法,可以获取在目标时间段内目标***的初始运行参数集,其中,所述运行参数集中包含多组运行参数。并对所述初始运行参数集进行预处理,得到目标运行参数集,目标运行参数集中的各组运行参数按照时间顺序排列。进一步的,可以根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测是否存在异常的模型。利用检测模型可以准确地在故障影响范围较小、甚至在故障发生以前监测到目标***的异常,以便及时对目标***进行维护,使***运维工作更加高效地进行。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,并不构成对本说明书实施例的限定。在附图中:
图1是根据本说明书实施例提供的异常情况的检测方法的步骤示意图;
图2是根据本说明书实施例提供的自步集成学习算法具体的流程的示意图;
图3是根据本说明书实施例提供的异常情况的检测装置的结构示意图;
图4是根据本说明书实施例提供的异常情况的检测设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例,而并非以任何方式限制本说明书实施例的范围。相反,提供这些实施方式是为了使本说明书实施例公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书实施例的实施方式可以实现为一种***、装置设备、方法或计算机程序产品。因此,本说明书实施例公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
请参阅图1,本实施方式可以提供一种异常情况的检测方法。该异常情况的检测方法可以用于根据预先利用LightGBM训练得到的用于检测是否存在异常的模型对***进行异常情况的检测。上述异常情况的检测方法可以包括以下步骤。
S101:获取在目标时间段内目标***的初始运行参数集;其中,运行参数集中包含多组运行参数。
在本实施方式中,可以获取在目标时间段内目标***的初始运行参数集,其中,上述运行参数集中可以包含多组运行参数,每组运行参数可以对应一个具体的时刻。
在本实施方式中,上述目标时间段可以为当然需要检测***是否存在异常的时间段,时间段的长度可以为预先设置的时间长度,例如:可以预先设置每间隔10秒获取一次运行参数集,对应的目标时间段的长度就位10秒。当然可以理解的是,上述目标时间的长度还可以为其它值,例如:1秒、2分钟、一小时、6小时、两天等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述初始运行参数集中包含的运行参数可以为目标***在运行过程中实时产生的数据,也可以是根据实时产生的数据运算得到的数据,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述运行参数可以包括:业务成功率、***成功率、CPU(中央处理器)使用率、内存使用率、服务响应时间、服务耗时、网络速率、监控报文等。当然可以理解的是,上述运行参数仅是一种示例,在实际应用中还可以包含更多或者更少的运行参数,例如还可以包含:告警信息、应用级信息(交易成功率、交易响应时间等)、当前时刻等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S102:对初始运行参数集进行预处理,得到目标运行参数集;其中,目标运行参数集中的各组运行参数按照时间顺序排列。
在本实施方式中,由于初始获得的运行参数可能会存在数据缺失、格式不对等情况,因此,可以对初始运行参数集进行预处理,得到目标运行参数集。其中,由于初始运行参数集中包含目标时间段内的运行参数,目标时间段内包含多个时刻,因此,上述目标运行参数集中的各组运行参数可以按照时间顺序排列。
在本实施方式中,不同时刻对应的运行参数组中的运行参数可以相同,也可以存在差异,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述预处理可以包括去噪、数据清洗等,当然,预处理的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
S103:根据目标运行参数集,利用检测模型确定目标***在目标时间段内的运行情况;其中,运行情况用于表征目标***是否存在异常,检测模型是预先利用LightGBM训练得到的用于检测是否存在异常的模型。
在本实施方式中,可以根据目标运行参数集,利用检测模型确定目标***在目标时间段内的运行情况。其中,上述运行情况用于表征目标***是否存在异常,上述运行情况可以以文本或者字符的形式表示,例如:0表示正常、1表示异常,或者也可以直接输出文本为:正常、异常。当然,运行情况的形式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,目标***存在异常可以表示目标***在目标时间段内已经发生故障,也可以表示目标***在目标时间段内有发生故障的迹象即将发生故障,因此,在一些情况下检测模型还可以用于故障预警。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述检测模型可以是预先利用LightGBM训练得到的用于检测是否存在异常的模型。上述LightGBM是一个梯度Boosting框架,使用基于决策树的学习算法,LightGBM是分布式的,高效的。Boosting是一种常用的集成学习方法,它通过比较每次迭代结果的错误情况,调整样本的权重,训练新一轮的学习器,从而得到多个模型按权重相加的结果。
在本实施方式中,LightGBM的改进包括:1)基于Histogram算法寻求***点,即将连续的特征数据离散化,压缩成k个整数,并在遍历所有样本数据时,统计离散数的累积量,构造出宽度为k的直方图,最后根据直方图的离散值分布情况寻求数据***点,对数据进行左右子树的切割。直方图(Histogram)是用一组无间隔、等宽、底端对齐的直条表现数据分布特征的统计图形,每个直条代表相应区间的数据频数。Histogram方法能加速数据***的过程,降低对内存的使用情况,使LightGBM表现出较快的学***等地对待同一层叶子节点,只对使全局增益最高的结点***,这样的方式可大幅度减少计算量,加速训练模型。同时又为了避免Leaf-wise带来的过拟合风险,LightGBM保留XGBoost对层数控制的方式,限制子树的层数,从而有效避免了子树过度增长。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。
从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:可以获取在目标时间段内目标***的初始运行参数集,其中,运行参数集中包含多组运行参数。并对初始运行参数集进行预处理,得到目标运行参数集,目标运行参数集中的各组运行参数按照时间顺序排列。进一步的,可以根据目标运行参数集,利用检测模型确定目标***在目标时间段内的运行情况;其中,运行情况用于表征目标***是否存在异常,检测模型是预先利用LightGBM训练得到的用于检测是否存在异常的模型。利用检测模型可以准确地在故障影响范围较小、甚至在故障发生以前监测到目标***的异常,以便及时对目标***进行维护,使***运维工作更加高效地进行。
在一个实施方式中,在根据目标运行参数集,利用检测模型确定目标***在目标时间段内的运行情况之后,还可以包括:在根据运行情况确定目标***存在异常的情况下,目标***根据在目标时间段内的运行情况进行运维操作。
在本实施方式中,可以根据运行情况确定目标***的运行是否存在异常,在确定目标***存在异常的情况下,目标***可以自动的根据在目标时间段内的运行情况进行运维操作。在一些实施例中,还可以向目标***的运维人员发送告警信息,以使运维人员根据告警信息及时进行运维操作。其中,上述告警信息中可以包含上述目标***根据在目标时间段内的运行情况,当然可以理解的是,在一些实施例中还可以包含其它信息,例如:目标时间段、具体的异常情况等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,在确定目标***存在异常的情况下可以进行告警,例如:可以将运行情况在预设界面上展示、生成告警信息发送给目标***的运维人员等,当然,告警的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,在确定目标***不存在异常的情况下,可以将检测结果(运行情况)、检测对象、检测时间等相关信息记录在日志中进行存储,以确保数据的可追溯性。在一些实施例中,在确定目标***不存在异常的情况下,还可以将运行情况在预设界面上展示。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,运维操作可以包括:运行情况展示、运行情况反馈、运行情况记录、负载均衡、网络限流、服务限流、资源动态扩容、主备切换。
在本实施方式中,在确定目标***不存在异常的情况下,可以不进行运维操作,但是可以将运行情况进行展示、反馈、记录。在确定目标***存在异常的情况下,除了可以将运行情况进行展示、反馈、记录,还可以根据具体的异常情况进行相应的运维操作,例如:负载均衡、网络限流、服务限流、资源动态扩容、主备切换等。当然可以理解的是,上述运维操作仅是一种示例,在一些情况下还可以包含更多或者更少的运维操作,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,每组运行参数可以包括:业务成功率、***成功率、CPU使用率、内存使用率、服务响应时间、服务耗时、网络速率、监控报文。
在本实施方式中,上述运行参数可以包括:业务成功率、***成功率、CPU(中央处理器)使用率、内存使用率、服务响应时间、服务耗时、网络速率、监控报文等。当然可以理解的是,上述运行参数仅是一种示例,在实际应用中还可以包含更多或者更少的运行参数,例如还可以包含:告警信息、应用级信息(交易成功率、交易响应时间等)、当前时刻等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,对初始运行参数集进行预处理,得到目标运行参数集,可以包括:对初始运行参数集进行数据清洗,得到目标运行参数集。
在本实施方式中,由于初始获得的运行参数可能会存在数据缺失、格式不对等情况,因此,可以对初始运行参数集进行预处理,得到目标运行参数集,上述预处理可以包括:数据清洗等。
在本实施方式中,数据清洗可以通过删除或填充去除的数据中的空值,其中填充又包括平均值填充、中位数填充、众数填充、随机森林法填充等方法,清洗时可以根据实际数据的分布情况确定填充方法。
在一个实施方式中,在根据目标运行参数集,利用检测模型确定目标***在目标时间段内的运行情况之前,还可以包括:获取目标***在预设时间范围内的历史运维信息集;其中,历史运维信息集中包含多组运维信息,每组运维信息中包含预设时间段内的运行信息和故障标签,故障标签用于表征***是否存在异常。可以对历史运维信息集进行预处理,得到训练样本信息集;其中,训练样本信息集中包含多组训练样本,每组训练样本中的运维信息按照时间顺序排列。进一步的,可以基于训练样本信息集,利用LightGBM和自步集成学***衡训练样本信息集中的正样本和负样本。
在本实施方式中,可以获取目标***在预设时间范围内记录的历史运维信息集,上述预设时间范围可以为过去一年,也可以为过去两年,也可以为一个指定的时间范围,例如:2018年9月-2020年12月等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述历史运维信息集中可以包含多组运维信息,每组运维信息对应的一个时间段,改时间段的长度与上述目标时间段的长度可以是相同的。上述每组运维信息中可以包含预设时间段内的运行信息和故障标签,故障标签用于表征***是否存在异常。其中,上述预设时间段与目标时间段的长度可以是相同的,运行信息可以包含运行参数和维护信息,例如:业务成功率、***成功率、CPU使用率、内存使用率、服务响应时间、服务耗时、网络速率、监控报文、原始告警信息、运维人员的运维操作信息、反馈信息等。
在本实施方式中,上述维护信息可以不作为模型的输入数据,维护信息可以作为标注故障标签的依据,上述故障标签可以是根据***的实际运行情况、维护信息标注的。其中,上述故障标签可以以文本或者字符的形式表示,例如:0表示正常、1表示异常,或者也可以为文本:正常、异常。当然,故障标签的形式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,可以对历史运维信息集进行预处理,得到训练样本信息集,上述训练样本信息集中可以包含多组训练样本,每组训练样本中的运维信息按照时间顺序排列。其中,每组训练样本的运维信息中的运行信息可以与目标运行参数集中的运行参数相同。
在本实施方式中,由于在实际的运维场景下故障出现的次数较之正常运行的次数是很少的,这会使得训练样本信息集中正样本(正常)与负样本(异常)的数量差距悬殊。而模型在训练的过程中更加关注的是整体样本的预测准确率,直接使用训练样本信息集进行训练会导致训练得到的模型在对少量样本的检测效果会有一定程度上的不理想。因此,可以利用LightGBM和自步集成学***衡训练样本信息集中的正样本和负样本。
在本实施方式中,自步集成学习算法不同于基于距离重采样或直接分配代价的传统方法,自步集成学习算法使用基于分类硬度的分桶方法来近似一个定义在整个数据集上的“硬度分布”,并通过自步式地协调每个分桶的贡献来实现迭代式的降采样过程。在迭代结束后,所有得到的分类器输出被组合在一起来得到一个最终的集成分类器。
在本实施方式中,可以用F来表示一个分类器,对于一个样本(x,y),可以使用F(x)来表示分类器在输入x时输出的该样本为正例的概率。由此,可以定义样本(x,y)关于分类器F的分类硬度h(x,y,F)为输出概率与数据真实标签之间的绝对距离:
h(x,y,F)=|F(x)-y|
在本实施方式中,可以用D表示训练样本信息集,其中,每一个样本用(x,y)表示,x为输入数据(运行参数),y为输出数据(故障标签)。少数类样本集合为P={(x,y)|y=1},多数类样本集合为N={(x,y)|y=0}其中,y=1为负样本,y=0为正样本。用Ddev表示开发集,用于评估当前分类器的表现。由于在实践中通常关心分类器在原始不平衡分布数据上的表现,因此不在开发集上进行任何形式的重采样并令其保持不平衡的类别分布。使用Bi来表示第i个硬度分桶:
Figure BDA0003186036430000091
其中,k为硬度分桶的个数。
在本实施方式中,进一步的可以对多数类样本进行欠采样,并且保证欠采样得到的子集中,来自不同分桶的硬度贡献(所有样本硬度值之和)大致相同。这样得到的子集,减少了背景样本和异常值的影响,同时增大了边界样本重要性,从而提升了分类算法的性能。另外随着集成分类器在训练过程中更好地拟合了训练集,背景样本的数量也会在这个过程中大幅增长。因此,可以进一步引入自步控制因子α来控制在不同训练阶段中硬度较大的数据样本的重要性,自步集成学习算法具体的流程可以如图2中所示,图2中基学习器f可以为上述LightGBM。
在本实施方式中,在模型训练过程中可以将样本分为三大类:(1)背景样本,背景样本指的是那些已经被当前集成模型很好地分类的数据样本,虽然每个背景样本只有很小的硬度,由于他们的数量众多,所以其对任务难度的总体贡献不可忽视。因此对于这类背景样本,需要保留其中的一小部分来表示其相应分布的“骨架”,防止学习器被少数类中的噪声影响。由于分类器已经很好地学习了这类样本,其中的绝大部分可以在之后的训练中丢弃。(2)噪声/离群点,数据集中可能会存在一部分噪声/离群点,尽管它们的数量不多,但每一个噪声/离群点各自都具有非常大的硬度值。因此他们对分类硬度的总体贡献可能非常巨大。强调这些噪声/离群点通常是由无法区分的类别重叠或者异常值引起的,强制模型学习此类样本可能会导致严重的过拟合问题。(3)边界样本,对于其余的样本可以将它们归类为边界样本,即可能更靠近分类边界的样本。从信息抽取的角度看,这些边界样本才是模型训练期间信息量最大的数据样本,因此可以认为增大边界样本的权重通常有助于进一步提高模型的性能。
在本实施方式中,自步集成学***衡分类问题中有两点不可替代的优势,首先,分类硬度填补了数据集不平衡程度和任务实际分类难度之间的空缺。在实际应用中,即使不平衡比相同,不同的数据集也可能表现出极其不同的分类难度。不平衡比并不能全面地反映分类任务的难度,反观分类硬度,可以观察到:在分布重叠的数据集上,随着数据变得更加不平衡硬样本的数量急剧增加,而在分布不重叠的数据集上保持不变。因此,数据硬度携带有关数据集隐含分布的更多信息,并能更好地反映任务的分类难度。相比简单的使用不平衡比,分类硬度使得学***衡数据集上的分类表现。
在本实施方式中,结合LightGBM和自步集成学习算法进行训练,可以使模型对数量占比极小的异常样本拥有更好的检测效果,从而更加准确的实现对***异常的提前预警、实时检测,可以避免人为难以设置固定监控阈值等问题。
在一个实施方式中,上述预处理可以包括:噪声过滤、数据清洗、数据相关性分析、主成分分析。
在本实施方式中,在数据集中常有一些数值与大部分的数值相差非常大,即所谓的离群值。离群值的存在会影响许多统计值的计算以及机器学习模型的效果,因此可以滤除此类异常值,也即噪声过滤。由于运维场景下异常情况本身就是离群值,所以可以只针对标注为“正常”的训练样本数据进行噪声过滤。在一些实施例中,可以使用四分位距法来判断数据中的离群值,当然可以理解的是,还可以采用其它可能的方式进行噪声过滤,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,可以通过删除或填充去除的数据中的空值,其中填充又包括平均值填充、中位数填充、众数填充、随机森林法填充等方法,数据清洗时应根据实际数据的分布情况确定填充方法。
在本实施方式中,数据相关性分析是研究现象之间是否存在某种依存关系,并对具有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关性分析对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。通过相关系分析可以确定出运行信息中相关性大于一定阈值的参数,可以选择保留其中一个,以对输入数据进行降维。
在本实施方式中,主成分分析(Principal Component Analysis,PCA),是一种统计方法,通过借助一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,若新的随机向量为一组线性不相关的变量,转换后的这组变量叫主成分,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量***进行降维处理,使之能以一个较高的精度转换成低维变量***,再通过构造适当的价值函数,进一步把低维***转化成一维***。
在本实施方式中,上述预处理还可以包含更多或者更少的步骤,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,在基于训练样本信息集,利用LightGBM和自步集成学习算法训练得到检测模型之后,还可以包括:按照预设时间间隔更新训练样本信息集,并基于更新后的训练样本信息集,利用LightGBM和自步集成学习算法训练得到更新后的检测模型。
在本实施方式中,可以基于目标***实际的运行情况不断地补充反馈信息,可以包括***检测错误的事件、新奇事件等,可以将这些信息添加至训练样本信息集中以对训练样本信息集进行更新。
在本实施方式中,可以基于更新后的训练样本信息集,利用LightGBM和自步集成学习算法训练得到更新后的检测模型,并利用更新后的检测模型对目标***进行检测,从而可以有效提高检测模型的检测准确率。
在本实施方式中,上述预设之间间隔可以为大0的数值,例如1个月、6个月、一年等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
基于同一发明构思,本说明书实施例中还提供了一种异常情况的检测装置,如下面的实施例所述。由于异常情况的检测装置解决问题的原理与异常情况的检测方法相似,因此异常情况的检测装置的实施可以参见异常情况的检测方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本说明书实施例的异常情况的检测装置的一种结构框图,如图3所示,可以包括:获取模块301、预处理模块302、确定模块303,下面对该结构进行说明。
获取模块301,可以用于获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;
预处理模块302,可以用于对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;
确定模块303,可以用于根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。
本说明书实施例实施方式还提供了一种电子设备,具体可以参阅图4所示的基于本说明书实施例提供的异常情况的检测方法的电子设备组成结构示意图,所述电子设备具体可以包括输入设备41、处理器42、存储器43。其中,所述输入设备41具体可以用于输入在目标时间段内目标***的初始运行参数集。所述处理器42具体可以用于获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。所述存储器43具体可以用于存储目标***在所述目标时间段内的运行情况等数据。
在本实施方式中,所述输入设备具体可以是用户和计算机***之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字***中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在***中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该电子设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施例实施方式中还提供了一种基于异常情况的检测方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时可以实现:获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
虽然本说明书实施例提供了如上述实施例或流程图所述的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本说明书实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书实施例的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书实施例的优选实施例而已,并不用于限制本说明书实施例,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (11)

1.一种异常情况的检测方法,其特征在于,包括:
获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;
对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;
根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。
2.根据权利要求1所述的方法,其特征在于,在根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况之后,还包括:
在根据所述运行情况确定所述目标***存在异常的情况下,所述目标***根据在所述目标时间段内的运行情况进行运维操作。
3.根据权利要求2所述的方法,其特征在于,所述运维操作包括:运行情况展示、运行情况反馈、运行情况记录、负载均衡、网络限流、服务限流、资源动态扩容、主备切换。
4.根据权利要求1所述的方法,其特征在于,每组运行参数包括:业务成功率、***成功率、CPU使用率、内存使用率、服务响应时间、服务耗时、网络速率、监控报文。
5.根据权利要求1所述的方法,其特征在于,对所述初始运行参数集进行预处理,得到目标运行参数集,包括:
对所述初始运行参数集进行数据清洗,得到目标运行参数集。
6.根据权利要求1所述的方法,其特征在于,在根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况之前,还包括:
获取所述目标***在预设时间范围内的历史运维信息集;其中,所述历史运维信息集中包含多组运维信息,每组运维信息中包含预设时间段内的运行信息和故障标签,所述故障标签用于表征***是否存在异常;
对所述历史运维信息集进行预处理,得到训练样本信息集;其中,所述训练样本信息集中包含多组训练样本,每组训练样本中的运维信息按照时间顺序排列;
基于所述训练样本信息集,利用LightGBM和自步集成学***衡所述训练样本信息集中的正样本和负样本。
7.根据权利要求6所述的方法,其特征在于,所述预处理包括:噪声过滤、数据清洗、数据相关性分析、主成分分析。
8.根据权利要求6所述的方法,其特征在于,在基于所述训练样本信息集,利用LightGBM和自步集成学习算法训练得到检测模型之后,还包括:
按照预设时间间隔更新所述训练样本信息集;
基于更新后的训练样本信息集,利用LightGBM和自步集成学习算法训练得到更新后的检测模型。
9.一种异常情况的检测装置,其特征在于,包括:
获取模块,用于获取在目标时间段内目标***的初始运行参数集;其中,所述运行参数集中包含多组运行参数;
预处理模块,用于对所述初始运行参数集进行预处理,得到目标运行参数集;其中,所述目标运行参数集中的各组运行参数按照时间顺序排列;
确定模块,用于根据所述目标运行参数集,利用检测模型确定目标***在所述目标时间段内的运行情况;其中,所述运行情况用于表征目标***是否存在异常,所述检测模型是预先利用LightGBM训练得到的用于检测***是否存在异常的模型。
10.一种异常情况的检测设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。
CN202110861825.2A 2021-07-29 2021-07-29 一种异常情况的检测方法、装置和设备 Pending CN113535522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110861825.2A CN113535522A (zh) 2021-07-29 2021-07-29 一种异常情况的检测方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110861825.2A CN113535522A (zh) 2021-07-29 2021-07-29 一种异常情况的检测方法、装置和设备

Publications (1)

Publication Number Publication Date
CN113535522A true CN113535522A (zh) 2021-10-22

Family

ID=78121462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110861825.2A Pending CN113535522A (zh) 2021-07-29 2021-07-29 一种异常情况的检测方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113535522A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028815A (zh) * 2023-01-05 2023-04-28 江苏科技大学 一种针对工业时序不平衡数据的时间序列数据增强方法
WO2023071529A1 (zh) * 2021-10-29 2023-05-04 新智我来网络科技有限公司 设备数据清洗方法、装置、计算机设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309539A (zh) * 2020-03-26 2020-06-19 北京奇艺世纪科技有限公司 一种异常监测方法、装置和电子设备
CN112836772A (zh) * 2021-04-02 2021-05-25 四川大学华西医院 基于LightGBM集成多个BERT模型的随机对照试验识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309539A (zh) * 2020-03-26 2020-06-19 北京奇艺世纪科技有限公司 一种异常监测方法、装置和电子设备
CN112836772A (zh) * 2021-04-02 2021-05-25 四川大学华西医院 基于LightGBM集成多个BERT模型的随机对照试验识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
温粉莲;: "一种混合模型的时序数据异常检测方法", 数字通信世界, no. 01, 1 January 2020 (2020-01-01) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071529A1 (zh) * 2021-10-29 2023-05-04 新智我来网络科技有限公司 设备数据清洗方法、装置、计算机设备及介质
CN116028815A (zh) * 2023-01-05 2023-04-28 江苏科技大学 一种针对工业时序不平衡数据的时间序列数据增强方法

Similar Documents

Publication Publication Date Title
US10628409B2 (en) Distributed data transformation system
Guan et al. Ensemble of Bayesian predictors and decision trees for proactive failure management in cloud computing systems.
US8365019B2 (en) System and method for incident management enhanced with problem classification for technical support services
CN113535522A (zh) 一种异常情况的检测方法、装置和设备
CN111930526B (zh) 负载预测方法、装置、计算机设备和存储介质
CN113516174B (zh) 调用链异常检测方法、计算机设备以及可读存储介质
CN113660225A (zh) 基于时序点的网络攻击事件预测方法、***、装置及介质
CN109753408A (zh) 一种基于机器学习的流程异常预测方法
Zeng et al. Estimation of software defects fix effort using neural networks
CN117041017B (zh) 数据中心的智能运维管理方法及***
WO2022053163A1 (en) Distributed trace anomaly detection with self-attention based deep learning
CN113590451A (zh) 一种根因定位方法、运维服务器及存储介质
CN112685207A (zh) 错误评估的方法、设备和计算机程序产品
CN116842520A (zh) 基于检测模型的异常感知方法、装置、设备及介质
US11651271B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using likelihood ratios
CN111027591A (zh) 一种面向大规模集群***的节点故障预测方法
CN114416423A (zh) 一种基于机器学习的根因定位方法和***
CN112365344B (zh) 一种业务规则自动生成方法和***
US11636377B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
Bouache et al. Smart Anomaly Detection: Deep Learning modeling Approach and System Utilization Analysis
CN114861753A (zh) 一种基于大规模网络的数据分类方法和装置
CN113342518A (zh) 任务处理方法和装置
Montiel Learning from evolving data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination