CN114647558A - 一种日志异常检测的方法和装置 - Google Patents

一种日志异常检测的方法和装置 Download PDF

Info

Publication number
CN114647558A
CN114647558A CN202210173675.0A CN202210173675A CN114647558A CN 114647558 A CN114647558 A CN 114647558A CN 202210173675 A CN202210173675 A CN 202210173675A CN 114647558 A CN114647558 A CN 114647558A
Authority
CN
China
Prior art keywords
log
real
cluster
time
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210173675.0A
Other languages
English (en)
Inventor
张静
李泽州
张宪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210173675.0A priority Critical patent/CN114647558A/zh
Publication of CN114647558A publication Critical patent/CN114647558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种日志异常检测的方法和装置,其中所述方法包括:对获取的实时集群日志进行聚类分析,生成对应的标签树;将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,可以实现对海量大数据的实时集群日志的聚合分析,进而对每类实时集群日志进行异常检测,确定检测结果,减少人工排查的工作量,简化了故障排查流程。

Description

一种日志异常检测的方法和装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种日志异常检测的方法和装置、电子设备及非暂态计算机可读存储介质。
背景技术
对于集群日志的异常检测,对于计算机集群来说是比较常用的检测技术,以实现对集群日志的监控,及时发现问题。
现有技术中,对于集群日志的检测依赖运维工程师根据经验编写的规则脚本,在面对海量大数据集群日志(每天达到亿级)的情况下,现有技术中的方式会存在覆盖度出现遗漏,而且很难兼顾到日志在某个时段持续的数量突增的异常的缺陷。所以,现有技术的日志异常检测方法的故障排查时间慢、故障排查流程繁琐。
发明内容
本公开提供一种日志异常检测的方法和装置、电子设备及非暂态计算机可读存储介质,用以解决现有技术中日志异常检测方法的故障排查时间慢、故障排查流程繁琐的技术问题。
本公开提供一种日志异常检测的方法,包括:
对获取的实时集群日志进行聚类分析,生成对应的标签树;
将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
根据本公开一实施例提供的日志异常检测的方法,所述日志模板库的生成方法包括:
获取历史集群日志;
基于所述历史集群日志生成初始标签树;
搭建初始模板树,基于初始标签树对所述初始模板树进行训练,生成模板,并将所述模板生成日志模板库;
对所述模板进行二次聚类,对每类所述模板标注对应的日志异常类别。
根据本公开一实施例提供的日志异常检测的方法,所述方法还包括:
在所述标签树与日志模板库未匹配的情况下,基于未匹配的实时集群日志与已存的每个日志异常类别对应的历史集群日志进行相似度计算,确定所述未匹配的实时集群日志对应的日志异常类别;
基于所述未匹配的实时集群日志及其对应的日志异常类别,对所述日志模板库进行增量训练任务,得到更新后的日志模板库。
根据本公开一实施例提供的日志异常检测的方法,基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,包括:
将每个日志异常类别对应的实时集群日志以及历史集群日志转换成时序指标;
将所述时序指标输入至基线监控模型,输出每个日志异常类别对应的异常预测值;
其中,所述异常预测值包括:时序指标的均值变化、抖动频率变化、检测尖峰和深谷以及跌落比例值。
根据本公开一实施例提供的日志异常检测的方法,基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,包括:
确定不同日志异常类别的实时集群日志的占比,根据所述占比确定第一检测结果。
根据本公开一实施例提供的日志异常检测的方法,基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,包括:
将不同日志异常类别的实时集群日志输入至顺序检测模型,输出第二检测结果。
根据本公开一实施例提供的日志异常检测的方法,在确定检测结果后,所述方法还包括:
根据不同集群日志对应的时序指标生成每个集群的日志指标时间序列曲线以及总日志指标时间序列曲线;
将每个集群的日志指标时间序列曲线的变化趋势与所述总日志指标时间序列曲线的变化趋势进行对比;
若变化趋势一致,基于该集群的实时集群日志在不同日志异常类别中的占比,确定占比较大的日志异常类别作为主要日志异常类别,并基于所述主要日志异常类别进行根因定位,确定所述集群中存在异常的机器标识。
本公开提供一种日志异常检测的装置,包括:
聚类模块,用于对获取的实时集群日志进行聚类分析,生成对应的标签树;
匹配模块,用于将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
检测模块,用于基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述日志异常检测的方法的步骤。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述日志异常检测的方法的步骤。
本公开提供的日志异常检测的方法及装置,将集群日志进行聚类生成标签树,并与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,从而通过线上实时匹配的方式主动从集群日志的角度发现大数据集群的问题,可以实现对海量大数据的实时集群日志的聚合分析,进而对每类实时集群日志进行异常检测,确定检测结果,减少人工排查的工作量,简化了故障排查流程。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的日志异常检测的装置的结构示意图之一;
图2是本公开提供的对获取的实时集群日志进行聚类后生成的标签树的示意图;
图3是本公开提供的一种日志模板库的示意图;
图4是本公开提供的日志异常检测的装置的结构示意图之二;
图5是本公开提供的日志异常检测的装置的结构示意图之三;
图6是本公开提供的日志异常检测的装置的结构示意图之四;
图7是本公开提供的日志异常检测的装置的结构示意图;
图8是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开实施例一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开实施例保护的范围。
对于现有技术中的方法,还会存在其他问题,例如通过对大数据日志的规则匹配很难发现异常事件,有些错误类型属于正常的业务报错,不是***故障,因此往往不会配置相关的规则,但在特定条件下,有可能就不再是正常业务报错了,这就为业务的正常运行埋下了安全隐患,而人工规则脚本很难去完全覆盖到这些场景。
为了解决现有技术中存在的技术缺陷,本公开实施例公开了一种日志异常检测的方法,参见图1,包括:
步骤101、对获取的实时集群日志进行聚类分析,生成对应的标签树。
本实施例中,并不是将每条实时集群日志与日志模板库进行匹配,而是经过聚类分析后生成对应的标签树,然后再将标签树与日志模板库进行匹配,从而将繁杂的大数据集群日志排查问题转换成标签树与日志模板的匹配问题,有利于提升故障排查的效率,减小故障排查的时间。
参见图2,图2为对获取的实时集群日志进行聚类后生成的标签树。
步骤102、将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板。
其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别。
其中,需要说明的是,日志模板库的生成方法包括下述步骤S21~S24:
S21、获取历史集群日志。
S22、基于所述历史集群日志生成初始标签树。
S23、搭建初始模板树,基于初始标签树对所述初始模板树进行训练,生成模板,并将所述模板生成日志模板库。
S24、对所述模板进行二次聚类,对每类所述模板标注对应的日志异常类别。
通过上述步骤S21~S24,生成日志模板库,用于与实施集群日志生成的标签树进行匹配。参见图3,图3示出了本实施例的一种日志模板库。
其中,日志模板库的日志异常类别包括6个:MemStore数据刷盘操作延迟、发生了GC内存回收、堆内存使用率超过最大配额、集群处理某个表操作慢、数据块大小超过配额导致缓存失败、和zookeeper服务器连接超时。日志异常类别确定后,一般不会再变化,只需要将实时集群日志匹配到每个日志异常类别中。
在匹配成功后,将实时集群日志保存至日志模板的每个日志异常类别中。
步骤103、基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
其中,异常检测的维度可以为多种,例如对每个日志异常类别对应的实时集群日志进行异常检测、时序检测,对各个日志异常类别的实时集群日志占比进行异常检测,对不同集群产生的日志进行根因定位等等。
本公开提供的日志异常检测的方法,将集群日志进行聚类生成标签树,并与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,从而通过线上实时匹配的方式主动从集群日志的角度发现大数据集群的问题,可以实现对海量大数据的实时集群日志的聚合分析,进而对每类实时集群日志进行异常检测,确定检测结果,减少人工排查的工作量,简化了故障排查流程。
进一步地,在所述标签树与日志模板库未匹配的情况下,所述方法还可以进一步利用未匹配的实时集群日志对日志模板库进行增量学习,以扩充日志模板库。
具体地,参见图4,本公开实施例的方法包括步骤401~402:
401、基于未匹配的实时集群日志与已存的每个日志异常类别对应的历史集群日志进行相似度计算,确定所述未匹配的实时集群日志对应的日志异常类别。
本实施例中,需要将每条实时集群日志与历史集群日志进行文本相似度计算,确定每条未匹配的实时集群日志对应的日志异常类别。
402、基于所述未匹配的实时集群日志及其对应的日志异常类别,对所述日志模板库进行增量训练任务,得到更新后的日志模板库。
本实施例不仅可以对历史集群日志进行模板训练,生成覆盖度广的日志模板库,推到线上通过基于标签树的算法实时匹配,还可以对未匹配到的实时集群日志继续对日志模板库进行增量训练,以使更新后的日志模板库的覆盖度广。基于标签树的实时匹配算法时效性高于正则,并且可以实现对海量大数据集群日志的聚合分析,减少人工排查的工作量,并且在将实时集群日志保存至日志模板后,通过监控日志模板可以提前发现问题,及时止损。
进一步地,步骤103包括:
将每个日志异常类别对应的实时集群日志以及历史集群日志转换成时序指标;
将所述时序指标输入至基线监控模型,输出每个日志异常类别对应的异常预测值;
其中,所述异常预测值包括:时序指标的均值变化、抖动频率变化、检测尖峰和深谷以及跌落比例值。
本实施例中,基线监控模型可以为DeepAR模型,包括编码器和解码器。通过基线监控模型,可以得到未来一段时间的预测值,例如未来10分钟的预测值。
此模型基于自回归原理,将上一时刻的真实值作为当前时刻的特征输入到编码器网络,将上一时刻的预测值作为当前时刻的特征输入到解码器网络,进行时间序列预测。通过计算均方根误差RMSE对DeepAR模型的效果进行评估,用120个时间步长(时间步长可选为10s、30s、1min)数据预测100个时间步长的时间序列数据,评估效果显示DeepAR模型适用于大数据集群日志量化指标后的智能基线预测,通过适配上下限,能更好地对大数据集群日志进行异常识别。
进一步地,步骤103包括:确定不同日志异常类别的实时集群日志的占比,根据所述占比确定第一检测结果,从而实现对于不同日志异常类别的角度作为异常检测的考量因素。
进一步地,还可以实现对日志的逻辑顺序的异常检测,步骤103包括:将不同日志异常类别的实时集群日志输入至顺序检测模型,输出第二检测结果。
本实施例中,顺序检测模型可以为CNN+LSTM的时序模型,从而实现利用日志的模板序列属性,将日志的异常检测问题转换为多分类问题,进行日志逻辑顺序上的异常检测。
对于CNN+LSTM的模型在使用时,输入为一段时间6个类的日志模板指标化后的时间序列数据。
对于CNN+LSTM的模型在训练时,输入LSTM的数据:128*6*5,以一个样本为例,每个时间步(共5个时间步)输入的数据是30*1,得到一个6*1的输出,即LSTM在步骤concat前输出的数据结构为6*1的矩阵。128为batchsize,即为一次训练选取的样本数,进行多次训练即可遍历全量数据。
输入到CNN的数据:1*5*6,卷积核:3*6的矩阵,特征图:128个,使用卷积核矩阵逐步扫过输入数据,对应位置相乘再相加,同时使用0来填充输入数据,得到128个5*6的特征图。
可选地,在确定检测结果后,参见图5,所述方法还包括下述步骤501~503:
步骤501、根据不同集群日志对应的时序指标生成每个集群的日志指标时间序列曲线以及总日志指标时间序列曲线。
步骤502、将每个集群的日志指标时间序列曲线的变化趋势与所述总日志指标时间序列曲线的变化趋势进行对比。
步骤503、若变化趋势一致,基于该集群的实时集群日志在不同日志异常类别中的占比,确定占比较大的日志异常类别作为主要日志异常类别,并基于所述主要日志异常类别进行根因定位,确定所述集群中存在异常的机器标识。
本实施例中,为重要类的日志模板指标配置根因定位检测模型,从而可以快速检测出日志总量发生突升现象。通过多维下钻分析,定位某集群的日志指标时间序列曲线与总量变化一致,结合此集群的模板占比趋势变化分析,定位到具体的导致大数据集群出问题的机器标识是哪些。大数据集群日志量是具有趋势性变化特性的,日志匹配到模板存在多维度下钻关系,快速定位导致大数据集群维度出问题的机器标识组合,可以解决排查问题慢、根因定位难的问题。
具体地,本实施例的根因定位检测模型通过构造评价指标,筛选根因的元素集合,确定初步搜索空间,利用强化学习搜索方法搜索得到多维度根因可能性最高的集合,并对最终根因进行修正。根因修正的原理:潜在得分越大的属性组合是根因的可能性更大,当两个元素集具有相同的潜在得分时,元素数量较少的一方获胜。
本公开一实施例还提供了一种日志异常检测的方法,参见图6,包括:
步骤601、对获取的实时集群日志进行聚类分析,生成对应的标签树。
步骤602、将所述标签树与日志模板库进行匹配,判断标签树与日志模板库是否匹配,若匹配,执行步骤603,若不匹配,执行步骤604。
步骤603、确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板。
其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别。
步骤604、基于未匹配的实时集群日志与已存的每个日志异常类别对应的历史集群日志进行相似度计算,确定所述未匹配的实时集群日志对应的日志异常类别;基于所述未匹配的实时集群日志及其对应的日志异常类别,对所述日志模板库进行增量训练任务,得到更新后的日志模板库,返回执行步骤602。
步骤605、基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
其中,异常检测的方法包括多种:
第一种情况下,将每个日志异常类别对应的实时集群日志以及历史集群日志转换成时序指标;将所述时序指标输入至基线监控模型,输出每个日志异常类别对应的异常预测值。
本实施例中,异常预测值包括:时序指标的均值变化、抖动频率变化、检测尖峰和深谷以及跌落比例值。
第二种情况下,确定不同日志异常类别的实时集群日志的占比,根据所述占比确定第一检测结果。
第三种情况下,将不同日志异常类别的实时集群日志输入至顺序检测模型,输出第二检测结果。
步骤606、根据不同集群日志对应的时序指标生成每个集群的日志指标时间序列曲线以及总日志指标时间序列曲线。
步骤607、将每个集群的日志指标时间序列曲线的变化趋势与所述总日志指标时间序列曲线的变化趋势进行对比。
步骤608、若变化趋势一致,基于该集群的实时集群日志在不同日志异常类别中的占比,确定占比较大的日志异常类别作为主要日志异常类别,并基于所述主要日志异常类别进行根因定位,确定所述集群中存在异常的机器标识。
本公开实施例将繁杂的大数据集群日志问题排查过程转换成模板对比的形式,可以实现对日志的快速聚类和全局角度分析日志类别。通过FT-Tree树方法训练生成日志模板库,通过线上实时匹配日志模板生成日志类别的时序指标发现日志异常点,提前发现问题,解决大数据集群故障发生排查时间慢、被动排查大数据集群问题难排查、故障排查流程繁琐的问题。
另外,对重点监控模板量化后的指标配置基线监控模型,通过比对历史数据发现该时段持续的数量异常突增,可以提前命中故障。
再次,本实施例通过在线增量学习日志模板方法,能够基于滑动窗口,对日志进行特征提取,找到模板之间的相关关系,检测新增日志模式组合的异常;利用日志的时间序列属性,将日志的异常检测问题转换为多分类问题,通过训练顺序检测模型(CNN+LSTM),进行日志逻辑顺序上的异常检测;发现异常后,通过钻取故障详情对关联的告警做分析,辅助运维人员分析故障的具体根因。
本公开实施例还包括一种日志异常检测的装置,参见图7,包括:
聚类模块701,用于对获取的实时集群日志进行聚类分析,生成对应的标签树;
匹配模块702,用于将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
检测模块703,用于基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
可选地,所述装置还包括历史模板库生成模块,用于:
获取历史集群日志;
基于所述历史集群日志生成初始标签树;
搭建初始模板树,基于初始标签树对所述初始模板树进行训练,生成模板,并将所述模板生成日志模板库;
对所述模板进行二次聚类,对每类所述模板标注对应的日志异常类别。
可选地,所述装置还包括:
相似度计算模块,用于在所述标签树与日志模板库未匹配的情况下,基于未匹配的实时集群日志与已存的每个日志异常类别对应的历史集群日志进行相似度计算,确定所述未匹配的实时集群日志对应的日志异常类别;
更新模块,用于基于所述未匹配的实时集群日志及其对应的日志异常类别,对所述日志模板库进行增量训练任务,得到更新后的日志模板库。
可选地,检测模块703,具体用于:
将每个日志异常类别对应的实时集群日志以及历史集群日志转换成时序指标;
将所述时序指标输入至基线监控模型,输出每个日志异常类别对应的异常预测值;
其中,所述异常预测值包括:时序指标的均值变化、抖动频率变化、检测尖峰和深谷以及跌落比例值。
可选地,检测模块703,具体用于:确定不同日志异常类别的实时集群日志的占比,根据所述占比确定第一检测结果。
可选地,检测模块703,具体用于:将不同日志异常类别的实时集群日志输入至顺序检测模型,输出第二检测结果。
可选地,所述装置还包括:
曲线生成模块,用于在确定检测结果后,根据不同集群日志对应的时序指标生成每个集群的日志指标时间序列曲线以及总日志指标时间序列曲线;
趋势对比模块,用于将每个集群的日志指标时间序列曲线的变化趋势与所述总日志指标时间序列曲线的变化趋势进行对比;
根因定位模块,用于若变化趋势一致,基于该集群的实时集群日志在不同日志异常类别中的占比,确定占比较大的日志异常类别作为主要日志异常类别,并基于所述主要日志异常类别进行根因定位,确定所述集群中存在异常的机器标识。
本公开实施例提供的日志异常检测的装置,将集群日志进行聚类生成标签树,并与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,从而通过线上实时匹配的方式主动从集群日志的角度发现大数据集群的问题,可以实现对海量大数据的实时集群日志的聚合分析,进而对每类实时集群日志进行异常检测,确定检测结果,减少人工排查的工作量,简化了故障排查流程。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行日志异常检测的方法,包括:
对获取的实时集群日志进行聚类分析,生成对应的标签树;
将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
此外,上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的日志异常检测的方法,包括:
对获取的实时集群日志进行聚类分析,生成对应的标签树;
将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的日志异常检测的方法,包括:
对获取的实时集群日志进行聚类分析,生成对应的标签树;
将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (10)

1.一种日志异常检测的方法,其特征在于,包括:
对获取的实时集群日志进行聚类分析,生成对应的标签树;
将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
2.根据权利要求1所述的日志异常检测的方法,其特征在于,所述日志模板库的生成方法包括:
获取历史集群日志;
基于所述历史集群日志生成初始标签树;
搭建初始模板树,基于初始标签树对所述初始模板树进行训练,生成模板,并将所述模板生成日志模板库;
对所述模板进行二次聚类,对每类所述模板标注对应的日志异常类别。
3.根据权利要求2所述的日志异常检测的方法,其特征在于,所述方法还包括:
在所述标签树与日志模板库未匹配的情况下,基于未匹配的实时集群日志与已存的每个日志异常类别对应的历史集群日志进行相似度计算,确定所述未匹配的实时集群日志对应的日志异常类别;
基于所述未匹配的实时集群日志及其对应的日志异常类别,对所述日志模板库进行增量训练任务,得到更新后的日志模板库。
4.根据权利要求1所述的日志异常检测的方法,其特征在于,基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,包括:
将每个日志异常类别对应的实时集群日志以及历史集群日志转换成时序指标;
将所述时序指标输入至基线监控模型,输出每个日志异常类别对应的异常预测值;
其中,所述异常预测值包括:时序指标的均值变化、抖动频率变化、检测尖峰和深谷以及跌落比例值。
5.根据权利要求1所述的日志异常检测的方法,其特征在于,基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,包括:
确定不同日志异常类别的实时集群日志的占比,根据所述占比确定第一检测结果。
6.根据权利要求1所述的日志异常检测的方法,其特征在于,基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果,包括:
将不同日志异常类别的实时集群日志输入至顺序检测模型,输出第二检测结果。
7.根据权利要求1所述的日志异常检测的方法,其特征在于,在确定检测结果后,所述方法还包括:
根据不同集群日志对应的时序指标生成每个集群的日志指标时间序列曲线以及总日志指标时间序列曲线;
将每个集群的日志指标时间序列曲线的变化趋势与所述总日志指标时间序列曲线的变化趋势进行对比;
若变化趋势一致,基于该集群的实时集群日志在不同日志异常类别中的占比,确定占比较大的日志异常类别作为主要日志异常类别,并基于所述主要日志异常类别进行根因定位,确定所述集群中存在异常的机器标识。
8.一种日志异常检测的装置,其特征在于,包括:
聚类模块,用于对获取的实时集群日志进行聚类分析,生成对应的标签树;
匹配模块,用于将所述标签树与日志模板库进行匹配,确定与所述标签树匹配的日志模板以及对应的日志异常类别,并将所述实时集群日志按所述日志异常类别保存至对应的日志模板,其中,所述日志模板库包括多个日志模板,每个日志模板具有对应的日志异常类别;
检测模块,用于基于不同日志异常类别的实时集群日志进行异常检测,确定检测结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的日志异常检测的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的日志异常检测的方法的步骤。
CN202210173675.0A 2022-02-24 2022-02-24 一种日志异常检测的方法和装置 Pending CN114647558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210173675.0A CN114647558A (zh) 2022-02-24 2022-02-24 一种日志异常检测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210173675.0A CN114647558A (zh) 2022-02-24 2022-02-24 一种日志异常检测的方法和装置

Publications (1)

Publication Number Publication Date
CN114647558A true CN114647558A (zh) 2022-06-21

Family

ID=81992811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210173675.0A Pending CN114647558A (zh) 2022-02-24 2022-02-24 一种日志异常检测的方法和装置

Country Status (1)

Country Link
CN (1) CN114647558A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865649A (zh) * 2023-02-28 2023-03-28 网思科技股份有限公司 一种智能运维管理控制方法、***和存储介质
CN117215902A (zh) * 2023-11-09 2023-12-12 北京集度科技有限公司 日志解析方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865649A (zh) * 2023-02-28 2023-03-28 网思科技股份有限公司 一种智能运维管理控制方法、***和存储介质
CN115865649B (zh) * 2023-02-28 2023-05-12 网思科技股份有限公司 一种智能运维管理控制方法、***和存储介质
CN117215902A (zh) * 2023-11-09 2023-12-12 北京集度科技有限公司 日志解析方法、装置、设备及存储介质
CN117215902B (zh) * 2023-11-09 2024-03-08 北京集度科技有限公司 日志解析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
CN111726248A (zh) 一种告警根因定位方法及装置
CN112148772A (zh) 告警根因识别方法、装置、设备和存储介质
CN113282461A (zh) 传输网的告警识别方法和装置
CN114647558A (zh) 一种日志异常检测的方法和装置
CN111539493B (zh) 一种告警预测方法、装置、电子设备及存储介质
CN113572625B (zh) 故障预警方法、预警装置、设备及计算机介质
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及***
CN116955092B (zh) 基于数据分析的多媒体***监控方法及***
CN114430365B (zh) 故障根因分析方法、装置、电子设备和存储介质
CN112636967A (zh) 一种根因分析方法、装置、设备及存储介质
CN116089231A (zh) 一种故障告警方法、装置、电子设备及存储介质
CN110399278B (zh) 基于数据中心异常监控的告警融合***及方法
CN111767193A (zh) 一种服务器数据异常检测方法、装置、存储介质及设备
CN111865673A (zh) 一种自动化故障管理方法、装置及***
CN114168375A (zh) 一种数据库***异常快速定位与消除的方法
CN114765574B (zh) 一种网络异常定界定位方法及装置
CN112613176A (zh) 慢sql语句预测方法及***
CN115964470B (zh) 一种摩托车配件的寿命预测方法及***
CN112306820A (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
CN117216713A (zh) 故障定界方法、装置、电子设备和存储介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN114881112A (zh) 一种***异常检测方法、装置、设备及介质
CN115080286A (zh) 一种网络设备日志异常的发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination