CN115794465B

CN115794465B - 一种日志异常检测方法及***

Info

Publication number: CN115794465B
Application number: CN202211405933.XA
Authority: CN
Inventors: 田富龙; 何诚; 李睿; 王平辉
Original assignee: Shanghai Dingmao Information Technology Co ltd
Current assignee: Shanghai Dingmao Information Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-12-19
Anticipated expiration: 2042-11-10
Also published as: CN115794465A

Abstract

本发明提供一种日志异常检测方法，日志预处理后利用日志解析算法对日志进行解析生成日志模板，流程中创新主要包含日志折叠向量表征、基于索引的轮询掩码2个模块；日志折叠向量表征采用Volume Embedding表征某日志连续出现次数，Positional Embedding表征日志出现位置，Token Embedding表征日志文本，该种表征可以使日志序列向量中包含更丰富的日志上下文信息；基于索引的轮询掩码，将位置下标再映射到对应的日志模板进行掩码，可以保证每次被掩码的日志模板在日志序列中随机分布，同时整个序列中的日志模板都将被掩码。该掩码方式保证日志序列中的每个位置都被掩码；基于每次的掩码比例n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强。

Description

一种日志异常检测方法及***

技术领域

本发明涉及人工智能技术领域，特别是涉及一种日志异常检测方法及***。

背景技术

日志是一种由时间戳和文本信息组成的非结构化时序文本数据，实时记录业务运行状态，是运维人员分析***故障的重要依据。现代***的规模和复杂性不断增加，使得日志量暴增。若依靠人工分析日志数据来识别***中是否发生了故障则效率低下，因此有必要引入AI算法进行日志异常检测，以达到降低运维成本，显著提升业务体验的目的。

在AIOps领域中，日志异常检测(Log Anomaly Detection，LAD)是指将统计学习、机器学习、深度学习等AI算法与运维人员的领域知识融合，用来识别日志序列数据中不符合预期行为的模式，可以发现或预知***中已发生或潜在的故障，提高运维人员排障效率。通常采用决策树模型、DeepLog模型和LogBERT模型进行日志异常检测。

决策树模型是使用训练数据以自顶向下的方式构建的树形结构。树中每个节点都是使用当前的“最佳(信息增益最大)”属性(日志模板&发生次数)创建。图1中根节点表示数据集中共有20条日志序列。分割根节点时，日志模板2(Template ID:2)的出现次数被视为“最佳”属性。因此，根据该属性的值，20条日志序列被分成两个子集，其中一个分支包含 12个日志序列，另一个分支包含8个日志序列，重复上述步骤，直至没有需要划分的节点。为了检测新的日志序列的状态，需要遍历决策树，在遍历结束时，日志序列将到达其中一个叶子，该节点代表日志序列的状态。决策树模型缺点包括：在日志数据序列中正负样本极度不均衡；决策树模型无法捕捉日志上下文关系。由于以上缺点，导致决策树模型在AIops领域得日志异常检测方面效果较差。

DeepLog模型把日志当作NLP的自然语言序列处理。其本质是利用深度学习网络，学习***中产生的正常日志流，当出现日志的偏离训练的模型的时候，检测出异常。DeepLog整体框架如图2所示，主要贡献点包含3部分：①日志模板异常检测模型，②参数值异常检测模，③工作流异常检测模型。DeepLog模型缺点为：日志序列中短时间内存在大量的重复日志，直接将日志模板编号转换为序列输入到LSTM模型中，相当于输入大量噪声数据，导致异常检测效果不佳。若结合日志序列中的模板编号与某模板发生频次构造向量表征输入到模型，效果更佳。

LogBERT模型采用Transformer Encoder来学习序列中日志模板(Template ID)之间的上下文关系。主要贡献有两个：①使用掩码语言模型预测日志序列中被掩码位置处的日志模板(Template ID)，旨在正确预测随机掩码的正常日志序列中的掩码位置处的日志模板 (Template ID)；②使用VHM(volume of hypersphere minimization，超球面体积最小化) 作为优化目标函数，使正常日志序列在向量空间中更聚集，异常日志序列在空间上偏离正常日志序列。LogBERT模型整体框架如图3所示。LogBERT模型缺点为：没有考虑日志数据序列中某日志连续出现频次特点，利用通用的文本向量表征方式对日志进行向量表征，并输入到 LogBERT模型中，导致异常检测效果较差。在模型训练和异常检测阶段，LogBERT通过随机掩码日志序列中的日志模板(Template ID)进行训练和异常检测。由于日志序列中正常日志比例较大，若掩码比例若过大则导致模型无法学习日志序列中包含的信息。掩码比例较少时则对于异常日志序列可能掩码掉的都是正常位置，通过其上下文可以正确预测处该位置的Template ID，导致无法对异常序列进行检测。

由于目前日志异常检测存在以下挑战，导致现有的日志异常检测算法的准确率(precision)和召回率(recall)较低，存在大量的误报和漏报，对运维人员造成困扰；

①日志规范不统一，不同类型的设备打印出的日志格式也不同，且日志数据呈现出非结构化的特点。

②现有日志异常检测方案没有针对日志发生频次的特点，将短时间内大量重复的日志直接转换为序列或利用通用文本向量表征方法对日志数据进行表征，导致输入到日志异常检测模型中包含大量噪声数据；

③日志序列中正常日志占比大，异常日志占比较小，现有基于Bert模型的日志异常检测方案掩码时没有考虑到该特点，在模型训练与异常检测阶段继续使用通用的随机掩码方式，导致无法对异常序列进行有效检测。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种日志异常检测方法及***，用于解决现有技术中现有日志异常检测准确率和效率较低的问题。

为实现上述目的及其他相关目的，本发明提供一种日志异常检测方法，日志预处理后利用日志解析算法对日志进行解析，生成日志模板，所述日志模板经过日志折叠向量表征以及基于索引的轮询掩码后输入BERT模型中进行模型离线训练生成日志异常检测模型，用于日志序列异常检测；

所述日志折叠向量表征采用Volume Embedding表征某日志连续出现次数，Positional Embedding表征日志出现位置，Token Embedding表征日志文本，最终将三者相加表示日志序列的整体向量表征；

所述基于索引的轮询掩码，即将每条日志序列中日志模板的位置下标打乱后再按顺序对位置下标进行滑窗采样，将下标再映射到对应的日志模板进行掩码，可以保证每次被掩码的日志模板在日志序列中随机分布，同时整个序列中的日志模板都将被掩码。该掩码方式包含 2种优势，①保证日志序列中的每个位置都被掩码；②基于每次的掩码比例n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强。

于本发明的一实施例中，还包括用于日志序列异常检测的最终目标函数为：

最终目标函数中的L_MLKP为日志模板掩码预测(MLKP)损失函数Masked Log KeyPrediction(MLKP)形式，具体为：

其中表示在第j个日志序列中，掩码位置i处的真实日志模板，/>表示第j个日志序列中，掩码位置i处的预测的日志模板，M表示日志序列j中总的掩码个数，N表示日志序列个数；

最终目标函数中的αL_VHM为超球面体积最小化Volume of HypersphereMinimization(VHM)损失函数，具体为：

其中，N表示日志序列个数，c为超球的中心点，为第j个日志序列的向量表示；最终目标函数中的α为MLKP损失函数和VHM损失函数的平衡因子。

于本发明的一实施例中，输入至模型离线训练后的模型，即将掩码后的日志序列输入模型，预测掩码位置处候选TopN个日志模板，若真实日志模板在TopN集合中，则判断该掩码位置处预测正常，否则判断该掩码位置处预测异常。

上述实施例的有益效果在于：通过计算日志序列中预测错误的比例来判断序列是否异常，具有广泛的适用性。

于本发明的一实施例中，所述日志预处理，提前利用正则表达式对日志文本中常见变量替换为相应的字符串。

于本发明的一实施例中，所述常见变量包括数字、时间、ip地址、ip端口和文件路径。

于本发明的一实施例中，所述日志解析算法为Drain、Spell、LogMine或LogCluster 日志解析算法。

于本发明的一实施例中，所述BERT模型由多个Transformer的编码器组成。

于本发明的一实施例中，所述BERT模型为前馈神经网络模型。

一种日志异常检测***，基于上述的日志异常检测方法，包括日志预处理模块、日志解析模块、日志折叠向量表征模块、基于索引的轮询模块、模型离线训练模块，所述日志折叠向量表征模块采用Volume Embedding表征某日志连续出现次数，PositionalEmbedding表征日志出现位置，Token Embedding表征日志文本，最终将三者相加表示日志序列的整体向量表征。所述基于索引的轮询掩码，即将每条日志序列中日志模板的位置下标打乱后再按顺序对位置下标进行滑窗采样，将下标再映射到对应的日志模板进行掩码，可以保证每次被掩码的日志模板在日志序列中随机分布，同时整个序列中的日志模板都将被掩码。该掩码方式包含2种优势，①保证日志序列中的每个位置都被掩码；②基于每次的掩码比例 n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强。所述模型训练模块采用的目标函数为：

其中的α为MLKP损失函数和VHM损失函数的平衡因子。

如上所述，本发明的日志异常检测方法及***，具有以下有益效果：日志折叠向量表征中包含更多的日志序列信息，此外还可以提高单次输入日志模板序列的长度，使得模型能够学习到更多日志序列信息，提高异常检测准确率和检测效率，模型训练阶段使用基于索引的序列轮询掩码方法中保证日志序列中的每个位置都被掩码；此外基于每次的掩码比例 n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为决策树模型示意图；

图2为DeepLog整体框架示意图；

图3为LogBERT模型整体框架示意图；

图4为本发明的日志异常检测方法的整体框架示意图；

图5为本发明的日志异常检测方法的日志折叠向量表征示意图；

图6为本发明的日志异常检测方法的基于索引的轮询掩码方法示意图；

图7为本发明的日志异常检测方法的算法效果对比示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

术语解释：

·AIops：Artificial Intelligence for IT Operations智能运维

·NLP：Natural Language Processing自然语言处理

·BERT：Bidirectional Encoder Representations from Transformers BERT模型

·LAD：Log Anomaly Detection日志异常检测

·MLKP：Masked Log Key Prediction日志模板掩码预测

·VHM：volume of hypersphere minimization超球面体积最小化

·Template ID日志模板

实施例一

请参阅图4至图7，本发明提供一种日志异常检测方法，日志预处理后利用日志解析算法对日志进行解析，提取日志模板，所述日志模板经过日志折叠向量表征以及基于索引的轮询掩码后输入BERT模型中进行模型离线训练生成异常检测模型，用于日志序列异常检测；

还包括用于模型离线训练阶段的目标函数为：

其中的α为MLKP损失函数和VHM损失函数的平衡因子。

具体的，请参阅图5，所述Positional Embedding表示为：日志文本在日志序列中出现的位置，折叠后的日志A出现在位置1处，日志B出现在位置5处，日志C出现在位置7处；

所述Volume Embedding表示为：某一日志文本在日志序列中连续出现次数，如图3中日志A在日志序列开头处连续出现4次；

所述Token Embedding表示为：将日志模板通过神经网络等方式转换为向量表示。

在上述方法中，所述日志异常检测的日志异常检测阶段，对日志序列进行掩码，并输入至模型离线训练后的模型中进行异常检测。详细的，日志序列进行掩码，即将每条日志序列中日志模板的位置下标打乱后再按顺序进行滑窗采样，保证每次被掩码的模板在序列中随机分布，同时整个序列中的模板都将被掩码，解决异常日志的模板在日志序列中比例小无法被掩码的问题，同时避免单纯的轮询掩码导致掩码中心位置无法学习周边位置信息的问题。

请参阅图6，轮询掩码方法流程如下：对日志序列中的日志模板进行排序或者乱序排列；基于索引位置采用轮询的方式对日志模板进行掩码；在模型训练阶段通过此种掩码方式可以进行数据增强，即同一日志序列会被多次掩码使用，使模型充分学习日志序列中包含的信息。

在异常检测阶段日志序列中的每个位置都被掩码，避免日志序列中正常日志比例较大，掩码比例较少时则对于异常日志序列可能掩码掉的都是正常位置，通过其上下文可以正确预测处该位置的日志模板，导致无法对异常序列进行检测。若掩码比例若过大则导致模型无法学习日志序列中包含的信息，同样无法对日志序列进行检测的问题。

输入至模型离线训练后的模型，即将掩码后的日志序列输入模型，预测掩码位置处候选 TopN个日志模板，若真实日志模板在TopN集合中，则判断该掩码位置处预测正常，否则判断该掩码位置处预测异常。

请参阅图7，图7是各种算法在HDFS、BGL数据集上异常检测效果，从表中可以看出本发明在精确率、召回率、f₁值上具有较大优势。

在本实施例中，所述日志预处理，提前利用正则表达式对日志文本中常见变量替换为相应的字符串。容易理解的是，所述常见变量包括数字、时间、ip地址、ip端口和文件路径。

可选的，所述日志解析算法为Drain、Spell、LogMine或LogCluster日志解析算法，优选的，所述日志解析算法为Drain日志解析算法。

可选的，所述BERT模型由多个Transformer的编码器组成，即所述BERT模型中采用的是带有多头注意力的译码器。在另一可行实施例中，所述BERT模型为前馈神经网络模型。

实施例二

本发明提供一种日志异常检测***，基于上述的日志异常检测方法，包括日志预处理模块、日志解析模块、日志折叠向量表征模块、基于索引的轮询掩码模块、模型离线训练模块，所述日志折叠向量表征模块采用Volume Embedding表征某日志连续出现次数，Positional Embedding表征日志出现位置，Token Embedding表征日志文本，最终将三者相加表示日志序列的整体向量表征；所述基于索引的轮询掩码，即将每条日志序列中日志模板的位置下标打乱后再按顺序对位置下标进行滑窗采样，将下标再映射到对应的日志模板进行掩码，可以保证每次被掩码的日志模板在日志序列中随机分布，同时整个序列中的日志模板都将被掩码。该掩码方式包含2种优势，①保证日志序列中的每个位置都被掩码；②基于每次的掩码比例n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强。所述模型训练模块采用的最终目标函数为：

其中的α为MLKP损失函数和VHM损失函数的平衡因子。

综上所述，本发明日志异常检测方法及***，日志折叠向量表征中包含更多的日志序列信息，此外还可以提高单次输入日志模板序列的长度，使得模型能够学习到更多日志序列信息，提高异常检测准确率和检测效率，模型训练阶段可以使用基于索引的序列轮询掩码方法保证日志序列中的每个位置都被掩码；基于每次的掩码比例n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强。

所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种日志异常检测方法，其特征在于，日志预处理后利用日志解析算法对日志进行解析，生成日志模板，所述日志模板经过整体向量表征以及基于索引的轮询掩码后输入BERT模型中进行模型离线训练生成异常检测模型，用于日志序列异常检测；

所述整体向量表征采用Volume Embedding表征某日志模板连续出现次数，PositionalEmbedding表征日志模板出现位置，Token Embedding表征日志模板的文本，最终将三者相加表示日志序列的整体向量表征；

所述基于索引的轮询掩码，即将每条日志序列中日志模板的位置下标打乱后再按顺序对位置下标进行滑窗采样，将位置下标再映射到对应的日志模板进行掩码，可以保证每次被掩码的日志模板在日志序列中随机分布，同时整个序列中的日志模板都将被掩码；

将掩码后的日志序列输入异常检测模型，预测掩码位置处候选TopN个日志模板；

若真实日志模板在TopN集合中，则判断该掩码位置处预测正常；

否则，判断该掩码位置处预测异常。

2.根据权利要求1所述的日志异常检测方法，其特征在于：

还包括用于日志序列异常检测的最终目标函数为：

最终目标函数中L_MLKP的L MLKP为日志模板掩码预测(MLKP)损失函数Masked LogKeyPrediction(MLKP)形式，具体为：

最终目标函数中的L VHM为超球面体积最小化Volume of Hypersphere Minimization(VHM)损失函数，具体为：

其中，N表示日志序列个数，c为超球的中心点，为第j个日志序列的向量表示；

最终目标函数中的α为MLKP损失函数和VHM损失函数的平衡因子。

3.据权利要求1所述的日志异常检测方法，其特征在于：输入至模型离线训练后的模型，即将掩码后的日志序列输入模型，预测掩码位置处候选TopN个日志模板，若真实日志模板在TopN集合中，则判断该掩码位置处预测正常，否则判断该掩码位置处预测异常。

4.根据权利要求1所述的日志异常检测方法，其特征在于：所述日志预处理，提前利用正则表达式对日志模板的文本中常见变量替换为相应的字符串。

5.根据权利要求4所述的日志异常检测方法，其特征在于：所述常见变量包括数字、时间、ip地址、ip端口和文件路径。

6.根据权利要求1所述的日志异常检测方法，其特征在于：所述日志解析算法为Drain、Spell、LogMine或LogCluster日志解析算法。

7.根据权利要求1所述的日志异常检测方法，其特征在于：所述BERT模型由多个Transformer编码器组成。

8.根据权利要求1所述的日志异常检测方法，其特征在于：所述BERT模型可以替换为前馈神经网络模型。

9.一种日志异常检测***，基于权利要求1-8任一项所述的日志异常检测方法，其特征在于：包括日志预处理模块、日志解析模块、整体向量表征模块、基于索引的轮询掩码模块和模型离线训练模块，所述整体向量表征模块采用Volume Embedding表征某日志模板连续出现次数，Positional Embedding表征日志模板出现位置，Token Embedding表征日志模板的文本，最终将三者相加表示日志序列的整体向量表征；基于索引的轮询掩码，即将每条日志序列中日志模板的位置下标打乱后再按顺序对位置下标进行滑窗采样，将下标再映射到对应的日志模板，可以保证每次被掩码的日志模板在日志序列中随机分布，同时整个序列中的日志模板都将被掩码；该掩码方式包含2种优势，①保证日志序列中的每个位置都被掩码；②基于每次的掩码比例n(0<n<1)相当于将训练数据集扩充为1/n份，使异常检测模型的健壮性更强；

否则，判断该掩码位置处预测异常。