CN117454296A

CN117454296A - 基于进化树结构的在线日志检测方法

Info

Publication number: CN117454296A
Application number: CN202311543258.1A
Authority: CN
Inventors: 于富财; 郭甫睿; 陈振兴
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-01-26

Abstract

本发明公开了一种基于进化树结构的在线日志检测方法，首先通过日志解析器进行日志预处理，之后从根节点开始遍历UST树结构，找到合适的叶节点之后将日志自身信息与叶节点相关模板匹配，若没有合适模板便将模板新增到叶节点，当叶节点相关模板过多时，将饱和叶节点根据模板相似度进行分割，原叶节点变为内部节点，最后，当UST相关处理完成后，根据模板匹配结果输出日志处理结果。本发明的方法提出了一种新的进化树结构即UST结构，利用该结构进行日志模板的学习与识别，基于UST进行日志解析，能够很好的完成多种类型云端日志数据的异常检测。

Description

基于进化树结构的在线日志检测方法

技术领域

本发明属于日志异常检测技术领域，具体涉及一种基于进化树结构的在线日志检测方法。

背景技术

日志记录了***在不同关键点上的状态和重要事件，能够帮助调试性能问题和解决故障，并进行根本原因分析。这种日志数据在几乎所有的计算机***中都是普遍可用的，是了解***状态的宝贵资源。此外，由于***日志记录了活跃运行进程中发生的重要的事件，因此它们是在线监控和异常检测的极好信息源。

异常检测是构建安全可靠的计算机***的一项重要任务。随着***和应用程序变得更加日益庞大和复杂，一方面，计算机***自身的漏洞和缺陷增加，受到攻击的可能性增大，因此异常检测变得异常重要；另一方面，日志的数量不断增多，这给管理员全面了解***状态和有效发现异常带来了挑战。

日志异常检测可以通过人工检测或者自动检测完成，人工日志检测实现困难，成本过高，因此日志异常自动检测作为一个新兴课题，在简化异常和故障检测、诊断和预测等许多方面变得越来越重要。

随着研究的深入，越来越多的自动异常检测算法被提出。文献“M.Du，F.Li，G.Zheng，and V.Srikumar，‘Deeplog：Anomaly detection and diagnosis from systemlogs through deep learning，’in Proceedings of the 2017ACM SIGSAC Conferenceon Computer and Communications Security，2017，pp.1285–1298.”提出了DeepLog模型，DeepLog模型是一种利用长短期记忆(LSTM)网络进行异常检测的深度学习模型。该模型通过处理自然语言序列形式的日志进行学习，检测异常。

文献“H.Guo，S.Yuan，and X.Wu，‘Logbert：Log anomaly detection via bert，’arXiv preprint arXiv：2103.04475，2021.”提出了LogBert模型，LogBERT模型通过两个自监督训练任务学习正常日志序列的模式，并能够检测出底层模式偏离正常日志序列的异常。但是目前现有的方法对日志的解析准确度(Parsing Accuracy)依赖性过高，较低的解析准确度会导致异常检测算法精确度下降。

在目前的云端IT环境中，日志语句内容的更新不断丰富，导致了新的日志模板的产生和现有日志模板的更新与发展。同时云端环境对于日志处理的实时性要求更高，现有的日志异常检测模型在云端环境的鲁棒性较低，无法达到云端环境运行维护要求，且模型的训练数据大多数是静态的本地数据。而对于云端IT设施应用场景具有可变性、大容量、实时性等特点，现有的日志异常检测方法并没有很好地鲁棒性和可拓展性进行信息流处理。需要提出新的具有更高鲁棒性和可拓展性的日志异常检测方法，来满足云端环境对于日志异常信息的检测和对日常***维护的要求。

发明内容

为解决上述技术问题，本发明提供了一种基于进化树结构的在线日志检测方法，通过UST(一种用于高效解析的不固定搜索树)在处理日志时发现并编码新的日志解析模板，适合于实时应用程序。

本发明采用的技术方案为：一种基于进化树结构的在线日志检测方法，具体步骤如下：

S1、通过日志解析器对输入的日志进行预处理；

S2、从根节点开始遍历UST搜索树并匹配叶节点；

S3、基于步骤S2，将日志自身信息与叶节点相关模板匹配，若没有合适模板便将模板新增到叶节点；

S4、对饱和叶节点根据模板相似度进行分割，原叶节点变为内部节点；

S5、根据模板匹配结果输出日志处理结果，完成日志异常检测。

进一步地，所述步骤S1具体如下：

首先通过日志解析器将输入的日志定义为临时有序的非结构化文本消息序列

其中，i表示日志消息l_i在序列中的位置索引。

再将每条日志消息分割为令牌词，每条日志消息由空格分隔的有限令牌词序列组成。

其中，t_i表示日志消息l_i的令牌词，且表示所有令牌词的集合，t表示令牌词，j表示日志消息l_i中令牌词的位置索引，而|t_i|表示l_i中令牌词的总数。

进一步地，所述步骤S2具体如下：

定义一个UST实例表示解析树，σ∈[0；1]表示日志模板的相似度阈值，/>表示叶节点模板数量的阈值，N^*表示取值为正整数。

其中，表示节点集，N表示节点标识总数，每个节点标识为v_k，编号范围为k∈[1,N]，/>表示已发现模板集，/>表示节点-模板链接集。

在解析树的顶部，有一个根节点(v₁)，它是初始化时唯一存在的节点且内部节点至少有一个子节点，其余节点为叶节点，日志模板只附加到叶节点上，一个叶节点不能链接到φ以上的模板。

遍历UST搜索树，直到到达叶节点。日志消息l_i的解析过程从根节点开始进行遍历。

设定具有相同模板的日志消息具有相同数量的令牌词，则在创建节点时，为每个节点分配一个令牌词。

多个节点可以具有相同的令牌词，但节点的所有子节点具有不同的令牌词，则每个内部节点都有一个函数对于根节点，定义密钥/>

从根节点v_k＝v₁开始，下一级节点v_k的令牌词由给出。若在v_k的子节点中没有匹配这个令牌词，就用该令牌词创建一个新的节点，并添加到v_k的子节点。当确定适当的低级节点后，就选择它作为新的当前节点。重复这个步骤，直到v_k是一个叶节点。

进一步地，所述步骤S3具体如下：

当找到叶节点之后，通过计算相似性因子simF来寻找附着在v_k上的合适模板，评估日志消息l_i和日志模板对应位置相同标记的数量。其计算方法如下：

其中，表示/>的第j个令牌词。

若找到的最高相似系数大于等于阈值参数σ，则选择相应的模板来匹配l_i。否则，将创建一个等于l_i的新模板并将其附加到v_k。

进一步地，所述步骤S4具体如下：

当步骤S3中将模板分配给日志消息l_i，则UST将在/>中编码新的解析规则，优化解析操作。

首先搜索日志模板中不同令牌词数量最多的位置，这个位置p被设为主点。

若p被识别，叶节点被转换为具有相同标签和键函数key(l_i)＝t_p的内部节点。对于模板中位置p上的每个唯一令牌，创建一个带有适当令牌词的新叶节点。所有附加到初始叶节点的模板都按照新的下降规则转移到新创建的叶节点。选择p作为令牌词多样性最高的位置，以优化创建的解析规则的相关性(key(l_i)＝t_p)。

本发明的有益效果：本发明的方法首先通过日志解析器进行日志预处理，之后从根节点开始遍历UST树结构，找到合适的叶节点之后将日志自身信息与叶节点相关模板匹配，若没有合适模板便将模板新增到叶节点，当叶节点相关模板过多时，将饱和叶节点根据模板相似度进行分割，原叶节点变为内部节点，最后，当UST相关处理完成后，根据模板匹配结果输出日志处理结果。本发明的方法提出了一种新的进化树结构即UST结构，利用该结构进行日志模板的学习与识别，基于UST进行日志解析，能够很好的完成多种类型云端日志数据的异常检测。

附图说明

图1为本发明的一种基于进化树结构的在线日志检测方法的流程图。

图2为本发明实施例中不固定搜索树(UST)结构图。

具体实施方式

下面结合附图与实施例对本发明做进一步的说明。

如图1所示，本发明的一种基于进化树结构的在线日志检测方法流程图，具体步骤如下：

S1、通过日志解析器对输入的日志进行预处理；

S2、从根节点开始遍历UST搜索树并匹配叶节点；

在本实施例中，所述步骤S1具体如下：

其中，i表示日志消息l_i在序列中的位置索引。

再将每条日志消息分割为令牌词，每条日志消息由空格分隔的有限令牌词(单词)序列组成。

在本实施例中，所述步骤S2具体如下：

本实施例中，将详细介绍UST算法及其内存结构。UST使用一种新型的树结构来编码基于解析日志的解析规则。

如图2所示，不固定搜索树(UST)结构图，在解析树的顶部，有一个根节点(v₁)，它是初始化时唯一存在的节点且内部节点至少有一个子节点，其余节点为叶节点，日志模板只附加到叶节点上，一个叶节点不能链接到φ以上的模板。

由于日志模板只附加到叶节点，因此第一步是UST搜索树，直到到达叶节点。日志消息l_i的解析过程从根节点开始进行遍历。

设置具有相同模板的日志消息具有相同数量的令牌词，则在创建节点时，为每个节点分配一个令牌词。

从根节点v_k＝v₁开始，下一级节点v_k的令牌词由给出。若在v_k的子节点中没有匹配这个令牌词，就用该令牌词创建一个新的节点，并添加到v_k的子节点。当确定适当的低级节点后，(找到(下一级节点对应的)令牌词与日志的令牌词本身匹配的下一级节点时)就选择它作为新的当前节点。重复这个步骤，直到v_k是一个叶节点。

在本实施例中，所述步骤S3具体如下：

其中，表示/>的第j个令牌词。

由于的定义，可以保证l_i和/>拥有相同数量的令牌词，若找到的最高相似系数大于等于阈值参数σ，则选择相应的模板来匹配k_i。否则，将创建一个等于k_i的新模板并将其附加到v_k。

UST在训练过程中也会进行模板的细化，在模板与日志相同位置不相似的地方做出标记。

在本实施例中，所述步骤S4具体如下：

当步骤S3中将模板分配给日志消息l_i，则UST将在P中编码新的解析规则，优化解析操作。

当叶片链接到多于的模板，它就被定义为饱和的。为了避免过度增加要计算的simF的潜在数量，每次日志消息最终与该叶相关时，将饱和叶转换为一般节点，并将其所有模板移动到新增的叶节点。

若p被识别，叶节点被转换为具有相同标签和键函数key(l_i)＝t_p的内部节点(t_p表示位置p的令牌词)。对于模板中位置p上的每个唯一令牌，创建一个带有适当令牌词的新叶节点。所有附加到初始叶节点的模板都按照新的下降规则转移到新创建的叶节点。选择p作为令牌词多样性最高的位置，以优化创建的解析规则的相关性(key(l_i)＝t_p)。

本实施例还选取了不同类型的开源数据集，包括分布式***数据集HDFS，Hadoop，服务应用程序日志OpenSSH，超算日志HPC。对于包括UST在内的五种日志解析器(Drain，LenMa，SHISO，Spell)进行测试。测试结果表明，UST在多个上具有最高的处理准确率。总体而言，UST的平均处理准确率较好。在不同数据集上同时实现了高处理准确率。

综上，本发明的方法提出了一种新的进化树结构即UST结构，利用该结构进行日志模板的学习与识别，基于UST进行日志解析，能够很好的完成多种类型云端日志数据的异常检测。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于进化树结构的在线日志检测方法，具体步骤如下：

S1、通过日志解析器对输入的日志进行预处理；

S2、从根节点开始遍历UST搜索树并匹配叶节点；

2.根据权利要求1所述的一种基于进化树结构的在线日志检测方法，其特征在于，所述步骤S1具体如下：

其中，i表示日志消息l_i在序列中的位置索引；

再将每条日志消息分割为令牌词，每条日志消息由空格分隔的有限令牌词序列组成；

3.根据权利要求1所述的一种基于进化树结构的在线日志检测方法，其特征在于，所述步骤S2具体如下：

定义一个UST实例表示解析树，σ∈[0；1]表示日志模板的相似度阈值，/>表示叶节点模板数量的阈值，N^*表示取值为正整数；

其中，表示节点集，N表示节点标识总数，每个节点标识为v_k，编号范围为k∈[1,N]，/>表示已发现模板集，/>表示节点-模板链接集；

在解析树的顶部，有一个根节点(v₁)，它是初始化时唯一存在的节点且内部节点至少有一个子节点，其余节点为叶节点，日志模板只附加到叶节点上，一个叶节点不能链接到/>以上的模板；

遍历UST搜索树，直到到达叶节点；日志消息l_i的解析过程从根节点开始进行遍历；

设定具有相同模板的日志消息具有相同数量的令牌词，则在创建节点时，为每个节点分配一个令牌词；

从根节点v_k＝v₁开始，下一级节点v_k的令牌词由给出；若在v_k的子节点中没有匹配这个令牌词，就用该令牌词创建一个新的节点，并添加到v_k的子节点；当确定适当的低级节点后，就选择它作为新的当前节点；重复这个步骤，直到v_k是一个叶节点。

4.根据权利要求1所述的一种基于进化树结构的在线日志检测方法，其特征在于，所述步骤S3具体如下：

当找到叶节点之后，通过计算相似性因子simF来寻找附着在v_k上的合适模板，评估日志消息l_i和日志模板对应位置相同标记的数量；其计算方法如下：

其中，表示/>的第j个令牌词；

若找到的最高相似系数大于等于阈值参数σ，则选择相应的模板来匹配l_i；否则，将创建一个等于l_i的新模板并将其附加到v_k。

5.根据权利要求1所述的一种基于进化树结构的在线日志检测方法，其特征在于，所述步骤S4具体如下：

当步骤S3中将模板分配给日志消息l_i，则UST将在/>中编码新的解析规则，优化解析操作；

首先搜索日志模板中不同令牌词数量最多的位置，这个位置p被设为主点；

若p被识别，叶节点被转换为具有相同标签和键函数key(l_i)＝t_p的内部节点；对于模板中位置p上的每个唯一令牌，创建一个带有适当令牌词的新叶节点；所有附加到初始叶节点的模板都按照新的下降规则转移到新创建的叶节点；选择p作为令牌词多样性最高的位置，以优化创建的解析规则的相关性(key(l_i)＝t_p)。