CN111190873B

CN111190873B - 一种用于云原生日志训练的日志模式提取方法及

Info

Publication number: CN111190873B
Application number: CN201911350953.XA
Authority: CN
Inventors: 杜庆峰; 赵亮; 张双俐; 韩永琦; 徐锦程; 殷康璘; 邱娟
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-08-16
Anticipated expiration: 2039-12-24
Also published as: CN111190873A

Abstract

本发明涉及一种用于云原生***日志训练的日志模式提取方法及***，填补了云原生***中大量日志有效地抽取为含有语义的词向量日志模式的空白，方法步骤包括：基于云原生***日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；基于领域内日志变量知识和通用规则，对日志进行预处理；基于领域内近反义词词典，对日志中单词进行基于语义的向量化；构建一颗定深日志模式提取树，对该树内部的匹配或处理节点进行定义；对每一条日志进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组。本方法的输出结果可以应用于云原生***中日志分析、故障检测模型的训练及日志的画像构建等。

Description

一种用于云原生***日志训练的日志模式提取方法及***

技术领域

本发明涉及计算机技术领域，尤其是涉及一种用于云原生***日志训练的日志模式提取方法及***。

背景技术

日志是***运维重要的信息来源，日志通过行文本的形式来记录***运行过程中的事件轨迹。

随着5G网络、物联网***的发展，计算机***的规模越来越复杂，既可以扩展至数千台商用机器的云原生分布式***(例如Hadoop，Spark)，也可以扩展到具有数千个处理器的超级高性能计算机。由于这些***全天候运行并为全球数以万计在线用户提供服务，因此必须具有高可用性和可靠性。为了达到这个目的，日志分析技术被广泛应用于服务管理与智能运维，例如故障检测等。这些技术通过数据挖掘模型或机器学习模型来分析***行为，大多数模型都需要结构化输入。

如上所述，日志是通过行文本的形式来记录***运行过程中的事件轨迹，并非结构化的输入，所以需要对日志进行结构化的处理，即日志模式提取(也可称为日志解析)。日志模式提取的目标是将原始日志消息转换为结构化日志消息，例如，将日志行“Receiveddata d1567 of size 173822from userA”提取为“Received data*of size*from*”。具体来说，原始日志消息是非结构化数据，包括时间戳和原始消息内容。提取过程就是在每个原始日志消息的固定部分和可变部分之间进行区分。固定部分用于描述***日志事件，即日志模式(例如上面例子中的“Received data*of size*from*”)；而可变部分是携带动态运行时***信息的变量(例如“d1567”)。典型的结构化日志消息包含匹配的日志模式和感兴趣的变量信息，日志模式提取解决方案是将日志模式提取视为一个聚类问题，将具有相同日志模式的原始日志消息聚类到一个簇中。

目前，对日志的处理大多基于字符串信息的比对，提取出的日志模式也为字符串信息，这种方法有两个缺点：1.对于大型的云原生***来说，日志模式的数量相当庞大，如果使用基于字符串提取，会提取出过量的日志模式类别，不利于日志分析方法使用；2.当一个日志分析技术需要将日志模式中的词进行词嵌入时，是先提取日志模式，再进行词嵌入。比如先得到“Received data*of size*from*”，再将其处理为“[a1…an],[b1…bn],[c1…cn],[d1..dn],[e1…en]”，与直接使用词嵌入的日志模式提取方法相比增加了中间的处理环节，效率和稳定性存在一定的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于云原生***日志训练的日志模式提取方法及***。

本发明的目的可以通过以下技术方案来实现：

一种用于云原生***日志训练的日志模式提取方法，该方法包括以下步骤：

步骤1：针对云原生***日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；

步骤2：基于领域内的日志变量知识和通用规则，对日志进行预处理；

步骤3：基于领域内的近反义词词典，对经过预处理的日志中的单词进行基于语义的向量化表达；

步骤4：构建定深日志模式提取树，并对该树内部的匹配或处理节点进行定义；

步骤5：利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组。

进一步地，所述的步骤1具体包括：对云原生***日志中特有的近义词反义词进行提取，使得具有相同上下文语义的近反义单词能够区别处理，并对云原生***日志中特有的变量进行归纳，使其不会与日志模式中的单词混淆。

进一步地，所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。

进一步地，所述的步骤3中基于语义的向量化表达采用的词嵌入方法为dLCE分布式词汇对比嵌入模型。

进一步地，所述的步骤5中的定深日志模式提取树的节点包括用于对日志所属的叶子节点进行匹配的非叶子节点和用于对日志的模式进行划分提取的叶子节点。

本发明还提供一种采用所述的用于云原生***日志训练的日志模式提取方法的提取***，该***包括：

领域知识构建模块：用于通过领域经验知识库，对于云原生领域内特有的近义词与反义词构建词典；

预处理模块：用于通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行使用一般性规则处理及对日志中不符合词嵌入标准的单词处理，将日志文本转为使用词嵌入算法的标准文本；

日志单词向量化模块：用于使用已有的词嵌入算法和已经构建的近义词反义词词典，得到每一个日志词的向量化表达；

日志模式抽取模块：用于根据不同的应用场景，构建固定深度的树结构，并且对非叶子节点定义匹配规则，对叶子节点定义划分提取日志模式规则，将向量化的日志行输入树中并按规则进行处理，得到存储的日志模式和其对应的日志行ID。

与现有技术相比，本发明具有以下优点：

(1)本发明方法通过对云原生***大量日志数据进行处理，提取出日志模式和其对应的日志行ID，为云原生***日志故障检测模型训练提供有效的数据基础，解决了：现有的方法提取的日志模式过多，且用于日志故障检测的效果不好的问题。

(2)本发明方法包括：步骤1：针对云原生***日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；步骤2：基于领域内的日志变量知识和通用规则，对日志进行预处理；步骤3：基于领域内的近反义词词典，对经过预处理的日志中的单词进行基于语义的向量化表达；步骤4：构建定深日志模式提取树，并对该树内部的匹配或处理节点进行定义；步骤5：利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组，现有的带有语义的日志模式的生成方法处理环节多，效率低且效果不好的问题，本发明方法解决当前云原生***中大量日志缺乏有效地抽取为含有语义的词向量日志模式的问题，为故障检测模型训练提供数据基础。面对云原生***中日志分析方法需要带语义日志模式的需求。

附图说明

图1为本发明的提取***结构示意图；

图2为本发明与***配套的提取方法流程图；

图3为本发明实施例中的定深日志模式提取树示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明提出了一种为云原生***日志故障检测模型训练的日志模式提取方法。填补了云原生***中大量日志有效地抽取为含有语义的词向量日志模式的空白，抽象出云原生***日志领域近反义词词典及领域变量的知识表达。该方法包括：

1、基于云原生***日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；

2、基于领域内日志变量知识和通用规则，对日志进行预处理；

3、基于领域内近反义词词典，对日志中单词进行基于语义的向量化；

4、构建一颗定深日志模式提取树，对该树内部的匹配或处理节点进行定义；

5、对每一条日志进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组。

其中，步骤1中的领域内近反义词词典是对云原生***日志中特有的近义词反义词进行提取，使得具有相同上下文语义的近反义单词能够区别处理。

步骤1中的领域内日志变量知识是对云原生***日志中特有的变量进行归纳，使其不会与日志模式中的单词混淆。

步骤2中的对日志预处理主要分为三大类：对日志特殊变量预处理，对日志行预处理，对日志单词预处理。

步骤3中的日志向量化使用的词嵌入方法是由Nguyen提出的一种叫做dLCE的分布式词汇对比嵌入模型。

步骤5中根据日志模式的特点，构建一种基于定深树的日志模式提取算法，该树中的节点主要有两大类，非叶子节点对日志所属的叶子节点进行匹配，叶子节点对日志的模式进行划分提取。

本方法的输出结果可以应用于云原生***中日志分析、故障检测模型的训练及日志的画像构建等。如图1所示主要包含4个模块：

1、领域知识构建模块：通过领域经验知识库，对于云原生领域内特有的近义词与反义词构建词典，同时对一部分特殊变量知识进行归纳。

2、预处理模块：通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行使用一般性规则处理及对日志中不符合词嵌入(Word Embedding)标准的单词处理，将日志文本转为可以使用词嵌入算法的标准文本；

3、日志单词向量化模块：使用已有的词嵌入算法和已经构建的近义词反义词词典，得到每一个日志词的向量化表达。对于近义词词典中的日志单词，向量化的结果具有距离相近的特征(反义词相反)；

4、日志模式抽取模块：根据不同的应用场景，构建一颗固定深度的树结构，并且对非叶子节点定义匹配规则，对叶子节点定义划分提取日志模式规则，将向量化的日志行输入树中并按规则进行处理。所有日志通过树处理以后即可从叶子节点中得到存储的日志模式和其对应的日志行ID。

参照图2所示流程图，本发明方法具体实施例包含以下步骤：

(1)用户通过日志收集工具从云原生***中获取对应的日志文本，例如用户可以从Kubernetes***中的ELK日志分析***(Elasticsearch、Logstash、Kibana)中获取日志，需要包含所有或者大部分可能提取出的日志模式的日志。

(2)根据收集到的云原生***的日志以及对该***日志的经验知识，构建近义词和反义词的词典。一些单词在常规文本中并不体现近反义词特性，而在特定领域日志中存在相近的含义，例如crash和down，这两个单词在基于上下文语义的词嵌入方法中并不相近，因为在通常的文本里这两个单词并不具有相似的上下文，而在日志中这两个单词具有相近的含义。

(3)根据收集到的云原生***的日志以及对该***的经验知识，归纳特殊变量知识，例如IP地址、user ID与TimeStamp。特殊变量的特殊性是相对于被提取的日志而言的。例如日志模式“Received data*of size*from*”，如果一段时间内***只有userA这一个用户，且文件大小变量只有一个值为128。在提取过程中可以对含有数字的单词进行特殊处理，而不变的字符串变量无法与日志模式中的单词进行区分，userA只会作为一个普通的单词计入日志模式中。在模式提取过程中对这类变量进行处理会增加模式提取错误的风险，因此归纳特殊变量知识有助于高精准地提取日志模式。

(4)收集的日志进行三大类预处理：对日志特殊变量预处理、对日志行预处理及对日志单词预处理。首先对上述总结出的特殊日志变量直接进行移除，日志模式中不会含有变量，且基于语义日志分析方法不会使用变量的位置信息；对日志行的预处理，将不完整的日志行删去；对日志单词进行处理，去除分隔符、运算符及标点符号等。之后再处理部分变量名，如将“User_data”这类下划线分割含义的变量处理为“User data”，将“isUp”这类驼峰式变量处理同样处理为“is Up”。

(5)对预处理过后的日志进行词嵌入，需要考虑上述提出的云原生***中的领域近义词和反义词，这里使用由Nguyen提出的一种叫做dLCE的分布式词汇对比嵌入模型。

(6)对已经词嵌入的日志进行日志模式提取，构建一颗固定深度的树结构，并且对非叶子节点定义匹配规则。参照图3四层定深树的例子，第二层的匹配规则是长度。第二层的每一个节点匹配一种单词个数，例如处理完成后的日志具有n个词向量，则会匹配到某个第二层的非叶节点。第三层和第四层分别匹配第一个词向量和第二个词向量，使用余弦距离小于一定阈值来判断是否匹配。从意义上来说，这两层匹配了相同位置具有相近语义的日志行到叶子节点。对叶子节点定义划分提取日志模式规则，日志到了叶子节点后需要寻找或者创建一个日志组，一个日志组即对应一个日志模式。一条日志进入叶子节点后将和现在所有存在的日志组对应的日志模式进行相似度比较，相似度大于阈值将会把该日志分入该日志组。相似度公式如下。

相似度公式如下：

当每个日志都经过定深树被分配到日志组以后，对每个日志组对应得日志模式进行更新，更新方式如下：对应位置相同的或者距离极近的向量作为日志模式中的词向量，对应位置距离远的词向量合为“*”标志符，作为变量。在叶子节点存储最后更新的日志模式中的所有词向量，以及日志模式对应的日志组中的所有日志ID。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于云原生***日志训练的日志模式提取方法，其特征在于，该方法包括以下步骤：

步骤5：利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组；

其中，所述步骤4和步骤5具体包括以下内容：

对已经词嵌入的日志进行日志模式提取，构建一颗固定深度的树结构，并且对非叶子节点定义匹配规则，对于四层定深树，第二层的匹配规则是长度，第二层的每一个节点匹配一种单词个数，处理完成后的日志具有n个词向量，则会匹配到某个第二层的非叶节点，第三层和第四层分别匹配第一个词向量和第二个词向量，使用余弦距离小于一定阈值来判断是否匹配，这两层匹配了相同位置具有相近语义的日志行到叶子节点，对叶子节点定义划分提取日志模式规则，日志到了叶子节点后需要寻找或者创建一个日志组，一个日志组即对应一个日志模式，一条日志进入叶子节点后将和现在所有存在的日志组对应的日志模式进行相似度比较，相似度大于阈值将会把该日志分入该日志组；

当每个日志都经过定深树被分配到日志组以后，对每个日志组对应得日志模式进行更新，更新方式如下：对应位置相同的或者距离极近的向量作为日志模式中的词向量，对应位置距离远的词向量合为“*”标志符，作为变量，在叶子节点存储最后更新的日志模式中的所有词向量，以及日志模式对应的日志组中的所有日志ID。

2.根据权利要求1所述的一种用于云原生***日志训练的日志模式提取方法，其特征在于，所述的步骤1具体包括：对云原生***日志中特有的近义词反义词进行提取，使得具有相同上下文语义的近反义单词能够区别处理，并对云原生***日志中特有的变量进行归纳，使其不会与日志模式中的单词混淆。

3.根据权利要求1所述的一种用于云原生***日志训练的日志模式提取方法，其特征在于，所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。

4.根据权利要求1所述的一种用于云原生***日志训练的日志模式提取方法，其特征在于，所述的步骤3中基于语义的向量化表达采用的词嵌入方法为dLCE分布式词汇对比嵌入模型。

5.根据权利要求1所述的一种用于云原生***日志训练的日志模式提取方法，其特征在于，所述的步骤5中的定深日志模式提取树的节点包括用于对日志所属的叶子节点进行匹配的非叶子节点和用于对日志的模式进行划分提取的叶子节点。

6.一种采用如权利要求1～5中任意一项所述的用于云原生***日志训练的日志模式提取方法的提取***，其特征在于，该***包括：

预处理模块：用于通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行进行删除处理及对日志中不符合词嵌入标准的单词处理，将日志文本转为使用词嵌入算法的标准文本；