CN115017268B

CN115017268B - 一种基于树结构的启发式日志抽取方法及***

Info

Publication number: CN115017268B
Application number: CN202210929583.0A
Authority: CN
Inventors: 王海泉; 孙磊磊; 杜博文; 陈通
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-10-11
Anticipated expiration: 2042-08-04
Also published as: CN115017268A

Abstract

本发明公开了一种基于树结构的启发式日志抽取方法及***，涉及日志抽取领域，该方法包括：将目标日志记录中的动态生成部分替换为通配符；对替换日志记录中的token信息增加词性信息；若匹配方式为位置匹配，则依据增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到每个token信息对应的日志模板；若匹配方式为相似度匹配时，则基于变长参数对增强日志记录按照内容相似度沿日志模板抽取树进行搜索，得到每个token信息对应的日志模板；采用向量计算方式，将每个token信息对应的日志模板生成日志向量，从而得到从目标日志记录中抽取的结构化日志。本发明不仅支持多种日志风格的日志抽取，能提高抽取效率。

Description

一种基于树结构的启发式日志抽取方法及***

技术领域

本发明涉及日志抽取领域，特别是涉及一种基于树结构的启发式日志抽取方法及***。

背景技术

软件***日志本身是代码生成的、面向人类语言的半结构化数据，它是基于一些模板和具体运行数据生成，而在日志的实际应用（例如，日志自动化分析中、在日志收集完成之后、日志消息被输入到不同的下游日志挖掘任务中等）中，无法直接使用这些日志数据。目前，大多数日志挖掘工具均需要结构化的输入数据，例如，结构化的日志时间列表或矩阵，而日志本身是面向人类阅读的字符串，基于一些模板和具体运行数据生成，因此，在日志挖掘之前，需要将半结构化的日志信息抽取解析为结构化的日志事件。

目前，现有的日志抽取组件往往有着极大的局限性，通常他们只支持常见的日志类型，例如Apache日志。同时，对于这些常规日志的分析，它们依赖于开发人员提供的规则脚本或者其他专家知识，这些脚本往往采用正则的方式将消息依据正则区分到不同的事件模板之中。

对于边缘应用日志抽取场景，由于边缘应用的编写者不同，编码风格、日志格式多种多样，不同的边缘应用的日志的模板多种多样，传统的日志抽取算法，无法实现给出一个预先编写的event template（事件模板）集合，无法支持多种日志风格的日志抽取，无法解决边缘应用日志风格多样化的问题。并且，受限于边缘***日志量大，传统的日志抽取算法使用线性匹配的方式进行模板匹配，线性匹配的过程为：当前日志遍历所有模板，依次进行匹配，从而得到所有对应的日志模板，由于需要遍历所有模板，因此效率低下，无法较快的完成大量日志的抽取工作。

发明内容

基于此，本发明实施例提供一种基于树结构的启发式日志抽取方法及***，不仅支持多种日志风格的日志抽取，且提高了抽取效率。

为实现上述目的，本发明提供了如下方案：

一种基于树结构的启发式日志抽取方法，包括：

获取目标日志记录；

将所述目标日志记录中的动态生成部分替换为通配符，得到替换日志记录；

对所述替换日志记录中的token信息增加词性信息，得到增强日志记录；

根据所述增强日志记录的条目和待匹配的日志模板的长度，确定所述增强日志记录的匹配方式；所述匹配方式包括位置匹配和相似度匹配；

若所述匹配方式为所述位置匹配，则依据所述增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板；所述日志模板抽取树是根据日志语言结构确定的；所述日志模板的最底层包括至少一个日志组；每个所述日志组均包括多个待匹配的日志模板；

若所述匹配方式为所述相似度匹配时，则基于变长参数对所述增强日志记录按照内容相似度沿所述日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板；所述变长参数表示所述日志模板抽取树中待匹配的日志模板中的通配符匹配的token信息的数量是变化的；

采用向量计算方式，将所述增强日志记录中每个token信息对应的日志模板生成日志向量；

将所述日志向量确定为从所述目标日志记录中抽取的结构化日志。

可选地，所述将所述目标日志记录中动态生成部分替换为通配符，得到替换日志记录，具体包括：

采用先验知识判定所述目标日志记录中的动态生成部分；

将所述动态生成部分采用通配符进行代替，得到替换日志记录。

可选地，所述依据所述增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板，具体包括：

对于所述增强日志记录中的一个token信息，判断所述token信息的词性信息与所述日志模板抽取树中当前层的当前节点的词性信息是否相同且处于相同位置，得到第一判断结果；

若所述第一判断结果为是，则确定所述token信息与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配；

若所述第一判断结果为否，则判断所述token信息的词性信息与下一层中节点的词性信息是否相同且处于相同位置，得到第二判断结果；

若所述第二判断结果为是，则确定所述token信息的与下一层中节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配；

若所述第二判断结果为否，则判断所述token信息的词性信息与再下一层中节点的词性信息是否相同且处于相同位置，直至所述token信息匹配成功，再进行下一个token信息的匹配；

当所述增强日志记录中所有的token信息匹配完成后，则得到所述增强日志记录中每个token信息对应的日志模板。

可选地，所述基于变长参数对所述增强日志记录按照内容相似度沿所述日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板，具体包括：

对于所述增强日志记录中的一个token信息，基于变长参数计算所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容的相似度；

若所述相似度大于或等于设定值，则确定所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容一致，所述token信息的与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配；

若所述相似度小于设定值，则计算所述token信息的内容与所述日志模板抽取树中下一层中节点的内容的相似度，直至所述相似度大于或等于设定值，完成所述token信息的匹配，再进行下一个token信息的匹配；

可选地，所述对于所述增强日志记录中的一个token信息，基于变长参数计算所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容的相似度，具体包括：

由所述增强日志记录生成日志序列和日志模板序列；

由所述日志模板抽取树中当前层的当前节点对应的待匹配的日志模板生成日志模板序列；所述日志模板序列中不包含通配符；

将所述日志序列中的每个token信息进行向量化，得到第一词向量，并基于设定最长匹配长度限制值，将所述日志模板序列中的每个token信息进行向量化，得到第二词向量；所述设定最长匹配长度限制值用于限制所述变长参数的范围；

对于所述增强日志记录中的一个token信息，计算所述token信息对应的第一词向量与所述日志模板抽取树中当前层的当前节点的日志模板序列中token信息对应的第二词向量的余弦距离；

将所述余弦距离确定为相似度。

本发明还提供了一种基于树结构的启发式日志抽取***，包括：

日志获取模块，用于获取目标日志记录；

第一处理模块，用于将所述目标日志记录中的动态生成部分替换为通配符，得到替换日志记录；

第二处理模块，用于对所述替换日志记录中的token信息增加词性信息，得到增强日志记录；

匹配方式确定模块，用于根据所述增强日志记录的条目和待匹配的日志模板的长度，确定所述增强日志记录的匹配方式；所述匹配方式包括位置匹配和相似度匹配；

第一匹配模块，用于若所述匹配方式为所述位置匹配，则依据所述增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板；所述日志模板抽取树是根据日志语言结构确定的；所述日志模板的最底层包括至少一个日志组；每个所述日志组均包括多个待匹配的日志模板；

第二匹配模块，用于若所述匹配方式为所述相似度匹配时，则基于变长参数对所述增强日志记录按照内容相似度沿所述日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板；所述变长参数表示所述日志模板抽取树中待匹配的日志模板中的通配符匹配的token信息的数量是变化的；

日志向量生成模块，用于采用向量计算方式，将所述增强日志记录中每个token信息对应的日志模板生成日志向量；

结构化日志确定模块，用于将所述日志向量确定为从所述目标日志记录中抽取的结构化日志。

可选地，所述第一处理模块，具体包括：

动态生成部分确定单元，用于采用先验知识判定所述目标日志记录中的动态生成部分；

替换单元，用于将所述动态生成部分采用通配符进行代替，得到替换日志记录。

可选地，所述第一匹配模块，具体包括：

第一判断单元，用于对于所述增强日志记录中的一个token信息，判断所述token信息的词性信息与所述日志模板抽取树中当前层的当前节点的词性信息是否相同且处于相同位置，得到第一判断结果；

第一结果确定单元，用于若所述第一判断结果为是，则确定所述token信息与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配；

第二判断单元，用于若所述第一判断结果为否，则判断所述token信息的词性信息与下一层中节点的词性信息是否相同且处于相同位置，得到第二判断结果；

第二结果确定单元，用于若所述第二判断结果为是，则确定所述token信息的与下一层中节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配；

第三判断单元，用于若所述第二判断结果为否，则判断所述token信息的词性信息与再下一层中节点的词性信息是否相同且处于相同位置，直至所述token信息匹配成功，再进行下一个token信息的匹配；

第一日志模板确定单元，用于当所述增强日志记录中所有的token信息匹配完成后，则得到所述增强日志记录中每个token信息对应的日志模板。

可选地，所述第二匹配模块，具体包括：

相似度计算单元，用于对于所述增强日志记录中的一个token信息，基于变长参数计算所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容的相似度；

第一相似度判断单元，用于若所述相似度大于或等于设定值，则确定所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容一致，所述token信息的与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配；

第二相似度判断单元，用于若所述相似度小于设定值，则计算所述token信息的内容与所述日志模板抽取树中下一层中节点的内容的相似度，直至所述相似度大于或等于设定值，完成所述token信息的匹配，再进行下一个token信息的匹配；

第二日志模板确定单元，用于当所述增强日志记录中所有的token信息匹配完成后，则得到所述增强日志记录中每个token信息对应的日志模板。

可选地，所述相似度计算单元，具体包括：

第一序列生成子单元，用于由所述增强日志记录生成日志序列；

第二序列生成子单元，用于由所述日志模板抽取树中当前层的当前节点对应的待匹配的日志模板生成日志模板序列；

词向量生成子单元，用于将所述日志序列中的每个token信息进行向量化，得到第一词向量，并基于设定最长匹配长度限制值，将所述日志模板序列中的每个token信息进行向量化，得到第二词向量；所述设定最长匹配长度限制值用于限制所述变长参数的范围；

距离计算子单元，用于对于所述增强日志记录中的一个token信息，计算所述token信息对应的第一词向量与所述日志模板抽取树中当前层的当前节点的日志模板序列中token信息对应的第二词向量的余弦距离；

相似度确定子单元，用于将所述余弦距离确定为相似度。

与现有技术相比，本发明的有益效果是：

本发明实施例提出了一种基于树结构的启发式日志抽取方法及***，对于位置匹配，依据增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到每个token信息对应的日志模板；对于相似度匹配，基于变长参数对增强日志记录按照内容相似度沿日志模板抽取树进行搜索，得到每个token信息对应的日志模板；最后将每个token信息对应的日志模板生成日志向量，从而得到从目标日志记录中抽取的结构化日志。本发明的位置匹配中，采用树结构能实现加速匹配，相比线性匹配，树结构匹配可以最大限度减少无谓的比较，根据token信息中的词性信息按照日志模板抽取树搜索，每一个节点需要遍历的日志模板数量大大减少，避免了无谓的比较，从而提高抽取效率，在相似度匹配，基于变长参数对增强日志记录按照内容相似度沿日志模板抽取树进行搜索，能支持多种日志风格的日志抽取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于树结构的启发式日志抽取方法的流程图；

图2为本发明实施例提供的日志模板抽取树的结构图；

图3为本发明实施例提供的日志记录的样例图；

图4为本发明实施例提供的基于树结构的启发式日志抽取***的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

日志模板：编码人员在编码时用于生成最终日志的模板字符串。例如：logger.debug(f"Got RESPONSE from worker: {worker_id.hex()} to client:{client_id.hex()}")中，“Got RESPONSE from worker:<*> to client: <*>”就是日志模板。

日志序列：作为模型的输入，是由单条原始日志构成的有序集合，每条日志均为字符串。

日志嵌入：使用日志向量来表示日志序列特征的过程。对于日志序列，日志嵌入的目标就是用向量序列X=(x ₁, x ₂, ... , x _n)来表示日志序列的特征，其中向量序列中的元素x _i表示对应的日志s _i的特征，i∈[1,n]，n表示日志序列中的日志数量。

图1为本发明实施例提供的基于树结构的启发式日志抽取方法的流程图。参见图1，本实施例的方法，包括：

步骤101：获取目标日志记录。

步骤102：将所述目标日志记录中的动态生成部分替换为通配符，得到替换日志记录。

步骤102，具体包括：

1）采用先验知识判定所述目标日志记录中的动态生成部分；将所述动态生成部分采用通配符进行代替，得到替换日志记录。

本实施例中，首先利用先验知识，将目标日志记录的动态生成部分匹配出来。具体的：采用正则匹配的方式将所述目标日志记录中属于同类先验知识的部分匹配出来，得到动态生成部分。例如，在分布式文件***（HDFS）中，ip地址和blk_id都是一类先验的知识，这些部分都可以被判定为处于目标日志记录的动态生成部分。在匹配过程中，允许用户制定一系列的正则表达式集合来定义动态生成部分。然后，将正则匹配到的动态生成部分替换为通配符*，例如可以用blk_[0-9]+匹配出HDFS日志记录中的所有blk_id。这一步利用先验知识，首先对日志中动态生成部分完成替换，对于动态生成部分使用通配符*进行代替，完成了日志模板匹配的准备工作。

步骤103：对所述替换日志记录中的token信息增加词性信息，得到增强日志记录。具体的：

对于动态生成部分完成替换后得到的替换日志记录，接下来对替换日志记录中的token信息进行增强，以便于后续的日志模板匹配。在本步骤中，结合日志的本身的特点，日志记录的信息往往是***状态，如对象名称、操作、词组等。前段是日志的固定格式的类名。如图2所示，对于该条日志记录，参数1中的job具体的名称为名词，参数2为变长参数，说明问题原因，位于连词because之后。可见介词、连词、动词往往位于模板部分，不是动态数据。因此，词性是模板匹配的重要判据，因此对于每条日志记录做增强时，对其添加上对应的词性信息，以提高后续模板匹配的准确度。

该步骤可采用现有的信息增加的手段（如字典的形式）实现，具体不做赘述。

步骤104：根据所述增强日志记录的条目和待匹配的日志模板的长度，确定所述增强日志记录的匹配方式；所述匹配方式包括位置匹配和相似度匹配。

本实施例包括位置匹配和相似度匹配两种匹配方式，这是由于通配符*匹配的不确定性，增强日志记录的条目和待匹配的日志模板的长度可能不一致，对于此类增强日志记录，无法按照位置进行匹配，因此对于此类增强日志记录采用相似度匹配，本实施例中是优先采用位置匹配，当遇到部分日志无法使用位置匹配（如：增强日志记录的条目和待匹配的日志模板的长度不一致）时，则采用相似度匹配。

步骤105：若所述匹配方式为所述位置匹配，则依据所述增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板。

步骤105，具体包括：

对于所述增强日志记录中的一个token信息，判断所述token信息的词性信息与所述日志模板抽取树中当前层的当前节点的词性信息是否相同且处于相同位置，得到第一判断结果。

若所述第一判断结果为是，则确定所述token信息与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配。

若所述第一判断结果为否，则判断所述token信息的词性信息与下一层中节点的词性信息是否相同且处于相同位置，得到第二判断结果。

若所述第二判断结果为是，则确定所述token信息的与下一层中节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配。

若所述第二判断结果为否，则判断所述token信息的词性信息与再下一层中节点的词性信息是否相同且处于相同位置，直至所述token信息匹配成功，再进行下一个token信息的匹配。

其中，所述日志模板抽取树是根据日志语言结构确定的；所述日志模板的最底层包括至少一个日志组；每个所述日志组均包括多个待匹配的日志模板。日志语言结构如同人类语言的结构，包括主谓宾且有一定的顺序。本实施例根据日志语言结构得到的日志模板抽取树的结构如图3所示，根节点位于这棵树的最顶层，而最底层则是一个链表结构，记录着所有日志组，日志组为一个数据结构，它记录着一个日志模板和对应的日志记录的id。图3中的实线箭头表示日志模板抽取树中节点之间的关系，在匹配过程按照实线箭头的指向进行匹配，虚线箭头表示每个节点对应的日志组中的待匹配的日志模板。中间的每一个节点以一个字典树的结构记录着它所匹配的token信息，其中*为通配符，在日志中的实际意义是对应日志模板中的动态部分，其对应一个到多个token信息。每个节点包含两个部分：它当前匹配的token信息和它下面所有的日志组地址。如对于“发送”这个节点，它保有着所有子节点所包含的日志组地址。日志组首地址为日志组链表的头部地址，其余的如“发送”、“停止”、“日志数据块”、“实例名称”、“正常地”、“错误地”都为日志信息中的关键单词，如果遇到日志信息中的词和日志模板抽取树中的词相同，则匹配成功，并指向相应的日志组或下一级单词匹配。这个结构可以快速索引到对应的日志组。

在实际应用中，步骤105的一个更为具体的实现过程为：

依据token信息沿日志模板抽取树搜索。在该步骤中，通过日志模板抽取树，按照token信息与日志模板进行匹配，由于日志内容具有一定的语法结构，所以需要同时匹配token信息的词性与位置，例如日志的第一个token信息与日志模板抽取树中的“发送”和“停止”的词性和位置进行匹配，若与日志树中“发送”的词性相同并处于相同位置，则匹配成功，走向下一层，与树结构中的“日志数据块”或“通配符*”进行匹配。如果未匹配成功且下一层有通配符*时，则进入look forward模式，即看是否可以与下一层节点对应的日志模板成功匹配。

look forward模式是一种常见的匹配策略，该look forward模式分为两种情况，如果下一层中每个节点对应的日志模板数量均小于一个阈值h，则可认为对所有的可能日志模板依次进行匹配代价并不高，此时，对下一层中所有节点对应的日志模板进行匹配；如果下一层中每个节点对应的日志模板数量均大于或等于阈值h，则优先匹配日志序列中的1到k个token信息（k＜h），选取最大匹配度的一条路向下搜索，直到日志模板抽取树搜索完毕或者完全没有匹配为止，进入下一步匹配过程。例如，“发送”节点未匹配成功，且下一层的“日志数据块”节点和“通配符*”节点对应的日志模板数量均小于阈值h，此时将各token信息与发送节点的所有叶子节点（“日志数据块”节点和“通配符*”节点）的日志模板进行匹配；如果“日志数据块”节点和“通配符*”节点对应的日志模板数量大于或等于阈值h，则尝试将日志序列中的1到k个token信息分别与“日志数据块”节点的日志模板、“通配符*”节点的日志模板进行优先匹配（此时，并非将所有的token信息均进行匹配，因此，匹配代价并不高），并选取最大匹配度的一条路向下搜索，直到树搜索完毕或者完全没有匹配为止，进入下一步匹配过程。

步骤106：若所述匹配方式为所述相似度匹配时，则基于变长参数对所述增强日志记录按照内容相似度沿所述日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板。其中，所述变长参数表示所述日志模板抽取树中待匹配的日志模板中的通配符匹配的token信息的数量是变化的。

步骤106，具体包括：

（1）对于所述增强日志记录中的一个token信息，基于变长参数计算所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容的相似度。

（2）若所述相似度大于或等于设定值，则确定所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容一致，所述token信息的与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配。

若所述相似度小于设定值，则计算所述token信息的内容与所述日志模板抽取树中下一层中节点的内容的相似度，直至所述相似度大于或等于设定值，完成所述token信息的匹配，再进行下一个token信息的匹配。

（3）当所述增强日志记录中所有的token信息匹配完成后，则得到所述增强日志记录中每个token信息对应的日志模板。

下面对步骤106进行进一步详细的说明。

步骤106是依据步骤（1）中计算的相似度进行搜索。步骤105是按照位置匹配搜索，但由于通配符*匹配的不确定性，日志条目和日志模板的长度可能不一致，对于此类日志，无法按照位置进行匹配，因此对于此类日志使用一种按内容相似度进行匹配的算法。例如，当前日志的token信息与日志模板抽取树中的“发送”节点、“停止”节点进行匹配，通过计算当前日志的token信息与“发送”节点的内容的相似度，确定当前日志的token信息的内容是否为“发送”，若是，则得到一个与当前日志的token信息匹配的日志模板，并进入日志模板抽取树的下一层继续进行匹配，直至完成当前日志的所有token信息的匹配。完成匹配后得到若干个与该日志匹配的日志模板，从这些日志模板中选出与当前日志最匹配（最大的相似度）的日志模板，并且如果最大的相似度大于阈值，则将当前日志归入对应日志组，同时更新日志模板，并修改树的结构，否则，则构造一个新的日志组***树中。对于每个新来的日志不断执行上述操作，这颗树会不断的进行扩充，直到所有数据被分入对应的日志模板。

步骤106中步骤（1）计算相似度的算法采用的是改进的Drain算法。

改进的Drain算法是基于Drain算法实现，Drain算法只考虑了等长参数，采用了简单的位置匹配方法：相同位置token信息完全相同时为1，否则为0。但是由于本实施例需要支持变长参数，实际匹配过程中，通配符*可以匹配多个token信息，匹配位置可能发生错位，上述思路不再适用。具体改进如下：

首先引入位置编码。由于引入了变长参数，导致算法会倾向于用一个通配符*去匹配所有日志，故引入位置编码进行错位匹配的惩罚。位置编码在位置完全匹配时强度最大，随着错位的增大而逐渐衰减。同时添加最长匹配长度限制，即vector(L)*min(maxMismatch，n-m)。该公式的意义为日志模板中的通配符*最多匹配maxMismatch个token信息，这就对变长参数的范围进行了限制，其中vector(L)表示日志序列整体对应的向量，L表示日志序列，n表示日志序列中的日志数量，m表示日志模板序列中的日志模板数量，maxMismatch表示日志与日志模板的最大错误匹配数量。

此外相似度计算引入词的具体含义，这些语义信息会称为之后异常检测模型的参考。例如在一次匹配中，日志序列是“close vm 102 success”，存在两个模板“close *success”和“close vm * error ”。如果按照是否相等来匹配，两者匹配度均为2；而引入词向量后，error和succes因为含义的对立性就会撑开日志数据和日志模板的距离从而达到正确匹配。

基于上述介绍，步骤106，具体包括：

本实施例的改进的Drain算法计算相似度，改进的Drain算法引入的变长参数表示日志模板中的通配符匹配的token信息的数量是变化的，为了提高匹配的准确度，增加了对变长参数的范围的限制，即引入了最长匹配长度限制。具体的：

1）向量化。由所述增强日志记录生成日志序列；由所述日志模板抽取树中当前层的当前节点对应的待匹配的日志模板生成日志模板序列；所述日志模板序列中不包含通配符。将所述日志序列中的每个token信息进行向量化，得到第一词向量，并基于设定最长匹配长度限制值，将所述日志模板序列中的每个token信息进行向量化，得到第二词向量。所述设定最长匹配长度限制值用于限制所述变长参数的范围。

这一步基于词向量，将日志序列里的每个token信息都向量化。定义日志序列L={l ₁，l ₂，...，l _n}和日志模板序列T1={t ₁，t ₂，...，t _m}，(n≥m)，其中通配符*已经被剔除，同时定义存在单个日志到相应向量的映射f ₁(l)和单个日志模板到相应向量的映射f ₂(t)：

v1表示日志序列中单个日志的token信息对应的词向量，v2表示日志模板序列中单个日志模板的token信息对应的词向量，则有：

其中，vector(L)表示整个日志序列的token信息对应的向量，即第一词向量；vector(T1)表示整个日志模板序列的token信息对应的向量，即第二词向量。vector(T1)是基于最长匹配长度限制确定的；l表示某条日志；pos(l)表示l的位置编码参数；t表示某条日志模板。

2）计算相似度。对于所述增强日志记录中的一个token信息，计算所述token信息对应的第一词向量与所述日志模板抽取树中当前层的当前节点的日志模板序列中token信息对应的第二词向量的余弦距离，将余弦距离确定为相似度值。余弦距离的计算公式为：

其中，上标T表示转置。

4）根据所述余弦距离得到所述增强日志记录中每个token信息对应的日志模板。

在完成相似度计算的同时，该步骤也生成了日志模板的向量，这些向量会作为日志模板的特征引入异常判别模型，进行后续的异常判断。

步骤107：采用向量计算方式，将所述增强日志记录中每个token信息对应的日志模板生成日志向量，并将所述日志向量确定为从所述目标日志记录中抽取的结构化日志。具体的：

在上述步骤处理完全部日志记录，分类到各对应日志模板后，通过日志模板抽取树最底层的链表可以快速将所有日志模板导出，同时采用相似度搜索过程中的向量计算方式，生成最后的日志向量，成功将半结构化的日志记录抽取为结构化日志，从而可以对日志内容进行数据挖掘或是使用机器学习模型进行预测学习等。

本实施例提出的基于树结构的启发式日志抽取方法，具有如下优点：

首先针对传统方法无法解析多种边缘应用日志信息的问题，提出了启发式的日志抽取算法，结合日志本身特点，根据词性初步提取token信息，然后在日志模板匹配过程中，基于Drain算法，引入了变长参数，从而解决了原算法只能对单一的日志风格进行抽取的问题。

其次，采取树结构进行搜索，树是一种很常见的用于加速的结构，可以降低复杂度，加快日志模板的匹配速度，对每个新来的日志进行匹配的过程中，不断扩充匹配树的规模，直到所有数据被分入对应的模板。在完成所有日志数据处理之后，通过日志模板抽取树最底层的链表可以快速将所有日志模板导出，生成向量形式的结构化数据。

此外，在日志抽取方法下，除了抽取效果这个指标，面对大规模海量日志时，方法的处理效率也十分重要。本实施例提出方法，如果在面对大量待处理日志时，采用当前的顺序匹配效率虽然已经有一定的提升，但是面对海量数据时，效率仍然较低。因此，可以采用类似map-reduce等思路，将数据进行分割，并行处理，之后再将模板进行合并以提高效率。

本发明还提供了一种基于树结构的启发式日志抽取***，参见图4，所述***，包括：

日志获取模块401，用于获取目标日志记录。

第一处理模块402，用于将所述目标日志记录中的动态生成部分替换为通配符，得到替换日志记录。

第二处理模块403，用于对所述替换日志记录中的token信息增加词性信息，得到增强日志记录。

匹配方式确定模块404，用于根据所述增强日志记录的条目和待匹配的日志模板的长度，确定所述增强日志记录的匹配方式；所述匹配方式包括位置匹配和相似度匹配。

第一匹配模块405，用于若所述匹配方式为所述位置匹配，则依据所述增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板；所述日志模板抽取树是根据日志语言结构确定的；所述日志模板的最底层包括至少一个日志组；每个所述日志组均包括多个待匹配的日志模板。

第二匹配模块406，用于若所述匹配方式为所述相似度匹配时，则基于变长参数对所述增强日志记录按照内容相似度沿所述日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板；所述变长参数表示所述日志模板抽取树中待匹配的日志模板中的通配符匹配的token信息的数量是变化的。

日志向量生成模块407，用于采用向量计算方式，将所述增强日志记录中每个token信息对应的日志模板生成日志向量。

结构化日志确定模块408，用于将所述日志向量确定为从所述目标日志记录中抽取的结构化日志。

在一个示例中，所述第一处理模块402，具体包括：

动态生成部分确定单元，用于采用先验知识判定所述目标日志记录中的动态生成部分。

在一个示例中，所述第一匹配模块405，具体包括：

第一判断单元，用于对于所述增强日志记录中的一个token信息，判断所述token信息的词性信息与所述日志模板抽取树中当前层的当前节点的词性信息是否相同且处于相同位置，得到第一判断结果。

第一结果确定单元，用于若所述第一判断结果为是，则确定所述token信息与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配。

第二判断单元，用于若所述第一判断结果为否，则判断所述token信息的词性信息与下一层中节点的词性信息是否相同且处于相同位置，得到第二判断结果。

第二结果确定单元，用于若所述第二判断结果为是，则确定所述token信息的与下一层中节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配。

第三判断单元，用于若所述第二判断结果为否，则判断所述token信息的词性信息与再下一层中节点的词性信息是否相同且处于相同位置，直至所述token信息匹配成功，再进行下一个token信息的匹配。

在一个示例中，所述第二匹配模块406，具体包括：

相似度计算单元，用于对于所述增强日志记录中的一个token信息，基于变长参数计算所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容的相似度。

第一相似度判断单元，用于若所述相似度大于或等于设定值，则确定所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容一致，所述token信息的与当前节点对应的待匹配的日志模板匹配成功，进行下一个token信息的匹配。

第二相似度判断单元，用于若所述相似度小于设定值，则计算所述token信息的内容与所述日志模板抽取树中下一层中节点的内容的相似度，直至所述相似度大于或等于设定值，完成所述token信息的匹配，再进行下一个token信息的匹配。

在一个示例中，所述相似度计算单元，具体包括：

第一序列生成子单元，用于由所述增强日志记录生成日志序列。

第二序列生成子单元，用于由所述日志模板抽取树中当前层的当前节点对应的待匹配的日志模板生成日志模板序列。

词向量生成子单元，用于将所述日志序列中的每个token信息进行向量化，得到第一词向量，并基于设定最长匹配长度限制值，将所述日志模板序列中的每个token信息进行向量化，得到第二词向量；所述设定最长匹配长度限制值用于限制所述变长参数的范围。

距离计算子单元，用于对于所述增强日志记录中的一个token信息，计算所述token信息对应的第一词向量与所述日志模板抽取树中当前层的当前节点的日志模板序列中token信息对应的第二词向量的余弦距离。

相似度确定子单元，用于将所述余弦距离确定为相似度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于树结构的启发式日志抽取方法，其特征在于，包括：

获取目标日志记录；

2.根据权利要求1所述的一种基于树结构的启发式日志抽取方法，其特征在于，所述将所述目标日志记录中动态生成部分替换为通配符，得到替换日志记录，具体包括：

采用先验知识判定所述目标日志记录中的动态生成部分；

3.根据权利要求1所述的一种基于树结构的启发式日志抽取方法，其特征在于，所述依据所述增强日志记录中token信息的词性信息沿日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板，具体包括：

4.根据权利要求1所述的一种基于树结构的启发式日志抽取方法，其特征在于，所述基于变长参数对所述增强日志记录按照内容相似度沿所述日志模板抽取树进行搜索，得到所述增强日志记录中每个token信息对应的日志模板，具体包括：

5.根据权利要求4所述的一种基于树结构的启发式日志抽取方法，其特征在于，所述对于所述增强日志记录中的一个token信息，基于变长参数计算所述token信息的内容与所述日志模板抽取树中当前层的当前节点的内容的相似度，具体包括：

由所述增强日志记录生成日志序列；

将所述余弦距离确定为相似度。

6.一种基于树结构的启发式日志抽取***，其特征在于，包括：

日志获取模块，用于获取目标日志记录；

7.根据权利要求6所述的一种基于树结构的启发式日志抽取***，其特征在于，所述第一处理模块，具体包括：

8.根据权利要求6所述的一种基于树结构的启发式日志抽取***，其特征在于，所述第一匹配模块，具体包括：

9.根据权利要求6所述的一种基于树结构的启发式日志抽取***，其特征在于，所述第二匹配模块，具体包括：

10.根据权利要求9所述的一种基于树结构的启发式日志抽取***，其特征在于，所述相似度计算单元，具体包括：

第二序列生成子单元，用于由所述日志模板抽取树中当前层的当前节点对应的待匹配的日志模板生成日志模板序列；所述日志模板序列中不包含通配符；

相似度确定子单元，用于将所述余弦距离确定为相似度。