CN116432099A

CN116432099A - 日志分类方法、装置、电子设备及存储介质

Info

Publication number: CN116432099A
Application number: CN202310259392.2A
Authority: CN
Inventors: 李晓玲
Original assignee: Inceptio Star Intelligent Technology Shanghai Co Ltd
Current assignee: Inceptio Star Intelligent Technology Shanghai Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-07-14

Abstract

本发明提供一种日志分类方法、装置、电子设备及存储介质，通过收集待分类日志，对待分类日志进行解析，获取待分类日志模板序列；将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到，由于对待分类日志进行模型推理可以根据日志语义进行自动分类，保证分类的准确性，并且，剪枝后的日志缺陷分类模型可以减少内存开销，减少时效和资源消耗，具有一定的泛化能力。

Description

日志分类方法、装置、电子设备及存储介质

技术领域

本发明涉及日志分类技术领域，尤其涉及一种日志分类方法、装置、电子设备及存储介质。

背景技术

软件运行时的状态对于软件的质量评估至关重要，通过日志记录软件运行时发生的异常可以有效的分析出软件产品在运行过程中发生的问题，以便于根据这些问题进行***优化。在当前的软件开发运行中，通过日志来检测、分类、统计和定位软件的运行问题，是开发和维护人员一种常用的技术手段。传统日志分类方法是通过AC(Aho-Corasickautomaton，自动机)进行日志自动分类，AC自动机是一种有限状态自动机被用于多模式串的字符串匹配。但由于日志文本量大、日志输出格式不统一，并且上下文语义不清楚，导致AC自动机的分类结果不准确，从而影响后续软件异常定位的顺利进行。相关技术中，通过分析和统计建模技术来对日志进行实时自动化的分析，例如通过传统的决策树模型、transformer模型等技术对日志文本进行分析和异常分类。但由于这些模型计算量较大，造成内存开销、时效和资源消耗较大，难以应用在内存容量小、存储量小的终端设备如车载终端设备中。

发明内容

本发明提供一种日志分类方法、装置、电子设备及存储介质，用以解决传统AC自动机由于日志文本量大、日志输出格式不统一、上下文语义不清楚而造成日志分类结果不准确，以及分析和统计模型需要的内存开销、时效和资源消耗较大的缺陷。

本发明提供一种日志分类方法，包括：

收集待分类日志；

对所述待分类日志进行解析，获取待分类日志模板序列；

将所述待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，所述日志缺陷分类模型根据日志模板序列训练集训练得到。

根据本发明提供的一种日志分类方法，所述对所述待分类日志进行解析，获取待分类日志模板序列，包括：

通过正则表达式找到所述待分类日志中节点标识符，以所述节点标识符为分割点，抽取出所述待分类日志的日志token数据；

将所述日志token数据的字段长度与预定解析树中首层节点日志长度进行匹配，匹配到相同长度的节点后，继续进行此节点下游子节点的匹配检查；

将所述日志token数据的完整单词与所述预定解析树中对应的模板分支中的完整单词进行匹配，匹配到具有相同完整单词的节点后，将剩余日志token数据继续与此节点的下游子分支继续匹配，直到与所述预定解析树中某个日志模版的匹配度超过预设阈值，则得到该日志所属的日志模版。

根据本发明提供的一种日志分类方法，所述日志缺陷分类模型为基于BERT的日志缺陷分类模型，所述日志缺陷分类模型的训练方法包括：

对历史日志数据进行解析，得到训练日志模板序列；

根据所述训练日志模板序列及其对应标注分类结果生成日志模板序列训练集；

将所述训练日志模板序列输入所述基于BERT的日志缺陷分类模型，得到预测分类结果；

根据所述预测分类结果与所述日志模板序列训练集中所述训练日志模板序列对应的标注分类结果得到损失函数的结果；

根据所述损失函数的结果优化所述基于BERT的日志缺陷分类模型中的参数。

根据本发明提供的一种日志分类方法，所述基于BERT的日志缺陷分类模型包括多个网络结构层，每个网络结构层对应一个计算模块，所述日志缺陷分类模型的剪枝方法包括：

在每一结构层中，将所述训练日志模板序列的词嵌入张量转换为Query矩阵、Key矩阵和Value矩阵；

在上一结构层对应的计算模块中得到的每个日志token数据的注意力得分，计算每个日志token数据的重要性得分；

根据所述重要性得分筛选出多个重要阈值范围对应的日志token数据；

根据不同重要阈值调整每个日志token数据对应的Query值、Key值和Value值的精度，以对所述基于BERT的日志缺陷分类模型进行剪枝。

根据本发明提供的一种日志分类方法，所述计算每个日志token数据的重要性得分包括：

将当前网络结构层中每个日志token数据对应的Query值、Key值和Value值，获取当前结构层的注意力得分矩阵；

将所述当前网络结构层的注意力得分矩阵中每列之和作为对应日志token数据的当前结构层重要性得分；

将当前结构层重要性得分与上一结构层重要性得分累加，将累加结果作为下一层每个日志token数据的重要性得分。

根据本发明提供的一种日志分类方法，所述根据所述重要性得分筛选出多个重要性阈值范围对应的日志token数据，包括：

根据第一重要性阈值将所述日志token数据划分为重要日志token数据和不重要日志token数据；

根据第二重要性阈值将所述重要日志token数据划分为最重要日志token数据和中等重要日志token数据。

根据本发明提供的一种日志分类方法，所述根据不同重要阈值调整每个日志token数据对应的Query值、Key值和Value值的精度，包括：

将最重要日志token数据对应的Query值、Key值和Value值的精度调整为第一精度值；

将中等重要日志token数据对应的Query值、Key值和Value值的精度调整为第二精度值；

将不重要日志token数据对应的Query值、Key值和Value值的精度调整为第三精度值；

所述第一精度值大于所述第二精度值，所述第二精度值大于所述第三精度值。

根据本发明提供的一种日志分类方法，还包括：

记录每个待分类日志的分类信息，所述分类信息包括日志异常原因、异常分类及分类结果的置信度信息；

根据所述分类信息进行实时异常告警和/或离线分析。

本发明还提供一种日志分类装置，包括：

收集模块，用于收集待分类日志；

解析模块，用于对所述待分类日志进行解析，获取待分类日志模板序列；

分类模块，用于将所述待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，所述日志缺陷分类模型根据日志模板序列训练集训练得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的日志分类方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的日志分类方法。

本发明提供的日志分类方法、装置、电子设备及存储介质，通过收集待分类日志；对待分类日志进行解析，获取待分类日志模板序列；将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到，由于对待分类日志进行解析可以根据日志语义进行自动分类，保证分类的准确性，并且，剪枝后的日志缺陷分类模型可以减少内存开销，减少时效和资源消耗，具有一定的泛化能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的日志分类方法的流程示意图之一；

图2是本发明提供的日志分类方法的流程示意图之二；

图3是本发明提供的日志分类方法的流程示意图之三；

图4是本发明提供的基于BERT的日志缺陷分类模型结构示意图；

图5是本发明提供的日志分类方法的流程示意图之四；

图6是本发明提供的注意力得分矩阵的示意图；

图7是本发明提供的日志分类方法的流程示意图之五；

图8是本发明提供的日志分类装置的结构示意图；

图9是本发明提供的日志分类装置的应用架构图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的日志分类方法的流程图，如图1所示，本发明实施例提供的日志分类方法包括：

步骤101、收集待分类日志；

步骤102、对待分类日志进行解析，获取待分类日志模板序列；

步骤103、将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到。

传统日志分类方法是通过AC自动机实现日志自动分类，但由于日志文本量大、日志输出格式不统一，并且上下文语义不清楚，导致AC自动机的分类结果不准确，从而影响后续软件异常定位的顺利进行。相关技术中，通过分析和统计建模技术来对日志进行实时自动化的分析，例如通过传统的决策树模型、transformer模型等技术对日志文本进行分析和异常分类。但由于这些模型计算量较大，造成内存开销、时效和资源消耗较大，难以应用在内存容量小、存储量小的终端设备如车载终端设备中。

本发明实施例提供的日志分类方法通过收集待分类日志，对待分类日志进行解析，获取待分类日志模板序列；将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到，由于对待分类日志进行解析可以根据日志语义进行自动分类，保证分类的准确性，并且，剪枝后的日志缺陷分类模型可以减少内存开销，减少时效和资源消耗，具有一定的泛化能力。

如图2所示，本发明实施例中对待分类日志进行解析，待分类日志模板序列，包括：

步骤201、通过正则表达式找到待分类日志中节点标识符，以该节点标识符为分割点，抽取出待分类日志的日志token数据；

在本发明实施例中，节点标识符包括但不限于：空格、逗号、句号和冒号等非结构化文本数据。

例如待分类日志包括Li Bai was famous in Tang dynasty.节点标识符为空格，则可以抽取出日志token数据分别为Li、Bai、was、famous、in、Tang、dynasty。

步骤202、将日志token数据的字段长度与预定解析树中首层节点日志长度进行匹配，匹配到相同长度的节点后，继续进行此节点下游子节点的匹配检查；

在本发明实施例中，利用利用Drain算法将日志token数据的字段长度与Drain算法中解析树中首层节点日志长度进行匹配。

步骤203、将日志token数据的完整单词与预定解析树中对应的模板分支中的完整单词进行匹配，匹配到具有相同完整单词的节点后，将剩余日志token数据继续与此节点的下游子分支继续匹配，直到与所述预定解析树中某个日志模版的匹配度超过预设阈值，则得到该日志所属的日志模版。

在本发明实施例中，利用利用Drain算法将日志token数据的完整单词与Drain算法中解析树对应的模板分支中的完整单词进行匹配。

在本发明实施例中，采用Drain进行日志数据解析，代替传统的AC自动机等分类方式，更灵活的通过理解日志语义来进行异常类型的识别和分类，提升分类结果准确性。

基于上述任一实施例，该日志缺陷分类模型为基于BERT(Bidirectional EncoderRepresentation from Transformers，来自Transformers的双向编码表示)模型的日志缺陷分类模型，如图3所示，该日志缺陷分类模型的训练方法包括：

步骤301、利用Drain算法对历史日志数据进行解析，得到训练日志模板序列；

步骤302、根据训练日志模板序列及其对应标注分类结果生成日志模板序列训练集；

步骤303、将训练日志模板序列输入基于BERT的日志缺陷分类模型，得到预测分类结果；

步骤304、根据预测分类结果与所述日志模板序列训练集中训练日志模板序列对应的标注分类结果得到损失函数的结果；

步骤305、根据损失函数的结果优化基于BERT的日志缺陷分类模型中的参数。

在本发明实施例中，由于日志缺陷分类模型是根据日志模板序列进行训练，而日志模板序列中的token数据格式统一，不包含非结构化数据，BERT在对输入文本的编码过程中，利用了每个词的所有上下文信息，与只能使用前序信息提取语义的单向编码器相比，BERT的语义信息提取能力更强，因此，基于日志模板序列训练集对基于BERT的日志缺陷分类进行训练，可以进一步提升基于BERT的日志缺陷分类模型分类结果准确性。

基于上述任一实施例，基于BERT的日志缺陷分类模型结构如图4所示，其包括多个网络结构层，每个网络结构层对应一个计算模块。

如图5所示，该日志缺陷分类模型的剪枝方法包括：

步骤501、在每一结构层中，将训练日志模板序列的词嵌入张量(tokenembeddings)转换为Query矩阵、Key矩阵和Value矩阵；

步骤502、在上一结构层对应的计算模块中得到的每个日志token数据的注意力得分，计算每个日志token数据的重要性得分；

在本发明实施例中，计算每个日志token数据的重要性得分包括：

步骤5021、根据当前结构层中每个日志token数据对应的Query值、Key值和Value值，获取当前结构层的注意力得分矩阵；

在本发明实施例中，注意力得分矩阵如图6所示；

步骤5022、将当前网络结构层的注意力得分矩阵中每列之和作为对应日志token数据的当前结构层重要性得分；

步骤5023、将当前网络结构层重要性得分与上一结构层重要性得分累加，将累加结果作为下一层每个日志token数据的重要性得分。

步骤503、根据重要性得分筛选出多个重要阈值范围对应的日志token数据；

在本发明实施例中，根据重要性得分筛选出多个重要性阈值范围对应的日志token数据，包括：

步骤504、根据不同重要阈值调整每个日志token数据对应的Query值、Key值和Value值的精度，以对基于BERT的日志缺陷分类模型进行剪枝。

在本发明实施例中，根据不同重要阈值调整每个日志token数据对应的Query值、Key值和Value值的精度，包括：

其中第一精度值大于第二精度值，第二精度值大于第三精度值。

第一精度值例如为8bit，第二精度值例如为4bit，第三精度值例如为0bit。

第一重要性阈值例如为日志token数据重要性排名靠前的85％，第二重要性阈值例如为日志token数据重要性排名靠前的70％。

在本发明一些实施例中，该日志分类方法还包括：

根据分类信息进行实时异常告警和/或离线分析。

在本发明实施例中，通过实时异常告警和/或离线分析可以及时提醒用户异常情况，便于用户定位问题，并且可以不断完善***。

如图7所示，在一些实施例中，日志分类方法包括训练阶段和运行阶段，在训练阶段，该方法包括以下步骤：

步骤1:实时日志收集；

步骤2:抽取关键数据，日志预处理，采用Drain进行日志数据解析，构建训练数据集；

步骤3:基于BERT构建并训练得到原始缺陷分类分析模型；

步骤4:基于token对原始缺陷分类模型进行动态量化剪枝，得到优化后的缺陷分类模型。

在运行阶段，该方法包括以下步骤：

步骤5:将步骤4获得的缺陷分类模型部署至日志分析服务中；

步骤6:在程序运行的过程中，收集运行时日志，采用Drain算法进行日志数据解析，将解析后的日志使用加速后的缺陷分类模型进行异常识别和分类，保存分析记录如异常原因、异常分类、置信度等信息。

步骤7:根据步骤6获得的分析记录，进行实时的异常告警及离线的聚合分析。

在本发明实施例中，使用DTQ(Dynamic token-based quantization，动态token-base量化)的算法架构对BERT进行模型轻量化，降低模型计算量、加快预测速度。由于不同的token对于噪声会表现出不同的耐受性，通过注意力概率计算出每个计算模块中日志token数据的重要性分数，根据重要性得分将日志token数据的分布调整至15％重要、70％中等重要、15％不重要的得分区间中，通过将不重要的日志token数据量化为0bit的方式做模型压缩，从而实现加速分类的目的。

下面对本发明提供的日志分类装置进行描述，下文描述的日志分类装置与上文描述的日志分类方法可相互对应参照。

图8为本发明实施例提供的日志分类装置的示意图，如图8所示，本发明实施例提供的日志分类装置包括：

收集模块801，用于收集待分类日志；

解析模块802，用于对待分类日志进行解析，获取待分类日志模板序列；

分类模块803，用于将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到。

如图9所示，通过日志分类装置收集每个终端上APP的日志数据，在本发明一些实施例中，日志分类装置包括日志提取工具(Log Parser)、模型训练模块、模型压缩模块、推理分类模块、日志存储模块、异常告警模块以及统计展示模块。该日志分类装置与数据存储层对接，数据存储层包括日志存储库和数据库。

本发明实施例提供的日志分类装置通过收集待分类日志；对待分类日志进行解析，获取待分类日志模板序列；将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到，由于对待分类日志进行解析可以根据日志语义进行自动分类，保证分类的准确性，并且，剪枝后的日志缺陷分类模型可以减少内存开销，减少时效和资源消耗，具有一定的泛化能力。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行日志分类方法，该方法包括：收集待分类日志；对待分类日志进行解析，获取待分类日志模板序列；将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的日志分类方法，该方法包括：收集待分类日志；对待分类日志进行解析，获取待分类日志模板序列；将待分类日志模板序列输入剪枝后的日志缺陷分类模型，以输出日志分类结果，其中，日志缺陷分类模型根据日志模板序列训练集训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种日志分类方法，其特征在于，包括：

收集待分类日志；

对所述待分类日志进行解析，获取待分类日志模板序列；

2.根据权利要求1所述的日志分类方法，其特征在于，所述对所述待分类日志进行解析，获取待分类日志模板序列，包括：

3.根据权利要求1所述的日志分类方法，其特征在于，所述日志缺陷分类模型为基于BERT的日志缺陷分类模型，所述日志缺陷分类模型的训练方法包括：

对历史日志数据进行解析，得到训练日志模板序列；

根据所述训练日志模板序列其对应标注分类结果生成日志模板序列训练集；

将所述日志模板序列训练集中的训练日志模板序列输入所述基于BERT的日志缺陷分类模型，得到预测分类结果；

根据所述预测分类结果与所述训练日志模板序列对应的标注分类结果得到损失函数的结果；

4.根据权利要求3所述的日志分类方法，其特征在于，所述基于BERT的日志缺陷分类模型包括多个网络结构层，每个网络结构层对应一个计算模块，所述日志缺陷分类模型的剪枝方法包括：

5.根据权利要求4所述的日志分类方法，其特征在于，所述计算每个日志token数据的重要性得分包括：

根据当前结构层中每个日志token数据对应的Query值、Key值和Value值，计算当前结构层的注意力得分矩阵；

将所述当前结构层的注意力得分矩阵中每列之和作为对应日志token数据的当前结构层重要性得分；

6.根据权利要求5所述的日志分类方法，其特征在于，所述根据所述重要性得分筛选出多个重要性阈值范围对应的日志token数据，包括：

7.根据权利要求6所述的日志分类方法，其特征在于，所述根据不同重要阈值调整每个日志token数据对应的Query值、Key值和Value值的精度，包括：

8.根据权利要求1所述的日志分类方法，其特征在于，还包括：

根据所述分类信息进行实时异常告警和/或离线分析。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的日志分类方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的日志分类方法。