CN117112791B

CN117112791B - 一种未知日志分类决策***、方法、装置及可读存储介质

Info

Publication number: CN117112791B
Application number: CN202311346153.7A
Authority: CN
Inventors: 罗圣美; 路冰; 卢延科
Original assignee: Zhongfu Safety Technology Co Ltd
Current assignee: Zhongfu Safety Technology Co Ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-02-20
Anticipated expiration: 2043-10-18
Also published as: CN117112791A

Abstract

本发明提出的一种未知日志分类决策***、方法、装置及可读存储介质，属于日志分类技术领域。***包括：大模型总结模块，配置用于通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型，并针对未知日志结合已有分类进行新增分类推荐，更新分类模型；命名实体识别模块，配置用于从未知类型的日志中提取命名实体信息；分类决策模块，配置用于利用基于命名实体的分类模型将未知类型的日志条目分类到适当的类别中，并生成未分类日志反馈给大模型总结模块。本发明利用大语言模型及命名实体技术，有效的提高了未知日志分类的准确性和智能性。

Description

一种未知日志分类决策***、方法、装置及可读存储介质

技术领域

本发明涉及日志分类技术领域，更具体的说是涉及一种未知日志分类决策***、方法、装置及可读存储介质。

背景技术

在大数据时代，日志文件的处理和分类变得越来越重要。传统的日志分类方法通常依赖于手工编写的规则或传统机器学习分类算法，这些方法在处理大量复杂和未知类型的日志时表现不佳。

其中，基于规则的日志分类方法是传统的日志分类方法之一，它依赖于事先定义的规则集来识别和分类日志，这种方法受限于已定义的规则，无法适应未知类型的日志或复杂的日志结构，当出现新的日志类型时，传统方法需要重新编写规则或者更新算法，这会导致处理延迟和不准确性。基于机器学习分类算法的方案，如决策树、支持向量机或神经网络，从训练数据中学习日志分类模型，通过使用已标记的训练数据自动学习日志分类规则，这种方法通常需要大量标记的数据来训练模型，且需要定期更新以适应新的日志类型；而且，由于采用的分类决策固定，不具备灵活性和自适应性，无法应对不断演化的日志数据。

此外，这些方法在处理特殊命名实体识别中通常采用正则表达式匹配的方案，这种方案无法精准有效地处理包含命名实体的日志，这些实体对于理解日志的含义至关重要。

由此可见，传统的日志分类方案存在规则依赖、适应性差、无法应对未知类型等缺点。

发明内容

针对以上问题，本发明的目的在于提供一种未知日志分类决策***、方法、装置及可读存储介质，利用大语言模型及命名实体技术，有效的提高了未知日志分类的准确性和智能性。

本发明为实现上述目的，通过以下技术方案实现：一种未知日志分类决策***，包括：大模型总结模块、命名实体识别模块和分类决策模块；

大模型总结模块，配置用于通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型，并针对未知日志结合已有分类进行新增分类推荐，更新分类模型；

命名实体识别模块，配置用于从未知类型的日志中提取命名实体信息；

分类决策模块，配置用于利用基于命名实体的分类模型将未知类型的日志条目分类到适当的类别中，并生成未分类日志反馈给大模型总结模块。

进一步，大模型总结模块包括：

规则抽取单元，配置用于从已有的日志分类规则以及对应规则的日志中提取关键特征和模式，以捕捉不同类别日志的共性和差异；

实体分析单元，配置用于分析不同分类中出现的命名实体，以确定它们在日志分类中的重要性和关联性；

分类模型生成单元，配置用于基于提取的关键特征和模式、不同分类中出现的命名实体，生成基于命名实体的分类模型；

分类模型更新单元，配置用于结合已有的基于命名实体分类规则，针对无法分类日志进行新增分类推荐，更新基于命名实体的分类模型。

进一步，命名实体识别模块，包括：

文本预处理单元，配置用于对未知类型的日志进行文本预处理；

实体识别单元，配置用于应用命名实体识别技术，自动识别日志中的命名实体；

实体提取单元，配置用于将识别到的命名实体信息提取出来，并进行结构化存储。

进一步，分类决策模块包括：

实体与规则综合分析单元，配置用于利用基于命名实体的分类模型、存储的命名实体信息以及未知类型日志的内容，进行实体与规则的分析，确定命名实体频率和命名实体关联关系，生成综合分析结果；

分类决策单元，配置用于根据综合分析的结果，确定日志条目分类的类别或子类别，生成分类决策；

反馈推荐单元，配置用于根据综合分析的结果，将无法分类的子类别的日志反馈给大模型总结模块；

分类结果输出单元，配置将分类决策的结果输出，以供后续的日志管理、监控或报警***使用。

相应的，本发明还公开了一种未知日志分类决策方法，包括：

通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型；

从未知类型的日志中提取命名实体信息；

利用基于命名实体的分类模型，根据命名实体信息确定日志条目的类别；

获取无法确定日志条目类别的未知类型日志，通过调整参数和实体，更新基于命名实体的分类模型。

进一步，所述通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型，包括：

利用大语言模型分析已有的日志分类规则及历史日志数据，自动学习和理解日志规则，抽取其中的关键特征和模式，以识别不同类别日志的共性和差异；

利用大语言模型分析不同分类中出现的命名实体，以确定它们在日志分类中的重要性和关联性；

基于大语言模型的学习结果、抽取的关键特征和模式、分析结果，生成基于命名实体的分类模型。

进一步，所述从未知类型的日志中提取命名实体信息，包括：

对未知类型的日志进行文本的分词、去噪声、标点符号处理；

应用命名实体识别技术，自动识别日志中的命名实体；

将识别到的命名实体信息提取出来，并进行结构化存储。

进一步，所述通过调整参数和实体，更新基于命名实体的分类模型，包括：

通过参数调整、实体更新、实体关系变更，更新基于命名实体的分类模型。

相应的，本发明公开了一种未知日志分类决策装置，包括：

存储器，用于存储未知日志分类决策程序；

处理器，用于执行所述未知日志分类决策程序时实现如上文任一项所述未知日志分类决策方法的步骤。

相应的，本发明公开了一种可读存储介质，所述可读存储介质上存储有未知日志分类决策程序，所述未知日志分类决策程序被处理器执行时实现如上文任一项所述未知日志分类决策方法的步骤。

对比现有技术，本发明有益效果在于：

1、本发明通过利用深度学习模型总结日志规则和命名实体信息，能够更准确地分类未知类型的日志，减少误分类。

2.本发明利用大型深度学习模型和命名实体识别技术，实现智能化的分类决策，能够自动适应新的日志类型和变化。

3、相对于传统的基于规则或启发式算法的方法，本发明减少了对人工规则编写和特征工程的依赖，降低了操作和管理人员的工作量。

4、本发明在面对复杂、多样化和未知的日志数据时表现出色，无需频繁地更新规则或模型，具备较高的适应性。

5、本发明在面对复杂、多样化和未知的日志数据时表现出色，无需频繁地更新规则或模型，具备较高的适应性，尤其在网络安全、***监控和故障诊断等领域具有广泛的应用前景，能够显著提升日志数据的价值和利用程度。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明具体实施方式的***结果图。

图2是本发明具体实施方式的方法流程图。

图中，1、大模型总结模块；2、命名实体识别模块；3、分类决策模块；11、规则抽取单元；12、实体分析单元；13、分类模型生成单元；14、分类模型更新单元；21、文本预处理单元；22、实体识别单元；23、实体提取单元；31、实体与规则综合分析单元；32、分类决策单元；33、反馈推荐单元；34、分类结果输出单元。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种未知日志分类决策***，包括：大模型总结模块1、命名实体识别模块2和分类决策模块3。

大模型总结模块1，配置用于通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型，并针对未知日志结合已有分类进行新增分类推荐，更新分类模型。

命名实体识别模块2，配置用于从未知类型的日志中提取命名实体信息。

分类决策模块3，配置用于利用基于命名实体的分类模型将未知类型的日志条目分类到适当的类别中，并生成未分类日志反馈给大模型总结模块1。

在具体实施方式中，作为本***的核心，大模型总结模块1具体包括：规则抽取单元11、实体分析单元12、分类模型生成单元13和分类模型更新单元14。

规则抽取单元11，配置用于从已有的日志分类规则以及对应规则的日志中提取关键特征和模式，以捕捉不同类别日志的共性和差异。

实体分析单元12，配置用于分析不同分类中出现的命名实体，以确定它们在日志分类中的重要性和关联性。其中，命名实体包括但不限于：应用程序名称、错误代码、日期等。

分类模型生成单元13，配置用于基于提取的关键特征和模式、不同分类中出现的命名实体，生成基于命名实体的分类模型。在实际运行过程中，分类模型生成单元13基于规则抽取和实体分析，生成一种基于命名实体的分类方法，以便后续的分类决策模块使用。

分类模型更新单元14，配置用于结合已有的基于命名实体分类规则，针对无法分类日志进行新增分类推荐，更新基于命名实体的分类模型。

在具体实施方式中，命名实体识别模块2，包括：文本预处理单元21、实体识别单元22和实体提取单元23。

文本预处理单元21，配置用于对未知类型的日志进行文本预处理，包括分词、去噪声、标点符号处理等。

实体识别单元22，配置用于应用命名实体识别技术，自动识别日志中的命名实体，命名实体，如人名、地名、IP地址、文件路径等。

实体提取单元23，配置用于将识别到的命名实体信息提取出来，并进行结构化存储，以供后续的分类决策模块使用。

在具体实施方式中，分类决策模块3包括：实体与规则综合分析单元31、分类决策单元32、反馈推荐单元33和分类结果输出单元34。

实体与规则综合分析单元31，配置用于利用基于命名实体的分类模型、存储的命名实体信息以及未知类型日志的内容，进行实体与规则的分析，确定命名实体频率和命名实体关联关系，生成综合分析结果。

分类决策单元32，配置用于根据综合分析的结果，决定将日志条目分类到哪个类别或子类别中。

反馈推荐单元33，配置用于根据综合分析的结果，将无法分类的子类别的日志反馈给大模型总结模块。

分类结果输出单元34，配置将分类决策的结果输出，以供后续的日志管理、监控或报警***使用。

由此可见，通过这些核心模块的协同工作，本***实现了对未知类型日志的智能分类，充分利用了大型深度学习模型和命名实体识别技术，以提高分类的准确性和智能性。大模型总结模块负责规则和实体的总结，命名实体识别模块用于提取关键信息，而分类决策模块则整合这些信息，做出最终的日志分类决策。本***在面对复杂和多样化的日志数据时表现出色，具备极高的适应性和智能性。

如图2所示，本发明还公开了一种未知日志分类决策方法，包括如下步骤：

S1：通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型。

在具体实施方式中，本步骤通过使用大语言模型对已有的日志分类规则策略、日志记录以及不同分类中的命名实体进行总结和归纳，形成一种基于命名实体的分类方法，具体过程包括：

规则总结：大语言模型分析已有的日志分类规则及历史日志数据，自动学习和理解日志规则，抽取其中的关键特征和模式，以识别不同类别日志的共性和差异。

实体归纳：模型分析不同分类中出现的命名实体，如应用程序名称、错误代码、日期等，以确定它们在日志分类中的重要性和关联性。

生成分类方法：基于模型的学习结果、规则抽取和实体归纳，生成一种基于命名实体的分类方法，这个方法会被用于后续的日志分类。

S2：从未知类型的日志中提取命名实体信息。

在具体实施方式中，本步骤用于处理未知类型的日志，从中提取命名实体信息，这些实体对于日志的含义和分类至关重要。具体步骤包括：

文本预处理：对未知类型的日志进行文本预处理，包括分词、去噪声、标点符号处理等，以准备进行实体识别。

实体识别：应用命名实体识别技术，自动识别日志中的命名实体，如人名、地名、IP地址、文件路径等。

实体提取：将识别到的命名实体信息提取出来，并进行结构化存储，以供后续步骤使用。

S3：利用基于命名实体的分类模型，根据命名实体信息确定日志条目的类别。

在具体实施方式中，本步骤用于最终的日志分类决策，将日志条目分类到适当的类别中。具体步骤包括：

实体与规则综合分析：综合考虑第一步中生成的分类方法、第二步提取的命名实体信息以及未知日志的内容，进行关于命名实体频率、关联关系等方面的分析。

分类决策：根据综合分析的结果，决定将日志条目分类到哪个类别或子类别中。

输出分类结果：将分类决策的结果输出，以供后续的日志管理、监控或报警***使用。

S4：获取无法确定日志条目类别的未知类型日志，通过调整参数和实体，更新基于命名实体的分类模型。

在具体实施方式中，本步骤用于针对未知日志进行分类方法更新，使分类方法不断适应各种类型日志数据。具体步骤包括：

反馈更新：根据步骤S3的分类决策，积累无法决策分类的未知日志，反馈给大模型总结模块，通过参数调整、实体更新、实体关系变更等途径进行分类规则更新。

由此可见，通过以上四个步骤的协同工作，本方法实现了对未知类型日志的智能分类。第一步总结了规则和实体信息，第二步提取了重要的命名实体，而第三步结合了这些信息，进行了准确的分类决策，第四步实现了***反馈使得***能够自适应更新分类模型。本方法在面对复杂和多样化的日志数据时具备高度的适应性和智能性，能够提高日志分类的准确性和效率。

本发明还公开了一种未知日志分类决策装置，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的未知日志分类决策程序时实现以下步骤：

1、通过大语言模型对已有的日志分类规则策略以及不同分类中的命名实体进行总结、归纳、演绎，生成基于命名实体的分类模型。

2、从未知类型的日志中提取命名实体信息。

3、利用基于命名实体的分类模型，根据命名实体信息确定日志条目的类别。

4、获取无法确定日志条目类别的未知类型日志，通过调整参数和实体，更新基于命名实体的分类模型。

进一步的，本实施例中的未知日志分类决策装置，还可以包括：

输入接口，用于获取外界导入的未知日志分类决策程序，并将获取到的未知日志分类决策程序保存至所述存储器中，还可以用于获取外界终端设备传输的各种指令和参数，并传输至处理器中，以便处理器利用上述各种指令和参数展开相应的处理。本实施例中，所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。

输出接口，用于将处理器产生的各种数据输出至与其相连的终端设备，以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中，所述输出接口具体可以包括但不限于USB接口、串行接口等。

通讯单元，用于在未知日志分类决策装置和外部服务器之间建立远程通讯连接，以便于未知日志分类决策装置能够将镜像文件挂载到外部服务器中。本实施例中，通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。

键盘，用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。

显示器，用于运行未知日志分类决策过程的相关信息进行实时显示。

鼠标，可以用于协助用户输入数据并简化用户的操作。

本发明还公开了一种可读存储介质，这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有未知日志分类决策程序，所述未知日志分类决策程序被处理器执行时实现以下步骤：

2、从未知类型的日志中提取命名实体信息。

综上所述，本发明利用大语言模型及命名实体技术，有效的提高了未知日志分类的准确性和智能性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的***相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的***、***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，***或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

同理，在本发明各个实施例中的各处理单元可以集成在一个功能模块中，也可以是各个处理单元物理存在，也可以两个或两个以上处理单元集成在一个功能模块中。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的未知日志分类决策***、方法、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种未知日志分类决策***，其特征在于，包括：大模型总结模块、命名实体识别模块和分类决策模块；

分类决策模块，配置用于利用基于命名实体的分类模型将未知类型的日志条目分类到适当的类别中，并生成未分类日志反馈给大模型总结模块；

所述分类决策模块包括：

分类结果输出单元，配置将分类决策的结果输出，以供后续的日志管理、监控或报警***使用；

所述大模型总结模块包括：

分类模型更新单元，配置用于结合已有的基于命名实体分类规则，针对无法分类日志进行新增分类推荐，更新基于命名实体的分类模型；

所述命名实体识别模块，包括：