CN109144964A

CN109144964A - 基于机器学习的日志解析方法和装置

Info

Publication number: CN109144964A
Application number: CN201810957288.XA
Authority: CN
Inventors: 王吉伟; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2019-01-04

Abstract

本发明提供了基于机器学习的日志解析方法和装置，包括：获取原始日志信息；将原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；根据N个字符串构成M个项对，M大于且等于1；根据聚类算法将多组日志信息和项对聚类成日志事件归类组；从日志事件归类组中选取每组频率最高的日志事件；基于选取的日志事件生成日志模版，从而可以提高日志解析效率与精度。

Description

基于机器学习的日志解析方法和装置

技术领域

本发明涉及计算机技术领域，尤其是涉及基于机器学习的日志解析方法和装置。

背景技术

为了保证***信息安全，日志几乎是所有***不可或缺的一部分。日志主要被用于记录***运行时产生的信息，如***的异常、日常操作、用户的行为等事件的相关属性与信息。这些信息对了解***的运行状态及使用该***的用户行为习惯等有着非常重要的作用，因此常用于***异常监测，***用户行为分析等。

随着***用户规模，***复杂性的增长，日志的数据量随之增加，***的开发者或者***的运维者要根据丰富的日志信息监视***运行时的状态，以及***用户的行为，以此去跟踪***异常问题的源头，预测用户使用***的行为等。一般较为常见的日志解析技术基于正则表达式提取模式，再基于提取的模式进行简单的分类。这种技术的主要缺点是多元化的日志格式处理精确度很低，性能也相对较为低下。

发明内容

有鉴于此，本发明的目的在于提供基于机器学习的日志解析方法和装置，提高日志解析效率与精度。

第一方面，本发明实施例提供了基于机器学习的日志解析方法，所述方法包括：

获取原始日志信息；

将所述原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；

根据所述N个字符串构成M个项对，M大于且等于1；

根据聚类算法将所述多组日志信息和所述项对聚类成日志事件归类组；

从所述日志事件归类组中选取每组频率最高的日志事件；

基于选取的日志事件生成日志模版。

进一步的，所述根据聚类算法将所述多组日志信息和所述项对聚类成日志事件归类组包括，重复执行以下迭代处理，直至所述每个日志文本信息都被遍历：

基于所述项对，计算所述日志文本信息在当前组的第一潜在函数值，并对所述当前组进行标记；

计算所述日志文本信息在未标记组中的第二潜在函数值；

将所述第一潜在函数值与所述第二潜在函数值进行比较；

如果所述第二潜在函数值大于所述第一潜在函数值，则更新所述日志文本信息从所述当前组移动到所述未标记组的信息；

如果所述第二潜在函数值等于所述第一潜在函数值，则将当前分组作为所述日志事件归类组。

进一步的，所述基于所述项对，计算所述日志文本信息在当前组的第一潜在函数值，包括：

根据下式计算所述第一潜在函数值：

其中，ω(B)为所述第一潜在函数值，对于所述项对r∈R(B)，N(r,B)是所述日志文本信息B中包括所述项对r的日志数量，p(r,B)＝N(r,B)/|B|为所述日志文件信息B中包括所述项对r的日志所占比例，所述第二潜在函数值通过上述公式进行计算。

进一步的，所述从所述日志事件归类组中选取每组频率最高的日志事件，包括：

统计所述日志事件归类组中每组日志信息中每个项对出现的频率；

将所述每组日志信息中项对出现的频率达到预定次数的项对作为候选项；

将所述每组日志信息中选取的候选项组成日志事件候选；

从所述日志事件候选中选取所述每组出现频率最高的日志事件。

进一步的，所述根据所述N个字符串构成M个项对，包括：

根据下式计算所述项对：

其中，M为所述项对的个数，N为所述字符串的数量。

第二方面，本发明实施例提供了基于机器学习的日志解析装置，所述装置包括：

获取单元，用于获取原始日志信息；

分组单元，用于将所述原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；

构成单元，用于根据所述N个字符串构成M个项对，M大于且等于1；

聚类单元，用于根据聚类算法将所述多组日志信息和所述项对聚类成日志事件归类组；

选取单元，用于从所述日志事件归类组中选取每组频率最高的日志事件；

生成单元，用于基于选取的日志事件生成日志模版。

进一步的，所述聚类单元用于重复执行以下迭代处理，直至所述每个日志文本信息都被遍历：

计算所述日志文本信息在未标记组中的第二潜在函数值；

将所述第一潜在函数值与所述第二潜在函数值进行比较；

进一步的，所述聚类单元用于：

根据下式计算所述第一潜在函数值：

进一步的，所述选取单元用于：

将所述每组日志信息中选取的候选项组成日志事件候选；

进一步的，所述构成单元用于：

根据下式计算所述项对：

其中，M为所述项对的个数，N为所述字符串的数量。

本发明实施例提供了基于机器学习的日志解析方法和装置，包括：获取原始日志信息；将原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；根据N个字符串构成M个项对，M大于且等于1；根据聚类算法将多组日志信息和项对聚类成日志事件归类组；从日志事件归类组中选取每组频率最高的日志事件；基于选取的日志事件生成日志模版，从而可以提高日志解析效率与精度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基于机器学习的日志解析方法流程图；

图2为本发明实施例一提供的基于机器学习的日志解析方法中步骤S104的流程图；

图3为本发明实施例一提供的基于机器学习的日志解析方法中步骤S105的流程图；

图4为本发明实施例二提供的基于机器学习的日志解析装置示意图。

图标：

10-获取单元；20-分组单元；30-构成单元；40-聚类单元；50-选取单元；60-生成单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一般日志解析最常见的方法是基于规则匹配，通过正则表达式从日志中提取模式，后续基于提取的模式进行简单的分类，相比较直接解析文本内容解析效率有所提高，但是遍历日志对日志解析的时效有很大影响，并且如果日志中包含大量无关日志会影响到日志的分类，日志解析的精度也会明显下降。

在本申请中，日志信息包括可变部分的文本和不可变部分的文本，大多数日志信息都是非结构化的文本。日志解析是将原始日志中不可变部分的文本从可变部分的文本中分离出来，并转化为一个结构化的日志事件。在日志解析中，通过聚类算法进行聚类。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset)，这样让在同一个子集中的成员对象都有相似的一些属性。

为便于对本实施例进行理解，下面对本发明实施例进行详细介绍。

实施例一：

图1为本发明实施例一提供的基于机器学习的日志解析方法流程图。

参照图1，该方法包括以下步骤：

步骤S101，获取原始日志信息；

这里，原始日志信息为已去除无关项的日志信息。由于原始日志信息中包括无关项的日志信息，因此，在对原始日志信息进行日志解析时，需要将无关项的日志信息去除，从而可以提高日志解析的精度。

原始日志信息中通常有一些固定不变的项，第一种情况是在日志信息中的位置固定不变，比如日志数据集中代表日志产生的时间戳，内容虽有变化但属性不变。这些项不仅对日志分类没有帮助，而且会造成处理代价的增加，因此，需要去除；第二种情况是在日志信息中的位置是变化的，比如日志数据集中的IP地址、端口等，可以采用正则表达式来去除。

其中，日志解析通过采用具体的潜在函数值，作为评价同类事件的衡量标准，通过不断迭代提高分类精确度。主要步骤包括项对的生成、日志信息的聚类及日志分类模版的生成。

步骤S102，将原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；

步骤S103，根据N个字符串构成M个项对，M大于且等于1；

这里，由于每个日志文本信息包括N个字符串，每个字符串为日志的一个项，每两个项可组成一个项对，M与N之间的关系由公式(2)可知。例如，N个字符串包括“12”、“34”和“AB”，那么，12”和“34”构成一个项对，“AB”和“12”构成一个项对，“34”和“AB”构成一个项对，即3个字符串可以构成3个项对。

步骤S104，根据聚类算法将多组日志信息和项对聚类成日志事件归类组；

这里，基于项对，分别计算每个日志文本信息从一个组到另一个组的潜在函数值，通过比较这两个组的潜在函数值是否增加，从而确定日志文本信息是否移动，如果增加，则说明该日志文本信息从一个组移动到另一个组，并且更新日志分组信息，通过不断迭代，选择更大的潜在函数值，直到最后一次迭代中，没有任何一条日志文本信息的潜在函数值增加，则可以将当前分组确定为日志事件归类组。

步骤S105，从日志事件归类组中选取每组频率最高的日志事件；

步骤S106，基于选取的日志事件生成日志模版。

进一步的，参照图2，步骤S104包括以下步骤：重复执行以下迭代处理，直至每个日志文本信息都被遍历：

步骤S201，基于项对，计算日志文本信息在当前组的第一潜在函数值，并对当前组进行标记；

步骤S202，计算日志文本信息在未标记组中的第二潜在函数值；

步骤S203，将第一潜在函数值与第二潜在函数值进行比较；

步骤S204，如果第二潜在函数值大于第一潜在函数值，则更新日志文本信息从当前组移动到未标记组的信息；

步骤S205，如果第二潜在函数值等于第一潜在函数值，则将当前分组作为日志事件归类组。

具体地，基于项对，并根据公式(1)可计算出日志文本信息在当前组的第一潜在函数值，第一潜在函数值是日志文本信息中所有项对的总和，在计算完第一潜在函数值后，对当前组进行标记，可以与其他组进行区分，从而确定该日志文本信息会移动到哪些未标记的组中。通过迭代，再通过公式(1)计算第二潜在函数值，然后比较第一潜在函数值和第二潜在函数值，从而确定日志文本信息是否移动，如果增加，则说明该日志文本信息从已标记的当前组移动到另一未标记的组，并且更新日志分组信息，通过不断迭代，选择更大的潜在函数值，直到最后一次迭代中，没有任何一条日志文本信息的潜在函数值增加，则可以将当前分组确定为日志事件归类组。

进一步的，步骤S201包括：

根据公式(1)计算第一潜在函数值：

其中，ω(B)为第一潜在函数值，对于项对r∈R(B)，N(r,B)是日志文本信息B中包括项对r的日志数量，p(r,B)＝N(r,B)/|B|为日志文件信息B中包括项对r的日志所占比例，第二潜在函数值通过上述公式进行计算。

进一步的，参照图3，步骤S105包括以下步骤：

步骤S301，统计日志事件归类组中每组日志信息中每个项对出现的频率；

步骤S302，将每组日志信息中项对出现的频率达到预定次数的项对作为候选项；

这里，预定次数的项对为出现次数超过一半的项对。

步骤S303，将每组日志信息中选取的候选项组成日志事件候选；

步骤S304，从日志事件候选中选取每组出现频率最高的日志事件。

具体地，每组中的每个日志文本信息都具有高匹配得分的序列项。日志模版生成过程中，首先构建日志信息标签，即保存日志事件归类组中，每个日志文本信息中的每个项对出现的频率，选择每组中出现次数超过一半的项作为候选项，即消息标签；然后，将每组日志信息中含有的候选项组成日志事件候选，每组中出现频率最高的日志事件候选为当前组的最终日志模版输出。

进一步的，步骤S103包括：

根据公式(2)计算项对：

其中，M为项对的个数，N为字符串的数量。

本发明实施例提供了基于机器学习的日志解析方法，包括：获取原始日志信息；将原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；根据N个字符串构成M个项对，M大于且等于1；根据聚类算法将多组日志信息和项对聚类成日志事件归类组；从日志事件归类组中选取每组频率最高的日志事件；基于选取的日志事件生成日志模版，从而可以提高日志解析效率与精度。

实施例二：

参照图4，该装置包括获取单元10、分组单元20、构成单元30、聚类单元40、选取单元50和生成单元60。

获取单元10，用于获取原始日志信息；

分组单元20，用于将原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；

构成单元30，用于根据N个字符串构成M个项对，M大于且等于1；

聚类单元40，用于根据聚类算法将所述多组日志信息和项对聚类成日志事件归类组；

选取单元50，用于从日志事件归类组中选取每组频率最高的日志事件；

生成单元60，用于基于选取的日志事件生成日志模版。

进一步的，聚类单元40用于重复执行以下迭代处理，直至每个日志文本信息都被遍历：

基于项对，计算日志文本信息在当前组的第一潜在函数值，并对当前组进行标记；

计算日志文本信息在未标记组中的第二潜在函数值；

将第一潜在函数值与第二潜在函数值进行比较；

如果第二潜在函数值大于第一潜在函数值，则更新日志文本信息从当前组移动到未标记组的信息；

如果第二潜在函数值等于第一潜在函数值，则将当前分组作为日志事件归类组。

进一步的，聚类单元40用于：

根据公式(1)计算第一潜在函数值：

进一步的，选取单元50用于：

统计日志事件归类组中每组日志信息中每个项对出现的频率；

将每组日志信息中项对出现的频率达到预定次数的项对作为候选项；

将每组日志信息中选取的候选项组成日志事件候选；

从日志事件候选中选取所述每组出现频率最高的日志事件。

进一步的，构成单元30用于：

根据公式(2)计算项对：

其中，M为项对的个数，N为字符串的数量。

本发明实施例提供了基于机器学习的日志解析装置，包括：获取原始日志信息；将原始日志信息通过维度进行分组，得到多组日志信息，其中，每组日志信息中包括多个日志文本信息，每个日志文本信息包括N个字符串，N大于且等于2；根据N个字符串构成M个项对，M大于且等于1；根据聚类算法将多组日志信息和项对聚类成日志事件归类组；从日志事件归类组中选取每组频率最高的日志事件；基于选取的日志事件生成日志模版，从而可以提高日志解析效率与精度。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的基于机器学习的日志解析方法的步骤。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的基于机器学习的日志解析方法的步骤。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于机器学习的日志解析方法，其特征在于，所述方法包括：

获取原始日志信息；

根据所述N个字符串构成M个项对，M大于且等于1；

从所述日志事件归类组中选取每组频率最高的日志事件；

基于选取的日志事件生成日志模版。

2.根据权利要求1所述的基于机器学习的日志解析方法，其特征在于，所述根据聚类算法将所述多组日志信息和所述项对聚类成日志事件归类组包括，重复执行以下迭代处理，直至所述每个日志文本信息都被遍历：

计算所述日志文本信息在未标记组中的第二潜在函数值；

将所述第一潜在函数值与所述第二潜在函数值进行比较；

3.根据权利要求2所述的基于机器学习的日志解析方法，其特征在于，所述基于所述项对，计算所述日志文本信息在当前组的第一潜在函数值，包括：

根据下式计算所述第一潜在函数值：

其中，ω(B)为所述第一潜在函数值，对于所述项对r∈R(B)，N(r,B)是所述日志文本信息B中包括所述项对r的日志数量，p(r,B)＝N(r,B)/B为所述日志文件信息B中包括所述项对r的日志所占比例，所述第二潜在函数值通过上述公式进行计算。

4.根据权利要求1所述的基于机器学习的日志解析方法，其特征在于，所述从所述日志事件归类组中选取每组频率最高的日志事件，包括：

将所述每组日志信息中选取的候选项组成日志事件候选；

5.根据权利要求1所述的基于机器学习的日志解析方法，其特征在于，所述根据所述N个字符串构成M个项对，包括：

根据下式计算所述项对：

其中，M为所述项对的个数，N为所述字符串的数量。

6.一种基于机器学习的日志解析装置，其特征在于，所述装置包括：

获取单元，用于获取原始日志信息；

生成单元，用于基于选取的日志事件生成日志模版。

7.根据权利要求6所述的基于机器学习的日志解析装置，其特征在于，所述聚类单元用于重复执行以下迭代处理，直至所述每个日志文本信息都被遍历：

计算所述日志文本信息在未标记组中的第二潜在函数值；

将所述第一潜在函数值与所述第二潜在函数值进行比较；

8.根据权利要求7所述的基于机器学习的日志解析装置，其特征在于，所述聚类单元用于：

根据下式计算所述第一潜在函数值：

9.根据权利要求6所述的基于机器学习的日志解析装置，其特征在于，所述选取单元用于：

将所述每组日志信息中选取的候选项组成日志事件候选；

10.根据权利要求6所述的基于机器学习的日志解析装置，其特征在于，所述构成单元用于：

根据下式计算所述项对：

其中，M为所述项对的个数，N为所述字符串的数量。