CN105049247B

CN105049247B - 一种网络安全日志模板抽取方法及装置

Info

Publication number: CN105049247B
Application number: CN201510391607.1A
Authority: CN
Inventors: 亚静; 柳厅文; 张浩亮; 时金桥
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2019-04-26
Anticipated expiration: 2035-07-06
Also published as: CN105049247A

Abstract

本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括：1)对原始的网络安全日志进行数据清洗，得到过滤掉时间和IP地址的日志信息；2)对不包含时间和IP地址的日志信息进行聚类，把具有相似格式的日志划分到同一类中；3)对于每一类中的日志，提取出日志中描述格式的模板词，得到日志格式的模板。具体地，采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类，利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识，可以自动获取网络安全日志格式的模板，能够减小***负载，提高运算效率和准确性。

Description

一种网络安全日志模板抽取方法及装置

技术领域

本发明涉及信息安全领域，尤其涉及一种网络安全日志模板抽取方法及装置，该方案不依赖于任何先验知识，可以自动抽取出描述未知网络安全日志格式的模板。

背景技术

网络安全日志，包括操作***产生的***日志和网络安全设备产生的报警日志，记录了网络环境中发生的各种安全事件，为网络异常诊断和网络攻击威胁的发现提供重要的线索。在网络安全日志分析***中，日志格式解析是一个必不可少的步骤。因此，抽取网络安全日志模板，对日志分析有着重要的意义。目前，在一些比较成熟的网络安全日志分析产品中，如OSSIM、Snort、OSSEC等，通常采集基于正则表达式的日志解析方法。它们获取日志模板的方法包括两种：一种是通过阅读相关技术文档，获得源日志的格式模板说明；另一种是通过人工去分析源日志的格式，手工编写日志格式模板。这种日志模板提取的方法，只适用于已知格式模板的日志。当大量格式未知的日志混杂在一起，并且没有相关技术文档说明时，很难通过人工分析的方法得到描述日志格式的模板。

随着网络通信技术的发展，部署在网络环境中的设备和***服务都越来越多，越来越复杂化，从而导致网络中产生的日志呈现“海量”、“异构”的特点。虽然很多日志格式可以通过相关的技术文档获得，日志格式可能会随着***的更新或升级而改变。并且很多安全产品厂商的日志格式并不对外公开，对于网络中海量未知格式的日志，分析人员很难人工去抽取出所有的日志模板。

发明内容

本发明的目的在于提供一种网络安全日志模板抽取方法及装置，使得日志分析人员能够不需要任何先验知识，可以自动获取网络安全日志格式的模板。从而，解决前面提到的在网络安全日志格式提取中遇到的问题。

为实现上述目的，本发明采用的技术方案如下：

一种网络安全日志模板抽取方法，包括如下步骤：

1)对原始的网络安全日志进行数据清洗，得到过滤掉时间和IP地址的日志信息；

2)对不包含时间和IP地址的日志信息进行聚类，把具有相似格式的日志划分到同一类中；

3)对于每一类中的日志，提取出日志中描述格式的模板词，得到日志格式的模板。

进一步地，步骤1)在数据清洗时，根据时间和IP地址具有的特定的格式，采用正则表达式匹配去掉对应的字段。

进一步地，步骤2)采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类。

进一步地，步骤3)利用LDA Gibbs sampling算法提取出日志中描述格式的模板词，仅保留原始日志中的模板词，得到日志格式。

进一步地，步骤3)将每个主题中分布最大的单词作为模板词，用来描述日志的格式；在得到模板词后，把原始日志中不属于模板词的单词用**代替，得到描述日志格式的正则表达式。

一种网络安全日志模板抽取装置，其包括：

数据清洗单元，用于对原始的网络安全日志进行数据清洗，过滤其中的时间和IP地址；

信息聚类单元，用于对不包含时间和IP地址的日志信息进行聚类，把具有相似格式的日志划分到同一类中；

模板提取单元，用于提取每一类的日志中描述格式的模板词，得到日志格式的模板。

进一步地，所述信息聚类单元采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类。

进一步地，所述模板提取单元利用LDA Gibbs sampling算法提取出日志中描述格式的模板词，仅保留原始日志中的模板词，得到日志格式。

利用本发明提供的方法提取网络安全日志的格式，具有以下优点：

1、该方法不需要任何网络安全领域的先验知识，就可以得到描述未知网络安全日志格式的模板；

2、该方法解决了对包含不同格式的海量多源异构网络安全日志模板的提取，为日志分析预处理提供有力的支撑；

3、在提取描述日志格式的模板单词之前，先进行聚类处理，然后对每一类网络安全日志进行模板提取，从而减小***负载，提高运算效率；

4、该方法得到的网络安全日志模板可以用于日志分析中的日志解析，比查阅技术说明文档或手工分析准确率更高。

附图说明

图1是本发明方法的数据流处理流程图。

图2是具体实例中网络安全日志模板抽取方法的流程图。

图3是SSH进程日志信息示意图。

图4是进行数据清洗后的日志信息示意图。

图5是聚类结果示意图。

图6是模板抽取后得到的描述日志格式的正则表达式示意图。

图7是具体实例中不同主题数量的召回率曲线图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

本发明提供的网络安全日志模板抽取方法，其主要步骤包括数据清洗、信息聚类和模板提取，如图1所示。其中，数据清洗是首先对日志数据中具有特定格式的字段，包括日期、IP地址等，进行过滤；信息聚类是对清洗之后的数据，利用聚类算法把具有相似格式的日志划分到一个类中；模板提取是对于每一个类中的日志，提取出日志中描述格式的模板词，仅保留原始日志中的模板词，得到日志格式。

1.数据清洗

该方法中的数据清洗，主要是为了过滤掉具有特定格式的字段，包括时间和IP地址。该方法主要是对数据清洗后剩余的信息部分进行模板提取。

在自然语言中，时间和IP地址具有特定的格式，本方法中采用正则表达式匹配去掉对应的字段。

IP地址的正则表达式可以是：

((？:(？:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]？\d)))\.){3}(？:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]？\d))))

时间2015-12-2112:21:10.的正则表达式可以是：

(\d{4})-(0\d{1}|1[0-2])-(0\d{1}|[12]\d{1}|3[01])(0\d{1}|1\d{1}|2[0-3]):[0-5]\d{1}:([0-5]\d{1})

下表中列出几种常用的正则表达式:

表1 常用正则表达式

数据清洗的输入是原始的网络安全日志，输出的是过滤掉时间和IP地址的日志信息。

2.信息聚类

该方法中提到的信息聚类，输入是清洗之后不包含时间和IP地址的日志信息，输出是包含相似格式的多个日志信息聚类。

优选地，该方法采用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法，对相似格式的日志进行聚类；选取日志中的单词组成作为日志特征向量，把每一条日志转化为多维空间里的一个点，进行聚类。

DBSCAN算法是一种基于密度的聚类算法，不需要事先知道要形成的簇类的数量，并且可以发现噪音点。还可以采用的聚类方法有OPTICS算法(Ordering Points toidentify the clustering structure)，OPTICS并不显示的产生结果类簇，而是为聚类分析生成一个增广的簇排序，可以得到基于任何半径Ε和minPts的DBSCAN算法的聚类结果。

原始日志中出现的每个单词作为一个特征，假设输入的M条日志中共有W个不同的单词，0表示不存在该特征，1表示存在该特征。每一条日志信息可以转化为由0和1组成的W维特征向量，表示空间的一个点。得到空间的M个点，利用DBSCAN算法把M个点进行聚类，得到的每一个聚类中都包含格式相似的日志。

上面以单词作为日志的特征，在其它实施例中，还可以采用N-Gram(汉语语言模型)把日志划分为由长度为N的字段组成的有序队列，每一个长度为N的字段作为日志的特征，最终得到的模板词就是由多个长度为N的字段组成的单词序列。

3.模板提取

对于每一个类中的日志，利用LDA(Latent Dirichlet allocation，隐含狄利克雷分布)Gibbs sampling吉布斯采样算法提取出日志中描述格式的模板词，仅保留原始日志中的模板词，得到日志格式。

该方法中提到的模板提取，输入是信息聚类得到的一个包含相似格式的聚类。利用LDA Gibbs sampling算法提取出一类日志中的模板单词(主题)，得到的模板单词用来描述日志的格式。优选地，采用LDA算法得到每个主题中分布最大的单词作为模板单词。得到模板单词后，将原始日志中不属于模板单词的词用**代替，即可得到表示原始日志格式的正则表达式。

下面提供一个具体应用实例。该实例以Linux***中的SSH进程日志为例，抽取SSH进程产生的不同格式的网络日志模板。图2是该实例的方法流程图。图3是SSH进程日志信息示意图，图4是进行数据清洗后的日志信息示意图，图5是聚类结果示意图，图6是模板抽取后得到的描述日志格式的正则表达式示意图。下面具体说明各个步骤。

1)首先对输入的包含多种格式的日志进行数据清洗，利用正则表达式，匹配正则表达式：＾(？:(((Jan(uary)？|Ma(r(ch)？|y)|Jul(y)？|Aug(ust)？|Oct(ober)？|Dec(ember)？)\31)|((Jan(uary)？|Ma(r(ch)？|y)|Apr(il)？|Ju((ly？)|(ne？))|Aug(ust)？|Oct(ober)？|(Sept|Nov|Dec)(ember)？)\(0？[1-9]|([12]\d)|30))|(Fe b(ruary)？\(0？[1-9]|1\d|2[0-8]|(29(？＝,\((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00)))))))\(([0-1]？[0-9])|([2][0-3])):([0-5]？[0-9])(:([0-5]？[0-9]))？表示日期，例如：Mar 1209:08:31，和\d+\.\d+\.\d+\.\d+表示IP地址，如：192.168.120.11，

对于匹配成功的字段进行过滤，剩下部分输出到步骤2)。

2)假设输入的数据为M条日志记录，包含W个不同的单词，定义每个单词表示日志格式的一个特征，把输入的数据转换为M个W维的向量，表示空间的M个点；

利用DBSCAN算法对M个点进行信息聚类，设定DBSCAN算法中的参数半径Ε＝2.5，minPts＝10，得到10个聚类，20个噪音数据，10个聚类输出到步骤4)，噪音数据去掉；DBSCAN算法的伪代码如下：

3)对输入的每一个聚类中的日志，进行LDA模板词提取，本方法采用LDA模型的Gibbs Sampling算法，算法公式为：

其中，z_i表示要提取的模板词，w为日志中的单词，W为单词的个数，K为模板词的个数，α、β为LDA算法中需要设定的两个参数，k为模板词z_i对应的主题，m为每一条日志数据，为主题k对应的单词数量，为一条日志数据中包含的主题个数。

设定LDA算法中的参数α＝0.1，β＝0.01，使得算法的perplexity值(复杂度)最小，迭代次数为1500，使得算法达到收敛；

复杂度越小，算法越收敛，计算复杂度perplexity的公式：

其中，D_test为测试的日志数据集，M为日志数据的条数，m为每一条日志数据，p为该单词在所有主题分布值和该单词所在文本的主题分布的乘积，w_m为一个单词，N_m为一条日志数据中包含的单词数量。

对于LDA算法得到的每一个主题中，选取分布最大的词作为模板词，用来描述日志的格式；将原始日志中不属于模板词的单词替换为**，得到描述日志格式的正则表达式。

本发明的作用在于不依赖于任何先验知识，自动抽取出描述未知网络安全日志格式的模板。为了验证本发明的技术效果，利用已知格式模板的SSH进程日志作为实验数据，验证该方法的有效性。

在真实运行使用的网络环境中采集SSH进程日志1746条，经过人工分析，其中包含了13种格式，20个模板词。采用本发明中的方法和装置对日志进行模板提取，利用DBSCAN算法对1746条日志进行信息聚类，设定DBSCAN算法中的参数半径Ε＝2.5，minPts＝10，得到10个聚类，20个噪音数据。对每一个聚类中的日志，进行LDA模板词提取，设定不同的主题数量，计算召回率recall＝N_re/N_r，其中N_re表示实验中得到的模板词个数，N_r表示实际的模板词个数，即20。召回率如图7所示，可以看到当取到合适的主题个数时，召回率可以达到1，即可以得到日志中所有的模板词。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种网络安全日志模板抽取方法，其特征在于，包括如下步骤：

1)对原始的包含不同格式的海量多源异构网络安全日志进行数据清洗，得到过滤掉时间和IP地址的日志信息；

2)采用DBSCAN算法或者OPTICS算法对不包含时间和IP地址的日志信息进行聚类，把具有相似格式的日志划分到同一类中；在聚类时，选取日志中的单词组成日志特征向量，把每一条日志转化为多维空间里的一个点，进行聚类；或者利用N-Gram模型，把日志划分为由多个长度为N的字段组成的序列，选取长度为N的字段组成日志特征向量，把每一条日志转化为多维空间里的一个点，进行聚类；

3)对于每一类中的日志，利用LDA Gibbs sampling算法，将每个主题中分布最大的单词作为模板词，用来描述日志的格式，提取出日志中描述格式的模板词，得到日志格式的模板。

2.如权利要求1所述的方法，其特征在于：步骤1)在数据清洗时，根据时间和IP地址具有的特定的格式，采用正则表达式匹配去掉对应的字段。

3.如权利要求1所述的方法，其特征在于：步骤3)在得到模板词后，把原始日志中不属于模板词的单词用**代替，得到描述日志格式的正则表达式。

4.一种网络安全日志模板抽取装置，其特征在于，包括：

数据清洗单元，用于对原始的包含不同格式的海量多源异构网络安全日志进行数据清洗，过滤其中的时间和IP地址；

信息聚类单元，用于对不包含时间和IP地址的日志信息进行聚类，把具有相似格式的日志划分到同一类中；所述信息聚类单元采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类；在聚类时，选取日志中的单词组成日志特征向量，把每一条日志转化为多维空间里的一个点，进行聚类；或者利用N-Gram模型，把日志划分为由多个长度为N的字段组成的序列，选取长度为N的字段组成日志特征向量，把每一条日志转化为多维空间里的一个点，进行聚类；

模板提取单元，用于利用LDA Gibbs sampling算法，将每个主题中分布最大的单词作为模板词，用来描述日志的格式，提取每一类的日志中描述格式的模板词，得到日志格式的模板。

5.如权利要求4所述的装置，其特征在于：所述模板提取单元在得到模板词后，把原始日志中不属于模板词的单词用**代替，得到描述日志格式的正则表达式。