CN111177360B

CN111177360B - 一种基于云上用户日志的自适应过滤方法及装置

Info

Publication number: CN111177360B
Application number: CN201911291391.6A
Authority: CN
Inventors: 文占婷; 刘恕涛; 王红伟; 薛彬彬; 岳桂华
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2022-04-22
Anticipated expiration: 2039-12-16
Also published as: CN111177360A

Abstract

本发明涉及云计算技术领域，公开了一种基于云上用户日志的自适应过滤方法及装置。从多个主流的云操作平台上收集用户行为日志，并存储下来作为日志数据源；将不同云操作平台上的日志转换成统一格式，将日志按照种类解析分割，进行日志归类；在过滤之前将日志条目聚类，用EM算法给出最优聚类簇的数量K，将得到的K带入K‑means算法，对日志进行聚类；根据聚类结果将噪音日志丢弃，将丢弃后留下的有效数据按照原始产生顺序聚集在一起，并去除重复日志条目。上述方案在解析日志格式的基础上过滤掉无用的用户日志，过滤的核心是将比较大的聚簇过滤掉，将不断改变聚簇的日志保留。同时此方案中运用了大数据的聚类算法来提高日志过滤的高效性。

Description

一种基于云上用户日志的自适应过滤方法及装置

技术领域

本发明涉及云计算技术领域，特别是一种基于云上用户日志的自适应过滤方法及装置。

背景技术

云计算的飞速发展，大量有关云的应用也开始应运而生，成为目前IT行业的大趋势，同时由于云计算技术的广泛运用，多种云平台应运而生，云上的用户日益增多，随之产生的用户日志也成井喷式增长，对于海量用户日志的存储以及通过用户日志的分析来达到审计用户的行为，成为丞待解决的问题。此外，多种云平台的日志衍生出日志格式的多样性，这些日志中也有很多的无价值的日志(延时日志、残缺日志和无意义循环日志)。日志数据的可用性取决于每个日志的解析方式和规范方式。而不同格式的日志成增加了日志解析的复杂性。基于云环境，日志多源性和海量性成为日志存储和日志分析的瓶颈。

聚类算法被广泛的用于日志过滤算法中，聚类算法的目的是根据对象之间的相似性并对对象进行分类。同时聚类算法是非监督的，他们可以自学来找到输入日志的模式，而不要求输入标签数据；因此提高了由于人工直接打标签的准确率。且聚类算法在使用前并不需要***管理者提供针对日志是否有效的一个范围描述。

为了简化云上的日志过滤，大多数方案采用的单一聚类算法或者两个或者多个聚类算法的简单叠加；另外大多数其他的日志过滤方案采用从单个数据源收集的日志形成数据集，且这些日志信息已经被标记过正常和异常。

基于聚类算法可以实现多种用户行为日志过滤方法，但已有方法存在以下问题：

1)缺少对云上用户行为日志的过滤算法。

2)缺少对多种不同格式的云上用户日志的过滤算法，数据集的使用在这种情况下是低效的。

3)缺少多级多重聚类算法组合用于用户行为日志的过滤算法。

综上，云环境下的用户行为日志过滤需要一个全新的过滤装置，能够对接多个主流云平台的用户行为日志，且运用多重聚类算法以提高日志过滤的准确性。本文主要研究如何从多种主流云操作***的日志格式中过滤掉大量无用的用户行为日志以便于后续用于用户行为分析。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供了一种基于云上用户日志的自适应过滤方法及装置。

本发明采用的技术方案如下：一种基于云上用户日志的自适应过滤方法，包括：

步骤S1，从多个主流的云操作平台上收集用户行为日志，并存储下来作为日志数据源；

步骤S2，将不同云操作平台上的日志转换成统一格式，将日志按照种类解析分割，进行日志归类；

步骤S3，在过滤之前将日志条目聚类，用EM算法(Expectation-Maximizationalgorithm,最大期望算法)给出最优聚类簇的数量K，将得到的K带入K-means算法(K均值聚类算法)，对日志进行聚类；

步骤S4，根据聚类结果将噪音日志丢弃，将丢弃后留下的有效数据按照原始产生顺序聚集在一起，并去除重复日志条目。

进一步的，所述步骤S2中，将日志转换成统一格式：[日期],[模块],[级别],[内容]([DATE],[MODULE],[INFO],[CONTENT])。

进一步的，所述步骤S2中，将日志按照种类解析分割的过程为：从统一格式的日志[内容]中提取日志属性的属性值，同时根据属性类型和属性数量将日志划分为不同类型(具有不同属性类型的日志划分为不同的类型，以及虽然类型相似但属性数量不同的日志划分为不同的类型)，不同类型的日志存储在不同的文件中，并对不同类型的日志分别进行步骤S3的处理。

进一步的，所述步骤S3包括以下过程：

步骤S31，采用EM算法的聚类算法得到在设定聚类数目之内的最优聚类簇的数量K；

步骤S32，使用K-means算法将初步处理得到的权重weight按照步骤S31中得到的最优聚类簇的数量K进行聚类，得到的聚类结果标志着每一行记录属于一个聚类簇cluster；

步骤S33，重复步骤S32两次；

步骤S34，将三次K-means算法聚类中只要改变过聚类簇cluster属性的日志记录过滤进入变化聚类簇Switch_cluster中。

步骤S35，根据三次K-means算法聚类结果，计算聚类结果中最小的inertia(聚类度量指标)值，得到误差最小的聚类结果，将Cluster数目小于日志记录总数目一定比例阈值(thresholds)的日志过滤进入小聚类集Small_Cluster中。

进一步的，所述步骤S4包括：

步骤S41，将变化聚类簇Switch_cluster直接放入结果Aggregating_cluster_pre中；

步骤S42，将小聚类簇Small_cluster直接放入结果Aggregating_cluster_pre中；

步骤S43，获取包含日志数小于等于日志总数的10％的聚簇；

步骤S44，如果步骤S42中得到的Small_cluster中日志数为0，步骤S43，得到的日志数也为0，则将日志数小于等于日志总数除以最优聚类簇的数量K均值的聚簇称为Target_cluster，将Target_cluste也直接放入结果Aggregating_cluster_pre中，否则直接跳到步骤S45；

步骤S45，将Aggregating_cluster_pre中的日志去掉重复项并按照时间排序，结果命名为Aggregating_cluster，是此装置的最终结果。

本发明还公开了一种基于云上用户日志的自适应过滤装置，其中过滤的核心是将比较大的聚簇过滤掉，将不断改变聚簇的日志保留，主要由下面几个装置组成：

多源日志采集，用于从多个主流的云操作平台上收集用户行为日志，并存储作为日志数据源；

日志解析模块，用于将不同云操作平台上的日志转换成统一格式，将日志按照种类解析分割，进行日志归类；

日志聚类模块，用于在过滤之前将日志条目聚类，用EM算法给出最优聚类簇的数量K，将得到的K带入K-means算法，对日志进行聚类；

过滤和聚合模块，根据聚类结果将噪音日志丢弃，将丢弃后留下的有效数据按照原始产生顺序聚集在一起，并去除重复日志条目。

与现有技术相比，采用上述技术方案的有益效果为：

1)本发明的技术方案引入聚类算法，对云环境中大量用户日志进行聚类，并根据云上用户日志的特点，实现对其用户行为日志过滤。

2)本发明的技术方案关注了日志数据的多源性，源数据包括多个主流云操作平台，并通过将日志格式提取成一种通用的格式，实现了对接多种主流云平台的用户习惯为日志。

3)本发明技术方案的日志过滤方案可以通过多级多重日志聚类来有效的降低日志聚集的假阳性(FP)和假阴性(FN)，可以有效地减少一些可能为操作噪声的日志。

4)本发明技术方案的日志过滤方案鼓励了对于基于本方案的在不同的数据集上测试多种聚类算法。

附图说明

图1是本发明基于云上用户日志的自适应过滤方案的原理示意图。

图2是本发明实施例中日志解析原理示意图。

图3是本发明实施例中日志聚类原理示意图。

图4是本发明实施例中日志过滤和聚合原理示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提出的自适应过滤方法需要在日志过滤之前进行日志的聚类，如图1所示，一种基于云上用户日志的自适应过滤方法，包括：

步骤S1，多源日志采集：从多个主流的云操作平台上收集用户行为日志，并存储下来作为日志数据源；

步骤S2，日志解析：将不同云操作平台上的日志转换成统一格式，将日志按照种类解析分割，进行日志归类；例如将日志归类到Linux Syslog、Firewall log等日志大类别中去；同时由于有一些日志大类中还可以继续细化，那么将日志归类到细化后的类别中去(例如IP tables***日志根据不同协议都会有不同属性的日志)；

步骤S3，日志聚类：在过滤之前将日志条目聚类，用EM算法(Expectation-Maximization algorithm,最大期望算法)给出最优聚类簇的数量K，将得到的K带入K-means算法(K均值聚类算法)，对日志进行聚类；

步骤S4，过滤和聚合：根据聚类结果将噪音日志丢弃，将丢弃后留下的有效数据按照原始产生顺序聚集在一起，并去除重复日志条目。

上述方案在解析日志格式的基础上过滤掉无用的用户日志，过滤的核心是将比较大的聚簇过滤掉，将不断改变聚簇的日志保留。同时考虑到云上用户日志的大规模性，此方案中运用了大数据的聚类算法来提高日志过滤的高效性。

实施例1：日志解析过程

如图2所示：

[1]多源云格式提取：

因为不同云的(不同层)日志可能会有不同的时间格式，因此在解析时需要转换成单一通用格式。另外由于大多数日志属性不同，直接解析拥有不同标点和属性的日志是非常困难的。因此需要将日志转换成统一格式：[DATE],[MODULE],[INFO],[CONTENT]，即[日期],[模块],[级别],[内容]，其中INFO在日志领域中指级别的含义，可以是消息、报警、错误等级别。

[2]日志解析：

日志解析就是需要从日志中提取信息，即从一条包含N个符号分隔符的文本日志中提取出N个有效值。主要包括日志转换和日志提取。此外需要注意各属性值之间以“，”分隔。用“，”分隔主要是为了便于后续作为数据挖掘工具(WEKA)的输入，因为根据日志标点符号分割提取出的属性的方法可以简化和优化数据挖掘工具(WEKA)的工作流程。

[3]隔离日志：

每一条日志条目所含的属性数以及相应的属性值是不同的，因此每一条日志条目需要单独处理，这里需要用到日志解析模块，主要是每一类日志单独分开并存储在不用的文件中，这里需要注意同一个事件产生的日志条目可能会被分在不同的文件中；同时虽然有些日志记录包含的属性相似，但由于属性数量不同，这些日志也需要被隔离。例如根据通信协议(TCP，UDP和ICMP)隔离日志，并将他们存到三个单独的文件中，以便于后续用户数据挖掘(WEKA)工具中。由于数据挖掘工具WEKA工具对于内存的限制，如果解析后的日志所包含的条目太多，需要将其分成更小的文件。

实施例2：日志聚类

由于日志数据都是未标记的，因此需要使用无人监督的聚类方法。聚类结果除了那些属性值，一般包含一些附加属性值，例如实例数和聚类数。大的聚集可能包含合法操作***日志中的操作噪音，小的聚集会进一步的进行过滤，因此大的聚集会被过滤掉，通过过滤掉不需要的日志条目来找到通用属性。

非监督算法的效率高于监督算法，由于聚类算法是非监督的，本文提到的日志过滤方案使用的是最简单流行的分类算法K-means，该算法要求提前给出聚簇数量K，即可将日志条目自动的分成K个聚簇。因此根据操作日志的实际情况给出合适的K值是日志聚类算法的关键，本文中的算法使用EM算法来模拟给出聚簇K值，由于EM算法可以自动的将日志按照预先定义的聚簇数量进行分类，通过多次比较给出最合理的聚簇数K_best。在EM算法之后使用K-means算法的原因是可以在用较少的时间处理大量日志的聚集问题。

聚类的具体描述算法如下：

将日志解析模块的输出作为日志聚类的输入，本实施例中涉及到的聚类算法默认用的是WEKA工具自带的K-means和EM，其中数据迭代值置为10。如图3所示：

步骤S31，采用EM算法的聚类算法得到在设定聚类数目之内的最优聚类簇的数量K(Kbest)；

步骤S33，重复步骤S32两次；

步骤S35，根据三次K-means算法聚类结果，计算聚类结果中最小的inertia(聚类度量指标)值，得到误差最小的聚类结果(inertia值数值越小，说明聚簇结果越好，误差最小)，将Cluster数目小于日志记录总数目一定比例阈值(thresholds)的日志过滤进入小聚类集Small_Cluster中。

实施例2中，在进行三轮K-means聚集后，整个日志聚类结果的假阳性(FP)和假阴性(FN)会变得较稳定。在这里有个值得注意的结果，即假设某些日志条目在第一轮聚类时属于聚簇A，在第二轮聚类时属于聚簇B。这种改变聚簇的日志条目产生的原因是由于在进行第一次聚类时，每一个日志条目都会增加一个标识其属于哪个聚簇的属性，这个属性帮助聚类算法更好的判断每一个日志条目的所属聚类。此外上述聚类结果显式这些改变聚簇的日志区别于小聚簇的聚类结果，并且可能为异常的用户行为产生日志。通过多次进行K-means算法，可以通过有效的降低日志聚集的假阳性(FP)和假阴性(FN)、提高结果的真阳性(TP)和真阴性(TN)来提高日志过滤的整体准确性。

实施例3,：日志的过滤和聚合

如图4所示，具体算法如下：

步骤S43，获取包含日志数小于等于日志总数的10％的聚簇；

步骤S44，如果步骤S42中得到的小聚类簇Small_cluster中日志数为0，步骤S43得到的日志数也为0，则将日志数小于等于日志总数除以最优聚类簇的数量K均值的聚簇称为Target_cluster，将Target_cluste也直接放入结果Aggregating_cluster_pre中，否则直接跳到步骤S45；

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

Claims

1.一种基于云上用户日志的自适应过滤方法，其特征在于，包括：

步骤S1，从多个主流的云操作平台上收集用户行为日志，并存储作为日志数据源；

步骤S3，在过滤之前将日志条目聚类，用EM算法给出最优聚类簇的数量K，将得到的最优聚类簇的数量K带入K-means算法，对日志进行聚类；

所述步骤S3包括以下过程：

步骤S32，使用K-means算法将初步处理得到的权重按照步骤S31中得到的最优聚类簇的数量K进行聚类，得到的聚类结果标志着每一行记录属于一个聚类簇cluster；

步骤S33，重复步骤S32两次；

步骤S34，将三次K-means算法聚类中只要改变过聚类簇cluster属性的日志记录过滤进入变化聚类簇Switch_cluster中；

步骤S35，根据三次K-means算法聚类结果，计算聚类结果中最小的聚类度量指标值，得到误差最小的聚类结果，将Cluster数目小于日志记录总数目一定比例阈值的日志过滤进入小聚类集Small_Cluster中；

2.如权利要求1所述的基于云上用户日志的自适应过滤方法，其特征在于，包括：所述步骤S2中，将日志转换成统一格式：[日期],[模块],[级别],[内容]。

3.如权利要求2所述的基于云上用户日志的自适应过滤方法，其特征在于，所述步骤S2中，将日志按照种类解析分割的过程为：从统一格式的日志[内容]中提取日志属性的属性值，同时根据属性类型和属性数量将日志划分为不同类型，不同类型的日志存储在不同的文件中，针对不同类型的日志分别进行步骤S3的处理。

4.如权利要求1所述的基于云上用户日志的自适应过滤方法，其特征在于，所述步骤S4包括：

步骤S43，获取包含日志数小于等于日志总数的10％的聚簇；

步骤S44，如果步骤S42中得到的小聚类簇Small_cluster中日志数为0，步骤S43得到的日志数也为0，则将日志数小于等于日志总数除以最优聚类簇的数量K均值的聚簇称为Target_cluster，将Target_cluster也直接放入结果Aggregating_cluster_pre中，否则直接跳到步骤S45；

步骤S45，将Aggregating_cluster_pre中的日志去掉重复项并按照时间排序。

5.采用权利要求1所述的一种基于云上用户日志的自适应过滤方法的装置，其特征在于，包括：