CN110347827A

CN110347827A - 面向异构文本运维数据的事件提取方法

Info

Publication number: CN110347827A
Application number: CN201910561157.4A
Authority: CN
Inventors: 徐建; 唐晓春; 傅媛媛; 蔡志成
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-18
Anticipated expiration: 2039-06-26
Also published as: CN110347827B

Abstract

本发明提供了一种面向异构文本运维数据的事件提取方法，包括以下步骤：步骤1，定义泛化类型正则表达式；步骤2，基于正则表达式的类型检测；步骤3，基于多维度相似性的文本运维数据聚类；步骤4，事件类型生成和文本运维数据类型标注。本发明所提供的事件提取方法的目的在于以复杂IT***运行时产生的日志文件、工作票等文本类运维数据为研究对象，提供一种面向异构文本运维数据的事件提取方法，具备处理异构文本运维数据的适应性和较高的准确性。

Description

面向异构文本运维数据的事件提取方法

技术领域

本发明涉及一种事件挖掘技术，特别是一种面向异构文本运维数据的事件提取方法。

背景技术

事件挖掘对于***故障预测是至关重要的，然而，一个可接受的日志标准并不存在，因此，如何快速解析来自异构***的日志数据，以及其它运维数据，如工作票等，是一个极具挑战的问题。

目前已知的日志模式发现方法主要分为两大类：1)基于正则表达式的匹配方法；2)基于聚类的模式识别方法。许多公司开发了用于日志分析的工具，如：Splunk、loggly和LogEntries等，还有一些开源软件包，如：ElasticSearch、Graylog和OSSIM等，这些工具和软件包大多使用正则表达式来匹配日志数据。利用正则表达式来解析日志数据通常能完全挖掘日志的模式，但是，需要很多先验知识和人工干预，不具备从历史日志数据中学习知识的能力，不适用于大量的异构日志。并且，不同的正则表达式只能针对特定的***，不够灵活，无法扩展。此外，正则表达式的编写过程复杂、容易产生冲突的特点也给日志分析工作带来了很大的困难，尤其，过度泛化的正则表达式规则降低了处理日志数据的效率。所以，一般只采用正则表达式对日志进行简单的预处理，标记一些常用的类型，然后，使用其他聚类或模式识别算法作进一步分析和挖掘，这样，在增加少量先验知识的前提下，就可显著地提高日志解析的精度和效率。钟雅等人(钟雅,郭渊博.基于机器学习的日志解析***设计与实现[J].计算机应用,2018,38(02):352-356.)设计了一种基于机器学习的日志解析***，该***就是先利用正则表达式预处理日志数据，再采用改进的LogSig算法(Tang L,LiT,Perng C S.LogSig:Generating system events from raw textual logs[C].ACMConference on Information and Knowledge Management.2011:785-794.)提取日志事件。LogSig算法是一种基于“签名”的日志解析方法，它将一种事件类型中最具代表性的短语结构叫做“签名”。该算法把所有的日志数据聚成k个簇，在每个簇中找出一个日志签名，使得簇内的所有日志尽可能与这个签名匹配。由于日志文本通常较短，一旦出现签名，就能准确分类。Zhuge等(Zhuge C,Vaarandi R.Efficient Event Log Mining withLogClusterC[C]//Big Data Security on Cloud(BigDataSecurity),IEEEInternational Conference on High Performance and Smart Computing(HPSC),andIEEE International Conference on Intelligent Data and Security(IDS),2017 IEEE3rd International Conference on.IEEE,2017:261-266.)开发了一种名为LogClusterC的开源工具，该工具实现了能够从日志事件中发现模式和异常值的LogCluster算法。LogCluster本质上是基于频繁单词的聚类算法，即具有相同频繁单词的日志会被聚集在一起。它利用了日志中单词的高度倾斜分布的特点进行聚类，该特点也被很多日志挖掘聚类算法应用。Makanju等在日志数据分析方面开展了一系列工作。文献(Makanju A,Zincir-Heywood A N,Milios E E,et al.Spatio-temporal decomposition,clustering andidentification for alert detection in system logs[C]//Proceedings of the 27thAnnual ACM Symposium on Applied Computing.ACM,2012:621-628.)提出了一种用于日志的迭代聚类算法——IPLoM，该算法包括以下4个步骤：1)将相同长度的日志聚集在一起；2)每个聚类由最佳信息增益的单词进行划分；3)取当前最佳信息增益的单词进一步划分；4)基于多数表决生成最终的聚类结果。实验表明了IPLoM优于其他日志聚类算法，但是IPLoM易生成小的、没有统计意义的聚类碎片，聚类质量难以控制。由于最终的聚类结果与第一步的聚类效果有关，如果第一步聚类效果差，则最终的聚类效果很难令人满意。但是，IPLoM算法假设相同长度的日志具有相同格式，这个问题导致该算法不适合在大量异构日志数据中使用。Wurzenberger等(Wurzenberger M,Skopik F,Landauer M,etal.Incremental clustering for semi-supervised anomaly detection applied onlog data[C]//Proceedings of the 12th International Conference onAvailability,Reliability and Security.ACM,2017:31-36.)提出了一种半监督的增量聚类算法，将快速增长的日志数据在线聚类，避免每次出现新的日志时需要重新计算。Liu等(Liu J,Li K,Li Y,et al.Attack Pattern Mining Algorithm Based on FuzzyClustering and Sequence Pattern from Security Log[C]//InternationalConference on Intelligent Information Hiding and Multimedia SignalProcessing.Springer,Cham,2018:44-52.)研究了基于改进模糊聚类和序列模式挖掘的攻击模式挖掘算法。该方法结合了模糊聚类的优点来挖掘安全日志之间的相似性和序列模式的优势，从而发现攻击步骤中的逻辑关系，实验结果表明，该算法能够有效地挖掘攻击模式。C.Xu等(Xu C,Chen S,Cheng J.Network user interest pattern mining based onentropy clustering algorithm[C]//Cyber-Enabled Distributed Computing andKnowledge Discovery(CyberC),2015 International Conference on.IEEE,2015:200-204)提出了一种无自定义参数的聚类web日志的算法，该算法的时间复杂度为O(n3)，其中n是日志的数量，复杂度较高，不能扩展到大数据集。Xia Ning等(X.Ning and G.Jiang,“HLAer:A system for heterogeneous log analysis,”in Proceedings of the SDMWorkshop on Heterogeneous Learning,2014)研究了一种无监督的HLAer框架，该框架用于自动解析异源日志数据，对异构日志具有健壮性，但在运行时需要大量的内存开销，所以也不可扩展。以上的算法或工具的共同问题在于：无法扩展到异构运维数据集。

发明内容

本发明的目的在于提供一种面向异构文本运维数据的事件提取方法。

实现本发明目的的技术方案为：一种面向异构文本运维数据的事件提取方法，包括以下步骤：

步骤1，定义泛化类型正则表达式：用日期、时间、IP地址、赋值表达式预先定义一组正则表达式以描述文本运维数据中出现的日期、时间、IP地址、赋值表达式，并为每个正则表达式关联一个泛化表示类型；

步骤2，基于正则表达式的类型检测：对给定的文本运维数据，采用预先定义的正则表达式对文本运维数据进行预处理，然后对每个子串进行类型检测，识别日期、时间、IP地址、赋值表达式，并将具体的变量值替换为其泛化表示类型；

步骤3，基于多维度相似性的文本运维数据聚类：综合文本运维数据的语法、结构、语义三个因素，定义文本运维数据相似性度量，采用one-pass一趟思想应用基于密度的聚类算法完成文本运维数据划分，形成文本运维数据簇；

步骤4，事件类型生成和文本运维数据类型标注：采用簇内运维数据逐条合并方式产生簇表示的事件类型，并将簇内的每条文本运维数据关联该簇对应的事件类型。

进一步地，步骤1的具体步骤如下：

步骤1.1，为日期、时间、IP地址、赋值表达式定义一个泛化类型集合T＝{DATE,TIME,IP,Exp＝,Exp:,Exp[]}，其中DATE表示日期信息，TIME表示时间信息，IP表示因特网地址信息，Exp＝表示使用符号“＝”的赋值表达式，Exp：表示使用符号“：”的赋值表达式，以及Exp[]表示使用符号“[]”的赋值表达式；

步骤1.2，为每一个泛化类型t∈T关联一组正则表达式用于描述文本运维数据中可能出现的不同表示形式。

进一步地，步骤2的具体步骤如下：

步骤2.1，对任意每条运维数据d使用空格或符号等标记符分割成一个个词构成的字符串，其中d∈D，D为运维数据的集合；

步骤2.2，将定义的正则表达式集E应用到运维数据的每个子串s中，若存在一个子串s是一个预定义的任意正则表达式e的实例，则子串s类型泛化成功，执行步骤2.2.1；否则执行步骤2.2.2；其中s∈d，e∈E；

步骤2.2.1，将该子串s替换为正则表达式e对应的泛化表示类型t；

步骤2.2.2，运维数据d是由新的运维数据模板产生的，更新正则表达式库及其泛化表示类型集合；

步骤2.3，D＝D-{d}，若|D|≠0，表明类型检测尚未完成，则跳转到步

进一步地，步骤3的具体步骤如下：

步骤3.1，对于任意的两条文本运维数据d₁,d₂∈D，有d₁＝p₁p₂...p_n，d₂＝q₁q₂...q_m，其中，p₁p₂...p_n，q₁q₂...q_m分别是d₁和d₂的项，且n≤m；

步骤3.2定义语法相似性度量sim₁(d₁,d₂)

其中，t(p_i)、t(q_i)分别表示运维数据d₁、d₂的第i项或第i个词的正则表达式类型；

步骤3.3，定义结构相似性度量sim₂(d₁,d₂)

sim₂(d₁,d₂)＝2|lcs(d₁,d₂)|-|d₂|

其中函数lcs()获得字符串d₁和d₂的最长公共子串；

步骤3.4定义语义相似性度量sim₃(d₁,d₂)

其中，函数if(w)表示词w的词频，sim_w(w,d₂)表示词q与句子d₂中词的最大词相似性，

sim_w(w,d₁)＝max{sim_w(w,p_i)|_i＝1,...,n}

sim_w(w,d₂)＝max{sim_w(w,q_j)|_j＝1,...,m}；

步骤3.5，综合语法、结构和语义相似性度量，产生综合相似性度量sim(d₁,d₂)

其中，w_i表示不同相似性度量的权重，

步骤3.6，给定运维数据D，应用基于one-pass思想的聚类算法完成文本运维数据划分，形成文本运维数据簇.

进一步地，步骤3.6的具体过程为：

步骤3.6.1，定义参数d_max表示运维数据与簇中心之间的最大距离，则同一簇中任意两条运维之间的最大距离为2×d_max，设定簇数目为k，初始化k＝0，簇集合记为C＝{c₁,c₂,...c_k}，其中c_k表示簇中心；

步骤3.6.2，逐条处理D中的运维数据d：

步骤3.6.2.1，若k＝＝0，则k+＝1，将d分配给簇c₁，并且将d作为簇c₁的中心；

步骤3.6.2.2，计算d与每个簇中心的相似性度量值{sim(d,c_i)|_i＝1,...,k}，若存在簇c_i满足min(sim(d,c_i)≤dmax)，则将d分配给簇c_i，否则创建新簇c_k+1，将d分配给簇c_k+1，并且将d作为簇c_k+1的中心，k+＝1；

步骤3.6.3，D＝D-{d}，若|D|≠0，表明聚类过程尚未完成，则跳转到步骤3.6.2；

步骤3.6.4，形成聚类后的簇C。

进一步地，步骤4的的具体步骤如下：

步骤4.1，为任意的簇c_i产生事件类型，其中c_i∈C，c_i＝{d₁,d₂,...,d_g}，g＝|c_i|：

步骤4.2，对于簇c_i中任意的两条运维数据d_x,d_y∈c_i，1≤x,y≤g，设d'_i＝null；

步骤4.3，将运维数据d_x、d_y对齐，得到长度相等的运维数据对d'_x、d'_y；

步骤4.4，合并d'_x、d'_y得到d'_i

d'_i＝strcat(d'_i,f(d'_x(i),d'_y(i))|i＝1,...,l)

其中，l＝|d'_x|，函数strcat()是字符串连接函数，

Type(*)表示*的泛化类型；

步骤4.5，c_i＝c_i-{d_x,d_y}，c_i＝c_i∪{d'_i}，若|c_i|＞1，则跳转到步骤4.2；

步骤4.6，获得d'_i，即为簇c_i的事件类型；

步骤4.7，对于任意的簇c_i，c_i＝{d₁,d₂,...,d_g}，g＝|c_i|，簇中的每条运维数据其事件类型标注为d'_i。

本发明与现有技术相比，其优点在于：(1)本发明以复杂IT***运行时产生的日志文件、工作票等文本类运维数据为研究对象，提供一种面向异构文本运维数据的事件提取方法，为每条文本运维数据标注特定的事件类型；(2)采用正则表达式实现类型检测的方式，能提升处理异构文本运维数据的适应性；(3)设计多维度的相似性度量，能提升事件提取的准确性，特别地，语义相似性度量能增加异构场景下度量准确性；(4)应用one-pass聚类思想，能提升事件提取效率，适合于实时处理场景。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明一种面向异构文本运维数据的事件提取方法的流程图。

图2是异构文本运维数据示意图。

具体实施方式

本发明中，一个正则表达式集由多个正则表达式构成。将每一个正则表达式应用到运维数据的子串s，用于判断s是否满足正则表达式。子串是字符串中的一个基本概念，表示一个给定字符串中保持词或字母顺序的一部分，例如：字符串abdfgd，则adf、ag等就是子串，gd不是子串。

本发明中，实例是指满足正则表达式的具体字符串，例如，表示年份的正则表达式定义为“d{4}”，则“2018”等就是实例。

结合图1，一种面向异构文本运维数据的事件提取方法，包括以下步骤：

步骤1，定义泛化类型正则表达式，过程如下：

步骤1.1，从日期、时间、IP地址、赋值表达式等维度定义一个泛化类型集合T＝{DATE，TIME,IP,Exp＝,Exp:,Exp[]}，其中Date表示日期信息，Time表示时间信息，IP表示因特网地址信息，Exp＝表示使用符号“＝”的赋值表达式，Exp：表示使用符号“：”的赋值表达式，以及Exp[]表示使用符号“[]”的赋值表达式；

步骤1.2，为每一个泛化类型t∈T,关联一组正则表达式用于描述文本运维数据中可能出现的不同表示形式，如类型Date的实例，可以表示为“2019-05-28”，也可以表示为“05-28-2019”，还可以表示为“2019.5.28”等；相应的正则表达式定义为，所有正则表达式的集合

E＝{((Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)\s+\d{1,2}\,？\s+\d{4})|\d{4}\-[0-1]\d\-[0-3]\d}；

步骤2，结合图2，基于正则表达式的类型检测，过程如下：

步骤2.1，对任意每条运维数据d，d∈D进行预处理，使用空格或符号标记每条数据；

步骤2.2，将步骤1定义好的正则表达式集E应用到运维数据的每个子串s∈d，若存在一个子串s是一个预定义的任意正则表达式e的实例，e∈E，表示子串s类型泛化成功，执行步骤2.2.1，否则执行步骤2.2.2；

步骤2.2.1，将该子串s替换为正则表达式e对应的泛化表示类型t；例如用DATE替换‘Feb 26,2016’，用TIME替换‘4:05:26 PM’；

步骤2.2.2，运维数据d是由新的运维数据模板产生的，依赖领域专家更新正则表达式库及其泛化表示类型集合；

步骤2.3，D＝D-{d}，若|D|≠0，表明类型检测尚未完成，则跳转到步骤2.1；

步骤3，基于多维度相似性的文本运维数据聚类，过程如下：

步骤3.1，计算任意两条文本运维数据的相似度。对于任意的两条文本运维数据d₁,d₂∈D,表示为d₁＝p₁p₂...p_n,d₂＝q₁q₂...q_m，其中p₁p₂...p_n，q₁q₂...q_m分别是d₁和d₂的项，不失一般性n≤m。

步骤3.1.1，定义语法相似性度量其中α是用户自定义的参数，0≤α≤1，t(p_i)、t(q_i)分别表示运维数据d₁、d₂的第i项或第i个词的正则表达式类型。

步骤3.1.2，定义结构相似性度量sim₂(d₁,d₂)＝2|lcs(d₁,d₂)|-|d₂|，其中函数lcs()获得字符串d₁和d₂的最长公共子串；

步骤3.1.3，定义语义相似性度量sim₃(d₁,d₂)

其中函数if(w)表示词w的词频，sim_w(w,d₂)表示词q与句子d₂中词的最大词相似性，

sim_w(w,d₁)＝max{sim_w(w,p_i)|_i＝1,...,n}

sim_w(w,d₂)＝max{sim_w(w,q_j)|_j＝1,...,m}；

步骤3.1.4，综合语法、结构和语义相似性度量，产生综合相似性度量其中w_i表示不同相似性度量的权重，

步骤3.2，给定运维数据D，应用基于one-pass思想的聚类算法完成文本运维数据划分，形成文本运维数据簇；

步骤3.2.1，参数初始化。定义参数d_max表示运维数据与簇中心之间的最大距离，则同一簇中任意两条运维之间的最大距离为2×d_max；设定簇数目为k，k＝0，簇集合记为C＝{c₁,c₂,...c_k}，其中c_k表示簇中心；

步骤3.2.2，逐条处理D中的运维数据d，

步骤3.2.2.1，若k＝＝0，则k+＝1，将d分配给簇c₁，并且将d作为簇c₁的中心；

步骤3.2.2.2，计算d与每个簇中心的相似性度量值{sim(d,c_i)|_i＝1,...,k}，若存在簇c_i满足min(sim(d,c_i)≤dmax)，则将d分配给簇c_i，否则创建新簇c_k+1，将d分配给簇c_k+1，并且将d作为簇c_k+1的中心，k+＝1；

步骤3.2.3，D＝D-{d}，若|D|≠0，表明聚类过程尚未完成，则跳转到步骤3.2.2；

步骤3.2.4，形成聚类后的簇C。

步骤4，事件类型生成和运维数据类型标注，过程如下：

步骤4.1，为任意的簇c_i∈C，c_i＝{d₁,d₂,...,d_g}，g＝|c_i|产生事件类型；

步骤4.1.1，对于簇c_i中任意的两条运维数据d_x,d_y∈c_i，1≤x,y≤g，设d'_i＝null；

步骤4.1.1.1，应用Smith-Waterman算法将运维数据d_x、d_y对齐，得到长度相等的运维数据对d'_x、d'_y，ll＝|d'_x|

步骤4.1.1.2，合并d'_x、d'_y得到d'_i，

d'_i＝strcat(d'_i,f(d'_x(i),d'_y(i))|i＝1,...,l)

其中函数strcat()是字符串连接函数

其中Type(*)表示*的泛化类型。

步骤4.1.1.3，c_i＝c_i-{d_x,d_y}，c_i＝c_i∪{d'_i}，若|c_i|＞1，则跳转到步骤4.1.1；

步骤4.1.1.4，获得d'_i，即为簇c_i的事件类型；

步骤4.2，对于任意的簇c_i＝{d₁,d₂,...,d_g}，g＝|c_i|簇中的每条运维数据其事件类型标注为d'_i。

Claims

1.一种面向异构文本运维数据的事件提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1的具体步骤如下：

3.根据权利要求1所述的方法，其特征在于，步骤2的具体步骤如下：

步骤2.3，D＝D-{d}，若|D|≠0，表明类型检测尚未完成，则跳转到步骤2.1。

4.根据权利要求1所述的方法，其特征在于，步骤3的具体步骤如下：

步骤3.2定义语法相似性度量sim₁(d₁,d₂)

步骤3.3，定义结构相似性度量sim₂(d₁,d₂)

sim₂(d₁,d₂)＝2|lcs(d₁,d₂)|-|d₂|

其中函数lcs()获得字符串d₁和d₂的最长公共子串；

步骤3.4定义语义相似性度量sim₃(d₁,d₂)

sim_w(w,d₁)＝max{sim_w(w,p_i)|_i＝1,...,n}

sim_w(w,d₂)＝max{sim_w(w,q_j)|_j＝1,...,m}；

其中，w_i表示不同相似性度量的权重，

步骤3.6，给定运维数据D，应用基于one-pass思想的聚类算法完成文本运维数据划分，形成文本运维数据簇。

5.根据权利要求4所述的方法，其特征在于，步骤3.6的具体过程为：

步骤3.6.2，逐条处理D中的运维数据d：

步骤3.6.4，形成聚类后的簇C。

6.根据权利要求5所述的方法，其特征在于，步骤4的的具体步骤如下：

步骤4.4，合并d'_x、d'_y得到d'_i

d'_i＝strcat(d'_i,f(d'_x(i),d'_y(i))|i＝1,...,l)

其中，l＝|d'_x|，函数strcat()是字符串连接函数，

Type(*)表示*的泛化类型；

步骤4.6，获得d'_i，即为簇c_i的事件类型；