CN110347827A - 面向异构文本运维数据的事件提取方法 - Google Patents
面向异构文本运维数据的事件提取方法 Download PDFInfo
- Publication number
- CN110347827A CN110347827A CN201910561157.4A CN201910561157A CN110347827A CN 110347827 A CN110347827 A CN 110347827A CN 201910561157 A CN201910561157 A CN 201910561157A CN 110347827 A CN110347827 A CN 110347827A
- Authority
- CN
- China
- Prior art keywords
- maintenance data
- cluster
- type
- sim
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004821 distillation Methods 0.000 title abstract 4
- 230000014509 gene expression Effects 0.000 claims abstract description 70
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000011524 similarity measure Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 2
- 241001269238 Data Species 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 238000005065 mining Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种面向异构文本运维数据的事件提取方法,包括以下步骤:步骤1,定义泛化类型正则表达式;步骤2,基于正则表达式的类型检测;步骤3,基于多维度相似性的文本运维数据聚类;步骤4,事件类型生成和文本运维数据类型标注。本发明所提供的事件提取方法的目的在于以复杂IT***运行时产生的日志文件、工作票等文本类运维数据为研究对象,提供一种面向异构文本运维数据的事件提取方法,具备处理异构文本运维数据的适应性和较高的准确性。
Description
技术领域
本发明涉及一种事件挖掘技术,特别是一种面向异构文本运维数据的事件提取方法。
背景技术
事件挖掘对于***故障预测是至关重要的,然而,一个可接受的日志标准并不存在,因此,如何快速解析来自异构***的日志数据,以及其它运维数据,如工作票等,是一个极具挑战的问题。
目前已知的日志模式发现方法主要分为两大类:1)基于正则表达式的匹配方法;2)基于聚类的模式识别方法。许多公司开发了用于日志分析的工具,如:Splunk、loggly和LogEntries等,还有一些开源软件包,如:ElasticSearch、Graylog和OSSIM等,这些工具和软件包大多使用正则表达式来匹配日志数据。利用正则表达式来解析日志数据通常能完全挖掘日志的模式,但是,需要很多先验知识和人工干预,不具备从历史日志数据中学习知识的能力,不适用于大量的异构日志。并且,不同的正则表达式只能针对特定的***,不够灵活,无法扩展。此外,正则表达式的编写过程复杂、容易产生冲突的特点也给日志分析工作带来了很大的困难,尤其,过度泛化的正则表达式规则降低了处理日志数据的效率。所以,一般只采用正则表达式对日志进行简单的预处理,标记一些常用的类型,然后,使用其他聚类或模式识别算法作进一步分析和挖掘,这样,在增加少量先验知识的前提下,就可显著地提高日志解析的精度和效率。钟雅等人(钟雅,郭渊博.基于机器学习的日志解析***设计与实现[J].计算机应用,2018,38(02):352-356.)设计了一种基于机器学习的日志解析***,该***就是先利用正则表达式预处理日志数据,再采用改进的LogSig算法(Tang L,LiT,Perng C S.LogSig:Generating system events from raw textual logs[C].ACMConference on Information and Knowledge Management.2011:785-794.)提取日志事件。LogSig算法是一种基于“签名”的日志解析方法,它将一种事件类型中最具代表性的短语结构叫做“签名”。该算法把所有的日志数据聚成k个簇,在每个簇中找出一个日志签名,使得簇内的所有日志尽可能与这个签名匹配。由于日志文本通常较短,一旦出现签名,就能准确分类。Zhuge等(Zhuge C,Vaarandi R.Efficient Event Log Mining withLogClusterC[C]//Big Data Security on Cloud(BigDataSecurity),IEEEInternational Conference on High Performance and Smart Computing(HPSC),andIEEE International Conference on Intelligent Data and Security(IDS),2017 IEEE3rd International Conference on.IEEE,2017:261-266.)开发了一种名为LogClusterC的开源工具,该工具实现了能够从日志事件中发现模式和异常值的LogCluster算法。LogCluster本质上是基于频繁单词的聚类算法,即具有相同频繁单词的日志会被聚集在一起。它利用了日志中单词的高度倾斜分布的特点进行聚类,该特点也被很多日志挖掘聚类算法应用。Makanju等在日志数据分析方面开展了一系列工作。文献(Makanju A,Zincir-Heywood A N,Milios E E,et al.Spatio-temporal decomposition,clustering andidentification for alert detection in system logs[C]//Proceedings of the 27thAnnual ACM Symposium on Applied Computing.ACM,2012:621-628.)提出了一种用于日志的迭代聚类算法——IPLoM,该算法包括以下4个步骤:1)将相同长度的日志聚集在一起;2)每个聚类由最佳信息增益的单词进行划分;3)取当前最佳信息增益的单词进一步划分;4)基于多数表决生成最终的聚类结果。实验表明了IPLoM优于其他日志聚类算法,但是IPLoM易生成小的、没有统计意义的聚类碎片,聚类质量难以控制。由于最终的聚类结果与第一步的聚类效果有关,如果第一步聚类效果差,则最终的聚类效果很难令人满意。但是,IPLoM算法假设相同长度的日志具有相同格式,这个问题导致该算法不适合在大量异构日志数据中使用。Wurzenberger等(Wurzenberger M,Skopik F,Landauer M,etal.Incremental clustering for semi-supervised anomaly detection applied onlog data[C]//Proceedings of the 12th International Conference onAvailability,Reliability and Security.ACM,2017:31-36.)提出了一种半监督的增量聚类算法,将快速增长的日志数据在线聚类,避免每次出现新的日志时需要重新计算。Liu等(Liu J,Li K,Li Y,et al.Attack Pattern Mining Algorithm Based on FuzzyClustering and Sequence Pattern from Security Log[C]//InternationalConference on Intelligent Information Hiding and Multimedia SignalProcessing.Springer,Cham,2018:44-52.)研究了基于改进模糊聚类和序列模式挖掘的攻击模式挖掘算法。该方法结合了模糊聚类的优点来挖掘安全日志之间的相似性和序列模式的优势,从而发现攻击步骤中的逻辑关系,实验结果表明,该算法能够有效地挖掘攻击模式。C.Xu等(Xu C,Chen S,Cheng J.Network user interest pattern mining based onentropy clustering algorithm[C]//Cyber-Enabled Distributed Computing andKnowledge Discovery(CyberC),2015 International Conference on.IEEE,2015:200-204)提出了一种无自定义参数的聚类web日志的算法,该算法的时间复杂度为O(n3),其中n是日志的数量,复杂度较高,不能扩展到大数据集。Xia Ning等(X.Ning and G.Jiang,“HLAer:A system for heterogeneous log analysis,”in Proceedings of the SDMWorkshop on Heterogeneous Learning,2014)研究了一种无监督的HLAer框架,该框架用于自动解析异源日志数据,对异构日志具有健壮性,但在运行时需要大量的内存开销,所以也不可扩展。以上的算法或工具的共同问题在于:无法扩展到异构运维数据集。
发明内容
本发明的目的在于提供一种面向异构文本运维数据的事件提取方法。
实现本发明目的的技术方案为:一种面向异构文本运维数据的事件提取方法,包括以下步骤:
步骤1,定义泛化类型正则表达式:用日期、时间、IP地址、赋值表达式预先定义一组正则表达式以描述文本运维数据中出现的日期、时间、IP地址、赋值表达式,并为每个正则表达式关联一个泛化表示类型;
步骤2,基于正则表达式的类型检测:对给定的文本运维数据,采用预先定义的正则表达式对文本运维数据进行预处理,然后对每个子串进行类型检测,识别日期、时间、IP地址、赋值表达式,并将具体的变量值替换为其泛化表示类型;
步骤3,基于多维度相似性的文本运维数据聚类:综合文本运维数据的语法、结构、语义三个因素,定义文本运维数据相似性度量,采用one-pass一趟思想应用基于密度的聚类算法完成文本运维数据划分,形成文本运维数据簇;
步骤4,事件类型生成和文本运维数据类型标注:采用簇内运维数据逐条合并方式产生簇表示的事件类型,并将簇内的每条文本运维数据关联该簇对应的事件类型。
进一步地,步骤1的具体步骤如下:
步骤1.1,为日期、时间、IP地址、赋值表达式定义一个泛化类型集合T={DATE,TIME,IP,Exp=,Exp:,Exp[]},其中DATE表示日期信息,TIME表示时间信息,IP表示因特网地址信息,Exp=表示使用符号“=”的赋值表达式,Exp:表示使用符号“:”的赋值表达式,以及Exp[]表示使用符号“[]”的赋值表达式;
步骤1.2,为每一个泛化类型t∈T关联一组正则表达式用于描述文本运维数据中可能出现的不同表示形式。
进一步地,步骤2的具体步骤如下:
步骤2.1,对任意每条运维数据d使用空格或符号等标记符分割成一个个词构成的字符串,其中d∈D,D为运维数据的集合;
步骤2.2,将定义的正则表达式集E应用到运维数据的每个子串s中,若存在一个子串s是一个预定义的任意正则表达式e的实例,则子串s类型泛化成功,执行步骤2.2.1;否则执行步骤2.2.2;其中s∈d,e∈E;
步骤2.2.1,将该子串s替换为正则表达式e对应的泛化表示类型t;
步骤2.2.2,运维数据d是由新的运维数据模板产生的,更新正则表达式库及其泛化表示类型集合;
步骤2.3,D=D-{d},若|D|≠0,表明类型检测尚未完成,则跳转到步
进一步地,步骤3的具体步骤如下:
步骤3.1,对于任意的两条文本运维数据d1,d2∈D,有d1=p1p2...pn,d2=q1q2...qm,其中,p1p2...pn,q1q2...qm分别是d1和d2的项,且n≤m;
步骤3.2定义语法相似性度量sim1(d1,d2)
其中,t(pi)、t(qi)分别表示运维数据d1、d2的第i项或第i个词的正则表达式类型;
步骤3.3,定义结构相似性度量sim2(d1,d2)
sim2(d1,d2)=2|lcs(d1,d2)|-|d2|
其中函数lcs()获得字符串d1和d2的最长公共子串;
步骤3.4定义语义相似性度量sim3(d1,d2)
其中,函数if(w)表示词w的词频,simw(w,d2)表示词q与句子d2中词的最大词相似性,
simw(w,d1)=max{simw(w,pi)|i=1,...,n}
simw(w,d2)=max{simw(w,qj)|j=1,...,m};
步骤3.5,综合语法、结构和语义相似性度量,产生综合相似性度量sim(d1,d2)
其中,wi表示不同相似性度量的权重,
步骤3.6,给定运维数据D,应用基于one-pass思想的聚类算法完成文本运维数据划分,形成文本运维数据簇.
进一步地,步骤3.6的具体过程为:
步骤3.6.1,定义参数dmax表示运维数据与簇中心之间的最大距离,则同一簇中任意两条运维之间的最大距离为2×dmax,设定簇数目为k,初始化k=0,簇集合记为C={c1,c2,...ck},其中ck表示簇中心;
步骤3.6.2,逐条处理D中的运维数据d:
步骤3.6.2.1,若k==0,则k+=1,将d分配给簇c1,并且将d作为簇c1的中心;
步骤3.6.2.2,计算d与每个簇中心的相似性度量值{sim(d,ci)|i=1,...,k},若存在簇ci满足min(sim(d,ci)≤dmax),则将d分配给簇ci,否则创建新簇ck+1,将d分配给簇ck+1,并且将d作为簇ck+1的中心,k+=1;
步骤3.6.3,D=D-{d},若|D|≠0,表明聚类过程尚未完成,则跳转到步骤3.6.2;
步骤3.6.4,形成聚类后的簇C。
进一步地,步骤4的的具体步骤如下:
步骤4.1,为任意的簇ci产生事件类型,其中ci∈C,ci={d1,d2,...,dg},g=|ci|:
步骤4.2,对于簇ci中任意的两条运维数据dx,dy∈ci,1≤x,y≤g,设d'i=null;
步骤4.3,将运维数据dx、dy对齐,得到长度相等的运维数据对d'x、d'y;
步骤4.4,合并d'x、d'y得到d'i
d'i=strcat(d'i,f(d'x(i),d'y(i))|i=1,...,l)
其中,l=|d'x|,函数strcat()是字符串连接函数,
Type(*)表示*的泛化类型;
步骤4.5,ci=ci-{dx,dy},ci=ci∪{d'i},若|ci|>1,则跳转到步骤4.2;
步骤4.6,获得d'i,即为簇ci的事件类型;
步骤4.7,对于任意的簇ci,ci={d1,d2,...,dg},g=|ci|,簇中的每条运维数据其事件类型标注为d'i。
本发明与现有技术相比,其优点在于:(1)本发明以复杂IT***运行时产生的日志文件、工作票等文本类运维数据为研究对象,提供一种面向异构文本运维数据的事件提取方法,为每条文本运维数据标注特定的事件类型;(2)采用正则表达式实现类型检测的方式,能提升处理异构文本运维数据的适应性;(3)设计多维度的相似性度量,能提升事件提取的准确性,特别地,语义相似性度量能增加异构场景下度量准确性;(4)应用one-pass聚类思想,能提升事件提取效率,适合于实时处理场景。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明一种面向异构文本运维数据的事件提取方法的流程图。
图2是异构文本运维数据示意图。
具体实施方式
本发明中,一个正则表达式集由多个正则表达式构成。将每一个正则表达式应用到运维数据的子串s,用于判断s是否满足正则表达式。子串是字符串中的一个基本概念,表示一个给定字符串中保持词或字母顺序的一部分,例如:字符串abdfgd,则adf、ag等就是子串,gd不是子串。
本发明中,实例是指满足正则表达式的具体字符串,例如,表示年份的正则表达式定义为“d{4}”,则“2018”等就是实例。
结合图1,一种面向异构文本运维数据的事件提取方法,包括以下步骤:
步骤1,定义泛化类型正则表达式,过程如下:
步骤1.1,从日期、时间、IP地址、赋值表达式等维度定义一个泛化类型集合T={DATE,TIME,IP,Exp=,Exp:,Exp[]},其中Date表示日期信息,Time表示时间信息,IP表示因特网地址信息,Exp=表示使用符号“=”的赋值表达式,Exp:表示使用符号“:”的赋值表达式,以及Exp[]表示使用符号“[]”的赋值表达式;
步骤1.2,为每一个泛化类型t∈T,关联一组正则表达式用于描述文本运维数据中可能出现的不同表示形式,如类型Date的实例,可以表示为“2019-05-28”,也可以表示为“05-28-2019”,还可以表示为“2019.5.28”等;相应的正则表达式定义为,所有正则表达式的集合
E={((Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)\s+\d{1,2}\,?\s+\d{4})|\d{4}\-[0-1]\d\-[0-3]\d};
步骤2,结合图2,基于正则表达式的类型检测,过程如下:
步骤2.1,对任意每条运维数据d,d∈D进行预处理,使用空格或符号标记每条数据;
步骤2.2,将步骤1定义好的正则表达式集E应用到运维数据的每个子串s∈d,若存在一个子串s是一个预定义的任意正则表达式e的实例,e∈E,表示子串s类型泛化成功,执行步骤2.2.1,否则执行步骤2.2.2;
步骤2.2.1,将该子串s替换为正则表达式e对应的泛化表示类型t;例如用DATE替换‘Feb 26,2016’,用TIME替换‘4:05:26 PM’;
步骤2.2.2,运维数据d是由新的运维数据模板产生的,依赖领域专家更新正则表达式库及其泛化表示类型集合;
步骤2.3,D=D-{d},若|D|≠0,表明类型检测尚未完成,则跳转到步骤2.1;
步骤3,基于多维度相似性的文本运维数据聚类,过程如下:
步骤3.1,计算任意两条文本运维数据的相似度。对于任意的两条文本运维数据d1,d2∈D,表示为d1=p1p2...pn,d2=q1q2...qm,其中p1p2...pn,q1q2...qm分别是d1和d2的项,不失一般性n≤m。
步骤3.1.1,定义语法相似性度量其中α是用户自定义的参数,0≤α≤1,t(pi)、t(qi)分别表示运维数据d1、d2的第i项或第i个词的正则表达式类型。
步骤3.1.2,定义结构相似性度量sim2(d1,d2)=2|lcs(d1,d2)|-|d2|,其中函数lcs()获得字符串d1和d2的最长公共子串;
步骤3.1.3,定义语义相似性度量sim3(d1,d2)
其中函数if(w)表示词w的词频,simw(w,d2)表示词q与句子d2中词的最大词相似性,
simw(w,d1)=max{simw(w,pi)|i=1,...,n}
simw(w,d2)=max{simw(w,qj)|j=1,...,m};
步骤3.1.4,综合语法、结构和语义相似性度量,产生综合相似性度量其中wi表示不同相似性度量的权重,
步骤3.2,给定运维数据D,应用基于one-pass思想的聚类算法完成文本运维数据划分,形成文本运维数据簇;
步骤3.2.1,参数初始化。定义参数dmax表示运维数据与簇中心之间的最大距离,则同一簇中任意两条运维之间的最大距离为2×dmax;设定簇数目为k,k=0,簇集合记为C={c1,c2,...ck},其中ck表示簇中心;
步骤3.2.2,逐条处理D中的运维数据d,
步骤3.2.2.1,若k==0,则k+=1,将d分配给簇c1,并且将d作为簇c1的中心;
步骤3.2.2.2,计算d与每个簇中心的相似性度量值{sim(d,ci)|i=1,...,k},若存在簇ci满足min(sim(d,ci)≤dmax),则将d分配给簇ci,否则创建新簇ck+1,将d分配给簇ck+1,并且将d作为簇ck+1的中心,k+=1;
步骤3.2.3,D=D-{d},若|D|≠0,表明聚类过程尚未完成,则跳转到步骤3.2.2;
步骤3.2.4,形成聚类后的簇C。
步骤4,事件类型生成和运维数据类型标注,过程如下:
步骤4.1,为任意的簇ci∈C,ci={d1,d2,...,dg},g=|ci|产生事件类型;
步骤4.1.1,对于簇ci中任意的两条运维数据dx,dy∈ci,1≤x,y≤g,设d'i=null;
步骤4.1.1.1,应用Smith-Waterman算法将运维数据dx、dy对齐,得到长度相等的运维数据对d'x、d'y,ll=|d'x|
步骤4.1.1.2,合并d'x、d'y得到d'i,
d'i=strcat(d'i,f(d'x(i),d'y(i))|i=1,...,l)
其中函数strcat()是字符串连接函数
其中Type(*)表示*的泛化类型。
步骤4.1.1.3,ci=ci-{dx,dy},ci=ci∪{d'i},若|ci|>1,则跳转到步骤4.1.1;
步骤4.1.1.4,获得d'i,即为簇ci的事件类型;
步骤4.2,对于任意的簇ci={d1,d2,...,dg},g=|ci|簇中的每条运维数据其事件类型标注为d'i。
Claims (6)
1.一种面向异构文本运维数据的事件提取方法,其特征在于,包括以下步骤:
步骤1,定义泛化类型正则表达式:用日期、时间、IP地址、赋值表达式预先定义一组正则表达式以描述文本运维数据中出现的日期、时间、IP地址、赋值表达式,并为每个正则表达式关联一个泛化表示类型;
步骤2,基于正则表达式的类型检测:对给定的文本运维数据,采用预先定义的正则表达式对文本运维数据进行预处理,然后对每个子串进行类型检测,识别日期、时间、IP地址、赋值表达式,并将具体的变量值替换为其泛化表示类型;
步骤3,基于多维度相似性的文本运维数据聚类:综合文本运维数据的语法、结构、语义三个因素,定义文本运维数据相似性度量,采用one-pass一趟思想应用基于密度的聚类算法完成文本运维数据划分,形成文本运维数据簇;
步骤4,事件类型生成和文本运维数据类型标注:采用簇内运维数据逐条合并方式产生簇表示的事件类型,并将簇内的每条文本运维数据关联该簇对应的事件类型。
2.根据权利要求1所述的方法,其特征在于,步骤1的具体步骤如下:
步骤1.1,为日期、时间、IP地址、赋值表达式定义一个泛化类型集合T={DATE,TIME,IP,Exp=,Exp:,Exp[]},其中DATE表示日期信息,TIME表示时间信息,IP表示因特网地址信息,Exp=表示使用符号“=”的赋值表达式,Exp:表示使用符号“:”的赋值表达式,以及Exp[]表示使用符号“[]”的赋值表达式;
步骤1.2,为每一个泛化类型t∈T关联一组正则表达式用于描述文本运维数据中可能出现的不同表示形式。
3.根据权利要求1所述的方法,其特征在于,步骤2的具体步骤如下:
步骤2.1,对任意每条运维数据d使用空格或符号等标记符分割成一个个词构成的字符串,其中d∈D,D为运维数据的集合;
步骤2.2,将定义的正则表达式集E应用到运维数据的每个子串s中,若存在一个子串s是一个预定义的任意正则表达式e的实例,则子串s类型泛化成功,执行步骤2.2.1;否则执行步骤2.2.2;其中s∈d,e∈E;
步骤2.2.1,将该子串s替换为正则表达式e对应的泛化表示类型t;
步骤2.2.2,运维数据d是由新的运维数据模板产生的,更新正则表达式库及其泛化表示类型集合;
步骤2.3,D=D-{d},若|D|≠0,表明类型检测尚未完成,则跳转到步骤2.1。
4.根据权利要求1所述的方法,其特征在于,步骤3的具体步骤如下:
步骤3.1,对于任意的两条文本运维数据d1,d2∈D,有d1=p1p2...pn,d2=q1q2...qm,其中,p1p2...pn,q1q2...qm分别是d1和d2的项,且n≤m;
步骤3.2定义语法相似性度量sim1(d1,d2)
其中,t(pi)、t(qi)分别表示运维数据d1、d2的第i项或第i个词的正则表达式类型;
步骤3.3,定义结构相似性度量sim2(d1,d2)
sim2(d1,d2)=2|lcs(d1,d2)|-|d2|
其中函数lcs()获得字符串d1和d2的最长公共子串;
步骤3.4定义语义相似性度量sim3(d1,d2)
其中,函数if(w)表示词w的词频,simw(w,d2)表示词q与句子d2中词的最大词相似性,
simw(w,d1)=max{simw(w,pi)|i=1,...,n}
simw(w,d2)=max{simw(w,qj)|j=1,...,m};
步骤3.5,综合语法、结构和语义相似性度量,产生综合相似性度量sim(d1,d2)
其中,wi表示不同相似性度量的权重,
步骤3.6,给定运维数据D,应用基于one-pass思想的聚类算法完成文本运维数据划分,形成文本运维数据簇。
5.根据权利要求4所述的方法,其特征在于,步骤3.6的具体过程为:
步骤3.6.1,定义参数dmax表示运维数据与簇中心之间的最大距离,则同一簇中任意两条运维之间的最大距离为2×dmax,设定簇数目为k,初始化k=0,簇集合记为C={c1,c2,...ck},其中ck表示簇中心;
步骤3.6.2,逐条处理D中的运维数据d:
步骤3.6.2.1,若k==0,则k+=1,将d分配给簇c1,并且将d作为簇c1的中心;
步骤3.6.2.2,计算d与每个簇中心的相似性度量值{sim(d,ci)|i=1,...,k},若存在簇ci满足min(sim(d,ci)≤dmax),则将d分配给簇ci,否则创建新簇ck+1,将d分配给簇ck+1,并且将d作为簇ck+1的中心,k+=1;
步骤3.6.3,D=D-{d},若|D|≠0,表明聚类过程尚未完成,则跳转到步骤3.6.2;
步骤3.6.4,形成聚类后的簇C。
6.根据权利要求5所述的方法,其特征在于,步骤4的的具体步骤如下:
步骤4.1,为任意的簇ci产生事件类型,其中ci∈C,ci={d1,d2,...,dg},g=|ci|:
步骤4.2,对于簇ci中任意的两条运维数据dx,dy∈ci,1≤x,y≤g,设d'i=null;
步骤4.3,将运维数据dx、dy对齐,得到长度相等的运维数据对d'x、d'y;
步骤4.4,合并d'x、d'y得到d'i
d'i=strcat(d'i,f(d'x(i),d'y(i))|i=1,...,l)
其中,l=|d'x|,函数strcat()是字符串连接函数,
Type(*)表示*的泛化类型;
步骤4.5,ci=ci-{dx,dy},ci=ci∪{d'i},若|ci|>1,则跳转到步骤4.2;
步骤4.6,获得d'i,即为簇ci的事件类型;
步骤4.7,对于任意的簇ci,ci={d1,d2,...,dg},g=|ci|,簇中的每条运维数据其事件类型标注为d'i。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910561157.4A CN110347827B (zh) | 2019-06-26 | 2019-06-26 | 面向异构文本运维数据的事件提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910561157.4A CN110347827B (zh) | 2019-06-26 | 2019-06-26 | 面向异构文本运维数据的事件提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347827A true CN110347827A (zh) | 2019-10-18 |
CN110347827B CN110347827B (zh) | 2023-08-22 |
Family
ID=68183197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910561157.4A Active CN110347827B (zh) | 2019-06-26 | 2019-06-26 | 面向异构文本运维数据的事件提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347827B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143312A (zh) * | 2019-12-24 | 2020-05-12 | 广东电科院能源技术有限责任公司 | 一种电力日志的格式解析方法、装置、设备和存储介质 |
CN113111237A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的组织识别方法与装置、设备及介质 |
CN113742116A (zh) * | 2020-11-27 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种异常定位方法及装置、设备、存储介质 |
CN117033464A (zh) * | 2023-08-11 | 2023-11-10 | 上海鼎茂信息技术有限公司 | 一种基于聚类的日志并行解析算法及应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN106339293A (zh) * | 2016-08-20 | 2017-01-18 | 南京理工大学 | 一种基于签名的日志事件提取方法 |
CN108536792A (zh) * | 2018-03-30 | 2018-09-14 | 东华大学 | 一种基于多词的文本表示策略的文本分类方法 |
CN109343990A (zh) * | 2018-09-25 | 2019-02-15 | 江苏润和软件股份有限公司 | 一种基于深度学习的云计算***异常检测方法 |
-
2019
- 2019-06-26 CN CN201910561157.4A patent/CN110347827B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN106339293A (zh) * | 2016-08-20 | 2017-01-18 | 南京理工大学 | 一种基于签名的日志事件提取方法 |
CN108536792A (zh) * | 2018-03-30 | 2018-09-14 | 东华大学 | 一种基于多词的文本表示策略的文本分类方法 |
CN109343990A (zh) * | 2018-09-25 | 2019-02-15 | 江苏润和软件股份有限公司 | 一种基于深度学习的云计算***异常检测方法 |
Non-Patent Citations (1)
Title |
---|
衷宜: "Xen 虚拟化平台下基于***调用分析的语义重构方法", 《南京理工大学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143312A (zh) * | 2019-12-24 | 2020-05-12 | 广东电科院能源技术有限责任公司 | 一种电力日志的格式解析方法、装置、设备和存储介质 |
CN113111237A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的组织识别方法与装置、设备及介质 |
CN113742116A (zh) * | 2020-11-27 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种异常定位方法及装置、设备、存储介质 |
CN117033464A (zh) * | 2023-08-11 | 2023-11-10 | 上海鼎茂信息技术有限公司 | 一种基于聚类的日志并行解析算法及应用 |
CN117033464B (zh) * | 2023-08-11 | 2024-04-02 | 上海鼎茂信息技术有限公司 | 一种基于聚类的日志并行解析算法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN110347827B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347827A (zh) | 面向异构文本运维数据的事件提取方法 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN110175158B (zh) | 一种基于向量化的日志模板提取方法和*** | |
CN104112026B (zh) | 一种短信文本分类方法及*** | |
CN110929145B (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN108304442B (zh) | 一种文本信息处理方法、装置及存储介质 | |
CN110795919A (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
US20240264890A1 (en) | Method and system for analyzing cloud platform logs, device and medium | |
CN112836509A (zh) | 一种专家***知识库构建方法及*** | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
Ikeda et al. | Semi-Supervised Learning for Blog Classification. | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
Fang et al. | Improving the quality of crowdsourced image labeling via label similarity | |
CN110264311B (zh) | 一种基于深度学习的商业推广信息精准推荐方法及*** | |
US10467276B2 (en) | Systems and methods for merging electronic data collections | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN109857892B (zh) | 基于类标传递的半监督跨模态哈希检索方法 | |
WO2016093839A1 (en) | Structuring of semi-structured log messages | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
US20240232229A1 (en) | Method, apparatus, and computer-readable medium for efficiently classifying a data object of unknown type | |
CN112882997A (zh) | 一种基于N-gram与频繁模式挖掘的***日志解析方法 | |
Yang et al. | IF-MCA: Importance factor-based multiple correspondence analysis for multimedia data analytics | |
CN115210705A (zh) | 具有无效值或等效值的关系表的向量嵌入模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |