CN117454296A - 基于进化树结构的在线日志检测方法 - Google Patents

基于进化树结构的在线日志检测方法 Download PDF

Info

Publication number
CN117454296A
CN117454296A CN202311543258.1A CN202311543258A CN117454296A CN 117454296 A CN117454296 A CN 117454296A CN 202311543258 A CN202311543258 A CN 202311543258A CN 117454296 A CN117454296 A CN 117454296A
Authority
CN
China
Prior art keywords
log
node
template
token
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311543258.1A
Other languages
English (en)
Inventor
于富财
郭甫睿
陈振兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202311543258.1A priority Critical patent/CN117454296A/zh
Publication of CN117454296A publication Critical patent/CN117454296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于进化树结构的在线日志检测方法,首先通过日志解析器进行日志预处理,之后从根节点开始遍历UST树结构,找到合适的叶节点之后将日志自身信息与叶节点相关模板匹配,若没有合适模板便将模板新增到叶节点,当叶节点相关模板过多时,将饱和叶节点根据模板相似度进行分割,原叶节点变为内部节点,最后,当UST相关处理完成后,根据模板匹配结果输出日志处理结果。本发明的方法提出了一种新的进化树结构即UST结构,利用该结构进行日志模板的学习与识别,基于UST进行日志解析,能够很好的完成多种类型云端日志数据的异常检测。

Description

基于进化树结构的在线日志检测方法
技术领域
本发明属于日志异常检测技术领域,具体涉及一种基于进化树结构的在线日志检测方法。
背景技术
日志记录了***在不同关键点上的状态和重要事件,能够帮助调试性能问题和解决故障,并进行根本原因分析。这种日志数据在几乎所有的计算机***中都是普遍可用的,是了解***状态的宝贵资源。此外,由于***日志记录了活跃运行进程中发生的重要的事件,因此它们是在线监控和异常检测的极好信息源。
异常检测是构建安全可靠的计算机***的一项重要任务。随着***和应用程序变得更加日益庞大和复杂,一方面,计算机***自身的漏洞和缺陷增加,受到攻击的可能性增大,因此异常检测变得异常重要;另一方面,日志的数量不断增多,这给管理员全面了解***状态和有效发现异常带来了挑战。
日志异常检测可以通过人工检测或者自动检测完成,人工日志检测实现困难,成本过高,因此日志异常自动检测作为一个新兴课题,在简化异常和故障检测、诊断和预测等许多方面变得越来越重要。
随着研究的深入,越来越多的自动异常检测算法被提出。文献“M.Du,F.Li,G.Zheng,and V.Srikumar,‘Deeplog:Anomaly detection and diagnosis from systemlogs through deep learning,’in Proceedings of the 2017ACM SIGSAC Conferenceon Computer and Communications Security,2017,pp.1285–1298.”提出了DeepLog模型,DeepLog模型是一种利用长短期记忆(LSTM)网络进行异常检测的深度学习模型。该模型通过处理自然语言序列形式的日志进行学习,检测异常。
文献“H.Guo,S.Yuan,and X.Wu,‘Logbert:Log anomaly detection via bert,’arXiv preprint arXiv:2103.04475,2021.”提出了LogBert模型,LogBERT模型通过两个自监督训练任务学习正常日志序列的模式,并能够检测出底层模式偏离正常日志序列的异常。但是目前现有的方法对日志的解析准确度(Parsing Accuracy)依赖性过高,较低的解析准确度会导致异常检测算法精确度下降。
在目前的云端IT环境中,日志语句内容的更新不断丰富,导致了新的日志模板的产生和现有日志模板的更新与发展。同时云端环境对于日志处理的实时性要求更高,现有的日志异常检测模型在云端环境的鲁棒性较低,无法达到云端环境运行维护要求,且模型的训练数据大多数是静态的本地数据。而对于云端IT设施应用场景具有可变性、大容量、实时性等特点,现有的日志异常检测方法并没有很好地鲁棒性和可拓展性进行信息流处理。需要提出新的具有更高鲁棒性和可拓展性的日志异常检测方法,来满足云端环境对于日志异常信息的检测和对日常***维护的要求。
发明内容
为解决上述技术问题,本发明提供了一种基于进化树结构的在线日志检测方法,通过UST(一种用于高效解析的不固定搜索树)在处理日志时发现并编码新的日志解析模板,适合于实时应用程序。
本发明采用的技术方案为:一种基于进化树结构的在线日志检测方法,具体步骤如下:
S1、通过日志解析器对输入的日志进行预处理;
S2、从根节点开始遍历UST搜索树并匹配叶节点;
S3、基于步骤S2,将日志自身信息与叶节点相关模板匹配,若没有合适模板便将模板新增到叶节点;
S4、对饱和叶节点根据模板相似度进行分割,原叶节点变为内部节点;
S5、根据模板匹配结果输出日志处理结果,完成日志异常检测。
进一步地,所述步骤S1具体如下:
首先通过日志解析器将输入的日志定义为临时有序的非结构化文本消息序列
其中,i表示日志消息li在序列中的位置索引。
再将每条日志消息分割为令牌词,每条日志消息由空格分隔的有限令牌词序列组成。
其中,ti表示日志消息li的令牌词,且 表示所有令牌词的集合,t表示令牌词,j表示日志消息li中令牌词的位置索引,而|ti|表示li中令牌词的总数。
进一步地,所述步骤S2具体如下:
定义一个UST实例表示解析树,σ∈[0;1]表示日志模板的相似度阈值,/>表示叶节点模板数量的阈值,N*表示取值为正整数。
其中,表示节点集,N表示节点标识总数,每个节点标识为vk,编号范围为k∈[1,N],/>表示已发现模板集,/>表示节点-模板链接集。
在解析树的顶部,有一个根节点(v1),它是初始化时唯一存在的节点且内部节点至少有一个子节点,其余节点为叶节点,日志模板只附加到叶节点上,一个叶节点不能链接到φ以上的模板。
遍历UST搜索树,直到到达叶节点。日志消息li的解析过程从根节点开始进行遍历。
设定具有相同模板的日志消息具有相同数量的令牌词,则在创建节点时,为每个节点分配一个令牌词。
多个节点可以具有相同的令牌词,但节点的所有子节点具有不同的令牌词,则每个内部节点都有一个函数对于根节点,定义密钥/>
从根节点vk=v1开始,下一级节点vk的令牌词由给出。若在vk的子节点中没有匹配这个令牌词,就用该令牌词创建一个新的节点,并添加到vk的子节点。当确定适当的低级节点后,就选择它作为新的当前节点。重复这个步骤,直到vk是一个叶节点。
进一步地,所述步骤S3具体如下:
当找到叶节点之后,通过计算相似性因子simF来寻找附着在vk上的合适模板,评估日志消息li和日志模板对应位置相同标记的数量。其计算方法如下:
其中,表示/>的第j个令牌词。
若找到的最高相似系数大于等于阈值参数σ,则选择相应的模板来匹配li。否则,将创建一个等于li的新模板并将其附加到vk
进一步地,所述步骤S4具体如下:
当步骤S3中将模板分配给日志消息li,则UST将在/>中编码新的解析规则,优化解析操作。
首先搜索日志模板中不同令牌词数量最多的位置,这个位置p被设为主点。
若p被识别,叶节点被转换为具有相同标签和键函数key(li)=tp的内部节点。对于模板中位置p上的每个唯一令牌,创建一个带有适当令牌词的新叶节点。所有附加到初始叶节点的模板都按照新的下降规则转移到新创建的叶节点。选择p作为令牌词多样性最高的位置,以优化创建的解析规则的相关性(key(li)=tp)。
本发明的有益效果:本发明的方法首先通过日志解析器进行日志预处理,之后从根节点开始遍历UST树结构,找到合适的叶节点之后将日志自身信息与叶节点相关模板匹配,若没有合适模板便将模板新增到叶节点,当叶节点相关模板过多时,将饱和叶节点根据模板相似度进行分割,原叶节点变为内部节点,最后,当UST相关处理完成后,根据模板匹配结果输出日志处理结果。本发明的方法提出了一种新的进化树结构即UST结构,利用该结构进行日志模板的学习与识别,基于UST进行日志解析,能够很好的完成多种类型云端日志数据的异常检测。
附图说明
图1为本发明的一种基于进化树结构的在线日志检测方法的流程图。
图2为本发明实施例中不固定搜索树(UST)结构图。
具体实施方式
下面结合附图与实施例对本发明做进一步的说明。
如图1所示,本发明的一种基于进化树结构的在线日志检测方法流程图,具体步骤如下:
S1、通过日志解析器对输入的日志进行预处理;
S2、从根节点开始遍历UST搜索树并匹配叶节点;
S3、基于步骤S2,将日志自身信息与叶节点相关模板匹配,若没有合适模板便将模板新增到叶节点;
S4、对饱和叶节点根据模板相似度进行分割,原叶节点变为内部节点;
S5、根据模板匹配结果输出日志处理结果,完成日志异常检测。
在本实施例中,所述步骤S1具体如下:
首先通过日志解析器将输入的日志定义为临时有序的非结构化文本消息序列
其中,i表示日志消息li在序列中的位置索引。
再将每条日志消息分割为令牌词,每条日志消息由空格分隔的有限令牌词(单词)序列组成。
其中,ti表示日志消息li的令牌词,且 表示所有令牌词的集合,t表示令牌词,j表示日志消息li中令牌词的位置索引,而|ti|表示li中令牌词的总数。
在本实施例中,所述步骤S2具体如下:
本实施例中,将详细介绍UST算法及其内存结构。UST使用一种新型的树结构来编码基于解析日志的解析规则。
定义一个UST实例表示解析树,σ∈[0;1]表示日志模板的相似度阈值,/>表示叶节点模板数量的阈值,N*表示取值为正整数。
其中,表示节点集,N表示节点标识总数,每个节点标识为vk,编号范围为k∈[1,N],/>表示已发现模板集,/>表示节点-模板链接集。
如图2所示,不固定搜索树(UST)结构图,在解析树的顶部,有一个根节点(v1),它是初始化时唯一存在的节点且内部节点至少有一个子节点,其余节点为叶节点,日志模板只附加到叶节点上,一个叶节点不能链接到φ以上的模板。
由于日志模板只附加到叶节点,因此第一步是UST搜索树,直到到达叶节点。日志消息li的解析过程从根节点开始进行遍历。
设置具有相同模板的日志消息具有相同数量的令牌词,则在创建节点时,为每个节点分配一个令牌词。
多个节点可以具有相同的令牌词,但节点的所有子节点具有不同的令牌词,则每个内部节点都有一个函数对于根节点,定义密钥/>
从根节点vk=v1开始,下一级节点vk的令牌词由给出。若在vk的子节点中没有匹配这个令牌词,就用该令牌词创建一个新的节点,并添加到vk的子节点。当确定适当的低级节点后,(找到(下一级节点对应的)令牌词与日志的令牌词本身匹配的下一级节点时)就选择它作为新的当前节点。重复这个步骤,直到vk是一个叶节点。
在本实施例中,所述步骤S3具体如下:
当找到叶节点之后,通过计算相似性因子simF来寻找附着在vk上的合适模板,评估日志消息li和日志模板对应位置相同标记的数量。其计算方法如下:
其中,表示/>的第j个令牌词。
由于的定义,可以保证li和/>拥有相同数量的令牌词,若找到的最高相似系数大于等于阈值参数σ,则选择相应的模板来匹配ki。否则,将创建一个等于ki的新模板并将其附加到vk
UST在训练过程中也会进行模板的细化,在模板与日志相同位置不相似的地方做出标记。
在本实施例中,所述步骤S4具体如下:
当步骤S3中将模板分配给日志消息li,则UST将在P中编码新的解析规则,优化解析操作。
当叶片链接到多于的模板,它就被定义为饱和的。为了避免过度增加要计算的simF的潜在数量,每次日志消息最终与该叶相关时,将饱和叶转换为一般节点,并将其所有模板移动到新增的叶节点。
首先搜索日志模板中不同令牌词数量最多的位置,这个位置p被设为主点。
若p被识别,叶节点被转换为具有相同标签和键函数key(li)=tp的内部节点(tp表示位置p的令牌词)。对于模板中位置p上的每个唯一令牌,创建一个带有适当令牌词的新叶节点。所有附加到初始叶节点的模板都按照新的下降规则转移到新创建的叶节点。选择p作为令牌词多样性最高的位置,以优化创建的解析规则的相关性(key(li)=tp)。
本实施例还选取了不同类型的开源数据集,包括分布式***数据集HDFS,Hadoop,服务应用程序日志OpenSSH,超算日志HPC。对于包括UST在内的五种日志解析器(Drain,LenMa,SHISO,Spell)进行测试。测试结果表明,UST在多个上具有最高的处理准确率。总体而言,UST的平均处理准确率较好。在不同数据集上同时实现了高处理准确率。
综上,本发明的方法提出了一种新的进化树结构即UST结构,利用该结构进行日志模板的学习与识别,基于UST进行日志解析,能够很好的完成多种类型云端日志数据的异常检测。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (5)

1.一种基于进化树结构的在线日志检测方法,具体步骤如下:
S1、通过日志解析器对输入的日志进行预处理;
S2、从根节点开始遍历UST搜索树并匹配叶节点;
S3、基于步骤S2,将日志自身信息与叶节点相关模板匹配,若没有合适模板便将模板新增到叶节点;
S4、对饱和叶节点根据模板相似度进行分割,原叶节点变为内部节点;
S5、根据模板匹配结果输出日志处理结果,完成日志异常检测。
2.根据权利要求1所述的一种基于进化树结构的在线日志检测方法,其特征在于,所述步骤S1具体如下:
首先通过日志解析器将输入的日志定义为临时有序的非结构化文本消息序列
其中,i表示日志消息li在序列中的位置索引;
再将每条日志消息分割为令牌词,每条日志消息由空格分隔的有限令牌词序列组成;
其中,ti表示日志消息li的令牌词,且 表示所有令牌词的集合,t表示令牌词,j表示日志消息li中令牌词的位置索引,而|ti|表示li中令牌词的总数。
3.根据权利要求1所述的一种基于进化树结构的在线日志检测方法,其特征在于,所述步骤S2具体如下:
定义一个UST实例表示解析树,σ∈[0;1]表示日志模板的相似度阈值,/>表示叶节点模板数量的阈值,N*表示取值为正整数;
其中,表示节点集,N表示节点标识总数,每个节点标识为vk,编号范围为k∈[1,N],/>表示已发现模板集,/>表示节点-模板链接集;
在解析树的顶部,有一个根节点(v1),它是初始化时唯一存在的节点且内部节点至少有一个子节点,其余节点为叶节点,日志模板只附加到叶节点上,一个叶节点不能链接到/>以上的模板;
遍历UST搜索树,直到到达叶节点;日志消息li的解析过程从根节点开始进行遍历;
设定具有相同模板的日志消息具有相同数量的令牌词,则在创建节点时,为每个节点分配一个令牌词;
多个节点可以具有相同的令牌词,但节点的所有子节点具有不同的令牌词,则每个内部节点都有一个函数对于根节点,定义密钥/>
从根节点vk=v1开始,下一级节点vk的令牌词由给出;若在vk的子节点中没有匹配这个令牌词,就用该令牌词创建一个新的节点,并添加到vk的子节点;当确定适当的低级节点后,就选择它作为新的当前节点;重复这个步骤,直到vk是一个叶节点。
4.根据权利要求1所述的一种基于进化树结构的在线日志检测方法,其特征在于,所述步骤S3具体如下:
当找到叶节点之后,通过计算相似性因子simF来寻找附着在vk上的合适模板,评估日志消息li和日志模板对应位置相同标记的数量;其计算方法如下:
其中,表示/>的第j个令牌词;
若找到的最高相似系数大于等于阈值参数σ,则选择相应的模板来匹配li;否则,将创建一个等于li的新模板并将其附加到vk
5.根据权利要求1所述的一种基于进化树结构的在线日志检测方法,其特征在于,所述步骤S4具体如下:
当步骤S3中将模板分配给日志消息li,则UST将在/>中编码新的解析规则,优化解析操作;
首先搜索日志模板中不同令牌词数量最多的位置,这个位置p被设为主点;
若p被识别,叶节点被转换为具有相同标签和键函数key(li)=tp的内部节点;对于模板中位置p上的每个唯一令牌,创建一个带有适当令牌词的新叶节点;所有附加到初始叶节点的模板都按照新的下降规则转移到新创建的叶节点;选择p作为令牌词多样性最高的位置,以优化创建的解析规则的相关性(key(li)=tp)。
CN202311543258.1A 2023-11-17 2023-11-17 基于进化树结构的在线日志检测方法 Pending CN117454296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311543258.1A CN117454296A (zh) 2023-11-17 2023-11-17 基于进化树结构的在线日志检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311543258.1A CN117454296A (zh) 2023-11-17 2023-11-17 基于进化树结构的在线日志检测方法

Publications (1)

Publication Number Publication Date
CN117454296A true CN117454296A (zh) 2024-01-26

Family

ID=89581726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311543258.1A Pending CN117454296A (zh) 2023-11-17 2023-11-17 基于进化树结构的在线日志检测方法

Country Status (1)

Country Link
CN (1) CN117454296A (zh)

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
CN113420296B (zh) 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN113961759B (zh) 基于属性图表示学习的异常检测方法
CN113268370B (zh) 一种根因告警分析方法、***、设备及存储介质
CN114528221A (zh) 一种基于异质图神经网络的软件缺陷预测方法
CN112822052A (zh) 一种基于网络拓扑和告警的网络故障根因定位方法
CN115328782A (zh) 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法
US10055276B2 (en) Probabilistic detect identification
CN111522705A (zh) 一种工业大数据智能运维解决方法
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及***
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
CN115562645B (zh) 一种基于程序语义的配置故障预测方法
CN115268994B (zh) 一种基于tbcnn和多头自注意力机制的代码特征提取方法
CN117454296A (zh) 基于进化树结构的在线日志检测方法
CN116366303A (zh) 基于深度学习的网络异常检测方法、装置、设备及介质
AU2021106594A4 (en) Online anomaly detection method and system for streaming data
CN115883198A (zh) 一种多因素网络异常行为检测方法
CN114925210A (zh) 知识图谱的构建方法、装置、介质及设备
CN113821418A (zh) 故障跟因分析方法及装置、存储介质和电子设备
Lv et al. CEP rule extraction framework based on evolutionary algorithm
CN112698977A (zh) 服务器故障定位方法方法、装置、设备及介质
Zhou et al. Auglog: System log anomaly detection based on contrastive learning and data augmentation
CN115794465B (zh) 一种日志异常检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination