CN116702057A - 一种日志分类方法和计算设备 - Google Patents

一种日志分类方法和计算设备 Download PDF

Info

Publication number
CN116702057A
CN116702057A CN202310613508.8A CN202310613508A CN116702057A CN 116702057 A CN116702057 A CN 116702057A CN 202310613508 A CN202310613508 A CN 202310613508A CN 116702057 A CN116702057 A CN 116702057A
Authority
CN
China
Prior art keywords
log
log packet
feature
classified
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310613508.8A
Other languages
English (en)
Inventor
田昭翔
鲍国顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202310613508.8A priority Critical patent/CN116702057A/zh
Publication of CN116702057A publication Critical patent/CN116702057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例公开了一种日志包分类方法和计算设备,用于为待分类日志包进行分类。在本申请中,计算设备首先确定待分类日志包的多个特征类型,然后基于多个特征类型确定待分类日志包的多个模型参数。接着,计算设备基于多个模型参数计算待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度,最后根据K个相似度从K个日志包类型中确定待分类日志包所属的日志包类型,那么,对于不符合K个日志包类型中任一日志包类型的任意规则的待分类日志包,亦可进行分类。

Description

一种日志分类方法和计算设备
技术领域
本申请涉及数据处理领域,尤其涉及一种日志分类方法和计算设备。
背景技术
随着数据中心业务的发展,每天都会产生海量的日志包,不同的日志包记录着不同的故障信息。日志包可以通过解析处理,并挖掘出高价值信息。为了提高解析处理日志包的效率,一般需要首先对日志包进行分类,并对不同类型的日志包进行执行不同的解析处理逻辑。因此,对日志包进行准确及快速的分类非常重要。
当前,业界基于预置规则对日志包进行分类,预置规则包括一个或多个特征类型,日志包的多个特征类型比对该预置规则的一个或多个特征类型。对于完全满足该预置规则的所有特征类型的日志包,该日志包符合该预设规则,就被划分为该预置规则对应的日志包类型。但是,对于不符合任意预置规则的日志包,这种分类方法则无法对该日志包进行分类。
发明内容
本申请实施例提供了一种日志包分类方法和计算设备,用于为待分类日志包进行分类。
本申请第一方面提供了一种日志包分类方法,计算设备首先确定待分类日志包的多个特征类型,然后基于多个特征类型确定待分类日志包的多个模型参数。接着,计算设备基于多个模型参数计算待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度,最后根据K个相似度从K个日志包类型中确定待分类日志包所属的日志包类型,那么,对于不符合K个日志包类型中任一日志包类型的任意规则的待分类日志包,亦可进行分类。
在一些可能的实现方式中,该计算设备可以确定该K个相似度中最高值相似度,并确定该最高值相似度在该K个日志包类型中对应的日志包类型,得到该待分类日志包所属的日志包类型,从而得到该待分类日志包最可能所属的日志包类型。
在一些可能的实现方式中,该计算设备可以确定该待分类日志包中多个特征中各个特征的特征值,得到该待分类日志包的多个特征值,并基于该多个特征值中各个特征确定对应的特征类型,从而得到该待分类日志包所属的该多个特征类型。
在一些可能的实现方式中,该多个特征包括数据大小、上传人、关键词和/或第一层目录结构。
在一些可能的实现方式中,该计算设备可以获取M个日志包,该M个日志包中各个日志包分别属于该K个日志包类型的一个日志包类型,M为正整数,并确定该K个日志包类型中第k个日志包类型中特征i属于特征类型ij的日志包数量,作为对应的模型参数N(x=ij|y=k),该特征i为该多个特征中的一个,该特征类型ij为该特征i所属的多个特征类型中的一个,i∈I,ij∈Ji,I为该多个特征的集合,Ji为特征i的多个特征类型的集合,k=1,2,…,K,从而得到用于确定待分类日志的日志包类型的模型参数N(x=ij|y=k)。
在一些可能的实现方式中,该计算设备可以基于该M个日志包确定日志包特征,该日志包特征包括一个或多个特征类型,然后在确定该多个特征类型中各个特征类型对应的模型参数之前,该计算设备可以基于该待分类日志包的多个特征类型确定该待分类日志包符合该日志包特征中的至少一个特征类型,从而对待分类日志包进行筛选,提高分类效率。
在一些可能的实现方式中,该计算设备可以获取该第k个日志包类型的多个特征类型中各个特征类型对应的模型参数,得到该第k个日志包类型对应的多个模型参数,k=1,2,…,K,然后将该待分类日志包的多个模型参数和该第k个日志包类型对应的多个模型参数带入预设的朴素贝叶斯公式中,从而得到该待分类日志包与该第k个日志包类型的相似度。
在一些可能的实现方式中,该朴素贝叶斯公式为:
其中,Ncn表示该第cn个日志包类型对应的多个模型参数之和,Nk表示该第k个日志包类型对应的多个模型参数之和,I表示该多个特征,Ji表示该待分类日志包的特征i的特征类型的集合,λ、si为预设的常量参数,N(x=ij|y=cn)表示第cn个日志包的中特征i属于特征类型ij的模型参数,cn=1,2,…,K,从而计算得到该待分类日志包与该第k个日志包类型的相似度。
本申请第二方面提供了一种计算设备,包括:
处理模块,用于确定待分类日志包的多个特征类型;
该处理模块,还用于确定该多个特征类型中各个特征类型对应的模型参数,得到该待分类日志包的多个模型参数;
该处理模块,还用于基于该待分类日志包的多个模型参数计算该待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度;
该处理模块,还用于根据该K个相似度从该K个日志包类型中确定该待分类日志包所属的日志包类型。
在一些可能的实现方式中,该处理模块,具体用于:
确定该K个相似度中最高值相似度;
确定该最高值相似度在该K个日志包类型中对应的日志包类型,得到该待分类日志包所属的日志包类型。
在一些可能的实现方式中,该处理模块,具体用于:
确定该待分类日志包中多个特征中各个特征的特征值,得到该待分类日志包的多个特征值;
基于该多个特征值中各个特征确定对应的特征类型,得到该待分类日志包的该多个特征类型。
在一些可能的实现方式中,该多个特征包括数据大小、上传人、关键词和/或第一层目录结构。
在一些可能的实现方式中,该处理模块,还用于:
获取M个日志包,该M个日志包中各个日志包分别属于该K个日志包类型的一个日志包类型,M为正整数;
确定该K个日志包类型中第k个日志包类型中特征i属于特征类型ij的日志包数量,作为对应的模型参数N(x=ij|y=k),该特征i为该多个特征中的一个,该特征类型ij为该特征i所属的多个特征类型中的一个,i∈I,ij∈Ji,I为该多个特征的集合,Ji为特征i的多个特征类型的集合,k=1,2,…,K。
在一些可能的实现方式中,该处理模块,还用于:
基于该M个日志包确定日志包特征,该日志包特征包括一个或多个特征类型;
基于该待分类日志包的多个特征类型确定该待分类日志包符合该日志包特征中的至少一个特征类型。
在一些可能的实现方式中,该处理模块,具体用于:
获取该第k个日志包类型的多个特征类型中各个特征类型对应的模型参数,得到该第k个日志包类型对应的多个模型参数,k=1,2,…,K;
将该待分类日志包的多个模型参数和该第k个日志包类型对应的多个模型参数带入预设的朴素贝叶斯公式中,得到该待分类日志包与该第k个日志包类型的相似度。
在一些可能的实现方式中,该朴素贝叶斯公式为:
其中,Ncn表示该第cn个日志包类型对应的多个模型参数之和,Nk表示该第k个日志包类型对应的多个模型参数之和,I表示该多个特征,Ji表示该待分类日志包的特征i的特征类型的集合,λ、si为预设的常量参数,N(x=ij|y=cn)表示第cn个日志包的中特征i属于特征类型ij的模型参数,cn=1,2,…,K。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中任一项所述的方法。
本申请第四方面提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中;设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令,至少一个处理器执行该计算机执行指令使得设备实施上述第一方面或者第一方面的任一种可能的实现方式所提供的方法。
本申请第五方面提供一种通信装置,该通信装置可以包括至少一个处理器、存储器和通信接口。至少一个处理器与存储器和通信接口耦合。存储器用于存储指令,至少一个处理器用于执行该指令,通信接口用于在至少一个处理器的控制下与其他通信装置进行通信。该指令在被至少一个处理器执行时,使至少一个处理器执行第一方面或第一方面的任意可能的实现方式中的方法。
本申请第六方面提供了一种芯片***,该芯片***包括处理器,用于支持实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。
在一种可能的设计中,芯片***还可以包括存储器,存储器,用于保存必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包含芯片和其他分立器件。
其中,第二至第六方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种日志包分类方法的流程示意图;
图2-1为本申请实施例提供的基于M个日志包生成多个模型参数的流程示意图;
图2-2为本申请中目录结构的示意图;
图3为本申请实施例提供的一种日志包分类方法的另一流程示意图;
图4为本申请实施例提供的一种计算设备的结构示意图;
图5为本申请实施例提供的一种通信装置的结构示意图。
具体实施方式
本申请实施例提供了一种日志包分类方法和计算设备,用于为待分类日志包进行分类。
下面结合附图,对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
日志包是用于记录操作***或其他应用软件在运行中发生的事件或通信软件的不同用户之间的消息的文件。日志包可以用于跟踪、定位错误、调试和分析代码,并用于监控应用程序的性能。技术人员可以通过日志包里记录的事件判断操作***或应用软件的运行状态。当操作***或应用程序发生出错或崩溃时,可以通过分析日志包得到操作***或应用程序中存在的问题。
随着数据中心业务的发展,每天都会产生海量的日志包,不同的日志包记录着不同的故障信息,通过解析处理日志包,可以挖掘出高价值信息。为了提高解析处理日志包的效率,一般需要首先对日志包进行分类,并对不同类型的日志包进行执行不同的解析处理逻辑。因此,对日志包进行准确及快速的分类非常重要。
当前,业界一般通过设置多个预置规则,每个预置规则对应一个或多个特征类型,若待分类日志包满足某个预置规则的所有特征类型,则该待分类日志包分类为该预置规则对应的日志包类型。例如,日志包类型A对应的预置规则包括:1、上传人为弗兰克;2、日志包的数据大小为0~10兆(M)。那么,若日志包A的上传人为弗兰克,日志包的数据大小为5M,则日志包A符合日志包类型A对应的预置规则,即日志包A分类为日志包类型A。若日志包B的上传人为克里斯,或者,日志包B的数据大小为20兆,则日志包B不符合日志包类型A对应的预置规则,则日志包B不属于该日志包类型A。
但是,对于不符合任意预置规则的日志包,则无法适用这种分类方法进行分类。例如,已知日志包类型A/B/C/D,每个日志包类型都有对应的一个预置规则,每个预置规则都包括一个或多个特征类型,若日志包C不满足任意预置规则,则该分类方法无法对该日志包C进行分类。
为此,本申请提出了一种日志包分类方法。在本申请中,计算设备首先确定待分类日志包的多个特征类型,然后基于多个特征类型确定待分类日志包的多个模型参数。接着,计算设备基于多个模型参数计算待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度,最后根据K个相似度从K个日志包类型中确定待分类日志包所属的日志包类型,那么,对于不符合K个日志包类型中任一日志包类型的任意规则的待分类日志包,亦可进行分类。
在本申请实施例中,通过实施例一基于M个日志包确定多个模型参数,再通过实施例二确定待分类日志包对应的多个模型参数,并基于待分类日志包对应的多个模型参数确定待分类日志包所属的日志包类型。
具体的,如图1所示,计算设备获取M个日志包后,可以通过人工标注的方式确定M个日志包中各个日志包的日志包类型,得到M个日志包中各个日志包类型的日志包数量,并确定M个日志包中各个日志包的特征类型和对应的模型参数N(x=ij|y=k),k=1,2,…,K。另外,计算设备还可以基于M个日志包确定了日志包特征。
那么,计算设备获取待分类日志包后,首先确定待分类日志包的多个特征的特征值,并确定对应的特征类型,得到多个特征类型,并基于多个特征类型和日志包特征确定该待分类日志包是否需要进行分类。若需要进行分类,则计算设备基于待分类日志包的多个特征类型确定待分类日志包的多个模型参数,并基于待分类日志包的多个模型参数和K个日志包类型中各个日志包类型对应的多个模型参数输入朴素贝叶斯公式,以计算待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度,最后根据K个相似度从K个日志包类型中确定待分类日志包所属的日志包类型。那么,对于不符合K个日志包类型中任一日志包类型的任意规则的待分类日志包,亦可进行分类。
请参阅图2-1所示,本申请实施例一提供的日志包分类方法主要包括如下步骤:
201、计算设备获取M个日志包。
在一些可能的实现方式中,M个日志包为在过去的一个或多个时间段产生的日志包,M个日志包记录着过去的一个或多个时间段内操作***或其他应用软件在运行中发生的事件或通信软件的不同用户之间传递的消息,M为正整数。
示例性的,M=10000,即存量的日志包有10000个,其中,2000个日志包记录了在操作***中发生的事件,3000个日志包记录了通信软件中不同用户之间的消息,5000个日志包记录在基于操作***中除了通信软件的各个应用软件中发生的事件。
202、计算设备获取M个日志包中各个日志包的日志包类型。
在本申请实施例中,M个日志包可以为已经标注日志包类型的存量日志包,即M个日志包中各个日志包分别属于K个日志包类型的一个日志包类型,M为正整数。示例性的,计算设备可以预先设置K个日志包类型(K为正整数),在获取M个日志包后时,通过人工标注的方式确定该M个日志包中各个日志包属于K个日志包类型的哪一个日志包类型。示例性的,K个日志包类型包括第1个日志包类型、第2个日志包类型、第3个日志包类型、…、第K个日志包类型。其中,对于M个日志包中的日志包A,可以通过人工标注的方式确定日志包A属于第1个日志包类型。需要说明的是,一个日志包只能属于其中一个日志包类型。示例性的,日志包A属于第1个日志包类型,则日志包A不属于第2个日志包类型、第3个日志包类型、…、第K个日志包类型。
例如,第1个日志包类型为操作***的运行中发生的事件,第2个日志包类型为通信软件的不同用户之间传递的消息,此处不做限定。
203、计算设备根据确定M个日志包中各个日志包的日志包类型确定K个日志包类型中各个日志包类型的日志包数量。
在本申请实施例中,通过上述人工标注之后,得到K个日志包类型中各个日志包类型对应的日志包数量。例如,M=10000,即计算设备获得10000个日志包,这10000个日志包可以分为4种日志包类型,即K=4,分别为第1日志包类型、第2日志包类型、第3日志包类型和第4日志包类型。其中,第1个日志包类型的日志包数量为2500个,第2个日志包类型的日志包数量为3000个,第3个日志包类型的日志包数量为1000个,第4个日志包类型的日志包数量为3500个。
204、计算设备确定M个日志包中属于第k个日志包类型的特征i的特征值属于特征类型ij的日志包数量,k=1,2,…,K。
需要说明的是,每个日志包都可以具有多个特征,其中,I表示多个特征的集合,i∈I。例如,多个特征为4个特征,分别包括数据大小(特征1)、关键词(特征2)、上传人(特征3)和/或第一层目录结构(特征4)。
其中,日志包的每个特征都具有一个特征值。例如日志包A的数据大小区间(特征1)为5M,即日志包A的特征1的特征值为5M。
其中,一个特征可以具有多个特征类型。例如,数据大小(特征1)具有4个特征类型,分别为:(0MB,10MB)(特征类型11)、(10MB,50MB)(特征类型12)、(50MB,200MB)(特征类型13)和(200MB,1000MB)(特征类型14);关键词(特征2)具有5个特征类型,分别为:“安全信息”(特征类型21)、“***登录”(特征类型22)、“网络连接”(特征类型23)、“故障”(特征类型24)、“负载均衡”(特征类型25);上传人(特征3)具有4个特征类型,分别为:本杰明(特征类型31)、亨特(特征类型32)、戈登(特征类型33)和弗兰克(特征类型34)等;第一层目录结构(特征4)具有2个特征类型,分别为:syslog(特征类型41)、math(特征类型42)等(如图1-2所示)。
其中,不同的特征值可以属于相同或不同的特征类型。那么,日志包A的特征1的特征值属于(0MB,10MB)(特征类型11);日志包B的特征1的特征值=8M,也属于(0MB,10MB)(特征类型11);日志包C的特征1的特征值=15M,则属于(10MB,50MB)(特征类型12)。
那么,计算设备可以获取一个日志包的多个特征中各个特征的特征值,得到多个特征值,然后计算设备可以确定多个特征值中各个特征值确定所属的特征类型,得到该日志包的多个特征类型。
例如,日志包A的4个特征的特征值以及所属的特征类型分别为:数据大小区间(特征1)的特征值为5M(属于特征类型11);关键词(特征2)的特征值“安全信息”为(属于特征类型21)、上传人(特征3)为本杰明(属于特征类型21);第一层目录结构(特征4)为syslog(属于特征类型41)。
在本申请实施例中,当计算设备根据确定M个日志包中各个日志包的日志包类型确定第k个日志包类型的日志包数量之后,计算设备可以确定M个日志包中属于第k个日志包类型的特征i属于特征类型ij的日志包数量,其中,k=1,2,…,K。其中,ij∈Ji,Ji为特征i的多个特征类型的集合,特征类型ij即为特征i的各种特征类型。
续上述例子,若K=4,k=1,M=10000,则M个日志包中那么对于第k个日志包类型的日志包数量为2500个。若i=1,ij=12,则计算设备可以确定在这2500个日志包中,数据大小区间(特征1)属于(10MB,50MB)(特征类型12)的日志包数量。则计算设备可以确定在这2500个日志包中:
数据大小区间(特征1)属于(0MB,10MB)(特征类型11)的日志包数量;数据大小区间(特征1)属于(10MB,50MB)(特征类型12)的日志包数量数据大小区间(特征1)属于(50MB,200MB)(特征类型13)的日志包数量;数据大小区间(特征1)属于(200MB,1000MB)(特征类型14)的日志包数量;
关键词(特征2)属于“安全信息”(特征类型21)的日志包数量;关键词(特征2)属于“***登录”(特征类型22)的日志包数量关键词(特征2)属于“网络连接”(特征类型23)的日志包数量;关键词(特征2)属于“故障”(特征类型24)的日志包数量;关键词(特征2)属于“负载均衡”(特征类型25)的日志包数量;
上传人(特征3)属于本杰明(特征类型31)的日志包数量;上传人(特征3)属于亨特(特征类型32)的日志包数量;上传人(特征3)属于戈登(特征类型33)的日志包数量;上传人(特征3)属于弗兰克(特征类型34)的日志包数量;
第一层目录结构(特征4)属于syslog(特征类型41)的日志包数量;第一层目录结构(特征4)属于math(特征类型42)的日志包数量。
205、计算设备基于M个日志包中属于第k个日志包类型的特征i属于特征类型ij的日志包数量,确定对应的模型参数N(x=ij|y=k),k=1,2,…,K。
在一些可能的实现方式中,计算设备可以直接将M个日志包中属于第k个日志包类型的特征i属于特征类型ij的日志包数量作为对应的模型参数N(x=ij|y=k)。在一些可能的实现方式中,计算设备可以基于K个日志包类型中第k个日志包类型中特征i属于特征类型ij的日志包数量进行一定的换算,作为对应的模型参数N(x=ij|y=k)。例如,以第k个日志包类型中特征i属于特征类型j的日志包数量除以1000,并向下取整,得到的值作为对应的模型参数N(x=ij|y=k)。示例性的,N(x=11|y=2)表示第2日志包类型中特征1属于特征类型1所对应的模型参数。
206、计算设备基于M个日志包中各个日志包的多个特征类型确定日志包特征。
需要说明的是,日志包特征用于确定一个日志包是否需要进行分类的待分类日志包,若该日志包具有该日志包特征,则确定该日志包为待分类日志包,即需要进行分类,否则确定该日志包无需进行分类。
在一些可能的实现方式中,若M个日志包的至少一个日志包中存在一个特征属于某个特征类型,则该特征类型属于该日志包特征。否则,若M个日志包的任意日志包的任意特征都不属于的某个特征类型,则该特征类型不属于该日志包特征。
示例性的,若M个日志包中属于第1个日志包类型的特征1属于特征类型13的日志包数量为100,则该日志包特征包括该特征类型13;若M个日志包中特征1属于特征类型13的日志包数量为0,则该日志包特征不包括该特征类型13。
示例性的,通过计算设备基于M个日志包中各个日志包的多个特征类型确定日志包特征,日志包特征可以包括特征类型11、特征类型12、特征类型13、特征类型21、特征类型22、特征类型23、特征类型24、特征类型25、特征类型31、特征类型32、特征类型33、特征类型34、特征类型41、特征类型42,而不包括特征类型14。也就是说,对于数据大小区间(特征1)属于(200MB,1000MB)(特征类型14)的日志包,则不进行分类。
需要说明的是,步骤206是可选的。
在本申请实施例中,计算设备通过获取M个日志包,并确定M个日志包中属于第k个日志包类型的特征i属于特征类型ij的日志包数量,确定对应的模型参数N(x=ij|y=k),k=1,2,…,K,以使得后续可以通过该模型参数计算待分类日志包与K个日志包类型的相似度,以对待分类日志包进行分类。另外,计算设备还可以基于M个日志包确定了日志包特征,以使得后续可以判断待分类日志包是否需要进行分类,提高日志包的分类效率。
请参阅图3所示,本申请实施例二提供的日志包分类方法主要包括如下步骤:
301、计算设备获取待分类日志包。
在本申请实施例中,待分类日志包可以为计算设备实时产生的日志包。示例性的,该待分类日志包为操作***或其他应用软件在运行中实时发生的事件或通信软件的不同用户之间的消息的文件。
302、计算设备提取待分类日志包的多个特征的特征值,得到该待分类日志包的多个特征值。
在一些可能的实现方式中,则计算设备可以提取待分类日志包中多个特征中各个特征的特征值。例如,多个特征可以包括数据大小(特征1)、名称中的关键词(特征2)、上传人(特征3)和第一层目录结构(特征4)等。
示例性的,待分类日志包的数据大小(特征1)为5M(特征值),日志包的名称(特征2)为“安全信息和***登录与网络连接的信息”,其名称中的关键词为“安全信息”“***登录”“网络连接”(特征值),上传人(特征3)为本杰明(特征值),第一层目录结构(特征4)包括math(特征值),此处不做限定。
在一些可能的实现方式中,计算设备可以基于预置分词库提取待分类日志包的名称中的关键词。预置分词库中包括多个关键词,待分类日志包的名称中若具有该预置分词库中的一个关键词,则计算设备可以从待分类日志包的名称中提取该关键词,作为该待分类日志包的该特征的特征值。
例如,预置分词库包括以下多个关键词:“安全信息”“***登录”“网络连接”“故障”“负载均衡”。那么,在待分类日志包的名称“安全信息和***登录与网络连接的信息”中,具有关键词“安全信息”“***登录”“网络连接”,因此,计算设备从该待分类日志包的名称中提取到的关键词为“安全信息”“***登录”“网络连接”,分别作为该待分类日志包的该特征的特征值。
303、计算设备基于日志包特征确定待分类日志包是否需要进行分类。
续前述例子,日志包特征可以包括特征类型11、特征类型12、特征类型13、特征类型21、特征类型22、特征类型23、特征类型24、特征类型25、特征类型31、特征类型32、特征类型33、特征类型34、特征类型41、特征类型42,而不包括特征类型14,那么,若待分类日志包的数据大小为5M,则满足特征类型11,符合该日志包特征,即需要对该待分类日志包进行分类。若待分类日志包的数据大小为500M,则满足特征类型14,不符合该日志包特征,则不需要对该待分类日志包进行分类。
需要说明的是,步骤203是可选的。
304、计算设备确定该待分类日志包的多个特征值中各个特征值所属的特征类型,得到该待分类日志包的多个特征类型。
续上述例子,若待分类日志包为日志包A,若该待分类日志包中的数据大小(特征1)为5M(特征值),则属于特征类型11;若该待分类日志包中的名称中的关键词(特征2)为“***登录”(特征值)和“网络连接”(特征值)(基于预置分词库中找到对应的名词),分别属于特征类型22和特征类型24;若该待分类日志包中的上传人(特征3)为本杰明(特征值),属于为特征类型31;若该待分类日志包中的第一层目录结构(特征4)为math(特征值),属于为特征类型42。
305、计算设备确定待分类日志包的多个特征类型中各个特征类型对应的模型参数,得到该待分类日志包的多个模型参数。
续上述例子,N(x=ij|y=k)表示第k个日志包类型中特征i的特征值对应的特征类型ij对应的模型参数。该待分类日志包的特征1的特征值1属于特征类型11,其特征2的特征值2属于特征类型22和特征类型24,其特征3的特征值3属于特征类型31,其特征4的特征值4属于特征类型42,那么,该待分类日志包对应的多个模型参数分别为N(x=11|y=k)、N(x=22|y=k)、N(x=24|y=k)、N(x=31|y=k)、N(x=42|y=k),其中k=1,2,…,K。
306、计算设备基于该待分类日志包的多个模型参数和K个日志包类型中各个日志包类型对应的多个模型参数计算该待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度。
在一些可能的实现方式中,计算设备可以计算第cn个日志包类型对应的多个模型参数之和,然后将待分类日志包的多个模型参数和第cn个日志包类型对应的多个模型参数之和带入预设的朴素贝叶斯公式中,得到该待分类日志包与第cn个日志包类型的相似度。
续上述例子,该待分类日志包的多个模型参数分别为N(x=11|y=k)、N(x=22|y=k)、N(x=24|y=k)、N(x=31|y=k)、N(x=42|y=k),其中k=1,2,…,K,而Ncn表示第cn类日志包类型的多个模型参数之和,将Ncn和N(x=11|y=k)、N(x=22|y=k)、N(x=24|y=k)、N(x=31|y=k)、N(x=42|y=k),其中k=1,2,…,K带入下述朴素贝叶斯分类公式中,得到相似度f(cn):
其中,Ncn表示所述第cn个日志包类型对应的多个模型参数之和,Nk表示所述第k个日志包类型对应的多个模型参数之和,I表示所述多个特征,Ji表示所述待分类日志包的特征i的特征类型的集合,λ、si为预设的常量参数,N(x=ij|y=cn)表示第cn个日志包的中特征i属于特征类型ij的模型参数,cn=1,2,…,K。
续上述例子,J1={1},J2={2,4},J3={1},J4={2}。通过该朴素贝叶斯分类公式,可以得到该待分类日志包与K个日志包类型的相似度,即K个相似度。
307、计算设备根据K个相似度从K个日志包类型中确定待分类日志包所属的日志包类型。
在一些可能的实现方式中,计算设备可以取K个相似度中最高值相似度,并以该最高值相似度在K个日志包类型中对应的日志包类型,作为该待分类日志包所属的日志包类型。
示例性的,计算设备确定待分类日志包和第1个日志包类型、第2个日志包类型、…、第K个日志包类型的相似度,得到相似度1、2、…、K,比对相似度1、2、…、K,取其中的最高值相似度对应的日志包类型作为该待分类日志包的日志包类型。
在一些可能的实现方式中,计算设备可以取K个相似度中高于预设值的相似度,并以该高于预设值的相似度在K个日志包类型中对应的日志包类型,作为该待分类日志包所属的日志包类型。此处不做限定。
在本申请中,计算设备首先确定待分类日志包的多个特征类型,然后基于多个特征类型确定待分类日志包的多个模型参数。接着,计算设备基于多个模型参数计算待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度,最后根据K个相似度从K个日志包类型中确定待分类日志包所属的日志包类型,那么,对于不符合K个日志包类型中任一日志包类型的任意规则的待分类日志包,亦可进行分类。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
为便于更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图4所示,本申请实施例提供的一种计算设备400,可以包括处理模块401,所述处理模块401,用于执行下述步骤:
确定待分类日志包的多个特征类型;确定该多个特征类型中各个特征类型对应的模型参数,得到该待分类日志包的多个模型参数;基于该待分类日志包的多个模型参数计算该待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度;根据该K个相似度从该K个日志包类型中确定该待分类日志包所属的日志包类型。
在一些可能的实现方式中,该处理模块401,具体用于:确定该K个相似度中最高值相似度;确定该最高值相似度在该K个日志包类型中对应的日志包类型,得到该待分类日志包所属的日志包类型。
在一些可能的实现方式中,该处理模块401,具体用于:确定该待分类日志包中多个特征中各个特征的特征值,得到该待分类日志包的多个特征值;基于该多个特征值中各个特征确定对应的特征类型,得到该待分类日志包的该多个特征类型。
在一些可能的实现方式中,该多个特征包括数据大小、上传人、关键词和/或第一层目录结构。
在一些可能的实现方式中,该计算设备400还包括:
获取模块402,用于获取M个日志包,该M个日志包中各个日志包分别属于该K个日志包类型的一个日志包类型,M为正整数;
该处理模块401,还用于确定该K个日志包类型中第k个日志包类型中特征i属于特征类型ij的日志包数量,作为对应的模型参数N(x=ij|y=k),该特征i为该多个特征中的一个,该特征类型ij为该特征i所属的多个特征类型中的一个,i∈I,ij∈Ji,I为该多个特征的集合,Ji为特征i的多个特征类型的集合,k=1,2,…,K。
在一些可能的实现方式中,该处理模块401,还用于:基于该M个日志包确定日志包特征,该日志包特征包括一个或多个特征类型;基于该待分类日志包的多个特征类型确定该待分类日志包符合该日志包特征中的至少一个特征类型。
在一些可能的实现方式中,该处理模块401,具体用于:获取该第k个日志包类型的多个特征类型中各个特征类型对应的模型参数,得到该第k个日志包类型对应的多个模型参数,k=1,2,…,K;将该待分类日志包的多个模型参数和该第k个日志包类型对应的多个模型参数带入预设的朴素贝叶斯公式中,得到该待分类日志包与该第k个日志包类型的相似度。
在一些可能的实现方式中,该朴素贝叶斯公式为:
其中,Ncn表示该第cn个日志包类型对应的多个模型参数之和,Nk表示该第k个日志包类型对应的多个模型参数之和,I表示该多个特征,Ji表示该待分类日志包的特征i的特征类型的集合,λ、si为预设的常量参数,N(x=ij|y=cn)表示第cn个日志包的中特征i属于特征类型ij的模型参数,cn=1,2,…,K。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储有程序,该程序执行包括上述方法实施例中记载的部分或全部步骤。
接下来介绍本申请实施例提供的另一种通信装置,请参阅图5所示,通信装置500包括:
接收器501、发射器502、处理器503和存储器504。在本申请的一些实施例中,接收器501、发射器502、处理器503和存储器504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
存储器504可以包括只读存储器和随机存取存储器,并向处理器503提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器504存储有操作***和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作***可包括各种***程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器503控制通信装置500的操作,处理器503还可以称为中央处理单元(central processing unit,CPU)。具体的应用中,通信装置500的各个组件通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线***。
上述本申请实施例揭示的方法可以应用于处理器503中,或者由处理器503实现。处理器503可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器503可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504,处理器503读取存储器504中的信息,结合其硬件完成上述方法的步骤。
接收器501可用于接收输入的数字或字符信息,以及产生与相关设置以及功能控制有关的信号输入,发射器502可包括显示屏等显示设备,发射器502可用于通过外接接口输出数字或字符信息。
本申请实施例中,处理器503,用于执行前述的日志包分类方法。
在另一种可能的设计中,当通信装置500为芯片时,包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使该终端内的芯片执行上述第一方面任意一项的无线报告信息的发送方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元,如只读存储器(read-onlymemory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,RAM)等。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

Claims (10)

1.一种日志包分类方法,其特征在于,包括:
计算设备确定待分类日志包的多个特征类型;
所述计算设备确定所述多个特征类型中各个特征类型对应的模型参数,得到所述待分类日志包的多个模型参数;
所述计算设备基于所述待分类日志包的多个模型参数计算所述待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度;
所述计算设备根据所述K个相似度从所述K个日志包类型中确定所述待分类日志包所属的日志包类型。
2.根据权利要求1所述方法,其特征在于,所述计算设备根据所述K个相似度确定所述待分类日志包所属的日志包类型包括:
所述计算设备确定所述K个相似度中最高值相似度;
所述计算设备确定所述最高值相似度在所述K个日志包类型中对应的日志包类型,得到所述待分类日志包所属的日志包类型。
3.根据权利要求1或2所述方法,其特征在于,所述计算设备确定待分类日志包的多个特征类型包括:
所述计算设备确定所述待分类日志包中多个特征中各个特征的特征值,得到所述待分类日志包的多个特征值;
所述计算设备基于所述多个特征值中各个特征确定对应的特征类型,得到所述待分类日志包的所述多个特征类型。
4.根据权利要求1-3中任一项所述方法,其特征在于,所述多个特征包括数据大小、上传人、关键词和/或第一层目录结构。
5.根据权利要求1-4中任一项所述方法,其特征在于,所述方法还包括:
所述计算设备获取M个日志包,所述M个日志包中各个日志包分别属于所述K个日志包类型的一个日志包类型,M为正整数;
所述计算设备确定所述K个日志包类型中第k个日志包类型中特征i属于特征类型ij的日志包数量,作为对应的模型参数N(x=ij|y=k),所述特征i为所述多个特征中的一个,所述特征类型ij为所述特征i所属的多个特征类型中的一个,i∈I,ij∈Ji,I为所述多个特征的集合,Ji为特征i的多个特征类型的集合,k=1,2,…,K。
6.根据权利要求5所述方法,其特征在于,所述计算设备获取M个日志包之后,还包括:
所述计算设备基于所述M个日志包确定日志包特征,所述日志包特征包括一个或多个特征类型;
所述计算设备确定所述多个特征类型中各个特征类型对应的模型参数之前,所述方法还包括:
所述计算设备基于所述待分类日志包的多个特征类型确定所述待分类日志包符合所述日志包特征中的至少一个特征类型。
7.根据权利要求1-6中任一项所述方法,其特征在于,所述计算设备基于所述待分类日志包的多个模型参数计算所述待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度,包括:
所述计算设备获取所述第k个日志包类型的多个特征类型中各个特征类型对应的模型参数,得到所述第k个日志包类型对应的多个模型参数,k=1,2,…,K;
所述计算设备将所述待分类日志包的多个模型参数和所述第k个日志包类型对应的多个模型参数带入预设的朴素贝叶斯公式中,得到所述待分类日志包与所述第k个日志包类型的相似度。
8.根据权利要求7所述方法,其特征在于,所述朴素贝叶斯公式为:
其中,Ncn表示所述第cn个日志包类型对应的多个模型参数之和,Nk表示所述第k个日志包类型对应的多个模型参数之和,I表示所述多个特征,Ji表示所述待分类日志包的特征i的特征类型的集合,λ、si为预设的常量参数,N(x=ij|y=cn)表示第cn个日志包的中特征i属于特征类型ij的模型参数,cn=1,2,…,K。
9.一种计算设备,其特征在于,包括:
处理模块,用于确定待分类日志包所属的多个特征类型;
所述处理模块,还用于基于所述多个特征类型中各个特征类型确定对应的模型参数,得到所述待分类日志包的多个模型参数;
所述处理模块,还用于基于所述待分类日志包的多个模型参数计算所述待分类日志包与K个日志包类型中各个日志包类型的相似度,得到K个相似度;
所述处理模块,还用于根据所述K个相似度从所述K个日志包类型中确定所述待分类日志包所属的日志包类型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,所述程序使得计算机设备执行如权利要求1-8中任一项所述的方法。
CN202310613508.8A 2023-05-24 2023-05-24 一种日志分类方法和计算设备 Pending CN116702057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310613508.8A CN116702057A (zh) 2023-05-24 2023-05-24 一种日志分类方法和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310613508.8A CN116702057A (zh) 2023-05-24 2023-05-24 一种日志分类方法和计算设备

Publications (1)

Publication Number Publication Date
CN116702057A true CN116702057A (zh) 2023-09-05

Family

ID=87842554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310613508.8A Pending CN116702057A (zh) 2023-05-24 2023-05-24 一种日志分类方法和计算设备

Country Status (1)

Country Link
CN (1) CN116702057A (zh)

Similar Documents

Publication Publication Date Title
US20150347923A1 (en) Error classification in a computing system
CN109284269A (zh) 异常日志分析方法、装置、存储介质及服务器
CN110224874B (zh) 一种设备故障的处理方法及装置
US20210240691A1 (en) Anomaly identification in log files
CN113254255B (zh) 一种云平台日志的分析方法、***、设备及介质
CN111651595A (zh) 一种异常日志处理方法及装置
CN113626241B (zh) 应用程序的异常处理方法、装置、设备及存储介质
CN112799785B (zh) 虚拟机集群迁移方法、装置、设备和介质
CN111400361A (zh) 数据实时存储方法、装置、计算机设备和存储介质
CN112181430A (zh) 代码变更统计方法、装置、电子设备及存储介质
CN110334262B (zh) 一种模型训练方法、装置及电子设备
CN112256517B (zh) 基于lstm-dssm的虚拟化平台的日志分析方法及装置
CN113326064A (zh) 划分业务逻辑模块的方法、电子设备及存储介质
CN113282920A (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN112631920A (zh) 一种测试方法、装置、电子设备及可读存储介质
CN111767161A (zh) 远程调用深度识别方法、装置、计算机设备及可读存储介质
CN116702057A (zh) 一种日志分类方法和计算设备
CN114168557A (zh) 一种访问日志的处理方法、装置、计算机设备和存储介质
CN114297236A (zh) 一种数据血缘分析方法、终端设备及存储介质
CN113656354A (zh) 日志分类方法、***、计算机设备和可读存储介质
CN113569879A (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
CN113535594B (zh) 业务场景测试用例的生成方法、装置、设备和存储介质
CN117520426A (zh) 一种数据转换方法、装置及电子设备
CN117150123A (zh) 一种基于云计算的资源分配方法及***
CN116257404A (zh) 一种日志解析方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination