CN110825873B - 用于对日志异常分类规则进行扩充的方法及装置 - Google Patents

用于对日志异常分类规则进行扩充的方法及装置 Download PDF

Info

Publication number
CN110825873B
CN110825873B CN201910963708.XA CN201910963708A CN110825873B CN 110825873 B CN110825873 B CN 110825873B CN 201910963708 A CN201910963708 A CN 201910963708A CN 110825873 B CN110825873 B CN 110825873B
Authority
CN
China
Prior art keywords
log
abnormal
log data
classification rule
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910963708.XA
Other languages
English (en)
Other versions
CN110825873A (zh
Inventor
朱新新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910963708.XA priority Critical patent/CN110825873B/zh
Publication of CN110825873A publication Critical patent/CN110825873A/zh
Application granted granted Critical
Publication of CN110825873B publication Critical patent/CN110825873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种用于对日志异常分类规则进行扩充的方法及装置,利用该方法,对未分类异常日志集中的日志数据进行聚类处理以得到日志数据的日志异常类别,并提取各种日志异常类别中的日志数据的关键特征集,基于所提取的关键特征集来生成日志异常分类规则,再将所生成的日志异常分类规则添加至日志异常分类规则库。这样实现了对已有的日志异常分类规则进行扩充,并且经过扩充后的日志异常分类规则库可以提高对日志异常分类的分类成功率。

Description

用于对日志异常分类规则进行扩充的方法及装置
技术领域
本公开涉及计算机技术领域,具体地,涉及用于对日志异常分类规则进行扩充的方法及装置。
背景技术
计算机***在处理每个事件时,会生成相应的日志,每条日志记录了一个事件的相关信息,比如事件发生的操作内容、日期及时间等信息。当事件为***错误时,可以通过所生成的日志来判断出错误的类别并查明错误的原因。
目前,当***发生错误时,一种方式是依靠人工来查询错误日志,并根据错误日志来判断出错误日志的类别,这种完全依靠于人工的方式分类效率较低,为了提高日志分类效率,另一种方式是通过人工经验设定一些规则来对错误日志进行分类。但是,错误日志的类别包括很多种,人工设定的规则不可能包含所有类别,而只能用常见的规则来对常见的错误日志进行分类,当出现不常见的错误日志时,这些规则无法对这些错误日志进行分类。因此,为了提高错误日志的分类成功率,如何对已存在的错误日志分类规则进行扩充是亟待解决的问题。
发明内容
鉴于上述,本公开提供了一种用于对日志异常分类规则进行扩充的方法及装置。本说明书一个实施例实现了:对未分类异常日志集中的日志数据进行聚类处理以得到日志数据的日志异常类别,并提取各种日志异常类别中的日志数据的关键特征集,基于所提取的关键特征集来生成日志异常分类规则,再将所生成的日志异常分类规则添加至日志异常分类规则库。这样实现了对已有的日志异常分类规则进行扩充,并且经过扩充后的日志异常分类规则库可以提高对日志异常分类的分类成功率。
根据本公开的一个方面,提供了一种用于对日志异常分类规则进行扩充的方法,包括:获取未分类异常日志集,所述未分类异常日志集包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据,并且每条日志数据包括多种特征字段;对所述第一数目条日志数据进行聚类处理,以得到所述第一数目条日志数据的日志异常类别;使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集;基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则;以及将所生成的日志异常分类规则添加至所述日志异常分类规则库。
可选地,在上述方面的一个示例中,所述日志数据是非结构化日志数据。
可选地,在上述方面的一个示例中,所述日志异常分类规则中的每条日常异常分类规则包括关键特征集与日志异常类别的对应关系。
可选地,在上述方面的一个示例中,使用文本处理技术来提取各种日志异常类别的日志数据的关键特征集包括:针对每种日志异常类别,从属于该日志异常类别的各条日志数据中提取针对该日志异常类别的共有特征;以及基于所提取的共有特征,确定关键特征。
可选地,在上述方面的一个示例中,在使用文本处理技术来提取各种日志异常类别的关键特征集之前,所述方法还包括:针对每种日志异常类别,从属于该日志异常类别的日志数据中选取第二数目条日志数据。
可选地,在上述方面的一个示例中,使用文本处理技术来提取各种日志异常类别的关键特征集包括:针对每种日志异常类别,提取该日志异常类别中的各条日志数据的指定特征;确定所提取的指定特征的重要程度;以及将所提取的指定特征中重要程度最高的第三数目个指定特征,确定为关键特征。
可选地,在上述方面的一个示例中,确定所提取的指定特征的重要程度包括:确定所提取的每个指定特征的权重,以作为该指定特征的重要程度。
可选地,在上述方面的一个示例中,将所生成的日志异常分类规则添加至所述日志异常分类规则库包括:针对各个日志异常分类规则,从对应的日志数据中选取测试日志数据;使用所选取的测试日志数据来测试对应的日志异常分类规则;以及将测试通过的日志异常分类规则添加到所述日志异常分类规则库中。
可选地,在上述方面的一个示例中,基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则包括:对所提取的各种异常类别的日志数据的关键特征集进行文本主题提取;以及基于所提取的文本主题,生成与各种日志异常类别对应的日志异常分类规则。
根据本公开的另一方面,还提供一种用于对日志异常分类规则进行扩充的装置,包括:日志集获取单元获取未分类异常日志集,所述未分类异常日志集包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据,并且每条日志数据包括多种特征字段;聚类处理单元对所述第一数目条日志数据进行聚类处理,以得到所述第一数目条日志数据的日志异常类别;关键特征提取单元使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集;分类规则生成单元基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则;以及分类规则添加单元将所生成的日志异常分类规则添加至所述日志异常分类规则库。
可选地,在上述方面的一个示例中,所述关键特征提取单元进一步:针对每种日志异常类别,从属于该日志异常类别的各条日志数据中提取针对该日志异常类别的共有特征;以及基于所提取的共有特征,确定关键特征。
可选地,在上述方面的一个示例中,所述装置还包括:日志数据选取单元,针对每种日志异常类别,从属于该日志异常类别的日志数据中选取第二数目条日志数据。
可选地,在上述方面的一个示例中,所述关键特征提取单元包括:针对每种日志异常类别,指定特征提取模块,提取该日志异常类别中的各条日志数据的指定特征;重要程度确定模块,确定所提取的指定特征的重要程度;以及关键特征确定模块,将所提取的指定特征中重要程度最高的第三数目个指定特征,确定为关键特征。
可选地,在上述方面的一个示例中,所述重要程度确定模块进一步:确定所提取的每个指定特征的权重,以作为该指定特征的重要程度。
可选地,在上述方面的一个示例中,所述分类规则添加单元进一步:针对各个日志异常分类规则,从对应的日志数据中选取测试日志数据;使用所选取的测试日志数据来测试对应的日志异常分类规则;以及将测试通过的日志异常分类规则添加到所述日志异常分类规则库中。
可选地,在上述方面的一个示例中,所述分类规则生成单元进一步:对所提取的各种异常类别的日志数据的关键特征集进行文本主题提取;以及基于所提取的文本主题,生成与各种日志异常类别对应的日志异常分类规则。
根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于对日志异常分类规则进行扩充的方法。
根据本公开的另一方面,还提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于对日志异常分类规则进行扩充的方法。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1示出了本公开的实施例的用于对日志异常分类规则进行扩充的方法的流程图;
图2示出了本公开的实施例的日志数据的一种示例的示意图;
图3示出了本公开的实施例的日志异常分类规则库中的各条日志异常分类规则的一个示例的示意图;
图4示出了本公开的实施例的对日志异常分类规则进行实时扩充的方法的示意图;
图5示出了本公开的实施例的用于对日志异常分类规则进行扩充的装置的方框图;
图6是根据本公开实施例的用于对日志异常分类规则进行扩充的方法的计算设备的方框图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在计算机***中,每个事件均会生成相应的日志,日志可以反映出所对应事件的相关信息。尤其是事件为***错误时,可以根据错误日志来判断出类别,进而查出***错误的原因。
目前,当***发生错误时,一种方式是依赖人工来查询错误日志,并根据错误日志人工来判断出错误日志的类别。这种完全依赖于人工的方式会导致分类效率较低,尤其是所发生的错误涉及到多个***时,需要排查人员一个一个的进行排查,这样会花费大量的时间。并且,这种人工排查方式中对排查人员的要求较高,需要排查人员有一定的技术基础,能看懂***日志所表达的意思。
为了解决依赖于人工的问题,且为了提高日志分类效率,还可以通过设定的规则来对错误日志进行分类。这些规则可以是根据人工经验预先设定的。然而,错误日志的类别包括很多种,人工设定的规则不可能包含所有类别,而只能用常见的规则来对常见的错误日志进行分类,当出现不常见的错误日志时,这些规则无法对这些错误日志进行分类。
为了解决上述问题,本公开提供了一种用于对日志异常分类规则进行扩充的方法及装置。利用该用于对日志异常分类规则进行扩充的方法及装置,对未分类异常日志集中的日志数据进行聚类处理以得到日志数据的日志异常类别,并提取各种日志异常类别中的日志数据的关键特征集,基于所提取的关键特征集来生成日志异常分类规则,再将所生成的日志异常分类规则添加至日志异常分类规则库。这样实现了对已有的日志异常分类规则进行扩充,并且经过扩充后的日志异常分类规则库可以提高对日志异常分类的分类成功率。
下面将结合附图来详细描述根据本公开实施例的用于对日志异常分类规则进行扩充的方法及装置。
图1示出了本公开的实施例的用于对日志异常分类规则进行扩充的方法的流程图。
如图1所示,在块110,获取未分类异常日志集。
在本公开中,未分类异常日志集可以包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据。
第一数目可以是指定的,例如,未分类异常日志集持续地存储不能分类的日志数据,直至所存储的不能分类的日志数据的数量达到第一数目。此时可以基于该第一数目条日志数据对日志异常分类规则进行扩充。
第一数目还可以是非指定的数量,比如可以是任意数量。例如,当达到指定时间点或者经过指定时长时,未分类异常日志集中不能分类的日志数据可以是任意数量。
在本公开中,每条日志数据可以包括多种特征字段,每种特征字段中存储至少一种特征信息,特征信息可以包括日期和时间、源信息、类型、用户名以及机器标识等。其中,源信息是指日志数据对应的操作内容,类型是指日志数据对应的事件的类型。
图2示出了本公开的实施例的日志数据200的一种示例的示意图。如图2所示,该日志数据200包括至少五个特征字段,该五个特征字段中的特征信息包括:日期和时间,源信息,类型,用户名以及机器标识。
在本公开的一个示例中,日志数据可以是结构化的日志数据,还可以是非结构化的日志数据。本公开中以非结构化的日志数据为例进行说明。
对于非结构化的日志数据,可以先将非结构化的日志数据转换成为结构化的日志数据,再基于结构化的日志数据进行后续处理以生成相应的日志异常分类规则。
在本公开中,日志异常分类规则库中的日志异常分类规则可以是根据本公开提供的方法生成的,还可以是根据人工经验设置的。
在块120,对第一数目条日志数据进行聚类处理,以得到第一数目条日志数据的日志异常类别。
在本公开中,日志异常类别可以包括***繁忙,反馈延迟,加载错误,网络错误以及缺失文件等。
在本公开中,聚类处理可以是文本聚类算法。针对每条日志数据,首先进行分词处理,然后将所得到的分词转换为词向量,其中,词向量转换可以利用one-hot模型、BoW(Bag-of-words,词袋)模型、CBoW(Continuous Bag-Of-Words,连续词袋)模型、Skip-Gram模型以及Word2vec模型等模型中的任一个。最后可以使用一种聚类算法来对各条日志数据的词向量进行计算,得到日志数据的日志异常类别。其中,聚类算法可以是K-means、k-medoids、CLARANS(基于随机选择的聚类算法)、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的聚类方法)、OPTICS(Ordering Pointsto identify the clustering structure,对点排序以此来确定簇结构)以及DENCLUE(density-based clustering,基于密度的聚类算法)等算法中的一种。
以K-means为例,预先设定类别数为k,并从所得到的词向量中选择k个词向量作为k个初始类别的中心。对于其他未被选择的每个词向量,根据词向量与每个类别的中心的欧几里得距离,划分到最近的类别中。在将所有的词向量分配完之后,重新计算每个类别的中心,在重新计算每个词向量与新的中心的欧几里得距离,并将每个词向量重新划分类别。重复上述过程,直至所有的词向量不再重新分配位置。
在块130,使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集。
在本公开中,文本处理技术包括针对文本的字段特征提取、分词处理、去停用词以及词向量转换等处理技术。每种日志异常类别包括至少一条日志数据,每种日志异常类别对应有一个关键特征集,该关键特征集包括该日志异常类别的日志数据的关键特征。
在本公开的一个示例中,针对每种日志异常类别,从属于该日志异常类别的各条日志数据中提取针对该日志异常类别的共有特征。共有特征是日志异常类别中的每条日志数据均存在的特征,例如,属于一种日志异常类别的日志数据A、日志数据B以及日志数据C,其中,日志数据A的特征包括特征1、特征2和特征3,日志数据B的特征包括特征1、特征3和特征4,日志数据C的特征包括特征1和特征5,则可以确定特征1是日志数据A、日志数据B以及日志数据C的共有特征。
在提取到针对该日志异常类别的共有特征后,可以基于所提取的共有特征来确定关键特征。在一个示例中,可以将所提取的共有特征中的指定特征确定为关键特征。在另一个示例中,可以将所提取的所有共有特征确定为关键特征。在另一个示例中,可以从所提取的共有特征中选取指定数量的共有特征,并将所选取的共有特征确定为关键特征。在该示例中,选取的方式可以是随机选取,还可以是按指定规则进行选取。
在上述示例中,基于日志数据的共有特征来确定关键特征,这样所确定的关键特征能够体现出日志异常类别的通用特点,基于这样的关键特征来对异常日志分类,能够提高分类的准确度。
在本公开的一个示例中,可以在使用文本处理技术来提取各种日志异常类别的关键特征集之前,针对每种日志异常类别,从属于该日志异常类别的日志数据中选取第二数目条日志数据。
在该示例中,第二数目可以是指定的。选取的方式可以是随机选取,还可以是按指定规则进行选取。例如,第二数目为1,针对每种日志异常类别,从属于该日志异常类别的日志数据中随机选取一条日志数据。
当日志异常类别中的日志数据的数量少于第二数目时,则可以不进行选取操作。
对于同一日志异常类别的日志数据,可以认为具有相同的特征,因此对于每种日志异常类别只选取第二数目条日志数据进行关键特征的提取,避免了针对相同关键特征进行多次重复提取,降低了计算量,提高了计算效率。
在本公开的一个示例中,针对每种日志异常类别,可以提取该日志异常类别中的各条日志数据的指定特征,并确定所提取的每个指定特征的重要程度。
在一个示例中,可以用权重来表征重要程度,权重越大则重要程度越高。基于此,可以确定所提取的每个指定特征的权重,以作为该指定特征的重要程度。
在一个示例中,每个指定特征的权重可以是根据人工经验确定的。例如,根据人工经验预先确定每个特征的权重,在提取到指定特征后,从预先确定的特征的权重中查询每个指定特征的权重。
在另一个示例中,可以使用textrank算法来计算每个指定特征的权重。textrank算法的公式为:
Figure BDA0002229790430000091
其中,Vi表示一个指定特征,Vj表示另一个指定特征,WS(Vi)表示指定特征Vi的权重,WS(Vj)表示指定特征Vj的权重,d表示阻尼系数,ωji表示指定特征Vi和Vj之间的权重,Out(Vj)表示出链到指定特征Vj的指定特征的集合,In(Vi)表示入链到指定特征Vi的指定特征的集合。本公开中,由指定特征Vi得到指定特征Vj,称为Vi入链Vj。指定特征Vi中附加有得到指定特征Vj的方式,称为Vi出链Vj
按照上述公式进行迭代计算,直至每个指定特征的前后两次的权重的差值小于指定差值阈值,或者迭代次数达到指定次数阈值。
在确定出每个指定特征的重要程度后,可以将所提取的指定特征中重要程度最高的第三数目个指定特征,确定为关键特征。在该示例中,第三数目可以是指定的。例如,第三数目为1,则将所提取的指定特征中重要程度最高的指定特征确定为关键特征。
在上述示例中,根据指定特征的重要程度来确定关键特征,所确定出的关键特征是对于日志异常类别来说重要程度最高的特征,因此更能表征该日志异常类别的特点,在后续的基于关键特征进行分类时可以提高分类的准确度。
在块140,基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则。
在一个示例中,每条日志异常分类规则可以是日志异常类别与关键特征集的对应关系。该对应关系可以是键值对的形式。
图3示出了本公开的实施例的日志异常分类规则库中的日志异常分类规则的一个示例的示意图。如图3所示,日志异常分类规则库中涉及的日志异常类别包括***繁忙、反馈延迟和加载错误,分别对应于日志异常分类规则1、日志异常分类规则2和日志异常分类规则3。其中,日志异常分类规则1中包括***繁忙与关键特征集1的对应关系,日志异常分类规则2中包括反馈延迟与关键特征集2的对应关系,日志异常分类规则3中包括加载错误与关键特征集3的对应关系。
当利用日志异常分类规则对待分类异常日志进行分类时,判断该待分类异常日志的关键特征与该日志异常分类规则中的关键特征集中的关键特征是否匹配,若匹配,则可以确定该关键特征集对应的日志异常类别为该待分类异常日志的分类。
在另一个示例中,日志异常分类规则包括关键特征集。当利用日志异常分类规则对待分类异常日志进行分类时,判断该待分类异常日志的关键特征与该关键特征集中的各个关键特征是否匹配,当匹配的关键特征的数量达到指定数量时,可以确定该待分类异常日志与该关键特征集的日志异常分类规则匹配,将该日志异常分类规则对应的日志异常类别确定为该待分类异常日志的分类。
在本公开的一个示例中,对所提取的各种异常类别的日志数据的关键特征集进行文本主题提取。所提取的文本主题可以是关键词,还可以是摘要。文本主题提取可以采用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)模型、TextRank算法以及LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型等方法中的至少一种。
在提取到文本主题后,可以基于所提取的文本主题生成与各种日志异常类别对应的日志异常分类规则。
在一个示例中,日志异常分类规则可以是日志异常类别与文本主题的对应关系。当利用日志异常分类规则对待分类异常日志进行分类时,判断该待分类异常日志的关键特征是否能匹配上该日志异常分类规则中的文本主题,若能匹配上,则可以确定该关键特征集对应的日志异常类别为该待分类异常日志的分类。
在另一个示例中,日志异常分类规则包括所提取的文本主题。当利用日志异常分类规则对待分类异常日志进行分类时,判断该待分类异常日志的关键特征与日志异常分类规则中的各个文本主题是否匹配,当匹配的文本主题的数量达到指定数量时,可以确定该待分类异常日志与该日志异常分类规则匹配,将该日志异常分类规则对应的日志异常类别确定为该待分类异常日志的分类。
在块150,将所生成的日志异常分类规则添加至日志异常分类规则库。
在本公开的一个示例中,针对各个日志异常分类规则,从对应的日志数据中选取测试日志数据。
在该示例中,各个日志异常分类规则是新生成的日志异常分类规则。对应的日志数据是指所针对的日志异常分类规则对应的日志异常类别中的日志数据,例如,针对日志异常分类规则A,则从该日志异常分类规则A对应的日志异常类别A中的日志数据A1、日志数据A2以及日志数据A3中选取测试日志数据。
在一个示例中,当关键特征是基于第二数目条日志数据进行提取时,所选取的测试日志数据是日志异常类别中的除该第二数目条日志数据以外的其他日志数据。例如,一个日志异常分类规则对应的日志异常类别包括日志数据1、日志数据2和日志数据3,其中,该日志异常分类规则中的关键特征是从日志数据3中提取的,则测试日志数据从日志数据1和日志数据2中选取。
在选取测试日志数据后,使用所选取的测试日志数据来测试对应的日志异常分类规则,若该日志异常分类规则对该测试日志数据分类正确,则表示测试通过,此时可以将该日志异常分类规则添加到日志异常分类规则库中。若该日志异常分类规则对该测试日志数据分类错误,则表示测试未通过,则需要对该日志异常分类规则对应的日志异常类别重新进行关键特征提取并生成新的日志异常分类规则。
图4示出了本公开的实施例的对日志异常分类规则进行实时扩充的方法的示意图。
如图4所示,分类器中存储有日志异常分类规则库,分类器用于对异常日志进行分类处理。实时产生的异常日志可以输入至分类器,分类器对所输入的异常日志进行分类处理,若日志异常分类规则库中存在可以对该异常日志进行分类的日志异常分类规则,则分类器输出该日志异常分类规则对应的日志异常类别。若日志异常分类规则库中不存在可以对该异常日志进行分类的日志异常分类规则,则当前的分类器不能对该异常日志进行分类,此时可以将该异常日志输出至未分类异常日志集。
在未分类异常日志集中的日志数据的数量达到第一数目时,对未分类异常日志集中的第一数目条日志数据进行聚类处理,以得到第一数目条日志数据的日志异常类别。
然后使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集,基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则,将所生成的日志异常分类规则添加至分类器中的日志异常分类规则库。
这样,在分类器持续对其他实时的异常日志进行分类处理的同时,动态地对分类器中的日志异常分类规则进行了扩充,提高了分类器的分类处理能力以及分类成功率。
图5示出了本公开的实施例的用于对日志异常分类规则进行扩充的装置(在下文中简称为规则扩充装置)500的方框图。如图5所示,规则扩充装置500包括日志集获取单元510,聚类处理单元520,关键特征提取单元530,分类规则生成单元540以及分类规则添加单元550。
日志集获取单元510获取未分类异常日志集,未分类异常日志集包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据,并且每条日志数据包括多种特征字段。
聚类处理单元520对第一数目条日志数据进行聚类处理,以得到第一数目条日志数据的日志异常类别。
关键特征提取单元530使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集。在本公开的一个示例中,关键特征提取单元530进一步:针对每种日志异常类别,从属于该日志异常类别的各条日志数据中提取针对该日志异常类别的共有特征;以及基于所提取的共有特征,确定关键特征。
在本公开的一个示例中,关键特征提取单元530可以包括指定特征提取模块,重要程度确定模块以及关键特征确定模块,指定特征提取模块提取该日志异常类别中的各条日志数据的指定特征;重要程度确定模块确定所提取的指定特征的重要程度;关键特征确定模块将所提取的指定特征中重要程度最高的第三数目个指定特征,确定为关键特征。
在本公开的一个示例中,重要程度确定模块进一步:确定所提取的每个指定特征的权重,以作为该指定特征的重要程度。
分类规则生成单元540基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则。在本公开的一个示例中,分类规则生成单元540进一步:对所提取的各种异常类别的日志数据的关键特征集进行文本主题提取;以及基于所提取的文本主题,生成与各种日志异常类别对应的日志异常分类规则。
分类规则添加单元550将所生成的日志异常分类规则添加至日志异常分类规则库。在本公开的一个示例中,分类规则添加单元550进一步:针对各个日志异常分类规则,从对应的日志数据中选取测试日志数据;使用所选取的测试日志数据来测试对应的日志异常分类规则;以及将测试通过的日志异常分类规则添加到所述日志异常分类规则库中。
在本公开的一个示例中,规则扩充装置500还可以包括日志数据选取单元,该日志数据选取单元针对每种日志异常类别,从属于该日志异常类别的日志数据中选取第二数目条日志数据。
以上参照图1到图5,对根据本公开的用于对日志异常分类规则进行扩充的方法及装置的实施例进行了描述。
本公开的规则扩充装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本公开中,规则扩充装置例如可以利用计算设备实现。
图6是根据本公开实施例的用于对日志异常分类规则进行扩充的方法的计算设备600的方框图。
如图6所示,计算设备600可以包括至少一个处理器610、存储器(例如,非易失性存储器)620、内存630和通信接口640,并且至少一个处理器610、存储器620、内存630和通信接口640经由总线650连接在一起。至少一个处理器610执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器610:获取未分类异常日志集,未分类异常日志集包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据,并且每条日志数据包括多种特征字段;对第一数目条日志数据进行聚类处理,以得到第一数目条日志数据的日志异常类别;使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集;基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则;以及将所生成的日志异常分类规则添加至日志异常分类规则库。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器610进行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。
根据一个实施例,提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。
具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述各流程和各***结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (16)

1.一种用于对日志异常分类规则进行扩充的方法,包括:
获取未分类异常日志集,所述未分类异常日志集包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据,并且每条日志数据包括多种特征字段;
对所述第一数目条日志数据进行聚类处理,以得到所述第一数目条日志数据的日志异常类别;
使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集;
基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则;以及
将所生成的日志异常分类规则添加至所述日志异常分类规则库,
其中,基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则包括:
对所提取的各种异常类别的日志数据的关键特征集进行文本主题提取;以及
基于所提取的文本主题,生成与各种日志异常类别对应的日志异常分类规则。
2.如权利要求1所述的方法,其中,所述日志数据是非结构化日志数据。
3.如权利要求1所述的方法,其中,所述日志异常分类规则中的每条日常异常分类规则包括关键特征集与日志异常类别的对应关系。
4.如权利要求1所述的方法,其中,使用文本处理技术来提取各种日志异常类别的日志数据的关键特征集包括:
针对每种日志异常类别,
从属于该日志异常类别的各条日志数据中提取针对该日志异常类别的共有特征;以及
基于所提取的共有特征,确定关键特征。
5.如权利要求1所述的方法,其中,在使用文本处理技术来提取各种日志异常类别的关键特征集之前,所述方法还包括:
针对每种日志异常类别,从属于该日志异常类别的日志数据中选取第二数目条日志数据。
6.如权利要求1所述的方法,其中,使用文本处理技术来提取各种日志异常类别的关键特征集包括:
针对每种日志异常类别,
提取该日志异常类别中的各条日志数据的指定特征;
确定所提取的指定特征的重要程度;以及
将所提取的指定特征中重要程度最高的第三数目个指定特征,确定为关键特征。
7.如权利要求6所述的方法,其中,确定所提取的指定特征的重要程度包括:
确定所提取的每个指定特征的权重,以作为该指定特征的重要程度。
8.如权利要求1所述的方法,其中,将所生成的日志异常分类规则添加至所述日志异常分类规则库包括:
针对各个日志异常分类规则,从对应的日志数据中选取测试日志数据;
使用所选取的测试日志数据来测试对应的日志异常分类规则;以及
将测试通过的日志异常分类规则添加到所述日志异常分类规则库中。
9.一种用于对日志异常分类规则进行扩充的装置,包括:
日志集获取单元,获取未分类异常日志集,所述未分类异常日志集包括不能使用日志异常分类规则库中的日志异常分类规则来进行分类的第一数目条日志数据,并且每条日志数据包括多种特征字段;
聚类处理单元,对所述第一数目条日志数据进行聚类处理,以得到所述第一数目条日志数据的日志异常类别;
关键特征提取单元,使用文本处理技术来提取各种日志异常类别中的日志数据的关键特征集;
分类规则生成单元,基于所提取的各种异常类别的日志数据的关键特征集,生成与各种日志异常类别对应的日志异常分类规则;以及
分类规则添加单元,将所生成的日志异常分类规则添加至所述日志异常分类规则库,
其中,所述分类规则生成单元进一步:
对所提取的各种异常类别的日志数据的关键特征集进行文本主题提取;以及
基于所提取的文本主题,生成与各种日志异常类别对应的日志异常分类规则。
10.如权利要求9所述的装置,其中,所述关键特征提取单元进一步:
针对每种日志异常类别,
从属于该日志异常类别的各条日志数据中提取针对该日志异常类别的共有特征;以及
基于所提取的共有特征,确定关键特征。
11.如权利要求9所述的装置,其中,所述装置还包括:
日志数据选取单元,针对每种日志异常类别,从属于该日志异常类别的日志数据中选取第二数目条日志数据。
12.如权利要求9所述的装置,其中,所述关键特征提取单元包括:
针对每种日志异常类别,
指定特征提取模块,提取该日志异常类别中的各条日志数据的指定特征;
重要程度确定模块,确定所提取的指定特征的重要程度;以及
关键特征确定模块,将所提取的指定特征中重要程度最高的第三数目个指定特征,确定为关键特征。
13.如权利要求12所述的装置,其中,所述重要程度确定模块进一步:
确定所提取的每个指定特征的权重,以作为该指定特征的重要程度。
14.如权利要求9所述的装置,其中,所述分类规则添加单元进一步:
针对各个日志异常分类规则,从对应的日志数据中选取测试日志数据;
使用所选取的测试日志数据来测试对应的日志异常分类规则;以及
将测试通过的日志异常分类规则添加到所述日志异常分类规则库中。
15.一种计算设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到8中任一所述的方法。
16.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到8中任一所述的方法。
CN201910963708.XA 2019-10-11 2019-10-11 用于对日志异常分类规则进行扩充的方法及装置 Active CN110825873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910963708.XA CN110825873B (zh) 2019-10-11 2019-10-11 用于对日志异常分类规则进行扩充的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910963708.XA CN110825873B (zh) 2019-10-11 2019-10-11 用于对日志异常分类规则进行扩充的方法及装置

Publications (2)

Publication Number Publication Date
CN110825873A CN110825873A (zh) 2020-02-21
CN110825873B true CN110825873B (zh) 2022-04-12

Family

ID=69549241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910963708.XA Active CN110825873B (zh) 2019-10-11 2019-10-11 用于对日志异常分类规则进行扩充的方法及装置

Country Status (1)

Country Link
CN (1) CN110825873B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651595A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种异常日志处理方法及装置
CN113282751B (zh) * 2021-05-28 2023-12-15 腾讯科技(深圳)有限公司 日志分类方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
CN101610174B (zh) * 2009-07-24 2011-08-24 深圳市永达电子股份有限公司 一种日志事件关联分析***与方法
CN105630656B (zh) * 2014-11-06 2019-01-18 阿里巴巴集团控股有限公司 基于日志模型的***健壮性分析方法及装置
CN104616205B (zh) * 2014-11-24 2019-10-25 北京科东电力控制***有限责任公司 一种基于分布式日志分析的电力***运行状态监视方法
US10366096B2 (en) * 2015-04-03 2019-07-30 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
US10042697B2 (en) * 2015-05-28 2018-08-07 Oracle International Corporation Automatic anomaly detection and resolution system
CN105224691B (zh) * 2015-10-30 2019-03-26 北京网康科技有限公司 一种信息处理方法及装置
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
US10530795B2 (en) * 2017-03-17 2020-01-07 Target Brands, Inc. Word embeddings for anomaly classification from event logs
US10853488B2 (en) * 2017-07-10 2020-12-01 Dell Products, Lp System and method for a security filewall system for protection of an information handling system
CN109271272B (zh) * 2018-10-15 2022-05-17 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复***
CN110210512B (zh) * 2019-04-19 2024-03-26 北京亿阳信通科技有限公司 一种自动化日志异常检测方法及***
CN110262949A (zh) * 2019-04-29 2019-09-20 北京邮电大学 智能设备日志处理***及方法

Also Published As

Publication number Publication date
CN110825873A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
US10671812B2 (en) Text classification using automatically generated seed data
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
US7756535B1 (en) Lightweight content filtering system for mobile phones
US9460117B2 (en) Image searching
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
US9116879B2 (en) Dynamic rule reordering for message classification
WO2014148948A1 (ru) Способ отбора эффективных вариантов в поисковых и рекомендательных системах (варианты)
US20160307113A1 (en) Large-scale batch active learning using locality sensitive hashing
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN110825873B (zh) 用于对日志异常分类规则进行扩充的方法及装置
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN104504334A (zh) 用于评估分类规则选择性的***及方法
Antonio et al. Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent
WO2016122575A1 (en) Product, operating system and topic based recommendations
US9053434B2 (en) Determining an obverse weight
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
Ying et al. FrauDetector+ An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection
CN113139383A (zh) 一种文档排序方法、***、电子设备及存储介质
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
US20190294637A1 (en) Similar data search device, similar data search method, and recording medium
JP5063639B2 (ja) データ分類方法及び装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant