CN113239006A - 日志检测模型的生成方法和装置、日志检测方法和装置 - Google Patents
日志检测模型的生成方法和装置、日志检测方法和装置 Download PDFInfo
- Publication number
- CN113239006A CN113239006A CN202110518480.0A CN202110518480A CN113239006A CN 113239006 A CN113239006 A CN 113239006A CN 202110518480 A CN202110518480 A CN 202110518480A CN 113239006 A CN113239006 A CN 113239006A
- Authority
- CN
- China
- Prior art keywords
- log
- vector
- clustering center
- detection model
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 144
- 238000012549 training Methods 0.000 claims abstract description 61
- 230000002159 abnormal effect Effects 0.000 claims abstract description 35
- 238000003066 decision tree Methods 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种日志检测模型的生成方法、装置、电子设备、计算机可读介质。本发明的日志检测模型的生成方法包括:获取信息***的多个日志;根据每个日志中的多个词,构建该日志对应的日志向量;将所有日志对应的日志向量聚为多个类,每个类的聚类中心对应一个中心向量;根据每个中心向量产生对应的中心日志;为每个中心日志确定类型,组成数据集;根据数据集训练得到作为日志检测模型的决策森林,决策森林用于确定待检测日志对应日志向量的类型为正常或异常。本发明能够实现对各类信息***的日志的自动异常检测,提高***稳定性,降低人工成本,减少异常带来的业务损失。
Description
技术领域
本发明涉及大数据领域,具体地,涉及一种日志检测模型的生成方法、一种日志检测方法、一种日志检测装置、一种电子设备和一种计算机可读介质。
背景技术
各种软硬件信息***在运行中都会产生事件日志。查看日志可以帮助运维人员了解***运行状况,监视***中发生的事件,及时发现***异常,为运维人员分析异常、解决异常提供依据。
随着云数据中心业务量的迅速增加,各种软硬件信息***的规模和复杂性也急速扩张,这些信息***在运行中所产生的日志数量也随之增长。面对海量的日志,依赖运维人员的人工分析日志去发现***异常,显然不能实现及时发现异常日志的目标。
发明内容
本发明的目的在于提供一种日志检测模型的生成方法、一种日志检测方法、一种日志检测装置、一种电子设备和一种计算机可读介质,实现对信息***的日志的自动异常检测,提高***稳定性,降低人工成本,减少异常带来的业务损失。
第一方面,本公开实施例提供一种日志检测模型的生成方法,其中,包括:
获取信息***的多个日志;
根据每个日志中的多个词,构建该日志对应的日志向量;
将所有日志对应的所述日志向量聚为多个类,每个类的聚类中心对应一个中心向量;
根据每个所述中心向量产生对应的中心日志;
为每个中心日志确定类型,组成数据集;其中,所述每个中心日志的类型为正常或异常;
根据所述数据集训练得到作为日志检测模型的决策森林,所述决策森林用于确定待检测日志对应日志向量的类型为正常或异常。
进一步地,所述将所有日志对应的所述日志向量聚为多个类,包括:
在所有所述日志向量中随机选择X个日志向量作为初始聚类中心,所述X为大于或等于2的整数;
将所述初始聚类中心作为当前轮的聚类中心;
根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类,计算每类中各个所述日志向量的均值作为该类的下一轮的聚类中心;
若所述下一轮的聚类中心与所述当前轮的聚类中心相同,则输出所述当前轮的聚类中心为该类的所述中心向量;若所述下一轮的聚类中心与所述当前轮的聚类中心不同,则将下一轮的聚类中心作为当前轮的聚类中心,返回所述根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类的步骤。
进一步地,所述根据所述数据集训练得到作为日志检测模型的决策森林,包括:
统计各个所述中心日志的特征值;
将所述数据集分为训练集和测试集;
有放回地从所述训练集中抽取N个训练子集,所述N为大于或等于2的整数;
从所述N个训练子集中的所述中心日志的特征值中随机选取M个特征值,分别对应地生成N棵决策树;
利用所述测试集中的多个中心日志对所述N棵决策树进行准确率验证;
若所述准确率验证的结果达到预设标准,则输出所述N棵决策树形成日志决策森林;若所述准确率验证的结果未达到预设标准,则调整N和M的数量,返回所述有放回地从所述训练集中抽取N个训练子集的步骤。
第二方面,本公开实施例提供一种日志检测方法,其中,包括:
根据待检测日志中的多个词,构建该日志对应的待检测日志向量,作为输入量输入根据上述第一方面任意一种方法生成的所述日志检测模型中;
根据所述日志检测模型输出的判断结果,确定所述待检测日志向量所对应的所述待检测日志是否为异常日志。
第三方面,本公开实施例提供一种日志检测模型的生成装置,其中,包括:
日志获取模块,用于获取信息***的多个日志;
日志向量提取模块,用于根据每个日志中的多个词,构建该日志对应的日志向量;
日志聚类模块,用于将所有日志对应的所述日志向量聚为多个类,每个类的聚类中心对应一个中心向量;
数据集生成模块,用于根据每个所述中心向量产生对应的中心日志,为每个中心日志确定类型,组成数据集;其中,所述每个中心日志的类型为正常或异常;
数据集训练模块,用于根据所述数据集训练得到作为日志检测模型的决策森林,所述决策森林用于确定待检测日志对应日志向量的类型为正常或异常。
进一步地,所述日志聚类模块,用于执行以下步骤:
在所有所述日志向量中随机选择X个日志向量作为初始聚类中心,所述X为大于或等于2的整数;
将所述初始聚类中心作为当前轮的聚类中心;
根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类,计算每类中各个所述日志向量的均值作为该类的下一轮的聚类中心;
若所述下一轮的聚类中心与所述当前轮的聚类中心相同,则输出所述当前轮的聚类中心为该类的所述中心向量;若所述下一轮的聚类中心与所述当前轮的聚类中心不同,则将下一轮的聚类中心作为当前轮的聚类中心,返回所述根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类的步骤。
进一步地,所述数据集训练模块,用于执行以下步骤:
将所述数据集分为训练集和测试集;
有放回地从所述训练集中抽取N个训练子集,所述N为大于或等于2的整数;
从所述N个训练子集中的所述中心日志的特征值中随机选取M个特征值,分别对应地生成N棵决策树;
利用所述测试集中的多个中心日志对所述N棵决策树进行准确率验证;
若所述准确率验证的结果达到预设标准,则输出所述N棵决策树形成日志决策森林;若所述准确率验证的结果未达到预设标准,则调整N和M的数量,返回所述有放回地从所述训练集中抽取N个训练子集的步骤。
第四方面,本公开实施例提供一种日志检测装置,其中,包括:
日志检测模型模块,用于加载根据第一方面中任意一种方法生成的日志检测模型,并根据所述日志检测模型确定待检测日志对应日志向量的类型为正常或异常。
日志输入模块,用于根据每个待检测日志中的多个词,构建该日志对应的待检测日志向量,作为输入量输入到所述日志检测模型模块中;
结果输出模块,用于根据所述日志检测模型模块输出的判断结果,确定所述待检测日志是否为异常日志。
第五方面,本公开实施例提供一种电子设备,其包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器能够执行上述第一方面任意一种日志检测模型的生成方法,或第二方面的日志检测方法;
一个或多个I/O接口,连接在所述处理器与存储器之间,配置为实现所述处理器与存储器的信息交互。
第六方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述第一方面任意一种日志检测模型的生成方法,或实现上述第二方面的日志检测方法。
本公开实施例提供的技术方案中,将日志转换为日志向量,然后进行聚类,针对聚类中心进行特征提取,训练得到日志检测模型,从而可以利用检测模型对待检测日志进行异常检测,实现了对信息***(如数据中心的各类软硬件信息***)的日志的自动异常检测,不但能及时识别异常,提高***稳定性,而且降低了人工成本,减少了异常带来的业务损失。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其它特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种日志检测模型的生成方法的流程图;
图2为本公开实施例提供的一种日志检测模型的生成方法中日志向量聚类步骤的流程图;
图3为本公开实施例提供的一种日志检测模型的生成方法中形成日志决策森林步骤的流程图;
图4为本公开实施例提供的一种日志检测方法的流程图;
图5为本公开实施例提供的一种日志检测模型的生成装置的模块示意图;
图6为本公开实施例提供的一种日志检测装置的模块示意图;
图7为本公开实施例提供的一种电子设备的组成框图;
图8为本公开实施例提供的一种计算机可读介质的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,下面结合附图对本公开提供的日志检测模型的生成方法、日志检测方法、日志检测装置、电子设备、计算机可读存储介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在一些相关技术中,通过获取信息***的样本日志数据和实时日志数据,得到初始日志模式库和实时模式库,然后基于两种模式向量差值和预设阈值的比较,来检测日志异常情况。这些方法的缺点是准确率完全取决于预设阈值的合理性,如果设置的不合理容易导致准确率大幅下降。由于没有提出科学的设定原则,大多为基于运维人员经验来设置的,可靠性不高。
作为本发明的第一方面,提供一种日志检测模型的生成方法。日志检测模型通过对日志样本进行训练得到,作为自动检测信息***的异常日志(异常日志实际代表相应信息***存在异常)的决策工具。如图1所示,方法包括:
执行步骤S11:获取信息***的多个日志。
即获取信息***的日志,具体可为通过日志管理***或日志文件,提取出一定数量含有异常日志的信息***的日志序列。
其中,信息***是指由各种软硬件组成的进行信息处理的***,其可为数据中心、网络设备、通信终端等。
可选地,获取信息***的日志可以包括但不限于以下一种或多种的方式的组合:对日志文件按照时间、事件、用户、主机、告警级别等要素中的一种或多种组合进行筛选,得到筛选后的日志样本;对日志进行随机获取,得到随机日志样本。
可选地,对获取的日志数据做预处理。删去与日志异常判断无关的日志内容,避免因日志样本中存在大量无关内容,造成最终生成的日志检测模型的检测准确性下降。
执行步骤S12:根据每个日志中的多个词,构建该日志对应的日志向量。
通常情况下,每条日志的组成单词数量很少,因此,首先将每条日志中所包含的单词转化为单词的词向量,然后,将每条日志中单词的词向量构建得到该条日志的日志向量。
可选地,可以使用经典的word2vec框架构建日志中各单词的词向量(word2vec大体是指将自然语言中的单词转化为向量,这样的转化方便挖掘词语和句子之间的特征,故暂不展开描述)。
可选地,可以采用如下公式(1)将每条日志中单词的词向量进行加权求和,得到该条日志的日志向量:
执行步骤S13:将所有日志向量聚为多个类,每个聚类中心对应一个中心向量。
即将日志向量分为多类,每个类的多个日志向量比较接近,且每个类的多个日志向量具有一个聚类中心,该聚类中心也是一个向量,即中心向量。
执行步骤S14:根据每个中心向量产生对应的中心日志,为每个中心日志确定类型,组成数据集;其中,每个中心日志的类型为正常或异常。
由于步骤S13得到的这多个中心向量是在聚类过程中通过日志向量的均值计算产生的,因此,很可能并不对应一条实际存在的原始日志。在此,称这些中心向量所对应的抽象出来的日志为中心日志。由这多个中心日志组成一个中心日志的序列。之后确定每个中心日志是正常或异常,作为中心日志的标记,以得到数据集。
执行步骤S15:根据数据集训练得到作为日志检测模型的决策森林,决策森林用于确定待检测日志对应日志向量的类型为正常或异常。
根据以上数据集中的数据,训练得到由多棵决策树构成的决策森林,该决策森林就是日志检测模型,能对输入其中的日志向量进行分类,即确定日志向量是否异常。
本公开实施例提供的技术方案中,将日志转换为日志向量,然后进行聚类,针对聚类中心进行特征提取,训练得到日志检测模型,从而可以利用检测模型对待检测日志进行异常检测,实现了对信息***(如数据中心的各类软硬件信息***)的日志的自动异常检测,不但能及时识别异常,提高***稳定性,而且降低了人工成本,减少了异常带来的业务损失。
进一步地,如图2所示,本公开实施例步骤S13的日志向量聚类流程包括:
执行步骤S131:在所有日志向量中随机选择X个日志向量作为初始聚类中心,X为大于或等于2的整数。
先确定应将日志向量分为X类,为避免主观倾向对聚类结果的影响,从而先随机选择X个初始聚类中心。
本公开实施例需经过至少一轮的计算,根据每一轮的聚类中心逐步迭代聚类,最终得到各类的中心向量。
执行步骤S132:将初始聚类中心作为当前轮的聚类中心。
在第一轮计算时,就认为以上选择的初始聚类中心是当前轮的聚类中心。
执行步骤S133:计算各日志向量到当前轮的聚类中心的欧式距离。
本公开实施例采用欧式距离进行聚类计算。可选地,在计算各日志向量到初始聚类中心的最短欧式距离时,通过各向量的最短欧式距离采用轮盘法选出下一轮聚类中心。
向量K被选中的概率P可以通过如下公式(2)获得:
其中,P为向量K被选中的概率;
D(K)为距离向量K最近的那个聚类中心和向量K的欧式距离;
执行步骤S134:根据各日志向量到当前轮的聚类中心的欧式距离,将全部日志向量分为X类。
根据当前轮的聚类中心,重新确定各日志向量应属于哪一类。
执行步骤S135:计算每类中各日志向量的均值作为该类的下一轮的聚类中心。
在将各日志向量分类后,可计算当前每类中各日志向量的均值,作为该类的下一轮的聚类中心。
至此,当前轮次的聚类计算结束,并且已经准备好了下一轮聚类计算所需的聚类中心。需要确定是否需要进行下一轮的聚类计算。
执行步骤S136:判断下一轮的聚类中心与当前轮的聚类中心是否相同。
执行步骤S138:若下一轮的聚类中心与当前轮的聚类中心相同,则输出当前轮的聚类中心为该类的中心向量。
执行步骤S137:若下一轮的聚类中心与当前轮的聚类中心不同,则将下一轮的聚类中心作为当前轮的聚类中心,返回根据各个日志向量到当前轮的聚类中心的欧式距离,将全部日志向量分为X类的步骤。
当下一轮的聚类中心与当前轮的聚类中心不同时,说明聚类中心尚未完成了收敛过程,还需进行下一轮的聚类计算。如果下一轮的聚类计算在步骤S136的判断结果仍然为否,则再次重复聚类计算。直到步骤S136的判断结果为是,即当下一轮的聚类中心与当前轮的聚类中心相同时,聚类中心完成收敛过程,将各类的当前轮的聚类中心作为该类的中心向量。聚类过程结束。
进一步地,如图3所示,本公开实施例提供的形成日志决策森林的流程包括:
执行步骤S161:统计各个中心日志的特征值。
为了对中心日志所组成的数据集进行训练,需要统计各个中心日志所具的一些特征值。特征值包括但不限于以下一种或多种的特征值的组合:周期内出现频率、两次同类向量间隔时间、单条日志持续时间、前置向量、后置向量。
执行步骤S162:将数据集分为训练集和测试集。
可选地,将训练集和测试集中的中心日志数量的比例设置为9:1,以保证有尽可能大的训练样本训练出更准确的结果,又能有充分的测试样本对训练结果进行验证。
执行步骤S163:有放回地从训练集中抽取N个训练子集,N为大于或等于2的整数。
可选地,每个训练子集包含的日志数相同,日志数小于整体数据集的总日志数。
执行步骤S164:从N个训练子集中的中心日志的特征值中随机选取M个特征值。
执行步骤S165:对N个训练子集分别对应地生成N棵决策树。
执行步骤S166:利用测试集中的多个中心日志对N棵决策树进行准确率验证。
通过数据集训练决策树也存在一个收敛的过程,很可能第一次训练得到的N棵决策树准确率无法达到预设标准,需要进行多次的训练才能达到预设标准。
执行步骤S168:若准确率验证的结果达到预设标准,则输出N棵决策树形成日志决策森林。
准确率验证的结果达到预设标准时,以得到的N棵准确率达标的决策树,最终形成作为日志检测模型的决策森林。
预设标准的具体形式可以是多样的,例如可为用当前的N棵决策树判断测试集中的多个中心日志是否异常的准确率达到了预定值。
执行步骤S167:若准确率验证的结果未达到预设标准,调整N和M的数量,返回有放回地从训练集中抽取N个训练子集的步骤。
如果下一轮的训练后,准确率验证的结果仍然未达到预设标准,则再次重新调整N和M的数量,返回步骤S163,重复训练步骤。直到准确率验证的结果达到预设标准,得到N棵准确率达标的决策树,最终形成作为日志检测模型的决策森林。
作为本发明的第二方面,提供一种日志检测方法。日志检测方法,可以根据第一方面提供的日志检测模型,确定待检测日志是否为异常日志。如图4所示,方法包括:
执行步骤21:根据待检测日志中的多个词,构建该日志对应的待检测日志向量,作为输入量输入根据第一方面任意一项的方法生成的日志检测模型中。
其中,待检测日志向量的构建方法与步骤S12构建日志向量的方法相同。
执行步骤S22:根据日志检测模型输出的判断结果,确定待检测日志向量所对应的待检测日志是否为异常日志。
日志检测模型根据训练得到的准确率达到预设标准的决策树,对待检测日志向量进行检测后,输出待检测日志是否为异常日志的检测结果。
可选地,日志检测模型的判断结果,由该模型中所有决策树的判断结果进行统计投票得到。
作为本发明的第三方面,提供一种日志检测模型的生成装置。该装置通过对日志样本进行训练,生成用于自动检测异常日志的检测模型。如图5所示,该装置包括:日志获取模块31、日志向量提取模块32、日志聚类模块33、数据集生成34、模块数据集训练模块35。
日志获取模块31用于获取信息***的多个日志,日志向量提取模块32用于根据每个日志中的多个词,构建该日志对应的日志向量,日志聚类模块33用于将所有日志对应的日志向量聚为多个类,每个类的聚类中心对应一个中心向量,数据集生成模块34用于根据每个中心向量产生对应的中心日志,为每个中心日志确定类型,组成数据集,其中,每个中心日志的类型为正常或异常。数据集训练模块35用于根据数据集训练得到作为日志检测模型的决策森林,决策森林用于确定待检测日志对应日志向量的类型为正常或异常。
作为本发明的第四方面,提供一种日志检测装置。该装置将待检测日志转换成日志向量后输入到第一方面的方法生成的日志检测模型中,输出该日志是否为异常日志的结果。如图6所示,该装置包括:日志输入模块41、日志检测模型模块42、结果输出模块43。
日志检测模型模块42用于加载根据第一方面的方法生成的日志检测模型模块,并根据日志检测模型确定待检测日志对应日志向量的类型为正常或异常。日志输入模块41用于根据每个待检测日志中的多个词,构建该日志对应的待检测日志向量,作为输入量输入日志检测模型模块中。结果输出模块43用于根据日志检测模型模块输出的判断结果,确定待检测日志是否为异常日志。
第五方面,参照图7,本公开实施例提供一种电子设备,其包括:
一个或多个处理器501;
存储器502,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任意一种日志检测模型的生成方法,或实现上述第二方面的日志检测方法;
一个或多个I/O接口503,连接在处理器与存储器之间,配置为实现处理器与存储器的信息交互。
其中,处理器501为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器502为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)503连接在处理器501与存储器502间,能实现处理器501与存储器502的信息交互,其包括但不限于数据总线(Bus)等。
在一些实施例中,处理器501、存储器502和I/O接口503通过总线504相互连接,进而与计算设备的其它组件连接。
第六方面,参照图8,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现上述第一方面任意一种的日志检测模型的生成方法,或实现上述第二方面的日志检测方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种日志检测模型的生成方法,其特征在于,包括:
获取信息***的多个日志;
根据每个日志中的多个词,构建该日志对应的日志向量;
将所有日志对应的所述日志向量聚为多个类,每个类的聚类中心对应一个中心向量;
根据每个所述中心向量产生对应的中心日志,为每个中心日志确定类型,组成数据集;其中,所述每个中心日志的类型为正常或异常;
根据所述数据集训练得到作为日志检测模型的决策森林,所述决策森林用于确定待检测日志对应日志向量的类型为正常或异常。
2.根据权利要求1所述的方法,其特征在于,所述将所有日志对应的所述日志向量聚为多个类,包括:
在所有所述日志向量中随机选择X个日志向量作为初始聚类中心,所述X为大于或等于2的整数;
将所述初始聚类中心作为当前轮的聚类中心;
根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类,计算每类中各个所述日志向量的均值作为该类的下一轮的聚类中心;
若所述下一轮的聚类中心与所述当前轮的聚类中心相同,则输出所述当前轮的聚类中心为该类的所述中心向量;若所述下一轮的聚类中心与所述当前轮的聚类中心不同,则将下一轮的聚类中心作为当前轮的聚类中心,返回所述根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述数据集训练得到作为日志检测模型的决策森林,包括:
统计各个所述中心日志的特征值;
将所述数据集分为训练集和测试集;
有放回地从所述训练集中抽取N个训练子集,所述N为大于或等于2的整数;
从所述N个训练子集中的所述中心日志的特征值中随机选取M个特征值,分别对应地生成N棵决策树;
利用所述测试集中的多个中心日志对所述N棵决策树进行准确率验证;
若所述准确率验证的结果达到预设标准,则输出所述N棵决策树形成日志决策森林;若所述准确率验证的结果未达到预设标准,则调整N和M的数量,返回所述有放回地从所述训练集中抽取N个训练子集的步骤。
4.一种日志检测方法,其特征在于,包括:
根据待检测日志中的多个词,构建该日志对应的待检测日志向量,作为输入量输入根据权利要求1至3任意一项的方法生成的所述日志检测模型中;
根据所述日志检测模型输出的判断结果,确定所述待检测日志向量所对应的所述待检测日志是否为异常日志。
5.一种日志检测模型的生成装置,其特征在于,包括:
日志获取模块,用于获取信息***的多个日志;
日志向量提取模块,用于根据每个日志中的多个词,构建该日志对应的日志向量;
日志聚类模块,用于将所有日志对应的所述日志向量聚为多个类,每个类的聚类中心对应一个中心向量;
数据集生成模块,用于根据每个所述中心向量产生对应的中心日志,为每个中心日志确定类型,组成数据集;其中,所述每个中心日志的类型为正常或异常;
数据集训练模块,用于根据所述数据集训练得到作为日志检测模型的决策森林,所述决策森林用于确定待检测日志对应日志向量的类型为正常或异常。
6.根据权利要求5所述的装置,其特征在于,所述日志聚类模块,用于:
在所有所述日志向量中随机选择X个日志向量作为初始聚类中心,所述X为大于或等于2的整数;
将所述初始聚类中心作为当前轮的聚类中心;
根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类,计算每类中各个所述日志向量的均值作为该类的下一轮的聚类中心;
若所述下一轮的聚类中心与所述当前轮的聚类中心相同,则输出所述当前轮的聚类中心为该类的所述中心向量;若所述下一轮的聚类中心与所述当前轮的聚类中心不同,则将下一轮的聚类中心作为当前轮的聚类中心,返回所述根据各个所述日志向量到当前轮的聚类中心的欧式距离,将全部所述日志向量分为X类的步骤。
7.根据权利要求5或6所述的装置,其特征在于,所述数据集训练模块,用于:
将所述数据集分为训练集和测试集;
有放回地从所述训练集中抽取N个训练子集,所述N为大于或等于2的整数;
从所述N个训练子集中的所述中心日志的特征值中随机选取M个特征值,分别对应地生成N棵决策树;
利用所述测试集中的多个中心日志对所述N棵决策树进行准确率验证;
若所述准确率验证的结果达到预设标准,则输出所述N棵决策树形成日志决策森林;若所述准确率验证的结果未达到预设标准,则调整N和M的数量,返回所述有放回地从所述训练集中抽取N个训练子集的步骤。
8.一种日志检测装置,其特征在于,包括:
日志检测模型模块,用于加载根据权利要求1至3任意一项的方法生成的日志检测模型,并根据所述日志检测模型确定待检测日志对应日志向量的类型为正常或异常;
日志输入模块,用于根据每个待检测日志中的多个词,构建该待检测日志对应的待检测日志向量,作为输入量输入到所述日志检测模型模块中;
结果输出模块,用于根据所述日志检测模型模块输出的结果,确定所述待检测日志是否为异常日志。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至3任意一项所述的方法,或实现根据权利要求4所述的方法;
一个或多个I/O接口,连接在所述处理器与存储器之间,配置为实现所述处理器与存储器的信息交互。
10.一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至3任意一项所述的方法,或实现根据权利要求4所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518480.0A CN113239006A (zh) | 2021-05-12 | 2021-05-12 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518480.0A CN113239006A (zh) | 2021-05-12 | 2021-05-12 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239006A true CN113239006A (zh) | 2021-08-10 |
Family
ID=77133733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110518480.0A Pending CN113239006A (zh) | 2021-05-12 | 2021-05-12 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239006A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778874A (zh) * | 2021-09-08 | 2021-12-10 | 中国银行股份有限公司 | 测试结果判别方法及测试结果判别装置 |
CN114118295A (zh) * | 2021-12-07 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 一种异常检测模型训练方法、异常检测方法、装置及介质 |
CN115033463A (zh) * | 2022-08-12 | 2022-09-09 | 北京优特捷信息技术有限公司 | 一种***异常类型确定方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393914A (zh) * | 2011-10-28 | 2012-03-28 | 华中科技大学 | 一种基于支持向量机分类树的地基云图识别方法 |
CN105653444A (zh) * | 2015-12-23 | 2016-06-08 | 北京大学 | 基于互联网日志数据的软件缺陷故障识别方法和*** |
CN109714187A (zh) * | 2018-08-17 | 2019-05-03 | 平安普惠企业管理有限公司 | 基于机器学习的日志分析方法、装置、设备及存储介质 |
CN110990711A (zh) * | 2019-05-13 | 2020-04-10 | 国家计算机网络与信息安全管理中心 | 基于机器学习的微信公众号推荐算法及*** |
CN111611382A (zh) * | 2020-05-22 | 2020-09-01 | 贝壳技术有限公司 | 话术模型训练方法、对话信息生成方法及装置、*** |
-
2021
- 2021-05-12 CN CN202110518480.0A patent/CN113239006A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393914A (zh) * | 2011-10-28 | 2012-03-28 | 华中科技大学 | 一种基于支持向量机分类树的地基云图识别方法 |
CN105653444A (zh) * | 2015-12-23 | 2016-06-08 | 北京大学 | 基于互联网日志数据的软件缺陷故障识别方法和*** |
CN109714187A (zh) * | 2018-08-17 | 2019-05-03 | 平安普惠企业管理有限公司 | 基于机器学习的日志分析方法、装置、设备及存储介质 |
CN110990711A (zh) * | 2019-05-13 | 2020-04-10 | 国家计算机网络与信息安全管理中心 | 基于机器学习的微信公众号推荐算法及*** |
CN111611382A (zh) * | 2020-05-22 | 2020-09-01 | 贝壳技术有限公司 | 话术模型训练方法、对话信息生成方法及装置、*** |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778874A (zh) * | 2021-09-08 | 2021-12-10 | 中国银行股份有限公司 | 测试结果判别方法及测试结果判别装置 |
CN114118295A (zh) * | 2021-12-07 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 一种异常检测模型训练方法、异常检测方法、装置及介质 |
CN115033463A (zh) * | 2022-08-12 | 2022-09-09 | 北京优特捷信息技术有限公司 | 一种***异常类型确定方法、装置、设备和存储介质 |
CN115033463B (zh) * | 2022-08-12 | 2022-11-22 | 北京优特捷信息技术有限公司 | 一种***异常类型确定方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239006A (zh) | 日志检测模型的生成方法和装置、日志检测方法和装置 | |
CN110019074B (zh) | 访问路径的分析方法、装置、设备及介质 | |
CN113556258B (zh) | 一种异常检测方法及装置 | |
CN109818961B (zh) | 一种网络入侵检测方法、装置和设备 | |
KR101964412B1 (ko) | 이동통신데이터 처리시스템의 이상로그 발생을 진단하는 방법 및 그 시스템 | |
CN107798047B (zh) | 重复工单检测方法、装置、服务器和介质 | |
CN112685324B (zh) | 一种生成测试方案的方法及*** | |
CN111416790B (zh) | 基于用户行为的网络异常访问智能识别方法、装置、存储介质及计算机设备 | |
CN110164454B (zh) | 一种基于共振峰偏差的音频同一性判别方法及装置 | |
CN111581092A (zh) | 仿真测试数据的生成方法、计算机设备及存储介质 | |
CN111860698A (zh) | 确定学习模型的稳定性的方法和装置 | |
CN113254255A (zh) | 一种云平台日志的分析方法、***、设备及介质 | |
CN114490375A (zh) | 应用程序的性能测试方法、装置、设备及存储介质 | |
CN115859191A (zh) | 故障诊断方法、装置、计算机可读存储介质及计算机设备 | |
JP2007243459A (ja) | トラヒック状態抽出装置及び方法ならびにコンピュータプログラム | |
CN114169398A (zh) | 基于随机森林算法的光伏直流电弧故障识别方法及装置 | |
CN116661954B (zh) | 虚拟机异常预测方法、装置、通信设备及存储介质 | |
CN115514620B (zh) | 一种异常检测的方法和云网络平台 | |
CN111209180A (zh) | 一种基于模糊匹配的回归测试方法和装置 | |
CN115438244A (zh) | 一种数据库健康度评估方法及装置 | |
CN111258788B (zh) | 磁盘故障预测方法、装置及计算机可读存储介质 | |
CN114928467A (zh) | 一种网络安全运维关联分析方法及*** | |
CN111209567B (zh) | 提高检测模型鲁棒性的可知性判断方法及装置 | |
CN113656354A (zh) | 日志分类方法、***、计算机设备和可读存储介质 | |
CN115705274A (zh) | 硬盘故障预测方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |