CN111949480A - 一种基于组件感知的日志异常检测方法 - Google Patents

一种基于组件感知的日志异常检测方法 Download PDF

Info

Publication number
CN111949480A
CN111949480A CN202010795863.8A CN202010795863A CN111949480A CN 111949480 A CN111949480 A CN 111949480A CN 202010795863 A CN202010795863 A CN 202010795863A CN 111949480 A CN111949480 A CN 111949480A
Authority
CN
China
Prior art keywords
log
component
sequence
template
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010795863.8A
Other languages
English (en)
Other versions
CN111949480B (zh
Inventor
鄢萌
尹昆
徐玲
付春雷
张小洪
徐洲
雷晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010795863.8A priority Critical patent/CN111949480B/zh
Publication of CN111949480A publication Critical patent/CN111949480A/zh
Application granted granted Critical
Publication of CN111949480B publication Critical patent/CN111949480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及基于组件感知的日志异常检测方法,该方法将目标软件的日志消息转换为日志模板序列和组件序列,然后进行模型训练,将两个LSTM模型组合使用,两个LSTM模型训练使用相同的损失函数,采用梯度下降优化算法更行参数值,训练完成得到由日志检测模型和组件检测模型构成的组合模型;将t‑h到t‑1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集和可能组件模板集;当t时刻日志消息mt的待测日志模板序列在可能日志模板集中,且t时刻日志消息mt的待测组件序列在可能组件模板集Cg中,则认为日志消息mt为正常日志,否则产生***告。试验结果表明,本发明方法的召回率和F值更高,表现更好。

Description

一种基于组件感知的日志异常检测方法
技术领域
本发明涉及软件日志检测技术领域,特别涉及一种基于组件感知的日志异常检测方法。
背景技术
随着软件***向大规模,复杂的分布式***发展,这些***经常遭受错误和漏洞的困扰。此外,这些大型***通常提供大量的在线服务和应用程序接口,这就要求***具有很高的鲁棒性和稳定性。但是,当发生***故障(例如服务故障和服务中断)时,多个服务可能会受到故障的影响,这可能会导致***的重大损失。***异常检测技术旨在定位这些***故障。这种技术在***维护中起着至关重要的作用。对于工程师来说,及时准确地发现异常是必要的,以便及时查明原因。
***中有许多类型的数据可用于异常检测和故障排除。在大多数大型***中普遍可用的日志数据具有大量信息,并且包含关键***状态,事件和运行时消息的记录。因此,***日志成为异常检测的中心数据源。基于日志的异常检测已成为一个研究问题,并有许多方法被提出来。通常,这些现有方法首先从日志中提取有用的特征,然后采用独特或通用的检测算法来定位异常日志。在此过程中,日志特征的选择至关重要,因为代表性特征可以反映正常日志和异常日志之间的差异。但是,现有方法在构建基于日志的异常检测模型时并未考虑日志中的组件。组件记录日志的位置并反映***模块之间的调用关系。某些***故障可能会导致不同的组件工作流,但是可能很难通过日志模板序列检测到它们。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:提供同时考虑组件和日志的日志异常检测方法。
为解决上述技术问题,本发明采用如下技术方案:一种基于组件感知的日志异常检测方法,包括如下步骤:
S100:获取目标软件的日志数据,将日志数据转换为日志模板序列和组件序列;
S200:模型训练,将两个LSTM模型组合使用,将S100得到的日志模板序列和组件序列分别输入到两个LSTM模型中进行训练,两个LSTM模型训练使用相同的损失函数,采用梯度下降优化算法更行参数值,训练完成得到由日志检测模型和组件检测模型构成的组合模型;
S300:异常检测,将t-h到t-1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集Lg和可能组件模板集Cg
当t时刻日志消息mt的待测日志模板序列在可能日志模板集Lg中,且t时刻日志消息 mt的待测组件序列在可能组件模板集Cg中,则认为日志消息mt为正常日志,否则产生***告警。
作为改进,所述S100中的将非结构化日志数据转换为日志模板序列和组件序列的方法为:
使用固定深度树将获取的待测软件的日志数据中,构建日志模板序列;
使用正则表达式来匹配每一条日志数据中的组件,然后为不同的组件进行编号得到组件序列。
作为改进,所述S200的训练过程为:
设S100中得到n个日志模板序列L={l1,l2,...,ln}和m个组件序列O={o1,o2,...,on},n≥m;
设t时刻的日志消息为mt
给定一个日志消息序列M={m1,m2,...,mt},通过S100的方法提取日志模板序列和组件序列,将两者合并得到一个新的序列Me={(c1,k1),(c2,k2),...,(ct,kt)},其中ct代表t时刻日志消息mt 中的组件,kt代表t时刻日志消息mt的日志模板;
组合模型的输入是包含前h条日志模板的集合W,W={(ct-h,kt-h),(ct-h+1,kt-h+1),...,(ct-1,kt-1)},每一对(ct,kt)都是由mt中提取得到;
所以训练过程中的损失函数为交叉熵损失函数,两个LSTM模型都使用该损失函数如公式(1):
Figure BDA0002625591880000021
其中,M为训练样本总数,kj是当前日志模板或者组件的真实标签,pj是模型输出的当前日志模板或者***组件的概率值。
作为改进,所述S300中的x时刻的日志消息mt的异常检测过程为:
S310:将t时刻的日志消息mt通过S100的方法转化为对应的待测日志模板序列和待测组件序列;将t-h到t-1时刻的所有日志数据通过S100的方法转化为对应的参考日志模板序列和参考组件序列;
S320:将参考日志模板序列输入日志检测模型得到日志概率分布,选取前g个概率大日志模板序列组成可能日志模板集Lg
将参考组件序列输入组件检测模型得到组件概率分布,选取前g个概率大组件模板序列组成可能组件模板集Cg
S330:检测待测组件序列是否在可能组件模板集Cg中,如果待测组件序列在可能组件模板集Cg中,则执行下一步,否则执行S350;
S340:检测待测日志模板序列是否在可能日志模板集Lg中,如果检测待测日志模板序列在可能日志模板集Lg中,则退出程序,否则执行S350;
S350:日志消息mt为异常,产生***告。
相对于现有技术,本发明至少具有如下优点:
本发明方法简称LogC,首先将非结构化日志数据转换为日志模板序列和组件序列,通过这样的两个序列,LogC可以训练两个LSTM模型,并将它们组合以进行异常检测。实验结果表明,本发明方法的召回率和F测度值更高,表现更好。
附图说明
图1为本发明方法的结构图。
图2 HDFS块的一个例子。由HDFS日志文件还原一个HDFS Block的事件流。
具体实施方式
下面对本发明作进一步详细说明。
为了更好地演示组件感知的分析,图2显示了包含多个日志消息的HDFS块(由块ID标识)的工作流,以及组件的更改。在图2中,Et表示一类日志模板。dfs.FSNamesystem是Hadoop分布式文件***(HDFS)的***组件。某些***故障可能会导致不同的组件工作流程,可以通过监视组件顺序的变化来定位这些***故障。因此,我们提出了一种可以同时处理两种类型序列的组合模型。
本发明方法简称LogC旨在自动,准确地检测出反映***故障的异常日志。通过日志记录语句打印的***日志可以按其内容分为若干类。每条日志都包含其组件信息,这意味着该日志消息属于哪个***模块。我通过考虑组件感知分析的组合LSTM模型来提高基于日志的异常检测的有效性。首先从历史日志中提取模板和组件,然后生成日志序列和组件序列。基于组合LSTM模型,一旦将新的日志序列和组件序列输入训练后的模型中,LogC就可以识别异常日志。
参见图1,一种基于组件感知的日志异常检测方法,包括如下步骤:
获取目标软件的日志数据,将日志数据转换为日志模板序列和组件序列。
作为改进,所述S100中的将非结构化日志数据转换为日志模板序列和组件序列的方法为:
使用固定深度树将获取的待测软件的日志数据中,构建日志模板序列;
使用正则表达式来匹配每一条日志数据中的组件,然后为不同的组件进行编号得到组件序列。
日志中组件序列的获取:首先我们使用正则表达式来匹配每一条日志消息中的组件,例如,在HDFS日志文件中,组件包含两种格式,一种类似于dfs.DataNode,一种类似于dfs.DataNode$DataXceive,使用正则表达式匹配这两种格式;然后,我们为不同的组件进行编号。如图2所示,那么组件序列就为c1,c2,c3。
在实际应用中,正则表达式匹配日志中的组件效率很高,可以配合固定深度树的提取速率,通过感知组件序列中的异常变化,我们的方法在异常日志识别任务中可以表现更好。
注:匹配块ID主要是对日志序列进行逻辑切分,还原***事件流,提高方法准确率。
统一了方法的评估指标中文翻译(精确率(precision),召回率(recall)和F值(F-measure))
模型训练,将两个LSTM模型组合使用,将S100得到的日志模板序列和组件序列分别输入到两个LSTM模型中进行训练,两个LSTM模型训练使用相同的损失函数,训练完成得到由日志检测模型和组件检测模型构成的组合模型。LSTM模型为现有技术。
该组合模型由两个经过训练的LSTM模型构成,其中日志模板检测模型关注kt的变化,仅输入日志模板序列;组件检测模型关注ct的变化,仅输入日志组件序列,两个模型是处于同一地位。见图一。在训练阶段,它们是不互相干扰的。在检测阶段,日志模板检测模型给出日志模板的概率,组件检测模型给出组件的概率。
作为改进,所述S200的训练过程为:
设S100中得到n个日志模板序列L={l1,l2,...,ln}和m个组件序列O={o1,o2,...,on},n≥m;
设t时刻的日志消息为mt
给定一个日志消息序列M={m1,m2,...,mt},通过S100的方法提取日志模板序列和组件序列,将两者合并得到一个新的序列Me={(c1,k1),(c2,k2),...,(ct,kt)},其中ct代表t时刻日志消息mt 中的组件,kt代表t时刻日志消息mt的日志模板。
组合模型的输入是包含前h条日志模板的集合W,W={(ct-h,kt-h),(ct-h+1,kt-h+1),...,(ct-1,kt-1)},每一对(ct,kt)都是由mt中提取得到。举个例子,假设Me={(o1,l6),(o1,l4),(o4,l7),(o3,l22)},窗口大小为h=2,那么训练数据就为{(o1,l6),(o1,l4)→(o4,l7)},{(o1,l4),(o4,l7)→(o3,l22)}。
这个组合模型是一个多分类器,所以训练过程中的损失函数为交叉熵损失函数,两个 LSTM模型都使用该损失函数如公式(1):
Figure BDA0002625591880000051
其中,M为训练样本总数,n代表日志模板种类或者组件种类的数量,kj是当前日志模板或者组件的真实标签,pj是模型输出的当前日志模板或者***组件的概率值;采用Adam 梯度下降优化算法降低loss值。
异常检测,将t-h到t-1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集Lg和可能组件模板集Cg
当t时刻日志消息mt的待测日志模板序列在可能日志模板集Lg中,且t时刻日志消息 mt的待测组件序列在可能组件模板集Cg中,则认为日志消息mt为正常日志,否则产生***告。
作为改进,所述S300中的x时刻的日志消息mt的异常检测过程为:
S310:将t时刻的日志消息mt通过S100的方法转化为对应的待测日志模板序列和待测组件序列;将t-h到t-1时刻的所有日志数据通过S100的方法转化为对应的参考日志模板序列和参考组件序列。
S320:将参考日志模板序列输入日志检测模型得到日志概率分布,选取前g个概率大日志模板序列组成可能日志模板集Lg
将参考组件序列输入组件检测模型得到组件概率分布,选取前g个概率大组件模板序列组成可能组件模板集Cg
S330:检测待测组件序列是否在可能组件模板集Cg中,如果待测组件序列在可能组件模板集Cg中,则执行下一步,否则执行S350。
S340:检测待测日志模板序列是否在可能日志模板集Lg中,如果检测待测日志模板序列在可能日志模板集Lg中,则退出程序,否则执行S350。
S350:日志消息mt为异常,产生***告。
具体的,为了确定t时刻的日志消息mt是否为异常日志,将一个窗口大小的日志序列 Mh={mt-h,mt-h+1,...,mt-1}输送给LogC。首先,这些日志消息通过日志特征提取模块变成结构化数据,然后再输入到训练好的组合模型当中。组合模型的输出是两个概率分布:
Figure BDA0002625591880000052
Figure BDA0002625591880000053
然后对这些概率进行排序,选取前g个概率相对较大的可能的日志模板与组件模板。如果日志模板kt以及组件ct不在这前g个概率相对较大的日志模板集Lg以及组件集Cg之中,那么日志消息mt就会被识别为异常,就会产生一个***告警。具体来说,这里存在一个计算过程来决定日志消息mt是否是异常的。定义rl代表日志模板模型的预测结果,ro代表组件模型的预测结果,那么最终的结果r由以下公式得出:
Figure BDA0002625591880000061
如果r=1,日志消息mt就会被识别为异常。
试验测试:
数据集及设置
使用两个开源数据集来评估本发明方法。表I报告了数据集的基本信息。这些日志来自分布式***和高性能计算机***。
表1数据集说明
数据集 原始日志数 异常日志数 异常占比(%)
HDFS 11,175,629 16838(块) 2.93
ThunderBird 3,992,351 162,953 4.08
HDFS数据是从200多个Amazon EC2节点中收集的。我们通过块ID将HDFS日志消息分为不同的会话,每个会话都是一个块生命周期。HDFS中有575,061个块,数据集已由专家标记。ThunderBird是从圣地亚国家实验室的ThunderBird超级计算机***收集的开源日志数据集。它有超过两亿条日志,我们选择了前四百万条日志消息。日志包含由标签标识的警报和非警报消息。
在以下实验中,在HDFS上,我们将开始约1%的正常日志用作训练数据,将其余部分用作测试数据(异常日志和正常日志)。在ThunderBird上,我们将数据集以固定的窗口进行切分,因为ThunderBird日志没有明显的标识符。如果会话中存在异常日志,我们会将会话标记为异常。日志的前80%被选为训练数据,其余为测试数据。
对比方法
我们与三种方法做了对比,PCA,IM,DeepLog。这三类方法都有相识的检测步骤。
PCA:主成分分析法,它将日志消息按照标识符划分为不同的组。
IM:IM根据日志参数之间的关系对日志消息进行分组。
DeepLog:DeepLog是最近提出的先进的异常检测方法。
评估标准
FP(假阳性)是被识别为异常日志(块)的正常日志(块)的数量。FN(假阴性)表示将多少个异常日志(块)标识为正常日志。TP(真阳性)表示正确识别的异常日志(块) 的数量。异常检测是一个二元分类问题,因此通常将精确率(precision),召回率(recall)和 F值(F-measure)用作评估检测方法标准。
Figure BDA0002625591880000071
Figure BDA0002625591880000072
Figure BDA0002625591880000073
实验结果分析:
本发明方法简称为LogC。
表II展示出了这几种方法在两个数据集上的实验结果。
默认情况下,对于日志模板模型,我们设置gk=9,hk=10,Lk=2,αk=64,而对于组件模型,gc=6,hc=10,Lc=1,αc=64。g确定LogC的异常检测标准。h表示窗口大小。L是LSTM网络层的数量,α表示一个LSTM单元的存储单元。hk和hc的值必须相等。
如表II所示,在HDFS数据集上,本发明方法实现了98.29%的召回率和95.85%的F值。 PCA的最高精确率为97.73%,但以降低召回率为代价,这意味着它可以实现更多的假阴性。在大型***中,对于基于日志的检测方法,较低的召回率表示检测模块的监视功能虽然占用特定的***资源,但监控能力却很弱。效率低下。在ThunderBird数据集上,日志模板和组件多于HDFS。需要减小窗口的大小,另外需要设置宽松一点的判定标准。如表II所示,与 LogC相比,Deeplog的F值降低了0.55%,召回率降低了1.56%。
表2在两个数据集上的实验结果
Figure BDA0002625591880000074
总而言之,本发明方法LogC就F值而言,在两个日志数据集上均取得了最佳结果。与 PCA和DeepLog相比,LogC具有更高的召回率,这意味着LogC产生的假阴性更少。
为了研究组件感知分析的重要性以及LogC中组件模型的有效性,我们将对比(PCA和 IM)与组件模型结合在一起。新方法被命名为PCA-C和IM-C。
LogC的检测模型由DeepLog和组件模型组成。我们用两种异常检测方法替换了日志模板模型。对于每个日志会话,对比方法和组件模型分别给出预测值。
我们在HDFS数据集和ThunderBird数据集评估了两种新方法。如表III所示,与表II中的基准性能相比,新方法的召回率和F值更高,表现更好。但是,我们发现IM-C在HDFS上的结果不如以前的IM方法好。进一步的研究表明,组合组件模型是提高检测方法的召回率的有效方法,但是这种组合可能会稍微降低该方法的精确率。在这个案例中,IM在HDFS上实现100%的召回率,因此无法再次提高IM的召回率。PCA-C和IM-C在ThunderBird 上的结果证明了我们发现的真实性以及组件感知分析的有效性。
总而言之,通过集成组件感知分析,在大多数情况下,基线(即PCA和IM)的效果更好。但是,LogC仍胜过两种新方法(即PCA-C和IM-C)。
表3两种新方法在数据集上的表现
Figure BDA0002625591880000081
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于组件感知的日志异常检测方法,其特征在于,包括如下步骤:
S100:获取目标软件的日志数据,将日志数据转换为日志模板序列和组件序列;
S200:模型训练,将两个LSTM模型组合使用,将S100得到的日志模板序列和组件序列分别输入到两个LSTM模型中进行训练,两个LSTM模型训练使用相同的损失函数,采用梯度下降优化算法更行参数值,训练完成得到由日志检测模型和组件检测模型构成的组合模型;
S300:异常检测,将t-h到t-1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集Lg和可能组件模板集Cg
当t时刻日志消息mt的待测日志模板序列在可能日志模板集Lg中,且t时刻日志消息mt的待测组件序列在可能组件模板集Cg中,则认为日志消息mt为正常日志,否则产生***告警。
2.如权利要求1所述的,基于组件感知的日志异常检测方法,其特征在于,所述S100中的将非结构化日志数据转换为日志模板序列和组件序列的方法为:
使用固定深度树将获取的待测软件的日志数据中,构建日志模板序列;
使用正则表达式来匹配每一条日志数据中的组件,然后为不同的组件进行编号得到组件序列。
3.如权利要求1所述的,基于组件感知的日志异常检测方法,其特征在于,所述S200的训练过程为:
设S100中得到n个日志模板序列L={l1,l2,...,ln}和m个组件序列O={o1,o2,...,on},n≥m;
设t时刻的日志消息为mt
给定一个日志消息序列M={m1,m2,...,mt},通过S100的方法提取日志模板序列和组件序列,将两者合并得到一个新的序列Me={(c1,k1),(c2,k2),...,(ct,kt)},其中ct代表t时刻日志消息mt中的组件,kt代表t时刻日志消息mt的日志模板;
组合模型的输入是包含前h条日志模板的集合W,W={(ct-h,kt-h),(ct-h+1,kt-h+1),...,(ct-1,kt-1)},每一对(ct,kt)都是由mt中提取得到;
所以训练过程中的损失函数为交叉熵损失函数,两个LSTM模型都使用该损失函数如公式(1):
Figure FDA0002625591870000011
其中,M为训练样本总数,kj是当前日志模板或者组件的真实标签,pj是模型输出的当前日志模板或者***组件的概率值。
4.如权利要求1所述的,基于组件感知的日志异常检测方法,其特征在于,所述S300中的x时刻的日志消息mt的异常检测过程为:
S310:将t时刻的日志消息mt通过S100的方法转化为对应的待测日志模板序列和待测组件序列;将t-h到t-1时刻的所有日志数据通过S100的方法转化为对应的参考日志模板序列和参考组件序列;
S320:将参考日志模板序列输入日志检测模型得到日志概率分布,选取前g个概率大日志模板序列组成可能日志模板集Lg
将参考组件序列输入组件检测模型得到组件概率分布,选取前g个概率大组件模板序列组成可能组件模板集Cg
S330:检测待测组件序列是否在可能组件模板集Cg中,如果待测组件序列在可能组件模板集Cg中,则执行下一步,否则执行S350;
S340:检测待测日志模板序列是否在可能日志模板集Lg中,如果检测待测日志模板序列在可能日志模板集Lg中,则退出程序,否则执行S350;
S350:日志消息mt为异常,产生***告。
CN202010795863.8A 2020-08-10 2020-08-10 一种基于组件感知的日志异常检测方法 Active CN111949480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010795863.8A CN111949480B (zh) 2020-08-10 2020-08-10 一种基于组件感知的日志异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010795863.8A CN111949480B (zh) 2020-08-10 2020-08-10 一种基于组件感知的日志异常检测方法

Publications (2)

Publication Number Publication Date
CN111949480A true CN111949480A (zh) 2020-11-17
CN111949480B CN111949480B (zh) 2023-08-11

Family

ID=73333149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010795863.8A Active CN111949480B (zh) 2020-08-10 2020-08-10 一种基于组件感知的日志异常检测方法

Country Status (1)

Country Link
CN (1) CN111949480B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905371A (zh) * 2021-01-28 2021-06-04 清华大学 基于异构多源数据异常检测的软件变更检查方法和装置
CN113254438A (zh) * 2020-11-20 2021-08-13 云智慧(北京)科技有限公司 一种基于树结构的日志解析方法和***
CN115017015A (zh) * 2022-08-04 2022-09-06 北京航空航天大学 一种边缘计算环境下程序异常行为检测方法及***
CN115604003A (zh) * 2022-10-14 2023-01-13 浙江工业大学(Cn) 一种基于程序日志数据的***异常检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391353A (zh) * 2017-07-07 2017-11-24 西安电子科技大学 基于日志的复杂软件***异常行为检测方法
US20180075235A1 (en) * 2016-09-14 2018-03-15 Hitachi, Ltd. Abnormality Detection System and Abnormality Detection Method
CN109086186A (zh) * 2018-07-24 2018-12-25 中国联合网络通信集团有限公司 日志检测方法及装置
WO2019060327A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP
US20190095313A1 (en) * 2017-09-22 2019-03-28 Nec Laboratories America, Inc. Log-based system maintenance and management
CN110321371A (zh) * 2019-07-01 2019-10-11 腾讯科技(深圳)有限公司 日志数据异常检测方法、装置、终端及介质
CN110650130A (zh) * 2019-09-18 2020-01-03 北京工业大学 基于多分类GoogLeNet-LSTM模型的工控入侵检测方法
CN111209168A (zh) * 2020-01-14 2020-05-29 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于nLSTM-self attention的日志序列异常检测框架

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075235A1 (en) * 2016-09-14 2018-03-15 Hitachi, Ltd. Abnormality Detection System and Abnormality Detection Method
CN107391353A (zh) * 2017-07-07 2017-11-24 西安电子科技大学 基于日志的复杂软件***异常行为检测方法
WO2019060327A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP
US20190095313A1 (en) * 2017-09-22 2019-03-28 Nec Laboratories America, Inc. Log-based system maintenance and management
CN109086186A (zh) * 2018-07-24 2018-12-25 中国联合网络通信集团有限公司 日志检测方法及装置
CN110321371A (zh) * 2019-07-01 2019-10-11 腾讯科技(深圳)有限公司 日志数据异常检测方法、装置、终端及介质
CN110650130A (zh) * 2019-09-18 2020-01-03 北京工业大学 基于多分类GoogLeNet-LSTM模型的工控入侵检测方法
CN111209168A (zh) * 2020-01-14 2020-05-29 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于nLSTM-self attention的日志序列异常检测框架

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏彬;白宇轩;殷俊杰;: "基于生成对抗网络的***日志级异常检测算法", 计算机应用, vol. 40, no. 10, pages 2960 - 2966 *
蔡亮 等: "即时软件缺陷预测研究进展", 《软件学报》, vol. 30, no. 5, pages 1288 - 1307 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254438A (zh) * 2020-11-20 2021-08-13 云智慧(北京)科技有限公司 一种基于树结构的日志解析方法和***
CN112905371A (zh) * 2021-01-28 2021-06-04 清华大学 基于异构多源数据异常检测的软件变更检查方法和装置
CN112905371B (zh) * 2021-01-28 2022-05-20 清华大学 基于异构多源数据异常检测的软件变更检查方法和装置
CN115017015A (zh) * 2022-08-04 2022-09-06 北京航空航天大学 一种边缘计算环境下程序异常行为检测方法及***
CN115017015B (zh) * 2022-08-04 2023-01-03 北京航空航天大学 一种边缘计算环境下程序异常行为检测方法及***
CN115604003A (zh) * 2022-10-14 2023-01-13 浙江工业大学(Cn) 一种基于程序日志数据的***异常检测方法
CN115604003B (zh) * 2022-10-14 2024-04-05 浙江工业大学 一种基于程序日志数据的***异常检测方法

Also Published As

Publication number Publication date
CN111949480B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111949480B (zh) 一种基于组件感知的日志异常检测方法
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和***
CN110958136A (zh) 一种基于深度学习的日志分析预警方法
CN107391353B (zh) 基于日志的复杂软件***异常行为检测方法
US9612898B2 (en) Fault analysis apparatus, fault analysis method, and recording medium
CN110381079B (zh) 结合gru和svdd进行网络日志异常检测方法
US11153144B2 (en) System and method of automated fault correction in a network environment
CN103761173A (zh) 一种基于日志的计算机***故障诊断方法及装置
CN112182219A (zh) 一种基于日志语义分析的在线服务异常检测方法
CN110175158A (zh) 一种基于向量化的日志模板提取方法和***
Yin et al. Improving log-based anomaly detection with component-aware analysis
CN115237717A (zh) 一种微服务异常检测方法和***
CN108280021A (zh) 一种基于机器学习的日志等级分析方法
Pal et al. DLME: distributed log mining using ensemble learning for fault prediction
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
CN116414717A (zh) 基于流量回放的自动测试方法、装置、设备、介质及产品
Chen et al. Unsupervised Anomaly Detection Based on System Logs.
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源***故障识别方法
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
CN115659135A (zh) 一种面向多源异构工业传感器数据的异常检测方法
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
Wang et al. LogOnline: A Semi-Supervised Log-Based Anomaly Detector Aided with Online Learning Mechanism
Fält et al. Learning-Based Anomaly Detection Using Log Files with Sequential Relationships
Wang et al. FastTransLog: A Log-based Anomaly Detection Method based on Fastformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant