CN117149500B - 基于指标数据和日志数据的异常根因获得方法及*** - Google Patents

基于指标数据和日志数据的异常根因获得方法及*** Download PDF

Info

Publication number
CN117149500B
CN117149500B CN202311417601.8A CN202311417601A CN117149500B CN 117149500 B CN117149500 B CN 117149500B CN 202311417601 A CN202311417601 A CN 202311417601A CN 117149500 B CN117149500 B CN 117149500B
Authority
CN
China
Prior art keywords
log
sequence
parameter vector
key
las
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311417601.8A
Other languages
English (en)
Other versions
CN117149500A (zh
Inventor
张竞超
张泽锟
余螯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sigao Intelligent Technology Co ltd
Original Assignee
Anhui Sigao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sigao Intelligent Technology Co ltd filed Critical Anhui Sigao Intelligent Technology Co ltd
Priority to CN202311417601.8A priority Critical patent/CN117149500B/zh
Publication of CN117149500A publication Critical patent/CN117149500A/zh
Application granted granted Critical
Publication of CN117149500B publication Critical patent/CN117149500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于指标数据和日志数据的异常根因获得方法,包括:S1:获取微服务***的指标数据和日志数据;S2:通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;S3:通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;S4:将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;S5:通过关联度排序获得异常根因指标。本发明通过指标数据的聚类结果与日志异常分数序列进行关联度分析,通过关联度排序可以量化异常根因,能够辅助运维人员快速定位问题根因,降低企业运维损失。

Description

基于指标数据和日志数据的异常根因获得方法及***
技术领域
本发明涉及智能运维领域,尤其涉及一种基于指标数据和日志数据的异常根因获得方法及***。
背景技术
互联网的快速发展使得微服务***的规模、复杂度急剧膨胀。大部分互联网企业的运维手段过于单一,仍停留在人工分析为主的阶段。传统人工分析的运维方式逐渐落后,无法解决涉及大规模、高复杂度的问题。
近年来,随着人工智能领域的发展,数据驱动的自动化算法成功在多种复杂场景中应用,这也为解决这些问题提供了契机。数据驱动的自动化算法的基础是数据,对于微服务***来说日志和指标是运维可观测性的重要组成部分。日志是微服务***异常检测的重要数据来源,记录了微服务***运行期间详细的运行信息,以及一个事件的时间戳、涉及的方法及参数等。通过检查日志能够帮助维护管理人员了解***的行为并发现可能的异常信息。***运行指标是定时采集的时序数据,例如CPU使用率、相应延迟等。常采集到的指标是(时间戳,值)的形式。当数值呈现出异常时,例如出现突增突降等,意味着与之相关的微服务发生了一些异常,需要运维人员及时进行根因定位并采取有效措施。
但是现有的自动化检测方法也存在着仅适用于指标层面的微服务***根因,仅适用于日志告警问题的根因分析,日志数据与指标数据的因果分析未考虑日志运行过程中的异常属性等问题。
发明内容
为解决上述技术问题,本发明提供一种基于指标数据和日志数据的异常根因获得方法,包括:
S1:获取微服务***的指标数据和日志数据;
S2:通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;
S3:通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;
S4:将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;
S5:通过关联度排序获得异常根因指标。
优选的,步骤S2具体为:
S21:对获得的N条指标数据进行归一化处理,将指标数据转化为[0,1]范围内的指标向量M={m1,m2,...,mN};
S22:通过BIRCH聚类算法对指标向量M中的每个指标数据mu分别进行聚类,将各指标数据的聚类结果集合作为指标异常分数序列集合MASS={MAS1,MAS2,...,MASN},其中MASu为第u个指标数据的聚类结果,u的取值范围为1至N。
优选的,步骤S3具体为:
S31:将日志数据按照日志类别解析为日志键序列和参数向量序列;
S32:基于DeepLog分析日志键序列,获得日志键异常分数序列LASt
S33:基于DeepLog分析参数向量序列,获得参数向量异常分数序列LASp
S34:通过日志键异常分数序列LASt和参数向量异常分数序列LASp,计算获得日志数据的日志异常分数序列LAS。
优选的,步骤S32具体为:
S321:设置第一时间窗口,获取日志键序列在第一时间窗口内的日志键集合windowh={kh-H,kh-H+1,...,kh},其中,h为时刻,H为第一时间窗口的长度,kh为第h个日志键;通过Deeplog预测日志键集合在h+1时刻的日志键kh+1
S322:通过标准多项式逻辑函数计算获得日志键kh+1的概率分布集合P={k1:p1,k2:p2,...,ki:pi,...,kg:pg},其中,i为日志键的编号,pi表示日志键kh+1为日志键ki的概率,g为日志键种类个数;
S323:若h+1时刻的日志键的真实日志键为ki,且pi小于设置的阈值Threshold,则判断日志发生了执行路径异常,令h+1时刻的日志键异常分数ASth=Threshold-pi;若pi不小于Threshold则判断日志正常,令h+1时刻的日志键异常分数ASth=0;
S324:令h=h+1;
S325:重复步骤S321-S324,通过日志键序列中所有日志键的异常分数,构建日志键异常分数序列LASt
优选的,步骤S33具体为:
S331:设置第二时间窗口,获取参数向量序列在第二时间窗口内的参数向量集合eq={vq-Q,vq-Q+1,...,vq},其中,q为参数向量的编号,Q为第二时间窗口的长度,vq为第q个参数向量;通过Deeplog对参数向量集合eq进行预测,获得预测参数向量集合,计算/>与eq+1之间的参数向量误差zq+1
S332:将参数向量误差zq+1建模为高斯分布;若zq+1在高斯分布的高置信区间内,则判断参数向量vq正常,设置参数向量vq的异常分数ASpq=0;否则判断参数向量vq异常,设置参数向量vq的异常分数ASpq=1;
S333:令p=p+1;
S334:重复步骤S331-S333,通过参数向量序列中所有参数向量的异常分数,构建参数向量异常分数序列LASp
优选的,日志异常分数序列LAS的计算公式为:
其中,w为超参数。
优选的,关联度的计算公式为:
其中,MI(MASu;LAS)为MASu与LAS的关联度,x为MASu中的聚类元素,y为LAS中的日志异常分数,p(x,y)为x与y的联合概率分布函数,p(x)为x的边缘概率分布函数,p(y)为y的边缘概率分布函数。
一种基于指标数据和日志数据的异常根因获得***,包括:
数据获取模块,用于获取微服务***的指标数据和日志数据;
指标异常分数计算模块,用于通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;
日志异常分数计算模块,用于通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;
关联度分析模块,用于将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;
异常根因指标获取模块,用于通过关联度排序获得异常根因指标。
本发明具有以下有益效果:
通过微服务***的指标数据和日志数据进行异常分析,指标数据和日志数据能够覆盖更多种类的异常类型,降低单一数据来源导致的异常漏报现象;通过指标数据的聚类结果与日志异常分数序列进行关联度分析,通过关联度排序可以量化异常根因,能够辅助运维人员快速定位问题根因,降低企业运维损失。
附图说明
图1为本发明实施例方法流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明提供一种基于指标数据和日志数据的异常根因获得方法,针对微服务***中可观测性数据(指标+日志)兼容性较低的问题,能够降低单一数据来源导致的异常漏报现象并辅助运维人员快速定位问题根因。
包括:
S1:获取微服务***的指标数据和日志数据;
S2:通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;
S3:通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;
S4:将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;
S5:通过关联度排序获得异常根因指标。
进一步的,步骤S1具体包括:
步骤S11:设置过采样参数,通过扩展异常时间的长度对异常点数据(日志数据+指标数据)进行过采样收集,假设异常时间段为L,收集数据过程中异常时间段展开为(1+α)L,其中α = 0.4;
步骤S12:过采样收集微服务***的日志数据Raw_Logs,其中日志数据包括日志时间戳、cmdb_id、日志文件名和日志内容;日志数据Raw_Logs存储在ElasticSearch数据库中;
步骤S13:以5s的时间间隔过采样收集微服务***指标数据Raw_Metrics,微服务***指标数据包含性能指标数据和业务指标数据;性能指标数据记录服务器组件的状态信息,如CPU使用率、内存使用率、网络丢包率等;业务指标数据包括***响应率、成功率和平均响应时间等;指标数据Raw_Metrics存储在ElasticSearch数据库中。
进一步的,步骤S2具体为:
S21:对获得的N条指标数据进行归一化处理,将指标数据转化为[0,1]范围内的指标向量M={m1,m2,...,mN};
具体的,归一化处理的计算公式为:
其中x’表示归一化结果,x表示源指标数据,归一化处理过程将指标数据转化为指标向量,以确保不同指标数据具有可比性;
S22:通过BIRCH聚类算法对指标向量M中的每个指标数据mu分别进行聚类,将各指标数据的聚类结果集合作为指标异常分数序列集合MASS={MAS1,MAS2,...,MASN},其中MASu为第u个指标数据的聚类结果,u的取值范围为1至N。
进一步的,步骤S3具体为:
S31:将日志数据按照日志类别解析为日志键序列和参数向量序列;
具体的,应用Drain日志解析工具对日志数据Raw_log按照日志类别解析为“日志键+参数向量”的形式;
S32:基于DeepLog分析日志键序列,获得日志键异常分数序列LASt
S33:基于DeepLog分析参数向量序列,获得参数向量异常分数序列LASp
S34:通过日志键异常分数序列LASt和参数向量异常分数序列LASp,计算获得日志数据的日志异常分数序列LAS。
进一步的,步骤S32具体为:
S321:设置第一时间窗口,获取日志键序列在第一时间窗口内的日志键集合windowh={kh-H,kh-H+1,...,kh},其中,h为时刻,H为第一时间窗口的长度,kh为第h个日志键;通过Deeplog预测日志键集合在h+1时刻的日志键kh+1
S322:通过标准多项式逻辑函数计算获得日志键kh+1的概率分布集合P={k1:p1,k2:p2,...,ki:pi,...,kg:pg},其中,i为日志键的编号,pi表示日志键kh+1为日志键ki的概率,g为日志键种类个数;
S323:若h+1时刻的日志键的真实日志键为ki,且pi小于设置的阈值Threshold,则判断日志发生了执行路径异常,令h+1时刻的日志键异常分数ASth=Threshold-pi;若pi不小于Threshold则判断日志正常,令h+1时刻的日志键异常分数ASth=0;
S324:令h=h+1;
S325:重复步骤S321-S324,通过日志键序列中所有日志键的异常分数,构建日志键异常分数序列LASt
进一步的,步骤S33具体为:
S331:设置第二时间窗口,获取参数向量序列在第二时间窗口内的参数向量集合eq={vq-Q,vq-Q+1,...,vq},其中,q为参数向量的编号,Q为第二时间窗口的长度,vq为第q个参数向量;通过Deeplog对参数向量集合eq进行预测,获得预测参数向量集合,计算/>与eq+1之间的参数向量误差zq+1
S332:将参数向量误差zq+1建模为高斯分布;若zq+1在高斯分布的高置信区间内,则判断参数向量vq正常,设置参数向量vq的异常分数ASpq=0;否则判断参数向量vq异常,设置参数向量vq的异常分数ASpq=1;
S333:令p=p+1;
S334:重复步骤S331-S333,通过参数向量序列中所有参数向量的异常分数,构建参数向量异常分数序列LASp
进一步的,日志异常分数序列LAS的计算公式为:
其中,w为超参数(超参数w设置为0.6)。
进一步的,关联度的计算公式为:
其中,MI(MASu;LAS)为MASu与LAS的关联度,x为MASu中的聚类元素,y为LAS中的日志异常分数,p(x,y)为x与y的联合概率分布函数,p(x)为x的边缘概率分布函数,p(y)为y的边缘概率分布函数。
进一步的,步骤S5具体为:
在计算获得所有指标数据的聚类结果与日志异常分数序列的关联度后,将各关联度按照从高到低依次排序,若关联度越大则在列表中的排序越高,即这个指标数据越有可能是异常根因。
一种基于指标数据和日志数据的异常根因获得***,包括:
数据获取模块,用于获取微服务***的指标数据和日志数据;
指标异常分数计算模块,用于通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;
日志异常分数计算模块,用于通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;
关联度分析模块,用于将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;
异常根因指标获取模块,用于通过关联度排序获得异常根因指标。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种基于指标数据和日志数据的异常根因获得方法,其特征在于,包括:
S1:获取微服务***的指标数据和日志数据;
S2:通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;
S3:通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;
S4:将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;
S5:通过关联度排序获得异常根因指标;
步骤S3具体为:
S31:将日志数据按照日志类别解析为日志键序列和参数向量序列;
S32:基于DeepLog分析日志键序列,获得日志键异常分数序列LASt
S33:基于DeepLog分析参数向量序列,获得参数向量异常分数序列LASp
S34:通过日志键异常分数序列LASt和参数向量异常分数序列LASp,计算获得日志数据的日志异常分数序列LAS;
步骤S32具体为:
S321:设置第一时间窗口,获取日志键序列在第一时间窗口内的日志键集合windowh={kh-H,kh-H+1,...,kh},其中,h为时刻,H为第一时间窗口的长度,kh为第h个日志键;通过Deeplog预测日志键集合在h+1时刻的日志键kh+1
S322:通过标准多项式逻辑函数计算获得日志键kh+1的概率分布集合P={k1:p1,k2:p2,...,ki:pi,...,kg:pg},其中,i为日志键的编号,pi表示日志键kh+1为日志键ki的概率,g为日志键种类个数;
S323:若h+1时刻的日志键的真实日志键为ki,且pi小于设置的阈值Threshold,则判断日志发生了执行路径异常,令h+1时刻的日志键异常分数ASth=Threshold-pi;若pi不小于Threshold则判断日志正常,令h+1时刻的日志键异常分数ASth=0;
S324:令h=h+1;
S325:重复步骤S321-S324,通过日志键序列中所有日志键的异常分数,构建日志键异常分数序列LASt
步骤S33具体为:
S331:设置第二时间窗口,获取参数向量序列在第二时间窗口内的参数向量集合eq={vq-Q,vq-Q+1,...,vq},其中,q为参数向量的编号,Q为第二时间窗口的长度,vq为第q个参数向量;通过Deeplog对参数向量集合eq进行预测,获得预测参数向量集合,计算/>与eq+1之间的参数向量误差zq+1
S332:将参数向量误差zq+1建模为高斯分布;若zq+1在高斯分布的高置信区间内,则判断参数向量vq正常,设置参数向量vq的异常分数ASpq=0;否则判断参数向量vq异常,设置参数向量vq的异常分数ASpq=1;
S333:令p=p+1;
S334:重复步骤S331-S333,通过参数向量序列中所有参数向量的异常分数,构建参数向量异常分数序列LASp
关联度的计算公式为:
其中,MI(MASu;LAS)为MASu与LAS的关联度,x为MASu中的聚类元素,y为LAS中的日志异常分数,p(x,y)为x与y的联合概率分布函数,p(x)为x的边缘概率分布函数,p(y)为y的边缘概率分布函数。
2.根据权利要求1所述的基于指标数据和日志数据的异常根因获得方法,其特征在于,步骤S2具体为:
S21:对获得的N条指标数据进行归一化处理,将指标数据转化为[0,1]范围内的指标向量M={m1,m2,...,mN};
S22:通过BIRCH聚类算法对指标向量M中的每个指标数据mu分别进行聚类,将各指标数据的聚类结果集合作为指标异常分数序列集合MASS={MAS1,MAS2,...,MASN},其中MASu为第u个指标数据的聚类结果,u的取值范围为1至N。
3.根据权利要求1所述的基于指标数据和日志数据的异常根因获得方法,其特征在于,日志异常分数序列LAS的计算公式为:
其中,w为超参数。
4.一种基于指标数据和日志数据的异常根因获得***,其特征在于,包括:
数据获取模块,用于获取微服务***的指标数据和日志数据;
指标异常分数计算模块,用于通过BIRCH聚类算法计算获得指标数据的指标异常分数序列集合MASS;
日志异常分数计算模块,用于通过DeepLog算法计算获得日志数据的日志异常分数序列LAS;
关联度分析模块,用于将指标异常分数序列集合MASS中的每个指标数据的聚类结果与日志异常分数序列LAS进行关联度分析,获得关联度;
异常根因指标获取模块,用于通过关联度排序获得异常根因指标;
日志异常分数计算模块的工作流程具体为:
S31:将日志数据按照日志类别解析为日志键序列和参数向量序列;
S32:基于DeepLog分析日志键序列,获得日志键异常分数序列LASt
S33:基于DeepLog分析参数向量序列,获得参数向量异常分数序列LASp
S34:通过日志键异常分数序列LASt和参数向量异常分数序列LASp,计算获得日志数据的日志异常分数序列LAS;
步骤S32具体为:
S321:设置第一时间窗口,获取日志键序列在第一时间窗口内的日志键集合windowh={kh-H,kh-H+1,...,kh},其中,h为时刻,H为第一时间窗口的长度,kh为第h个日志键;通过Deeplog预测日志键集合在h+1时刻的日志键kh+1
S322:通过标准多项式逻辑函数计算获得日志键kh+1的概率分布集合P={k1:p1,k2:p2,...,ki:pi,...,kg:pg},其中,i为日志键的编号,pi表示日志键kh+1为日志键ki的概率,g为日志键种类个数;
S323:若h+1时刻的日志键的真实日志键为ki,且pi小于设置的阈值Threshold,则判断日志发生了执行路径异常,令h+1时刻的日志键异常分数ASth=Threshold-pi;若pi不小于Threshold则判断日志正常,令h+1时刻的日志键异常分数ASth=0;
S324:令h=h+1;
S325:重复步骤S321-S324,通过日志键序列中所有日志键的异常分数,构建日志键异常分数序列LASt
步骤S33具体为:
S331:设置第二时间窗口,获取参数向量序列在第二时间窗口内的参数向量集合eq={vq-Q,vq-Q+1,...,vq},其中,q为参数向量的编号,Q为第二时间窗口的长度,vq为第q个参数向量;通过Deeplog对参数向量集合eq进行预测,获得预测参数向量集合,计算/>与eq+1之间的参数向量误差zq+1
S332:将参数向量误差zq+1建模为高斯分布;若zq+1在高斯分布的高置信区间内,则判断参数向量vq正常,设置参数向量vq的异常分数ASpq=0;否则判断参数向量vq异常,设置参数向量vq的异常分数ASpq=1;
S333:令p=p+1;
S334:重复步骤S331-S333,通过参数向量序列中所有参数向量的异常分数,构建参数向量异常分数序列LASp
关联度的计算公式为:
其中,MI(MASu;LAS)为MASu与LAS的关联度,x为MASu中的聚类元素,y为LAS中的日志异常分数,p(x,y)为x与y的联合概率分布函数,p(x)为x的边缘概率分布函数,p(y)为y的边缘概率分布函数。
CN202311417601.8A 2023-10-30 2023-10-30 基于指标数据和日志数据的异常根因获得方法及*** Active CN117149500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311417601.8A CN117149500B (zh) 2023-10-30 2023-10-30 基于指标数据和日志数据的异常根因获得方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311417601.8A CN117149500B (zh) 2023-10-30 2023-10-30 基于指标数据和日志数据的异常根因获得方法及***

Publications (2)

Publication Number Publication Date
CN117149500A CN117149500A (zh) 2023-12-01
CN117149500B true CN117149500B (zh) 2024-01-26

Family

ID=88899118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311417601.8A Active CN117149500B (zh) 2023-10-30 2023-10-30 基于指标数据和日志数据的异常根因获得方法及***

Country Status (1)

Country Link
CN (1) CN117149500B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019063812A1 (en) * 2017-09-29 2019-04-04 Siemens Aktiengesellschaft METHOD AND DEVICE FOR DETECTING ANOMALIES OF DISCREET PRODUCTION EQUIPMENT
CN113014421A (zh) * 2021-02-08 2021-06-22 武汉大学 一种面向云原生***的微服务根因定位方法
CN113282635A (zh) * 2021-04-12 2021-08-20 国电南瑞科技股份有限公司 一种微服务***故障根因定位方法及装置
CN113312447A (zh) * 2021-03-10 2021-08-27 天津大学 基于概率标签估计的半监督日志异常检测方法
CN114201326A (zh) * 2021-12-02 2022-03-18 中国神华国际工程有限公司 一种基于属性关系图的微服务异常诊断方法
CN114598539A (zh) * 2022-03-16 2022-06-07 京东科技信息技术有限公司 根因定位方法、装置、存储介质及电子设备
CN115604082A (zh) * 2022-10-19 2023-01-13 北银金融科技有限责任公司(Cn) 一种基于AIOps的故障诊断***
CN116418653A (zh) * 2023-03-17 2023-07-11 圣麦克思智能科技(江苏)有限公司 基于多指标根因定位算法的故障定位方法及装置
CN116450399A (zh) * 2023-06-13 2023-07-18 西华大学 微服务***故障诊断及根因定位方法
CN116737436A (zh) * 2023-05-17 2023-09-12 武汉大学 面向混合部署场景的微服务***根因定位方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11237897B2 (en) * 2019-07-25 2022-02-01 International Business Machines Corporation Detecting and responding to an anomaly in an event log
WO2021126243A1 (en) * 2019-12-20 2021-06-24 Cintra Holding US Corp. Systems and methods for detecting and responding to anomalous traffic conditions
US20230153825A1 (en) * 2019-12-20 2023-05-18 Capital One Services, Llc Transaction exchange platform with a validation microservice for validating transactions before being processed
US20230153826A1 (en) * 2019-12-20 2023-05-18 Capital One Services, Llc Detecting and preventing duplicate transactions on a transaction exchange platform

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019063812A1 (en) * 2017-09-29 2019-04-04 Siemens Aktiengesellschaft METHOD AND DEVICE FOR DETECTING ANOMALIES OF DISCREET PRODUCTION EQUIPMENT
CN113014421A (zh) * 2021-02-08 2021-06-22 武汉大学 一种面向云原生***的微服务根因定位方法
CN113312447A (zh) * 2021-03-10 2021-08-27 天津大学 基于概率标签估计的半监督日志异常检测方法
CN113282635A (zh) * 2021-04-12 2021-08-20 国电南瑞科技股份有限公司 一种微服务***故障根因定位方法及装置
CN114201326A (zh) * 2021-12-02 2022-03-18 中国神华国际工程有限公司 一种基于属性关系图的微服务异常诊断方法
CN114598539A (zh) * 2022-03-16 2022-06-07 京东科技信息技术有限公司 根因定位方法、装置、存储介质及电子设备
CN115604082A (zh) * 2022-10-19 2023-01-13 北银金融科技有限责任公司(Cn) 一种基于AIOps的故障诊断***
CN116418653A (zh) * 2023-03-17 2023-07-11 圣麦克思智能科技(江苏)有限公司 基于多指标根因定位算法的故障定位方法及装置
CN116737436A (zh) * 2023-05-17 2023-09-12 武汉大学 面向混合部署场景的微服务***根因定位方法及***
CN116450399A (zh) * 2023-06-13 2023-07-18 西华大学 微服务***故障诊断及根因定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning;School of Computing, University of Utah;Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security;全文 *
分布式追踪技术综述;杨勇;李影;吴中海;;软件学报(第07期);全文 *
基于日志数据的分布式软件***故障诊断综述;贾统;李影;吴中海;;软件学报(第07期);全文 *
基于深度学习的日志异常检测算法研究;夏禹;中国优秀硕士学位论文全文数据库信息科技辑;全文 *

Also Published As

Publication number Publication date
CN117149500A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN116450399B (zh) 微服务***故障诊断及根因定位方法
US20120304008A1 (en) Supervised fault learning using rule-generated samples for machine condition monitoring
US20060188011A1 (en) Automated diagnosis and forecasting of service level objective states
Lim et al. Identifying recurrent and unknown performance issues
CN114185760A (zh) ***风险评估方法及装置、充电设备运维检测方法
CN116361059B (zh) 一种银行业务异常根因诊断方法及诊断***
CN114816962B (zh) 基于attention-lstm的网络故障预测方法
CN114741369A (zh) 一种基于自注意力机制的图网络的***日志检测方法
CN114968727A (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
Chen et al. Exploiting local and global invariants for the management of large scale information systems
US11665185B2 (en) Method and apparatus to detect scripted network traffic
CN117149500B (zh) 基于指标数据和日志数据的异常根因获得方法及***
Zou et al. Improving log-based fault diagnosis by log classification
CN110808947A (zh) 一种自动化的脆弱性量化评估方法及***
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
Febriansyah et al. Outlier detection and decision tree for wireless sensor network fault diagnosis
CN113407520A (zh) 一种基于机器学习的电力网络安全数据清洗***及方法
Liu et al. MTAD: Tools and Benchmarks for Multivariate Time Series Anomaly Detection
CN117669594B (zh) 针对异常信息的大数据关系网络分析方法及***
CN116302883A (zh) 一种全链路压测监控方法与***
CN117708720B (zh) 一种基于知识图谱的设备故障诊断***
CN116149899A (zh) 获取平台故障成因的方法及平台故障自动检查处置方法
CN114385451A (zh) 一种故障根因分析方法
CN118075090A (zh) 一种基于机器学习的网络故障预测方法
CN117194201A (zh) 一种业务***的健康度评估及观测方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant