CN109978038B - 一种集群异常判定方法及装置 - Google Patents

一种集群异常判定方法及装置 Download PDF

Info

Publication number
CN109978038B
CN109978038B CN201910206243.3A CN201910206243A CN109978038B CN 109978038 B CN109978038 B CN 109978038B CN 201910206243 A CN201910206243 A CN 201910206243A CN 109978038 B CN109978038 B CN 109978038B
Authority
CN
China
Prior art keywords
host
determining
abnormal
value
determination result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910206243.3A
Other languages
English (en)
Other versions
CN109978038A (zh
Inventor
蔡方龙
杨帆
华石榴
钟彬
裘愉锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201910206243.3A priority Critical patent/CN109978038B/zh
Publication of CN109978038A publication Critical patent/CN109978038A/zh
Application granted granted Critical
Publication of CN109978038B publication Critical patent/CN109978038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种集群异常判定方法及装置,该方法为:根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果;根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果;根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果;根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。

Description

一种集群异常判定方法及装置
技术领域
本发明涉及集群运维领域,尤其涉及一种集群异常判定方法及装置。
背景技术
集群的日常运行维护的过程中,需要及时对集群的运行状况进行评估,以发现集群异常,进而解决异常对应的问题,对集群运行状况的掌握程度影响了对集群异常进行定位的及时有效性。
传统的集群运维过程中,判断运维状况一般需要对应用日志中的关键字进行分析。现有技术中,关键词搜索与语义解析,若由人工完成,耗时极长;若编写脚本进行分析,需要耗费大量的计算资源,自然语言解析生成的模型也十分复杂,难度很高,整个过程耗时也较长。而且不同集群的判定方法仅针对单个集群,指标无法统一,不具有普适性。
因此现有技术中,通过关键词搜索和语义分析确定集群是否异常的方法耗时较长,且不具有普适性,是一个亟待解决的问题。
发明内容
本申请实施例提供一种集群异常判定方法及装置,解决了现有技术中通过关键词搜索和语义分析确定集群是否异常的方法耗时较长,且不具有普适性的问题。
本申请实施例提供一种集群异常判定方法,包括:
根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果;所述第一主机为所述至少一个主机中任一主机;
根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果;
根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果;
根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。
可选的,所述确定第一主机的第一判定结果,包括:
根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率,获取所述第一主机在所述预设时刻的残差值;
若所述残差值不位于第一区间,则确定所述第一判定结果为第一默认值和所述残差值,否则为第二默认值。
可选的,所述确定所述第一主机的第二判定结果,包括:
若所述第一主机在所述预设时刻的使用增长率不位于第二区间,则确定所述第二判定结果为第三默认值和所述使用增长率,否则为第四默认值。
可选的,所述第一主机的第三判定结果,包括:
若所述第一主机在所述第二预设时长内,所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间,则确定所述第三判定结果为第五默认值和所述皮尔逊相关系数,否则为第六默认值。
可选的,所述根据所述特征向量确定所述第一主机是否异常,包括:
按照决策树的判定次序,依次提取所述特征向量中每个维度的特征值,按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常:若该特征值在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为正常;若该特征值不在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为异常,并根据该特征值与该维度预训练的标准值的差值,确定该维度在所述决策树中对应决策分支的标签为正常或异常;
若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常,则确定所述第一主机为异常。
本发明实施例中,以集群的至少一个主机中任意一个第一主机为例,根据第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定第一主机的第一判定结果,根据至少一个主机中,每个主机在预设时刻的文件空间使用增长率,确定第一主机的第二判定结果,根据至少一个主机中,每个主机在预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定第一主机的第三判定结果,因此在不需要搜索第一主机日志关键字以及语义分析的情况下,仅根据文件空间的使用率等数据,即可得到第一主机的第一判定结果、第二判定结果和第三判定结果,并根据生成的特征向量确定集群是否异常,对不同结构的集群均可采用该方法,因此该方法具有较强的普适性。
本申请实施例提供一种集群异常判定装置,包括:
确定模块,用于根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果;所述第一主机为所述至少一个主机中任一主机;根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果;根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果;
处理模块。用于根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。
可选的,所述确定模块,具体用于:
根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率,获取所述第一主机在所述预设时刻的残差值;
若所述残差值不位于第一区间,则确定所述第一判定结果为第一默认值和所述残差值,否则为第二默认值。
可选的,所述确定模块,具体用于:
若所述第一主机在所述预设时刻的使用增长率不位于第二区间,则确定所述第二判定结果为第三默认值和所述使用增长率,否则为第四默认值。
可选的,所述确定模块,具体用于:
若所述第一主机在所述第二预设时长内,所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间,则确定所述第三判定结果为第五默认值和所述皮尔逊相关系数,否则为第六默认值。
可选的,所述处理模块,具体用于:
按照决策树的判定次序,依次提取所述特征向量中每个维度的特征值,按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常:若该特征值在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为正常;若该特征值不在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为异常,并根据该特征值与该维度预训练的标准值的差值,确定该维度在所述决策树中对应决策分支的标签为正常或异常;
若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常,则确定所述第一主机为异常。
附图说明
图1为本申请实施例中一种集群异常判定方法的架构示意图;
图2为本申请实施例中一种集群异常判定方法的步骤流程图;
图3为本申请实施例中一种集群异常判定方法中第一判定结果对应的份解除第一主机残差值的示意图;
图4为本申请实施例中一种集群异常判定方法中集群异常结果的场景对应的示意图一;
图5为本申请实施例中一种集群异常判定方法中集群异常结果的场景对应的示意图二;
图6为本申请实施例中一种集群异常判定方法中集群异常结果的场景对应的示意图三;
图7为本申请实施例中一种集群异常判定装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
集群的日常运行维护的过程中,需要及时对集群的运行状况进行评估,以发现集群异常,进而解决异常对应的问题,对集群运行状况的掌握程度影响了对集群异常进行定位的及时有效性。
传统的集群运维过程中,判断运维状况一般需要对应用日志中的关键字进行分析。现有技术中,关键词搜索与语义解析,若由人工完成,耗时极长;若编写脚本进行分析,需要耗费大量的计算资源,自然语言解析生成的模型也十分复杂,难度很高,整个过程耗时也较长。而且不同集群的判定方法仅针对单个集群,指标无法统一,不具有普适性。
具体地,针对“人工搜索关键词与语义解析”的方案:该方案需要开发同事、运维同事沟通合作,对日常的异常场景进行总结分析,再进行开发、测试、上线,整个调整周期长,覆盖的异常场景也较为有限。人工丰富异常场景需要耗费相当多的人力。同时,对于日志的关键词监控还要依赖代理程序对日志进行读取分析,会一定程度上消耗主机的CPU、IO资源,传输大量日志时还会消耗较多的网络资源,对于应用本身的运行有消极影响。
因此现有技术中,通过关键词搜索和语义分析确定集群是否异常的方法耗时较长,且不具有普适性,是一个亟待解决的问题。
如图1所示,为本申请实施例中一种集群异常判定方法的架构示意图。
集群中部署着多个主机,每个主机的数据由采集代理负责采集,采集代理具体可以为一个采集信息的软件工具。各采集代理每隔一段时间将当前时刻的数据存入opentsdb这个基于时间序列的数据库,并由决策器根据opentsdb数据库中的信息对各个主机进行判定,得到每个主机是否异常的结果,并进一步判定该异常是否属于预期内的异常,若不是,则向监控中心发送告警消息,以对异常进行处理。需要说明的是,图1仅以opentsdb数据库为例,不限于其它数据库。
具体地,决策器对每个主机均按相同的方法判定,以第一主机为例,从以下三个维度对第一主机进行判定。需要说明的是,决策器可以通过以下三个维度中至少一个判定结果组成的群组中任意一个群组对第一主机进行判定。举例来说,仅通过第一判定结果确定第一主机是否异常;通过第一判定结果、第二判定结果和第三判定结果确定第一主机是否异常。三个维度如下:
(1)历史维度:
根据第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果。这项评估方式可以从历史数据的维度,判断目前集群内每一台主机是否符合历史变化规律。
(2)集群维度:
根据集群的至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果。该项评估方式可以从集群数据的维度,判断目前集群内每一台主机的负载均衡情况。
根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果。该项评估方式可以从预设类型数据相关性的维度,判断集群中主机是否存在不与预设类型数据相关的异常增长。
(3)容量预测维度:
根据所述至少一个主机中,每个主机所述预设时刻的文件空间的使用率、使用增长率,以及在所述预设时刻起之前第二预设时长内该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第四判定结果。该项评估从容量预测维度判断集群可能存在容量瓶颈。
如图2所示,为本申请实施例中一种集群异常判定方法的步骤流程图,该方法可应用于图1所示的架构。
步骤201:根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果。
所述第一主机为所述至少一个主机中任一主机。
步骤202:根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果。
步骤203:根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果。
步骤204:根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。
步骤201之前,首先对每个主机的数据进行采集,以图1中的架构为例,一种可选的实施方式如下:
由于python内置的函数仅能获取单个文件大小,故使用python调用shell命令,使用“df-m/ARXXXX”命令来获取指定的日志文件***的使用率。再以json字符串的格式发送至决策器前的队列中。json字符串格式如下:
Figure BDA0001999017400000081
其中metric为数据类型、timestamp为时间戳、value为文件空间使用率、host为主机名、fs_name为文件***名。
信息被上送并在opentsdb中存储下来。
由于数据分析需要使用率、增长率2种数据,故决策器将数据从opentsdb中读取出来以后,需要对其进行求导操作,这里的时间粒度按照不同场景进行设置,举例来说,时间粒度为分钟级,通过python求导得到每分钟的文件空间使用增长率。
步骤201中,一种可选的实施方式如下:
根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率,获取所述第一主机在所述预设时刻的残差值;若所述残差值不位于第一区间,则确定所述第一判定结果为第一默认值和所述残差值,否则为第二默认值。
需要说明的是,第一主机在所述预设时刻的残差值可以通过时间序列分解算法获取,具体如图3所示,本申请实施例中一种集群异常判定方法中第一判定结果对应的份解除第一主机残差值的示意图。举例来说,第一区间为
Figure BDA0001999017400000091
其中,
Figure BDA0001999017400000092
为所述第一主机在所述第一预设时长内残差值的均值,Δresid所述第一主机在所述第一预设时长内残差值的标准差。第一默认值是第一判定结果标签异常时对应的取值,第二默认值是第一判定结果标签正常时对应的取值。第一预设时长可根据具体场景设置,如7天。
若符合,则表示当前时刻的文件空间使用率符合历史周期趋势;反之,则表示当前主机的文件空间使用率较大幅度异于第一预设时长内的历史数据,应用运行可能存在异常。
步骤202中,是对集群维度的一项分析,一种可选的实施方式为:
若所述第一主机在所述预设时刻的使用增长率不位于第二区间,则确定所述第二判定结果为第三默认值和所述使用增长率,否则为第四默认值。
需要说明的是,第二区间为
Figure BDA0001999017400000093
其中,
Figure BDA0001999017400000094
为所述至少一个主机在所述预设时刻的使用增长率的均值,Δc为所述至少一个主机在所述预设时刻的使用增长率的标准差。第三默认值是第一判定结果标签异常时对应的取值,第四默认值是第一判定结果标签正常时对应的取值。
具体地,直接将当前时刻的文件空间增长率进行集群横向比较,设当前时刻集群内n台主机的增长率为c1、c2、…、cn,则对所有增长率ci(1≤i≤n)进行判断:
Figure BDA0001999017400000095
其中,ci表示第i台主机的文件空间增长率,
Figure BDA0001999017400000096
表示集群增长率均值,Δc表示集群增长率标准差。
对空间增长率数据,进行集群内横向比较。评估集群内是否存在增长率远高于(或远低于)集群平均水平的主机。该项评估方式可以从集群数据的维度,判断目前集群内每一台主机的负载均衡情况。
步骤203中,是对集群维度的另一项分析,一种可选的实施方式为:
若所述第一主机在所述第二预设时长内,所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间,则确定所述第三判定结果为第五默认值和所述皮尔逊相关系数,否则为第六默认值。
需要说明的是,第三区间为
Figure BDA0001999017400000101
其中,
Figure BDA0001999017400000102
为所述至少一个主机在所述预设时刻对应的皮尔逊相关系数的均值,Δr为所述至少一个主机在所述预设时刻对应的皮尔逊相关系数的标准差。第五默认值是第一判定结果标签异常时对应的取值,第六默认值是第一判定结果标签正常时对应的取值。
预设类型数据与文件空间增长率的皮尔逊相关系数可表示为:
Figure BDA0001999017400000103
其中,ri为第i台主机的皮尔逊相关系数,cj(1≤i≤m)为j时刻的增长率,tj(1≤i≤m)为j时刻的预设类型数据。
该系数反映了预设类型数据与文件空间增长率的相关性:一般情况下,预设类型数据与文件空间增长率线性关系极强,ri≥0.8。对于集群所有主机,对所有皮尔逊相关系数ri(1≤i≤n)进行判断:
Figure BDA0001999017400000104
若符合,则表示当前时刻内,集群中主机处理交易的情况基本一致;反之,则表示集群中存在某一主机,它处理应用的状况与其它主机不一致,可能日志中存在大量报错情况。
上述步骤中,还有一种可选的实施方式为:
对空间使用率数据、空间增长率数据、预设类型数据,对长短期记忆LSTM神经网络进行训练。基于历史数据与集群内关联情况,预测未来一段预设时长内空间使用率,评估未来一段预设时长内是否会发生容量超限情况。
将预设时刻的空间使用率数据、空间增长率数据、预设类型数据输入LSTM神经网络,将LSTM神经网络的输出作为第四判定结果,并将第四判定结果加入特征向量,以对集群进行判断。
使用LSTM神经网络主要是由于其具有自动遗忘与记忆的特点,可以对输入的数据进行自主判断,抛弃干扰预测的异常点,使用LSTM神经网络可以较高精度地对未来文件***使用进行预测,LSTM神经网络的参数如表1所示(仅以以下参数为例,参数值不做限定):
参数名 参数值
隐藏层神经元 10
隐藏层的层数 2
学习率 0.006
遗忘率 0.5
时间步幅 10080
表1
在本申请实施例对应实验调试中发现,遗忘率为0.5±0.1时,空间使用率数据、空间增长率数据、预设类型数据输入LSTM神经网络后,LSTM神经网络输出的结果最为准确,0.6~0.8会导致LSTM神经网络的代价函数下降受阻。
步骤204中,根据所述特征向量确定所述第一主机是否异常,一种可选的实施方式为,通过决策树分类算法对特征向量进行分析,确定最终的分类结果,具体如下:
按照决策树的判定次序,依次提取所述特征向量中每个维度的特征值,按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常:若该特征值在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为正常;若该特征值不在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为异常,并根据该特征值与该维度预训练的标准值的差值,确定该维度在所述决策树中对应决策分支的标签为正常或异常;
若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常,则确定所述第一主机为异常。
步骤204之后,一种可选的实施方式为:
若存在所述特征向量对应的计算机程序,则执行所述计算机程序;否则,根据所述特征向量生成告警信息,并输出所述告警信息。
需要说明的是,上述计算机程序是由特征向量对应的预设处理方式编写而成的一组程序代码,集群的决策器中会封装这些预设处理方式,当输入的特征向量有对应预设处理方式时,就会执行特征向量对应的计算机程序。否则,根据特征向量生成告警信息。举例来说,特征向量的第一判定结果为异常,则告警信息中含有第一判定结果异常的信息。运维人员会根据告警信息,知悉集群异常的具体情况,之后进行排查,当出台相应处理方式后,再将处理方式对应的计算机程序封装到集群中。
从实际的实施结果来看,本发明实施例中判定集群异常的方法以及根据该方法对应的装置,可以对以下场景进行感知与判断:
(1)应用集群由于预期原因(例如版本上线中调整了日志级别),导致应用集群的日志打印量变化。
(2)应用集群由于预期外原因(例如磁盘繁忙、运行异常产生报错),导致应用集群的日志打印量、打印模式、打印速度产生变化。
(3)由于前端的负载策略或应用本身的运行逻辑,导致集群的负载不均,交易集中在部分主机的情况。
(4)由于商户的异常的交易上送,导致集群中某些主机文件空间使用增长率异常。
(5)由于预期或非预期的人工操作,导致日志空间使用率异常升降。
(6)由于前端交易增长,导致集群在第二预设时长内存在文件空间耗尽风险。
下面以场景(1)和场景(3)为例,进行详细说明:
场景(1)对应示意图为图4。如图4所示,为本申请实施例中一种集群异常判定方法中集群异常结果对应的示意图一。
由历史维度分析发现,该文件***在2018-11-12,日志文件空间使用率发生异常变化。经具体分析,由于前一日进行营销,故在营销上午8:00提前删除了旧日志,导致当日的使用率曲线提前下降;且在日常清表时刻,由于旧日志已经删除,文件空间使用率没有如预期下降。
场景(3)对应示意图为图5、图6。如图5所示,为本申请实施例中一种集群异常判定方法中集群异常结果对应的示意图二;如图6所示,为本申请实施例中一种集群异常判定方法中集群异常结果的第二类场景对应的示意图二。其中,图5对应正常主机数据分布,图6对应疑似异常主机数据分布;图5和图6中,灰色的点代表正常主机数据。
下面以本发明实施例的一种实验情形为例说明:
集群里包括10个主机,8个主机对应的皮尔逊相关系数在0.85~0.99,2台主机皮尔逊相关系数为0.61,因此对集群进行进一步具体分析。具体分析后发现:疑似异常主机在相同的交易量下,日志增长有2种线性增长模式。经过进一步详细分析,发现是2种线性增长模式分别发生在不同的时间段,在11:00~12:00内,某一类交易大量上送,且均落在了疑似异常主机上,造成日志增长率与正常情况不同。
本发明实施例提供了一种基于日志文件空间使用率的集群异常判断方法及装置,该方法具有以下优点:
(1)仅对日志所在的文件空间使用率进行分析建模,不读取日志,采集速度快,耗费资源少,对应用影响可以忽略不计。
(2)基于时序数据周期解耦算法、LSTM长短期记忆网络算法等智能算法,大大降低人工参与程度,减少对于运维人员经验的依赖。
(3)与应用处理的任务量(通常是交易量)进行关联分析,建立关联模型,提升评估结果的准确性。
(4)建模方法具有普适性,对比分析记录单个文件与其大小的方法,整个文件空间的分析配置简单,适用更广泛,无需对应用打印的日志进行规范化。对于主机多、日志文件繁复的集群尤为适用。
(5)装置会总结运维人员的解决处理方式,可以持续在线学习,对于历史发生过的问题,可以推荐出处理方案。
如图7所示,为本申请实施例中一种集群异常判定装置的结构示意图。
本申请实施例提供一种集群异常判定装置,包括:
确定模块701,用于根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果;所述第一主机为所述至少一个主机中任一主机;根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果;根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果;
处理模块702。用于根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。
可选的,所述确定模块701,具体用于:
根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率,获取所述第一主机在所述预设时刻的残差值;
若所述残差值不位于第一区间,则确定所述第一判定结果为第一默认值和所述残差值,否则为第二默认值。
可选的,所述确定模块701,具体用于:
若所述第一主机在所述预设时刻的使用增长率不位于第二区间,则确定所述第二判定结果为第三默认值和所述使用增长率,否则为第四默认值。
可选的,所述确定模块701,具体用于:
若所述第一主机在所述第二预设时长内,所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间,则确定所述第三判定结果为第五默认值和所述皮尔逊相关系数,否则为第六默认值。
可选的,所述处理模块702,具体用于:
按照决策树的判定次序,依次提取所述特征向量中每个维度的特征值,按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常:若该特征值在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为正常;若该特征值不在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为异常,并根据该特征值与该维度预训练的标准值的差值,确定该维度在所述决策树中对应决策分支的标签为正常或异常;
若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常,则确定所述第一主机为异常。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种集群异常判定方法,其特征在于,包括:
根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果;所述第一主机为所述至少一个主机中任一主机;
根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果;
根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果;
根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。
2.如权利要求1所述的方法,其特征在于,所述确定第一主机的第一判定结果,包括:
根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率,获取所述第一主机在所述预设时刻的残差值;
若所述残差值不位于第一区间,则确定所述第一判定结果为第一默认值和所述残差值,否则为第二默认值。
3.如权利要求1所述的方法,其特征在于,所述确定所述第一主机的第二判定结果,包括:
若所述第一主机在所述预设时刻的使用增长率不位于第二区间,则确定所述第二判定结果为第三默认值和所述使用增长率,否则为第四默认值。
4.如权利要求1所述的方法,其特征在于,所述第一主机的第三判定结果,包括:
若所述第一主机在所述第二预设时长内,所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间,则确定所述第三判定结果为第五默认值和所述皮尔逊相关性系数,否则为第六默认值。
5.如权利要求1-4任一所述的方法,其特征在于,所述根据所述特征向量确定所述第一主机是否异常,包括:
按照决策树的判定次序,依次提取所述特征向量中每个维度的特征值,按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常:若该特征值在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为正常;若该特征值不在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为异常,并根据该特征值与该维度预训练的标准值的差值,确定该维度在所述决策树中对应决策分支的标签为正常或异常;
若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常,则确定所述第一主机为异常。
6.一种集群异常判定装置,其特征在于,包括:
确定模块,用于根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率,确定所述第一主机的第一判定结果;所述第一主机为所述至少一个主机中任一主机;根据所述至少一个主机中,每个主机在所述预设时刻的文件空间使用增长率,确定所述第一主机的第二判定结果;根据所述至少一个主机中,每个主机在所述预设时刻起之前第二预设时长内,该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数,确定所述第一主机的第三判定结果;
处理模块,用于根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量,根据所述特征向量确定所述第一主机是否异常;若所述第一主机异常,则确定所述集群异常。
7.如权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率,获取所述第一主机在所述预设时刻的残差值;
若所述残差值不位于第一区间,则确定所述第一判定结果为第一默认值和所述残差值,否则为第二默认值。
8.如权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
若所述第一主机在所述预设时刻的使用增长率不位于第二区间,则确定所述第二判定结果为第三默认值和所述使用增长率,否则为第四默认值。
9.如权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
若所述第一主机在所述第二预设时长内,所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间,则确定所述第三判定结果为第五默认值和所述皮尔逊相关性系数,否则为第六默认值。
10.如权利要求6-9任一所述的装置,其特征在于,所述处理模块,具体用于:
按照决策树的判定次序,依次提取所述特征向量中每个维度的特征值,按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常:若该特征值在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为正常;若该特征值不在该维度标签为正常的数据集合中,则确定该特征值在所述决策树中对应的决策分支的标签为异常,并根据该特征值与该维度预训练的标准值的差值,确定该维度在所述决策树中对应决策分支的标签为正常或异常;
若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常,则确定所述第一主机为异常。
CN201910206243.3A 2019-03-19 2019-03-19 一种集群异常判定方法及装置 Active CN109978038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910206243.3A CN109978038B (zh) 2019-03-19 2019-03-19 一种集群异常判定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910206243.3A CN109978038B (zh) 2019-03-19 2019-03-19 一种集群异常判定方法及装置

Publications (2)

Publication Number Publication Date
CN109978038A CN109978038A (zh) 2019-07-05
CN109978038B true CN109978038B (zh) 2023-04-18

Family

ID=67079281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910206243.3A Active CN109978038B (zh) 2019-03-19 2019-03-19 一种集群异常判定方法及装置

Country Status (1)

Country Link
CN (1) CN109978038B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515796B (zh) * 2019-07-30 2022-07-01 平安科技(深圳)有限公司 一种基于皮质学习的异常检测方法、装置及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5128885A (en) * 1990-02-23 1992-07-07 International Business Machines Corporation Method for automatic generation of document history log exception reports in a data processing system
US6847731B1 (en) * 2000-08-07 2005-01-25 Northeast Photo Sciences, Inc. Method and system for improving pattern recognition system performance
CN101218786A (zh) * 2005-07-11 2008-07-09 日本电气株式会社 通信网络故障检测***、通信网络故障检测方法及故障检测程序
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699213B2 (en) * 2016-03-07 2020-06-30 Micron Technology, Inc. Space efficient random decision forest models implementation utilizing automata processors
US10055481B2 (en) * 2016-07-20 2018-08-21 LogsHero Ltd. Method and system for automatic event classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5128885A (en) * 1990-02-23 1992-07-07 International Business Machines Corporation Method for automatic generation of document history log exception reports in a data processing system
US6847731B1 (en) * 2000-08-07 2005-01-25 Northeast Photo Sciences, Inc. Method and system for improving pattern recognition system performance
CN101218786A (zh) * 2005-07-11 2008-07-09 日本电气株式会社 通信网络故障检测***、通信网络故障检测方法及故障检测程序
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置

Also Published As

Publication number Publication date
CN109978038A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN111782472B (zh) ***异常检测方法、装置、设备及存储介质
CN112800116B (zh) 一种业务数据的异常检测方法及装置
US11650968B2 (en) Systems and methods for predictive early stopping in neural network training
CN108052528A (zh) 一种存储设备时序分类预警方法
CN105071983A (zh) 一种面向云计算在线业务的异常负载检测方法
EP1958034B1 (en) Use of sequential clustering for instance selection in machine condition monitoring
CN111027615A (zh) 基于机器学习的中间件故障预警方法和***
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和***
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN115617614A (zh) 基于时间间隔感知自注意力机制的日志序列异常检测方法
CN111949496B (zh) 一种数据检测方法及装置
CN115934490A (zh) 服务器性能预测模型训练方法、装置、设备及存储介质
CN109978038B (zh) 一种集群异常判定方法及装置
CN113822336A (zh) 一种云硬盘故障预测方法、装置、***及可读存储介质
WO2024027487A1 (zh) 基于智能运维场景的健康度评价方法及装置
CN111400122B (zh) 一种硬盘健康度评估方法及装置
CN116909712A (zh) 基于机器学习的智能任务调度***及其方法
CN116432835A (zh) 客户流失预警归因方法、装置、计算机设备及存储介质
CN116126807A (zh) 一种日志分析方法及相关装置
CN115619539A (zh) 贷前风险评价方法以及装置
CN112860652B (zh) 作业状态预测方法、装置和电子设备
CN117312350B (zh) 钢铁行业碳排放数据管理方法及装置
CN118071154B (zh) 基于数据处理的内控智能审核***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant