CN108521339B - 一种基于集群日志的反馈式节点故障处理方法及*** - Google Patents

一种基于集群日志的反馈式节点故障处理方法及*** Download PDF

Info

Publication number
CN108521339B
CN108521339B CN201810204291.4A CN201810204291A CN108521339B CN 108521339 B CN108521339 B CN 108521339B CN 201810204291 A CN201810204291 A CN 201810204291A CN 108521339 B CN108521339 B CN 108521339B
Authority
CN
China
Prior art keywords
fault
node
log
processing
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810204291.4A
Other languages
English (en)
Other versions
CN108521339A (zh
Inventor
黄焰文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vcmy Guangzhou Technology Shares Co ltd
Original Assignee
Vcmy Guangzhou Technology Shares Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vcmy Guangzhou Technology Shares Co ltd filed Critical Vcmy Guangzhou Technology Shares Co ltd
Priority to CN201810204291.4A priority Critical patent/CN108521339B/zh
Publication of CN108521339A publication Critical patent/CN108521339A/zh
Application granted granted Critical
Publication of CN108521339B publication Critical patent/CN108521339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供了一种基于集群日志的反馈式节点故障处理方法及***,属于通信技术领域,该处理方法包括:日志收集、处理、存储和故障判断及执行;该处理***包括:日志收集子***和故障判断&处理子***,日志收集子***由安装在节点上的日志收集探针、日志汇集器和日志储存模块三部分组成,故障判断&处理子***由故障判断模块、故障处理脚本仓库和故障处理执行模块三部分组成。该方法及***能够自动完成故障节点甄别、故障原因收集、故障分析、故障处理策略制定并对接kubernetes管理API,完成故障节点的重新纳管或打上详细故障标记。

Description

一种基于集群日志的反馈式节点故障处理方法及***
技术领域
本发明属于通信技术领域,具体涉及一种基于集群日志的反馈式节点故障处理方法及***。
背景技术
在kubernetes容器云集群中,往往会有几十甚至几百个节点,节点在使用过程中由于人为误操作、硬件故障、软件bug等种种因素,导致节点故障不可用,无法向上提供容器资源服务。对于批量多节点集群,大多数故障往往是可重现、甚至是在不同节点上重复出现的,而在kubernetes集群中,对于无法调度的节点,默认标志为not_ready,但不会对故障进行处理,即使节点可能只是一个简单的进程关闭(人为或其他因素)等小故障,也不能完成自动处理和恢复。
传统上,对于kubernetes集群节点故障往往会有如下两种处理方式:
工程师查看kubernetes管理平台(dashboard),发现某节点not ready,工程师远程登录节点查看日志定位问题,手动恢复故障节点并在kubernetes集群中重新加入节点(手动命令行)。
通过监控软件获取整个集群的节点日志信息,若发现有节点故障,远程登录节点定位问题,恢复故障节点并在kubernetes集群中重新加入节点(手动命令行)。
两种方式均无法完成从故障节点的甄别、定位、故障处理、及在kubernetes重新纳管整个环节的自动化,具体为:
对于方法一,kubernetes集群管理工具dashboard或者其自身的API可查询集群内节点情况,但只能知道节点是否可调度,无法得知节点的具体故障信息,若不可调度则工程师登录该节点故障定位,并重新将节点加入到kubernetes集群中。
对于方法二,通过监控软件(扫描***硬件、操作***、及进程等)如zabbix等实时获取节点的信息,发现故障节点,则由工程师登录该节点处理故障,处理后重新将节点纳入到kubernetes集群。这种方式仅仅了故障信息收集,但无法完成故障的自动处理及节点的重新纳管。
因此,有必要提出针对kubernetes容器云节点故障自动处理的方法,能够自动完成故障节点甄别、故障原因收集、故障分析、故障处理策略制定并对接kubernetes管理API,完成故障节点的重新纳管(或打上详细故障标记)。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种基于集群日志的反馈式节点故障处理方法及***。
为了实现上述目的,本发明提供如下技术方案:
一种基于集群日志的反馈式节点故障处理方法,包括:
获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
优选地,所述节点日志来源有2个:
c)/var/log目录日志;
d)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件***使用率、磁盘IO速率,并生成日志。
优选地,所述故障分为硬件故障、操作***故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
优选地,所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字进行匹配,根据匹配结果获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
根据所述故障脚本索引信息获取所述故障处理脚本。
本发明的另一目的在于提供一种基于集群日志的反馈式节点故障处理***,包括日志收集子***和故障判断&处理子***;
所述日志收集子***,用于获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
所述故障判断&处理子***,用于根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
优选地,所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
根据所述故障脚本索引信息获取所述故障处理脚本。
优选地,所述日志收集子***由安装在节点上的日志收集探针、日志汇集器和日志储存模块三部分组成;
所述日志收集探针,用于收集各个节点上的节点日志,并定期通过UDP协议将所述节点日志发送到所述日志汇集器;
所述日志汇集器,用于整理、汇集整个集群的节点日志,并对外提供检索功能;
所述日志储存模块,用于格式化储存整个集群的所有节点日志,存储格式为时间戳+json格式;
所述故障判断&处理子***由故障判断模块、故障处理脚本仓库和故障处理执行模块三部分组成;
所述故障判断模块,用于根据日志内容对故障进行分类,并将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
所述故障处理脚本仓库,用于分类储存故障处理脚本;
所述故障处理执行模块,用于从所述故障处理脚本仓库中搜索并获取故障处理脚本,将所述故障处理脚本分发给故障节点执行,同时收集执行结果。
优选地,所述节点日志来源有2个:
c)/var/log目录日志;
d)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件***使用率、磁盘IO速率,并生成日志。
优选地,所述故障判断模块将故障分为硬件故障、操作***故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
本发明提供的基于集群日志的反馈式节点故障处理方法及***,该方法包括:获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签;该方法能够自动完成故障原因收集、故障定位、故障处理、故障处理结果收集整个环节,对于kubernetes容器云大集群多节点常见的重复性故障批量处理有很大的帮助;能够快速感知kubernetes整个集群各个节点的的故障信息(硬件、操作***、kubernetes组件等),并以此为基础快速定位故障,并通过自有的脚本处理仓库获取脚本处理下发故障节点执行,最后能够通过kubernetes管理平台或API自动完成故障节点的重新纳管或详细标识,对于常见重复性故障,整个故障处理环节实现全自动,无需人为干预。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于集群日志的反馈式节点故障处理方法流程示意图;
图2为本发明实施例提供的进行故障判断得到故障处理脚本的流程图;
图3为本发明实施例提供的的一种基于集群日志的反馈式节点故障处理***的结构框图;
图4为本发明实施例1提供的一种基于集群日志的反馈式节点故障处理方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于集群日志的反馈式节点故障处理方法和***,该方法和***主要针对kubernetes容器云,Kubernetes是Google开源的容器集群管理***,其提供应用部署、维护、扩展机制等功能,利用Kubernetes能方便地管理跨机器运行容器化的应用,因此对其节点故障进行有效处理可极大的优化运行效率。
图1为本发明实施例提供的一种基于集群日志的反馈式节点故障处理方法流程示意图,该方法包括以下步骤:
步骤101:获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将包含故障信息的日志进行储存,存储格式为时间戳+json格式;
步骤102:根据收集到的包含故障信息的日志进行故障判断得到故障处理脚本;将故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
在步骤101中,节点日志来源有2个:
a)/var/log目录日志,/var/log/目录之下包含了整体***信息、内核缓冲信息、***授权信息、***启动时的日志、各种***后台守护进程日志信息、所以等级用户信息的日志等多个日志;
b)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件***使用率、磁盘IO速率,并生成日志。
在步骤步骤102中,本实施例将故障分为硬件故障(磁盘损坏、内存损坏等)、操作***故障(内存溢出、文件***损坏、驱动损坏等)、kubernetes组件及docker组件故障(进程崩溃、配置文件缺失等),各故障分为高、中、低三个等级,根据故障等级判断故障是否可以恢复,进而判断是否重新将节点加入集群。
图2为本发明实施例提供的进行故障判断得到故障处理脚本的流程图,包括以下步骤:
步骤201:将收集到的日志与故障关键字进行匹配,根据匹配结果获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
步骤202:获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
步骤203:根据所述故障脚本索引信息获取所述故障处理脚本。
基于同一发明构思,本发明实施例提供了一种基于集群日志的反馈式节点故障处理***,由于该***解决技术问题的原理与一种基于集群日志的反馈式节点故障处理系方法相似,因此该***的实施可以参见方法的实施,重复之处不再赘述。
图3为本发明实施例提供的一种基于集群日志的反馈式节点故障处理***的结构框图,如图3所示,该***主要包括日志收集子***1和故障判断&处理子***2;
日志收集子***1,用于获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
故障判断&处理子***2,用于根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
优选地,进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据故障节点及故障原因生成故障判断报告;
获取故障判断报告,根据故障判断报告获得故障脚本索引信息;
根据故障脚本索引信息获取故障处理脚本。
优选地,日志收集子***1由安装在节点上的日志收集探针11、日志汇集器12和日志储存模块13三部分组成;
日志收集探针11,用于收集各个节点上的节点日志,并定期通过UDP协议将节点日志发送到日志汇集器12;
日志汇集器12,用于整理、汇集整个集群的节点日志,并对外提供检索功能;
日志储存模块13,用于格式化储存整个集群的所有节点日志,存储格式为时间戳+json格式;
故障判断&处理子***由故障判断模块21、故障处理脚本仓库22和故障处理执行模块23三部分组成;
故障判断模块21,用于根据日志内容对故障进行分类,并将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据故障节点及故障原因生成故障判断报告;
故障处理脚本仓库22,用于分类储存故障处理脚本;
故障处理执行模块23,用于从故障处理脚本仓库22中搜索并获取故障处理脚本,将故障处理脚本分发给故障节点执行,同时收集执行结果。
优选地,节点日志来源有2个:
e)/var/log目录日志;
f)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件***使用率、磁盘IO速率,并生成日志。
优选地,故障判断模块21将故障分为硬件故障、操作***故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
基于上述处理***,本发明实施例1提供的一种基于集群日志的反馈式节点故障处理方法流程示意图,如图4所示,该方法主要包括以下步骤:
日志收集、处理、存储:
步骤301:安装在每个节点(Node)上的日志收集探针11定期获取节点日志,日志收集探针11定期通过UDP协议发送性能参数给日志汇集器12,本实施例中日志来源有2个:
a)/var/log目录日志;
b)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件***使用率、磁盘IO速率,并生成日志;
步骤302:日志汇集器12汇总各节点日志,整理得出整个集群每个节点包含故障信息的日志;
步骤303:日志汇集器12将包含故障信息的日志储存进日志储存模块13,,存储格式为时间戳+json格式;
故障判断及执行:
步骤304:故障判断模块21将日志汇集器12汇收集到的日志与故障关键字匹配,获得故障节点(IP/域名)及故障原因,并生成故障判断报告;
步骤305:故障处理脚本仓库22从故障判断模块21中获取故障判断报告,根据故障判断报告并获得故障脚本索引信息;
步骤306:故障处理执行模块23从故障处理脚本仓库22中获取故障处理脚本,若没有相应故障处理脚本则直接执行步骤308;
步骤307:故障处理执行模块23将故障处理脚本分发给故障节点执行,并获取脚本执行结果;
步骤308:故障处理执行模块23根据故障节点脚本处理结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,则给节点打上故障+故障类型+加故障原因的标签,并附上相关故障细节。
本实施例提供的基于集群日志的反馈式节点故障处理方法及***具有以下有益效果:
(1)本实施例提供的基于集群日志的反馈式节点故障处理方法及***针对kubernetes容器云,该方法能够自动完成故障原因收集、故障定位、故障处理、故障处理结果收集整个环节,对于kubernetes容器云大集群多节点常见的重复性故障批量处理有很大的帮助;
(2)能够快速感知kubernetes整个集群各个节点的的故障信息(硬件、操作***、kubernetes组件等),并以此为基础快速定位故障,并通过自有的脚本处理仓库获取脚本处理下发故障节点执行,最后能够通过kubernetes管理平台或API自动完成故障节点的重新纳管或详细标识,对于常见重复性故障,整个故障处理环节实现全自动,无需人为干预。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于集群日志的反馈式节点故障处理方法,其特征在于,包括:
获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签;
所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字进行匹配,根据匹配结果获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
根据所述故障脚本索引信息获取所述故障处理脚本。
2.根据权利要求1所述的基于集群日志的反馈式节点故障处理方法,其特征在于,所述节点日志来源有2个:
a)/var/log目录日志;
b)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件***使用率、磁盘IO速率,并生成日志。
3.根据权利要求1所述的基于集群日志的反馈式节点故障处理方法,其特征在于,所述故障分为硬件故障、操作***故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
4.一种基于集群日志的反馈式节点故障处理***,其特征在于,包括日志收集子***和故障判断&处理子***;
所述日志收集子***,用于获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
所述故障判断&处理子***,用于根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
5.根据权利要求4所述的基于集群日志的反馈式节点故障处理***,其特征在于,所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告。
6.根据权利要求4所述的基于集群日志的反馈式节点故障处理***,其特征在于,所述日志收集子***由安装在节点上的日志收集探针、日志汇集器和日志储存模块三部分组成;
所述日志收集探针,用于收集各个节点上的节点日志,并定期通过UDP协议将所述节点日志发送到所述日志汇集器;
所述日志汇集器,用于整理、汇集整个集群的节点日志,并对外提供检索功能;
所述日志储存模块,用于格式化储存整个集群的所有节点日志,存储格式为时间戳+json格式;
所述故障判断&处理子***由故障判断模块、故障处理脚本仓库和故障处理执行模块三部分组成;
所述故障判断模块,用于根据日志内容对故障进行分类,并将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
所述故障处理脚本仓库,用于分类储存故障处理脚本;
所述故障处理执行模块,用于从所述故障处理脚本仓库中搜索并获取故障处理脚本,将所述故障处理脚本分发给故障节点执行,同时收集执行结果。
7.根据权利要求6所述的基于集群日志的反馈式节点故障处理***,其特征在于,所述节点日志来源有2个。
8.根据权利要求6所述的基于集群日志的反馈式节点故障处理***,其特征在于,所述故障判断模块将故障分为硬件故障、操作***故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
CN201810204291.4A 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及*** Active CN108521339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810204291.4A CN108521339B (zh) 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810204291.4A CN108521339B (zh) 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及***

Publications (2)

Publication Number Publication Date
CN108521339A CN108521339A (zh) 2018-09-11
CN108521339B true CN108521339B (zh) 2021-08-03

Family

ID=63433609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810204291.4A Active CN108521339B (zh) 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及***

Country Status (1)

Country Link
CN (1) CN108521339B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614289A (zh) * 2018-12-10 2019-04-12 浪潮(北京)电子信息产业有限公司 一种存储节点监控方法、***、设备及计算机存储介质
CN109660397B (zh) * 2018-12-21 2022-02-15 北京百度网讯科技有限公司 用于采集日志的***、方法和装置
CN111367775B (zh) * 2018-12-26 2023-11-14 北京嘀嘀无限科技发展有限公司 问题节点定位方法、计算机设备和计算机可读存储介质
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN113296988A (zh) * 2020-06-08 2021-08-24 阿里巴巴集团控股有限公司 基于多容器共享异构计算设备实现故障隔离的方法及装置
CN113111240A (zh) * 2021-04-20 2021-07-13 康键信息技术(深圳)有限公司 日志监控方法、装置、电子设备及可读存储介质
CN113535474B (zh) * 2021-06-30 2022-11-11 重庆紫光华山智安科技有限公司 异构云存储集群故障自动修复的方法、***、介质及终端
CN113726553A (zh) * 2021-07-29 2021-11-30 浪潮电子信息产业股份有限公司 一种节点故障恢复方法、装置、电子设备及可读存储介质
CN115118582B (zh) * 2022-06-15 2024-04-16 合肥移瑞通信技术有限公司 日志分析的方法和装置
CN115408194A (zh) * 2022-09-05 2022-11-29 摩尔线程智能科技(北京)有限责任公司 Kubernetes节点故障修复方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和***
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理***
CN105376303A (zh) * 2015-10-23 2016-03-02 深圳前海达闼云端智能科技有限公司 一种Docker实现***及其通信方法
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用***故障实时分析诊断***及方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和***
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理***
CN105376303A (zh) * 2015-10-23 2016-03-02 深圳前海达闼云端智能科技有限公司 一种Docker实现***及其通信方法
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用***故障实时分析诊断***及方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于Kubernetes 的分布式ELK 日志分析***";陈建娟 等;《电子技术与软件工程》;20160728;第211-214页 *
"基于容器技术的PaaS 云平台方案";齐磊 等;《电信科学》;20170420;第177-182页 *

Also Published As

Publication number Publication date
CN108521339A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及***
EP3798846B1 (en) Operation and maintenance system and method
CN109684053B (zh) 大数据的任务调度方法和***
CN112612675A (zh) 微服务架构下的分布式大数据日志链路跟踪方法及***
CN111866016B (zh) 日志的分析方法及***
CN105631026A (zh) 一种安全数据分析***
CN107957940B (zh) 一种测试日志处理方法、***及终端
CN108632111A (zh) 一种基于日志的服务链路监控方法
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN110489317B (zh) 基于工作流的云***任务运行故障诊断方法与***
CN112711496A (zh) 日志信息全链路追踪方法、装置、计算机设备和存储介质
CN111859047A (zh) 一种故障解决方法及装置
CN111124830A (zh) 一种微服务的监控方法及装置
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
US20230004478A1 (en) Systems and methods of continuous stack trace collection to monitor an application on a server and resolve an application incident
CN102546235B (zh) 云计算环境下面向web应用的性能诊断方法和***
CN112068981B (zh) Linux操作***中基于知识库的故障扫描恢复方法及***
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111277427B (zh) 一种数据中心网络设备的巡检方法及***
CN112579552A (zh) 日志存储及调用方法、装置及***
CN116126621A (zh) 大数据集群的任务监控方法及相关设备
CN113656183B (zh) 任务处理方法、装置、设备及存储介质
CN113918204A (zh) 一种元数据脚本管理方法、装置、电子设备和存储介质
CN113704203A (zh) 一种日志文件的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A feedback based node fault handling method and system based on cluster logs

Granted publication date: 20210803

Pledgee: Bank of China Limited Guangzhou Pearl River Branch

Pledgor: GUANGZHOU VCMY TECHNOLOGY Co.,Ltd.

Registration number: Y2024980020601