CN114942875A - 容器云集群节点异常检测方法及*** - Google Patents

容器云集群节点异常检测方法及*** Download PDF

Info

Publication number
CN114942875A
CN114942875A CN202210506971.8A CN202210506971A CN114942875A CN 114942875 A CN114942875 A CN 114942875A CN 202210506971 A CN202210506971 A CN 202210506971A CN 114942875 A CN114942875 A CN 114942875A
Authority
CN
China
Prior art keywords
node
anomaly detection
container cloud
abnormal
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210506971.8A
Other languages
English (en)
Inventor
石光银
蔡卫卫
高传集
孙思清
肖雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202210506971.8A priority Critical patent/CN114942875A/zh
Publication of CN114942875A publication Critical patent/CN114942875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了容器云集群节点异常检测方法及***,属于容器云技术领域,要解决的技术问题为如何实现容器云集群节点的异常检测和修复。包括如下步骤:在容器云集群的每个节点上部署节点异常检测组件,通过异常检测服务对节点进行异常数据监控;定义节点异常检测组件的检测内容;对于容器云集群中每个节点,通过异常检测服务进行异常数据监控,并将检测的异常信息作为异常事件推送至容器云API服务器;通过容器云事件中心存储异常事件;通过自动化运维模块订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。

Description

容器云集群节点异常检测方法及***
技术领域
本发明涉及容器云技术领域,具体地说是容器云集群节点异常检测方法及***。
背景技术
随着容器技术的发展,传统业务上云越来越多,云厂商维护的容器云越来越多,为了持续稳定的提供容器云服务,云厂商需要处理越来越多的容器云异常,但是传统的运维模式需要大量的运维人力,运维成本高,运维响应慢,显然满足不了容器云的需要,如何及时自动的发现容器云的异常,并能自动修复容器云的异常,提升自动运维能力是各个云厂商需要急需解决的问题。
如何实现容器云集群节点的异常检测和修复,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供容器云集群节点异常检测方法及***,来解决如何实现容器云集群节点的异常检测和修复的技术问题。
第一方面,本发明的一种容器云集群节点异常检测方法,包括如下步骤:
在容器云集群的每个节点上部署节点异常检测组件,所述节点异常检测组件用于提供异常检测服务,通过异常检测服务对节点进行异常数据监控;
定义节点异常检测组件的检测内容,所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常;
对于容器云集群中每个节点,通过异常检测服务进行异常数据监控,并将检测的异常信息作为异常事件推送至容器云API服务器;
通过容器云事件中心存储所述异常事件;
通过自动化运维模块订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。
作为优选,通过组件管理模块在容器云集群的每个节点上部署节点异常检测组件,定义节点异常组件的部署资源,并指定节点异常组件部署的节点标签,通过节点标签限定节点异常检测组件和节点的对应关系。
作为优选,对于每个节点异常检测组件,预配置有对应的组件配置文件,所述组件配置文件中预配置有所述节点异常检测组件的检测内容。
作为优选,事件中心通过容器云的事件源调用容器云API服务器,从容器云API服务器中获取并存储异常事件。
作为优选,所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上;
所述节点异常检测服务以插件形式运行监控内容,所述插件包括:
system-stats插件,所述system-stats插件用于监控cpu、内存、磁盘、网络、主机、***特性的异常数据;
kmsg插件,所述kmsg插件用于监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读的异常数据;
journald插件,所述journald插件用于监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常相关的异常数据;
custom插件,所述custom插件用于自定义异常事件监控,默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启的异常数据监控;
filelog插件,所述filelog插件用于监控监控Docker镜像层异常、内核内存异常、内核进程hung住的异常数据。
第二方面,本发明的一种容器云集群节点异常检测***,其特征在于用于通过如第一方面任一项所述的容器云集群节点异常检测方法对容器云集群进行节点异常检测和修复,所述***包括:
组件管理模块,所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件,所述节点异常检测组件用于提供异常检测服务,通过异常检测服务对节点进行异常数据监控;
检查项配置模块,所述检查项配置模块用于定义节点异常检测组件的检测内容,所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常;
节点异常检测组件,容器云集群的每个节点上均配置有节点异常检测组件,对于容器云集群中每个节点,通过节点异常检测组件提供的异常检测服务进行异常数据监控,并将监测的异常信息作为异常事件推送;
容器云API服务器,所述容器云API服务器用于接收异常检测服务推送的异常事件;
容器云事件中心,所述容器云事件中心与所述容器云API服务器交互,用于存储所述异常事件;
自动化运维模块,所述自动化运维模块与所述容器云事件中心交互,用于订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。
作为优选,所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件,定义节点异常组件的部署资源,并指定节点异常组件部署的节点标签,通过节点标签限定节点异常检测组件和节点的对应关系。
作为优选,对于每个节点异常检测组件,所述检查项配置模块用于预配置对应的组件配置文件,所述组件配置文件中预配置有所述节点异常检测组件的检测内容。
作为优选,所述事件中心用于通过容器云的事件源调用容器云API服务器,从容器云API服务器中获取并存储异常事件。
作为优选,所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上;
所述节点异常检测服务以插件形式运行监控内容,所述插件包括:
system-stats插件,所述system-stats插件用于监控cpu、内存、磁盘、网络、主机、***特性的异常数据;
kmsg插件,所述kmsg插件用于监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读的异常数据;
journald插件,所述journald插件用于监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常相关的异常数据;
custom插件,所述custom插件用于自定义异常事件监控,默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启的异常数据监控;
filelog插件,所述filelog插件用于监控监控Docker镜像层异常、内核内存异常、内核进程hung住的异常数据。
本发明的容器云集群节点异常检测方法及***具有以下优点:
1、在容器云集群每个节点都部署一个节点异常检测组件,通过该节点异常检测组件提供的异常检测服务进行节点异常检测,并将检测的异常信息作为异常事件推送至容器云API服务器,事件中心获取到异常事件后,调用自动化运维***完成异常事件自动处理,提升容器云集群的高可用性和自动修复能力,解决了云厂商运维容器云困难的问题,同时降低了运维成本,提升了运维效率;
2、对于每个节点异常检测组件配置了对应的组件配置文件,并在组件配置文件中预配置了检测内容,通过检测内容可限定检测项,实现了检测内容的自定义。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种容器云集群节点异常检测方法的流程框图;
图2为实施例1一种容器云集群节点异常检测方法中节点异常检测组件的部署示意图;
图3为实施例1一种容器云集群节点异常检测方法中各个插件以及对应的检测项;
图4为实施例1一种容器云集群节点异常检测方法在K8S中的流程。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供容器云集群节点异常检测方法及***,用于解决如何实现容器云集群节点的异常检测和修复的技术问题。
实施例1:
本发明一种容器云集群节点异常检测方法,如图1所示,包括如下步骤:
S100、在容器云集群的每个节点上部署节点异常检测组件,所述节点异常检测组件用于提供异常检测服务,通过异常检测服务对节点进行异常数据监控;
S200、定义节点异常检测组件的检测内容,所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常;
S300、对于容器云集群中每个节点,通过异常检测服务进行异常数据监控,并将检测的异常信息作为异常事件推送至容器云API服务器;
S400、通过容器云事件中心存储所述异常事件;
S500、通过自动化运维模块订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。
本实施例的节点异常检测组件被定义为非容器形式管理的服务,基于Operator+CRD技术实现,支持集中式的声明式管理和分布式的并发执行,支持部署、扩容、缩容、删除、升级等生命周期。
步骤S100在容器云集群中,通过组件管理模块在集群的每个节点上部署节点异常检测组件,定义节点异常组件部署资源,指定节点异常组件部署的节点标签,通过组件管理模块完成节点异常组件在指定节点的部署。
对于每个节点异常检测组件,预配置有对应的组件配置文件,所述组件配置文件中预配置有所述节点异常检测组件的检测内容。步骤S200定义节点异常组件检测内容,包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常等,把异常信息作为事件推送给容器云API服务器。
容器云事件中心是用于存放云的所有事件的模块,步骤S300通过容器云的事件源,容器云事件中心调用容器云的API,获取节点异常事件。
步骤S400自动化运维模块订阅云事件中心的告警或异常事件,通过自动修复逻辑完成对节点异常事件的自动修复。
节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上。节点异常检测服务以插件形式运行监控内容,插件包括system-stats插件、kmsg插件、journald插件、custom插件以及filelog插件。各个插件的检测内容如图2所示,system-stats插件主要监控cpu、内存、磁盘、网络、主机、***特性等异常事件。Kmsg插件主要监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读等异常事件。Journald插件主要监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常等异常事件。Custom插件支持自定义异常事件监控,默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启等异常事件。Filelog插件主要监控Docker镜像层异常、内核内存异常、内核进程hung住等异常事件。
如图4所示,本实施例的方法应用于K8S集群为例,K8S集群中每一个节点部署一个节点异常检测容器(NPD容器),用于监控节点上异常数据,包括docker、kubelet、ntp是否有异常,操作***kernel是否有异常,操作***CPU、内存、存储、网络是否有异常等。NPD收集到监控数据后,调用ApiServer(容器云API服务器),更新NodeCondition和Event。CEC(容器云事件中心)可以收集容器云的事件,推送给自动化运维***,自动化运维修复异常事件。
实施例2:
本发明一种容器云集群节点异常检测***,包括组件管理模块、检查项配置模块、节点异常检测组件、容器云API服务器、容器云事件中心以及自动化运维模块,该***通过实施例1公开的容器云集群节点异常检测方法对容器云集群进行节点异常检测和修复。
组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件,所述节点异常检测组件用于提供异常检测服务,通过异常检测服务对节点进行异常数据监控。
作为组件管理模块的具体实施,该组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件,定义节点异常组件的部署资源,并指定节点异常组件部署的节点标签,通过节点标签限定节点异常检测组件和节点的对应关系。
检查项配置模块用于定义节点异常检测组件的检测内容,所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常。
对于每个节点异常检测组件,检查项配置模块用于预配置对应的组件配置文件,所述组件配置文件中预配置有所述节点异常检测组件的检测内容。
容器云集群的每个节点上均配置有节点异常检测组件,对于容器云集群中每个节点,通过节点异常检测组件提供的异常检测服务进行异常数据监控,并将监测的异常信息作为异常事件推送。
容器云API服务器用于接收异常检测服务推送的异常事件。
容器云事件中心与容器云API服务器交互,用于存储所述异常事件。
作为具体实施,事件中心用于通过容器云的事件源调用容器云API服务器,从容器云API服务器中获取并存储异常事件。
自动化运维模块与所述容器云事件中心交互,用于订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。
本实施例中节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上;节点异常检测服务以插件形式运行监控内容。
节点异常检测服务以插件形式运行监控内容,插件包括system-stats插件、kmsg插件、journald插件、custom插件以及filelog插件。各个插件的检测内容如图2所示,system-stats插件主要监控cpu、内存、磁盘、网络、主机、***特性等异常事件。Kmsg插件主要监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读等异常事件。Journald插件主要监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常等异常事件。Custom插件支持自定义异常事件监控,默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启等异常事件。Filelog插件主要监控Docker镜像层异常、内核内存异常、内核进程hung住等异常事件。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种容器云集群节点异常检测方法,其特征在于包括如下步骤:
在容器云集群的每个节点上部署节点异常检测组件,所述节点异常检测组件用于提供异常检测服务,通过异常检测服务对节点进行异常数据监控;
定义节点异常检测组件的检测内容,所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常;
对于容器云集群中每个节点,通过异常检测服务进行异常数据监控,并将检测的异常信息作为异常事件推送至容器云API服务器;
通过容器云事件中心存储所述异常事件;
通过自动化运维模块订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。
2.根据权利要求1所述的容器云集群节点异常检测方法,其特征在于通过组件管理模块在容器云集群的每个节点上部署节点异常检测组件,定义节点异常组件的部署资源,并指定节点异常组件部署的节点标签,通过节点标签限定节点异常检测组件和节点的对应关系。
3.根据权利要求1所述的容器云集群节点异常检测方法,其特征在于对于每个节点异常检测组件,预配置有对应的组件配置文件,所述组件配置文件中预配置有所述节点异常检测组件的检测内容。
4.根据权利要求1所述的容器云集群节点异常检测方法,其特征在于事件中心通过容器云的事件源调用容器云API服务器,从容器云API服务器中获取并存储异常事件。
5.根据权利要求1-4任一项所述的容器云集群节点异常检测方法,其特征在于所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上;
所述节点异常检测服务以插件形式运行监控内容,所述插件包括:
system-stats插件,所述system-stats插件用于监控cpu、内存、磁盘、网络、主机、***特性的异常数据;
kmsg插件,所述kmsg插件用于监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读的异常数据;
journald插件,所述journald插件用于监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常相关的异常数据;
custom插件,所述custom插件用于自定义异常事件监控,默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启的异常数据监控;
filelog插件,所述filelog插件用于监控监控Docker镜像层异常、内核内存异常、内核进程hung住的异常数据。
6.一种容器云集群节点异常检测***,其特征在于用于通过如权利要求1-5任一项所述的容器云集群节点异常检测方法对容器云集群进行节点异常检测和修复,所述***包括:
组件管理模块,所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件,所述节点异常检测组件用于提供异常检测服务,通过异常检测服务对节点进行异常数据监控;
检查项配置模块,所述检查项配置模块用于定义节点异常检测组件的检测内容,所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常;
节点异常检测组件,容器云集群的每个节点上均配置有节点异常检测组件,对于容器云集群中每个节点,通过节点异常检测组件提供的异常检测服务进行异常数据监控,并将监测的异常信息作为异常事件推送;
容器云API服务器,所述容器云API服务器用于接收异常检测服务推送的异常事件;
容器云事件中心,所述容器云事件中心与所述容器云API服务器交互,用于存储所述异常事件;
自动化运维模块,所述自动化运维模块与所述容器云事件中心交互,用于订阅容器云事件中心中的异常事件,并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。
7.根据权利要求6所述的容器云集群节点异常检测***,其特征在于所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件,定义节点异常组件的部署资源,并指定节点异常组件部署的节点标签,通过节点标签限定节点异常检测组件和节点的对应关系。
8.根据权利要求6所述的容器云集群节点异常检测***,其特征在于对于每个节点异常检测组件,所述检查项配置模块用于预配置对应的组件配置文件,所述组件配置文件中预配置有所述节点异常检测组件的检测内容。
9.根据权利要求6所述的容器云集群节点异常检测***,其特征在于所述事件中心用于通过容器云的事件源调用容器云API服务器,从容器云API服务器中获取并存储异常事件。
10.根据权利要求6-9任一项所述的容器云集群节点异常检测***,其特征在于所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上;
所述节点异常检测服务以插件形式运行监控内容,所述插件包括:
system-stats插件,所述system-stats插件用于监控cpu、内存、磁盘、网络、主机、***特性的异常数据;
kmsg插件,所述kmsg插件用于监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读的异常数据;
journald插件,所述journald插件用于监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常相关的异常数据;
custom插件,所述custom插件用于自定义异常事件监控,默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启的异常数据监控;
filelog插件,所述filelog插件用于监控监控Docker镜像层异常、内核内存异常、内核进程hung住的异常数据。
CN202210506971.8A 2022-05-11 2022-05-11 容器云集群节点异常检测方法及*** Pending CN114942875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210506971.8A CN114942875A (zh) 2022-05-11 2022-05-11 容器云集群节点异常检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210506971.8A CN114942875A (zh) 2022-05-11 2022-05-11 容器云集群节点异常检测方法及***

Publications (1)

Publication Number Publication Date
CN114942875A true CN114942875A (zh) 2022-08-26

Family

ID=82907603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210506971.8A Pending CN114942875A (zh) 2022-05-11 2022-05-11 容器云集群节点异常检测方法及***

Country Status (1)

Country Link
CN (1) CN114942875A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115499299A (zh) * 2022-09-13 2022-12-20 航天信息股份有限公司 一种集群设备监控方法及装置
CN116016123A (zh) * 2022-12-09 2023-04-25 京东科技信息技术有限公司 故障处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115499299A (zh) * 2022-09-13 2022-12-20 航天信息股份有限公司 一种集群设备监控方法及装置
CN116016123A (zh) * 2022-12-09 2023-04-25 京东科技信息技术有限公司 故障处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110196731B (zh) 一种运维***、方法及存储介质
CN114942875A (zh) 容器云集群节点异常检测方法及***
US7631297B2 (en) Autonomic computing: management agent utilizing action policy for operation
CN113596190B (zh) 基于Kubernetes的应用分布式多活***及方法
US11544052B2 (en) Tenant declarative deployments with release staggering
CN111857998A (zh) 一种可配置的定时任务调度方法及***
CN114884838A (zh) Kubernetes组件的监控方法及服务器
CN109697078B (zh) 非高可用性组件的修复方法、大数据集群和容器服务平台
CN110932914B (zh) 部署方法、部署装置、混合云***架构及计算机存储介质
US11934855B2 (en) System and method to autonomously manage hybrid information technology (IT) infrastructure
CN115080436A (zh) 测试指标确定方法、装置、电子设备及存储介质
JP2022100301A (ja) ソフトウェア・アップグレードがコンピューティング・デバイスに与える潜在的な影響を判定するための方法、コンピュータ・プログラム、および更新推奨コンピュータ・サーバ(ソフトウェア・アップグレードの安定性の推奨)
CN116450301B (zh) 基于容器的监控方法、***、设备及介质
CN105025179A (zh) 呼叫中心座席的监控方法及***
CN115941739A (zh) 一种物联网设备的巡检***及巡检方法
CN112667281B (zh) 一种配置信息处理方法及装置
CN113849378A (zh) 资源监测装置、***、资源监测方法、电子及介质
US20090182591A1 (en) Method and Apparatus for Determining Optimized Resolutions for Infrastructures
CN111581256A (zh) 一种智能量测终端应用程序的交互方法及***
CN116166465A (zh) 基于管理面集群的集群运维方法及装置
US20240193033A1 (en) Network management apparatus, network management method and network management system
CN116974857B (zh) 一种监控代理自动部署更新方法及其***
CN117349035B (zh) 工作负载的调度方法、装置、设备及存储介质
CN113778570B (zh) 一种基于AOP+ThreadLocal技术的分布式***断点重试方法
CN117544494A (zh) 任务监控方法、区块链管理服务器、任务服务器及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination