CN114942875A

CN114942875A - 容器云集群节点异常检测方法及***

Info

Publication number: CN114942875A
Application number: CN202210506971.8A
Authority: CN
Inventors: 石光银; 蔡卫卫; 高传集; 孙思清; 肖雪
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-26

Abstract

本发明公开了容器云集群节点异常检测方法及***，属于容器云技术领域，要解决的技术问题为如何实现容器云集群节点的异常检测和修复。包括如下步骤：在容器云集群的每个节点上部署节点异常检测组件，通过异常检测服务对节点进行异常数据监控；定义节点异常检测组件的检测内容；对于容器云集群中每个节点，通过异常检测服务进行异常数据监控，并将检测的异常信息作为异常事件推送至容器云API服务器；通过容器云事件中心存储异常事件；通过自动化运维模块订阅容器云事件中心中的异常事件，并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。

Description

容器云集群节点异常检测方法及***

技术领域

本发明涉及容器云技术领域，具体地说是容器云集群节点异常检测方法及***。

背景技术

随着容器技术的发展，传统业务上云越来越多，云厂商维护的容器云越来越多，为了持续稳定的提供容器云服务，云厂商需要处理越来越多的容器云异常，但是传统的运维模式需要大量的运维人力，运维成本高，运维响应慢，显然满足不了容器云的需要，如何及时自动的发现容器云的异常，并能自动修复容器云的异常，提升自动运维能力是各个云厂商需要急需解决的问题。

如何实现容器云集群节点的异常检测和修复，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供容器云集群节点异常检测方法及***，来解决如何实现容器云集群节点的异常检测和修复的技术问题。

第一方面，本发明的一种容器云集群节点异常检测方法，包括如下步骤：

在容器云集群的每个节点上部署节点异常检测组件，所述节点异常检测组件用于提供异常检测服务，通过异常检测服务对节点进行异常数据监控；

定义节点异常检测组件的检测内容，所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常；

对于容器云集群中每个节点，通过异常检测服务进行异常数据监控，并将检测的异常信息作为异常事件推送至容器云API服务器；

通过容器云事件中心存储所述异常事件；

通过自动化运维模块订阅容器云事件中心中的异常事件，并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。

作为优选，通过组件管理模块在容器云集群的每个节点上部署节点异常检测组件，定义节点异常组件的部署资源，并指定节点异常组件部署的节点标签，通过节点标签限定节点异常检测组件和节点的对应关系。

作为优选，对于每个节点异常检测组件，预配置有对应的组件配置文件，所述组件配置文件中预配置有所述节点异常检测组件的检测内容。

作为优选，事件中心通过容器云的事件源调用容器云API服务器，从容器云API服务器中获取并存储异常事件。

作为优选，所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上；

所述节点异常检测服务以插件形式运行监控内容，所述插件包括：

system-stats插件，所述system-stats插件用于监控cpu、内存、磁盘、网络、主机、***特性的异常数据；

kmsg插件，所述kmsg插件用于监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读的异常数据；

journald插件，所述journald插件用于监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常相关的异常数据；

custom插件，所述custom插件用于自定义异常事件监控，默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启的异常数据监控；

filelog插件，所述filelog插件用于监控监控Docker镜像层异常、内核内存异常、内核进程hung住的异常数据。

第二方面，本发明的一种容器云集群节点异常检测***，其特征在于用于通过如第一方面任一项所述的容器云集群节点异常检测方法对容器云集群进行节点异常检测和修复，所述***包括：

组件管理模块，所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件，所述节点异常检测组件用于提供异常检测服务，通过异常检测服务对节点进行异常数据监控；

检查项配置模块，所述检查项配置模块用于定义节点异常检测组件的检测内容，所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常；

节点异常检测组件，容器云集群的每个节点上均配置有节点异常检测组件，对于容器云集群中每个节点，通过节点异常检测组件提供的异常检测服务进行异常数据监控，并将监测的异常信息作为异常事件推送；

容器云API服务器，所述容器云API服务器用于接收异常检测服务推送的异常事件；

容器云事件中心，所述容器云事件中心与所述容器云API服务器交互，用于存储所述异常事件；

自动化运维模块，所述自动化运维模块与所述容器云事件中心交互，用于订阅容器云事件中心中的异常事件，并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。

作为优选，所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件，定义节点异常组件的部署资源，并指定节点异常组件部署的节点标签，通过节点标签限定节点异常检测组件和节点的对应关系。

作为优选，对于每个节点异常检测组件，所述检查项配置模块用于预配置对应的组件配置文件，所述组件配置文件中预配置有所述节点异常检测组件的检测内容。

作为优选，所述事件中心用于通过容器云的事件源调用容器云API服务器，从容器云API服务器中获取并存储异常事件。

本发明的容器云集群节点异常检测方法及***具有以下优点：

1、在容器云集群每个节点都部署一个节点异常检测组件，通过该节点异常检测组件提供的异常检测服务进行节点异常检测，并将检测的异常信息作为异常事件推送至容器云API服务器，事件中心获取到异常事件后，调用自动化运维***完成异常事件自动处理，提升容器云集群的高可用性和自动修复能力，解决了云厂商运维容器云困难的问题，同时降低了运维成本，提升了运维效率；

2、对于每个节点异常检测组件配置了对应的组件配置文件，并在组件配置文件中预配置了检测内容，通过检测内容可限定检测项，实现了检测内容的自定义。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种容器云集群节点异常检测方法的流程框图；

图2为实施例1一种容器云集群节点异常检测方法中节点异常检测组件的部署示意图；

图3为实施例1一种容器云集群节点异常检测方法中各个插件以及对应的检测项；

图4为实施例1一种容器云集群节点异常检测方法在K8S中的流程。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供容器云集群节点异常检测方法及***，用于解决如何实现容器云集群节点的异常检测和修复的技术问题。

实施例1：

本发明一种容器云集群节点异常检测方法，如图1所示，包括如下步骤：

S100、在容器云集群的每个节点上部署节点异常检测组件，所述节点异常检测组件用于提供异常检测服务，通过异常检测服务对节点进行异常数据监控；

S200、定义节点异常检测组件的检测内容，所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常；

S300、对于容器云集群中每个节点，通过异常检测服务进行异常数据监控，并将检测的异常信息作为异常事件推送至容器云API服务器；

S400、通过容器云事件中心存储所述异常事件；

S500、通过自动化运维模块订阅容器云事件中心中的异常事件，并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。

本实施例的节点异常检测组件被定义为非容器形式管理的服务，基于Operator+CRD技术实现，支持集中式的声明式管理和分布式的并发执行，支持部署、扩容、缩容、删除、升级等生命周期。

步骤S100在容器云集群中，通过组件管理模块在集群的每个节点上部署节点异常检测组件，定义节点异常组件部署资源，指定节点异常组件部署的节点标签，通过组件管理模块完成节点异常组件在指定节点的部署。

对于每个节点异常检测组件，预配置有对应的组件配置文件，所述组件配置文件中预配置有所述节点异常检测组件的检测内容。步骤S200定义节点异常组件检测内容，包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常等，把异常信息作为事件推送给容器云API服务器。

容器云事件中心是用于存放云的所有事件的模块，步骤S300通过容器云的事件源，容器云事件中心调用容器云的API，获取节点异常事件。

步骤S400自动化运维模块订阅云事件中心的告警或异常事件，通过自动修复逻辑完成对节点异常事件的自动修复。

节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上。节点异常检测服务以插件形式运行监控内容，插件包括system-stats插件、kmsg插件、journald插件、custom插件以及filelog插件。各个插件的检测内容如图2所示，system-stats插件主要监控cpu、内存、磁盘、网络、主机、***特性等异常事件。Kmsg插件主要监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读等异常事件。Journald插件主要监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常等异常事件。Custom插件支持自定义异常事件监控，默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启等异常事件。Filelog插件主要监控Docker镜像层异常、内核内存异常、内核进程hung住等异常事件。

如图4所示，本实施例的方法应用于K8S集群为例，K8S集群中每一个节点部署一个节点异常检测容器(NPD容器)，用于监控节点上异常数据，包括docker、kubelet、ntp是否有异常，操作***kernel是否有异常，操作***CPU、内存、存储、网络是否有异常等。NPD收集到监控数据后，调用ApiServer(容器云API服务器)，更新NodeCondition和Event。CEC(容器云事件中心)可以收集容器云的事件，推送给自动化运维***，自动化运维修复异常事件。

实施例2：

本发明一种容器云集群节点异常检测***，包括组件管理模块、检查项配置模块、节点异常检测组件、容器云API服务器、容器云事件中心以及自动化运维模块，该***通过实施例1公开的容器云集群节点异常检测方法对容器云集群进行节点异常检测和修复。

组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件，所述节点异常检测组件用于提供异常检测服务，通过异常检测服务对节点进行异常数据监控。

作为组件管理模块的具体实施，该组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件，定义节点异常组件的部署资源，并指定节点异常组件部署的节点标签，通过节点标签限定节点异常检测组件和节点的对应关系。

检查项配置模块用于定义节点异常检测组件的检测内容，所述检测内容包括检测节点***时间、日志、CPU、内存、磁盘、网络、进程、容器运行时、容器管理器是否异常。

对于每个节点异常检测组件，检查项配置模块用于预配置对应的组件配置文件，所述组件配置文件中预配置有所述节点异常检测组件的检测内容。

容器云集群的每个节点上均配置有节点异常检测组件，对于容器云集群中每个节点，通过节点异常检测组件提供的异常检测服务进行异常数据监控，并将监测的异常信息作为异常事件推送。

容器云API服务器用于接收异常检测服务推送的异常事件。

容器云事件中心与容器云API服务器交互，用于存储所述异常事件。

作为具体实施，事件中心用于通过容器云的事件源调用容器云API服务器，从容器云API服务器中获取并存储异常事件。

自动化运维模块与所述容器云事件中心交互，用于订阅容器云事件中心中的异常事件，并通过自动化运维模块内置的自动修复逻辑对节点的异常事件进行自动修复。

本实施例中节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上；节点异常检测服务以插件形式运行监控内容。

节点异常检测服务以插件形式运行监控内容，插件包括system-stats插件、kmsg插件、journald插件、custom插件以及filelog插件。各个插件的检测内容如图2所示，system-stats插件主要监控cpu、内存、磁盘、网络、主机、***特性等异常事件。Kmsg插件主要监控内存溢出、任务Hung住、网络设备没有注册、内核空指针异常、EXT4文件***错误、IO错误、读取内存错误、docker进程Hung住、文件***只读等异常事件。Journald插件主要监控进程Crash、dockerd服务异常、Kubelet启动异常、Docker启动异常、Containerd启动异常等异常事件。Custom插件支持自定义异常事件监控，默认支持ntp异常、docker使用异常、kubelet健康检测、docker健康检测、网络设备异常、网络连接不足、kubelet频繁重启、Docker频繁重启、Containerd频繁重启等异常事件。Filelog插件主要监控Docker镜像层异常、内核内存异常、内核进程hung住等异常事件。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种容器云集群节点异常检测方法，其特征在于包括如下步骤：

通过容器云事件中心存储所述异常事件；

2.根据权利要求1所述的容器云集群节点异常检测方法，其特征在于通过组件管理模块在容器云集群的每个节点上部署节点异常检测组件，定义节点异常组件的部署资源，并指定节点异常组件部署的节点标签，通过节点标签限定节点异常检测组件和节点的对应关系。

3.根据权利要求1所述的容器云集群节点异常检测方法，其特征在于对于每个节点异常检测组件，预配置有对应的组件配置文件，所述组件配置文件中预配置有所述节点异常检测组件的检测内容。

4.根据权利要求1所述的容器云集群节点异常检测方法，其特征在于事件中心通过容器云的事件源调用容器云API服务器，从容器云API服务器中获取并存储异常事件。

5.根据权利要求1-4任一项所述的容器云集群节点异常检测方法，其特征在于所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上；

6.一种容器云集群节点异常检测***，其特征在于用于通过如权利要求1-5任一项所述的容器云集群节点异常检测方法对容器云集群进行节点异常检测和修复，所述***包括：

7.根据权利要求6所述的容器云集群节点异常检测***，其特征在于所述组件管理模块用于在容器云集群的每个节点上部署节点异常检测组件，定义节点异常组件的部署资源，并指定节点异常组件部署的节点标签，通过节点标签限定节点异常检测组件和节点的对应关系。

8.根据权利要求6所述的容器云集群节点异常检测***，其特征在于对于每个节点异常检测组件，所述检查项配置模块用于预配置对应的组件配置文件，所述组件配置文件中预配置有所述节点异常检测组件的检测内容。

9.根据权利要求6所述的容器云集群节点异常检测***，其特征在于所述事件中心用于通过容器云的事件源调用容器云API服务器，从容器云API服务器中获取并存储异常事件。

10.根据权利要求6-9任一项所述的容器云集群节点异常检测***，其特征在于所述节点异常检测组件提供的节点异常检测服务以容器的形式部署在每个节点上；