CN113342598A - 一种基于k8s事件机制的监控方法及装置 - Google Patents

一种基于k8s事件机制的监控方法及装置 Download PDF

Info

Publication number
CN113342598A
CN113342598A CN202110601201.7A CN202110601201A CN113342598A CN 113342598 A CN113342598 A CN 113342598A CN 202110601201 A CN202110601201 A CN 202110601201A CN 113342598 A CN113342598 A CN 113342598A
Authority
CN
China
Prior art keywords
event
monitoring
reporting
native
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110601201.7A
Other languages
English (en)
Inventor
杨诚
沈一帆
白佳乐
李彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110601201.7A priority Critical patent/CN113342598A/zh
Publication of CN113342598A publication Critical patent/CN113342598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于K8S事件机制的监控方法及装置,可以应用于金融领域,方法包括:在原生K8S事件中增加集群信息以对原生K8S事件进行补全;在补全后的K8S事件中增加监测组件;通过监测组件监测***日志并采集异常信息进行上报。本申请提供的方法为了弥补promethues监控依赖性能指标的不足,实现基于K8S平台的事件监控和预警,通过对K8S事件范围补全,将K8S事件采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch,实现了全范围覆盖监控所有容器、提升了监控的准确性和实时性的技术效果。

Description

一种基于K8S事件机制的监控方法及装置
技术领域
本申请属于集群监控技术领域,具体地讲,涉及一种基于K8S事件机制的监控方法及装置。
背景技术
当前对于k8s集群的监控,一般是采用promethues作为主要的监控平台。该方案通过定期采集k8s集群中部署到node宿主机节点的cadvisor组件上报的性能指标,然后对数据进行聚合和分类。并可配置对应性能指标的告警,在达到阈值时,通知***管理员。当前的监控方案存在如下问题:
监控的覆盖范围不足:无法细粒度到具体容器的生命周期信息,比如镜像拉取失败、存储挂载失败、调度失败、被驱逐等容器级别的异常。也没有集群底层的异常状态监控,比如docker engine hang、***内核hang、网络异常等情况。
监控的准确性不足:例如,pod的启动和停止,是无法用简单的资源使用率等性能指标来定位和分析的,也没办法进一步分析这个状态产生的具体原因。
监控的实时性不足:资源监控是基于定期采集的模式去获取数据,但如果在采集周期内发生的异常到了下一个采集时间点已经恢复,这时会忽略掉本次的异常,导致本次异常无法被监控到。
监控的可追溯性、可视性不足:收集上来的监控数据没有很好的查询检索方式,也没有监控数据的总览展示。
发明内容
本申请提供了一种基于K8S事件机制的监控方法及装置,以至少解决当前PaaS平台的监控范围覆盖不足、准确性不足、实时性和可溯性均不足的问题。
根据本申请的第一个方面,提供了一种基于K8S事件机制的监控方法,包括:
在原生K8S事件中增加集群信息以对原生K8S事件进行补全;
在补全后的K8S事件中增加监测组件;
通过监测组件监测***日志并采集异常信息进行上报。
在一实施例中,在原生K8S事件中增加集群信息以对原生K8S事件进行补全,包括:
在原生K8S事件中增加集群名称和配置名称;
在原生K8S事件中增加上报相关事件逻辑并在原生K8S事件的信息中***集群名称和配置名称;
通过配置事件路由器和日志,将信息解析成json格式,存入es集群。
在一实施例中,监测组件为node-problem-find组件,用以提升K8S事件对宿主机状态的监测能力。
在一实施例中,在补全后的K8S事件中增加监测组件,包括:
通过K8S事件的上报机制,查找到所有宿主机节点;
将监测组件通过K8S的上报机制部署至每个宿主机节点上。
在一实施例中,通过监测组件监测***日志并采集异常信息进行上报,包括:
通过监测组件监测***日志;
通过evenetrouter和logstash开源组件对***日志中的异常信息进行采集并上报。
根据本申请的第二个方面,还提供了一种基于K8S事件机制的监控装置,包括:
事件补全单元,用于在原生K8S事件中增加集群信息以对原生K8S事件进行补全;
监测组件增加单元,用于在补全后的K8S事件中增加监测组件;
异常信息上报单元,用于通过监测组件监测***日志并采集异常信息进行上报。
在一实施例中,事件补全单元包括:
集群配置增加模块,用于在原生K8S事件中增加集群名称和配置名称;
***模块,用于在原生K8S事件中增加上报相关事件逻辑并在原生K8S事件的信息中***集群名称和配置名称;
解析存储模块,用于通过配置事件路由器和日志,将信息解析成json格式,存入es集群。
在一实施例中,监测组件为node-problem-find组件,用以提升K8S事件对宿主机状态的监测能力。
在一实施例中,监测组件增加单元包括:
宿主机节点查找模块,用于通过K8S事件的上报机制,查找到所有宿主机节点;
部署模块,用于将监测组件通过K8S的上报机制部署至每个宿主机节点上。
在一实施例中,异常信息上报单元包括:
日志监测模块,用于通过监测组件监测***日志;
采集上报模块,用于通过evenetrouter和logstash开源组件对***日志中的异常信息进行采集并上报。
根据本申请的第三个方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现基于K8S事件机制的监控方法的步骤。
根据本申请的第四个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于K8S事件机制的监控方法的步骤。
由上技术方案可知,本申请提供了一种基于K8S事件机制的监控方法及装置,方法包括:在原生K8S事件中增加集群信息以对原生K8S事件进行补全;在补全后的K8S事件中增加监测组件;通过监测组件监测***日志并采集异常信息进行上报。当前,对于K8S集群的监控一般是采用promethues作为主要的监控平台,本申请提供的方法为了弥补promethues监控依赖性能指标的不足,实现基于K8S平台的事件监控和预警,通过对K8S事件范围补全,将K8S事件采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch,实现了全范围覆盖监控所有容器、提升了监控的准确性和实时性的技术效果,相比现有技术中的存在的缺陷,本申请在克服了现有技术缺陷的情况下还使得监控具有了可追溯性和可视性,使得收集上来的监控数据能够被查询和检索并且做到了监控数据的总览显示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种基于K8S事件机制的监控方法流程图。
图2为本申请实施例中在原生K8S事件中增加集群信息以对原生K8S事件进行补全的流程图。
图3为本申请实施例中在补全后的K8S事件中增加监测组件的流程图。
图4为本申请实施例中通过监测组件监测***日志并采集异常信息进行上报的流程图。
图5为本申请提供的一种基于K8S事件机制的监控装置的结构框图。
图6为本申请实施例中事件补全单元的结构框图。
图7为本申请实施例中监测组件增加单元的结构框图。
图8为本申请实施例中异常信息上报单元的结构框图。
图9为本申请实施例中一种电子设备的具体实施方式。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请公开的基于K8S事件机制的监控方法及装置可以应用于金融领域,也可用于除金融领域之外的其他领域,本申请公开的基于K8S事件机制的监控方法及装置的应用领域不做限定。
当前对于k8s集群的监控,一般是采用promethues作为主要的监控平台。该方案通过定期采集k8s集群中部署到node宿主机节点的cadvisor组件上报的性能指标,然后对数据进行聚合和分类。并可配置对应性能指标的告警,在达到阈值时,通知***管理员。但是,这种方式存在监控覆盖范围不足、准确性不足和实时性不足等问题。
基于上述内容,本申请分别提供了一种基于K8S事件机制的监控方法、基于K8S事件机制的监控装置、电子设备和计算机可读存储介质,本申请提供的方法为了弥补promethues监控依赖性能指标的不足,实现基于K8S平台的事件监控和预警,通过对K8S事件范围补全,将K8S事件采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch,实现了全范围覆盖监控所有容器、提升了监控的准确性和实时性的技术效果,相比现有技术中的存在的缺陷,本申请在克服了现有技术缺陷的情况下还使得监控具有了可追溯性和可视性,使得收集上来的监控数据能够被查询和检索并且做到了监控数据的总览显示。
基于上述内容,本申请还提供一种用于实现本申请一个或多个实施例中提供的基于K8S事件机制的监控方法的基于K8S事件机制的监控装置,该装置可以自行或通过第三方服务器等与客户端设备之间通信连接,并将执行结果返回给客户端,以实现测试代码简单编写管理的技术效果。
可以理解的是,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在另一种实际应用情形中,前述的基于K8S事件机制的监控装置进行基于K8S事件机制的监控的部分可以在如上述内容的服务器中执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于基于K8S事件机制的监控的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有技术中存在的问题,本申请提供了一种基于K8S事件机制的监控方法,如图1所示,包括:
S101:在原生K8S事件中增加集群信息以对原生K8S事件进行补全。
S102:在补全后的K8S事件中增加监测组件。
S103:通过监测组件监测***日志并采集异常信息进行上报。
在一具体实施例中,为了弥补现有的promethues监控依赖性能指标的不足,实现基于k8s平台的事件监控和预警平台,首先要对K8S事件进行补全,在kubelet、kube-controller-manager中增加应用模板级别的events。并且引入node-problem-detector,增加集群底层的events上报。其次,对K8S事件进行采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch。最后,对K8S事件总体进行预览和告警,通过esalert来配置邮件、webhook等方式,在异常events发生时,通知管理员和开发人员。
在一实施例中,如图2所示,在原生K8S事件中增加集群信息以对原生K8S事件进行补全,包括:
S201:在原生K8S事件中增加集群名称和配置名称。
S202:在原生K8S事件中增加上报相关事件逻辑并在原生K8S事件的信息中***集群名称和配置名称。
S203:通过配置事件路由器和日志,将信息解析成json格式,存入es集群。
在一实施例中,监测组件为node-problem-find组件,用以提升K8S事件对宿主机状态的监测能力。
在一具体实施例中,当前容器重启事件为kubelet(K8S部署在宿主机上的一个组件)生成,上报的数据结构中不含有集群信息和应用模板名(deployName)。首先,需要补全模板(deploy)级的生命周期事件,在原生的K8S事件中,对于deploy的成功启动、删除、重启、驱逐没有对应的事件,为了方便后续定位到具体的报警和数据统计,需在此类事件中增加集群信息和应用模板名,具体包括如下步骤:
S1:在PaaS下发到K8S集群的deploy.json中带上clusterID(集群ID)和deployName(配置名)。
S2:kubelet、kube-controller-manager增加上报相关事件逻辑中,并在message信息中,塞入clusterID和deployName。
S3:通过配置eventrouter和logstash,将message解析成json,存入es集群。
在一实施例中,如图3所示,在补全后的K8S事件中增加监测组件,包括:
S301:通过K8S事件的上报机制,查找到所有宿主机节点。
S302:将监测组件通过K8S的上报机制部署至每个宿主机节点上。
在一实施例中,通过监测组件监测***日志并采集异常信息进行上报,如图4所示,包括:
S401:通过监测组件监测***日志。
S402:通过evenetrouter和logstash开源组件对***日志中的异常信息进行采集并上报。
在一具体实施例中,开发node-problem-find组件,该组件增强了K8S对于宿主机状态的监测能力,在K8S上支持两种上报机制:一种是NodeCondition(节点状况):这是指永久性的错误,它将造成容器实例无法在这个节点运行。这个节点状况只有在节点重启后才会被重置;另一种是Event(事件):影响节点的临时性问题,但是它是对于***诊断是有意义的。
node-problem-find组件就是利用kubernetes的上报机制,以部署到每个node(宿主机)节点上。通过检测***的日志(例如centos中journal),把错误的信息上报到kuberntes的node上。
本申请提供的方法为了弥补promethues监控依赖性能指标的不足,实现基于K8S平台的事件监控和预警,通过对K8S事件范围补全,将K8S事件采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch,实现了全范围覆盖监控所有容器、提升了监控的准确性和实时性的技术效果,相比现有技术中的存在的缺陷,本申请在克服了现有技术缺陷的情况下还使得监控具有了可追溯性和可视性,使得收集上来的监控数据能够被查询和检索并且做到了监控数据的总览显示。
基于同一发明构思,本申请实施例还提供了一种基于K8S事件机制的监控装置,可以用于实现上述实施例中所描述的方法,如下面实施例所述。由于该基于K8S事件机制的监控装置解决问题的原理与基于K8S事件机制的监控方法相似。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本申请的第二个方面,还提供了一种基于K8S事件机制的监控装置,如图5所示,包括:
事件补全单元501,用于在原生K8S事件中增加集群信息以对原生K8S事件进行补全;
监测组件增加单元502,用于在补全后的K8S事件中增加监测组件;
异常信息上报单元503,用于通过监测组件监测***日志并采集异常信息进行上报。
在一具体实施例中,为了弥补现有的promethues监控依赖性能指标的不足,实现基于k8s平台的事件监控和预警平台,首先要对K8S事件进行补全,在kubelet、kube-controller-manager中增加应用模板级别的events。并且引入node-problem-detector,增加集群底层的events上报。其次,对K8S事件进行采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch。最后,对K8S事件总体进行预览和告警,通过esalert来配置邮件、webhook等方式,在异常events发生时,通知管理员和开发人员。
在一实施例中,如图6所示,事件补全单元501包括:
集群配置增加模块601,用于在原生K8S事件中增加集群名称和配置名称;
***模块602,用于在原生K8S事件中增加上报相关事件逻辑并在原生K8S事件的信息中***集群名称和配置名称;
解析存储模块603,用于通过配置事件路由器和日志,将信息解析成json格式,存入es集群。
在一实施例中,监测组件为node-problem-find组件,用以提升K8S事件对宿主机状态的监测能力。
在一具体实施例中,当前容器重启事件为kubelet(K8S部署在宿主机上的一个组件)生成,上报的数据结构中不含有集群信息和应用模板名(deployName)。首先,需要补全模板(deploy)级的生命周期事件,在原生的K8S事件中,对于deploy的成功启动、删除、重启、驱逐没有对应的事件,为了方便后续定位到具体的报警和数据统计,需在此类事件中增加集群信息和应用模板名,具体包括如下步骤:
S1:在PaaS下发到K8S集群的deploy.json中带上clusterID(集群ID)和deployName(配置名)。
S2:kubelet、kube-controller-manager增加上报相关事件逻辑中,并在message信息中,塞入clusterID和deployName。
S3:通过配置eventrouter和logstash,将message解析成json,存入es集群。
在一实施例中,如图7所示,监测组件增加单元502包括:
宿主机节点查找模块701,用于通过K8S事件的上报机制,查找到所有宿主机节点;
部署模块702,用于将监测组件通过K8S的上报机制部署至每个宿主机节点上。
在一实施例中,如图8所示,异常信息上报单元503包括:
日志监测模块801,用于通过监测组件监测***日志;
采集上报模块802,用于通过evenetrouter和logstash开源组件对***日志中的异常信息进行采集并上报。
在一具体实施例中,开发node-problem-find组件,该组件增强了K8S对于宿主机状态的监测能力,在K8S上支持两种上报机制:一种是NodeCondition(节点状况):这是指永久性的错误,它将造成容器实例无法在这个节点运行。这个节点状况只有在节点重启后才会被重置;另一种是Event(事件):影响节点的临时性问题,但是它是对于***诊断是有意义的。
node-problem-find组件就是利用kubernetes的上报机制,以部署到每个node(宿主机)节点上。通过检测***的日志(例如centos中journal),把错误的信息上报到kuberntes的node上。
当前,对于K8S集群的监控一般是采用promethues作为主要的监控平台,本申请提供的方法为了弥补promethues监控依赖性能指标的不足,实现基于K8S平台的事件监控和预警,通过对K8S事件范围补全,将K8S事件采集并持久化,通过evenetrouter和logstash开源组件,采集并上报到本云平台事件平***占的elasticsearch,实现了全范围覆盖监控所有容器、提升了监控的准确性和实时性的技术效果,相比现有技术中的存在的缺陷,本申请在克服了现有技术缺陷的情况下还使得监控具有了可追溯性和可视性,使得收集上来的监控数据能够被查询和检索并且做到了监控数据的总览显示。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图9,所述电子设备具体包括如下内容:
处理器(processor)901、内存902、通信接口(Communications Interface)903、总线904和非易失性存储器905;
其中,所述处理器901、内存902、通信接口903通过所述总线904完成相互间的通信;
所述处理器901用于调用所述内存902和非易失性存储器905中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:在原生K8S事件中增加集群信息以对原生K8S事件进行补全。
S102:在补全后的K8S事件中增加监测组件。
S103:通过监测组件监测***日志并采集异常信息进行上报。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:在原生K8S事件中增加集群信息以对原生K8S事件进行补全。
S102:在补全后的K8S事件中增加监测组件。
S103:通过监测组件监测***日志并采集异常信息进行上报。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (12)

1.一种基于K8S事件机制的监控方法,其特征在于,包括:
在原生K8S事件中增加集群信息以对所述原生K8S事件进行补全;
在补全后的K8S事件中增加监测组件;
通过所述监测组件监测***日志并采集异常信息进行上报。
2.根据权利要求1所述的基于K8S事件机制的监控方法,其特征在于,所述在原生K8S事件中增加集群信息以对所述原生K8S事件进行补全,包括:
在所述原生K8S事件中增加集群名称和配置名称;
在所述原生K8S事件中增加上报相关事件逻辑并在原生K8S事件的信息中***集群名称和配置名称;
通过配置事件路由器和日志,将信息解析成json格式,存入es集群。
3.根据权利要求1所述的基于K8S事件机制的监控方法,其特征在于,所述监测组件为node-problem-find组件,用以提升K8S事件对宿主机状态的监测能力。
4.根据权利要求3所述的基于K8S事件机制的监控方法,其特征在于,所述在补全后的K8S事件中增加监测组件,包括:
通过K8S事件的上报机制,查找到所有宿主机节点;
将监测组件通过K8S的上报机制部署至每个宿主机节点上。
5.根据权利要求2所述的基于K8S事件机制的监控方法,其特征在于,所述通过所述监测组件监测***日志并采集异常信息进行上报,包括:
通过监测组件监测***日志;
通过evenetrouter和logstash开源组件对***日志中的异常信息进行采集并上报。
6.一种基于K8S事件机制的监控装置,其特征在于,包括:
事件补全单元,用于在原生K8S事件中增加集群信息以对所述原生K8S事件进行补全;
监测组件增加单元,用于在补全后的K8S事件中增加监测组件;
异常信息上报单元,用于通过所述监测组件监测***日志并采集异常信息进行上报。
7.根据权利要求6所述的基于K8S事件机制的监控装置,其特征在于,所述事件补全单元包括:
集群配置增加模块,用于在所述原生K8S事件中增加集群名称和配置名称;
***模块,用于在所述原生K8S事件中增加上报相关事件逻辑并在原生K8S事件的信息中***集群名称和配置名称;
解析存储模块,用于通过配置事件路由器和日志,将信息解析成json格式,存入es集群。
8.根据权利要求6所述的基于K8S事件机制的监控装置,其特征在于,所述监测组件为node-problem-find组件,用以提升K8S事件对宿主机状态的监测能力。
9.根据权利要求8所述的基于K8S事件机制的监控装置,其特征在于,所述监测组件增加单元包括:
宿主机节点查找模块,用于通过K8S事件的上报机制,查找到所有宿主机节点;
部署模块,用于将监测组件通过K8S的上报机制部署至每个宿主机节点上。
10.根据权利要求7所述的基于K8S事件机制的监控装置,其特征在于,所述异常信息上报单元包括:
日志监测模块,用于通过监测组件监测***日志;
采集上报模块,用于通过evenetrouter和logstash开源组件对***日志中的异常信息进行采集并上报。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的基于K8S事件机制的监控方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述的基于K8S事件机制的监控方法的步骤。
CN202110601201.7A 2021-05-31 2021-05-31 一种基于k8s事件机制的监控方法及装置 Pending CN113342598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110601201.7A CN113342598A (zh) 2021-05-31 2021-05-31 一种基于k8s事件机制的监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110601201.7A CN113342598A (zh) 2021-05-31 2021-05-31 一种基于k8s事件机制的监控方法及装置

Publications (1)

Publication Number Publication Date
CN113342598A true CN113342598A (zh) 2021-09-03

Family

ID=77472851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110601201.7A Pending CN113342598A (zh) 2021-05-31 2021-05-31 一种基于k8s事件机制的监控方法及装置

Country Status (1)

Country Link
CN (1) CN113342598A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743199A (zh) * 2018-12-25 2019-05-10 中国联合网络通信集团有限公司 基于微服务的容器化管理***
US10303576B1 (en) * 2018-05-04 2019-05-28 6Fusion Usa, Inc. Systems and methods for IT intelligence and management based on container-level metering
CN111046011A (zh) * 2019-11-27 2020-04-21 中科曙光国际信息产业有限公司 日志收集方法、***、节点、电子设备及可读存储介质
CN111538563A (zh) * 2020-04-14 2020-08-14 北京宝兰德软件股份有限公司 一种对Kubernetes的事件分析方法及装置
CN111897625A (zh) * 2020-06-23 2020-11-06 新浪网技术(中国)有限公司 一种基于Kubernetes集群的资源事件回溯方法、***及电子设备
CN112068935A (zh) * 2020-09-15 2020-12-11 北京值得买科技股份有限公司 kubernetes程序部署监控方法、装置以及设备
CN112486634A (zh) * 2020-12-09 2021-03-12 浪潮云信息技术股份公司 一种实现容器云平台整体监控的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303576B1 (en) * 2018-05-04 2019-05-28 6Fusion Usa, Inc. Systems and methods for IT intelligence and management based on container-level metering
CN109743199A (zh) * 2018-12-25 2019-05-10 中国联合网络通信集团有限公司 基于微服务的容器化管理***
CN111046011A (zh) * 2019-11-27 2020-04-21 中科曙光国际信息产业有限公司 日志收集方法、***、节点、电子设备及可读存储介质
CN111538563A (zh) * 2020-04-14 2020-08-14 北京宝兰德软件股份有限公司 一种对Kubernetes的事件分析方法及装置
CN111897625A (zh) * 2020-06-23 2020-11-06 新浪网技术(中国)有限公司 一种基于Kubernetes集群的资源事件回溯方法、***及电子设备
CN112068935A (zh) * 2020-09-15 2020-12-11 北京值得买科技股份有限公司 kubernetes程序部署监控方法、装置以及设备
CN112486634A (zh) * 2020-12-09 2021-03-12 浪潮云信息技术股份公司 一种实现容器云平台整体监控的方法

Similar Documents

Publication Publication Date Title
US20210248062A1 (en) System and Method for Data Collection and Analysis of Information Relating to Mobile Applications
CN107423194B (zh) 前端异常告警处理方法、装置及***
US10540358B2 (en) Telemetry data contextualized across datasets
US9697104B2 (en) End-to end tracing and logging
KR101797185B1 (ko) 분산 환경에서 효율적으로 트랜젝션-분리 메트릭들을 수집하는 방법
CN111046011B (zh) 日志收集方法、***、装置、电子设备及可读存储介质
US20150067410A1 (en) Hardware failure prediction system
US20110265064A1 (en) Detecting, using, and sharing it design patterns and anti-patterns
CN107491371B (zh) 一种监控部署的方法以及装置
CN112311617A (zh) 一种配置化数据监控告警方法及***
US20220138069A1 (en) Agent profiler to monitor activities and performance of software agents
CN110750458A (zh) 大数据平台测试方法、装置、可读存储介质及电子设备
CN103490941A (zh) 一种云计算环境中实时监控在线配置方法
US10372572B1 (en) Prediction model testing framework
CN112130996A (zh) 数据监控控制***、方法、装置、电子设备和存储介质
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
US10089167B2 (en) Log file reduction according to problem-space network topology
CN115883407A (zh) 一种数据采集方法、***、设备及存储介质
US9218205B2 (en) Resource management in ephemeral environments
He et al. Tscope: Automatic timeout bug identification for server systems
CN115729727A (zh) 故障修复方法、装置、设备及介质
CN113032281A (zh) 一种代码覆盖率实时获取方法及装置
CN115766768B (zh) 一种算力网络操作***中感知中枢设计方法及装置
CN113342598A (zh) 一种基于k8s事件机制的监控方法及装置
CN110311806A (zh) 一种移动应用程序界面响应延迟诊断方法、***及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination