CN111459763B - 跨kubernetes集群监控***及方法 - Google Patents

跨kubernetes集群监控***及方法 Download PDF

Info

Publication number
CN111459763B
CN111459763B CN202010258248.3A CN202010258248A CN111459763B CN 111459763 B CN111459763 B CN 111459763B CN 202010258248 A CN202010258248 A CN 202010258248A CN 111459763 B CN111459763 B CN 111459763B
Authority
CN
China
Prior art keywords
monitoring
component
data
cluster
alcor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010258248.3A
Other languages
English (en)
Other versions
CN111459763A (zh
Inventor
董黎阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202010258248.3A priority Critical patent/CN111459763B/zh
Publication of CN111459763A publication Critical patent/CN111459763A/zh
Application granted granted Critical
Publication of CN111459763B publication Critical patent/CN111459763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3096Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents wherein the means or processing minimize the use of computing system or of computing system component resources, e.g. non-intrusive monitoring which minimizes the probe effect: sniffing, intercepting, indirectly deriving the monitored data from other directly available data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供一种跨kubernetes集群监控***及方法,包括:多个开阳Alcor集群、prometheus‑out和grafana‑out组件,prometheus‑out和grafana‑out组件部署于Alcor集群外;Alcor集群中安装prometheus、alertmanager和grafana监控组件,node‑exporter、process‑exporter和blackbox数据采集组件;prometheus‑out组件从prometheus监控组件同步监控数据;grafana‑out组件对监控数据进行展示。该方案解决了跨集群数据收集的监控和数据展示。

Description

跨kubernetes集群监控***及方法
技术领域
本发明涉及kubernetes集群监控技术领域,特别涉及一种跨kubernetes集群监控***及方法。
背景技术
容器技术是当前热门技术,也是最前沿的技术。自从Docker的推出,使得软件的部署变得容易起来,真正的实现了一次部署到处运行。kubernetes是跨主机集群的开源Docker容器集群管理***,为容器化的应用提供了资源调度、部署运行、服务发现、扩容及缩容等一整套功能。开阳Alcor是基于原生kubernetes研发并封装的容器云平台,该容器云平台内部署海量的应用和服务,随着应用的增多,用户需求复杂度的提高,必然会形成多集群同时运行的情况,现有技术中通过prometheus、alertmanager、grafana的搭配使用来对kubernetes集群进行监控和数据展示。但是当多集群出现时,每个集群都会有一套prometheus监控组件,无论是***管理员还是租户,都不可避免的要在多个集群下来回切换才能观察到完整的监控数据,而且会提高开阳Alcor对监控数据提取时的复杂度,多集群中的监控数据也很难做到汇聚,为后期出现故障时的监控数据分析和对比带来较大挑战。现有技术中缺少一个对多个集群上的海量的应用和服务进行监控报警和数据展示的跨集群的解决方案。
发明内容
本发明实施例提供了一种跨kubernetes集群监控***及方法,解决了现有技术中缺少一个对多个集群上的海量的应用和服务进行监控报警和数据展示的跨集群的解决方案的技术问题。
本发明实施例提供了一种跨kubernetes集群监控***,包括:
多个开阳Alcor集群、prometheus-out组件和grafana-out组件,prometheus-out组件和grafana-out组件部署于多个开阳Alcor集群外;
每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件、node-exporter数据采集组件、process-exporte数据采集组件、blackbox数据采集组件;
prometheus监控组件用于:从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,根据监控数据产生报警信息,将所述报警信息发送至alertmanager监控组件;
alertmanager监控组件用于:对所述报警信息进行管理;
grafana监控组件用于:从prometheus监控组件获取监控数据进行展示;
prometheus-out组件用于:从多个开阳Alcor集群中的prometheus监控组件中同步监控数据,添加数据区分标签至每个开阳Alcor集群的监控数据;
grafana-out组件用于:从prometheus-out组件中获取监控数据进行展示。
本发明实施例还提供了一种跨kubernetes集群监控方法,包括:
在多个开阳Alcor集群中的每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件、node-exporter数据采集组件、process-exporte数据采集组件、blackbox数据采集组件,在多个开阳Alcor集群外部署prometheus-out组件和grafana-out组件;
prometheus监控组件从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,根据监控数据产生报警信息,将所述报警信息发送至alertmanager监控组件;
alertmanager监控组件对所述报警信息进行管理;
grafana监控组件从prometheus监控组件获取监控数据进行展示;
prometheus-out组件从多个开阳Alcor集群中的prometheus监控组件中同步监控数据,添加数据区分标签至每个开阳Alcor集群的监控数据;
grafana-out组件从prometheus-out组件中获取监控数据进行展示。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
在本发明实施例中,每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件,这样将监控信息的采集压力和监控项的计算压力从一套prometheus中分离,每个开阳Alcor集群中的prometheus只负责自己集群的数据采集和监控项计算,压力可控;在多个开阳Alcor集群外部署prometheus-out组件和grafana-out组件,prometheus-out只负责将所有集群的监控数据同步进来,并不进行监控项计算,减少了计算压力;用户可以通过grafana-out入口查看部署在不同集群上的容器的监控数据,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种跨kubernetes集群监控***结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
技术术语解释
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。
kubernetes,简称K8s,是一个开源的、用于管理云平台中多个主机上的容器化的应用,kubernetes的目标是让部署容器化的应用简单并且高效(powerful),kubernetes提供了应用部署,规划,更新,维护的一种机制。
Prometheus是一套开源的监控&报警&时间序列数据库的组合。用于对docker和kubernetes的监控数据进行采集和存储。
grafana是一款采用go语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。用于对prometheus存储的监控数据进行图形化展示。
Alertmanager是一个独立的告警模块,接收Prometheus等客户端发来的警报,之后通过分组、删除重复等处理,并将它们通过路由发送给正确的接收器;告警方式可以按照不同的规则发送给不同的模块负责人。Prometheus的警报分为两个部分。Prometheus服务器中的警报规则将警报发送到Alertmanager。该Alertmanager然后管理这些警报,包括沉默,抑制,聚集和通过的方法,如电子邮件发出通知,对呼叫通知***,以及即时通讯平台。
Apiserver是开阳Alcor集群消息通讯的总线及对外的API接口。
Controller是开阳Alcor集群状态的控制器。
Scheduler是开阳Alcor集群容器服务的调度器。
Coredns是开阳Alcor集群内部DNS解析服务。
Helm chart是kubernetes服务模板编排工具。
设置警报和通知的主要步骤是:
设置和配置Alertmanager;
配置Prometheus与Alertmanager对话;
在Prometheus中创建警报规则。
Exporter:所有可以向Prometheus提供监控样本数据的程序都可以被称为一个Exporter。
Node exporter主要用于暴露metrics给Prometheus,其中metrics包括:cpu的负载,内存的使用情况,网络等。
Process-exporter主要用于暴露metrics给Prometheus,其中metrics包括:服务器上运行的进程状态。
Blackbox主要用于暴露metrics给Prometheus,其中metrics包括:服务器端口状态。
在本发明实施例中,提供了一种跨kubernetes集群监控***方法,如图1所示,包括:
多个开阳Alcor集群、prometheus-out组件和grafana-out组件,prometheus-out组件和grafana-out组件部署于多个开阳Alcor集群外;
每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件、node-exporter数据采集组件、process-exporte数据采集组件、blackbox数据采集组件;
prometheus监控组件用于:从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,根据监控数据产生报警信息,将所述报警信息发送至alertmanager监控组件;
alertmanager监控组件用于:对所述报警信息进行管理;
grafana监控组件用于:从prometheus监控组件获取监控数据进行展示;
prometheus-out组件用于:从多个开阳Alcor集群中的prometheus监控组件中同步监控数据,添加数据区分标签至每个开阳Alcor集群的监控数据;
grafana-out组件用于:从prometheus-out组件中获取监控数据进行展示。
在本发明实施例中,prometheus监控组件具体用于:
根据设定的数据采集规则从开阳Aclor集群组件(apiserver、controller、scheduler、coredns)及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据。其中,Docker、kubernetes是开阳alcor集群的组件。
预设监控数据存储期限,按照预设的监控数据存储期限对所述监控数据进行存储。其中,监控数据的存储期限为7天;
基于设定的报警项规则,根据监控数据产生报警信息。
在本发明实施例中,所述grafana监控组件和所述grafana-out组件具体用于:通过预设的数据展示图将监控数据进行展示。
在本发明实施例中,prometheus-out组件和grafana-out组件可以部署2套于多个开阳Alcor集群外。利用prometheus联邦机制,配置pormetheus-out从所有开阳Alcor集群中的prometheus中同步监控数据保持预设监控数据存储期限(比如30天),并为每个集群的数据添加可区分的标签。配置grafana-out,定义适用于所有开阳Alcor集群的数据展示通用视图。
基于同一发明构思,本发明实施例中还提供了一种跨kubernetes集群监控方法,如下面的实施例所述。
在多个开阳Alcor集群中的每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件、node-exporter数据采集组件、process-exporte数据采集组件、blackbox数据采集组件,在多个开阳Alcor集群外部署prometheus-out组件和grafana-out组件;
prometheus监控组件从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,根据监控数据产生报警信息,将所述报警信息发送至alertmanager监控组件;
alertmanager监控组件对所述报警信息进行管理;
grafana监控组件从prometheus监控组件获取监控数据进行展示;
prometheus-out组件从多个开阳Alcor集群中的prometheus监控组件中同步监控数据,添加数据区分标签至每个开阳Alcor集群的监控数据;
grafana-out组件从prometheus-out组件中获取监控数据进行展示。
在本发明实施例中,在开阳Alcor环境下基于数据采集的跨kubernetes集群监控***的实现方法是一种大规模容器云平台跨集群的监控和数据展示方法,具体包括的安装步骤如下:
Ⅰ.编写prometheus operator的prometheus和alertmanager的配置文件,预先定义数据采集规则和报警项规则,以实现通过operator的形式安装各集群中的监控及数据展示组件。
Ⅱ.编写grafana的配置文件,预先定义数据展示图,以备之后通过helm charts集成到开阳Alcor的安装程序中。
Ⅲ.编写helm charts,将prometheus operator、node-exporter、process-exporter、blackbox组件的安装集成到开阳Alcor的安装程序中,当安装开阳Alcor集群时自动安装集群监控及数据展示组件。
Ⅳ.集群外单独部署2套prometheus-out和grfana-out,修改配置prometheus-out配置文件与所有集群中的prometheus形成联邦,实时获取集群中prometheus的监控数据,并由grafana-out统一进行数据展示。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
综上所述,本发明你提出的跨kubernetes集群监控***及方法涉及计算机技术、docker容器技术、kubernetes大规模容器管理技术、prometheus***监控和报警技术、grafana数据展示技术,跨kubernetes集群监控***及方法让开阳Alcor集群运行更健康,让集群数据展示更清晰和具体,增强了监控信息的实效性,降低了维护需要的时间,为大数据分析和云计算提供了数据来源和初始分类。
具体的,将监控信息的采集压力和监控项的计算压力从一套prometheus中分离,每套开阳Alcor集群中的prometheus只负责自己集群的数据采集和监控项计算,压力可控,prometheus-out只负责将所有集群的监控数据同步进来,并不进行监控项计算,减少了计算压力;每套集群中的prometheus和alertmanager都可根据自己集群的特点进行差异化定制,不受其它集群制约;在进行配置变更时,也可以先在某个集群中验证后再进行全量变更,减小了配置变更风险;集群内部的prometheus只保持7天数据,减少了集群内部存储的压力,而且在故障丢数的情况下,也可以在prometheus-out中找到丢失的数据,保证了数据的高可用;用户可以通过grafana-out一个入口查看部署在不同集群上的容器的监控数据,提升了用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种跨kubernetes集群监控***,其特征在于,包括:多个开阳Alcor集群、prometheus-out组件和grafana-out组件,prometheus-out组件和grafana-out组件部署于多个开阳Alcor集群外;
每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件、node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件;
prometheus监控组件用于:从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,根据监控数据产生报警信息,将所述报警信息发送至alertmanager监控组件;
alertmanager监控组件用于:对所述报警信息进行管理;
grafana监控组件用于:从prometheus监控组件获取监控数据进行展示;
prometheus-out组件用于:从多个开阳Alcor集群中的prometheus监控组件中同步监控数据,添加数据区分标签至每个开阳Alcor集群的监控数据;
grafana-out组件用于:从prometheus-out组件中获取监控数据进行展示;
在开阳Alcor集群下基于数据采集的跨kubernetes集群监控***的实现方法,具体包括的安装步骤如下:
编写prometheus operator的prometheus和alertmanager的配置文件,预先定义数据采集规则和报警项规则,以实现通过operator的形式安装各集群中的监控及数据展示组件;
编写grafana的配置文件,预先定义数据展示图,以备之后通过helm charts集成到开阳Alcor集群的安装程序中;
编写helm charts,将prometheus operator、node-exporter、process-exporter、blackbox组件的安装集成到开阳Alcor集群的安装程序中,当安装开阳Alcor集群时自动安装集群监控及数据展示组件;
集群外单独部署一套prometheus-out组件和grfana-out组件,修改配置prometheus-out组件的配置文件与所有集群中的prometheus监控组件形成联邦,实时获取集群中prometheus监控组件的监控数据,并由grafana-out组件统一进行数据展示。
2.如权利要求1所述的跨kubernetes集群监控***,其特征在于,prometheus监控组件具体用于:
根据设定的数据采集规则从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据。
3.如权利要求1所述的跨kubernetes集群监控***,其特征在于,prometheus监控组件和prometheus-out组件还用于:
预设监控数据存储期限,按照预设的监控数据存储期限对所述监控数据进行存储。
4.如权利要求3所述的跨kubernetes集群监控***,其特征在于,所述prometheus监控组件中监控数据的存储期限为7天;所述prometheus-out组件中监控数据的存储期限为30天。
5.如权利要求1所述的跨kubernetes集群监控***,其特征在于,prometheus监控组件具体用于:
基于设定的报警项规则,根据监控数据产生报警信息。
6.如权利要求1所述的跨kubernetes集群监控***,其特征在于,所述grafana监控组件和所述grafana-out组件具体用于:通过预设的数据展示图将监控数据进行展示。
7.一种跨kubernetes集群监控方法,应用于权利要求1-6任一所述跨kubernetes集群监控***,其特征在于,包括:
在多个开阳Alcor集群中的每个开阳Alcor集群中安装prometheus监控组件、alertmanager监控组件、grafana监控组件、node-exporter数据采集组件、process-exporte数据采集组件、blackbox数据采集组件,在多个开阳Alcor集群外部署prometheus-out组件和grafana-out组件;
prometheus监控组件从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,根据监控数据产生报警信息,将所述报警信息发送至alertmanager监控组件;
alertmanager监控组件对所述报警信息进行管理;
grafana监控组件从prometheus监控组件获取监控数据进行展示;
prometheus-out组件从多个开阳Alcor集群中的prometheus监控组件中同步监控数据,添加数据区分标签至每个开阳Alcor集群的监控数据;
grafana-out组件从prometheus-out组件中获取监控数据进行展示。
8.如权利要求7所述的跨kubernetes集群监控方法,其特征在于,prometheus监控组件从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据,包括:
根据设定的数据采集规则从开阳Alcor集群组件及集群容器Docker获取监控数据,从node-exporter数据采集组件、process-exporter数据采集组件、blackbox数据采集组件获取开阳Alcor集群物理服务器的监控数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求7至8任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求7至8任一所述方法。
CN202010258248.3A 2020-04-03 2020-04-03 跨kubernetes集群监控***及方法 Active CN111459763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010258248.3A CN111459763B (zh) 2020-04-03 2020-04-03 跨kubernetes集群监控***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010258248.3A CN111459763B (zh) 2020-04-03 2020-04-03 跨kubernetes集群监控***及方法

Publications (2)

Publication Number Publication Date
CN111459763A CN111459763A (zh) 2020-07-28
CN111459763B true CN111459763B (zh) 2023-10-24

Family

ID=71685848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010258248.3A Active CN111459763B (zh) 2020-04-03 2020-04-03 跨kubernetes集群监控***及方法

Country Status (1)

Country Link
CN (1) CN111459763B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165502B (zh) * 2020-08-06 2022-11-25 中信银行股份有限公司 服务发现***、方法及第二服务器
CN112015753B (zh) * 2020-08-31 2023-10-31 北京易捷思达科技发展有限公司 适于容器化部署开源云平台的监控***和方法
CN112162821B (zh) * 2020-09-25 2022-04-26 中国电力科学研究院有限公司 容器集群资源监视方法、装置及***
CN112286628B (zh) * 2020-10-19 2022-05-17 烽火通信科技股份有限公司 一种统一纳管Kubernetes异构应用的***及运行方法
CN112511339B (zh) * 2020-11-09 2023-04-07 宝付网络科技(上海)有限公司 基于多集群的容器监控告警方法、***、设备及存储介质
CN112711512A (zh) * 2020-12-29 2021-04-27 北京浪潮数据技术有限公司 一种Prometheus监控方法、装置及设备
CN112698915A (zh) * 2020-12-31 2021-04-23 北京千方科技股份有限公司 多集群统一监控告警方法、***、设备及存储介质
CN112328456B (zh) * 2021-01-04 2021-12-03 北京电信易通信息技术股份有限公司 一种基于服务发现的集群资源监控***
CN114003312A (zh) * 2021-10-29 2022-02-01 广东智联蔚来科技有限公司 大数据服务组件管理方法、计算机装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921551A (zh) * 2018-06-11 2018-11-30 西安纸贵互联网科技有限公司 基于Kubernetes平台的联盟区块链***
CN109245931A (zh) * 2018-09-19 2019-01-18 四川长虹电器股份有限公司 基于kubernetes的容器云平台的日志管理和监控报警的实现方法
CN110086674A (zh) * 2019-05-06 2019-08-02 山东浪潮云信息技术有限公司 一种基于容器的应用高可用实现方法及***
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的***及方法
CN110262944A (zh) * 2019-06-21 2019-09-20 四川长虹电器股份有限公司 一种对K8s集群容器资源进行监控并进行告警的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190317824A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Deployment of services across clusters of nodes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921551A (zh) * 2018-06-11 2018-11-30 西安纸贵互联网科技有限公司 基于Kubernetes平台的联盟区块链***
CN109245931A (zh) * 2018-09-19 2019-01-18 四川长虹电器股份有限公司 基于kubernetes的容器云平台的日志管理和监控报警的实现方法
CN110086674A (zh) * 2019-05-06 2019-08-02 山东浪潮云信息技术有限公司 一种基于容器的应用高可用实现方法及***
CN110262944A (zh) * 2019-06-21 2019-09-20 四川长虹电器股份有限公司 一种对K8s集群容器资源进行监控并进行告警的方法
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的***及方法

Also Published As

Publication number Publication date
CN111459763A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111459763B (zh) 跨kubernetes集群监控***及方法
CN105653425B (zh) 基于复杂事件处理引擎的监控***
WO2021017301A1 (zh) 基于Kubernetes集群的管理方法、装置及计算机可读存储介质
CN105573824B (zh) 分布式计算***的监控方法及***
CN108762900A (zh) 高频任务调度方法、***、计算机设备和存储介质
Fu et al. Real-time data infrastructure at uber
CN105378696A (zh) 跨各设备提供未看见消息计数
AU2019201821B2 (en) Generating an execution script for configuration of a system
US20190361760A1 (en) Detecting a possible underlying problem among computing devices
US10514958B2 (en) Remotely managing execution of jobs in a cluster computing framework
CN108243012B (zh) 在线计费***ocs中计费应用处理***、方法及装置
CN108932157B (zh) 分布式处理任务的方法、***、电子设备和可读介质
Malviya et al. A comparative analysis of container orchestration tools in cloud computing
US10771562B2 (en) Analyzing device-related data to generate and/or suppress device-related alerts
CN109905286A (zh) 一种监控设备运行状态的方法和***
US20220222266A1 (en) Monitoring and alerting platform for extract, transform, and load jobs
US20240202602A1 (en) Dynamic predictive analysis of data sets using an actor-driven distributed computational graph
CN110716802A (zh) 一种跨集群的任务调度***及方法
CN113422692A (zh) 一种K8s集群内节点故障检测及处理方法、装置及存储介质
CN110569113A (zh) 分布式任务的调度方法及***、计算机可读存储介质
CN110019214A (zh) 对数据拆分结果进行校验的方法和装置
US20190146839A1 (en) Distributed data platform resource allocator
CN109165261A (zh) 数据同步方法、装置、服务器及计算机存储介质
CN108009004A (zh) 基于Docker的业务应用可用度测量监控的实现方法
CN114756301B (zh) 日志处理方法、装置和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221010

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant