CN115934464A - 一种信息化平台监控采集*** - Google Patents

一种信息化平台监控采集*** Download PDF

Info

Publication number
CN115934464A
CN115934464A CN202211592846.XA CN202211592846A CN115934464A CN 115934464 A CN115934464 A CN 115934464A CN 202211592846 A CN202211592846 A CN 202211592846A CN 115934464 A CN115934464 A CN 115934464A
Authority
CN
China
Prior art keywords
data
alarm
prometheus
monitoring
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211592846.XA
Other languages
English (en)
Inventor
于德江
左鹏
王禹博
徐士强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202211592846.XA priority Critical patent/CN115934464A/zh
Publication of CN115934464A publication Critical patent/CN115934464A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种信息化平台监控采集***,属于容器性能采集监控技术领域,本发明要解决的技术问题为如何实现对K8S集群容器的精细化管理,方便排查问题出处并及时处理问题,采用的技术方案为:该***包括数据收集提取单元和监控告警单元,数据收集提取单元包括数据收集层及数据提取层,监控告警单元包括数据展示层、告警规则配置层、告警发生层和告警显示层;其中,数据收集层用于收集主机数据、***数据及容器数据,将收集到的数据进行规范化处理,并进行存储;数据提取层用于通过部署时编写好的yaml文件内的告警规则语言,将数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控告警模块。

Description

一种信息化平台监控采集***
技术领域
本发明涉及容器性能采集监控技术领域,具体地说是一种信息化平台监控采集***。
背景技术
Kubernetes,简称K8S,可用于管理云平台中多个主机上的容器化的应用。通过部署容器方式实现应用部署,每个容器之间互相隔离,每个容器有自己的文件***,容器之间进程不会相互影响,能区分计算资源。相对于虚拟机,容器能快速部署,由于容器与底层设施、机器文件***解耦的,所以它能在不同云、不同版本操作***间进行迁移。
监控是k8s集群运维管理中非常重要的工作,及时并全面的收集集群内部的运行数据,是观察集群运行状态、了解集群运行趋势、并根据一定规则进行告警通知的基础。但是,对于容器数量较多的集群,现有的监控方式容易出现网关压力过大、监控数据丢失的问题。
故如何实现对K8S集群容器的精细化管理,方便排查问题出处并及时处理问题是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种信息化平台监控采集***,来解决如何实现对K8S集群容器的精细化管理,方便排查问题出处并及时处理问题的问题。
本发明的技术任务是按以下方式实现的,一种信息化平台监控采集***,该***包括数据收集提取单元和监控告警单元,数据收集提取单元包括数据收集层及数据提取层,监控告警单元包括数据展示层、告警规则配置层、告警发生层和告警显示层;
其中,数据收集层用于收集主机数据、***数据及容器数据,将收集到的数据进行规范化处理,并进行存储;
数据提取层用于通过部署时编写好的yaml文件内的告警规则语言,将数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控告警模块,Prometheus把收集到的数据通过exporter保存统一格式的数据存储到Prometheus自带的时序数据库,用于grafana调用;
数据展示层使一个web界面,用于将数据收集层获取到的数据进行统一展示,展示的方式包括曲线图、柱状图及饼状态,通过将数据图形化,可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势,并作为运维人员排查问题或解决问题的依据;
告警规则配置层用于配置Prometheus的yml配置文件prometheus.yml中所有设定资源的内置告警规则,并推送告警信息;
告警事件发生层用于将告警事件进行实时记录以及通知用户;
用户展示层是一个web展示界面,用于将监控统计结果及告警故障结果进行统一展示。
作为优选,所述数据收集层收集数据的方式具体如下:
①、根据实际业务及资源情况需求,搭建好Kubernetes集群,把集群作为监控目标;
②、在集群内安装采集组件exporter、cadvisor或telegraf,实现对集群性能数据的获取,集群性能数据包括cpu、内存、磁盘及网络的资源数据信息;
③、通过exporter采集不同维度的监控指标,并通过Prometheus支持的数据格式暴露出来,Prometheus定期pull数据并用Grafana展示;
④、通过cadvisor采集容器及Pod相关的性能指标数据,并通过暴露的metrics接口用prometheus抓取;
⑤、通过prometheus-node-exporter采集主机的性能指标数据,并通过暴露的metrics接口用prometheus抓取。
更优地,所述Prometheus搭建安装过程具体如下:
(1)、把Prometheus镜像打包好并且放到集群镜像仓库中,用于后续Prometheus的安装;
(2)、在搭建好的Kubernetes集群中创建名字为monitoring的命名空间,用于存放Prometheus运行的容器;
(3)、给monitoring分配集群的读取权限,用于Prometheus通过Kubernetes的API获取集群的资源相关信息;
(4)、在monitoring创建ConfigMap用于存储Prometheus容器的配置以及Kubernetes集群中动态发现pod和运行中的服务的配置;
(5)、创建Deployment模式的Prometheus,通过yaml文件安装Prometheus;
(6)、连接Prometheus,通过yaml文件把Prometheus内部端口映射成外部端口,用于Kubernetes集群自动连接到Prometheus,即Prometheus部署成功。
更优地,Prometheus的工作过程具体如下:
(1)、Prometheus server定期从配置好的exporters中拉metrics;
(2)、Prometheus server在本地存储收集到的metrics,并运行已定义好的alert.rules,记录新的时间序列或者向Grafana推送警报;
(3)、Grafana根据配置文件,对接收到的警报进行处理,发出告警;
(4)、在图形界面中,可视化采集数据。
作为优选,所述数据展示层采用Grafana工具,Grafana工具部署过程具体如下:
(1)、把Grafana镜像打包好并且放到集群镜像仓库中,用于后续Grafana的安装;
(2)、通过yaml文件安装Grafana;
(3)、连接Grafana,通过yaml文件把Grafana内部端口映射成外部端口,用于Kubernetes集群自动连接到Grafana;
(4)、使用管理员账号登录Grafana,并且配置Prometheus的数据源;
(5)、编辑好需要图表类型的JSON文件,导入到Grafana,用于调用各个图表的样式,显示各个数据类型的图表;
(6)、连接Grafana,即可看到相关默认模式的监控数据,即Grafana部署成功。
作为优选,所述告警规则配置层包括告警规则配置模块、接收模块、发出模块和消息通知模块;
其中,告警规则配置模块用于配置Prometheus的yml配置文件prometheus.yml中所有设定资源的内置告警规则;
接收模块用于在数据收集提取单元租户侧集群上抓取容器的瞬时指标数据触发告警规则时,接收数据收集提取单元发送的告警信息,并将告警信息推送至警报管理组件Alertmanager;
发出模块用于将警报管理组件Alertmanager中的告警信息向消息通知模块发送;
消息通知模块用于根据预先设置的消息发送渠道的账号密码、主题以及主题的订阅终端,将告警信息发送至相应的订阅终端。
更优地,所述告警规则配置模块加载配置后,根据K8S动态发现机制访问数据收集提取单元地址和指标抓取规则,周期性的抓取各数据收集提取单元的瞬时指标,prometheus根据告警规则,周期性的计算告警规则表达式是否达到指标阈值:
当告警规则表达式满足条件时,prometheus向AlertManager推送告警信息;
其中,告警信息包括容器的UUID、容器名称、所在节点、设定监控指标的阈值及监控指标当前的瞬时值。
更优地,所述消息通过之模块的消息发送渠道包括邮箱、短信、钉钉及微信。
本发明的信息化平台监控采集***具有以下优点:
(一)本发明对K8s集群器资源进行监控并进行告警,可以实现监控集群服务器容器的CPU/内存等,并在容器组被重新调度后,可以不间断的对容器组资源进行监控,可以对不同副本情况设置下的应用服务进行监控,并获取到多个容器组的原始及聚合监控数据,然后将监控到的数据实时以告警方式发送至用户,并以不同方式展示这些监控数据;从而实现对K8S集群容器的精细化管理,方便排查问题出处并及时处理问题;
(二)本发明对K8S容器资源,使用监控采集组件exporter进行数据采集,并分配集群的读取权限,以便可以通过Kubernetes的API获取集群的资源相关信息;
(三)本发明实现了对K8S集群容器的精细化管理,方便排查问题出处并及时处理问题,同时有利于理解容器的***行为,实现资源使用情况的监控。
附图说明
下面结合附图对本发明进一步说明。
附图1为信息化平台监控采集***的结构示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种信息化平台监控采集***作以下详细地说明。
实施例:
如附图1所示,本实施例提供了一种信息化平台监控采集***,该***包括数据收集提取单元和监控告警单元,数据收集提取单元包括数据收集层及数据提取层,监控告警单元包括数据展示层、告警规则配置层、告警发生层和告警显示层;
其中,数据收集层用于收集主机数据、***数据及容器数据,将收集到的数据进行规范化处理,并进行存储;
数据提取层用于通过部署时编写好的yaml文件内的告警规则语言,将数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控告警模块,Prometheus把收集到的数据通过exporter保存统一格式的数据存储到Prometheus自带的时序数据库,用于grafana调用;
数据展示层使一个web界面,用于将数据收集层获取到的数据进行统一展示,展示的方式包括曲线图、柱状图及饼状态,通过将数据图形化,可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势,并作为运维人员排查问题或解决问题的依据;
告警规则配置层用于配置Prometheus的yml配置文件prometheus.yml中所有设定资源的内置告警规则,并推送告警信息;
告警事件发生层用于将告警事件进行实时记录以及通知用户;
用户展示层是一个web展示界面,用于将监控统计结果及告警故障结果进行统一展示。
监控的实现过程是,将平台和业务***中所涉及的硬件资源、软件资源、***信息等纳入统一的运维监控平台中,并通过消除管理软件的差别,数据采集手段的差别,对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现,最终实现运维规范化、自动化、智能化的大运维管理。运行监控和故障告警是一个监控***的两个主要功能模块。
本实施例中的数据收集层收集数据的方式具体如下:
①、根据实际业务及资源情况需求,搭建好Kubernetes集群,把集群作为监控目标;
②、在集群内安装采集组件exporter、cadvisor或telegraf,实现对集群性能数据的获取,集群性能数据包括cpu、内存、磁盘及网络的资源数据信息;
③、通过exporter采集不同维度的监控指标,并通过Prometheus支持的数据格式暴露出来,Prometheus定期pull数据并用Grafana展示;
④、通过cadvisor采集容器及Pod相关的性能指标数据,并通过暴露的metrics接口用prometheus抓取;
⑤、通过prometheus-node-exporter采集主机的性能指标数据,并通过暴露的metrics接口用prometheus抓取。
本实施例中的Prometheus搭建安装过程具体如下:
(1)、把Prometheus镜像打包好并且放到集群镜像仓库中,用于后续Prometheus的安装;
(2)、在搭建好的Kubernetes集群中创建名字为monitoring的命名空间,用于存放Prometheus运行的容器;
(3)、给monitoring分配集群的读取权限,用于Prometheus通过Kubernetes的API获取集群的资源相关信息;
(4)、在monitoring创建ConfigMap用于存储Prometheus容器的配置以及Kubernetes集群中动态发现pod和运行中的服务的配置;
(5)、创建Deployment模式的Prometheus,通过yaml文件安装Prometheus;
(6)、连接Prometheus,通过yaml文件把Prometheus内部端口映射成外部端口,用于Kubernetes集群自动连接到Prometheus,即Prometheus部署成功。
本实施例中的Prometheus的工作过程具体如下:
(1)、Prometheus server定期从配置好的exporters中拉metrics;
(2)、Prometheus server在本地存储收集到的metrics,并运行已定义好的alert.rules,记录新的时间序列或者向Grafana推送警报;
(3)、Grafana根据配置文件,对接收到的警报进行处理,发出告警;
(4)、在图形界面中,可视化采集数据。
本实施例中的数据展示层采用Grafana工具,Grafana工具部署过程具体如下:
(1)、把Grafana镜像打包好并且放到集群镜像仓库中,用于后续Grafana的安装;
(2)、通过yaml文件安装Grafana;
(3)、连接Grafana,通过yaml文件把Grafana内部端口映射成外部端口,用于Kubernetes集群自动连接到Grafana;
(4)、使用管理员账号登录Grafana,并且配置Prometheus的数据源;
(5)、编辑好需要图表类型的JSON文件,导入到Grafana,用于调用各个图表的样式,显示各个数据类型的图表;
(6)、连接Grafana,即可看到相关默认模式的监控数据,即Grafana部署成功。
本实施例中的告警规则配置层包括告警规则配置模块、接收模块、发出模块和消息通知模块;
其中,告警规则配置模块用于配置Prometheus的yml配置文件prometheus.yml中所有设定资源的内置告警规则;
接收模块用于在数据收集提取单元租户侧集群上抓取容器的瞬时指标数据触发告警规则时,接收数据收集提取单元发送的告警信息,并将告警信息推送至警报管理组件Alertmanager;
发出模块用于将警报管理组件Alertmanager中的告警信息向消息通知模块发送;
消息通知模块用于根据预先设置的消息发送渠道的账号密码、主题以及主题的订阅终端,将告警信息发送至相应的订阅终端。
本实施例中的告警规则配置模块加载配置后,根据K8S动态发现机制访问数据收集提取单元地址和指标抓取规则,周期性的抓取各数据收集提取单元的瞬时指标,prometheus根据告警规则,周期性的计算告警规则表达式是否达到指标阈值:
当告警规则表达式满足条件时,prometheus向AlertManager推送告警信息;
其中,告警信息包括容器的UUID、容器名称、所在节点、设定监控指标的阈值及监控指标当前的瞬时值。
本实施例中的消息通过之模块的消息发送渠道包括邮箱、短信、钉钉及微信。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种信息化平台监控采集***,其特征在于,该***包括数据收集提取单元和监控告警单元,数据收集提取单元包括数据收集层及数据提取层,监控告警单元包括数据展示层、告警规则配置层、告警发生层和告警显示层;
其中,数据收集层用于收集主机数据、***数据及容器数据,将收集到的数据进行规范化处理,并进行存储;
数据提取层用于通过部署时编写好的yaml文件内的告警规则语言,将数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控告警模块,Prometheus把收集到的数据通过exporter保存统一格式的数据存储到Prometheus自带的时序数据库,用于grafana调用;
数据展示层使一个web界面,用于将数据收集层获取到的数据进行统一展示,展示的方式包括曲线图、柱状图及饼状态;
告警规则配置层用于配置Prometheus的yml配置文件prometheus.yml中所有设定资源的内置告警规则,并推送告警信息;
告警事件发生层用于将告警事件进行实时记录以及通知用户;
用户展示层是一个web展示界面,用于将监控统计结果及告警故障结果进行统一展示。
2.根据权利要求1所述的信息化平台监控采集***,其特征在于,所述数据收集层收集数据的方式具体如下:
①、根据实际业务及资源情况需求,搭建好Kubernetes集群,把集群作为监控目标;
②、在集群内安装采集组件exporter、cadvisor或telegraf,实现对集群性能数据的获取,集群性能数据包括cpu、内存、磁盘及网络的资源数据信息;
③、通过exporter采集不同维度的监控指标,并通过Prometheus支持的数据格式暴露出来,Prometheus定期pull数据并用Grafana展示;
④、通过cadvisor采集容器及Pod相关的性能指标数据,并通过暴露的metrics接口用prometheus抓取;
⑤、通过prometheus-node-exporter采集主机的性能指标数据,并通过暴露的metrics接口用prometheus抓取。
3.根据权利要求2所述的信息化平台监控采集***,其特征在于,所述Prometheus搭建安装过程具体如下:
(1)、把Prometheus镜像打包好并且放到集群镜像仓库中,用于后续Prometheus的安装;
(2)、在搭建好的Kubernetes集群中创建名字为monitoring的命名空间,用于存放Prometheus运行的容器;
(3)、给monitoring分配集群的读取权限,用于Prometheus通过Kubernetes的API获取集群的资源相关信息;
(4)、在monitoring创建ConfigMap用于存储Prometheus容器的配置以及Kubernetes集群中动态发现pod和运行中的服务的配置;
(5)、创建Deployment模式的Prometheus,通过yaml文件安装Prometheus;
(6)、连接Prometheus,通过yaml文件把Prometheus内部端口映射成外部端口,用于Kubernetes集群自动连接到Prometheus,即Prometheus部署成功。
4.根据权利要求3所述的信息化平台监控采集***,其特征在于,Prometheus的工作过程具体如下:
(1)、Prometheus server定期从配置好的exporters中拉metrics;
(2)、Prometheus server在本地存储收集到的metrics,并运行已定义好的alert.rules,记录新的时间序列或者向Grafana推送警报;
(3)、Grafana根据配置文件,对接收到的警报进行处理,发出告警;
(4)、在图形界面中,可视化采集数据。
5.根据权利要求1所述的信息化平台监控采集***,其特征在于,所述数据展示层采用Grafana工具,Grafana工具部署过程具体如下:
(1)、把Grafana镜像打包好并且放到集群镜像仓库中,用于后续Grafana的安装;
(2)、通过yaml文件安装Grafana;
(3)、连接Grafana,通过yaml文件把Grafana内部端口映射成外部端口,用于Kubernetes集群自动连接到Grafana;
(4)、使用管理员账号登录Grafana,并且配置Prometheus的数据源;
(5)、编辑好需要图表类型的JSON文件,导入到Grafana,用于调用各个图表的样式,显示各个数据类型的图表;
(6)、连接Grafana,即可看到相关默认模式的监控数据,即Grafana部署成功。
6.根据权利要求1所述的信息化平台监控采集***,其特征在于,所述告警规则配置层包括告警规则配置模块、接收模块、发出模块和消息通知模块;
其中,告警规则配置模块用于配置Prometheus的yml配置文件prometheus.yml中所有设定资源的内置告警规则;
接收模块用于在数据收集提取单元租户侧集群上抓取容器的瞬时指标数据触发告警规则时,接收数据收集提取单元发送的告警信息,并将告警信息推送至警报管理组件Alertmanager;
发出模块用于将警报管理组件Alertmanager中的告警信息向消息通知模块发送;
消息通知模块用于根据预先设置的消息发送渠道的账号密码、主题以及主题的订阅终端,将告警信息发送至相应的订阅终端。
7.根据权利要求6所述的信息化平台监控采集***,其特征在于,所述告警规则配置模块加载配置后,根据K8S动态发现机制访问数据收集提取单元地址和指标抓取规则,周期性的抓取各数据收集提取单元的瞬时指标,prometheus根据告警规则,周期性的计算告警规则表达式是否达到指标阈值:
当告警规则表达式满足条件时,prometheus向AlertManager推送告警信息;
其中,告警信息包括容器的UUID、容器名称、所在节点、设定监控指标的阈值及监控指标当前的瞬时值。
8.根据权利要求6或7所述的信息化平台监控采集***,其特征在于,所述消息通过之模块的消息发送渠道包括邮箱、短信、钉钉及微信。
CN202211592846.XA 2022-12-13 2022-12-13 一种信息化平台监控采集*** Pending CN115934464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211592846.XA CN115934464A (zh) 2022-12-13 2022-12-13 一种信息化平台监控采集***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211592846.XA CN115934464A (zh) 2022-12-13 2022-12-13 一种信息化平台监控采集***

Publications (1)

Publication Number Publication Date
CN115934464A true CN115934464A (zh) 2023-04-07

Family

ID=86650490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211592846.XA Pending CN115934464A (zh) 2022-12-13 2022-12-13 一种信息化平台监控采集***

Country Status (1)

Country Link
CN (1) CN115934464A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251353A (zh) * 2023-11-20 2023-12-19 青岛民航凯亚***集成有限公司 一种民航弱电***的监控方法、***及平台
CN117692164A (zh) * 2023-10-31 2024-03-12 广西壮族自治区信息中心 一种基于自研***与Grafana的账号互通方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117692164A (zh) * 2023-10-31 2024-03-12 广西壮族自治区信息中心 一种基于自研***与Grafana的账号互通方法
CN117251353A (zh) * 2023-11-20 2023-12-19 青岛民航凯亚***集成有限公司 一种民航弱电***的监控方法、***及平台

Similar Documents

Publication Publication Date Title
CN109714192B (zh) 一种监控云平台的监控方法及***
CN112511339B (zh) 基于多集群的容器监控告警方法、***、设备及存储介质
CN107689953B (zh) 一种面向多租户云计算的容器安全监控方法及***
CN106776212B (zh) 容器集群部署多进程应用的监管***及方法
CN115934464A (zh) 一种信息化平台监控采集***
US5941996A (en) Distributed network agents
CN107508722B (zh) 一种业务监控方法和装置
CN106487574A (zh) 自动化运行维护监测***
US20140337474A1 (en) System and method for monitoring and managing data center resources in real time incorporating manageability subsystem
CN104699759A (zh) 一种数据库自动化运行维护方法
CN105610648A (zh) 一种运维监控数据的采集方法及服务器
CN108390907B (zh) 一种基于Hadoop集群的管理监控***及方法
CN112799909A (zh) 一种服务器自动化管理***及方法
CN111488258A (zh) 一种用于软硬件运行状态分析与预警的***
CN114328124A (zh) 用于业务监控的方法以及装置、存储介质、电子装置
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN109905262A (zh) 一种cdn设备服务的监控***及监控方法
CN114048090A (zh) 基于k8s的容器云平台监控的方法、设备及存储介质
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理***
EP1622310B1 (en) Administration method and system for network management systems
CN108599978B (zh) 一种云监控方法和装置
CN113570347A (zh) 一种面向微服务架构***的rpa运维方法
CN102480369A (zh) 一种网络管理***及性能采集的方法
CN110557283A (zh) 配电通信网管控方法、服务器、***及可读存储介质
CN109951313A (zh) 一种Hadoop云平台的监控装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination