CN114584455A - 一种基于企业微信的中小型高性能集群监控*** - Google Patents

一种基于企业微信的中小型高性能集群监控*** Download PDF

Info

Publication number
CN114584455A
CN114584455A CN202210210018.9A CN202210210018A CN114584455A CN 114584455 A CN114584455 A CN 114584455A CN 202210210018 A CN202210210018 A CN 202210210018A CN 114584455 A CN114584455 A CN 114584455A
Authority
CN
China
Prior art keywords
information
alarm
module
alarm information
enterprise wechat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210210018.9A
Other languages
English (en)
Other versions
CN114584455B (zh
Inventor
冯伟
姜远飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202210210018.9A priority Critical patent/CN114584455B/zh
Publication of CN114584455A publication Critical patent/CN114584455A/zh
Application granted granted Critical
Publication of CN114584455B publication Critical patent/CN114584455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于企业微信的中小型高性能集群监控***,该监控***包括告警信息采集模块、告警分析模块、告警信息生成及传递模块和告警信息传送服务端模块;所述告警信息采集模块,用于采用shell脚本定时采集告警数据信息;所述告警分析模块,用于将采集到的数据信息进行分析,根据日常维护的标准过滤相关的信息;所述告警信息生成及传递模块,生成满足企业微信后台接收的消息文件;将此文件信息发送到可访问外网的节点;所述告警信息传送服务端模块,与企业微信后台进行信息交互。本发明在故障检测的时效性方面:通过企业微信API,将定时采集到的分级告警信息及时反馈给***管理员,管理员可以不必经常登录***即可获得告警信息。

Description

一种基于企业微信的中小型高性能集群监控***
技术领域
本发明涉及监控管理技术领域,具体是一种基于企业微信的中小型高性能集群监控***。
背景技术
采购监控管理平台,费用高昂,并且每个单位的集群***关注的业务点也有所差别,这种采购的管理平台不适合中小型集群***;大部分集群运维工作需要管理员主动登录到集群***中通过Linux命令的方式查看集群节点性能,缺少故障响应的时效性。
中小型集群管理人员大多非专职维护人员,尤其是一些中小型科研单位中的集群***管理大部分是由科研人员兼职管理。集群的故障检测往往不及时,影响用户使用。
发明内容
本发明的目的在于提供一种基于企业微信的中小型高性能集群监控***,以解决降低集群***监控管理的复杂度,提高故障检测的时效性。
为实现上述目的,本发明提供如下技术方案:
一种基于企业微信的中小型高性能集群监控***,包括告警信息采集模块、告警分析模块、告警信息生成及传递模块和告警信息传送服务端模块;所述告警信息采集模块,用于采用shell脚本定时采集告警数据信息;所述告警分析模块,用于将采集到的数据信息进行分析,根据日常维护的标准过滤相关的信息,形成告警信息;所述告警信息生成及传递模块,生成满足企业微信后台接收的消息文件;将此文件信息发送到可访问外网的节点;所述告警信息传送服务端模块,与企业微信后台进行信息交互,获取有效的token文件,并将告警信息发送到企业微信,用户通过企业微信APP实时收到告警信息。
在上述技术方案的基础上,本发明还提供以下可选技术方案:
在一种可选方案中:所述告警信息采集模块、告警分析模块、告警信息生成及传递模块均架设在集群***的共享存储上;所述告警信息传送服务端模块架设在NAS服务器的节点上。
在一种可选方案中:所述告警信息包括节点性能告警信息和业务告警信息;所述节点性能告警信息为日常管理中硬件设备信息的使用情况;所述业务告警信息为各节点作业软件异常信息。
在一种可选方案中:所述告警信息采集模块是通过结合日常LINUX运维命令及作业调度软件SLURM命令实现定时采集告警数据信息。
在一种可选方案中:所述节点性能告警信息包括节点CPU温度、内存使用情况、本地硬盘使用率、共享存储使用率。
在一种可选方案中:所述业务告警信息包括各节点作业调度软件状态异常告警、作业状态异常告警。
相较于现有技术,本发明的有益效果如下:
本发明在降低中小型集群监控管理的复杂度方面:借助服务器操作***的定时任务机制,采用shell脚本,进行集群管理的工作人员都可以自行定制开发。
本发明在故障检测的时效性方面:通过企业微信API,将定时采集到的分级告警信息及时反馈给***管理员,管理员可以不必经常登录***即可获得告警信息。
附图说明
图1为本发明的一个实施例中的该***网络结构示意图。
图2为本发明的一个实施例中的该***实现流程结构示意图。
图3为本发明的一个实施例中的该***模块结构示意图。
图4为本发明的一个实施例中的该***模块运行布置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明;在附图或说明中,相似或相同的部分使用相同的标号,并且在实际应用中,各部件的形状、厚度或高度可扩大或缩小。本发明所列举的各实施例仅用以说明本发明,并非用以限制本发明的范围。对本发明所作的任何显而易知的修饰或变更都不脱离本发明的精神与范围。
在一个实施例中,如图1-图4所示,一种基于企业微信的中小型高性能集群监控***,包括告警信息采集模块、告警分析模块、告警信息生成及传递模块和告警信息传送服务端模块;所述告警信息采集模块,用于采用shell脚本定时采集告警数据信息;所述告警分析模块,用于将采集到的数据信息进行分析,根据日常维护的标准过滤相关的信息,形成告警信息;所述告警信息生成及传递模块,生成满足企业微信后台接收的消息文件;将此文件信息发送到可访问外网的节点;所述告警信息传送服务端模块,与企业微信后台进行信息交互,获取有效的token文件,并将告警信息发送到企业微信,用户通过企业微信APP实时收到告警信息;
在集群的共享存储上架设节点性能告警信息模块、业务告警信息模块、告警信息生成及传送模块;在NAS服务器B上架设告警信息传送服务端模块,通过此告警信息传送服器端模块,利用企业微信API接口向企业微信后台发送告警信息;***管理员则可以通过手机端的企业微信APP及时接收到集群性能的各类告警信息;***管理员接收到告警信息后,及时登录集群***进行故障异常等的处理;其中,集群登录节点A的传送模块是将告警信息由登录节点传送至可访问外网的NAS服务器B,而集群中其它节点上的传送模块是将告警信息传送至集群登录节点A;
告警信息采集模块使用shell脚本,结合日常LINUX运维命令(df/sensors/free/impitool等)及作业调度软件SLURM命令(sinfo/squeue/scontrol show node/scontrolshow job等),定时采集节点性能告警和业务***告警信息;将采集到的每类信息进行分析,根据日常维护的标准过滤相关的信息,形成告警信息。例如:cpu温度超过90℃,共享存储使用率超过60%,集群节点宕机等,形成告警信息;
告警信息生成及传递模块生成满足企业微信后台接收的消息文件;将此文件信息发送到可访问外网的B节点;告警信息传送服务端模块与企业微信后台进行信息交互,获取有效的token文件,并将告警信息发送到企业微信,用户通过企业微信APP实时收到告警信息;
在一个实施例中,如图3所示,节点性能告警模块:分为日常管理中关注的节点CPU温度、内存使用情况、本地硬盘使用率、共享存储使用率等硬件设备信息的使用告警;
业务告警模块:各节点作业调度软件状态异常告警、作业状态异常告警。
消息发送服务端模块可以与告警信息生成及传送模块合并到一起;但是通过这种分开的方式,有两个优点:
a、将集群***屏蔽到单位内网中,即便为降低成本,集群未配备堡垒机等验证设备,集群节点使用的安全性,也可以在一定程度上得到保障;
b、有利于单位内部多个告警***的配置;无论本单位内部有多少套***使用企业微信进行消息接收方式,都可以只进行消息采集***的开发,公用此消息发送服务端模块进行***部署。
向企业微信后台发送消息时,增加消息发送成功验证机制及日志记录机制,便于提高消息传送的可靠性及后期信息核实与查找功能。
其中,被监控集群端配置如下:
集群账号***中配置一个管理员级账号AdminA,并配置此账号在集群***各个节点间的免密登录;同时配置AdminA账号下通过userB访问NAS服务器的免密登录;
集群采用当前流行的开源SLURM作业调度***,各节点安装LINUX常用运维工具lm_sensors(监控cpu温度)、ipmitool(监控硬件故障信息)软件包辅助进行集群故障检测;
集群节点配置crontab定时任务,进行定期的告警信息检测及采集。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于企业微信的中小型高性能集群监控***,其特征在于,包括告警信息采集模块、告警分析模块、告警信息生成及传递模块和告警信息传送服务端模块;
所述告警信息采集模块,用于采用shell脚本定时采集告警数据信息;
所述告警分析模块,用于将采集到的数据信息进行分析,根据日常维护的标准过滤相关的信息,形成告警信息;
所述告警信息生成及传递模块,生成满足企业微信后台接收的消息文件;将此文件信息发送到可访问外网的节点;
所述告警信息传送服务端模块,与企业微信后台进行信息交互,获取有效的token文件,并将告警信息发送到企业微信,用户通过企业微信APP实时收到告警信息。
2.根据权利要求1所述的基于企业微信的中小型高性能集群监控***,其特征在于,所述告警信息采集模块、告警分析模块、告警信息生成及传递模块均架设在集群***的共享存储上,供集群中的各节点使用;所述告警信息传送服务端模块架设在NAS服务器的节点上。
3.根据权利要求1所述的基于企业微信的中小型高性能集群监控***,其特征在于,所述告警信息采集模块是通过结合日常LINUX运维命令及作业调度软件SLURM命令实现定时采集告警数据信息。
4.根据权利要求1所述的基于企业微信的中小型高性能集群监控***,其特征在于,所述告警信息包括节点性能告警信息和业务告警信息;所述节点性能告警信息为日常管理中硬件设备信息的使用情况;所述业务告警信息为各节点作业调度软件异常信息。
5.根据权利要求4所述的基于企业微信的中小型高性能集群监控***,其特征在于,所述节点性能告警信息包括节点CPU温度、内存使用情况、本地硬盘使用率、共享存储使用率。
6.根据权利要求4所述的基于企业微信的中小型高性能集群监控***,其特征在于,所述业务告警信息包括各节点作业调度软件状态异常告警、作业状态异常告警。
CN202210210018.9A 2022-03-04 2022-03-04 一种基于企业微信的中小型高性能集群监控*** Active CN114584455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210210018.9A CN114584455B (zh) 2022-03-04 2022-03-04 一种基于企业微信的中小型高性能集群监控***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210210018.9A CN114584455B (zh) 2022-03-04 2022-03-04 一种基于企业微信的中小型高性能集群监控***

Publications (2)

Publication Number Publication Date
CN114584455A true CN114584455A (zh) 2022-06-03
CN114584455B CN114584455B (zh) 2023-06-30

Family

ID=81778100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210210018.9A Active CN114584455B (zh) 2022-03-04 2022-03-04 一种基于企业微信的中小型高性能集群监控***

Country Status (1)

Country Link
CN (1) CN114584455B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040010716A1 (en) * 2002-07-11 2004-01-15 International Business Machines Corporation Apparatus and method for monitoring the health of systems management software components in an enterprise
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
CN101932063A (zh) * 2010-08-24 2010-12-29 吉林大学 一种车载自组网的可信安全路由方法
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复***
RU2591020C1 (ru) * 2015-06-01 2016-07-10 Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом") Способ контроля хода выполнения программы пользователя, исполняющейся на вычислительных узлах вычислительной системы
CN106027372A (zh) * 2016-05-23 2016-10-12 ***通信集团广东有限公司 基于微信的告警工单自动化处理方法
WO2016177156A1 (zh) * 2015-07-16 2016-11-10 中兴通讯股份有限公司 流量的处理方法、装置及***
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作***的软硬件故障告警***及方法
CN107645423A (zh) * 2016-07-21 2018-01-30 中国科学院计算机网络信息中心 一种监控数据的展示***及其方法
CN108334409A (zh) * 2018-01-15 2018-07-27 北京大学 一种细粒度的高性能云资源管理调度方法
CN109783322A (zh) * 2018-11-22 2019-05-21 远光软件股份有限公司 一种企业信息***运行状态的监控分析***及其方法
CN110177020A (zh) * 2019-06-18 2019-08-27 北京计算机技术及应用研究所 一种基于Slurm的高性能集群管理方法
CN111327692A (zh) * 2020-02-05 2020-06-23 北京百度网讯科技有限公司 模型训练方法、装置及集群***
CN111625339A (zh) * 2020-05-28 2020-09-04 网易有道信息技术(北京)有限公司 集群资源调度方法、装置、介质和计算设备
CN112162899A (zh) * 2020-09-16 2021-01-01 银盛支付服务股份有限公司 基于大数据集群服务监控方法及***
CN112328456A (zh) * 2021-01-04 2021-02-05 北京电信易通信息技术股份有限公司 一种基于服务发现的集群资源监控***
CN113051147A (zh) * 2021-04-25 2021-06-29 中国建设银行股份有限公司 一种数据库集群的监控方法、装置、***、以及设备
CN113778614A (zh) * 2021-08-03 2021-12-10 科大国创云网科技有限公司 一种面向企业服务总线的集群异常监控告警***及方法
CN113806080A (zh) * 2021-08-30 2021-12-17 济南浪潮数据技术有限公司 一种基于slurm***的作业内存管理方法及***

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
US20040010716A1 (en) * 2002-07-11 2004-01-15 International Business Machines Corporation Apparatus and method for monitoring the health of systems management software components in an enterprise
CN101932063A (zh) * 2010-08-24 2010-12-29 吉林大学 一种车载自组网的可信安全路由方法
RU2591020C1 (ru) * 2015-06-01 2016-07-10 Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом") Способ контроля хода выполнения программы пользователя, исполняющейся на вычислительных узлах вычислительной системы
WO2016177156A1 (zh) * 2015-07-16 2016-11-10 中兴通讯股份有限公司 流量的处理方法、装置及***
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复***
CN106027372A (zh) * 2016-05-23 2016-10-12 ***通信集团广东有限公司 基于微信的告警工单自动化处理方法
CN107645423A (zh) * 2016-07-21 2018-01-30 中国科学院计算机网络信息中心 一种监控数据的展示***及其方法
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作***的软硬件故障告警***及方法
CN108334409A (zh) * 2018-01-15 2018-07-27 北京大学 一种细粒度的高性能云资源管理调度方法
CN109783322A (zh) * 2018-11-22 2019-05-21 远光软件股份有限公司 一种企业信息***运行状态的监控分析***及其方法
CN110177020A (zh) * 2019-06-18 2019-08-27 北京计算机技术及应用研究所 一种基于Slurm的高性能集群管理方法
CN111327692A (zh) * 2020-02-05 2020-06-23 北京百度网讯科技有限公司 模型训练方法、装置及集群***
CN111625339A (zh) * 2020-05-28 2020-09-04 网易有道信息技术(北京)有限公司 集群资源调度方法、装置、介质和计算设备
CN112162899A (zh) * 2020-09-16 2021-01-01 银盛支付服务股份有限公司 基于大数据集群服务监控方法及***
CN112328456A (zh) * 2021-01-04 2021-02-05 北京电信易通信息技术股份有限公司 一种基于服务发现的集群资源监控***
CN113051147A (zh) * 2021-04-25 2021-06-29 中国建设银行股份有限公司 一种数据库集群的监控方法、装置、***、以及设备
CN113778614A (zh) * 2021-08-03 2021-12-10 科大国创云网科技有限公司 一种面向企业服务总线的集群异常监控告警***及方法
CN113806080A (zh) * 2021-08-30 2021-12-17 济南浪潮数据技术有限公司 一种基于slurm***的作业内存管理方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨杰;曾凌波;彭运勇;蒋迁谦;杜量;: "面向大规模集群的自动化监控***", 计算机工程与科学, no. 10 *
秦晓宁;王家尧;胡梦龙;苏勇;万伟;李斌;戴荣;王志鹏;吉青;: "面向超大规模计算***的监控、调度及网络优化实践", 数据与计算发展前沿, no. 01 *

Also Published As

Publication number Publication date
CN114584455B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN109714192B (zh) 一种监控云平台的监控方法及***
CN107943668B (zh) 计算机服务器集群日志监控方法及监控平台
CN104022904B (zh) 分布式机房it设备统一管理平台
CN105159964B (zh) 一种日志监控方法及***
CN100536403C (zh) 一种通信网络智能巡检的方法及设备
CN110175451A (zh) 一种基于电力云的安全监控方法和***
CN104731580A (zh) 基于Karaf与ActiveMQ的自动化运维***及其实现方法
CN110688280B (zh) 一种告警事件的管理***、方法、设备和存储介质
CN101997925A (zh) 具有预警功能的服务器监控方法及其***
CN112073262B (zh) 一种云平台监控方法、装置、设备及***
CN111046011A (zh) 日志收集方法、***、节点、电子设备及可读存储介质
CN110224865A (zh) 一种基于流式处理的日志告警***
CN110209518A (zh) 一种多数据源日志数据集中收集存储方法及装置
CN109240126A (zh) 一种具有模拟操作功能的分布式应用服务监测***及方法
CN111259073A (zh) 基于日志、流量和业务访问的业务***运行状态智能研判***
CN104504014A (zh) 基于大数据平台的数据处理方法和装置
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN115658420A (zh) 数据库监控方法及***
CN116257021A (zh) 一种工控***智能网络安全态势监测预警平台
CN108288997A (zh) 一种传输网络光功率自动采集***
CN114338684A (zh) 一种能源管理***及方法
CN208046653U (zh) 一种电力监控***网络安全监测主站平台***
CN110557283B (zh) 配电通信网管控方法、服务器、***及可读存储介质
CN114584455A (zh) 一种基于企业微信的中小型高性能集群监控***
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant