CN110083512A - 集群监控的方法及装置 - Google Patents

集群监控的方法及装置 Download PDF

Info

Publication number
CN110083512A
CN110083512A CN201910306440.2A CN201910306440A CN110083512A CN 110083512 A CN110083512 A CN 110083512A CN 201910306440 A CN201910306440 A CN 201910306440A CN 110083512 A CN110083512 A CN 110083512A
Authority
CN
China
Prior art keywords
subservice
group
stock number
cluster
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910306440.2A
Other languages
English (en)
Inventor
赵子青
吴峰
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yidianshikong Network Co Ltd
Original Assignee
Shanghai Yidianshikong Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yidianshikong Network Co Ltd filed Critical Shanghai Yidianshikong Network Co Ltd
Priority to CN201910306440.2A priority Critical patent/CN110083512A/zh
Publication of CN110083512A publication Critical patent/CN110083512A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种集群监控的方法及装置。该申请的方法包括获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率,所述资源量为服务器的数量;根据目标容量占用率计算各子业务组的优化资源量,所述目标容量占用率为预设的优化容量占用率;根据所述优化资源量对所述业务集群进行优化;监控优化后的业务集群中各子业务组的资源量的变化;若发生变化,则生成告警信息。本申请解决了相关的业务集群中服务器出现异常导致影响相关业务正常运行的问题。

Description

集群监控的方法及装置
技术领域
本申请涉及集群服务技术领域,具体而言,涉及一种集群监控的方法及装置。
背景技术
集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一***的模式加以管理。随着互联网技术的快速发展和广泛应用,目前许多的业务的处理需要集群处理来满足性能的需求。
每个业务集群都有自己的压测容量,压测容量是指集群同时可以支撑的最大访问量。在业务集群建设完成后,包含的服务器持续运行的过程中,集群里的服务器经常的会出现一些异常,如服务器死机、服务器硬件故障不能继续提供服务等情形,当出现了这些故障情况时,就可能导致集群的最大支撑力的降低,即压测容量的降低,最终影响业务的正常运行。
发明内容
本申请的主要目的在于提供一种集群监控的方法,以解决相关的业务集群中服务器出现异常导致影响相关业务正常运行的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种集群监控的方法。
根据本申请的集群监控的方法包括:
获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率,所述资源量为服务器的数量;
根据目标容量占用率计算各子业务组的优化资源量,所述目标容量占用率为预设的优化容量占用率;
根据所述优化资源量对所述业务集群进行优化;
监控优化后的业务集群中各子业务组的资源量的变化;
若发生变化,则生成告警信息。
进一步的,所述获取业务集群压力测试后包含的各子业务组的容量占用率包括:
获取每个子业务组的压力测试指标以及每个压力测试指标对应的指标极限值;
切割用户请求到所述业务集群后对业务集群进行压力测试,在任意一个子业务组中的任意一种压力测试指标的当前指标值等于对应的指标极限值时,终止压力测试;
计算所有当前指标值的极限趋近率,将每个子业务组中最大的极限趋近率确定为对应子业务组的容量占用率,所述极限趋近率为压力测试指标的当前指标值与其对应的指标极限值的比。
进一步的,所述根据目标容量占用率计算各子业务组的优化资源量包括:
分别计算每个子业务组的资源量与容量占用率的乘积,得到多个乘积结果;
分别计算每个乘积结果与所述目标容量占用率的商值,得到多个商值结果;
对所述多个商值结果分别进行取整,得到每个子业务组对应的优化资源量。
进一步的,所述监控优化后的业务集群中各子业务组的资源量的变化,包括:
每隔预设时段获取优化后业务集群中各子业务组的实时资源量;
将所述实时资源量分别与对应的优化资源量进行匹配;
所述若发生变化,则生成告警信息包括:
若匹配失败,则生成告警信息。
进一步的,所述告警信息包括告警短信和/或告警邮件和/或告警语音信息,所述方法还包括:
若所述告警信息为告警短信,则根据运维人员的联系信息将所述告警短信输出;
若所述告警信息为告警邮件,则根据运维人员的联系信息将所述告警邮件输出;
若所述告警信息为告警语音信息,则根据运维人员的联系信息将所述告警语音信息输出。
为了实现上述目的,根据本申请的另一方面,提供了一种集群监控的装置。
根据本申请的集群监控的装置包括:
获取单元,用于获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率,所述资源量为服务器的数量;
计算单元,用于根据目标容量占用率计算各子业务组的优化资源量,所述目标容量占用率为预设的优化容量占用率;
优化单元,用于根据所述优化资源量对所述业务集群进行优化;
监控单元,用于监控优化后的业务集群中各子业务组的资源量的变化;
生成单元,用于若发生变化,则生成告警信息。
进一步的,所述获取单元包括:
指标获取模块,用于获取每个子业务组的压力测试指标以及每个压力测试指标对应的指标极限值;
终止模块,用于切割用户请求到所述业务集群后对业务集群进行压力测试,在任意一个子业务组中的任意一种压力测试指标的当前指标值等于对应的指标极限值时,终止压力测试;
确定模块,用于计算所有当前指标值的极限趋近率,将每个子业务组中最大的极限趋近率确定为对应子业务组的容量占用率,所述极限趋近率为压力测试指标的当前指标值与其对应的指标极限值的比。
进一步的,所述计算单元包括:
乘积计算模块,用于分别计算每个子业务组的资源量与容量占用率的乘积,得到多个乘积结果;
商值计算模块,用于分别计算每个乘积结果与所述目标容量占用率的商值,得到多个商值结果;
取整模块,用于对所述多个商值结果分别进行取整,得到每个子业务组对应的优化资源量。
进一步的,所述监控单元包括:
资源量获取模块,用于每隔预设时段获取优化后业务集群中各子业务组的实时资源量;
匹配模块,用于将所述实时资源量分别与对应的优化资源量进行匹配;
所述生成单元用于:
若匹配失败,则生成告警信息。
进一步的,所述装置还包括:
输出单元,用于所述告警信息包括告警短信和/或告警邮件和/或告警语音信息,若所述告警信息为告警短信,则根据运维人员的联系信息将所述告警短信发输出;
所述输出单元,还用于若所述告警信息为告警邮件,则根据运维人员的联系信息将所述告警邮件输出;
所述输出单元,还用于若所述告警信息为告警语音信息,则根据运维人员的联系信息将所述告警语音信息输出。
在本申请实施例中,由于业务集群的子业务组中若出现服务器故障无法提供服务的情况,则对应的子业务组的服务器数量必然会发生变化,因此集群监控的方法和装置能够通过对优化后的业务集群包含的各子业务组的资源量(服务器的数量)进行实时监控,当子业务组的资源量发生变化时确定有故障服务器,并及时生成告警信息,这样就可以使运维人员根据告警信息及时对服务进行故障的检查和修复,保证业务集群的最大支撑力,进而保证相关业务的正常运行。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的集群监控的方法流程图;
图2是根据本申请另一种实施例的集群监控的方法流程图;
图3是根据本申请一种实施例的集群监控的装置的组成框图;
图4是根据本申请另一种实施例的集群监控的装置的组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请实施例,提供了一种集群监控的方法,如图1所示,该方法包括如下的步骤S101至步骤S105:
S101.获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率。
本实施例中压力测试是指测试业务集群可以同时承受或者支撑的最大用户请求量,对应的压力测试后业务集群包含的各子业务组的资源量以及对应的容量占用率是指在业务集群最大用户请求量的情况下,得到的子业务组的资源量以及对应的容量占用率。其中,子业务组的资源量具体是子业务组中服务器的数量,容量占用率是根据容量衡量指标来衡量的,具体的不同的子业务组对应的容量衡量指标可能不同,可能为CPU使用率、内存使用率、读/写(I/O)使用率等任何一种能够衡量容量的指标。
子业务组中服务器的数量能够通过调用服务器配置查看命令自动获取。具体的服务器的数量获取通过调用服务器数量查看命令自动获取,本实施例给出一种服务器数量的查看命令,比如:cat/proc/cpuinfo|grep"physical id"|sort|uniq|wc–l。子业务组对应的容量占用率也能够通过调用服务器配置查看命令自动获取,本实施例中不同的子业务组对应的容量占用率的衡量指标有可能是不同,因此对应的调用的服务器器配置查看命令也是不同的,比如若容量占用率是用内存使用率来衡量的,则获取容量占用率可以通过调用内存使用率查看命令自动获取,本实施例给出一种内存使用率查看命令,比如:free-m。
S102.根据目标容量占用率计算各子业务组的优化资源量。
其中,目标容量占用率为预设的优化容量占用率。具体的在实际应用中目标容量占用率是用户根据服务器实际的最优使用状态下对应的经验值设定的,比如86%、87%等其它值。根据目标容量占用率计算各子业务组的优化资源量具体的是根据目标容量占用率以及步骤S101中获取到的子业务组的资源量以及容量占用率计算得到的。
计算的原理为:业务集群可以承受的最大的用户请求量决定了各子业务组需要承受的容量,而子业务组在业务集群可以承受的最大的用户请求量下所承受的容量能够通过对将资源量以及容量占用率进行运算后得到。当业务集群承受的最大的用户请求量不变的情况下,对应的各子业务组在业务集群优化前和优化后所需承受的容量是不变的,业务集群优化前子业务组承受的容量是由步骤S101中获取到的资源量以及容量占用率确定的,业务集群优化后子业务组承受的容量是由目标容量占用率以及优化资源量确定的,当步骤S101中获取到的资源量以及容量占用率、以及本步骤中目标容量占用率都已知的情况下,能够计算确定优化资源量。
S103.根据优化资源量对业务集群进行优化。
得到子业务组分别对应的优化资源量,即得到子业务组在最优状态下应该配备的服务器的数量,根据最优状态下应该配备的服务器的数量对各子业务组中的服务器进行增加或者减少,调整服务器的数量后并适应性的对每个子业务组进行配置更新,完成对每个子业务组资源量的优化,最终完成业务集群的优化。
S104.监控优化后的业务集群中各子业务组的资源量的变化。
上述对业务集群的优化是一个静态的优化,在服务器持续运行的过程中,经常会出现一些异常,比如服务器死机、服务器硬件故障不能继续提供服务等情形,当出现了这些故障情况时,就可能导致集群的最大支撑力的降低。这样就会打破上述优化的状态,为了保证业务集群持续保持在优化状态,并保证业务的正常运行,则需要实时的监控子业务组中是否有服务器异常,而服务器的异常则必然导致对应的子业务组的服务器数量的变化,因此能够通过对优化后业务集群中各子业务组的资源量的变化进行监控来确定存在服务器异常,并使运维人员后续进行异常的检查和修复。
具体监控优化后的业务集群中各子业务组的资源量的变化可以通过监控脚本实现,其中监控的频率可以根据用户的实际需要自由设定。
S105.若发生变化,则生成告警信息。
对应于步骤S105的监控结果,若子业务组的资源量发生变化,即子业务组的服务器数量发生变化,则确定资源量发生变化的子业务组以及变化量,并将资源量发生变化的子业务组以及变化量生成告警信息。生成告警信息是为了使运维人员根据告警信息确定异常的服务器并进行修复。
从以上的描述中,可以看出,本申请实施例中集群监控的方法能够通过对优化后的业务集群包含的各子业务组的资源量(服务器的数量)进行实时监控,当子业务组的资源量发生变化时确定有故障服务器,并及时生成告警信息,这样就可以使运维人员根据告警信息及时对服务进行故障的检查和修复,保证业务集群的最大支撑力,进而保证相关业务的正常运行。
根据本申请另一实施例,提供了一种集群监控的方法,如图2所示,该方法包括:
S201.获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率。
各子业务组的资源量以及容量占用率是在压力测试后业务集群包含的各子业务组的相关参数,因此在获取上述相关参数之前,首先需要对业务集群进行压力测试。具体的通过压力测试得到相关参数的过程包括以下步骤:
第一,获取每个子业务组的压力测试指标以及每个压力测试指标对应的指标极限值;
其中压力测试指标至少包括CPU使用率、内存使用率、读/写(I/O)使用率、子业务组间调用指标、CPU出入流量指标中的一种,具体的子业务组间调用指标包括子业务组间请求时长和调用时长等。在实际的应用中不同的子业务组可能对应一种或多种不同种类的压力测试指标,并且每种压力测试指标对应一个指标极限值,该指标极限值用于极限状态的判断。具体的,上述压力测试指标对应的指标极限值是由用户自由设定的,本申请实施例对此不作限制。比如CPU使用率的指标极限值可以设置为99%、100%等,内存使用率的指标极限值可以设置为95%、96%、98%等,读/写使用率的指标极限值可以设置95%、96%、98%等,子业务组间请求时长的指标极限值可以设置为1s、2s等,子业务组间调用时长的指标极限值可以设置为1s、2s等。当用户对压力测试指标以及对应的指标极限值设置后,具体获取方式可以通过调用函数或调用命令从指标文档中调用或者提取等方式获取等。
第二,切割用户请求到业务集群后对业务集群进行压力测试;
本申请实施例中进行压力测试时用的是真实的用户请求,而通常在真实的用户访问情况下,业务集群不能达到压力测试的用户请求量,因此需要切割用户请求到待进行压力测试的业务集群中,即增加业务集群的用户请求量,来满足压力测试的需求。具体的切割用户请求是按照将业务集群之外的其他集群对应的真实用户请求切割到该业务集群上,由于在压力测试之前无法估计业务集群可以支撑的用户请求量,因此优选的采用一个集群一个集群的用户请求进行切割。但在实际的应用中,如果该业务集群的真实请求量很少或者选择切割的集群的用户请求量很少时,也可以适当的一次切割多个业务集群的真实用户请求到该业务集群。用户请求量准备好之后,就可以对业务集群进行压力测试了。
第三,监控所述业务集群中各个子业务组对应的压力测试指标的变化;
对业务集群进行压力测试即对各个子业务组进行压力测试。具体的压力测试的过程为:监控每个子业务组中对应的压力测试指标的变化,随着用户请求数量的增加,各子业务组对应的压力测试指标的值也在不断的增加;直到压力测试指标达到一个极限状态时,结束监控,完成压力测试。
第四,若任意一个子业务组中任意一种压力测试指标的当前指标值等于对应的指标极限值,则终止压力测试;
本申请实施例中压力测试依据的是木桶原理。木桶原理是一只水桶能装多少水取决于它最短的那块木板,对应于本申请实施例即业务集群所能支撑的最大用户请求量取决于支撑用户请求能力最小的子业务组所能支撑的最大用户请求量,而子业务组所能支撑的最大用户请求量取决于压力测试指标中最先达到指标极限值的压力测试指标,因此当任一压力测试指标的当前指标值达到对应的指标极限值时,则表明业务集群中至少存在一个子业务组已经达到了容量上限,即不能再同时接收更多的用户请求,这就是上述步骤中的极限状态。达到极限状态后就可以终止压力测试。
给出具体的示例对上述压力测试进行说明:假设业务集群中包括子业务组1、子业务组2、子业务组3,子业务组1的压力测试指标为CPU占用率、CPU出入流量,对应的指标极限值为100%和流量的100%;子业务组2的压力测试指标为CPU占用率、读/写使用率,对应的指标极限值分别为100%和95%;子业务组3的压力测试指标为CPU占用率、CPU出入流量和调用时长,对应的指标极限值为100%、流量的100%和2s。压力测试开始后,监控三个子业务组对应的压力测试指标的变化,若一段时间后,其中子业务组1中读/写使用率先达到了指标极限值95%,此时压力测试终止。或者子业务组2中CPU出入流量先达到了指标极限值流量的100%,此时压力测试终止。或者子业务组3中的调用时长先达到了极限值2s,此时压力测试终止。即3个子业务组中任一压力测试指标的当前指标值达到了对应的指标极限则终止压力测试。
第五,计算所有当前指标值的极限趋近率;
其中,极限趋近率为压力测试指标的当前指标值与其对应的指标极限值的比,本实施例中极限趋近率为终止压力测试时,对应的每个子业务组中每个压力测试指标对应的当前指标值与其对应的指标极限值的比。
第六,将每个子业务组中最大的极限趋近率确定为对应子业务组的容量占用率。
另外需要说明的是子业务组的资源量即包含的服务器的数量在压力测试前后获取都可以,因此能够在压力测试后与容量占用率一起获取,具体的获取方式与图1步骤S101中的获取方式相同,此处不再赘述。
S202.根据目标容量占用率计算各子业务组的优化资源量。
具体的根据目标容量占用率计算各子业务组的优化资源量是根据目标容量占用率以及步骤S201中获取到的子业务组的资源量以及容量占用率来计算各子业务组的优化资源量,具体的计算过程为:首先,分别计算每个子业务组的资源量与容量占用率的乘积,得到多个乘积结果;其次,分别计算每个乘积结果与目标容量占用率的商值,得到多个商值结果;对商值结果进行取整,得到每个子业务组对应的优化资源量。需要说明的是,对商值结果取整是向上取整,即不管四舍五入的规则,只要后面有小数前面的整数就加1。
对于上述优化资源量的计算给出具体的示例进行说明:假设业务集群包括五个子业务组,经过压力测试后,得到的业务集群最大可以承受的用户访问量为50万,对应的每个子业务组对应的资源量和对应的容量占用率分别为:子业务组a,10台服务器,容量占用率为85%;子业务组b,8台服务器,容量占用率为63%;子业务组c,5台服务器,容量占用率为91%;子业务组d,12台服务器,容量占用率为45%;子业务组e,7台服务器,容量占用率为70%。假设目标容量占用率为87%,以子业务组d为例计算子业务组d的优化资源量:12台服务器*容量占用率45%=优化资源量*目标容量占用率87%,计算得到的目标资源量的结果为6.2,则对6.2向上取整最终得到子业务组d对应的目标资源量即服务器的台数为7。按照上述计算过程计算得到其他子业务组的优化资源量分别为:子业务组a,10台服务器;子业务组b,6台服务器;子业务组c,6台服务器;子业务组d,7台服务器;子业务组e,6台服务器。
S203.根据优化资源量对业务集群进行优化。
本步骤的实现方式与图1步骤S103的实现方式相同,此处不再赘述。
S204.每隔预设时段获取优化后业务集群中各子业务组的实时资源量。
其中,预设时段根据用户的实际需要设定,比如可以设定为预设时段=5min等。获取优化后业务集群中各子业务组的实时资源量具体的实现方式与图1步骤S101中获取子业务组的资源量的获取方式相同,此处不再赘述。
S205.将实时资源量分别与对应的优化资源量进行匹配。
将由步骤S204获取到的每个子业务组的实时资源量分别与对应的优化资源量进行匹配,即判断实时资源量是否等于对应的优化资源量。
S206.若匹配失败,则生成告警信息。
对于前述步骤中匹配的结果,若子业务组的实时资源量不等于对应的优化资源量,则证明匹配失败。匹配失败后,还要进一步的确定匹配失败的子业务组,以及匹配失败的实时资源量与对应得优化资源量的差量,并将匹配失败的子业务组以及匹配失败的实时资源量与对应得优化资源量的差量生成告警信息。
S207.将告警信息输出。
本实施例中告警信息包括告警短信、告警邮件、告警语音信息中的一种或多种。
对应的若告警信息为告警短信,则获取运维人员的联系信息,并根据运维人员的联系信息中的电话信息及时的将告警短信输出至运维人员使用的设备上,使运维人员可以及时的接收到告警短信,并根据告警短信确定异常的服务器并进行修复。
对应的若告警信息为告警邮件,则获取运维人员的联系信息,并根据运维人员的联系信息中的邮箱地址及时的将告警邮件输出至运维人员使用的设备上,使运维人员可以及时的接收到告警邮件,并根据告警短信确定异常的服务器并进行修复。
对应的若告警信息为告警语音信息,则获取运维人员的联系信息,并根据运维人员的联系信息中的电话信息及时的将告警语音信息通过电话播报给运维人员,以使运维人员根据告警短信确定异常的服务器并进行修复。
需要说明的是,运维人员的联系信息可以预先存储到业务集群中预设的数据库中,当需要获取时通过数据库查找工具获取,联系信息包括电话、邮箱、即时聊天软件账号等。
上述示例给出三种优选的告警信息的形式,在实际的应用中也可以为其它信息表示形式,本实施例对此不作限制。比如告警信息还可以为即时消息或者图片形式等,然后通过即时交互软件发送给运维人员等。
另外,在运维人员根据告警信息对异常服务器进行检查和修复后,为了验证业务集群是否真正恢复了之前的优化状态,则可以重新对业务集群再次进行压力测试,并判断得到的每个子业务组的容量占用率是否与优化状态下一致。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述图1和图2所述方法的集群监控的装置,如图3所示,该装置包括:
获取单元31,用于获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率,所述资源量为服务器的数量;
计算单元32,用于根据目标容量占用率计算各子业务组的优化资源量,所述目标容量占用率为预设的优化容量占用率;
优化单元33,用于根据所述优化资源量对所述业务集群进行优化;
监控单元34,用于监控优化后的业务集群中各子业务组的资源量的变化;
生成单元35,用于若发生变化,则生成告警信息。
从以上的描述中,可以看出,本申请实施例中集群监控的装置能够通过对优化后的业务集群包含的各子业务组的资源量(服务器的数量)进行实时监控,当子业务组的资源量发生变化时确定有故障服务器,并及时生成告警信息,这样就可以使运维人员根据告警信息及时对服务进行故障的检查和修复,保证业务集群的最大支撑力,进而保证相关业务的正常运行。
进一步的,如图4所示,所述获取单元31包括:
指标获取模块311,用于获取每个子业务组的压力测试指标以及每个压力测试指标对应的指标极限值;
终止模块312,用于切割用户请求到所述业务集群后对业务集群进行压力测试,在任意一个子业务组中的任意一种压力测试指标的当前指标值等于对应的指标极限值时,终止压力测试;
确定模块313,用于计算所有当前指标值的极限趋近率,将每个子业务组中最大的极限趋近率确定为对应子业务组的容量占用率,所述极限趋近率为压力测试指标的当前指标值与其对应的指标极限值的比。
进一步的,如4所示,所述计算单元32包括:
乘积计算模块321,用于分别计算每个子业务组的资源量与容量占用率的乘积,得到多个乘积结果;
商值计算模块322,用于分别计算每个乘积结果与所述目标容量占用率的商值,得到多个商值结果;
取整模块323,用于对所述多个商值结果分别进行取整,得到每个子业务组对应的优化资源量。
进一步的,如4所示,所述监控单元34包括:
资源量获取模块341,用于每隔预设时段获取优化后业务集群中各子业务组的实时资源量;
匹配模块342,用于将所述实时资源量分别与对应的优化资源量进行匹配;
所述生成单元35用于:
若匹配失败,则生成告警信息。
进一步的,如4所示,所述装置还包括:
输出单元36,用于所述告警信息包括告警短信和/或告警邮件和/或告警语音信息,若所述告警信息为告警短信,则根据运维人员的联系信息将所述告警短信输出;
所述输出单元36,还用于若所述告警信息为告警邮件,则根据运维人员的联系信息将所述告警邮件输出;
所述输出单元36,还用于若所述告警信息为告警语音信息,则根据运维人员的联系信息将所述告警语音信息输出。
具体的,本申请实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种集群监控的方法,其特征在于,包括:
获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率,所述资源量为服务器的数量;
根据目标容量占用率计算各子业务组的优化资源量,所述目标容量占用率为预设的优化容量占用率;
根据所述优化资源量对所述业务集群进行优化;
监控优化后的业务集群中各子业务组的资源量的变化;
若发生变化,则生成告警信息。
2.根据权利要求1所述的集群监控的方法,其特征在于,所述获取业务集群压力测试后包含的各子业务组的容量占用率包括:
获取每个子业务组的压力测试指标以及每个压力测试指标对应的指标极限值;
切割用户请求到所述业务集群后对业务集群进行压力测试,在任意一个子业务组中的任意一种压力测试指标的当前指标值等于对应的指标极限值时,终止压力测试;
计算所有当前指标值的极限趋近率,将每个子业务组中最大的极限趋近率确定为对应子业务组的容量占用率,所述极限趋近率为压力测试指标的当前指标值与其对应的指标极限值的比。
3.根据权利要求1或2所述的集群监控的方法,其特征在于,所述根据目标容量占用率计算各子业务组的优化资源量包括:
分别计算每个子业务组的资源量与容量占用率的乘积,得到多个乘积结果;
分别计算每个乘积结果与所述目标容量占用率的商值,得到多个商值结果;
对所述多个商值结果分别进行取整,得到每个子业务组对应的优化资源量。
4.根据权利要求3所述的集群监控的方法,其特征在于,所述监控优化后的业务集群中各子业务组的资源量的变化,包括:
每隔预设时段获取优化后业务集群中各子业务组的实时资源量;
将所述实时资源量分别与对应的优化资源量进行匹配;
所述若发生变化,则生成告警信息包括:
若匹配失败,则生成告警信息。
5.根据权利要求4所述的集群监控的方法,其特征在于,所述告警信息包括告警短信和/或告警邮件和/或告警语音信息,所述方法还包括:
若所述告警信息为告警短信,则根据运维人员的联系信息将所述告警短信输出;
若所述告警信息为告警邮件,则根据运维人员的联系信息将所述告警邮件输出;
若所述告警信息为告警语音信息,则根据运维人员的联系信息将所述告警语音信息输出。
6.一种集群监控的装置,其特征在于,包括:
获取单元,用于获取业务集群压力测试后包含的各子业务组的资源量以及容量占用率,所述资源量为服务器的数量;
计算单元,用于根据目标容量占用率计算各子业务组的优化资源量,所述目标容量占用率为预设的优化容量占用率;
优化单元,用于根据所述优化资源量对所述业务集群进行优化;
监控单元,用于监控优化后的业务集群中各子业务组的资源量的变化;
生成单元,用于若发生变化,则生成告警信息。
7.根据权利要求6所述的集群监控的装置,其特征在于,所述获取单元包括:
指标获取模块,用于获取每个子业务组的压力测试指标以及每个压力测试指标对应的指标极限值;
终止模块,用于切割用户请求到所述业务集群后对业务集群进行压力测试,在任意一个子业务组中的任意一种压力测试指标的当前指标值等于对应的指标极限值时,终止压力测试;
确定模块,用于计算所有当前指标值的极限趋近率,将每个子业务组中最大的极限趋近率确定为对应子业务组的容量占用率,所述极限趋近率为压力测试指标的当前指标值与其对应的指标极限值的比。
8.根据权利要求6或7所述的集群监控的装置,其特征在于,所述计算单元包括:
乘积计算模块,用于分别计算每个子业务组的资源量与容量占用率的乘积,得到多个乘积结果;
商值计算模块,用于分别计算每个乘积结果与所述目标容量占用率的商值,得到多个商值结果;
取整模块,用于对所述多个商值结果分别进行取整,得到每个子业务组对应的优化资源量。
9.根据权利要求8所述的集群监控的装置,其特征在于,所述监控单元包括:
资源量获取模块,用于每隔预设时段获取优化后业务集群中各子业务组的实时资源量;
匹配模块,用于将所述实时资源量分别与对应的优化资源量进行匹配;
所述生成单元用于:
若匹配失败,则生成告警信息。
10.根据权利要求9所述的集群监控的装置,其特征在于,所述装置还包括:
输出单元,用于所述告警信息包括告警短信和/或告警邮件和/或告警语音信息,若所述告警信息为告警短信,则根据运维人员的联系信息将所述告警短信输出;
所述输出单元,还用于若所述告警信息为告警邮件,则根据运维人员的联系信息将所述告警邮件输出;
所述输出单元,还用于若所述告警信息为告警语音信息,则根据运维人员的联系信息将所述告警语音信息输出。
CN201910306440.2A 2019-04-16 2019-04-16 集群监控的方法及装置 Withdrawn CN110083512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910306440.2A CN110083512A (zh) 2019-04-16 2019-04-16 集群监控的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910306440.2A CN110083512A (zh) 2019-04-16 2019-04-16 集群监控的方法及装置

Publications (1)

Publication Number Publication Date
CN110083512A true CN110083512A (zh) 2019-08-02

Family

ID=67415351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910306440.2A Withdrawn CN110083512A (zh) 2019-04-16 2019-04-16 集群监控的方法及装置

Country Status (1)

Country Link
CN (1) CN110083512A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554920A (zh) * 2019-08-27 2019-12-10 上海易点时空网络有限公司 处理容量不健康模块的方法以及装置
CN112783745A (zh) * 2021-02-02 2021-05-11 无锡车联天下信息技术有限公司 一种集群数据的监控方法、装置、***及存储介质
CN114051000A (zh) * 2021-11-17 2022-02-15 中国工商银行股份有限公司 基于时间序列模型的业务流量切流方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554920A (zh) * 2019-08-27 2019-12-10 上海易点时空网络有限公司 处理容量不健康模块的方法以及装置
CN112783745A (zh) * 2021-02-02 2021-05-11 无锡车联天下信息技术有限公司 一种集群数据的监控方法、装置、***及存储介质
CN114051000A (zh) * 2021-11-17 2022-02-15 中国工商银行股份有限公司 基于时间序列模型的业务流量切流方法及装置

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN111193605B (zh) 一种故障定位方法、装置及存储介质
CN110083512A (zh) 集群监控的方法及装置
CN104834602B (zh) 一种程序发布方法、装置和程序发布***
CN108737132B (zh) 一种告警信息处理方法及装置
CN111626443A (zh) 电力设备的运维方法、***、装置、设备和存储介质
CN111832943B (zh) 硬件设备故障管理方法、装置、电子设备及存储介质
CN106787182B (zh) 配电故障处理方法及***
CN112115026A (zh) 服务器集群监控方法、装置、电子设备及可读存储介质
CN105099763A (zh) 设备掉线提醒方法和装置
CN110728498A (zh) 一种信息交互方法和装置
CN111090666A (zh) 一种数据处理方法、装置、***及计算机可读存储介质
CN113238930A (zh) 软件***的测试方法、装置、终端设备和存储介质
CN114968710A (zh) 一种基于分布式架构的单元监控方法及装置
CN115858311A (zh) 运维监控的方法、装置、电子设备及可读存储介质
US11734057B2 (en) Method and apparatus for processing a service of an abnormal server
CN113849356A (zh) 一种设备测试方法、装置、电子设备和存储介质
CN113360321A (zh) 微服务重试调用方法、装置、电子设备及存储介质
CN109274533B (zh) 一种基于规则引擎的Web服务故障的定位装置和方法
CN111222896A (zh) 客诉问题处理方法、装置、设备及存储介质
CN113672497B (zh) 无埋点事件的生成方法、装置、设备及存储介质
CN109558152A (zh) ***灰度发布时流量切换方法、装置、介质及电子设备
CN113537519B (zh) 一种识别异常设备的方法和装置
CN113760874A (zh) 数据质量检测的方法、装置、电子设备和存储介质
CN106547679B (zh) 脚本管理的方法和脚本管理平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190802

WW01 Invention patent application withdrawn after publication