CN106533792A

CN106533792A - 一种监控和配置资源的方法及装置

Info

Publication number: CN106533792A
Application number: CN201611140737.9A
Authority: CN
Inventors: 张侠
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-03-22

Abstract

本发明实施例公开了一种监控和配置资源的方法及装置。该方法包括：Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整；对历史数据和处理方法形成知识库，方便更新监控模式，并可以依据知识库处理遇到的问题。

Description

一种监控和配置资源的方法及装置

技术领域

本发明实施例涉及大数据中集群的监控和报警以及作业调优领域，尤其涉及一种监控和配置资源的方法及装置。

背景技术

在大数据处理领域，随着数据中心的数据和服务器的增加，对数据和资源的监控、利用有了更高的要求。由于集群规模的增大和程序在利用资源方面要求的增高，能够实时监控集群状态并因此做出针对于集群和运行作业的及时反馈，在很大程度上影响着整个大数据平台的整体功能和作业效率。

监控集群中的节点是集群管理的一个重要组成部分，即跟踪节点的状态。Ganglia是一个用来监控集群中节点的应用程序，广泛应用于各大互联网公司的大数据平台和云平台之上。

对于***管理者来说，网络监控***的意义和作用主要在于以下两点：一个是可以及时的关注到服务器的一些异常情况，并根据预设值的阀值进行警告，比如磁盘空间不足，cpu和内存利用率异常增高，运行的进程突然增多，以及运行的作业速度和之前对比明显缓慢，运行作业的某个阶段占用内存异常并导致作业多次运行失败，某个节点宕机或者集群出现大面积宕机情况；还有一个是在较为复杂的应用环境中出现问题时，比如网络中断、应用程序出错、***崩溃等情况发生时，面对服务器和应用程序，可以根据监控***给出的警告快速DXXW到问题所在，为排除故障赢得时间。

部分关键业务***已经在实际生产活动中部署了监控程序，但是存在以下局限性：

所能监控的程序项目有限，局限于cpu负载，内存使用，磁盘空间等项目；监控局限性，不能推广到其他***并进行监控数据的整合；***限性，需要能够直接探测到其他应用的服务端口和远程读取简单网络管理协议(Simple Network Management Protocol，SNMP)等***信息，这对于网络安全性要求较高的业务上有挑战性。

Nagios可以实现对网络上的服务器进行全面的监控，包括服务器上运行的服务(Apache、MySQL、FTP、DNS和hadoop，Hbase，Solr等)的状态和服务器***资源的状态。

大数据应用平台业务***的数量在不断地增加，相互之间的融合和交互日渐增多，应用架构体系之间出现的问题概率也随之增大，通过自动化监控和反馈***，能够实时查看平台应用和服务的状态，在运行作业时发现***性能的瓶颈，并自动处理或者警告，保证整个平台***高效、可靠地运转，减轻检测和***管理人员的工作强度，提高工作效率，优化程序设计结构，并减少因故障带来的损失。

作业调度***是管理集群和管理运行作业的重要组成部分，在大数据平台应用中有很多作业调度***，比如hadoop和spark的DAG(Database Availability Group)调度，Oozie的Workflow调度，但是如何能将调度***和资源监控***结合起来是各个公司着重解决的问题。此外，大数据平台的监控***在具体的实际生产应用时，如果能将监控数据和实时运行作业数据结合起来，并据此评分反馈给相应的程序工程师和管理者，并将反馈时集群的状态信息和作业信息保存日志记录下来，作为知识库，以供将来参考。***工程师也可以据此数据对于现有集群的状态有更深入了解，并为将来集群扩容做好数据准备。

开源(和商业)监视软件有俩个主要的问题如下：

(1)没有任何工具可以监视所需的一切内容；

(2)需要让这些工具完全适应不同的自定义工作。

发明内容

本发明实施例的目的在于提出一种监控和配置资源的方法及装置，如何在保证监控资源和作业的同时，又能根据监控情况，来达到优化集群资源利用，程序性能优化并能及时报警达到止损危害的目的。

为达此目的，本发明实施例采用以下技术方案：

第一方面，一种监控和配置资源的方法，所述方法包括：

Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；

Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；

所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。

优选地，所述Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前，还包括：

通过主机管理对被监控设备进行添加、修改、删除和查询操作，所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式，所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。

优选地，所述Ganglia动态收集不同功能集群的信息，包括：

所述Ganglia监控集群中节点的的cpu和内存信息，根据oozie的workflow中的不同job以及对应的运行状态，判断程序在运行过程中的资源占用情况，在getmad配置文件中配置所需要的心跳频率；

若在不同功能集群上运行的作业超过预设作业数量阈值，所述Ganglia根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况，制定程序中的优化策略。

优选地，所述Ganglia动态收集不同功能集群的信息，包括：

获取所述被监控设备对应的类型，并通过所述类型查找出所对应的服务，再以列表的形式显示出所述被监控设备可监控到的服务。

优选地，所述在资源监控***中对各个节点信息进行评分，包括：

在每个监测周期统计相应周期内的数据，对不同时间段内的数据进行抽样，并得到统计样本的最值、均值、标准差。

优选地，所述对不同时间段内的数据进行抽样，包括：

先选择一个参考时间t₁，根据p_i＝w_i/u_i获取所述时间t_i内产生的数据Vi，所述数据Vi的权重为:w_i＝f(t_i-t₁)，f为单调不减的函数；所述w_i＝e^a(ti-t1)，a>0；u_i为0到1之间的随机数。

第二方面，一种监控和配置资源的装置，所述装置包括：

收集模块，用于动态收集不同功能集群的信息；

评分模块，用于在资源监控***中对各个节点信息进行评分；

第一记录模块，用于周期性的记录到日志中；

第二记录模块，用于在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；

分配模块，用于根据所述资源反馈***的评分对任务和资源进行优化和重新分配。

优选地，所述装置还包括：

处理模块，用于在所述Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前，通过主机管理对被监控设备进行添加、修改、删除和查询操作，所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式，所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。

优选地，所述收集模块，具体用于：

监控集群中节点的的cpu和内存信息，根据oozie的workflow中的不同job以及对应的运行状态，判断程序在运行过程中的资源占用情况，在getmad配置文件中配置所需要的心跳频率；若在不同功能集群上运行的作业超过预设作业数量阈值，根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况，制定程序中的优化策略；

所述收集模块，还具体用于：：

优选地，所述评分模块，具体用于：在每个监测周期统计相应周期内的数据，对不同时间段内的数据进行抽样，并得到统计样本的最值、均值、标准差；

所述评分模块，还具体用于：

本发明实施例提供的一种监控和配置资源的方法及装置，Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整；对历史数据和处理方法形成知识库，方便更新监控模式，并可以依据知识库处理遇到的问题。

附图说明

图1是本发明实施例提供的一种监控和配置资源的方法的流程示意图；

图2是本发明实施例提供的一种ganglia的数据流图的流程示意图；

图3是本发明实施例提供的一种Nagios性能处理架构示意图；

图4是本发明实施例提供的一种集群架构示意图；

图5是本发明实施例提供的一种监控和配置资源的方法的流程示意图；

图6是本发明实施例提供的一种监控配置功能的流程示意图；

图7是本发明实施例提供的一种监控和配置资源的装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

参考图1，图1是本发明实施例提供的一种监控和配置资源的方法的流程示意图。

如图1所示，所述监控和配置资源的方法包括：

步骤101，Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；

如图2所示，其中Ganglia监控***包括三个主要部分：gmond、gmetad和ganglia-web。他们之间通过XDL(xml的压缩格式)或者XML格式传递监控数据，达到监控效果。集群内的节点，通过运行gmond收集发布节点状态信息，然后gmetad周期性的轮询gmond收集到的信息，然后存入rrd数据库，通过web服务器可以对其进行查询展示。gmond带来的***负载很少，可以在集群中各台服务器上运行而不会影响用户的性能。由于集群处于网络中，可以通过集群节点的时钟(NTP)设置避免集群节点间的“抖动(Jitter)”。

对于ganglia的二次开发采用SOA模式。

如图3所示，在大数据平台***中使用Nagios进行数据采集，由于采集到的数据格式不符合日常使用和管理，需要通过对Nagios监控产生的性能数据进行解析，解析成符合日常管理规范的数据，并保存到***数据库中，用于数据的展示。

此处性能处理架构的设计思路是通过socket方式将Nagios采集到的性能数据发送至自主研发的中间件程序，然后该程序进行解析处理，在形成统一的格式后，再统一发送至***数据库。

在性能数据解析程序时，需要在Nagios的服务定义里面开启处理性能数据选项，否则会没有性能数据输出。在命令文件里定义处理性能数据命令：

其中192.168.251.60为实验中Nagios服务短的IP。对于开发方法，此处采用Socket方式实现，生成jar包并注册成服务，方法如下：

(1)判断性能数据，如果为null则报错并提示，找到次资源相关组件和指标，修改指标为1。

(2)通过正则表达式将性能数组分割得到相应的数组。

(3)循环数组中每个元素，用等号分割，等号左边为指标名，等号右边再用分号分割，取第一个元素，为指标的值。

(4)查询监控实例是否在数据库中。如果不在则不进行处理，如果存在则进行下步处理。

(5)通过服务名称，指标名称查询该指标是否存在数据库中，如果不存在则增加新的警告类型。

(6)将指标值存入数据库。

优选地，所述Ganglia动态收集不同功能集群的信息，包括：

所述对不同时间段内的数据进行抽样，包括：

步骤102，Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；

步骤103，所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。

具体的，如图4所示，在软硬件方面为集群环境，不同的集群可以组成不同的组，如hadoop组，solr组，spark组等，集群中通用为Linux***，此设计实验时为CentOs6.4***。在大数据平台即生产***中为不同的功能集群组件，由于组件的底层存储为hadoop的HDFS，所以需要在配置hadoop的metrics，从而使ganglia和nagios的功能插件能够和集群关联。Ganglia动态收集不同功能集群的信息，在资源监控***中，对各个节点信息进行评分并周期性的记录到日志中，可以在今后查看相应的记录并根据历史数据对业务进行调整。在资源报警***中，可以设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，通过ganglia传入的数据，nagios做出相应的反应，并记录到相应的日志中。可以设置资源反馈***的评分标准如表1，根据标准来定义警告的行为，并可以根据反馈***的评分对任务和资源进行优化和重新分配。

表1

此处表1中的的评分对象模型为默认的线性关系评分，也可根据实际数据和需要更换其他模型。

本发明实施例提供的一种监控和配置资源的方法，Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整；对历史数据和处理方法形成知识库，方便更新监控模式，并可以依据知识库处理遇到的问题。

参考图5，图5是本发明实施例提供的一种监控和配置资源的方法的流程示意图。

如图5所示，所述监控和配置资源的方法包括：

步骤501，通过主机管理对被监控设备进行添加、修改、删除和查询操作，所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式，所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法；

具体的，如图6所示，监控***的模块设计：

主机和主机组的管理：(1)主机名(2)网络地址(3)监控时段(4)联系人(5)通知时段。

服务和服务组的管理:(1)主机名(2)监控命令(3)监控时段，联系人和通知段通知等。

时间规则管理：(1)名称(2)具体定义的时间段(3)时间段中日期的指定(4)特殊日期(如不需要监控的节假日等)。

通过主机管理来对被监控设备进行添加、修改、删除和查询操作。添加设备支持手动添加，即手动输入设备名称和IP地址；也支持网络拓扑自动发现某网段中所有设备的方式，自动发现需要用户指定网络段，此处默认是服务器所在的网关，然后以ping的方式扫描所有的IP，判断扫描出每个设备的类型，最后再添加到主机表中(res_host)。

通过资源配置来对监控对象实施具体的监控操作。资源配置会首先通过选中设备查出其所对应的类型，进而通过该类型查找出所对应的服务，然后以列表的形式显示出该设备可监控到的服务：在确认后，将确认的服务添加到资源实例列表中，最后将设备和服务实例写入到配置文件中。

步骤502，Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；

步骤503，Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；

步骤504，所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。

在应用展现层面，可以将资源监测的各种应用数据进行汇总和整理，对报警信息和来源进行呈现，并据此对集群的扩容和任务的分配提供参考性的建议，并可以根据需要设置不同的插件，从而得到不同的警告种类。***人员和程序员也可以根据汇集信息结合过去的监控知识,对现在的运行状态进行综合评价，从而进行进一步的资源分配和任务分配，也可以根据作业运行情况查看相应时间段的资源和作业运行情况，如附图6。

在服务应用层面***人员可以根据不同功能集群进行模型设计，主要包括集群的分组，评分***的配置,不同任务和作业的运行评价，以及不同功能集群的预警配置(此处默认的预警方式为短信或email)。程序员可以设置查看相关的作业程序运行状况，并根据一些重要的参数指标如作业阶段运行时间，作业占用cpu核数和内存比率，以及作业高峰的线程数来对作业整体运行指标进行评价，并作为改进程序设计和性能的重要参考。

Ganglia监控集群中节点的的cpu和内存信息，根据oozie的workflow中的不同job以及运行状态，俩者结合判断程序在运行过程中的资源占用情况，在getmad配置文件中配置所需要的心跳频率(一般为30ms)。如果也集群上运行的作业较多，需要根据ganglia反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job运行状况，优化作业进程并调整作业的细节方面，并由此制定程序中的优化策略。

在现在集群的作业运行时，由于计算和IO消耗，使得需要得到查询结果和最终运行结果有时候超过了规定时间，尤其是当spark集群在运行时，对内存消耗较大，有时候会受到到同集群其他job的运行的影响，这时就需要根据反馈信息来优化程序，定点进行进行压缩策略(如snappy和LZO)和串行化(Protobuf或Kryo，Avro)策略，减小资源消耗。

参考图7，图7是本发明实施例提供的一种监控和配置资源的装置的功能模块示意图。

如图7所示，所述装置包括：

收集模块701，用于动态收集不同功能集群的信息；

评分模块702，用于在资源监控***中对各个节点信息进行评分；

第一记录模块703，用于周期性的记录到日志中；

第二记录模块704，用于在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；

分配模块705，用于根据所述资源反馈***的评分对任务和资源进行优化和重新分配。

优选地，所述装置还包括：

优选地，所述收集模块701，具体用于：

所述收集模块701，还具体用于：

优选地，所述评分模块702，具体用于：在每个监测周期统计相应周期内的数据，对不同时间段内的数据进行抽样，并得到统计样本的最值、均值、标准差；

所述评分模块702，还具体用于：

本发明实施例提供的一种监控和配置资源的装置，Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中；Nagios在资源报警***中设置不同级别的警告，并设置不同种类的发送消息的插件并自定义消息内容，获取所述ganglia发送的数据并记录到所述日志中；所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整；对历史数据和处理方法形成知识库，方便更新监控模式，并可以依据知识库处理遇到的问题。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理，而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式，这些方式都将落入本发明实施例的保护范围之内。

Claims

1.一种监控和配置资源的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述Ganglia动态收集不同功能集群的信息，在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述Ganglia动态收集不同功能集群的信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述Ganglia动态收集不同功能集群的信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述在资源监控***中对各个节点信息进行评分，包括：

6.根据权利要求5所述的方法，其特征在于，所述对不同时间段内的数据进行抽样，包括：

先选择一个参考时间t₁，根据p_i＝w_i/u_i获取所述时间t_i内产生的数据V_i，所述数据V_i的权重为:w_i＝f(t_i-t₁)，f为单调不减的函数；所述a>0；u_i为0到1之间的随机数。

7.一种监控和配置资源的装置，其特征在于，所述装置包括：

收集模块，用于动态收集不同功能集群的信息；

评分模块，用于在资源监控***中对各个节点信息进行评分；

第一记录模块，用于周期性的记录到日志中；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7所述的装置，其特征在于，所述收集模块，具体用于：

所述收集模块，还具体用于：：

10.根据权利要求7所述的装置，其特征在于，所述评分模块，具体用于：在每个监测周期统计相应周期内的数据，对不同时间段内的数据进行抽样，并得到统计样本的最值、均值、标准差；

所述评分模块，还具体用于：