CN106533792A - 一种监控和配置资源的方法及装置 - Google Patents

一种监控和配置资源的方法及装置 Download PDF

Info

Publication number
CN106533792A
CN106533792A CN201611140737.9A CN201611140737A CN106533792A CN 106533792 A CN106533792 A CN 106533792A CN 201611140737 A CN201611140737 A CN 201611140737A CN 106533792 A CN106533792 A CN 106533792A
Authority
CN
China
Prior art keywords
resource
monitoring
data
ganglia
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611140737.9A
Other languages
English (en)
Inventor
张侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611140737.9A priority Critical patent/CN106533792A/zh
Publication of CN106533792A publication Critical patent/CN106533792A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种监控和配置资源的方法及装置。该方法包括:Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整;对历史数据和处理方法形成知识库,方便更新监控模式,并可以依据知识库处理遇到的问题。

Description

一种监控和配置资源的方法及装置
技术领域
本发明实施例涉及大数据中集群的监控和报警以及作业调优领域,尤其涉及一种监控和配置资源的方法及装置。
背景技术
在大数据处理领域,随着数据中心的数据和服务器的增加,对数据和资源的监控、利用有了更高的要求。由于集群规模的增大和程序在利用资源方面要求的增高,能够实时监控集群状态并因此做出针对于集群和运行作业的及时反馈,在很大程度上影响着整个大数据平台的整体功能和作业效率。
监控集群中的节点是集群管理的一个重要组成部分,即跟踪节点的状态。Ganglia是一个用来监控集群中节点的应用程序,广泛应用于各大互联网公司的大数据平台和云平台之上。
对于***管理者来说,网络监控***的意义和作用主要在于以下两点:一个是可以及时的关注到服务器的一些异常情况,并根据预设值的阀值进行警告,比如磁盘空间不足,cpu和内存利用率异常增高,运行的进程突然增多,以及运行的作业速度和之前对比明显缓慢,运行作业的某个阶段占用内存异常并导致作业多次运行失败,某个节点宕机或者集群出现大面积宕机情况;还有一个是在较为复杂的应用环境中出现问题时,比如网络中断、应用程序出错、***崩溃等情况发生时,面对服务器和应用程序,可以根据监控***给出的警告快速DXXW到问题所在,为排除故障赢得时间。
部分关键业务***已经在实际生产活动中部署了监控程序,但是存在以下局限性:
所能监控的程序项目有限,局限于cpu负载,内存使用,磁盘空间等项目;监控局限性,不能推广到其他***并进行监控数据的整合;***限性,需要能够直接探测到其他应用的服务端口和远程读取简单网络管理协议(Simple Network Management Protocol,SNMP)等***信息,这对于网络安全性要求较高的业务上有挑战性。
Nagios可以实现对网络上的服务器进行全面的监控,包括服务器上运行的服务(Apache、MySQL、FTP、DNS和hadoop,Hbase,Solr等)的状态和服务器***资源的状态。
大数据应用平台业务***的数量在不断地增加,相互之间的融合和交互日渐增多,应用架构体系之间出现的问题概率也随之增大,通过自动化监控和反馈***,能够实时查看平台应用和服务的状态,在运行作业时发现***性能的瓶颈,并自动处理或者警告,保证整个平台***高效、可靠地运转,减轻检测和***管理人员的工作强度,提高工作效率,优化程序设计结构,并减少因故障带来的损失。
作业调度***是管理集群和管理运行作业的重要组成部分,在大数据平台应用中有很多作业调度***,比如hadoop和spark的DAG(Database Availability Group)调度,Oozie的Workflow调度,但是如何能将调度***和资源监控***结合起来是各个公司着重解决的问题。此外,大数据平台的监控***在具体的实际生产应用时,如果能将监控数据和实时运行作业数据结合起来,并据此评分反馈给相应的程序工程师和管理者,并将反馈时集群的状态信息和作业信息保存日志记录下来,作为知识库,以供将来参考。***工程师也可以据此数据对于现有集群的状态有更深入了解,并为将来集群扩容做好数据准备。
开源(和商业)监视软件有俩个主要的问题如下:
(1)没有任何工具可以监视所需的一切内容;
(2)需要让这些工具完全适应不同的自定义工作。
发明内容
本发明实施例的目的在于提出一种监控和配置资源的方法及装置,如何在保证监控资源和作业的同时,又能根据监控情况,来达到优化集群资源利用,程序性能优化并能及时报警达到止损危害的目的。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种监控和配置资源的方法,所述方法包括:
Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;
Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
优选地,所述Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前,还包括:
通过主机管理对被监控设备进行添加、修改、删除和查询操作,所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式,所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。
优选地,所述Ganglia动态收集不同功能集群的信息,包括:
所述Ganglia监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及对应的运行状态,判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率;
若在不同功能集群上运行的作业超过预设作业数量阈值,所述Ganglia根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况,制定程序中的优化策略。
优选地,所述Ganglia动态收集不同功能集群的信息,包括:
获取所述被监控设备对应的类型,并通过所述类型查找出所对应的服务,再以列表的形式显示出所述被监控设备可监控到的服务。
优选地,所述在资源监控***中对各个节点信息进行评分,包括:
在每个监测周期统计相应周期内的数据,对不同时间段内的数据进行抽样,并得到统计样本的最值、均值、标准差。
优选地,所述对不同时间段内的数据进行抽样,包括:
先选择一个参考时间t1,根据pi=wi/ui获取所述时间ti内产生的数据Vi,所述数据Vi的权重为:wi=f(ti-t1),f为单调不减的函数;所述wi=ea(ti-t1),a>0;ui为0到1之间的随机数。
第二方面,一种监控和配置资源的装置,所述装置包括:
收集模块,用于动态收集不同功能集群的信息;
评分模块,用于在资源监控***中对各个节点信息进行评分;
第一记录模块,用于周期性的记录到日志中;
第二记录模块,用于在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
分配模块,用于根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
优选地,所述装置还包括:
处理模块,用于在所述Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前,通过主机管理对被监控设备进行添加、修改、删除和查询操作,所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式,所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。
优选地,所述收集模块,具体用于:
监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及对应的运行状态,判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率;若在不同功能集群上运行的作业超过预设作业数量阈值,根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况,制定程序中的优化策略;
所述收集模块,还具体用于::
获取所述被监控设备对应的类型,并通过所述类型查找出所对应的服务,再以列表的形式显示出所述被监控设备可监控到的服务。
优选地,所述评分模块,具体用于:在每个监测周期统计相应周期内的数据,对不同时间段内的数据进行抽样,并得到统计样本的最值、均值、标准差;
所述评分模块,还具体用于:
先选择一个参考时间t1,根据pi=wi/ui获取所述时间ti内产生的数据Vi,所述数据Vi的权重为:wi=f(ti-t1),f为单调不减的函数;所述wi=ea(ti-t1),a>0;ui为0到1之间的随机数。
本发明实施例提供的一种监控和配置资源的方法及装置,Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整;对历史数据和处理方法形成知识库,方便更新监控模式,并可以依据知识库处理遇到的问题。
附图说明
图1是本发明实施例提供的一种监控和配置资源的方法的流程示意图;
图2是本发明实施例提供的一种ganglia的数据流图的流程示意图;
图3是本发明实施例提供的一种Nagios性能处理架构示意图;
图4是本发明实施例提供的一种集群架构示意图;
图5是本发明实施例提供的一种监控和配置资源的方法的流程示意图;
图6是本发明实施例提供的一种监控配置功能的流程示意图;
图7是本发明实施例提供的一种监控和配置资源的装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
参考图1,图1是本发明实施例提供的一种监控和配置资源的方法的流程示意图。
如图1所示,所述监控和配置资源的方法包括:
步骤101,Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;
如图2所示,其中Ganglia监控***包括三个主要部分:gmond、gmetad和ganglia-web。他们之间通过XDL(xml的压缩格式)或者XML格式传递监控数据,达到监控效果。集群内的节点,通过运行gmond收集发布节点状态信息,然后gmetad周期性的轮询gmond收集到的信息,然后存入rrd数据库,通过web服务器可以对其进行查询展示。gmond带来的***负载很少,可以在集群中各台服务器上运行而不会影响用户的性能。由于集群处于网络中,可以通过集群节点的时钟(NTP)设置避免集群节点间的“抖动(Jitter)”。
对于ganglia的二次开发采用SOA模式。
如图3所示,在大数据平台***中使用Nagios进行数据采集,由于采集到的数据格式不符合日常使用和管理,需要通过对Nagios监控产生的性能数据进行解析,解析成符合日常管理规范的数据,并保存到***数据库中,用于数据的展示。
此处性能处理架构的设计思路是通过socket方式将Nagios采集到的性能数据发送至自主研发的中间件程序,然后该程序进行解析处理,在形成统一的格式后,再统一发送至***数据库。
在性能数据解析程序时,需要在Nagios的服务定义里面开启处理性能数据选项,否则会没有性能数据输出。在命令文件里定义处理性能数据命令:
其中192.168.251.60为实验中Nagios服务短的IP。对于开发方法,此处采用Socket方式实现,生成jar包并注册成服务,方法如下:
(1)判断性能数据,如果为null则报错并提示,找到次资源相关组件和指标,修改指标为1。
(2)通过正则表达式将性能数组分割得到相应的数组。
(3)循环数组中每个元素,用等号分割,等号左边为指标名,等号右边再用分号分割,取第一个元素,为指标的值。
(4)查询监控实例是否在数据库中。如果不在则不进行处理,如果存在则进行下步处理。
(5)通过服务名称,指标名称查询该指标是否存在数据库中,如果不存在则增加新的警告类型。
(6)将指标值存入数据库。
优选地,所述Ganglia动态收集不同功能集群的信息,包括:
所述Ganglia监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及对应的运行状态,判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率;
若在不同功能集群上运行的作业超过预设作业数量阈值,所述Ganglia根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况,制定程序中的优化策略。
优选地,所述Ganglia动态收集不同功能集群的信息,包括:
获取所述被监控设备对应的类型,并通过所述类型查找出所对应的服务,再以列表的形式显示出所述被监控设备可监控到的服务。
优选地,所述在资源监控***中对各个节点信息进行评分,包括:
在每个监测周期统计相应周期内的数据,对不同时间段内的数据进行抽样,并得到统计样本的最值、均值、标准差。
所述对不同时间段内的数据进行抽样,包括:
先选择一个参考时间t1,根据pi=wi/ui获取所述时间ti内产生的数据Vi,所述数据Vi的权重为:wi=f(ti-t1),f为单调不减的函数;所述wi=ea(ti-t1),a>0;ui为0到1之间的随机数。
步骤102,Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
步骤103,所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
具体的,如图4所示,在软硬件方面为集群环境,不同的集群可以组成不同的组,如hadoop组,solr组,spark组等,集群中通用为Linux***,此设计实验时为CentOs6.4***。在大数据平台即生产***中为不同的功能集群组件,由于组件的底层存储为hadoop的HDFS,所以需要在配置hadoop的metrics,从而使ganglia和nagios的功能插件能够和集群关联。Ganglia动态收集不同功能集群的信息,在资源监控***中,对各个节点信息进行评分并周期性的记录到日志中,可以在今后查看相应的记录并根据历史数据对业务进行调整。在资源报警***中,可以设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,通过ganglia传入的数据,nagios做出相应的反应,并记录到相应的日志中。可以设置资源反馈***的评分标准如表1,根据标准来定义警告的行为,并可以根据反馈***的评分对任务和资源进行优化和重新分配。
表1
此处表1中的的评分对象模型为默认的线性关系评分,也可根据实际数据和需要更换其他模型。
本发明实施例提供的一种监控和配置资源的方法,Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整;对历史数据和处理方法形成知识库,方便更新监控模式,并可以依据知识库处理遇到的问题。
参考图5,图5是本发明实施例提供的一种监控和配置资源的方法的流程示意图。
如图5所示,所述监控和配置资源的方法包括:
步骤501,通过主机管理对被监控设备进行添加、修改、删除和查询操作,所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式,所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法;
具体的,如图6所示,监控***的模块设计:
主机和主机组的管理:(1)主机名(2)网络地址(3)监控时段(4)联系人(5)通知时段。
服务和服务组的管理:(1)主机名(2)监控命令(3)监控时段,联系人和通知段通知等。
时间规则管理:(1)名称(2)具体定义的时间段(3)时间段中日期的指定(4)特殊日期(如不需要监控的节假日等)。
通过主机管理来对被监控设备进行添加、修改、删除和查询操作。添加设备支持手动添加,即手动输入设备名称和IP地址;也支持网络拓扑自动发现某网段中所有设备的方式,自动发现需要用户指定网络段,此处默认是服务器所在的网关,然后以ping的方式扫描所有的IP,判断扫描出每个设备的类型,最后再添加到主机表中(res_host)。
通过资源配置来对监控对象实施具体的监控操作。资源配置会首先通过选中设备查出其所对应的类型,进而通过该类型查找出所对应的服务,然后以列表的形式显示出该设备可监控到的服务:在确认后,将确认的服务添加到资源实例列表中,最后将设备和服务实例写入到配置文件中。
步骤502,Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;
步骤503,Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
步骤504,所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
在应用展现层面,可以将资源监测的各种应用数据进行汇总和整理,对报警信息和来源进行呈现,并据此对集群的扩容和任务的分配提供参考性的建议,并可以根据需要设置不同的插件,从而得到不同的警告种类。***人员和程序员也可以根据汇集信息结合过去的监控知识,对现在的运行状态进行综合评价,从而进行进一步的资源分配和任务分配,也可以根据作业运行情况查看相应时间段的资源和作业运行情况,如附图6。
在服务应用层面***人员可以根据不同功能集群进行模型设计,主要包括集群的分组,评分***的配置,不同任务和作业的运行评价,以及不同功能集群的预警配置(此处默认的预警方式为短信或email)。程序员可以设置查看相关的作业程序运行状况,并根据一些重要的参数指标如作业阶段运行时间,作业占用cpu核数和内存比率,以及作业高峰的线程数来对作业整体运行指标进行评价,并作为改进程序设计和性能的重要参考。
Ganglia监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及运行状态,俩者结合判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率(一般为30ms)。如果也集群上运行的作业较多,需要根据ganglia反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job运行状况,优化作业进程并调整作业的细节方面,并由此制定程序中的优化策略。
在现在集群的作业运行时,由于计算和IO消耗,使得需要得到查询结果和最终运行结果有时候超过了规定时间,尤其是当spark集群在运行时,对内存消耗较大,有时候会受到到同集群其他job的运行的影响,这时就需要根据反馈信息来优化程序,定点进行进行压缩策略(如snappy和LZO)和串行化(Protobuf或Kryo,Avro)策略,减小资源消耗。
参考图7,图7是本发明实施例提供的一种监控和配置资源的装置的功能模块示意图。
如图7所示,所述装置包括:
收集模块701,用于动态收集不同功能集群的信息;
评分模块702,用于在资源监控***中对各个节点信息进行评分;
第一记录模块703,用于周期性的记录到日志中;
第二记录模块704,用于在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
分配模块705,用于根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
优选地,所述装置还包括:
处理模块,用于在所述Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前,通过主机管理对被监控设备进行添加、修改、删除和查询操作,所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式,所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。
优选地,所述收集模块701,具体用于:
监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及对应的运行状态,判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率;若在不同功能集群上运行的作业超过预设作业数量阈值,根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况,制定程序中的优化策略;
所述收集模块701,还具体用于:
获取所述被监控设备对应的类型,并通过所述类型查找出所对应的服务,再以列表的形式显示出所述被监控设备可监控到的服务。
优选地,所述评分模块702,具体用于:在每个监测周期统计相应周期内的数据,对不同时间段内的数据进行抽样,并得到统计样本的最值、均值、标准差;
所述评分模块702,还具体用于:
先选择一个参考时间t1,根据pi=wi/ui获取所述时间ti内产生的数据Vi,所述数据Vi的权重为:wi=f(ti-t1),f为单调不减的函数;所述wi=ea(ti-t1),a>0;ui为0到1之间的随机数。
本发明实施例提供的一种监控和配置资源的装置,Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。从而根据量化资源和作业信息对大数据平台运行进行优化和调整;对历史数据和处理方法形成知识库,方便更新监控模式,并可以依据知识库处理遇到的问题。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

Claims (10)

1.一种监控和配置资源的方法,其特征在于,所述方法包括:
Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中;
Nagios在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
所述Nagios根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
2.根据权利要求1所述的方法,其特征在于,所述Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前,还包括:
通过主机管理对被监控设备进行添加、修改、删除和查询操作,所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式,所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。
3.根据权利要求1所述的方法,其特征在于,所述Ganglia动态收集不同功能集群的信息,包括:
所述Ganglia监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及对应的运行状态,判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率;
若在不同功能集群上运行的作业超过预设作业数量阈值,所述Ganglia根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况,制定程序中的优化策略。
4.根据权利要求1所述的方法,其特征在于,所述Ganglia动态收集不同功能集群的信息,包括:
获取所述被监控设备对应的类型,并通过所述类型查找出所对应的服务,再以列表的形式显示出所述被监控设备可监控到的服务。
5.根据权利要求1所述的方法,其特征在于,所述在资源监控***中对各个节点信息进行评分,包括:
在每个监测周期统计相应周期内的数据,对不同时间段内的数据进行抽样,并得到统计样本的最值、均值、标准差。
6.根据权利要求5所述的方法,其特征在于,所述对不同时间段内的数据进行抽样,包括:
先选择一个参考时间t1,根据pi=wi/ui获取所述时间ti内产生的数据Vi,所述数据Vi的权重为:wi=f(ti-t1),f为单调不减的函数;所述a>0;ui为0到1之间的随机数。
7.一种监控和配置资源的装置,其特征在于,所述装置包括:
收集模块,用于动态收集不同功能集群的信息;
评分模块,用于在资源监控***中对各个节点信息进行评分;
第一记录模块,用于周期性的记录到日志中;
第二记录模块,用于在资源报警***中设置不同级别的警告,并设置不同种类的发送消息的插件并自定义消息内容,获取所述ganglia发送的数据并记录到所述日志中;
分配模块,用于根据所述资源反馈***的评分对任务和资源进行优化和重新分配。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
处理模块,用于在所述Ganglia动态收集不同功能集群的信息,在资源监控***中对各个节点信息进行评分并周期性的记录到日志中之前,通过主机管理对被监控设备进行添加、修改、删除和查询操作,所述添加操作包括手动输入和支持网络拓扑自动发现预设网段中所有设备的方式,所述支持网络拓扑自动发现预设网段中所有设备的方法包括自动发现需要用户指定网络段、再以ping的方式扫描所有的IP并判断扫描出每个设备的类型后再添加到主机表中的方法。
9.根据权利要求7所述的装置,其特征在于,所述收集模块,具体用于:
监控集群中节点的的cpu和内存信息,根据oozie的workflow中的不同job以及对应的运行状态,判断程序在运行过程中的资源占用情况,在getmad配置文件中配置所需要的心跳频率;若在不同功能集群上运行的作业超过预设作业数量阈值,根据反馈的占用的资源信息和不同节点的状态结合yarn或者mesos上的job以及对应的运行状况,制定程序中的优化策略;
所述收集模块,还具体用于::
获取所述被监控设备对应的类型,并通过所述类型查找出所对应的服务,再以列表的形式显示出所述被监控设备可监控到的服务。
10.根据权利要求7所述的装置,其特征在于,所述评分模块,具体用于:在每个监测周期统计相应周期内的数据,对不同时间段内的数据进行抽样,并得到统计样本的最值、均值、标准差;
所述评分模块,还具体用于:
先选择一个参考时间t1,根据pi=wi/ui获取所述时间ti内产生的数据Vi,所述数据Vi的权重为:wi=f(ti-t1),f为单调不减的函数;所述a>0;ui为0到1之间的随机数。
CN201611140737.9A 2016-12-12 2016-12-12 一种监控和配置资源的方法及装置 Pending CN106533792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611140737.9A CN106533792A (zh) 2016-12-12 2016-12-12 一种监控和配置资源的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611140737.9A CN106533792A (zh) 2016-12-12 2016-12-12 一种监控和配置资源的方法及装置

Publications (1)

Publication Number Publication Date
CN106533792A true CN106533792A (zh) 2017-03-22

Family

ID=58342011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611140737.9A Pending CN106533792A (zh) 2016-12-12 2016-12-12 一种监控和配置资源的方法及装置

Country Status (1)

Country Link
CN (1) CN106533792A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108243061A (zh) * 2017-10-10 2018-07-03 北京车和家信息技术有限公司 基于Nagios的设备监控方法、装置及计算机设备
CN108616421A (zh) * 2018-04-13 2018-10-02 郑州云海信息技术有限公司 一种多节点集群的状态检测方法、装置及设备
CN108845865A (zh) * 2018-06-28 2018-11-20 郑州云海信息技术有限公司 一种监控服务部署方法、***和存储介质
CN109951313A (zh) * 2019-01-18 2019-06-28 长江大学 一种Hadoop云平台的监控装置及方法
CN110545326A (zh) * 2019-09-10 2019-12-06 杭州数梦工场科技有限公司 集群负载调度方法、装置、电子设备和存储介质
CN110795301A (zh) * 2018-08-01 2020-02-14 马上消费金融股份有限公司 作业监测方法、装置、终端以及计算机存储介质
CN111435319A (zh) * 2019-01-15 2020-07-21 阿里巴巴集团控股有限公司 一种集群的管理方法及装置
CN112241349A (zh) * 2020-10-21 2021-01-19 山东超越数控电子股份有限公司 整机柜服务器自动配置管理网络ip地址的方法及***
CN112291194A (zh) * 2020-09-27 2021-01-29 上海赫千电子科技有限公司 一种基于车载网络中ecu的状态管理方法、装置及智能汽车
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法
CN117749645A (zh) * 2023-11-29 2024-03-22 北京金诺珩科技发展有限公司 一种机房动态ip地址数据采集方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050132041A1 (en) * 2003-12-10 2005-06-16 Ashish Kundu Systems, methods and computer programs for monitoring distributed resources in a data processing environment
CN103905253A (zh) * 2014-04-04 2014-07-02 浪潮电子信息产业股份有限公司 一种基于Nagios和BMC的服务器监控管理方法
CN104092575A (zh) * 2014-07-29 2014-10-08 中国联合网络通信集团有限公司 一种资源监控方法及***
CN105208098A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 云监控***的实现装置和方法
CN105260235A (zh) * 2015-09-23 2016-01-20 浪潮集团有限公司 一种云平台中基于应用场景的资源调度方法及装置
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理***
CN105975378A (zh) * 2016-05-11 2016-09-28 国网江苏省电力公司 一种面向超级计算机的分布式层次化自主监控管理***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050132041A1 (en) * 2003-12-10 2005-06-16 Ashish Kundu Systems, methods and computer programs for monitoring distributed resources in a data processing environment
CN103905253A (zh) * 2014-04-04 2014-07-02 浪潮电子信息产业股份有限公司 一种基于Nagios和BMC的服务器监控管理方法
CN104092575A (zh) * 2014-07-29 2014-10-08 中国联合网络通信集团有限公司 一种资源监控方法及***
CN105208098A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 云监控***的实现装置和方法
CN105260235A (zh) * 2015-09-23 2016-01-20 浪潮集团有限公司 一种云平台中基于应用场景的资源调度方法及装置
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理***
CN105975378A (zh) * 2016-05-11 2016-09-28 国网江苏省电力公司 一种面向超级计算机的分布式层次化自主监控管理***

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108243061A (zh) * 2017-10-10 2018-07-03 北京车和家信息技术有限公司 基于Nagios的设备监控方法、装置及计算机设备
CN108616421A (zh) * 2018-04-13 2018-10-02 郑州云海信息技术有限公司 一种多节点集群的状态检测方法、装置及设备
CN108845865A (zh) * 2018-06-28 2018-11-20 郑州云海信息技术有限公司 一种监控服务部署方法、***和存储介质
CN110795301A (zh) * 2018-08-01 2020-02-14 马上消费金融股份有限公司 作业监测方法、装置、终端以及计算机存储介质
CN111435319A (zh) * 2019-01-15 2020-07-21 阿里巴巴集团控股有限公司 一种集群的管理方法及装置
CN109951313A (zh) * 2019-01-18 2019-06-28 长江大学 一种Hadoop云平台的监控装置及方法
CN109951313B (zh) * 2019-01-18 2022-04-19 长江大学 一种Hadoop云平台的监控装置及方法
CN110545326A (zh) * 2019-09-10 2019-12-06 杭州数梦工场科技有限公司 集群负载调度方法、装置、电子设备和存储介质
CN110545326B (zh) * 2019-09-10 2022-09-16 杭州数梦工场科技有限公司 集群负载调度方法、装置、电子设备和存储介质
CN112291194A (zh) * 2020-09-27 2021-01-29 上海赫千电子科技有限公司 一种基于车载网络中ecu的状态管理方法、装置及智能汽车
CN112291194B (zh) * 2020-09-27 2022-12-13 上海赫千电子科技有限公司 一种基于车载网络中ecu的状态管理方法、装置及智能汽车
CN112241349A (zh) * 2020-10-21 2021-01-19 山东超越数控电子股份有限公司 整机柜服务器自动配置管理网络ip地址的方法及***
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法
CN117749645A (zh) * 2023-11-29 2024-03-22 北京金诺珩科技发展有限公司 一种机房动态ip地址数据采集方法
CN117749645B (zh) * 2023-11-29 2024-06-04 北京金诺珩科技发展有限公司 一种机房动态ip地址数据采集方法

Similar Documents

Publication Publication Date Title
CN106533792A (zh) 一种监控和配置资源的方法及装置
US11677635B2 (en) Hierarchical network analysis service
US10108411B2 (en) Systems and methods of constructing a network topology
US20180129579A1 (en) Systems and Methods with a Realtime Log Analysis Framework
US8428983B2 (en) Facilitating availability of information technology resources based on pattern system environments
CN108197261A (zh) 一种智慧交通操作***
CN106452881B (zh) 一种基于云加端模式的运维数据处理***
US8504733B1 (en) Subtree for an aggregation system
US8769095B2 (en) System and method for dynamically grouping devices based on present device conditions
CN107622084A (zh) 日志管理方法、***以及计算机可读存储介质
US10318333B2 (en) Optimizing allocation of virtual machines in cloud computing environment
US20030140150A1 (en) Self-monitoring service system with reporting of asset changes by time and category
CN104917627B (zh) 一种用于大型服务器集群的日志集群扫描与分析方法
CN102567531B (zh) 一种通用的轻量级数据库状态监控方法
US20190342181A1 (en) Prediction based on time-series data
US20090070425A1 (en) Data processing system, method of updating a configuration file and computer program product
US10466686B2 (en) System and method for automatic configuration of a data collection system and schedule for control system monitoring
CN113179173A (zh) 一种用于高速公路***的运维监控***
US9032518B2 (en) Internet monitoring and alerting system
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理***
CN111125450A (zh) 一种多层拓扑网络资源对象的管理方法
US11477077B1 (en) Change management system with monitoring, alerting, and trending for information technology environment
CN103226572A (zh) 一种基于数据压缩的可扩展的监控方法及***
AT&T Microsoft Word - sigmod_2011_final.doc
CN114168672A (zh) 日志数据的处理方法、装置、***以及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322