CN108874640B - 一种集群性能的评估方法和装置 - Google Patents

一种集群性能的评估方法和装置 Download PDF

Info

Publication number
CN108874640B
CN108874640B CN201810425538.5A CN201810425538A CN108874640B CN 108874640 B CN108874640 B CN 108874640B CN 201810425538 A CN201810425538 A CN 201810425538A CN 108874640 B CN108874640 B CN 108874640B
Authority
CN
China
Prior art keywords
cluster
node
information
evaluation
physical resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810425538.5A
Other languages
English (en)
Other versions
CN108874640A (zh
Inventor
吴怡燃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810425538.5A priority Critical patent/CN108874640B/zh
Publication of CN108874640A publication Critical patent/CN108874640A/zh
Application granted granted Critical
Publication of CN108874640B publication Critical patent/CN108874640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种集群性能的评估方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取集群的服务信息和集群中各个节点的物理资源使用信息;基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值;将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。该实施方式能够通过分析收集的集群的服务信息和节点的物理资源使用信息,可以确定集群的性能健康度,从而有效地评估当前集群的状态,解决了现有技术中缺少有效的评价方式评估当前集群的状态或评分的问题。

Description

一种集群性能的评估方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种集群性能的评估方法和装置。
背景技术
随着业务量和数据量的增长,大数据处理集群规模也随着随之变的越来越大。如何评价一个超大规模集群的性能变的越来越复杂,他的性能受很多因素影响,如:网络,磁盘IO,CPU,业务量,热点数据、热节点等等。在现有技术中,为了能够快速定位和排查集群性能仅仅监控一些常规指标。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.缺少有效的评价方式评估当前集群的状态或评分。
2.利用现有方式在超大规模集群中,无法有效分析每个节点对于集群效率所占的成份,计算节点在整个集群中提供了多少计算能力,难以定位差异性节点。
3.缺少节点服务成份分析,利用现有方式无法有效分析主节点。
4.指标分散无法有效评估集群当前状态,相关人员需要通过查看多个视图,分析多个指标,并根据历史信息评价集群的当前状态,并且不同的人评价指标不同得到的结论也不同,容易造成集群无法有效规避一些问题。
5.缺少自动化分析方式,目前还是人为驱动的方式去分析集群状态,在这种方式下存在信息滞后的问题。
发明内容
有鉴于此,本发明实施例提供一种集群性能的评估方法和装置,能够通过分析收集的集群的服务信息和节点的物理资源使用信息,可以确定集群的性能健康度,从而有效地评估当前集群的状态,解决了现有技术中缺少有效的评价方式评估当前集群的状态或评分的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种集群性能的评估方法,包括:获取集群的服务信息和集群中各个节点的物理资源使用信息;基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值;将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。
可选地,所述集群的性能健康度采用以下方式确定:
Figure BDA0001651966370000021
其中,H表示集群的性能健康度,f(i)表示集群的第i个评价指标信息,w表示评价指标对应的权值,n表示集群的评价指标的数量。
可选地,所述方法还包括:根据节点的物理资源使用信息和集群的服务信息,确定节点的主成分占比;若节点的主成分占比,不在预设范围内,则确定该节点为差异性节点。
可选地,所述方法还包括:根据节点的主成分占比,计算集群中各节点的主成分占比的均方差;若所述均方差超过设定阈值,则所述集群为异常集群。
可选地,确定该节点为差异性节点之后,所述方法还包括:根据所述差异性节点及其主成分占比,确定该差异性节点的问题;根据所述问题,从预先设置的规则库中获取与所述问题对应的答案或优化方式。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种集群性能的评估装置,包括:获取模块、分析模块和评价模块;所述获取模块,用于:获取集群的服务信息和集群中各个节点的物理资源使用信息;所述分析模块,用于:基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值;所述评价模块,用于:将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。
可选地,所述评价模块,用于采用以下方式确定集群的性能健康度:
Figure BDA0001651966370000031
其中,H表示集群的性能健康度,f(i)表示集群的第i个评价指标信息,w表示评价指标对应的权值,n表示集群的评价指标的数量。
可选地,所述分析模块,还用于:根据节点的物理资源使用信息和集群的服务信息,确定节点的主成分占比;若节点的主成分占比,不在预设范围内,则确定该节点为差异性节点。
可选地,所述分析模块,还用于:根据节点的主成分占比,计算集群中各节点的主成分占比的均方差;若所述均方差超过设定阈值,则所述集群为异常集群。
可选地,所述分析模块,还用于:根据所述差异性节点及其主成分占比,确定该差异性节点的问题;根据所述问题,从预先设置的规则库中获取与所述问题对应的答案或优化方式。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的一种集群性能的评估方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的一种集群性能的评估方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例通过分析收集的集群的服务信息和节点的物理资源使用信息,可以确定集群的性能健康度,从而有效地评估当前集群的状态,解决了现有技术中缺少有效的评价方式评估当前集群的状态或评分的问题,同时可以自动化分析集群状态,解决了信息滞后的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的集群性能的评估方法的基本流程的示意图;
图2是根据本发明实施例的Hadoop集群的ResourceManager和NameNode主节点的评分情况示意图;
图3是根据本发明实施例的集群性能的评估装置的基本模块的示意图;
图4是根据本发明实施例的Hadoop集群性能的评估装置的优化模块的示意图;
图5是本发明实施例的实时指标分析流程示意图;
图6是本发明实施例的生成报告流程示意图;
图7是本发明实施例可以应用于其中的示例性***架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在现有技术中,通常是在每个节点安装Open Falcon Agent以收集节点上的物理资源使用信息,并汇报到监控服务器上。OpenFalcon Agent是指部署在计算节点上的一个收集器(OpenFalcon监控***的一个组件)。主要收集的信息如:CPU、内存、网络等设备的使用率。物理资源信息是指计算节点的指标,如:单个计算节点CPU资源使用率、单个计算节点内存使用率、单个计算节点交换区、单个计算节点的网络利用率、单个计算节点的端口打开数、单个计算节点的磁盘利用率、单个计算节点的磁盘繁忙度及其他一些***性指标。
监控服务器定期从计算节点上收集Hadoop服务信息,这些服务主要有DataNode、NodeManager、NameNode、ResourceManager。收集的信息如:JVM信息,操作次数、请求次数、请求时间、Job运行时间、Job成功个数、Job失败个数等。ResourceManager是Hadoop集群的资源管理服务,应用程序可以向他请求资源使用。DataNode是Hadoop集群中的一个组件,负责分布式数据的存储,一个集群中会有一到多个。NodeManager是Hadoop集群中的一个组件,负责管理一台计算节点,根据主节点分配的任务启动相应的计算,一个集群中会有一到多个NodeManager。NameNode是指Hadoop分布式***中的一个组件,主要功能包括管理元数据、维护目录树和响应客户请求。服务信息是指Hadoop组件的资源使用信息,如:单个Hadoop进程的CPU使用信息、单个Hadoop进程的内存使用信息、单个Hadoop进程的线程信息、单个Hadoop进程的描述信息、单个Hadoop进程运行的描述信息(如:通讯心跳信息、吞吐量、平均作业量、请求量、请求时间等),针对不同的组件有不同的指标信息、调度器监控、存储监控、数据访问量信息。
前端分析***根据收集的信息,以时序图的方式显示各个指标,支持按分、按小时、按天,按月进行展示。
图1是根据本发明实施例的集群性能的评估方法的基本流程的示意图。如图1所示,本发明实施例提供了一种集群性能的评估方法,包括:
步骤S101.获取集群的服务信息和集群中各个节点的物理资源使用信息;
步骤S102.基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值;
步骤S103.将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。
本发明实施例的集群评价指标可以包括但不限于:整集群级别Container吞吐量(每秒启动量,释放量)、作业运行吞吐量、作业失败率、整集群文件访问频率、整集群文件修改频率、单个作业文件访问频率、单个作业创建文件数、单个作业Container平均运行时间、单个节点Container吞吐量、单个节点事件处理量。服务信息包含服务本身的健康信息、服务的物理资源使用量信息、服务的处理能力信息(各类服务指标)。本发明实施例通过分析收集的集群的服务信息和节点的物理资源使用信息,可以确定集群的性能健康度,从而有效地评估当前集群的状态,解决了现有技术中缺少有效的评价方式评估当前集群的状态或评分的问题,同时可以自动化分析集群状态,解决了信息滞后的问题。
本发明实施例中,所述集群的性能健康度采用以下方式确定:
Figure BDA0001651966370000071
其中,H表示集群的性能健康度,f(i)表示集群的第i个评价指标信息,w表示评价指标对应的权值,n表示集群的评价指标的数量。本发明实施例的健康度计算方式,能够使当前集群的状态结果更加准确。
本发明实施例中,所述方法还包括:根据节点的物理资源使用信息和集群的服务信息,确定节点的主成分占比;若节点的主成分占比,不在预设范围内,则确定该节点为差异性节点。其中,节点的主成分占比不在预设范围内是指,节点的主成分占比高于预设范围的最大值或低于预设范围的最小值。节点的主成分占比可以指单位时间内节点处理的事件量占整个集群事件的比例。如:集群有10个节点,1小时内处理了10000个A类消息,每个节点处理了1000个A消息。X节点A类消息成份占比=处理的A类消息量/集群A类消息量总数。本发明实施例可以根据运维经验确定预设范围,将各个指标加以量化。如:单节点处理能力(即节点的主成分占比)必须在预设范围内才也算正常。可以有效分析每个节点对于集群效率所占的成份,计算节点在整个集群中提供的计算能力,解决了现有技术中缺少节点服务成份分析,无法有效分析主节点的问题,进而实现快速定位差异性节点的有益效果。
本发明实施例中,所述方法还包括:根据节点的主成分占比,计算集群中各节点的主成分占比的均方差;若所述均方差超过设定阈值,则所述集群为异常集群。本发明实施例通过计算各个节点成份占比的均方差,以确定异常集群,可以实时有效监控集群的工作状态,查找出工作异常的集群。
本发明实施例中,确定该节点为差异性节点之后,所述方法还包括:根据所述差异性节点及其主成分占比,确定该差异性节点的问题;根据所述问题,从预先设置的规则库中获取与所述问题对应的答案或优化方式。本发明实施例在快速定位差异性节点之后可以确定并展示差异性节点目前存在的问题,根据事先录入到库中的规则(即问题与答案的映射),显示对应的答案和优化方法。
以Hadoop集群为例,图2是根据本发明实施例的Hadoop集群的ResourceManager和NameNode主节点的评分情况示意图。如图2所示,饼图是由各个组件主要关键指标构成。Resource的饼图由与作业相关的事件组成,如容器的释放,容器的失败,容器的分配等。NameNode的饼图主要由于文件操作相关的事件组成,如:创建,删除,修改,追加等。图2中的信息如下:
饼图,饼图代表的是集群的关键指标。左边的饼图代表从当天开始累加的作业事件类型的占比。其主要内容为:当天容器成功数、当天容器失败数、当天容器取消数、当天正在运行的容器数;整个饼图是当天作业运行量(实时的)。
右边的饼图代表从当天开始累加的存储资源使用占比,主要内容为:当天集群新增的业务有效目标文件数、当天集群新增的业务临时数据文件数、当天集群新增加分布式***临时文件数、当天集群删除的文件数据;整个饼图代表当天总共操作的文件数。
“70分”下的数据代表集群的计算资源量,描述了集群当前资源利用状态。其中,VCore总量:代表集群总共的CPU数量,VCores剩余量:代表集群剩余可供分配的资源量,内存总量:代表集群总共的内存资源量,内存剩余:代表集群当前剩余可供分配的内存资源量。
“80分”下的数据代表当前集群存储的内容。其中,文件数:代表集群总共存储了多少个文件,文件夹:代表集群总共有多少个文件夹,总存储:代表集群总的存储能力,剩余存储:代表剩余可供分配的存储。
“成分内容”中的各项指标值是实时的,每次刷新都是集群的最新状态。其中,左边一列:ContainerAllocate代表集群当天总共分配了多少个容器,ContainerFailed代表集群当天失败了多少个容器,FinishedApplication代表集群当天完成了多少作业,RunningApplication代表当前正在运行的作业个数,FailedApplication代表集群当天失败了多少作业,KillApplication代表当天被取消执行的作业量,NodeNumber代表集群中总共的计算节点数,DeadNode代表集群中丢失的计算节点数。右边一列:CreateNewFileNumber代表当天创建的文件总数,DeleteFileNumber代表当天删除的文件总数,FiledWriteFileNumber代表当天写失败的文件总数,ChangeDirNumber代表当天修改目录的个数,ChangeFileNumber代表当天修改文件的个数,NodeNumber代表集群总的存储节点个数,DeadNode代表集群中丢失的存储节点个数。
图3是根据本发明实施例的集群性能的评估装置的基本模块的示意图。如图3所示,本发明实施例提供了一种集群性能的评估装置300,包括:获取模块301、分析模块302和评价模块303;所述获取模块301,用于:获取集群的服务信息和集群中各个节点的物理资源使用信息;所述分析模块302,用于:基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值;所述评价模块303,用于:将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。本发明实施例通过分析收集的集群的服务信息和节点的物理资源使用信息,可以确定集群的性能健康度,从而有效地评估当前集群的状态,解决了现有技术中缺少有效的评价方式评估当前集群的状态或评分的问题,同时可以自动化分析集群状态,解决了信息滞后的问题。
本发明实施例中,所述评价模块303,用于采用以下方式确定集群的性能健康度:
Figure BDA0001651966370000101
其中,H表示集群的性能健康度,f(i)表示集群的第i个评价指标信息,w表示评价指标对应的权值,n表示集群的评价指标的数量。本发明实施例的健康度计算方式,能够使当前集群的状态结果更加准确。
本发明实施例中,所述分析模块302,还用于:根据节点的物理资源使用信息和集群的服务信息,确定节点的主成分占比;若节点的主成分占比,不在预设范围内,则确定该节点为差异性节点。本发明实施例可以根据运维经验确定预设范围,将各个指标加以量化。如:单节点处理能力(即节点的主成分占比)必须在预设范围内才也算正常。可以有效分析每个节点对于集群效率所占的成份,计算节点在整个集群中提供的计算能力,解决了现有技术中缺少节点服务成份分析,无法有效分析主节点的问题,进而实现快速定位差异性节点的有益效果。
本发明实施例中,所述分析模块302,还用于:根据节点的主成分占比,计算集群中各节点的主成分占比的均方差;若所述均方差超过设定阈值,则所述集群为异常集群。本发明实施例通过计算各个节点成份占比的均方差,以确定异常集群,可以实时有效监控集群的工作状态,查找出工作异常的集群。
本发明实施例中,所述分析模块302,还用于:根据所述差异性节点及其主成分占比,确定该差异性节点的问题;根据所述问题,从预先设置的规则库中获取与所述问题对应的答案或优化方式。本发明实施例在快速定位差异性节点之后可以确定并展示差异性节点目前存在的问题,根据事先录入到库中的规则(即问题与答案的映射),显示对应的答案和优化方法。
图4是根据本发明实施例的Hadoop集群性能的评估装置的优化模块的示意图。Hadoop集群是由多台部署了Hadoop服务的物理服务器组成的集群。Hadoop是一种分布式***,包含分布式存储***HDFS(Hadoop Distributed File System)和分布式计算***MapReduce。如图4所示,主要包括如下几个模块:
1)MonitorServer,负责收集和展示集群信息,收集后的信息会存储到OpenTSDB中。用户可以利用这个Server按时、按分、显示信息。同时这个Server会定时根据信息计算出评价指标显示在界面上。
2)OpenTSDB,一个分布式的时序数据存储***,可以存储大量的时序数据。
3)HadoopMaster,Hadoop的Master主节点,可以指NameNode和ResourceManager这种节点。
4)Node,Hadoop的计算节点,是指Hadoop的DataNode和NodeManager这两种类型的节点。
上述装置主要包含三个处理流程:
1.收集Hadoop集群所有的指标信息,包括:MonitorServer利用Hadoop组件的接口周期性收集指标信息;MonitorServer将收集到的信息存入到OpenTSDB中存储。
2.实时根据指标计算出集群评价、节点主成份占比和性能分析图并提供显示;指标分析评价执行流程:该流程依赖预定义的评价规则,并根据预定义的规则计算集群健康度。支持评价规则增、删、改、查。例如,评价规则包括的集群评价指标可以有:节点的JVM资源使用量、节点的物理资源使用量、节点每小时处理事件速度的标准量、当天节点处理性能与历史信息对比时所占总分的参考量,计算评分时如果当天节点的处理性能低于或高于历史信息时的评分标准。
图5是本发明实施例的实时指标分析流程示意图,如图5所示,每隔5分钟收集过去5分钟的集群的服务信息和节点的物理资源使用信息;计算集群健康度,并将健康度存储到OpenTSDB中;将过去5分钟的收集和产生的所有数据加入到成分分析统计表中。成分分析统计表是指一张数据库表,计算出的数据会存储在数据库中。
3.允许用户手动触发评价流程,并生成详细的评价报告。手动触发生成报告流程,界面上允许管理员进行深度分析集群,并生成集群报告,并支持邮件发送报告。图6为本发明实施例的生成报告流程示意图,如图6所示,获取集群评价指标信息、节点的主成分占比的信息,生成表格和信息展示网页,然后根据用户是否订阅等选择,确定是否将表格和信息展示网页以邮件的方式发送至客户端。
图7示出了可以应用本发明实施例的集群性能的评估方法或集群性能的评估装置的示例性***架构700。
如图7所示,***架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果例如目标推送信息反馈给终端设备。
需要说明的是,本发明实施例所提供的集群性能的评估方法一般由服务器705执行,相应地,集群性能的评估装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的一种集群性能的评估方法。
本发明实施例的计算机可读介质,所述计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的一种集群性能的评估方法。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机***800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机***800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有***800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括:获取模块、分析模块和评价模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,“获取模块”还可以被描述为“用于获取集群的服务信息和集群中各个节点的物理资源使用信息的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S101.获取集群的服务信息和集群中各个节点的物理资源使用信息;步骤S102.基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值;步骤S103.将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。
本发明实施例通过分析收集的集群的服务信息和节点的物理资源使用信息,可以确定集群的性能健康度,从而有效地评估当前集群的状态,解决了现有技术中缺少有效的评价方式评估当前集群的状态或评分的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种集群性能的评估方法,其特征在于,包括:
获取集群的服务信息和集群中各个节点的物理资源使用信息,所述服务信息包括:服务本身的健康信息、服务的物理资源使用量信息、服务的处理能力信息;
基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值,所述集群的评价指标包括:整集群级别Container吞吐量、作业运行吞吐量、作业失败率、整集群文件访问频率、整集群文件修改频率、单个作业文件访问频率、单个作业创建文件数、单个作业Container平均运行时间、单个节点Container吞吐量、单个节点事件处理量;
将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度;
所述方法还包括:根据节点的物理资源使用信息和集群的服务信息,确定节点的主成分占比;若节点的主成分占比,不在预设范围内,则确定该节点为差异性节点;所述节点的主成分占比为单位时间内节点处理的事件量占整个集群事件的比例;
根据节点的主成分占比,计算集群中各节点的主成分占比的均方差;若所述均方差超过设定阈值,则所述集群为异常集群。
2.根据权利要求1所述的方法,其特征在于,所述集群的性能健康度采用以下方式确定:
Figure FDF0000017038310000011
其中,H表示集群的性能健康度,f(i)表示集群的第i个评价指标信息,w表示评价指标对应的权值,n表示集群的评价指标的数量。
3.根据权利要求1所述的方法,其特征在于,确定该节点为差异性节点之后,所述方法还包括:
根据所述差异性节点及其主成分占比,确定该差异性节点的问题;
根据所述问题,从预先设置的规则库中获取与所述问题对应的答案或优化方式。
4.一种集群性能的评估装置,其特征在于,包括:获取模块、分析模块和评价模块;
所述获取模块,用于:获取集群的服务信息和集群中各个节点的物理资源使用信息,所述服务信息包括:服务本身的健康信息、服务的物理资源使用量信息、服务的处理能力信息;
所述分析模块,用于:基于所述集群的服务信息、集群中各个节点的物理资源使用信息和预设的评价规则,实时计算得到集群的评价指标信息;所述评价规则包括:集群的评价指标以及评价指标对应的权值,所述集群的评价指标包括:整集群级别Container吞吐量、作业运行吞吐量、作业失败率、整集群文件访问频率、整集群文件修改频率、单个作业文件访问频率、单个作业创建文件数、单个作业Container平均运行时间、单个节点Container吞吐量、单个节点事件处理量;
所述分析模块,还用于:根据节点的物理资源使用信息和集群的服务信息,确定节点的主成分占比;若节点的主成分占比,不在预设范围内,则确定该节点为差异性节点;所述节点的主成分占比为单位时间内节点处理的事件量占整个集群事件的比例;
根据节点的主成分占比,计算集群中各节点的主成分占比的均方差;若所述均方差超过设定阈值,则所述集群为异常集群;
所述评价模块,用于:将集群的各个评价指标信息进行加权求和,确定所述集群的性能健康度。
5.根据权利要求4所述的装置,其特征在于,所述评价模块,用于采用以下方式确定集群的性能健康度:
Figure FDF0000017038310000021
其中,H表示集群的性能健康度,f(i)表示集群的第i个评价指标信息,w表示评价指标对应的权值,n表示集群的评价指标的数量。
6.根据权利要求4所述的装置,其特征在于,所述分析模块,还用于:
根据所述差异性节点及其主成分占比,确定该差异性节点的问题;
根据所述问题,从预先设置的规则库中获取与所述问题对应的答案或优化方式。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN201810425538.5A 2018-05-07 2018-05-07 一种集群性能的评估方法和装置 Active CN108874640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810425538.5A CN108874640B (zh) 2018-05-07 2018-05-07 一种集群性能的评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810425538.5A CN108874640B (zh) 2018-05-07 2018-05-07 一种集群性能的评估方法和装置

Publications (2)

Publication Number Publication Date
CN108874640A CN108874640A (zh) 2018-11-23
CN108874640B true CN108874640B (zh) 2022-09-30

Family

ID=64327159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810425538.5A Active CN108874640B (zh) 2018-05-07 2018-05-07 一种集群性能的评估方法和装置

Country Status (1)

Country Link
CN (1) CN108874640B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400122B (zh) * 2019-01-02 2023-11-10 ***通信有限公司研究院 一种硬盘健康度评估方法及装置
CN109933506A (zh) * 2019-03-20 2019-06-25 浪潮商用机器有限公司 服务器大数据性能评价方法、***及电子设备和存储介质
CN111930493B (zh) * 2019-05-13 2023-08-01 ***通信集团湖北有限公司 集群中NodeManager状态管理方法、装置及计算设备
CN110086888B (zh) * 2019-05-15 2022-05-17 上海淇毓信息科技有限公司 基于RabbitMQ的多集群动态负载方法、装置、电子设备
CN110162445A (zh) * 2019-05-23 2019-08-23 中国工商银行股份有限公司 基于主机日志及性能指标的主机健康评价方法及装置
CN112019583A (zh) * 2019-05-31 2020-12-01 北京京东尚科信息技术有限公司 确定服务器集群资源利用率的方法、装置及存储介质
CN110597701B (zh) * 2019-09-12 2021-03-05 上海道客网络科技有限公司 一种容器云平台的健康稳定运行程度的评分***及方法
CN110677419A (zh) * 2019-09-30 2020-01-10 新华三大数据技术有限公司 集群检测方法和装置
CN113011138B (zh) * 2019-12-19 2023-09-15 北京懿医云科技有限公司 信息处理方法、装置、电子设备及存储介质
CN113094243A (zh) * 2020-01-08 2021-07-09 北京小米移动软件有限公司 节点性能检测方法和装置
CN111245928A (zh) * 2020-01-09 2020-06-05 深圳物控智联科技有限公司 基于超融合架构的资源调节方法、物联网服务器及介质
CN111431996B (zh) * 2020-03-20 2022-08-09 北京百度网讯科技有限公司 用于资源配置的方法、装置、设备和介质
CN111709623A (zh) * 2020-06-04 2020-09-25 中国科学院计算机网络信息中心 高性能计算环境评价方法、装置、电子设备及存储介质
CN111813644B (zh) * 2020-07-16 2024-02-27 中国民航信息网络股份有限公司 ***性能的评价方法、装置、电子设备和计算机可读介质
CN113765966A (zh) * 2020-09-01 2021-12-07 北京沃东天骏信息技术有限公司 一种负载均衡方法和装置
CN113282455A (zh) * 2021-05-24 2021-08-20 建信金融科技有限责任公司 一种监控处理方法和装置
CN113923215B (zh) * 2021-09-09 2023-12-29 深信服科技股份有限公司 虚拟机调度方法、电子设备及存储介质
CN114048116B (zh) * 2021-11-11 2024-05-10 杭州东方通信软件技术有限公司 一种业务***的体验度评估方法及装置
CN114374707B (zh) * 2022-03-22 2022-06-21 联想凌拓科技有限公司 用于存储集群的管理方法、装置、设备及介质
CN115396341B (zh) * 2022-08-16 2023-12-05 度小满科技(北京)有限公司 服务稳定性的评估方法、装置、存储介质及电子装置
CN115495234B (zh) * 2022-08-23 2023-11-28 华为技术有限公司 一种资源检测方法及装置
CN115686381B (zh) * 2022-12-29 2023-03-14 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置
CN116127149B (zh) * 2023-04-14 2023-07-04 杭州悦数科技有限公司 图数据库集群健康度的量化方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104202212A (zh) * 2014-08-28 2014-12-10 浪潮(北京)电子信息产业有限公司 一种获取分布式集群***告警的***和方法
WO2015196369A1 (zh) * 2014-06-24 2015-12-30 华为技术有限公司 分布式缓存控制方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100162036A1 (en) * 2008-12-19 2010-06-24 Watchguard Technologies, Inc. Self-Monitoring Cluster of Network Security Devices
US9727355B2 (en) * 2013-08-23 2017-08-08 Vmware, Inc. Virtual Hadoop manager
CN105357038B (zh) * 2015-10-26 2019-05-07 北京百度网讯科技有限公司 监控虚拟机集群的方法和***
CN105404581B (zh) * 2015-12-25 2019-03-05 北京奇虎科技有限公司 一种数据库的评测方法和装置
CN107391335B (zh) * 2016-03-31 2021-09-03 阿里巴巴集团控股有限公司 一种用于检查集群健康状态的方法和设备
CN106021671B (zh) * 2016-05-12 2019-07-09 北京航空航天大学 结合相关性关系和灰色聚类技术的电路健康分级评估方法
CN107659595B (zh) * 2016-07-25 2021-06-25 阿里巴巴集团控股有限公司 一种评估分布式集群处理指定业务的能力的方法和装置
US11308049B2 (en) * 2016-09-16 2022-04-19 Oracle International Corporation Method and system for adaptively removing outliers from data used in training of predictive models
CN106776288B (zh) * 2016-11-25 2019-11-19 北京航空航天大学 一种基于Hadoop的分布式***的健康度量方法
CN106603299B (zh) * 2016-12-28 2020-05-01 北京奇艺世纪科技有限公司 一种服务健康指数的生成方法及装置
CN106992904A (zh) * 2017-05-19 2017-07-28 湖南省起航嘉泰网络科技有限公司 基于动态综合权重的网络设备健康度评估方法
CN107358347A (zh) * 2017-07-05 2017-11-17 西安电子科技大学 基于工业大数据的装备集群健康状态评估方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015196369A1 (zh) * 2014-06-24 2015-12-30 华为技术有限公司 分布式缓存控制方法及装置
CN104202212A (zh) * 2014-08-28 2014-12-10 浪潮(北京)电子信息产业有限公司 一种获取分布式集群***告警的***和方法

Also Published As

Publication number Publication date
CN108874640A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108874640B (zh) 一种集群性能的评估方法和装置
Coutinho et al. Elasticity in cloud computing: a survey
US7631034B1 (en) Optimizing node selection when handling client requests for a distributed file system (DFS) based on a dynamically determined performance index
CN112860695B (zh) 监控数据查询方法、装置、设备、存储介质及程序产品
CN109471783B (zh) 预测任务运行参数的方法和装置
CN106940677A (zh) 一种应用日志数据告警方法及装置
JP2014528126A (ja) 複数のターゲットへのマルチソースプッシュ通知の分配
US10614087B2 (en) Data analytics on distributed databases
CA2948700A1 (en) Systems and methods for websphere mq performance metrics analysis
CN110147470B (zh) 一种跨机房数据比对***及方法
CN112039726A (zh) 一种内容分发网络cdn设备的数据监控方法及***
KR20150118963A (ko) 큐 모니터링 및 시각화
CN112685499A (zh) 一种工作业务流的流程数据同步方法、装置及设备
CN111124830A (zh) 一种微服务的监控方法及装置
US10331484B2 (en) Distributed data platform resource allocator
CN107819745B (zh) 异常流量的防御方法和装置
CN115344207A (zh) 数据处理方法、装置、电子设备及存储介质
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN114003345A (zh) 一种基于云原生的Kubernetes平台健康度确定方法和装置
CN112000657A (zh) 数据管理方法、装置、服务器及存储介质
CN115952050A (zh) 机构服务埋点数据的上报方法和装置
CN114647614A (zh) 基于数据访问模式进行高效数据收集以在大规模多租户环境中报告的***和方法
CN114756301A (zh) 日志处理方法、装置和***
CN114706893A (zh) 故障检测方法、装置、设备及存储介质
CN112783637B (zh) 一种资源调控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant