CN107659595A - 一种评估分布式集群处理指定业务的能力的方法和装置 - Google Patents

一种评估分布式集群处理指定业务的能力的方法和装置 Download PDF

Info

Publication number
CN107659595A
CN107659595A CN201610590194.4A CN201610590194A CN107659595A CN 107659595 A CN107659595 A CN 107659595A CN 201610590194 A CN201610590194 A CN 201610590194A CN 107659595 A CN107659595 A CN 107659595A
Authority
CN
China
Prior art keywords
distributed type
type assemblies
performance indications
resource parameters
ability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610590194.4A
Other languages
English (en)
Other versions
CN107659595B (zh
Inventor
王志鹏
张颖莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610590194.4A priority Critical patent/CN107659595B/zh
Publication of CN107659595A publication Critical patent/CN107659595A/zh
Application granted granted Critical
Publication of CN107659595B publication Critical patent/CN107659595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种评估分布式集群处理指定业务的能力的方法和装置,所述方法包括以下步骤:确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数;获取所述性能指标数据以及所述资源参数数据;利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型;根据所述关系模型确定所述分布式集群处理所述指定业务的能力。本申请提供的技术方案能够避免对在线运行的业务可能造成的影响,能够基于实际的业务数据对在线运行的分布式集群相应的业务处理能力进行评估,能够避免影响在线运行的分布式集群的业务服务,达到降低评估成本的效果。

Description

一种评估分布式集群处理指定业务的能力的方法和装置
技术领域
本申请涉及一种评估分布式集群处理能力的方法,具体涉及一种评估分布式集群处理指定业务的能力的方法和装置。
背景技术
对于任何采用大规模的分布式集群提供业务服务的***来说,其所提供的业务服务的处理能力都是有限的,当达到其处理能力的最大上限值时,所述***无法继续提供相应的业务服务。
在实际应用中,必须保障部署在分布式集群上的业务所提供的服务的高可用性,也即保障在可控的时间内所能提供相应业务的处理能力大于对所述业务的需求数量。
不同的业务发展阶段,业务的需求数量不同,其所需要的业务处理能力也不同,在业务发展的初期以及后续的扩容规划阶段,都需要对所述采用大规模的分布式集群开展相应业务服务的***的处理相应的业务的能力进行评估。
现有的对分布式集群的相应的业务的处理能力进行评估的方式通常为通过压力测试单节点的相应业务的处理能力,再通过单节点的相应业务的处理能力与分布式集群***内节点的数量推算整个***的相应业务的处理能力,通过压力测试单节点的相应业务的处理能力通常有以下三种方式:
方式一,模拟请求压测法
采用类似Apache AB(开源HTTP SERVER压测工具)Tool客户端的调用方式模拟多线程并发请求,向被压测的目标节点发起大量请求。通过逐渐提高请求数和并发量,直到触发约束条件退出机制,由此计算单节点最大服务支撑能力。
方式二,在线引流压测法
采用类似TCPCOPY方式将线上流量引流拷贝到跟生产环境一致的测试机器上。通过逐渐增加流量Copy份数,直到触发测试机约束条件退出机制,由此计算单节点最大服务支撑能力。
方式三,修改权重压测法
采用在线修改LB设备(Load balancing,有如F5BIG-IP、NetScaler、LVS等)请求分配权重,将更多的流量转发到被压测节点上。通过逐渐提高被压测节点请求分配权重,直到触发约束条件退出机制,由此计算单节点最大服务支撑能力。
上述几种方式中“模拟请求压测法”在测试环境只能发起单一的逻辑请求,对线上复杂的请求情况无法全然覆盖;“在线引流压测法”需要构建一个完全跟线上一致的标准测试环境,包括原服务所依赖的上游和被依赖的下游服务,这样需要昂贵的压测成本,特别是在多服务实体的分布式集群环境下更是难以接受的;“修改权重压测法”首先依赖集群支持可动态调整负载均衡,对于简单的CS架构着实是好方法,但在组织架构比较分散的分布式集群中,能够分析覆盖的业务场景较少,并且实现成本相对比较高。
综上所述,现有的压力测试分布式集群的业务的处理能力的方式存在对测试环境要求高,测试成本高的问题。
发明内容
本申请提供一种评估分布式集群处理指定业务的能力的方法。本申请同时提供一种评估分布式集群处理指定业务的能力的装置。
本申请提供的一种评估分布式集群处理指定业务的能力的方法,包括以下步骤:
确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数;
获取所述性能指标数据以及所述资源参数数据;
利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型;
根据所述关系模型确定所述分布式集群处理所述指定业务的能力。
优选地,所述性能指标包括:
CPU利用率,内存利用率,每秒能够处理的事务的数量,每秒请求处理数量,***负载,TCP会话连接数,磁盘使用率,磁盘输入输出利用率,每秒读写操作次数,网络流量带宽,访问量,访问用户数,在线用户数,交易创建量,交易付款量,消息推送量,关键搜索量或数据存储流量。
优选地,所述资源参数包括:
CPU利用率,内存利用率,每秒能够处理的事务的数量,每秒请求处理数量,***负载,TCP会话连接数,磁盘使用率,磁盘输入输出利用率,每秒读写操作次数,网络流量带宽,访问量,访问用户数,在线用户数,交易创建量,交易付款量,消息推送量,关键搜索量,存储容量或数据存储流量。
优选地,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
将***每秒能够处理的事务的数量作为分布式集群处理计算密集型业务的能力的性能指标;
将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
优选地,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
将存储容量作为分布式集群处理存储密集型业务的能力的性能指标;
将网络流量带宽,磁盘使用率或磁盘输入输出利用率作为制约所述性能指标的分布式集群的资源参数。
优选地,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
将每秒请求处理数量作为分布式集群处理软件服务业务的能力的性能指标;
将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
优选地,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
确定用于评估分布式集群处理指定业务的能力的性能指标;
根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数包括:
制作所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的数据表格;
根据所述数据表格内所述性能指标随所述分布式集群资源参数变化的规律来确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数包括:
绘制所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的散点图;
根据所述散点图中各个点的分布规律来确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述性能指标数据以及所述资源参数数据包括:
所述指定的业务繁忙时的所述性能指标数据以及所述资源参数数据。
优选地,所述利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型包括:
利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法,构造并确定所述性能指标随所述资源参数变化的线性回归模型。
优选地,所述利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型包括:
利用所述性能指标数据以及所述资源参数的数据,采用5折交叉检验机器学习算法构造检验并确定所述性能指标随所述资源参数关系变化的线型回归模型。
本申请提供的一种评估分布式集群处理指定业务的能力的装置,包括以下单元:
指标与参数确定单元,用于确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数;
获取单元,用于获取所述性能指标数据以及所述资源参数数据;
关系模型确定单元,用于利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型;
处理能力评估单元,用于根据所述关系模型确定所述分布式集群处理所述指定业务的能力。
优选地,所述指标与参数确定单元包括:
性能指标确定子单元,用于将***每秒能够处理的事务的数量作为分布式集群处理计算密集型业务的能力的性能指标
资源参数确定子单元,用于将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
优选地,所述指标与参数确定单元包括:
性能指标确定子单元,用于将存储容量作为分布式集群处理存储密集型业务的能力的性能指标;
资源参数确定子单元,用于将网络流量带宽,磁盘使用率或磁盘输入输出利用率作为制约所述性能指标的分布式集群的资源参数。
优选地,所述指标与参数确定单元包括:
性能指标确定子单元,用于将每秒请求处理数量作为分布式集群处理软件服务业务的能力的性能指标;
资源参数确定子单元,用于将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
优选地,所述指标与参数确定单元包括:
性能指标确定子单元,用于确定用于评估分布式集群处理指定业务的能力的性能指标;
资源参数确定子单元,用于根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述资源参数确定子单元包括:
表格制作子单元,用于制作所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的数据表格;
资源参数确定第二子单元,用于根据所述数据表格内所述性能指标随所述分布式集群资源参数变化的规律来确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述资源参数确定子单元包括:
散点图绘制子单元,用于绘制所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的散点图;
资源参数确定第二子单元,用于根据所述散点图中各个点的分布规律来确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述关系模型确定单元具体用于利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法,构造并确定所述性能指标随所述资源参数变化的线性回归模型。
优选地,所述关系模型确定单元具体用于利用所述性能指标数据以及所述资源参数的数据,采用5折交叉检验机器学习算法构造检验并确定所述性能指标随所述资源参数关系变化的线型回归模型。
与现有技术相比,本申请具有以下优点:本申请提供的技术方案利用在线运行的分布式集群***的相应的性能指标和资源参数数据,采用机器学习算法确定表征所述分布式集群***的指定业务的处理能力的性能指标与相应的资源参数的关系,再利用所述关系确定表征所述分布式集群***处理所述指定的业务的处理能力。
本申请提供的技术方案能够避免对在线运行的业务可能造成的影响,能够基于实际的业务数据对在线运行的分布式集群相应的业务处理能力进行评估,无需额外地调整在线运行的分布式集群业务***的配置或额外搭建测试的硬件环境。能够避免影响在线运行的分布式集群的业务服务,达到降低评估成本的效果。
附图说明
图1为本申请第一实施例一种本申请涉及一种评估分布式集群处理指定业务的能力的方法的流程示意图;
图2为本申请第一实施例一种本申请涉及一种评估分布式集群处理指定业务的能力的QPS-mem%散点图;
图3为本申请第一实施例一种本申请涉及一种评估分布式集群处理指定业务的能力的QPS-CPU%散点图;
图4为本申请第二实施例一种本申请涉及一种评估分布式集群处理指定业务的能力的装置的结构框图;
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供评估分布式集群处理指定业务的能力的方法,其流程示意图如图1所示,该实施例包括以下步骤:
步骤S101,确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数。
对于大规模分布式集群来说,部署于其上的应用***所提供的业务服务可能不止一种,为了评估部署于大规模分布式集群上的相应的业务服务的处理能力,要指定需要评估的相应的业务。表征分布式集群处理不同的业务的能力的性能指标也不相同。需要根据所述业务确定相应的性能指标来评估所述分布式集群处理所述业务的能力。对于指定的业务,首先要确定用于评估这一分布式集群处理相应业务的能力的性能指标。
在分布式集群上部署的业务应用***,通常不仅仅提供业务服务,还会在运行时产生大量不同的与其提供的业务服务相关的指标数据,这些指标数据周期性地产生并被保存到相应的日志文件或内存中供***的维护人员分析***的性能或排查故障等使用。
除此之外,分布式集群的其他软件也会周期性地产生很多分布式集群软,硬件相关的性能指标或资源参数数据。这些数据也会被保存在相应的日志文件或内存中供***的维护人员分析***的性能或排查故障等使用。
本步骤从这些能够被保存下来的性能指标当中选择确定用于评估这一分布式集群处理相应业务的能力的性能指标和制约该性能指标的分布式资源参数。
首先确定用于评估部署于这一分布式集群处理相应业务的能力的性能指标。
由于表征所述分布式集群处理不同的业务的能力的性能指标不同,因此需要根据相应业务的特点,有针对性地确定一个最能够代表所述分布式集群处理所述业务的能力的性能指标。也即根据业务本身的特点或对所述业务的关注点的需要,确定相应的性能指标。
通常能够用于评估分布式集群处理某一业务的能力的性能指标包括以下这些分布式集群及其上部署的相应的业务应用软件产生的指标:
CPU利用率,内存利用率,每秒能够处理的事务的数量,每秒请求处理数量,***负载,TCP会话连接数,磁盘使用率,磁盘输入输出利用率,每秒读写操作次数,网络流量带宽,访问量,访问用户数,在线用户数,交易创建量,交易付款量,消息推送量,关键搜索量,存储容量或数据存储流量等。
可以针对所述指定的业务选取相应的性能指标,对于简单的业务可以选取一个最具有代表性的性能指标来表征所述分布式集群处理所述指定的业务的能力,对于复杂的业务,可以相应的选取多个性能指标表征所述分布式集群处理所述业务的能力。
对于密集型计算业务集群,如提供大量数学运算服务的分布式集群,可以将***每秒能够处理的事务的数量作为其性能指标;对于存储密集型存储业务集群,如提供网盘存储业务的分布式集群,由于其存储容量代表了其提供的存储服务的能力,因此可以将其存储容量作为其性能指标。
对于存储的效率比较敏感的情况也可以将磁盘使用率或磁盘输入输出利用率作为其性能指标,具体情况可以根据实际应用的场景以及需要关注的焦点来相应的调整。
对于提供软件服务(SaaS)的分布式集群,由于软件服务的特性,能够为越多的用户请求提供相应的软件服务表明该分布式集群上部署的软件服务应用处理能力越大,因此,本实施例具体选择分布式集群的上层架构FastCGI(请求响应处理模块)的每秒请求处理数量作为所述分布式集群处理软件服务业务的能力的性能指标。
除了需要确定用于评估分布式集群处理指定业务的能力的性能指标外,还需要确定所述分布式集群的针对所述分布式集群的所述业务的所述性能指标的最核心的制约参数。
任何分布式集群***,都需要消耗自身的资源才能够提供相应的业务服务。如,CPU资源,内存资源,网络资源等等。由于资源的有限性,通常情况下,分布式集群***处理某种业务的能力不可能是无限的,而是受限于分布式集群的资源。
对于不同的业务的不同的性能指标,分布式集群需要消耗的资源种类和数量都有所不同。本步骤中根据所确定的表征所述分布式集群处理指定的业务的能力的性能指标,确定最主要的制约所述性能指标的分布式集群资源参数。
通常情况下,分布式集群产生的或部署于其上的业务应用所产生的以下参数有可能限制或制约所述分布式集群处理相应的业务的能力:
CPU利用率,内存利用率,每秒能够处理的事务的数量,每秒请求处理数量,***负载,TCP会话连接数,磁盘使用率,磁盘输入输出利用率,每秒读写操作次数,网络流量带宽,访问量,访问用户数,在线用户数,交易创建量,交易付款量,消息推送量,关键搜索量,存储容量或数据存储流量等。
与表征分布式集群处理相应的业务的能力的性能指标相对应地,可以根据实际情况选取一个或多个制约表征所述分布式集群处理所述指定的业务的能力的性能指标的相应的分布式集群的资源参数。
对于计算密集型业务集群,如提供大量数学运算服务的分布式集群,当把***每秒能够处理的事务的数量作为其性能指标时,可以将所述分布式集群的CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
对于存储密集型存储业务集群,如提供网盘存储业务的分布式集群,当把其存储容量作为其性能指标时,除了处处设备的总体容量外,分布式集群的很多其他因素也会影响甚至制约存储业务提供的服务,例如,网络流量带宽被完全占用后,即便存储设备仍然有空间可以提供存储,但整个***也无法提供相应的服务;有或者当存储设备,磁盘的输入输出利用率达到100%时,也无法提供哦你给相应的存储业务服务。
这些情况下,可以将网络流量带宽,磁盘使用率或磁盘输入输出利用率作为制约所述性能指标的分布式集群的资源参数。具体情况可以根据分布式集群的实际配置情况和具体用户行为的特点选取相应的资源参数。
对于提供软件服务(SaaS)的分布式集群,当把分布式集群的上层架构FastCGI(请求响应处理模块)的每秒请求处理数量(QPS)作为所述分布式集群处理软件服务业务的性能指标时,越多的服务请求数量会导致越多的计算量,内存容量的占用和网络流量等,可以针对不同的情况选择不同的资源参数,对于内存容量较为敏感的情况,可以选择内存利用率作为制约所述性能指标的所述分布式集群的资源参数;而对于内存相对比较充足,而CPU数量或处理能力比较敏感的情况,本实施例中优选地将所述分布式集群的CPU的利用率(CPU%)作为制约所述性能指标的分布式集群的资源参数。
对于无法通过简单定性分析所确定的表征所述分布式集群处理指定的业务的能力的性能指标的特点就能选取出最主要的制约所述性能指标的分布式集群资源参数的较为复杂的情况,可以粗略地定量分析分布式集群各个资源参数与所述性能指标的相关性来确定制约所述性能指标的分布式资源参数。
所述相关性是指,当所述性能指标的值在一定范围内变化时,所述资源参数的值也会在一定的范围内变化,且在二者变化的总体趋势是相对稳定的。
粗略的定量分析可以采用制作所述性能指标和各种分布式资源的资源参数的数据对表格的形式或绘制所述性能指标和各种分布式资源的资源参数的数据对的散点图的形式,使得所述性能指标与分布式集群各个资源参数之间的关系更加直观并易于进行粗略的判断。
例如,对于提供软件服务(SaaS)的分布式集群,当把分布式集群的上层架构FastCGI(请求响应处理模块)的每秒请求处理数量(QPS)作为所述分布式集群处理软件服务业务的性能指标时,如果一时无法确定CPU的利用率(CPU%)与内存的大小中,谁才是最主要的制约所述性能指标每秒请求处理数量(QPS)的因素时,可以通过制作下述该分布式集群的性能指标每秒请求处理数量(QPS),CPU的利用率(CPU%)和内存的利用率(mem%)数据表格来帮助进行分析判断:
从上述表格中的数据可以看出,尽管每秒请求处理数量(QPS)的值在5500至8000间变化,内存的利用率(mem%)都集中在0.25附近,可以认为内存的利用率(mem%)不是制约每秒请求处理数量(QPS)的分布式集群的资源参数。
而随着每秒请求处理数量(QPS)的值在5500至8000间变化,CPU的利用率(CPU%)的值也在0.4-0.7之间变化,并且呈现一定的规律性:当CPU的利用率(CPU%)的值总体从小变化到大时,每秒请求处理数量(QPS)的值总体上讲也是从小变化到大。因此,CPU的利用率(CPU%)与制约每秒请求处理数量(QPS)是正向相关的,可以认为相比内存的利用率(mem%),CPU的利用率(CPU%)为制约每秒请求处理数量(QPS)的分布式集群的资源参数。
除了制作数据表格,还可以利用性能指标每秒请求处理数量(QPS),CPU的利用率(CPU%)和内存的利用率(mem%)数据绘制相应的散点图来判断。
如根据上述表格所包含的内存的利用率(mem%)数据与每秒请求处理数量(QPS)数据绘制的QPS-mem%散点图如图2所示,该散点图中各个点分布在竖直狭长的区域内,点的横坐标的变化范围很小,并不影响点的纵坐标的变化。很容易判断出内存的利用率(mem%)不是制约每秒请求处理数量(QPS)的分布式集群的资源参数。
如根据上述表格内的CPU的利用率(CPU%)数据与每秒请求处理数量(QPS)数据绘制的QPS-CPU%散点图如图3所示,该散点图内,所有的点分布在一个倾斜的狭长区域内,呈现出的规律为随着点的横坐标CPU的利用率(CPU%)的值的增加,点的位置越高(纵坐标值越大)的趋势。很容易推测CPU的利用率(CPU%)数据与每秒请求处理数量(QPS)是正向线型相关的。从而判断出相比内存的利用率(mem%),CPU的利用率(CPU%)为制约每秒请求处理数量(QPS)的分布式集群的资源参数。也即应该将CPU的利用率(CPU%)确定为制约每秒请求处理数量(QPS)应的分布式集群资源参数。
S102,获取所述性能指标数据以及所述资源参数数据。
在前面的步骤中已经确定了评估分布式集群处理指定业务的能力的相应的性能指标和制约所述性能指标的所述分布式集群的资源参数,本步骤获取相应的性能指标的数据和所述分布式集群的资源参数数据。
本申请提供的评估处理指定业务的能力的方法的后续步骤中采用机器学习算法建模,因此获取的性能指标和资源参数的数据越多,后续步骤中所建立的模型就能够越准确地反映所确定的性能指标和资源参数的相互关系,最终得出的所述分布式集群处理所述业务的能力越准确。
除了获取尽可能多地获取数据外,还应该根据所述业务提供的服务的特点来选择相应的数据。对于所述业务所提供的服务在不同时间段的需求量不同的情况,应该尽量获取需求量比较多的业务繁忙的时间段的性能指标数据和资源参数数据,后续步骤中利用所述业务繁忙的时间段的数据进行机器学习算法建模能够时的建立的模型更加准确地反映所述性能指标和所述资源参数的关系。
如上一步骤中所述,分布式集群上的相应软件周期性地产生业务相关的性能指标数据和相应的资源参数数据,所述数据大多被存储在相应的日志文件中或内存中,本步骤可以通过获取所述指定的业务繁忙时的时间段的相应的日志文件或通过相应的内存接口程序获取所述指定的业务繁忙时的时间段的所述的性能指标数据和资源参数数据。
对于需要获取分布于在多个不同节点上而日志文件又较多的情况,可以采取各种分布式开源解决方案收集所述日子并进行相应的存储以便后续步骤使用。
例如,一个提供软件服务(SaaS)的分布式集群,包括有25台节点设备,每台节点设备为一台计算机,节点设备间通过网络互相连接,每台节点设备上每隔15s产生一次每秒请求处理数量(QPS)数据和资源参数CPU的利用率(CPU%)数据。每天9:00-24:00为所述软件服务业务繁忙的时间段。
本步骤从其中一台节点设备获取包含每天9:00-24:00该节点设备的每秒请求处理数量(QPS)数据和资源参数CPU的利用率(CPU%)数据的连续5天的相应的日志文件,从相应的日志文件中提取每秒请求处理数量(QPS)数据和资源参数CPU的利用率(CPU%)数据,将相同时间的每秒请求处理数量(QPS)数据和资源参数CPU的利用率(CPU%)数据作为数据对存储到内存或数据文件中以供后续步骤使用。例如,下表所示的数据片段为一个节点设备2016年6月1日9点10分至9点15分的CPU的利用率(CPU%)数据与相应的每秒请求处理数量(QPS)数据:
步骤S103,利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型。
获取到所述的性能指标数据和资源参数数据后,利用这些数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型的方法可以有多种,如采用计算机学习算法构造计算机神经网络模型等,采用计算机神经网络模型能够针对多个性能指标和多个资源参数综合建模,宜于用在采用多个性能指标表征分布式集群处理所述指定业务的能力,多个资源参数制约所述多个性能指标的复杂情况下。
对于本实施例中前面步骤中确定了每秒请求处理数量(QPS)作为性能指标和CPU的利用率(CPU%)作为制约所述性能指标的资源参数的情况,本步骤优选地提供,利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法,构造并确定所述性能指标与所述资源参数的关系的线性回归模型。对于单一性能指标与单一资源参数的情况,该方式计算相对简单,能够快速构造模型。
为了尽量使得构造的模型准确,还可以对其进行验证评估,为了保持验证评估的公正性,可以采用多折交叉检验的方法。本实施例优选采用5折交叉检验机器学习算法构造检验并确定所述性能指标随所述资源参数关系变化的线型回归模型。
将获取到的包含所述分布式集群的每秒请求处理数量(QPS)数据与CPU的利用率(CPU%)数据对的样本数据分成5份,将其中1份样本数据作为测试集样本数据,将其余4份样本数据作为训练集样本数据训练构造的线型回归模型得到一个每秒请求处理数量(QPS)随CPU的利用率(CPU%)变化关系的线性回归模型。
构造线型回归模型:
hθ(x)=θ01x;
其中因变量hθ(x)为表征所述分布式集群处理所述指定的软件服务业务的能力的性能指标每秒请求处理数量(QPS);
自变量x为制约所述性能指标的分布式集群的资源参数CPU的利用率(CPU%),θ0和θ1分别为需要确定的回归系数。
设置初始化的θ0和θ1的值,将训练集样本数据中的每个CPU的利用率(CPU%)数据代入所述模型,得到与所述θ0和θ1以及所述CPU的利用率(CPU%)数据相应的每秒请求处理数量(QPS)的计算值hθ(x)。
令代价函数
其中J(θ01)表示所述θ0和θ1的情况下的代价函数,
m为机器学习算法所利用的训练集样本数据的样本数,
hθ(xi)为按照所述回归系数(θ0和θ1)所对应的每秒请求处理数量(QPS)和CPU的利用率(CPU%)关系的线性回归模型hθ(x)=θ01x,利用训练集样本数据中的第i个CPU的利用率(CPU%)数据计算得到的每秒请求处理数量(QPS)的计算值,
yi为训练集样本数据中的训练集样本数据中与第i个CPU的利用率(CPU%)数据相对应的每秒请求处理数量(QPS)的实际值。
判断是否满足结束本次训练线型回归模型的条件,所述结束本次训练线型回归模型的条件包括:
所述根据代价函数J(θ01)的值与设定的阈值的差值在设定的可接受范围内,或调整θ0和θ1的大小的次数达到了设定阈值等。
若不满足上述的结束本次训练线型回归模型的条件,则分别调整θ0和θ1的大小,再次将训练集样本数据中的每个CPU的利用率(CPU%)数据代入所述模型,得到与调整后的θ0和θ1以及所述CPU的利用率(CPU%)数据相对应的每秒请求处理数量(QPS)的计算值hθ(x)并计算所述θ0和θ1情况下的代价函数J(θ01)的值后,再次判断是否满足结束本次训练的条件。依此类推,直至满足结束本次训练所述线型回归模型的条件,结束本次训练。
进行一次训练,得到一组回归系数(θ0和θ1)所对应的每秒请求处理数量(QPS)和CPU的利用率(CPU%)关系的线性回归模型后,利用训练集样本数据计算训练集样本数据所对应的拟合优度并利用测试集样本数据计算测试集样本数据所对应的拟合优度指标。
所述拟合优度可以采用下述方式得到:
令总体平方和为:
回归平方和为:
残差平方和为:
拟和优度为:
其中m为样本数据的数量;
yi表示样本数据中第i个每秒请求处理数量(QPS)的实际值;
表示样本数据中所有每秒请求处理数量(QPS)的实际值的算术平均值;
表示按照所述回归系数(θ0和θ1)所对应的每秒请求处理数量(QPS)和CPU的利用率(CPU%)关系的线性回归模型hθ(x)=θ01x,利用样本数据中第i个CPU的利用率(CPU%)数据计算得到的每秒请求处理数量(QPS)的计算值。
分别利用训练集样本数据和测试集样本数据按照以上公式计算得到本次训练所得到的所述回归系数(θ0和θ1)所对应的每秒请求处理数量(QPS)和CPU的利用率(CPU%)关系的线性回归模型hθ(x)=θ01x的训练集样本数据所对应的拟合优度和测试集样本数据所对应的拟合优度。
至此完成一次训练和拟合优度的计算。
将前一次训练集样本数据中没有做过测试集样本数据的一份样本数据作为下一次训练和拟合优度的计算的测试集样本数据,其余4份样本数据作为下一次训练和拟合优度的计算的训练集样本数据,再次进行训练和拟合优度指标的计算。依此类推,直到所有5份样本数据都作为测试集样本数据进行过相应的训练和拟合优度的计算,即一共进行5次上述的训练和拟合优度的计算。
利用5次训练后计算得到的5个训练集样本数据的拟合优度和5个测试集拟合优度,分别累加求和再平均计算得到5次平均训练集样本数据的拟合优度和5次平均测试集样本数据的拟合优度。
判断所述计算得到的5次平均训练集样本数据的拟合优度与5次平均测试集样本数据的拟合优度是否满足下述两个条件:
条件一,所述5次平均训练集样本数据的拟合优度与5次平均测试集样本数据的拟合优度的差值在预先设定的数值范围内;
条件二,所述5次平均训练集样本数据的拟合优度和5次平均测试集样本数据的拟合优度都分别超过预先设定的各自的阈值。
当满足上述两个条件时,利用前一步骤获取到的包含所述分布式集群样的每秒请求处理数量(QPS)数据和相应的CPU的利用率(CPU%)数据对的所有的样本数据,再次采用机器学习算法训练所述设定的线型回归模型,将这次训练得到的回归系数(θ0和θ1)所对应的线型回归模型确定为每秒请求处理数量(QPS)和CPU的利用率(CPU%)关系的线性回归模型。
例如对于前面步骤中所述包含25台节点设备的,提供软件服务(SaaS)的分布式集群,已经确定了性能指标为每秒请求处理数量(QPS),资源参数为CPU的利用率(CPU%)并且获取了连续5天业务繁忙时间段9:00-24:00的所述每秒请求处理数量(QPS)数据和CPU的利用率(CPU%)数据,利用所述数据,进行上述5此训练和拟合优度计算后,得到5次平均训练集样本数据的拟合优度和5次平均测试集样本数据的拟合优度分别为0.76669和0.768。并且所述拟合优度都超过了设定的阈值。再次利用所有的样本数据作为训练集样本数据,再次采用机器学习算法训练设定的现行回归模型,得到回归系数(θ0和θ1)分别为2985.93931917和7285.05289461。
最终确定所述性能指标(每秒请求处理数量(QPS))与所述资源参数(CPU的利用率(CPU%))的关系模型为:
y=2985.93931917+7285.05289461x
其中y代表每秒请求处理数量(QPS),x代表CPU的利用率(CPU%)。
步骤S104,根据所述关系模型确定所述分布式集群处理所述指定业务的能力。
根据前面步骤中确定的所述性能指标与所述资源参数的关系模型,当所述资源参数达到其取值的上限值时,能够计算得到所述性能指标的最大值。
当利用一个节点设备的所述性能指标的数据和所述制约所述性能指标的分布式集群资源参数数据确定所述性能指标与所述资源参数的关系模型时,该所述性能指标的最大值就代表了所述分布式集群中一个节点设备处理所述指定的业务的能力的上限。所述性能指标的最大值乘以所述分布式集群中的节点数量得到的乘积值就代表了所述分布式集群处理所述指定的业务的能力的上限。
一旦知道了所述分布式集群处理所述指定的业务的能力的上限,还能够根据所述上限和当前所述分布式集群处理所述指定的业务的能力计算得到当前所述分布式就能处理所述指定的业务的能力水平,所述能力水平能够为***的资源和容量调整如增加,扩大或减少提供依据。
对于前面的步骤中包含25台节点设备,提供软件服务(SaaS)的分布式集群,已经确定了性能指标为每秒请求处理数量(QPS),资源参数为CPU的利用率(CPU%)并且根据一台节点设备的每秒请求处理数量(QPS)数据和CPU的利用率(CPU%)数据确定了二者的关系模型为:y=2985.93931917+7285.05289461x的情况,当CPU的利用率(CPU%)达到100%时,可以得到所述节点设备处理所述软件服务(SaaS)的上限值为每秒10270.9922个请求处理,在乘以所述集群内节点设备的数量25,就能够确定所述分布式集群处理所述软件服务(SaaS)的上限为10270.9922×25=256774.805个请求处理。
对于上述根据上述提供软件服务(SaaS)的分布式集群,可以根据其当前的整体每秒请求处理数量(QPS)值与所述上限值的比值来决定是否需要对所述提供软件服务(SaaS)分布式集群进行扩容或增加相应的CPU资源等。当所述比值超过设定的阈值时,表明需要对所述分布式集群进行扩容或增加/更新相应的软硬件模块。
以上为本申请的一种评估分布式集群处理指定业务的能力的方法的实施例,该方法能够基于实际的业务数据对在线运行的分布式集群相应的业务处理能力进行评估,无需额外地调整在线运行的分布式集群业务***的配置或额外搭建测试的硬件环境。能够避免影响在线运行的分布式集群的业务服务,达到降低评估成本的效果。
相应的,本申请的第二实施例提供一种评估分布式集群处理指定业务的能力的装置,其结构框图如图4所示,该装置包括以下单元:指标与参数确定单元U201,获取单元U202,关系模型确定单元U203和处理能力评估单元U204。
所述指标与参数确定单元U201,用于确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数。
优选地,所述指标与参数确定单元U201可以包括:性能指标确定子单元和资源参数确定子单元。
当所述性能指标确定子单元,用于将***每秒能够处理的事务的数量作为分布式集群处理计算密集型业务的能力的性能指标时,所述资源参数确定子单元,用于将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
当所述性能指标确定子单元,用于将存储容量作为分布式集群处理存储密集型业务的能力的性能指标时,所述资源参数确定单元,用于将网络流量带宽,磁盘使用率或磁盘输入输出利用率作为制约所述性能指标的分布式集群的资源参数。
当所述性能指标确定子单元,用于将每秒请求处理数量作为分布式集群处理软件服务业务的能力的性能指标时,所述资源参数确定子单元,用于将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
当所述性能指标确定子单元,用于确定用于评估分布式集群处理指定业务的能力的性能指标时,所述资源参数确定子单元,用于根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数。
优选地,所述资源参数确定子单元可以包括表格制作子单元和资源参数确定第二子单元,或者包括散点图绘制子单元和资源参数确定第二子单元。
当所述资源参数确定子单元可以包括表格制作子单元和资源参数确定第二子单元时,所述表格制作子单元,用于制作所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的数据表格;
所述资源参数确定第二子单元,用于根据所述数据表格内所述性能指标随所述分布式集群资源参数变化的规律来确定制约所述性能指标的所述分布式集群的资源参数。
当所述资源参数确定子单元包括散点图绘制子单元和资源参数确定第二子单元时,所述散点图绘制子单元用于绘制所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的散点图。所述资源参数确定第二子单元,用于根据所述散点图中各个点的分布规律来确定制约所述性能指标的所述分布式集群的资源参数。
所述获取单元U202,用于获取所述性能指标数据以及所述资源参数数据。
所述关系模型确定单元U203,用于利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型。
优选地,所述关系模型确定单元U203能够具体用于利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法,构造并确定所述性能指标随所述资源参数变化的线性回归模型。或者所述关系模型确定单元U203能够具体用于利用所述性能指标数据以及所述资源参数的数据,采用5折交叉检验机器学习算法构造检验并确定所述性能指标随所述资源参数关系变化的线型回归模型。
所述处理能力评估单元U204,用于根据所述关系模型确定所述分布式集群处理所述指定业务的能力。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (21)

1.一种评估分布式集群处理指定业务的能力的方法,特征在于,包括以下步骤:
确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数;
获取所述性能指标数据以及所述资源参数数据;
利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型;
根据所述关系模型确定所述分布式集群处理所述指定业务的能力。
2.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述性能指标包括:
CPU利用率,内存利用率,每秒能够处理的事务的数量,每秒请求处理数量,***负载,TCP会话连接数,磁盘使用率,磁盘输入输出利用率,每秒读写操作次数,网络流量带宽,访问量,访问用户数,在线用户数,交易创建量,交易付款量,消息推送量,关键搜索量或数据存储流量。
3.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述资源参数包括:
CPU利用率,内存利用率,每秒能够处理的事务的数量,每秒请求处理数量,***负载,TCP会话连接数,磁盘使用率,磁盘输入输出利用率,每秒读写操作次数,网络流量带宽,访问量,访问用户数,在线用户数,交易创建量,交易付款量,消息推送量,关键搜索量,存储容量或数据存储流量。
4.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
将***每秒能够处理的事务的数量作为分布式集群处理计算密集型业务的能力的性能指标;
将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
5.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
将存储容量作为分布式集群处理存储密集型业务的能力的性能指标;
将网络流量带宽,磁盘使用率或磁盘输入输出利用率作为制约所述性能指标的分布式集群的资源参数。
6.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
将每秒请求处理数量作为分布式集群处理软件服务业务的能力的性能指标;
将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
7.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数包括:
确定用于评估分布式集群处理指定业务的能力的性能指标;
根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数。
8.根据权利要求7所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数包括:
制作所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的数据表格;
根据所述数据表格内所述性能指标随所述分布式集群资源参数变化的规律来确定制约所述性能指标的所述分布式集群的资源参数。
9.根据权利要求7所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数包括:
绘制所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的散点图;
根据所述散点图中各个点的分布规律来确定制约所述性能指标的所述分布式集群的资源参数。
10.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述性能指标数据以及所述资源参数数据包括:
所述指定的业务繁忙时的所述性能指标数据以及所述资源参数数据。
11.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型包括:
利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法,构造并确定所述性能指标随所述资源参数变化的线性回归模型。
12.根据权利要求1所述的评估分布式集群处理指定业务的能力的方法,其特征在于,所述利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型包括:
利用所述性能指标数据以及所述资源参数的数据,采用5折交叉检验机器学习算法构造检验并确定所述性能指标随所述资源参数关系变化的线型回归模型。
13.一种评估分布式集群处理指定业务的能力的装置,特征在于,包括以下单元:
指标与参数确定单元,用于确定用于评估分布式集群处理指定业务的能力的性能指标和制约所述性能指标的所述分布式集群的资源参数;
获取单元,用于获取所述性能指标数据以及所述资源参数数据;
关系模型确定单元,用于利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法确定所述性能指标与所述资源参数的关系模型;
处理能力评估单元,用于根据所述关系模型确定所述分布式集群处理所述指定业务的能力。
14.根据权利要求13所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述指标与参数确定单元包括:
性能指标确定子单元,用于将***每秒能够处理的事务的数量作为分布式集群处理计算密集型业务的能力的性能指标
资源参数确定子单元,用于将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
15.根据权利要求13所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述指标与参数确定单元包括:
性能指标确定子单元,用于将存储容量作为分布式集群处理存储密集型业务的能力的性能指标;
资源参数确定子单元,用于将网络流量带宽,磁盘使用率或磁盘输入输出利用率作为制约所述性能指标的分布式集群的资源参数。
16.根据权利要求13所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述指标与参数确定单元包括:
性能指标确定子单元,用于将每秒请求处理数量作为分布式集群处理软件服务业务的能力的性能指标;
资源参数确定子单元,用于将CPU的利用率作为制约所述性能指标的分布式集群的资源参数。
17.根据权利要求13所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述指标与参数确定单元包括:
性能指标确定子单元,用于确定用于评估分布式集群处理指定业务的能力的性能指标;
资源参数确定子单元,用于根据所述用于评估分布式集群处理指定业务的能力的性能指标与所述分布式集群资源参数的相关性,确定制约所述性能指标的所述分布式集群的资源参数。
18.根据权利要求17所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述资源参数确定子单元包括:
表格制作子单元,用于制作所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的数据表格;
资源参数确定第二子单元,用于根据所述数据表格内所述性能指标随所述分布式集群资源参数变化的规律来确定制约所述性能指标的所述分布式集群的资源参数。
19.根据权利要求17所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述资源参数确定子单元包括:
散点图绘制子单元,用于绘制所述用于评估分布式集群处理指定业务的能力的性能指标和各种所述分布式集群资源参数的散点图;
资源参数确定第二子单元,用于根据所述散点图中各个点的分布规律来确定制约所述性能指标的所述分布式集群的资源参数。
20.根据权利要求13所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述关系模型确定单元具体用于利用所述性能指标数据以及所述资源参数的数据,采用机器学习算法,构造并确定所述性能指标随所述资源参数变化的线性回归模型。
21.根据权利要求13所述的评估分布式集群处理指定业务的能力的装置,特征在于,所述关系模型确定单元具体用于利用所述性能指标数据以及所述资源参数的数据,采用5折交叉检验机器学习算法构造检验并确定所述性能指标随所述资源参数关系变化的线型回归模型。
CN201610590194.4A 2016-07-25 2016-07-25 一种评估分布式集群处理指定业务的能力的方法和装置 Active CN107659595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610590194.4A CN107659595B (zh) 2016-07-25 2016-07-25 一种评估分布式集群处理指定业务的能力的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610590194.4A CN107659595B (zh) 2016-07-25 2016-07-25 一种评估分布式集群处理指定业务的能力的方法和装置

Publications (2)

Publication Number Publication Date
CN107659595A true CN107659595A (zh) 2018-02-02
CN107659595B CN107659595B (zh) 2021-06-25

Family

ID=61126312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610590194.4A Active CN107659595B (zh) 2016-07-25 2016-07-25 一种评估分布式集群处理指定业务的能力的方法和装置

Country Status (1)

Country Link
CN (1) CN107659595B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874640A (zh) * 2018-05-07 2018-11-23 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN108924213A (zh) * 2018-06-27 2018-11-30 北京金山安全软件有限公司 一种服务器的qps控制方法、装置及电子设备
CN109039801A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 分布式集群的套餐超用检测方法及装置、计算设备
CN109800138A (zh) * 2018-12-18 2019-05-24 平安科技(深圳)有限公司 一种cpu测试方法、电子装置及存储介质
CN109815146A (zh) * 2019-01-18 2019-05-28 深圳壹账通智能科技有限公司 流量分配方法、装置、计算机设备及存储介质
WO2020029328A1 (zh) * 2018-08-09 2020-02-13 网宿科技股份有限公司 缓存服务器的io性能评估方法和装置
CN110830384A (zh) * 2019-09-30 2020-02-21 浙江口碑网络技术有限公司 业务流量的限流方法、装置及***
CN111182301A (zh) * 2018-11-12 2020-05-19 北京眼神科技有限公司 一种图像压缩时选择最优量化参数的方法、装置、设备及***
CN111431748A (zh) * 2020-03-20 2020-07-17 支付宝(杭州)信息技术有限公司 一种对集群进行自动运维的方法、***及装置
CN111897865A (zh) * 2020-08-13 2020-11-06 工银科技有限公司 一种etl工作负载的动态调整方法及装置
WO2020238965A1 (zh) * 2019-05-31 2020-12-03 深圳前海微众银行股份有限公司 生产环境的性能评估方法、装置及存储介质
CN112101576A (zh) * 2020-09-09 2020-12-18 上海松鼠课堂人工智能科技有限公司 分布式设备使用机器学习模型聚合***
CN112579383A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 模拟***故障的方法及装置
CN114051000A (zh) * 2021-11-17 2022-02-15 中国工商银行股份有限公司 基于时间序列模型的业务流量切流方法及装置
CN115499305A (zh) * 2022-07-29 2022-12-20 天翼云科技有限公司 一种分布式集群存储设备的部署方法、装置及电子设备
US11816542B2 (en) 2019-09-18 2023-11-14 International Business Machines Corporation Finding root cause for low key performance indicators

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831012A (zh) * 2011-06-16 2012-12-19 日立(中国)研究开发有限公司 多节点分布式***中的任务调度装置和任务调度方法
CN105046327A (zh) * 2015-06-03 2015-11-11 王宝会 一种基于机器学习技术的智能电网信息***及方法
CN105095230A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 确定目标数据分析应用的性能预测模型的方法及装置
WO2015184729A1 (en) * 2014-06-05 2015-12-10 Tsinghua University Method and system for hyper-parameter optimization and feature tuning of machine learning algorithms
CN105550746A (zh) * 2015-12-08 2016-05-04 北京旷视科技有限公司 机器学习模型的训练方法和训练装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831012A (zh) * 2011-06-16 2012-12-19 日立(中国)研究开发有限公司 多节点分布式***中的任务调度装置和任务调度方法
CN105095230A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 确定目标数据分析应用的性能预测模型的方法及装置
WO2015184729A1 (en) * 2014-06-05 2015-12-10 Tsinghua University Method and system for hyper-parameter optimization and feature tuning of machine learning algorithms
CN105046327A (zh) * 2015-06-03 2015-11-11 王宝会 一种基于机器学习技术的智能电网信息***及方法
CN105550746A (zh) * 2015-12-08 2016-05-04 北京旷视科技有限公司 机器学习模型的训练方法和训练装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874640A (zh) * 2018-05-07 2018-11-23 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN108924213B (zh) * 2018-06-27 2021-06-18 北京金山安全软件有限公司 一种服务器的qps控制方法、装置及电子设备
CN108924213A (zh) * 2018-06-27 2018-11-30 北京金山安全软件有限公司 一种服务器的qps控制方法、装置及电子设备
CN109039801A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 分布式集群的套餐超用检测方法及装置、计算设备
CN109039801B (zh) * 2018-06-29 2021-09-28 北京奇虎科技有限公司 分布式集群的套餐超用检测方法及装置、计算设备
US11106561B2 (en) 2018-08-09 2021-08-31 Wangsu Science & Technology Co., Ltd. Method and device for evaluating IO performance of cache servers
WO2020029328A1 (zh) * 2018-08-09 2020-02-13 网宿科技股份有限公司 缓存服务器的io性能评估方法和装置
CN111182301A (zh) * 2018-11-12 2020-05-19 北京眼神科技有限公司 一种图像压缩时选择最优量化参数的方法、装置、设备及***
CN109800138B (zh) * 2018-12-18 2022-07-08 平安科技(深圳)有限公司 一种cpu测试方法、电子装置及存储介质
CN109800138A (zh) * 2018-12-18 2019-05-24 平安科技(深圳)有限公司 一种cpu测试方法、电子装置及存储介质
CN109815146A (zh) * 2019-01-18 2019-05-28 深圳壹账通智能科技有限公司 流量分配方法、装置、计算机设备及存储介质
WO2020238965A1 (zh) * 2019-05-31 2020-12-03 深圳前海微众银行股份有限公司 生产环境的性能评估方法、装置及存储介质
US11816542B2 (en) 2019-09-18 2023-11-14 International Business Machines Corporation Finding root cause for low key performance indicators
CN112579383A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 模拟***故障的方法及装置
CN110830384A (zh) * 2019-09-30 2020-02-21 浙江口碑网络技术有限公司 业务流量的限流方法、装置及***
CN111431748A (zh) * 2020-03-20 2020-07-17 支付宝(杭州)信息技术有限公司 一种对集群进行自动运维的方法、***及装置
CN111431748B (zh) * 2020-03-20 2022-09-30 支付宝(杭州)信息技术有限公司 一种对集群进行自动运维的方法、***及装置
CN111897865A (zh) * 2020-08-13 2020-11-06 工银科技有限公司 一种etl工作负载的动态调整方法及装置
CN112101576A (zh) * 2020-09-09 2020-12-18 上海松鼠课堂人工智能科技有限公司 分布式设备使用机器学习模型聚合***
CN112101576B (zh) * 2020-09-09 2021-07-30 上海松鼠课堂人工智能科技有限公司 分布式设备使用机器学习模型聚合***
CN114051000A (zh) * 2021-11-17 2022-02-15 中国工商银行股份有限公司 基于时间序列模型的业务流量切流方法及装置
CN115499305A (zh) * 2022-07-29 2022-12-20 天翼云科技有限公司 一种分布式集群存储设备的部署方法、装置及电子设备
CN115499305B (zh) * 2022-07-29 2024-04-26 天翼云科技有限公司 一种分布式集群存储设备的部署方法、装置及电子设备

Also Published As

Publication number Publication date
CN107659595B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN107659595A (zh) 一种评估分布式集群处理指定业务的能力的方法和装置
Toro-Díaz et al. Joint location and dispatching decisions for emergency medical services
Wilson Boltzmann, Lotka and Volterra and spatial structural evolution: an integrated methodology for some dynamical systems
Groff ‘Situating’simulation to model human spatio‐temporal interactions: An example using crime events
CN110147925B (zh) 一种风险决策方法、装置、设备及***
CN106020928A (zh) 用专用实施资源进行虚拟资源成本追踪
Sing et al. Dynamic modeling of workforce planning for infrastructure projects
WO2022156731A1 (zh) 信息处理方法及装置、服务器及用户设备
Šperka et al. Control loop model of virtual company in BPM simulation
Hosny et al. Development of infrastructure projects sustainability assessment model
Rak Response time analysis of distributed web systems using QPNs
Niu et al. Modeling the population and industry distribution impacts of urban land use policies in Beijing
Mattsson et al. Circulation of a digital community currency
Tillema et al. Evaluating the effects of urban congestion pricing: Geographical accessibility versus social surplus
WO2017016403A1 (zh) 确定业务对象品牌指数信息的方法及装置
Grinberger et al. Simulating urban resilience: Disasters, dynamics and (synthetic) data
Prskawetz The role of social interactions in demography: An agent-based modelling approach
Masuda et al. Agent based simulation with data driven parameterization for evaluation of social acceptance of a geothermal development: a case study in Tsuchiyu, Fukushima, Japan
Javadi et al. Identification and fixing bottlenecks of a food manufacturing system using a simulation approach
González Canché Spatial econometrics and network analysis as means to assess the assumption of independence in higher education research
Ozaki et al. Integration of B-to-B trade network models of structural evolution and monetary flows reproducing all major empirical laws
Afandizadeh et al. A fuzzy intervening opportunity model to predict home-based shopping trips
KR102610787B1 (ko) 사용자의 성향 분석을 위한 설문 조사 데이터 분석 방법 및 시스템
Levy et al. The Everyone City: How ICT-Based Participation Shapes Urban Form
Akinola et al. Approaches to Addressing Service Selection Ties in Ad Hoc Mobile Cloud Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant