CN110289994B - 一种集群容量调整方法及装置 - Google Patents

一种集群容量调整方法及装置 Download PDF

Info

Publication number
CN110289994B
CN110289994B CN201910492221.8A CN201910492221A CN110289994B CN 110289994 B CN110289994 B CN 110289994B CN 201910492221 A CN201910492221 A CN 201910492221A CN 110289994 B CN110289994 B CN 110289994B
Authority
CN
China
Prior art keywords
cluster
servers
preset
started
preset threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910492221.8A
Other languages
English (en)
Other versions
CN110289994A (zh
Inventor
郭升挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Wangsu Co Ltd
Original Assignee
Xiamen Wangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Wangsu Co Ltd filed Critical Xiamen Wangsu Co Ltd
Priority to CN201910492221.8A priority Critical patent/CN110289994B/zh
Publication of CN110289994A publication Critical patent/CN110289994A/zh
Application granted granted Critical
Publication of CN110289994B publication Critical patent/CN110289994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种集群容量调整方法及装置,其中方法为:将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据所述集群特征向量,确定所述集群需要开启的第一服务器数量;所述配置信息为所述集群在所述预设时刻服务能力的属性信息,所述处理信息为所述集群在所述预设时刻需要处理数据量的属性信息;按照预设周期或者接收调整所述集群的服务器数量的调整请求,并根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整;所述第二服务数量为所述集群在所述预设时刻实际开启的服务器数量。

Description

一种集群容量调整方法及装置
技术领域
本发明涉及集群控制领域,尤其涉及一种集群容量调整方法及装置。
背景技术
集群包括多个服务器,这些服务器拥有共享数据存储空间,各服务器通过内部局域网相互通信,一个集群中开启的服务器数量决定了集群的处理能力。集群中开启的服务器数量又称为集群容量。集群需要根据实际场景调整该集群的容量。
调整集群容量有两种常见情形,第一种情形,当需要处理的数据超过集群处理数据的能力时,说明集群容量不能满足当前的数据处理需求,需要增加开启的服务器数量,即扩容;第二种情形,当需要处理数据的未超过集群处理数据能力时,减少一部分的服务器也能达到数据处理要求,则需要一部分关闭集群中已开启的服务器以节约计算资源,即缩容。
现有技术中,对集群容量进行调整的方式为:根据集群当前的数据处理量和健康指标值与预设的压测性能指标或者集群健康指标的阈值比较结果,对集群容量进行调整。其中,压测性能指标为集群在当前开启的服务器数量下,能处理数据的上限值,健康指标为表征集群正常运行状态的指标,如请求处理时长。但是,这种人工设定阈值的方法主观性较大,而且集群容量需求有分布规律,在一个预设周期的不同时段,集群容量需求会有变化,集群在一个时段的容量需求可能不适用于另一个时段,因此单一设定阈值的方法也难以适用多个时段的容量需求,不具有实时性。
因此,现有技术中人工设定阈值的方法主观性较大,单一设定阈值的方法也难以适用多个时段的容量需求,不具有实时性的问题亟待解决。
发明内容
本申请实施例提供一种集群容量调整方法及装置,解决了现有技术中人工设定阈值的方法主观性较大,单一设定阈值的方法也难以适用多个时段的容量需求,不具有实时性是一个亟待解决的问题。
本申请实施例提供了一种集群容量调整方法,包括:将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据所述集群特征向量,确定所述集群需要开启的第一服务器数量;所述配置信息为所述集群在所述预设时刻服务能力的属性信息,所述处理信息为所述集群在所述预设时刻需要处理数据量的属性信息;按照预设周期或者接收调整所述集群的服务器数量的调整请求,并根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整;所述第二服务数量为所述集群在所述预设时刻实际开启的服务器数量。
可选的,所述根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整,包括:若所述第一服务器数量减去所述第二服务器数量的第一差值大于或等于第一预设阈值,则增加所述集群开启的服务器数量至第三服务器数量;所述第三服务器数量减去所述第一服务器数量的第二差值的绝对值小于所述第一预设阈值;所述第一预设阈值为正整数;若所述第一差值小于或等于第二预设阈值,则减小所述集群开启的服务器数量至第四服务器数量;所述第四服务器数量减去所述第一服务器数量的第三差值的绝对值小于所述第二预设阈值的绝对值;所述第二预设阈值为负整数。
可选的,所述第三服务器数量等于所述第一服务器数量,所述第一预设阈值为1;所述第四服务器数量等于所述第一服务器数量,所述第二预设阈值为-1。
可选的,所述根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整,还包括:若所述第一差值小于所述第一预设阈值且大于所述第二预设阈值,则保持所述集群的服务器开启数量为所述第二服务器数量不变。
可选的,所述根据所述集群特征向量,确定所述集群需要开启的第一服务器数量,包括:将所述集群特征向量输入至预训练的长短期记忆LSTM神经网络后,所述LSTM神经网络输出的服务器数量,作为所述第一服务器数量;其中,所述LSTM神经网络的训练数据集为:按预设时长内的时序采集的至少一条训练样本;所述至少一条训练样本中任一条训练样本为:由在该训练样本对应时刻采集的所述集群的配置信息、处理信息以及所述集群在该时刻实际开启的服务器数量,编码而成的特征向量;在根据所述训练数据集对所述LSTM神经网络训练的训练过程中,所述LSTM神经网络的舍弃率范围是0.5±0.1。
可选的,所述训练过程中,所述LSTM神经网络的误差计算方式为均方误差;所述LSTM神经网络权重参数的迭代更新方式为均方根反向传播RMSprop算法。
可选的,所述配置信息包括所述预设时刻的以下至少一项:所述集群可开启的服务器数量的上限值;所述集群压测的性能指标;所述集群中服务器的处理速率之和;所述处理信息包括单位时间内以下至少一项:所述集群的读请求次数;所述集群的写请求次数;所述集群的并发请求占所述单位时间内请求总次数的比值;所述集群中存储大小在预设存储空间范围内的文件占所述集群总存储空间的比值。
本申请实施例中,将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据所述集群特征向量,确定所述集群需要开启的第一服务器数量,而配置信息为所述集群在所述预设时刻服务能力的属性信息,且处理信息为所述集群在所述预设时刻需要处理数据量的属性信息,即第一服务器数量是根据集群在预设时刻的需要处理数据量和服务能力的属性信息确定出来的,有较强的实时性,而后再根据集群当前实际开启的第二服务器数量与第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整,从而具有实时性。
本申请提供一种集群容量调整装置,包括:确定模块,用于将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据所述集群特征向量,确定所述集群需要开启的第一服务器数量;所述配置信息为所述集群在所述预设时刻服务能力的属性信息,所述处理信息为所述集群在所述预设时刻需要处理数据量的属性信息;处理模块,用于按照预设周期或者接收调整所述集群的服务器数量的调整请求,并根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整;所述第二服务数量为所述集群在所述预设时刻实际开启的服务器数量。
可选的,所述调整模块具体用于:若所述第一服务器数量减去所述第二服务器数量的第一差值大于或等于第一预设阈值,则增加所述集群开启的服务器数量至第三服务器数量;所述第三服务器数量减去所述第一服务器数量的第二差值的绝对值小于所述第一预设阈值;所述第一预设阈值为正整数;若所述第一差值小于或等于第二预设阈值,则减小所述集群开启的服务器数量至第四服务器数量;所述第四服务器数量减去所述第一服务器数量的第三差值的绝对值小于所述第二预设阈值的绝对值;所述第二预设阈值为负整数。
可选的,所述第三服务器数量等于所述第一服务器数量,所述第一预设阈值为1;所述第四服务器数量等于所述第一服务器数量,所述第二预设阈值为-1。
可选的,所述调整模块还用于:若所述第一差值小于所述第一预设阈值且大于所述第二预设阈值,则保持所述集群的服务器开启数量为所述第二服务器数量不变。
可选的,所述确定模块具体用于:将所述集群特征向量输入至预训练的长短期记忆LSTM神经网络后,所述LSTM神经网络输出的服务器数量,作为所述第一服务器数量;其中,所述LSTM神经网络的训练数据集为:按预设时长内的时序采集的至少一条训练样本;所述至少一条训练样本中任一条训练样本为:由在该训练样本对应时刻采集的所述集群的配置信息、处理信息以及所述集群在该时刻实际开启的服务器数量,编码而成的特征向量;在根据所述训练数据集对所述LSTM神经网络训练的训练过程中,所述LSTM神经网络的舍弃率范围是0.5±0.1。
可选的,所述训练过程中,所述LSTM神经网络的误差计算方式为均方误差;所述LSTM神经网络权重参数的迭代更新方式为均方根反向传播RMSprop算法。
可选的,所述配置信息包括所述预设时刻的以下至少一项:所述集群可开启的服务器数量的上限值;所述集群压测的性能指标;所述集群中服务器的处理速率之和;所述处理信息包括单位时间内以下至少一项:所述集群的读请求次数;所述集群的写请求次数;所述集群的并发请求占所述单位时间内请求总次数的比值;所述集群中存储大小在预设存储空间范围内的文件占所述集群总存储空间的比值。
本申请实施例提供一种计算机程序产品,当计算机读取并执行所述计算机程序产品时,如本申请实施例提供的集群容量调整方法及可选方法被执行。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,如本申请实施例提供的集群容量调整方法及可选方法被执行。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,如本申请实施例提供的集群容量调整方法及可选方法被执行。
附图说明
图1为本申请实施例提供的一种集群容量调整方法的步骤流程图;
图2为本申请实施例提供的一种集群容量调整装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
集群是一组相互独立的服务器,每个服务器为一个计算机,利用高速通信网络组成一个单一的计算机***,并以单一***的模式加以管理,即对外逻辑上表现为一个服务器,物理上实际上包括多个服务器。
集群中的服务器拥有共享数据存储空间,各服务器通过内部局域网相互通信,当一台服务器发生故障时,它所运行的应用程序将由其他服务器自动接管。因此,集群能提高***的稳定性和网络中心的数据处理能力,具有较好的容错性和可扩展性。
一个集群可根据实际场景调整该集群中服务器的数量。举例来说,当需要处理数据的超过集群处理数据的能力时,说明已开启的服务器数量不足以支撑当前的数据处理需求,因此需要增加开启的服务器数量。此外,当需要处理数据的未超过集群处理数据能力时,不开启当前数量的服务器也能达到数据处理要求时,则需要一部分关闭集群中已开启的服务器以节约计算资源。
目前对集群容量进行调整的方式为:根据集群当前的数据处理量和健康指标值与预设的压测性能指标或者集群健康指标的阈值比较结果,对集群容量进行调整。其中,压测性能指标为集群在当前开启的服务器数量下,能处理数据的上限值,健康指标为表征集群正常运行状态的指标,如请求处理时长。但是,这种人工设定阈值的方法主观性较大,而且集群容量需求有分布规律,在一个预设周期的不同时段,集群容量需求会有变化,集群在一个时段的容量需求可能不适用于另一个时段。举例来说,集群处理的数据量有高峰期和低谷期,高峰期需要开启较多的服务器以满足服务质量,显然在高峰期设定的压测指标阈值和健康指标阈值不适用于低谷期,因此单一设定阈值的方法也难以适用多个时段的容量需求,不具有实时性。
为此,需要提供一种方法,解决现有技术中人工设定阈值的方法主观性较大,单一设定阈值的方法也难以适用多个时段的容量需求,不具有实时性的问题。
如图1所示,为本申请实施例提供的一种集群容量调整方法的步骤流程图。
步骤101:将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据集群特征向量,确定集群需要开启的第一服务器数量。
其中,配置信息为集群在预设时刻服务能力的属性信息,处理信息为集群在预设时刻需要处理数据量的属性信息;
步骤102:按照预设周期或者接收调整所述集群的服务器数量的调整请求,并根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整。
其中,第二服务数量为,集群在预设时刻的服务能力和需要处理数据量的条件下,实际开启的服务器数量。
步骤101中,一种可选实施方式为,配置信息包括预设时刻的以下至少一项:集群可开启的服务器数量的上限值;集群压测的性能指标;集群中服务器的处理速率之和。其中,集群在搭建时部署了多台服务器,但不是一直全部开启,在不同时间段开启的服务器数量也不相同,集群可开启的服务器数量的上限值即为集群在搭建时部署的全部服务器的数量。集群压测的性能指标为,在预设时刻集群开启的服务器数量下,能够处理的数据量之和,举例来说,在预设时刻开启的服务器数量为7台,这7台服务器能够处理的数据量之和,即为预设时刻集群压测的性能指标。需要说明的是,配置信息仅以上述实施可选方式列举的信息为例,不限于其它配置信息。
处理信息包括单位时间内以下至少一项:集群的读请求次数;集群的写请求次数;集群的并发请求占单位时间内请求总次数的比值;集群中存储大小在预设存储空间范围内的文件占集群总存储空间的比值。其中,单位时间指在预设时刻之前选取的一段时间,如1秒。集群的读请求次数为,集群在预设时刻之前单位时间内开启的服务器中每个服务器收到读请求次数之和;集群的写请求次数为,集群在预设时刻之前单位时间内开启的服务器中每个服务器收到写请求次数之和;集群的并发请求占单位时间内请求总次数的比值为,集群在预设时刻之前单位时间内,开启的服务器中每个服务器收到的并发请求次数之和与开启的服务器中每个服务器收到的请求次数总和的比值;集群中存储大小在预设存储空间范围内的文件占集群总存储空间的比值为,集群在预设时刻之间单位时间内,存储大小在预设存储空间范围内的文件与集群总存储空间的比值的平均值,举例来说,预设存储范围是1MB-50MB,统计在单位时间内,文件大小在1MB-50MB范围内的文件个数以及存储文件的总数,前者与后者的比值即为存储大小在预设存储空间范围内的文件占集群总存储空间的比值。需要说明的是,处理信息仅以上述可选实施方式列举的信息为例,不限于其它处理信息。
步骤101中,通过提取集群在预设时刻的配置信息和处理信息,编码为集群特征向量,从而表征集群在预设时刻的运行状态。因此,根据集群特征向量确定出的集群需要开启的第一服务器数量,是根据集群在预设时刻的运行状态确定的服务器数据,相对于人工设定阈值更有依据。
步骤101中,根据所述集群特征向量,确定所述集群需要开启的第一服务器数量,一种可选实施方式为,将所述集群特征向量输入至预训练的长短期记忆(long shortterm-memory,LSTM)神经网络后,LSTM神经网络输出的服务器数量,作为所述第一服务器数量。
LSTM神经网络按照集群正常运行的训练数据集训练而成,训练数据集为按照时间顺序提取的集群的历史配置信息和处理信息,由于LSTM神经网络是一种时间递归神经网络,适合于处理和预测时间序列有关的事件,因此训练后的LSTM神经网络能根据训练数据集中的历史数据,对相同时间段的集群需要开启的服务器数量做预测。
一种可选实施方式为,LSTM神经网络的训练数据集为按预设时长内的时序采集的至少一条训练样本,其中任一条训练样本为:由在该训练样本对应时刻采集的集群的配置信息、处理信息以及集群在该时刻实际开启的服务器数量,编码而成的特征向量。
获取到LSTM的训练数据集后,即根据训练数据集对LSTM神经网络进行训练,当损失值不再下降后得到一个稳定的LSTM神经网络,此时LSTM神经网络完成训练,最后保存训练后LSTM的参数。训练后的LSTM神经网络可根据预设时刻的集群特征向量输出预测的服务器数量。因此,本申请实施例可通过训练LSTM模型对集群服务能力进行建模,对集群在预设时刻的处理信息和配置信息的收集,利用LSTM神经网络对时序特征敏感的特点,通过训练好的LSTM神经网络对预设时刻的集群服务能力进行预测,输出预测的集群容量,从而具有较强的实时性,该方法优于传统的根据人工设定阈值和对集群进行压测的解决方案。
需要说明的是,训练后的LSTM神经网络不止一种,因此LSTM神经网络的参数取值组合也不止一种。举例来说,根据训练数据集对LSTM神经网络训练的训练过程中,LSTM神经网络的舍弃率范围在0.5±0.1内,LSTM神经网络的误差计算方式为均方误差;LSTM神经网络权重参数的迭代更新方式为均方根反向传播(root mean square prop,RMSprop)算法;LSTM神经网络的激活函数为双曲正切函数;LSTM神经网络的训练轮数为100±20,每批次训练输入至LSTM神经网络的训练样本个数范围是50±20。
步骤102中,若预测的集群容量大于当前实际集群容量,则进行集群扩容。若预测的集群容量小于当前实际集群容量,则不进行集群扩容或者降低集群容量。由于集群容量多开启一定数量或少开启一定数量的服务器并不影响集群的运行,因此,对集群容量的调整可以有多个选择,开启的服务器数量可以是一个范围。对所述集群开启的服务器数量进行调整的一种可选实施方式如下,该实施方式具体包括两种情形:
第一种情形,若所述第一服务器数量减去所述第二服务器数量的第一差值大于或等于第一预设阈值,则增加所述集群开启的服务器数量至第三服务器数量;所述第三服务器数量减去所述第一服务器数量的第二差值的绝对值小于所述第一预设阈值;所述第一预设阈值为正整数。其中,第一预设阈值为实验测得的在预测的集群需要开启的服务器数量允许波动的范围阈值。
举例来说,第一服务器数量为100,第二服务器数量为90,因此第一差值为10,第一预设阈值为6,所以需要增加集群开启的服务器数量至第三服务器数量,以保证集群的正常运行,第三服务器数量的范围是100±6,即94~106,开启的服务器数量在该范围内的集群均能正常运行。
第二种情形,若所述第一差值小于或等于第二预设阈值,则减小所述集群开启的服务器数量至第四服务器数量;所述第四服务器数量减去所述第一服务器数量的第三差值的绝对值小于所述第二预设阈值的绝对值;所述第二预设阈值为负整数。
举例来说,第一服务器数量为100,第二服务器数量为110,因此第一差值为-10,第一预设阈值为-3,所以需要降低集群开启的服务器数量至第四服务器数量以节约集群的资源,第四服务器数量的范围是100±3,即97~103,开启的服务器数量在该范围内的集群均能保证正常运行,又少开启了服务器,达到了节约资源目的。
第三种情形,若所述第一差值小于所述第一预设阈值且大于所述第二预设阈值,则保持所述集群的服务器开启数量为所述第二服务器数量不变。
在上述情形中,一种可选实施方式为,所述第三服务器数量等于所述第一服务器数量,所述第一预设阈值为1;所述第四服务器数量等于所述第一服务器数量,所述第二预设阈值为-1。该实施方式下,对服务器数量的变化更为敏感,即便预测的服务器数量与实际开启的服务器数量只差1台,也会对集群容量做调整。
本申请实施例中,将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据所述集群特征向量,确定所述集群需要开启的第一服务器数量,而配置信息为所述集群在所述预设时刻服务能力的属性信息,且处理信息为所述集群在所述预设时刻需要处理数据量的属性信息,即第一服务器数量是根据集群在预设时刻的需要处理数据量和服务能力的属性信息确定出来的,有较强的实时性,而后再根据集群当前实际开启的第二服务器数量与第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整,从而具有实时性。
如图2所示,为本申请实施例提供的一种集群容量调整装置的结构示意图。
本申请提供一种集群容量调整装置,包括:确定模块201,用于将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并根据所述集群特征向量,确定所述集群需要开启的第一服务器数量;所述配置信息为所述集群在所述预设时刻服务能力的属性信息,所述处理信息为所述集群在所述预设时刻需要处理数据量的属性信息;处理模块202,用于按照预设周期或者接收调整所述集群的服务器数量的调整请求,并根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整;所述第二服务数量为所述集群在所述预设时刻实际开启的服务器数量。
可选的,所述调整模块具体用于:若所述第一服务器数量减去所述第二服务器数量的第一差值大于或等于第一预设阈值,则增加所述集群开启的服务器数量至第三服务器数量;所述第三服务器数量减去所述第一服务器数量的第二差值的绝对值小于所述第一预设阈值;所述第一预设阈值为正整数;若所述第一差值小于或等于第二预设阈值,则减小所述集群开启的服务器数量至第四服务器数量;所述第四服务器数量减去所述第一服务器数量的第三差值的绝对值小于所述第二预设阈值的绝对值;所述第二预设阈值为负整数。
可选的,所述第三服务器数量等于所述第一服务器数量,所述第一预设阈值为1;所述第四服务器数量等于所述第一服务器数量,所述第二预设阈值为-1。
可选的,所述调整模块还用于:若所述第一差值小于所述第一预设阈值且大于所述第二预设阈值,则保持所述集群的服务器开启数量为所述第二服务器数量不变。
可选的,所述确定模块201具体用于:将所述集群特征向量输入至预训练的长短期记忆LSTM神经网络后,所述LSTM神经网络输出的服务器数量,作为所述第一服务器数量;其中,所述LSTM神经网络的训练数据集为:按预设时长内的时序采集的至少一条训练样本;所述至少一条训练样本中任一条训练样本为:由在该训练样本对应时刻采集的所述集群的配置信息、处理信息以及所述集群在该时刻实际开启的服务器数量,编码而成的特征向量;在根据所述训练数据集对所述LSTM神经网络训练的训练过程中,所述LSTM神经网络的舍弃率范围是0.5±0.1。
可选的,所述训练过程中,所述LSTM神经网络的误差计算方式为均方误差;所述LSTM神经网络权重参数的迭代更新方式为均方根反向传播RMSprop算法。
可选的,所述配置信息包括所述预设时刻的以下至少一项:所述集群可开启的服务器数量的上限值;所述集群压测的性能指标;所述集群中服务器的处理速率之和;所述处理信息包括单位时间内以下至少一项:所述集群的读请求次数;所述集群的写请求次数;所述集群的并发请求占所述单位时间内请求总次数的比值;所述集群中存储大小在预设存储空间范围内的文件占所述集群总存储空间的比值。
本申请实施例提供一种计算机程序产品,当计算机读取并执行所述计算机程序产品时,如本申请实施例提供的集群容量调整方法及可选方法被执行。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,如本申请实施例提供的集群容量调整方法及可选方法被执行。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,如本申请实施例提供的集群容量调整方法及可选方法被执行。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种集群容量调整方法,其特征在于,包括:
将集群在预设时刻的配置信息和处理信息编码为集群特征向量,并将所述集群特征向量输入至预训练的长短期记忆LSTM神经网络,将所述LSTM神经网络输出的服务器数量,作为所述集群在所述预设时刻需要开启的第一服务器数量;
其中,所述LSTM神经网络的训练数据集为:按预设时长内的时序采集的至少一条训练样本;所述至少一条训练样本中任一条训练样本为:由在该训练样本对应时刻采集的所述集群的配置信息、处理信息以及所述集群在该时刻实际开启的服务器数量,编码而成的特征向量;
所述配置信息为所述集群在所述预设时刻服务能力的属性信息,所述处理信息为所述集群在所述预设时刻需要处理数据量的属性信息;
按照预设周期或者接收调整所述集群的服务器数量的调整请求,并根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整;所述第二服务器数量为所述集群在所述预设时刻实际开启的服务器数量。
2.如权利要求1所述的方法,其特征在于,所述根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整,包括:
若所述第一服务器数量减去所述第二服务器数量的第一差值大于或等于第一预设阈值,则增加所述集群开启的服务器数量至第三服务器数量;所述第三服务器数量减去所述第一服务器数量的第二差值的绝对值小于所述第一预设阈值;所述第一预设阈值为正整数;
若所述第一差值小于或等于第二预设阈值,则减小所述集群开启的服务器数量至第四服务器数量;所述第四服务器数量减去所述第一服务器数量的第三差值的绝对值小于所述第二预设阈值的绝对值;所述第二预设阈值为负整数。
3.如权利要求2所述的方法,其特征在于,所述第三服务器数量等于所述第一服务器数量,所述第一预设阈值为1;所述第四服务器数量等于所述第一服务器数量,所述第二预设阈值为-1。
4.如权利要求2所述的方法,其特征在于,所述根据所述集群的第二服务器数量与所述第一服务器数量的大小关系,对所述集群开启的服务器数量进行调整,还包括:
若所述第一差值小于所述第一预设阈值且大于所述第二预设阈值,则保持所述集群的服务器开启数量为所述第二服务器数量不变。
5.如权利要求1-4任一所述的方法,其特征在于,
在根据所述训练数据集对所述LSTM神经网络训练的训练过程中,所述LSTM神经网络的舍弃率范围是0.5±0.1。
6.如权利要求5所述的方法,其特征在于,所述训练过程中,所述LSTM神经网络的误差计算方式为均方误差;所述LSTM神经网络权重参数的迭代更新方式为均方根反向传播RMSprop算法。
7.如权利要求1-4任一所述的方法,其特征在于,
所述配置信息包括所述预设时刻的以下至少一项:所述集群可开启的服务器数量的上限值;所述集群压测的性能指标;所述集群中服务器的处理速率之和;
所述处理信息包括单位时间内以下至少一项:所述集群的读请求次数;所述集群的写请求次数;所述集群的并发请求占所述单位时间内请求总次数的比值;所述集群中存储大小在预设存储空间范围内的文件占所述集群总存储空间的比值。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;其中,所述存储器存储有程序或指令,当所述程序或指令被所述处理器执行时,使得所述计算机设备执行如权利要求1至7中任意一项所述的方法。
9.一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
CN201910492221.8A 2019-06-06 2019-06-06 一种集群容量调整方法及装置 Active CN110289994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910492221.8A CN110289994B (zh) 2019-06-06 2019-06-06 一种集群容量调整方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910492221.8A CN110289994B (zh) 2019-06-06 2019-06-06 一种集群容量调整方法及装置

Publications (2)

Publication Number Publication Date
CN110289994A CN110289994A (zh) 2019-09-27
CN110289994B true CN110289994B (zh) 2022-04-08

Family

ID=68003522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910492221.8A Active CN110289994B (zh) 2019-06-06 2019-06-06 一种集群容量调整方法及装置

Country Status (1)

Country Link
CN (1) CN110289994B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111431741B (zh) * 2020-03-17 2023-04-21 北京奇艺世纪科技有限公司 服务上线方法、***、计算机设备及存储介质
WO2022119654A1 (en) * 2020-12-01 2022-06-09 Microsoft Technology Licensing, Llc Determining server farm capacity and performance
US11593147B2 (en) 2020-12-01 2023-02-28 Microsoft Technology Licensing, Llc Determining server farm capacity and performance
CN113031976B (zh) * 2021-03-26 2023-09-29 山东英信计算机技术有限公司 一种基于Ambari的集群容量管理方法、装置及介质
CN113485833B (zh) * 2021-07-09 2024-02-06 支付宝(杭州)信息技术有限公司 资源预测方法和装置
CN114640516B (zh) * 2022-03-09 2023-10-20 平安科技(深圳)有限公司 存储集群的访问控制方法和装置、电子设备、存储介质
CN115473802B (zh) * 2022-09-13 2024-02-23 重庆紫光华山智安科技有限公司 节点管理方法、***、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670621A (zh) * 2017-10-16 2019-04-23 优酷网络技术(北京)有限公司 神经网络预测方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470219A (zh) * 2015-08-17 2017-03-01 阿里巴巴集团控股有限公司 计算机集群的扩容和缩容方法及设备
US10747568B2 (en) * 2017-05-30 2020-08-18 Magalix Corporation Systems and methods for managing a cloud computing environment
CN109413147B (zh) * 2018-09-13 2021-09-21 深圳壹账通智能科技有限公司 服务节点的管理方法、装置、设备及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670621A (zh) * 2017-10-16 2019-04-23 优酷网络技术(北京)有限公司 神经网络预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Using Quantile Regression for Reclaiming Unused Cloud Resources while achieving SLA;Jean-Emile Dartois等;《2018 IEEE International Conference on Cloud Computing Technology and Science (CloudCom)》;20181231;全文 *

Also Published As

Publication number Publication date
CN110289994A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110289994B (zh) 一种集群容量调整方法及装置
CN106933650B (zh) 云应用***的负载管理方法及***
CN107229518B (zh) 一种分布式集群训练方法和装置
CN113010260B (zh) 容器数量弹性伸缩方法以及容器数量弹性伸缩方法***
WO2020253111A1 (zh) 区块链节点的自动扩容方法、装置、运维终端及存储介质
CN105893541B (zh) 一种基于混合存储的流式数据自适应持久化方法及***
CN105607952B (zh) 一种虚拟化资源的调度方法及装置
CN115097920A (zh) 一种调节服务器机箱的温度的方法、装置、服务器及介质
US20220156633A1 (en) System and method for adaptive compression in federated learning
CN112398700B (zh) 一种服务降级方法及装置、存储介质、计算机设备
CN115080248B (zh) 调度装置的调度优化方法、调度装置和存储介质
CN106973091B (zh) 分布式内存数据重分布方法及***、主控服务器
CN116467082A (zh) 一种基于大数据的资源分配方法及***
CN115550195A (zh) 流量抑制预测方法、电子设备、存储介质
US20220398021A1 (en) Workload management using a trained model
CN117112701B (zh) 分布式数据库中的节点切换方法、计算机设备及存储介质
CN113722072A (zh) 一种基于智能分流的存储***文件合并方法及装置
CN111506425B (zh) 服务质量数据处理方法和装置
CN113835626B (zh) 一种确定磁盘可使用时长的方法及装置
TWI718252B (zh) 任務調度方法和裝置
CN115913967A (zh) 一种云环境下基于资源需求预测的微服务弹性伸缩方法
CN110647381B (zh) 一种虚拟机资源均衡和部署优化方法
CN109828718B (zh) 一种磁盘存储负载均衡方法及装置
CN113254256B (zh) 数据重构方法、存储设备及存储介质
CN110278233B (zh) 一种负载调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant