CN111597253B

CN111597253B - 一种基于Quota的集群模糊控制容量规划方法

Info

Publication number: CN111597253B
Application number: CN202010257399.7A
Authority: CN
Inventors: 李胜; 林煜南
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-11-07
Anticipated expiration: 2040-04-03
Also published as: CN111597253A

Abstract

一种基于Quota的集群模糊控制容量规划方法，包括以下步骤：步骤1：根据用户方提供的保存周期、每日数据增量折算为Quota；步骤2：创建集群region，设计抽象出两层逻辑的概念rack和region来规划集群；步骤3：预留free‑rack缓冲池，定位在10％的free‑rack；所有的集群共享一个弹性云的free池；步骤4：按照模糊控制容量规划策略计算每个region的调整量count；步骤5：去重操作；步骤6：查询每个region的任务，依次检查每个region正在执行中的扩缩容任务和缩容任务。本发明提高集群资源利用率。

Description

一种基于Quota的集群模糊控制容量规划方法

技术领域

本发明涉及大数据组件Elasticsearch中集群资源规划问题，尤其涉及基于Quota(配额)管控的索引模版在Elasticsearch集群中的容量规划算法改进的领域。

背景技术

在互联网企业中，随着基于大数据Elasticsearch引擎搭建的搜索存储平台优化迭代过程中，各类自适应规划算法层出不穷，力求对用户创建的索引数据进行高效合理的管控，提高集群资源利用率的同时又大大减少人工运维成本。但是随着自适应容量规划算法的应用,带来的运维成本不断凸显，并且存在集群单节点故障的可能，随着各种集群自适应算法应用和时间推移，业务需求的不断接入，这种故障变得不再可控。

对比某一互联网企业的自适应集群容量规划算法可知，根据同一个索引模板来创建的索引数据每天都会分配到不同的集群节点上，这种算法存在以下几个问题：

(1)数据热点。算法会一次性将集群中某个节点的空闲空间打满，经常出现一个节点上存在某个超大数据量的索引，这种情况对后期运维非常不友好，涉及磁盘告警和数据搬迁时操作复杂，耗时较长；

(2)不可容错性。要求自适应集群规划算法任务每天都要成功，不得失败，因为索引模板分配的节点只能承接一天的量；

(3)影响模版范围广。在当前自适应规划算法状态下，侧重于空闲的节点，用户索引模版数据会不均匀分配到多个集群节点中，有些节点存储模版量多，有些节点存储模版量小，一旦出现集群某节点故障，该故障节点存在大量模版的情况下，造成严重的数据丢失，后果不堪设想。

(4)固化的写入瓶颈。基于配额管控用户的索引模板时，当配额内的磁盘被打满时，容量规划算法下只能通过停止用户写入来管控。但是，对索引中过期数据的处理显然比停止用户写入来得更优雅。

虽然这种自适应规划算法在一定程度上提升了集群的资源利用率，降低了需要人工手动分配集群资源带来的运维成本。但是随着业务需求的发展，自适应算法带来其他方面的运维成本不断凸显，一定程度降低集群的稳定性。因此，需要更有效的集群容量规划策略来解决当前的痛点。

发明内容

为了克服已有技术的不足，本发明提供了一种基于Quota的集群模糊控制容量规划方法，将集中于集群级别的资源规划，集群资源规划中的数据存储单元为索引模板，其大小是基于Quota来管控的，不在支持索引资源需求量的自适应；实现一个能够作用于任何集群、任何索引模板保存周期的固定资源分配的规划算法；能够定期的检查各个索引模板的资源是否能够满足Quota需求，并根据统计做出扩缩容调整；提高集群资源利用率，会保证每个region的资源利用率在合理的范围内，每个模板会占用的资源会固定在region中。

本发明解决其技术问题所采用的技术方案是：

一种基于Quota的集群模糊控制容量规划方法，包括以下步骤：

步骤1：模版数据Quota初始化，根据用户方提供的保存周期、每日数据增量折算为Quota；

Quota＝(user_apply*day)/cap_node

其中，user_apply为用户申请的资源，day为保存天数，cap_node为每个机器节点的磁盘规格；

步骤2：创建集群region，设计抽象出两层逻辑的概念rack和region来规划集群，作用层面在region，集群与节点的关系如下所示：

其中，R为集群区域region，r为机架rack，n为rack的个数，n的范围为3<n<20；当节点磁盘容量disk大于等于m时，意味着一个rack包含着2个节点，当磁盘容量disk小于m时，一个rack则包括4个节点；

region创建策略：

2.1、每个rack按着磁盘空闲空间大到小排序；

2.2、每个索引模板按着磁盘需求量大到小排序；

2.3、依次为每个索引模板分配足够的rack，组成region,一个region最少由3个rack组成,否则region无意义；

region创建的过程，就是将集群的索引模板按着一定的规则分成几组，每组模板共享一部分资源，这部分资源构成了一个region；

步骤3：预留free-rack缓冲池，为了保证集群的稳定性，数据的高可用，不会因为节假日暴增的数据量击溃集群，每个集群需要确保有一定的free-rack作为缓冲，定位在10％的free-rack；所有的集群共享一个弹性云的free池；

步骤4：按照模糊控制容量规划策略计算每个region的调整量count，即需要扩缩容的量，策略在容量规划任务和容量检测任务得以体现：

步骤5：去重操作，检查每个region的资源，根据region的count操作，如果需要扩容，处理如下：

5.1)获取上次该region的扩缩容任务信息；

5.2)获取指定数量的rack，获取到足够的rack；如果获取rack失败，需要知会运维人员；

5.3)为该region生成一条状态为执行中的扩容任务，或者修改上次还没有完成的任务；

5.4)确保一个region执行中的任务只有一条，修改region中的索引模板占有的rack。

步骤6：查询每个region的任务，依次检查每个region正在执行中的扩缩容任务，如果是扩容任务：计算扩容的rack的平均磁盘空间已经达到region内平均磁盘利用率的界限，则关闭该任务；如果是缩容任务：计算释放的rack的平均磁盘空间空闲率已经达到期望值，则关闭该任务，该界限可以人工指定，推荐范围80％～95％。

进一步，所述步骤4)的过程为：

4.1容量规划任务，规划region资源；

4.2容量检查任务。

再进一步，所述4.1的过程为：

4.1.1定时执行：每天运行一次，凌晨执行；

4.1.2算法目标：尽量保证每个region在接下来的一天中资源是充足的；

4.1.3算法策略包括水位设计、模糊控制模型输入参数计算、模糊控制容量规划模型构建。

更进一步，所述4.1.3的过程为；

4.1.3.1水位线设计原则：

最低水位线初始化设置为60％，保证集群规划后的region使用率在百分之高低水位线直接；高水位线初始化设置为80％，针对PB级数据量的节假日场景，集群得到了较好的缓冲性和稳定性。

其中，num1、num2为水位线初始化常量,为每个region的容量；

结合上述创建region后,依次检查每个region，要求每个region的资源利用率在合理范围之内，方便可控；如果不符合，需要根据模糊控制容量规划策略做出资源调整，以满足资源利用率在合理的范围，资源利用率的范围如下：

Low<rate<High

其中，Low为低水位线，High为高水位线，rate为每个region的资源利用率；

4.1.3.2模糊控制容量规划模型的输入参数设计：

把rate_region作为模糊控制容量规划模型的输入参数，即region的资源利用率,具体设计原则如下：

根据某个模版过去一段时间cpu消耗率和用户申请的quota值，引入超***系数t，计算出region中某个模版消耗的cpu和磁盘消耗率,取较大者作为模版分配额，最后对某个region累加每个索引模版的quota配额，再除以节点数，获得该region的资源利用率；

相关参数计算如下：

其中，索引模版中的acquire_disk和acquire_cpu分别为

acquire_disk＝t*disk_actual+(1-t)*quota_disk*hot_rate

acquire_cpu＝t*cpu_actual+(1-t)quota_cpu

其中：系数t决定集群的超***，0≤t≤1，越接近1，集群的超***越高；hot_rate表示每个模板热数据的比例；disk_actual表示模板过去的一段时间实际的磁盘消耗；quota_disk表示用户申请的quota中占的磁盘容量；cpu_actual表示模板过去一段时间实际的cpu消耗，这个值是模板的tps、qps、文档大小、索引个数等因子共同决定的；quota_cpu表示用户申请的quota中包含的cpu核数；

4.1.3.3模糊控制容量规划模型构建如下：

本模型输出值作为扩缩容的节点数目，其中：

count＝f(rate_region)

f(x)单变量二维模糊控制模型；rate_region单个region的资源利用率。

count＝0,表示资源利用率达标；

count>0,表示资源利用率大于高水位线，需要扩容，扩容的节点数为count的绝对值；

count<0,表示资源利用率小于低水位线，需要缩容，缩容的节点数为count的绝对值；

其中，构建f(h)＝count模型流程如下：

4.1.3.3.1)确定观测量

集群region低水位线为Low，高水位线为High，实际测得的水位高度为h，上下限液位差Δe如下:

h-Low≤Δe≤h-High

其中对于高低水位线的偏差量Δe作为观测值。

4.1.3.3.2)定义输入输出模糊集

Δe的模糊集均为：{NB,NM,NS,ZO,PS,PM,PB}，其中负大(NB)、负中(NM)负小(NS)、零(ZO)、正小(PS)、正中(PM)正大(PB)，其中N1、N2为经验值，以下出现N1、N2皆为该意义；

Δe论域，即变化范围为：{-3，-2，-1，0，1，2，3}，得到如下集群region水位变化划分表1，表1为集群region水位变化划分表；

表1

控制量count为调节集群region的变化阀门，将其分为五个模糊集：负大(NB)、负中(NM)负小(NS)、零(ZO)、正小(PS)、正中(PM)正大(PB)，并将count的变化范围分为九个等级：-4，-3，-2，-1，0，+1，+2，+3，+4，得到集群region控制量模糊划分表2：

表2

4.1.3.1.3)模糊规则的描述

根据日常的经验，设计以下模糊规则：

“若Δe负大，则count负大”

“若Δe负中，则count负中”

“若Δe负小，则count负小”

“若Δe为0，则count为0”

“若Δe正小，则count正小”

“若Δe正中，则count正中”

“若Δe正大，则count正大”

其中，region利用率调整时，count为负，减少，count为正，增加。

上述规则采用“IF A THEN B”形式来描述：

ifΔe＝NB then count＝NB

ifΔe＝NM then count＝NM

ifΔe＝NS then count＝NS

ifΔe＝0 then count＝0

ifΔe＝PS then count＝PS

ifΔe＝PM then count＝PM

ifΔe＝PB then count＝PB

由上经验规则，得模糊控制规则表3。

若

NBe

NMe

NSe

ZOe

PSe

PMe

PBe

则

NBc

NMc

NSc

ZOc

PSc

PMc

PBc

表3

4.1.3.3.4)求模糊关系

模糊控制规则是一个多条语句，它可以表示为U×V上的模糊子集，即模糊关系R：

R＝(NBe×NBc)∪(NMe×NMc)∪(NSe×NSc)∪(ZOe×ZOc)∪(PSe×PSc)∪(PMe×PMc)∪(PBe×PBc)

由上模糊关系，其中规则内的模糊集运算取交集，规则间的模糊集运算取并集，求得

4.1.3.3.5)模糊核心决策

集群region调整输出量为一模糊向量其中，/>为矩阵的合成运算；

4.1.3.3.6)根据上述控制输出模糊向量v，再反模糊化得到调整节点count。

优选的，反模糊化方法采用最大隶属度法，选取推理结果模糊集合中隶属度最大的元素作为输出值，即：

count＝maxμ_v(v),v∈R

如果在输出论域V中，其最大隶属度对应的输出值多于一个，则取所有具有最大隶属度输出的平均值，即：

最大隶属度法不考虑输出隶属度函数的形状，只考虑最大隶属度处的输出值；

若根据隶属度最大原则进行反模糊化，1对应的隶属度为-4，故选择控制量为count＝-4。

所述4.2，容量检查任务的过程为：

4.2.1)执行周期：根据不同场景，定期运行；

4.2.2)算法目标：确保流量突增、用户申请扩容等场景下的资源充足；

4.2.3)算法策略：

依次检查每个region的实际的资源利用率，如果rate<High即资源利用率超过高水位线时则扩容其中

rate＝max(disk_rate,cpu_rate)

4.2.4)扩缩容策略

count＝f(rate_region)

如上描述，f(x)为单变量二维模糊控制模型，count＝0表示资源利用率达标；count>0表示资源利用率大于高水位线，需要扩容，扩容的节点数为count；count<0表示资源利用率小于低水位线，需要缩容，缩容的节点数为count。

本发明的基于Quota的集群模糊控制容量规划方法，过程为：模版数据Quota化、创建集群region、预留region free-rack缓冲池、根据模糊控制容量规划策略获取每个region的调整量count、再由count维度执行region资源规划和region资源检测任务、任务去重操作。

本发明的有益效果主要表现在：1，集群资源规划中的数据存储单元为索引模板，其大小是基于Quota来管控的，不在支持索引资源需求量的自适应；2，实现一个能够作用于任何集群、任何索引模板保存周期的固定资源分配的规划算法,3，该算法能够定期的检查各个索引模板的资源是否能够满足Quota需求，并根据统计做出扩缩容调整；4，提高集群资源利用率，算法会保证每个region的资源利用率在合理的范围内，每个模板会占用的资源会固定在region中。

附图说明

图1为本发明实施例集群资源分配示意图；

图2为balance-diff策略示意图；

图3是balance-diff策略收益图；

图4为本发明实施例容量规划算法流程图；

图5为本发明实施例region检查任务流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于Quota的集群模糊控制容量规划方法，包括以下步骤：

Quota＝(user_apply*day)/cap_node

其中，user_apply为用户申请的资源，day为保存天数，cap_node为每个机器节点的磁盘规格，例如：数据总量为200G，每台机器磁盘为3T，则Quota＝200/(3*1024)；若保存周期为3天，每日数据增量为100G，Quota＝(3*100)/(3*1024)；

步骤2：创建集群region，在传统容量规划的方式中，作用层面局限于集群中单个物理节点node，处理相同集群数据量，次数多、并发度高，本发明设计抽象出两层逻辑的概念rack和region来规划集群，作用层面在region，类似虚拟技术，集群与节点的关系如下所示：

其中，R为集群区域region，r为机架rack，n为rack的个数，n的范围为3<n<20，针对不同的机型disk不同，这里我们选择中等机型的磁盘容量(GB)为临界点用m代替，可以更合理高效管控集群中的每一个节点；当节点磁盘容量disk大于等于m时，意味着一个rack包含着2个节点，当磁盘容量disk小于m时，一个rack则包括4个节点。

region创建策略：

2.1、每个rack按着磁盘空闲空间大到小排序；

2.2、每个索引模板按着磁盘需求量大到小排序；

region创建的过程，就是将集群的索引模板按着一定的规则分成几组，每组模板共享一部分资源，这部分资源构成了一个region，组织模板时需要做一定的文章来尽量提高region的资源利用率，可通过balance-diff策略；

步骤3：预留free-rack缓冲池，为了保证集群的稳定性，数据的高可用，不会因为节假日暴增的数据量击溃集群，每个集群需要确保有一定的free-rack作为缓冲，一般传统做法是对集群物理node保持20％～30％的free-source，而本设计做法一，因为抽象出两层逻辑概念来规划集群，增大了每次处理的作用面积，所以定位在10％的free-rack比较合适；做法二，可以是所有的集群共享一个弹性云的free池，这一做法，使得usage资源和free资源相互隔离，不会产生集群中资源交互污染,很多中小型企业及时有弹性云也不会用来做free池；

步骤4：按照以下模糊控制容量规划策略计算每个region的调整量count，即需要扩缩容的量，策略在容量规划任务和容量检测任务得以体现：

4.1容量规划任务，规划region资源

4.1.1定时执行：每天运行一次，凌晨执行(业务低峰期)

4.1.2算法目标：尽量保证每个region在接下来的一天中资源是充足的

4.1.3.1水位线设计原则：

鉴于作用region层面的资源规划,传统资源规划方式处理后，使用率可能出现不足30％的情况，集群成本如此高的情况下出现大面积空闲资源。在此，为了保证较高的资源利用率，避免成本的不必要浪费，故最低水位线初始化设置为60％，保证集群规划后的region使用率在百分之高低水位线直接；高水位线初始化设置为80％，针对PB级数据量的节假日场景，集群得到了较好的缓冲性和稳定性。

其中，num1、num2为水位线初始化常量,为每个region的容量；

结合上述创建region后,依次检查每个region，要求每个region的资源利用率在合理范围之内，方便可控；如果不符合，需要根据模糊控制容量规划策略做出资源调整，以满足资源利用率在合理的范围。资源利用率的范围如下：

Low<rate<High

其中，Low为低水位线，High为高水位线，rate为每个region的资源利用率。

4.1.3.2模糊控制容量规划模型的输入参数设计：

根据某个模版过去一段时间cpu消耗率和用户申请的quota值，引入超***系数t，计算出region中某个模版消耗的cpu和磁盘消耗率,取较大者作为模版分配额，最后对某个region累加每个索引模版的quota配额，再除以节点数，获得该region的资源利用率。

Claims

1.一种基于Quota的集群模糊控制容量规划方法，其特征在于，所述方法包括以下步骤：

Quota＝(user_apply*day)/cap_node

其中，R为集群区域region，r为机架rack，n为rack的个数，n的范围为3<n<20，m为中等机型的磁盘容量；当节点磁盘容量disk大于等于m时，意味着一个rack包含着2个节点，当磁盘容量disk小于m时，一个rack则包括4个节点；

region创建策略：

2.1、每个rack按着磁盘空闲空间大到小排序；

2.2、每个索引模板按着磁盘需求量大到小排序；

5.1)获取上次该region的扩缩容任务信息；

5.4)确保一个region执行中的任务只有一条，修改region中的索引模板占有的rack；

步骤6：查询每个region的任务，依次检查每个region正在执行中的扩缩容任务，如果是扩容任务：计算扩容的rack的平均磁盘空间已经达到region内平均磁盘利用率的界限，则关闭该任务；如果是缩容任务：计算释放的rack的平均磁盘空间空闲率已经达到期望值，则关闭该任务，该界限人工指定；

所述步骤4)的过程为：

4.1容量规划任务，规划region资源；

4.2容量检查任务；

所述4.1的过程为：

4.1.1定时执行：每天运行一次，凌晨执行；

4.1.3算法策略包括水位设计、模糊控制模型输入参数计算、模糊控制容量规划模型构建；

所述4.1.3的过程为；

4.1.3.1水位线设计原则：

最低水位线初始化设置为60％，保证集群规划后的region使用率在高低水位线之间；高水位线初始化设置为80％，针对PB级数据量的节假日场景，集群得到了较好的缓冲性和稳定性；

其中，num1、num2为水位线初始化常量,为每个region的容量；

Low<rate<Hight

4.1.3.2模糊控制容量规划模型的输入参数设计：