CN106453546B

CN106453546B - 分布式存储调度的方法

Info

Publication number: CN106453546B
Application number: CN201610875745.1A
Authority: CN
Inventors: 张栗粽; 殷光强; 罗光春; 田玲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-10-08
Filing date: 2016-10-08
Publication date: 2019-05-07
Anticipated expiration: 2036-10-08
Also published as: CN106453546A

Abstract

本发明涉及分布式存储调度的方法，包括：a.建立评价指标：获得与m个存储节点相关的评价矩阵；b.数据标准化处理：对评价矩阵中的各数据消除量纲效应后，得到评价指标值矩阵；c.利用三角模糊数进行两两比较：得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量和加权评价矩阵，以及每个评价因素的权值；d.求得正负理想值：求得正负理想值和得各存储节点到理想值的距离，对各存储节点进行排序，选出最优的存储节点。本发明的方法，能够对调度过程中的各种影响因素进行综合分析，从而选择出最优选的存储节点进行响应，极大程度提高了网络远程分布式存储的数据传输性能和存储效率，明显改善了分布式存储的存储质量。

Description

分布式存储调度的方法

技术领域

本发明涉及云存储中的分布式存储方法，具体的讲是在云存储中进行分布式存储调度的方法。

背景技术

在分布式存储的领域中，Cinder是一种应用极为广泛的分布式存储架构，它的调度分为两个阶段，分别是filtering和weighting。当一个存储请求到来时，首先是filtering阶段将符合要求的存储节点筛选出来，在筛选中每个存储节点只有符合或不符合两种结果，符合要求则进入待weighting的队列，不符合要求则将其淘汰；之后执行weighting阶段，对符合要求的存储节点进行排序，选取最为合适的存储节点，由该存储节点为请求提供存储服务。当前filtering过程检验存储节点是否符合要求的标准是该存储节点是否有足够的存储空间能够执行该次的存储请求，如果有就将其放入队列以便之后的weighting过程使用，反之则不予考虑。之后的weighting过程基于剩余存储空间对合格存储节点进行排序，选取剩余存储空间最大的存储节点来提供服务。经过以上两步，一个发送到Cinder的请求的调度过程结束。

Cinder的调度方法在分布式存储的服务质量中起着关键的作用，但是当前的Cinder调度存在以下的问题：当前以剩余存储空间为唯一调度目标的调度方法并不能保证云存储的服务质量。例如，当某个存储节点的网络拥塞较严重但其剩余的存储空间是最大的时候，Cinder并不会意识到这一点，它还是会选取该存储节点来处理存储请求。但此时由于网络拥塞的影响显然该存储节点并不是最为理想的服务节点。进一步来说，Cinder这种只考虑存储节点剩余存储空间的调度方法并没有达到调度的综合性能最优。存储节点中影响服务质量的因素除剩余空间外还包括其它多种因素，只有将影响服务质量的多种因素综合考虑进来实现多维调度才能达到最佳的调度效果。

发明内容

本发明提供了一种分布式存储调度的方法，以克服目前单目标调度不能调度到性能最佳服务节点的缺陷，使对存储节点的选择方式更加全面，提高存储效率和质量。

本发明分布式存储调度的方法，包括步骤有：

a.建立评价指标：根据调度请求，收集对调度有影响的评价因素，然后分析出各所述评价因素和调度的相关性，获得与m个存储节点相关的评价矩阵，其中m为自然数；

b.数据标准化处理：对数据标准化是数据处理中常用的一种方式。本方法中是通过标准化公式对所述评价矩阵中的各数据消除量纲效应后，得到标准化之后的评价指标值矩阵；

c.利用三角模糊数进行两两比较：通过三角模糊数对所述评价指标值矩阵中的各存储节点两两比较，例如对于两个存储节点m和n之间的比较可以用r_mn＝(a,b,c)来表示，中值b表示重要程度，两个边界值a和c则用来表示模糊程度，当b减去a的差值越大时说明两个节点比较的模糊性越高，如果差值为0则说明该比较是非模糊的。同样的道理，表示节点n相对于节点m的重要度。然后得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量，并得到加权评价矩阵，对所述权重向量做归一化处理得到每个评价因素的权值；

d.求得正负理想值：在所述加权评价矩阵上求得正负理想值，通过加权的曼哈顿距离公式分别算出加权评价矩阵中各存储节点到正负理想值的距离，再使用接近度来定义综合性能，计算出各存储节点的综合评价值,根据各存储节点的综合评价值对各存储节点进行排序，选出综合评价值最小的存储节点作为调度请求的响应存储节点。

其中建立评价指标是进行分析的基础，影响调度的因素可以从调度请求发出到调度请求被某一存储节点处理这一全过程来进行分析。在这一过程中首先涉及到发出请求的客户端的因素，其次是传送请求的网络的因素，最后是处理请求的服务节点的因素。因此可以将所述的评价因素判断为包括有客户端因素、网络因素和服务端因素。

具体来看，客户端因素包括有客户端距服务端的路由跳数，也就是客户端到存储节点的距离因素；网络因素包括有网络传输过程中的丢包率、网络是否畅通等；服务端因素包括有处理器负载、内存使用率和存储空间占用率等。因此，路由跳数、丢包率、处理器负载、内存使用率和存储空间占用率这5个主要因素共同决定了存储的质量。

一种可选的方式为，步骤a中通过皮尔逊积矩相关系数分析出各所述评价因素和调度的相关性，可以得到调度相关性其中代表测试样本x的均值，同理代表y的均值，n代表样本容量，r的值介于负1到正1之间，为正值时说明具有正相关性，为负值时说明具有负相关性。

进一步的，步骤b中，根据评价矩阵中的各数据的优越程度与数据值大小的对应关系，采用不同的标准化公式进行量纲效应消除处理。例如对于数据值越大优越程度越优的数据p(i,j)可以采用标准化公式：p(i,j)＝n(i,j)/[n_max(i)+n_min(i)]；对于数据值越小优越程度越优的数据p(i,j)可以采用标准化公式：p(i,j)＝[n_max(i)+n_min(i)-n(i,j)]/[n_max(i)+n_min(i)]，其中n(i,j)表示评价矩阵N中的节点，n_max(i)表示第i个评价因素的最大值，n_min(i)表示第i个评价因素的最小值。

优选的，步骤d中通过加权的曼哈顿距离公式分别算出加权评价矩阵中各存储节点到正负理想值的距离。可以用表示存储节点i到正理想值的距离，用表示存储节点i到负理想值的距离。值的大小表明了存储节点i与正理想值直接的距离，该值越小则表明该存储节点越是接近正理想值；同理表明了存储节点i与负理想值之间的距离。例如当备选存储节点的计算参数设置为客户端距离服务端路由跳数、网络丢包率、CPU负载、内存使用率和剩余存储容量时，这些参数显然都是越小越好，所以这时最优节点就是离负理想值最近的存储节点。

本发明的分布式存储调度的方法，能够对调度过程中的各种影响因素进行综合分析，从而选择出最优选的存储节点进行响应，极大程度提高了网络远程分布式存储的数据传输性能和存储效率，明显改善了分布式存储的存储质量。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明分布式存储调度的方法的流程图。

具体实施方式

如图1所示本发明分布式存储调度的方法，步骤有：

a.建立评价指标：根据调度请求，收集对调度有影响的评价因素。根据调度的全过程，将评价因素分为发出请求的客户端的因素、传送请求的网络的因素、处理请求的服务节点的因素。其中客户端因素包括有客户端距服务端的路由跳数，网络因素包括有网络传输过程中的丢包率和网络是否畅通，服务端因素包括有处理器负载、内存使用率和存储空间占用率。

以这5个评价因素为基础，通过皮尔逊积矩相关系数分析各个影响因素和调度的相关性：

其中代表测试样本x的均值，同理代表y的均值，n代表样本容量，r的值介于负1到正1之间，为正值时说明具有正相关性，为负值时说明具有负相关性。

评价对象是实际存储卷的m个物理存储节点，可以表示为k_i∈K，其中i∈{1,2,3,…,m}。对于每个存储节点都有5个影响调度的因素要考虑，则可以建立m×5的评价矩阵N：

b.数据标准化处理：通过标准化公式对所述评价矩阵中的各数据消除量纲效应。根据评价矩阵中的各数据的优越程度与数据值大小的对应关系，采用不同的标准化公式进行量纲效应消除处理，例如“传输延迟”的优越程度是越小越好。对于数据值越大优越程度越优的数据p(i,j)可以采用标准化公式：p(i,j)＝n(i,j)/[n_max(i)+n_min(i)]；对于数据值越小优越程度越优的数据p(i,j)可以采用标准化公式：p(i,j)＝[n_max(i)+n_min(i)-n(i,j)]/[n_max(i)+n_min(i)]，其中n(i,j)表示评价矩阵N中的节点，n_max(i)表示第i个评价因素的最大值，n_min(i)表示第i个评价因素的最小值。

然后得到标准化之后的评价指标值矩阵N^·：

c.利用三角模糊数进行两两比较：通过三角模糊数对所述评价指标值矩阵中的各存储节点两两比较，共比较m(m-1)/2次。然后得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量，并得到加权矩阵T，对所述权重向量做归一化处理得到每个评价因素的权值。

例如有5个备选的存储节点，得到的加权矩阵T为：

对上述加权矩阵T变换为小数形式并求评价指标平均值之和得：

对判断矩阵使用计算模糊综合程度公式：i＝1,2,…,n，其中是判断矩阵中所计算的对应项的求和结果，是待求解项的权重。本实施例中是对5个评价指标进行计算，因此n＝5进而得到每个评价指标相对于其它评价指标的重要程度：

对于两个存储节点m和n之间的比较可以用r_mn＝(a,b,c)来表示，中值b为a和c的中值，表示重要程度，两个边界值a和c则用来表示模糊程度，当b减去a的差值越大时说明两个节点比较的模糊性越高，如果差值为0则说明该比较是非模糊的。同理，表示节点n相对于节点m的重要度。通过公式：

可以计算每个评价指标与其它评价指标相比的测度：同理可得：V(S₁≥S₅)＝0.417，V(S₂≥S₃)＝0.235，V(S₂≥S₄)＝0.228，V(S₂≥S₅)＝0.762，V(S₅≥S₃)＝0.396，V(S₅≥S₄)＝0.391，其余各比较值均为1。

再利用公式：和

d(P)＝minV(P≥P_x),x＝1,2,…,n；P≠P_i，可以得到每个评价因素的权重向量d(C_i)：

d(C₁)＝V(S₁≥S₂,S₃,S₄,S₅)＝min(0.65,1,1,0.417)＝0.417

d(C₂)＝V(S₂≥S₁,S₃,S₄,S₅)＝min(1,0.235,0.228,0.762)＝0.228

d(C₃)＝V(S₃≥S₁,S₂,S₄,S₅)＝min(1,1,1,1)＝1

d(C₄)＝V(S₄≥S₁,S₂,S₃,S₅)＝min(1,1,1,1)＝1

d(C₅)＝V(S₅≥S₁,S₂,S₃,S₄)＝min(1,1,0.396,0.391)＝0.391

其中P表示概率公式中随机事件发生可能性大小的量，P_n为对应的S_n的概率。

对各个权值做检验有：

d′(C₁)+d′(C₂)+d′(C₃)+d′(C₄)+d′(C₅)＝0.137+0.075+0.329+0.329+0.13＝1

其中d′(C_i)为d(C₁)～d(C₅)的计算数值除以它们的总和的值。

根据上式求得的客户端到各个存储节点的路由跳数、网络丢包率、CPU负载，内存使用率和磁盘空间使用量5个参数求解之后得到权值向量A：

A＝(a₁,a₂,a₃,a₄,a₅)＝(0.137,0.075,0.329,0,329,0.13)

用权值向量A代替三角模糊数判断矩阵R中的(r₁,r₂,r₃,r₄,r₅)，得到加权评价矩阵Z。

d.求得正负理想值：在所述加权评价矩阵Z上求得正负理想值，可以在矩阵Z上使用TOPSIS算法为存储节点进行排序，分别用Z⁺和Z^-表示，其中Z⁺由加权评价矩阵Z中各评价指标的最大值组成，Z^-则由加权评价矩阵Z中各评价指标的最小值组成：

然后通过加权的曼哈顿距离公式分别算出各个存储节点到正负理想值的距离：

其中i＝1,2,…,m，其中a_j是评价指标权值，x_ij是第i个存储节点的第j个评价指标的值，和分别为第j个评价指标到正、负理想值的距离，是存储节点i到正理想值的距离，是存储节点i到负理想值的距离，值的大小表明了存储节点i与正理想值直接的距离，该值越小则表明该存储节点越是接近正理想值，同理表明了存储节点i与负理想值之间直接的距离。

再使用接近度来定义综合性能，计算出各存储节点的综合评价值C：存储节点的综合性能与C_i的值负相关，由于本实施例中各存储节点的计算参数设置为客户端距离服务端路由跳数、网络丢包率、CPU负载、内存使用率和剩余存储容量，这些参数显然都是越小越好，所以这时最优的存储节点就是离负理想值D_i ^-最近的存储节点，因此当C_i取到0的时候，也就是与负理想值的距离为0的存储节点为最优的节点。因此根据各存储节点的C_i值，对各存储节点进行排序，选出C_i值最小的存储节点作为调度请求的响应存储节点。

Claims

1.分布式存储调度的方法，其特征包括：

b.数据标准化处理：通过标准化公式对所述评价矩阵中的各数据消除量纲效应后，得到标准化之后的评价指标值矩阵；

c.利用三角模糊数进行两两比较：通过三角模糊数对所述评价指标值矩阵中的各存储节点两两比较后，得到由三角模糊数组成的判断矩阵和每个评价因素的权重向量，并得到加权评价矩阵，对所述权重向量做归一化处理得到每个评价因素的权值；

d.求得正负理想值：在所述加权评价矩阵上求得正负理想值,通过加权的曼哈顿距离公式分别算出加权评价矩阵中各存储节点到正负理想值的距离，再使用接近度来定义综合性能，计算出各存储节点的综合评价值,根据各存储节点的综合评价值对各存储节点进行排序，选出综合评价值最小的存储节点作为调度请求的响应存储节点。

2.如权利要求1所述的分布式存储调度的方法，其特征为：所述的评价因素包括客户端因素、网络因素和服务端因素。

3.如权利要求2所述的分布式存储调度的方法，其特征为：客户端因素包括客户端距服务端的路由跳数；网络因素包括网络传输过程中的丢包率和网络是否畅通；服务端因素包括处理器负载、内存使用率和存储空间占用率。

4.如权利要求1至3之一所述的分布式存储调度的方法，其特征为：步骤a中通过皮尔逊积矩相关系数分析出各所述评价因素和调度的相关性。

5.如权利要求1至3之一所述的分布式存储调度的方法，其特征为：步骤b中，根据评价矩阵中的各数据的优越程度与数据值大小的对应关系，采用不同的标准化公式进行量纲效应消除处理。