CN114020207A

CN114020207A - 一种面向分布式存储网络的树形结构数据***方法

Info

Publication number: CN114020207A
Application number: CN202111035313.7A
Authority: CN
Inventors: 周子涵
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2022-02-08
Anticipated expiration: 2041-09-06

Abstract

本发明公开了一种面向分布式存储网络的树形结构数据***方法，包括以下步骤：收集存储网络内节点的位置信息；根据节点的位置，将所有存储节点分成K组；然后根据节点的故障率，在每组内对节点进行分类；利用演化博弈论构建博弈模型，使得每组内节点根据各自效用函数参与博弈，选出主节点；在每组内以主节点为根节点，构建树形结构的数据传输网络；在树形结构的数据传输网络基础上，利用节点直接异构链路带宽，构建最优分发树问题；基于改进蝴蝶优化算法求解最优分发树问题的最优解。本发明的优点是：通过分组并利用演化博弈论选出多个主节点，有效缓解节点负载不均衡问题，延长网络寿命，另外，基于改进蝴蝶算法构建最优分发树，有效提高数据***的速度，提升带宽资源利用率。

Description

一种面向分布式存储网络的树形结构数据***方法

技术领域

本发明涉及分布式存储***和数据存储领域，尤其涉及一种面向分布式存储网络的树形结构数据***方法。

背景技术

在当今大数据时代，激增的数据量给数据的存储带来了剧烈的挑战。根据 IDC发布的最新版***《Data Age 2025》所述，全球数据量到2025年将会激增到175ZB。近些年，分布式存储***因为其高可靠的存储服务能力能够为大量数据的存储需求提供解决方案而受到了广大的关注。在分布式存储***中，为了保证存储数据的可靠性和可用性，通常采用多副本技术和纠删码技术作为数据冗余技术。相比于多副本技术，纠删码技术因为能够以更少的存储空间消耗来获得相同的容错能力而在分布式存储***中得到广大青睐。

纠删码通常使用参数(n,k)表示，其中n表示编码块的数量，k表示数据块的数量。原始文件在存储到分布式存储***之前，首先被分成k个数据块，然后通过编码过程生成n个编码块。然后，n个编码块分别被存储到n个不同的存储节点中，这个过程被称为数据***。在分布式存储***中，数据***过程扮演着非常重要的角色。然而，大量的数据***往往意味着大量的网络带宽资源的损耗。因此，快速且高效地完成数据***过程对分布式存储***来说至关重要。

传统的数据***方法主要分为两类：顺序数据***和随机数据***，但是往往会存在级联错误和负载不均衡的问题。另外，根据***方式不同，数据***方法也可以分为集中式***和分散式***。前者通过一个源节点完成数据的编码和分发，导致源节点容易成为性能的瓶颈；后者往往需要和特殊的放置算法或编码方案相结合，不具备普遍性。总的来讲，现有的数据***方法在实用性、灵活性以及有效性方面研究不足，主要体现为一下方面：(1)现有研究未能充分考虑不同性能的存储节点的分组为数据的***带来的性能增益；(2)现有的数据***方法对异构分布式存储网络中节点之间数据传输的拓扑结构关注不足，而该拓扑结构能够对数据传输的效率产生很大的影响。

发明内容

为了解决以上的描述的问题，本发明提出了一种面向分布式存储网络的树形结构数据***方法，解决传统的数据***过程中存储节点负载不均衡以及数据传输效率不高的问题。首先根据存储节点部署的地理位置将存储节点分成K组，每一组负责存储一部分源数据，然后在每一组存储节点中选择出一个主节点负责接收来自数据中心的文件以及将接收到的文件编码成编码块发送到组内其余节点，从而避免了单个主节点接收和编码数据而产生的负载不均衡问题；最后，把主节点作为根节点，和组内其余节点连接构建树结构传输网络，并提出改进的蝴蝶优化算法去构建最优数据分发树结构，提高传输效率，降低数据***时间。

技术方案：为实现本发明的目的，本发明提供了一种面向分布式存储网络的树形结构数据***方法，包括一下步骤：

步骤一：在分布式存储***中，收集各个存储节点的位置信息，然后根据节点位置将存储节点分成K组，该组群可表示为C＝{c₁,c₂,c₃,…,c_K}；

步骤二：在每个组内利用演化博弈论方法选出一个主节点；

步骤三：在每组内构建树形结构的数据传输网络，其中每组内的主节点作为根节点，组内其余节点作为树干节点和叶节点；

步骤四：在上述构建的树形结构传输网络中，考虑节点之间异构的链路带宽，构建数据***时间最小化问题模型，利用改进的蝴蝶优化算法求取最优解。

所述步骤一包括以下步骤：

步骤(1.1)获取各个存储节点的位置相关信息

在分布式存储网络统计各个存储节点的位置，设置合适的分组数K，初始化 K个分组中心节点Z(1)＝{z₁(1),z₂(1),…,z_K(1)}，其中括号里面表示迭代数；

步骤(1.2)计算节点与各分组中心节点之间的距离

计算各个节点与各分组中心节点的距离，将距离最小的节点分配到中心节点对应的组别中；重复迭代操作，直到获得最终的K个分组。

所述步骤二包括以下步骤：

步骤(2.1)根据故障率将组内的节点进行分类

对组内的节点的故障率进行收集并排序，得到一个故障率门限值Rlth，然后各节点对比该门限值，若自身故障率小于该门限值，则划分为低故障率节点，表示为LF类节点；若自身故障率大于该门限值，则划分为高故障率节点，表示为 HF类节点；

步骤(2.2)构建演化博弈论的博弈模型

设计博弈模型为MNG＝{P,S,U}，其中P表示博弈参与方，包括LF类节点和 HF类节点；S表示博弈参与方的策略集，包括两种策略：选择成为主节点(MN)和选择成为非主节点(NMN)；U表示效用函数集；

步骤(2.3)参与方根据各自效用函数进行博弈，确定主节点

根据效用函数计算出各个参与节点的效用函数值，通过比较各节点效用函数，并分析演化博弈的纳什均衡，确定主节点。

所述步骤三包括以下步骤：

步骤(3.1)构建以主节点为根节点的树形数据传输网络

在各个分组内，以主节点作为根节点，链接组内的其他节点，构成树形数据传输网络结构，其中节点之间的带宽是异构的。

所述步骤四包括以下步骤：

步骤(4.1)构建树形结构的数据传输时间模型

基于上述构建的链路带宽异构的树形传输网络，计算每个节点的后代子节点，结合树当中每条边的链路带宽，构建每条边上累计传输数据的时间模型；

步骤(4.2)建立最优数据分发树优化问题

针对上述数据传输时间模型，统计当中的数据传输时间最大值，然后以该最大值为目标函数，加入实际问题附带的约束条件，建立一个最优分发树结构的优化问题；

步骤(4.3)求解最优分发树优化问题

以最小化目标函数为目标，利用改进的蝴蝶优化算法，求解出拥有最优解的最优分发树结构。

进一步地，所述步骤(1.2)计算节点与各分组中心节点之间的距离如下：

V＝{v₁,v₂,…,v_N}表示存储节点集合，C＝{c₁,c₂,…,c_K}表示分组集合，节点z_l表示组别c_l的中心节点，则在组别c_l中节点v_i和其中心节点的距离为：

其中获得中心节点z_l的计算方法为：

进一步地，步骤(2.3)参与方根据各自的支付矩阵计算如表1所示：

表1支付矩阵

其中，P_LF表示类LF节点的比例，P_HF表示类HF节点的比例，V_LF表示至少有一个LF类节点宣称成为主节点的支付成本，V_HF表示至少有一个类HF节点宣称成为主节点的支付成本，C_m表示成为主节点的成本；

令p_L表示LF类节点选择MN策略的概率，则其选择NMN策略的概率为(1-p_L)；令p_H表示HF类节点选择MN策略的概率，则其选择NMN策略的概率为(1-p_H)。则对于LF类节点而言，选择MN策略和选择NMN策略的期望的效用函数计算如下：

U_LF-MN＝p_H·P_LF(V_LF-C_m)+(1-p_H)·P_LF(V_LF-C_m)＝P_LF·V_LF-P_LF·C_m (3)

U_LF-NMN＝p_H·P_LF·V_LF+(1-p_H)·0＝p_H·P_LF·V_LF (4)

则LF类节点的平均收益可计算如下：

因此，LF类节点的复制动态分析等式可计算如下：

同理，针对HF类节点，可分别计算其选择MN策略和NMN策略的效用函数如下：

U_HF-MN＝p_L·P_HF(V_HF-C_m)+(1-p_L)·P_HF(V_HF-C_m)＝P_HF·V_HF-P_HF·C_m (7)

U_HF-NMN＝p_L·P_HF·V_HF+(1-p_L)·0＝p_L·P_HF·V_HF (8)

则HF类节点的平均收益计算如下：

其复制动态分析等式可计算如下：

通过对比博弈参与方(LF类节点和HF类节点)的效用函数以及对应的复制动态分析，可以确定主节点；

进一步地，步骤(4.1)构建树形结构的数据传输时间模型如下：

令

表示组别c_l中的节点V_li和V_lj之间的链路带宽，(V_li,V_lj)表示两个节点之间的边，

表示边(V_li,V_lj)上累计的数据传输量，单位为比特，S_lj表示节点V_lj的后代子节点数目，N_l表示组别c_l中的节点数。因此

可计算如下：

其中α_l表示单位数据传输量。令t_ls表示在树形结构中数据在边上的传输时间，所以数据传输时间模型可计算如下：

进一步地，步骤(4.2)建立最优数据分发树优化问题如下：

统计t_ls的最大值，以该最大值为目标函数，即表示为

且约束条件包括：

∑(V_li,V_lj)∈T_l(V_li,V_lj)＝N_l-2 (13)

0≤i≤j≤N_l-1 (14)

以最小化目标函数建立最优化问题为：

进一步地，步骤(4.3)求解最优分发树优化问题的具体步骤如下：

针对上述构建的最优化问题，利用改进的蝴蝶优化算法，求解出具有最优数据***时间

值的分发树，具体求解步骤包括：

子步骤(4.3.1)初始化算法的参数，根据上述步骤构建的树形网络初始化蝴蝶个***置；

子步骤(4.3.2)根据上述步骤给出的目标函数计算初始适应度值，计算切换概率P值用来判断当前个体进行全局搜索还是局部搜索，其中P值计算如下：

其中

表示第t次迭代的第i个蝴蝶的切换概率，p_max和p_min分别表示切换概率的最大值和最小值，

表示适应度值的最小值，

表示适应度值；

子步骤(4.3.3)引进自适应惯性权重ω(t)，进行蝴蝶位置的更新，其更新公式计算如下：

其中，ω_ini和ω_end表示初始阶段的惯性权重和迭代结束时的惯性权重值， Iter_max表示最大迭代数，

表示第i只蝴蝶在第t次迭代中的位置向量，r₁和r₂表示[0,1]之间的随机数，g^*表示全局最优位置，f_i,表示适应度值；

子步骤(4.3.4)重复前面几个子步骤的更新迭代，最终求出算法最优解。

本发明与现有技术相比，达到的有益效果如下：

1、在分布式存储网络中，如果通过一个主节点完成数据文件的接收、编码和转发，将会造成极大的负载不均衡，缩短网络的寿命，同时也会因为节点轮换造成不必要的资源浪费，本发明通过分组，并利用演化博弈论方法为每个组别确定主节点，有效地提高了存储网络寿命，同时多个主节点分担数据文件接收、编码和转发的任务，有效解决单个节点负载不均衡问题；

2、传统的数据存储方法是将整个数据文件进行编码，然后放置到存储网络中的各个节点中，因此数据的访问必须通过译码整个数据文件，存在较大的开销。然而，现如今大部分用户只对数据文件中的部分数据感兴趣，如此传统的数据存储无法满足用户需求。本发明将数据文件分成多份存储到不同的组别中，有助于用户只对感兴趣的部分数据进行访问，即只需要对相应的组别进行访问，避免了译码整个数据文件而带来的不必要的开销，满足了用户的需求；

3、本发明通过构建树形结构的传输网络，求解最优分发树问题，加快了数据放置速度，充分利用了存储节点网络带宽资源，提高了存储***的性能。

附图说明

图1是本发明实施例的算法流程图。

图2-1是本发明实施例的分组前主节点网络模型图。

图2-2是本发明实施例的分组后主节点选择的网络模型图。

图3是本发明实施例的基于演化博弈论的主节点选择方案比较图。

图4是本发明实施例的节点数为100的***时间比较图。

图5是本发明实施例的节点数为150的***时间比较图。

图6是本发明实施例的节点数为100的不同优化方案比较图。

图7是本发明实施例的节点数为150的不同优化方案比较图。

具体实施方式

下面将结合具体的实施方式和附图，对本发明的技术方案作进一步的阐明。

图1为本发明提出的面向异构分布式存储网络的基于分组辅助的树形结构数据***方法的流程图。本发明的基本思路在于将分布式存储网络内的存储节点根据节点位置分成K组；然后在每个组别中将存储节点按照故障率分类，并利用演化博弈论建立博弈模型，计算各个参与博弈节点的效用函数，选出主节点；之后在每个组内构建以主节点为根节点的树形网络数据传输结构，并根据树当中节点之间的链路带宽建立最优数据分发树优化问题；最后，基于改进的蝴蝶优化算法，求解最优数据分发树问题的最优解，获得最小的数据放置时间。

图2-1为本发明分布式存储网络节点分布图示例。图中模拟了数据中心以及各存储节点，其中各个存储节点的距离即为各个存储节点的位置信息与空间距离的模拟。

图2-2为本发明完成组内主节点确定之后的网络模型图，其中K＝4，每个组包含的节点数分别为10,12,13和9，MN₁，MN₂，MN₃和MN₄分别是四个组的主节点。详细的步骤包括：

步骤一：在分布式存储***中，收集各个存储节点的位置信息，然后根据节点位置将存储节点分成K＝4组，该组群可表示为C＝{c₁,c₂,c₃,c₄}；

步骤二：在每个组内利用演化博弈论方法选出一个主节点；

步骤三：在每组内构建树形结构的数据传输网络，其中每组内的主节点作为根节点，组内其余节点作为树干节点和叶节点。

其中，步骤一包括以下具体步骤：

步骤(1.1)获取各个存储节点的位置相关信息

在分布式存储网络统计各个存储节点的位置，设置分组数K＝4，初始化K 个分组中心节点Z(1)＝{z₁(1),z₂(1),z₃(1),z₄(1)}，其中括号里面表示迭代数；

步骤(1.2)计算节点与各分组中心节点之间的距离

计算各个节点与各分组中心节点的距离，将距离最小的节点分配到中心节点对应的组别中；重复迭代操作，直到获得最终的4个分组。

步骤二，为了确定主节点，需要完成以下具体步骤：

步骤(2.1)根据故障率将组内的节点进行分类

对组内的节点的故障率进行收集并排序，得到一个故障率门限值R_lth，然后各节点对比该门限值，若自身故障率小于该门限值，则划分为低故障率节点，表示为LF类节点；若自身故障率大于该门限值，则划分为高故障率节点，表示为 HF类节点；

步骤(2.2)构建演化博弈论的博弈模型

设计博弈模型为MNG＝{P,S,U}，其中P表示博弈参与方，包括LF类节点和 HF类节点；S表示博弈参与方的策略集，包括两种策略：选择成为主节点 (MN)和选择成为非主节点(NMN)；U表示效用函数集；

步骤(2.3)参与方根据各自效用函数进行博弈，确定主节点

图3为本发明提出的基于演化博弈论的主节点选择方法与其他传统方法的比较图，其中参与博弈节点总数为100。从图中可以看到，本发明所提出的方法具备更长的网络寿命，而且在相同的时刻，本发明提出的方法有着更多的存活的节点数。

在所述的步骤三，在每组内构建树形结构的数据传输网络，具体需要在各个分组内，以主节点作为根节点，链接组内的其他节点，构成树形数据传输网络结构，其中节点之间的带宽是异构的。

然后，在上述构建的树形结构传输网络中，考虑节点之间异构的链路带宽，构建数据***时间最小化问题模型，利用改进的蝴蝶优化算法求取最优解。其具体的步骤包括：

步骤(4.1)构建树形结构的数据传输时间模型如下：

令

可计算如下：

步骤(4.2)建立最优数据分发树优化问题如下：

统计t_ls的最大值，以该最大值为目标函数，即表示为

且约束条件包括：

∑(V_li,V_lj)∈T_l(V_li,V_lj)＝N_l-2

0≤i≤j≤N_l-1

以最小化目标函数建立最优化问题为：

值的分发树，具体求解步骤包括：

其中

表示适应度值的最小值，

表示适应度值；

图4和图5为本发明所提出的最优分发树方案与一般分发树方案的比较，其中节点数分别100和150，并且图中的20,30,40表示数据块数量。可以观察到所随着数据块数量的增加，***时间逐渐减小，这是因为在相同大小的数据文件条件下，数据块数量越多，每个数据块的尺寸越小，越利于传输。另外可以看出在不同的节点数和数据块数量情况下，提出的方案在性能上都要更优于一般分发树方案。

为了进一步展示本发明所提方案的良好性能，将其与其他传统的优化算法进行比较，结果如图6和图7所示，其中节点数分别是100和150，数据块数量同样设置为20,30和40。一方面，各个方案的数据***时间随着数据块的数量增加而减少；另一方面，本发明所提出的方案在不同的节点数和不同的数据块数量上都要比传统的方案要更好。

上述实施案例为本发明的部分实施方案，但是本发明的保护范围并不受限于上述案例，其他的任何熟悉本领域的人员在本发明揭露的技术范围内，未背离本发明的变化、替换、组合或简化，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向分布式存储网络的树形结构数据***方法，其特征在于，包括以下步骤：

步骤一：在分布式存储***中，收集各个存储节点的位置信息，然后根据节点位置将存储节点分成K组，该组群可表示为C＝{c₁，c₂，c₃，...，c_K}；

步骤二：在每个组内利用演化博弈论方法选出一个主节点；

步骤四：在上述构建的树形结构传输网络中，考虑节点之间异构的链路带宽，构建数据***时间最小化问题模型，利用改进的蝴蝶优化算法求取最优解；

所述步骤一包括以下步骤：

步骤(1.1)获取各个存储节点的位置相关信息；

在分布式存储网络统计各个存储节点的位置，设置合适的分组数K，初始化K个分组中心节点Z(1)＝{z₁(1)，z₂(1)，...，z_K(1)}，其中括号里面表示迭代数；

步骤(1.2)计算节点与各分组中心节点之间的距离

计算各个节点与各分组中心节点的距离，将距离最小的节点分配到中心节点对应的组别中；重复迭代操作，直到获得最终的K个分组；

所述步骤二包括以下步骤：

步骤(2.1)根据故障率将组内的节点进行分类

对组内的节点的故障率进行收集并排序，得到一个故障率门限值R_lth，然后各节点对比该门限值，若自身故障率小于该门限值，则划分为低故障率节点，表示为LF类节点；若自身故障率大于该门限值，则划分为高故障率节点，表示为HF类节点；

步骤(2.2)构建演化博弈论的博弈模型

设计博弈模型为MNG＝{P，S，U}，其中P表示博弈参与方，包括LF类节点和HF类节点；S表示博弈参与方的策略集，包括两种策略：选择成为主节点(MN)和选择成为非主节点(NMN)；U表示效用函数集；

步骤(2.3)参与方根据各自效用函数进行博弈，确定主节点

根据效用函数计算出各个参与节点的效用函数值，通过比较各节点效用函数，并分析演化博弈的纳什均衡，确定主节点；

所述步骤三包括以下步骤：

步骤(3.1)构建以主节点为根节点的树形数据传输网络

在各个分组内，以主节点作为根节点，链接组内的其他节点，构成树形数据传输网络结构，其中节点之间的带宽是异构的；

所述步骤四包括以下步骤：

步骤(4.1)构建树形结构的数据传输时间模型

步骤(4.2)建立最优数据分发树优化问题

步骤(4.3)求解最优分发树优化问题

2.根据权利要求1所述的一种面向分布式存储网络的树形结构数据***方法，其特征在于：

所述步骤(1.2)计算节点与各分组中心节点之间的距离如下：

V＝{v₁，v₂，...，v_N}表示存储节点集合，C＝{c₁，c₂，...，c_K}表示分组集合，节点z_l表示组别c_l的中心节点，则在组别c_l中节点v_i和其中心节点的距离为

J(c_l)＝∑v_i∈c_l||v_i-z_l||²

其中获得中心节点z_l的计算方法为

3.根据权利要求1所述的一种面向分布式存储网络的树形结构数据***方法，其特征在于：

步骤(2.3)参与方根据各自的支付矩阵计算如表1所示：

表1支付矩阵

U_LF-MN＝p_H·P_LF(V_LF-C_m)+(1-p_H)·P_LF(V_LF-C_m)＝P_LF·V_LF-P_LF·C_m

U_LF-NMN＝p_H·P_LF·V_LF+(1-p_H)·0＝p_H·P_LF·V_LF

则LF类节点的平均收益可计算如下：

因此，LF类节点的复制动态分析等式可计算如下：

U_HF-MN＝p_L·P_HF(V_HF-C_m)+(1-p_L)·P_HF(V_HF-C_m)＝P_HF·V_HF-P_HF·C_m

U_HF-NMN＝p_L·P_HF·V_HF+(1-p_L)·0＝p_L·P_HF·V_HF

则HF类节点的平均收益计算如下：

其复制动态分析等式可计算如下：

通过对比博弈参与方(LF类节点和HF类节点)的效用函数以及对应的复制动态分析，可以确定主节点。

4.根据权利要求1所述的一种面向分布式存储网络的树形结构数据***方法，其特征在于：

步骤(4.1)构建树形结构的数据传输时间模型如下：

令

表示组别c_l中的节点V_li和V_lj之间的链路带宽，(V_li，V_lj)表示两个节点之间的边，

表示边(V_li，V_lj)上累计的数据传输量，单位为比特，S_lj表示节点V_lj的后代子节点数目，N_l表示组别c_l中的节点数。因此

可计算如下：

其中α_l表示单位数据传输量。令t_ls表示在树形结构中数据在边上的传输时间，所以数据传输时间模型可计算如下

5.根据权利要求1所述的一种面向分布式存储网络的树形结构数据***方法，其特征在于：

步骤(4.2)建立最优数据分发树优化问题如下：

统计t_ls的最大值，以该最大值为目标函数，即表示为

且约束条件包括：

∑(V_li，V_lj)∈T_l(V_li，V_lj)＝N_l-2

0≤i≤j≤N_l-1

以最小化目标函数建立最优化问题为：

6.根据权利要求1所述的一种面向分布式存储网络的树形结构数据***方法，其特征在于：

步骤(4.3)求解最优分发树优化问题的具体步骤如下：

值的分发树，具体求解步骤包括：

其中

表示适应度值的最小值，

表示适应度值；

其中，ω_ini和ω_end表示初始阶段的惯性权重和迭代结束时的惯性权重值，Iter_max表示最大迭代数，

表示第i只蝴蝶在第t次迭代中的位置向量，r₁和r₂表示[0，1]之间的随机数，g^*表示全局最优位置，f_i，表示适应度值；