CN113849457A

CN113849457A - 一种基于神经网络的多数据中心动态副本放置方法

Info

Publication number: CN113849457A
Application number: CN202110985362.0A
Authority: CN
Inventors: 龙赛琴; 唐翔; 朱江; 田淑娟; 杨云芳; 裴瑞宏; 周向华
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-28
Anticipated expiration: 2041-08-25
Also published as: CN113849457B

Abstract

本发明提出了一种基于神经网络的多云数据中心动态副本放置方法。包括下列主要步骤：首先，根据文件的历史访问记录，统计文件的各个周期的访问量，使用LSTM神经网络预测文件下一段时间的访问量；其次，根据文件副本数计算文件的可用性，及可用性差值用来确定该文件的最小副本数，然后根据文件访问量和最小副本数计算各文件的副本数；最后，根据数据中心对文件访问请求的平均处理时间，及惩罚代价，以及各个数据中心的负载方差构建目标函数，对文件副本进行放置；本发明提高了对文件访问量的预。

Description

一种基于神经网络的多数据中心动态副本放置方法

技术领域

本发明主要涉及到云数据中心存储领域，具体涉及到多数据中心动态副本放置领域。

背景技术

随着云计算技术的快速发展，数据密集型应用的出现，导致互联网应用的数据量呈爆发式增长。越来越多的用户和企业应用程序被托管在云中，以至于大部分用户数据都被存放在远程数据中心存储和管理，云计算服务提供商将虚拟化资源通过网络租赁给用户并按需求提供，此外资源通过按使用付费模式提供服务，用户可以根据自身的使用情况为所需资源付费。

对于大多数用户来说，数据中心的位置对用户是完全透明的，主要关心的是他们是否可以随时随地访问和快速检索所需的数据信息。而在这一方面互联网公司取得了很大进展，例如谷歌、亚马逊，它们的应用程序为分散在世界各地的数亿用户提供服务，其中谷歌在15个国家至少拥有30多个数据中心，大约有 900k服务器。因此为了提供可靠的服务以及高数据可用性和性能等要求，通常需要用到数据复制的概念，将数据放置到位于不同地理位置的数据中心，由于单一数据中心的数据副本不能满足大量用户的访问请求，导致用户数据的安全性和可靠性都得不到保障，也会提高服务提供商的经济成本，所以考虑将数据的多个副本放置在多个不同的数据中心，以保证数据的可靠性和安全性。但是在放置数据副本的时候需要考虑，什么时候创建副本，如何控制副本的数量，以及不同的数据中心通常具有不同的存储容量和性能，如何在保证数据的可用性，用户的响应延迟下找到一个合适的放置位置将服务提供商的利润最大化。

目前有较多的研究人员与相关学者提出了考虑文件的访问量来计算副本数，但都是检测文件当前的实际访问量来计算副本数，或者用预测算法来预测文件下一周期的访问量来计算副本数，但是在实际应用情况下的用户访问特征多变且规律模糊，预测算法无法准确的预测实际情况下的访问量，在副本放置方面，很多研究者只是考虑了固定的副本数，或者单一目标下的放置，而实际情况下文件副本数是动态变化的，数据中心之间存在异构性，副本放置的多个目标优化都是需要考虑的，因此，针对以上情况本发明设计了一种基于神经网络的多数据中心动态副本放置方法。

发明内容

本发明公开了一种基于神经网络的多数据中心动态副本放置方法，它通过LSTM神经网络提升文件访问量预测精度，再以降低违规惩罚，和数据中心的负载标准差为目标的动态副本放置方法。

本发明提供的基于神经网络的多数据中心动态副本放置方法，包括以下步骤：

步骤1、根据文件的历史访问记录，统计文件的各个周期的访问量；

步骤2、使用LSTM神经网络预测文件下一周期的访问量；

步骤3、计算文件的可用性，可用性差值用来确定该文件的最小副本数；

步骤4、根据步骤2和步骤3计算各个文件的副本数；

步骤5、计算数据中心对文件访问请求的平均处理时间，建立惩罚代价目标函数；

步骤6、计算各个数据中心的负载，建立负载目标函数；

步骤7、以降低惩罚代价和标准差构建优化函数，对文件副本进行放置；

附图说明

图1是本发明的流程图；

图2是本发明的放置步骤图；

具体实施方式

如图1所示，本发明方法的具体实施过程步骤为：

步骤1、周期性的采集各个文件的历史访问记录，以{f₁,f₂,…,f_k}为文件数，文件f_i的各个周期访问量以

表示，以1小时为一周期，用t表示；

步骤2、使用LSTM神经网络预测文件f_i下一个时间段的访问量；

1)假设3个文件的11个周期的访问量如下：

2)使用LSTM神经网络预测结果为：

步骤3、计算文件f_i的最小副本数：

1)计算文件文件f_i可用性

其中P_j为数据中心j的节点可用概率，x(i,j)为0/1矩阵，文件i放置在数据中心j上则x(i,j)＝1，否则为0，

表示为文件i的副本数；

2)计算文件f_i的可用性差值ΔP_i：

3)设置可用性差值阈值α，当可用性差值ΔP_i<α时，则此时的

设为文件f_i的最优可用性，

设为文件i的最小副本数

步骤4、计算文件f_i的副本数

其中

为文件f₁的大小，CA_j为数据中心j的存储总容量大小；

步骤5、计算数据中心对文件访问请求的平均处理时间，及惩罚代价：

1)假设数据中心j中访问文件f_i的请求服从平均请求到达率为λ_j的泊松分布，各请求的平均请求服务速率相互独立，服从于参数为μ_j的指数分布，

为文件f_i分配到数据中心j的副本数，根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟，则数据中心j对文件f_i的单位请求的平均处理时间DT_j为：

2)假设用户到数据中心端到端的平均延迟为D_avg，则数据中心j单位请求的响应时间为：

RT_j＝DT_j+D_avg

3)当RT_j>RT_max时就会产生惩罚代价,则对于数据中心j中所有文件的请求惩罚代价函数可以表示为：

其中λ_i,j为数据中心j中文件i的请求访问量，β为数据中心j对单位请求的延迟惩罚代价系数，RT_max表示为用户对文件的最大响应时间要求；

4)则将k个文件放置到m个数据中心的惩罚代价目标函数SLA表示为：

步骤6、计算各个数据中心的负载，及负载标准差：

1)数据中心j的负载为：

2)所有数据中心的平均负载计算如下：

3)将所有数据中心的负载与平均负载的标准差作为衡量***的负载均衡的标准，则负载目标函数表示为：

步骤7、以降低惩罚代价和标准差构建优化函数，对文件副本进行放置：

优化函数表示为：

min F＝W₁*SLA+W₂*L_S

s.t.W₁+W₂＝1

s.t.W₁,W₂∈[0,1]

1)设置最大迭代次数M，随机生成N个个体的种群，并计算惩罚代价及负载方差目标函数值，每个个体代表对副本的一种分配方案；

2)如果个体a的惩罚代价目标函数值及负载方差目标函数值都小于等于个体b的惩罚代价目标函数值及负载方差目标函数值，则称a支配b，首先在种群中随机选择两个个体a,b进行目标函数值比较，如果a支配b，则选择a生成新的种群，否则选择b，如果a,b不互相支配，则随机选择 a,b其中一个，生成新的种群；

3)以W₁＝0.4，W₂＝0.6计算所有个体优化函数值，并按照非降序的顺序排列，选择最小优化函数值为最佳个体；

4)判断是否达到最大迭代次数，如果没有达到最大迭代次数则继续返回1)执行，如果达到最大迭代次数则将最佳个体作为副本放置方案。

Claims

1.一种基于神经网络的多数据中心动态副本放置方法，其特征在于，所述方法至少包括以下步骤：

(1)根据文件的历史访问记录，统计各文件的各个周期的访问量，以{f₁,f₂,…,f_k}为文件数，文件f_i的各个周期访问量用

表示；

(2)使用LSTM神经网络预测文件下一周期的访问量；

(3)计算文件的可用性，可用性差值用来确定该文件的最小副本数：文件f_i的可用性

表示为：

其中P_j为数据中心j的节点可用概率，x(i,j)为0/1矩阵，x(i,j)∈{0,1}，文件i放置在数据中心j上则x(i,j)＝1，否则为0，fr_i ^num表示为文件i的副本数；

(4)根据步骤2和步骤3计算各个文件的副本数：文件f_i的副本数fr_i ^num表示为：

其中

为文件f₁的大小；

(5)计算数据中心对文件访问请求的平均响应时间，及惩罚代价：根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟，计算数据中心j对文件f_i的单位请求的平均处理时间DT_j，和用户到数据中心端到端的平均延迟D_avg，则数据中心j对单位请求的响应时间表示为：RT_j＝DT_j+D_avg，当RT_j>RT_max时就会产生惩罚代价,则对于数据中心j中所有文件的请求惩罚代价函数可以表示为：