CN113849457A - 一种基于神经网络的多数据中心动态副本放置方法 - Google Patents

一种基于神经网络的多数据中心动态副本放置方法 Download PDF

Info

Publication number
CN113849457A
CN113849457A CN202110985362.0A CN202110985362A CN113849457A CN 113849457 A CN113849457 A CN 113849457A CN 202110985362 A CN202110985362 A CN 202110985362A CN 113849457 A CN113849457 A CN 113849457A
Authority
CN
China
Prior art keywords
file
data center
request
copies
expressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110985362.0A
Other languages
English (en)
Other versions
CN113849457B (zh
Inventor
龙赛琴
唐翔
朱江
田淑娟
杨云芳
裴瑞宏
周向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202110985362.0A priority Critical patent/CN113849457B/zh
Publication of CN113849457A publication Critical patent/CN113849457A/zh
Application granted granted Critical
Publication of CN113849457B publication Critical patent/CN113849457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1756De-duplication implemented within the file system, e.g. based on file segments based on delta files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于神经网络的多云数据中心动态副本放置方法。包括下列主要步骤:首先,根据文件的历史访问记录,统计文件的各个周期的访问量,使用LSTM神经网络预测文件下一段时间的访问量;其次,根据文件副本数计算文件的可用性,及可用性差值用来确定该文件的最小副本数,然后根据文件访问量和最小副本数计算各文件的副本数;最后,根据数据中心对文件访问请求的平均处理时间,及惩罚代价,以及各个数据中心的负载方差构建目标函数,对文件副本进行放置;本发明提高了对文件访问量的预。

Description

一种基于神经网络的多数据中心动态副本放置方法
技术领域
本发明主要涉及到云数据中心存储领域,具体涉及到多数据中心动态副本放置领域。
背景技术
随着云计算技术的快速发展,数据密集型应用的出现,导致互联网应用的数据量呈爆发式增长。越来越多的用户和企业应用程序被托管在云中,以至于大部分用户数据都被存放在远程数据中心存储和管理,云计算服务提供商将虚拟化资源通过网络租赁给用户并按需求提供,此外资源通过按使用付费模式提供服务,用户可以根据自身的使用情况为所需资源付费。
对于大多数用户来说,数据中心的位置对用户是完全透明的,主要关心的是他们是否可以随时随地访问和快速检索所需的数据信息。而在这一方面互联网公司取得了很大进展,例如谷歌、亚马逊,它们的应用程序为分散在世界各地的数亿用户提供服务,其中谷歌在15个国家至少拥有30多个数据中心,大约有 900k服务器。因此为了提供可靠的服务以及高数据可用性和性能等要求,通常需要用到数据复制的概念,将数据放置到位于不同地理位置的数据中心,由于单一数据中心的数据副本不能满足大量用户的访问请求,导致用户数据的安全性和可靠性都得不到保障,也会提高服务提供商的经济成本,所以考虑将数据的多个副本放置在多个不同的数据中心,以保证数据的可靠性和安全性。但是在放置数据副本的时候需要考虑,什么时候创建副本,如何控制副本的数量,以及不同的数据中心通常具有不同的存储容量和性能,如何在保证数据的可用性,用户的响应延迟下找到一个合适的放置位置将服务提供商的利润最大化。
目前有较多的研究人员与相关学者提出了考虑文件的访问量来计算副本数,但都是检测文件当前的实际访问量来计算副本数,或者用预测算法来预测文件下一周期的访问量来计算副本数,但是在实际应用情况下的用户访问特征多变且规律模糊,预测算法无法准确的预测实际情况下的访问量,在副本放置方面,很多研究者只是考虑了固定的副本数,或者单一目标下的放置,而实际情况下文件副本数是动态变化的,数据中心之间存在异构性,副本放置的多个目标优化都是需要考虑的,因此,针对以上情况本发明设计了一种基于神经网络的多数据中心动态副本放置方法。
发明内容
本发明公开了一种基于神经网络的多数据中心动态副本放置方法,它通过LSTM神经网络提升文件访问量预测精度,再以降低违规惩罚,和数据中心的负载标准差为目标的动态副本放置方法。
本发明提供的基于神经网络的多数据中心动态副本放置方法,包括以下步骤:
步骤1、根据文件的历史访问记录,统计文件的各个周期的访问量;
步骤2、使用LSTM神经网络预测文件下一周期的访问量;
步骤3、计算文件的可用性,可用性差值用来确定该文件的最小副本数;
步骤4、根据步骤2和步骤3计算各个文件的副本数;
步骤5、计算数据中心对文件访问请求的平均处理时间,建立惩罚代价目标函数;
步骤6、计算各个数据中心的负载,建立负载目标函数;
步骤7、以降低惩罚代价和标准差构建优化函数,对文件副本进行放置;
附图说明
图1是本发明的流程图;
图2是本发明的放置步骤图;
具体实施方式
如图1所示,本发明方法的具体实施过程步骤为:
步骤1、周期性的采集各个文件的历史访问记录,以{f1,f2,…,fk}为文件数,文件fi的各个周期访问量以
Figure BDA0003229843060000021
表示,以1小时为一周期,用t表示;
步骤2、使用LSTM神经网络预测文件fi下一个时间段的访问量;
1)假设3个文件的11个周期的访问量如下:
Figure BDA0003229843060000022
2)使用LSTM神经网络预测结果为:
Figure BDA0003229843060000031
步骤3、计算文件fi的最小副本数:
1)计算文件文件fi可用性
Figure BDA0003229843060000032
Figure BDA0003229843060000033
Figure BDA0003229843060000034
其中Pj为数据中心j的节点可用概率,x(i,j)为0/1矩阵,文件i放置在数据中心j上则x(i,j)=1,否则为0,
Figure BDA0003229843060000035
表示为文件i的副本数;
2)计算文件fi的可用性差值ΔPi
Figure BDA0003229843060000036
3)设置可用性差值阈值α,当可用性差值ΔPi<α时,则此时的
Figure BDA0003229843060000037
设为文件fi的最优可用性,
Figure BDA0003229843060000038
设为文件i的最小副本数
Figure BDA0003229843060000039
步骤4、计算文件fi的副本数
Figure BDA0003229843060000041
Figure BDA0003229843060000042
Figure BDA0003229843060000043
其中
Figure BDA0003229843060000044
为文件f1的大小,CAj为数据中心j的存储总容量大小;
步骤5、计算数据中心对文件访问请求的平均处理时间,及惩罚代价:
1)假设数据中心j中访问文件fi的请求服从平均请求到达率为λj的泊松分布,各请求的平均请求服务速率相互独立,服从于参数为μj的指数分布,
Figure BDA0003229843060000045
为文件fi分配到数据中心j的副本数,根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟,则数据中心j对文件fi的单位请求的平均处理时间DTj为:
Figure BDA0003229843060000046
Figure BDA0003229843060000047
2)假设用户到数据中心端到端的平均延迟为Davg,则数据中心j单位请求的响应时间为:
RTj=DTj+Davg
3)当RTj>RTmax时就会产生惩罚代价,则对于数据中心j中所有文件的请求惩罚代价函数可以表示为:
Figure BDA0003229843060000048
其中λi,j为数据中心j中文件i的请求访问量,β为数据中心j对单位请求的延迟惩罚代价系数,RTmax表示为用户对文件的最大响应时间要求;
4)则将k个文件放置到m个数据中心的惩罚代价目标函数SLA表示为:
Figure BDA0003229843060000051
步骤6、计算各个数据中心的负载,及负载标准差:
1)数据中心j的负载为:
Figure BDA0003229843060000052
2)所有数据中心的平均负载计算如下:
Figure BDA0003229843060000053
3)将所有数据中心的负载与平均负载的标准差作为衡量***的负载均衡的标准,则负载目标函数表示为:
Figure BDA0003229843060000054
步骤7、以降低惩罚代价和标准差构建优化函数,对文件副本进行放置:
优化函数表示为:
min F=W1*SLA+W2*LS
s.t.W1+W2=1
s.t.W1,W2∈[0,1]
1)设置最大迭代次数M,随机生成N个个体的种群,并计算惩罚代价及负载方差目标函数值,每个个体代表对副本的一种分配方案;
2)如果个体a的惩罚代价目标函数值及负载方差目标函数值都小于等于个体b的惩罚代价目标函数值及负载方差目标函数值,则称a支配b,首先在种群中随机选择两个个体a,b进行目标函数值比较,如果a支配b,则选择a生成新的种群,否则选择b,如果a,b不互相支配,则随机选择 a,b其中一个,生成新的种群;
3)以W1=0.4,W2=0.6计算所有个体优化函数值,并按照非降序的顺序排列,选择最小优化函数值为最佳个体;
4)判断是否达到最大迭代次数,如果没有达到最大迭代次数则继续返回1)执行,如果达到最大迭代次数则将最佳个体作为副本放置方案。

Claims (4)

1.一种基于神经网络的多数据中心动态副本放置方法,其特征在于,所述方法至少包括以下步骤:
(1)根据文件的历史访问记录,统计各文件的各个周期的访问量,以{f1,f2,…,fk}为文件数,文件fi的各个周期访问量用
Figure FDA0003229843050000011
表示;
(2)使用LSTM神经网络预测文件下一周期的访问量;
(3)计算文件的可用性,可用性差值用来确定该文件的最小副本数:文件fi的可用性
Figure FDA0003229843050000012
表示为:
Figure FDA0003229843050000013
其中Pj为数据中心j的节点可用概率,x(i,j)为0/1矩阵,x(i,j)∈{0,1},文件i放置在数据中心j上则x(i,j)=1,否则为0,fri num表示为文件i的副本数;
(4)根据步骤2和步骤3计算各个文件的副本数:文件fi的副本数fri num表示为:
Figure FDA0003229843050000014
Figure FDA0003229843050000015
其中
Figure FDA0003229843050000016
为文件f1的大小;
(5)计算数据中心对文件访问请求的平均响应时间,及惩罚代价:根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟,计算数据中心j对文件fi的单位请求的平均处理时间DTj,和用户到数据中心端到端的平均延迟Davg,则数据中心j对单位请求的响应时间表示为:RTj=DTj+Davg,当RTj>RTmax时就会产生惩罚代价,则对于数据中心j中所有文件的请求惩罚代价函数可以表示为:
Figure FDA0003229843050000017
其中λi,j为数据中心j中文件i的请求访问量,β为数据中心j对单位请求的延迟惩罚代价系数,RTmax表示为用户对文件的最大响应时间要求,则将k个文件放置到m个数据中心的总惩罚代价目标函数SLA表示为:
Figure FDA0003229843050000018
(6)计算各个数据中心的负载,及负载方差建立目标函数:数据中心j的负载Lj表示为:
Figure FDA0003229843050000019
所有数据中心的平均负载Lavg计算如下:
Figure FDA00032298430500000110
将所有数据中心的负载与平均负载的标准差作为衡量***的负载均衡的标准,则负载目标函数表示为:
Figure FDA00032298430500000111
(7)以降低惩罚代价和标准差构建优化函数,对文件副本进行放置。
2.根据权利要求1所述的一种基于神经网络的多数据中心动态副本放置方法,其特征在于,所述步骤3中计算可用性差值,确定文件最小副本数:
计算文件fi的可用性差值ΔPi
Figure FDA0003229843050000021
设置可用性差值阈值α,当可用性差值ΔPi<α时,则此时的
Figure FDA0003229843050000022
设为文件fi的最优可用性,将fri num设为文件i的最小副本数fri min
3.根据权利要求1所述的一种基于神经网络的多数据中心动态副本放置方法,其特征在于,所述步骤5中计算数据中心对文件访问请求的平均处理时间:
假设数据中心j中访问文件fi的请求服从平均请求到达率为λj的泊松分布,各请求的平均请求服务速率相互独立,服从于参数为μj的指数分布,
Figure FDA0003229843050000023
为文件fi分配到数据中心j的副本数,根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟,则数据中心j对文件fi的单位请求的平均处理时间DTj为:
Figure FDA0003229843050000024
4.根据权利要1所述的一种基于神经网络的多数据中心动态副本放置方法,其特征在于,所述步骤7中以降低惩罚代价和标准差构建优化函数:
优化函数表示为:
min F=W1*SLA+W2*LS
s.t.W1+W2=1
s.t.W1,W2∈[0,1]
其中W1,W2为优化目标系数。
CN202110985362.0A 2021-08-25 2021-08-25 一种基于神经网络的多数据中心动态副本放置方法 Active CN113849457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110985362.0A CN113849457B (zh) 2021-08-25 2021-08-25 一种基于神经网络的多数据中心动态副本放置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110985362.0A CN113849457B (zh) 2021-08-25 2021-08-25 一种基于神经网络的多数据中心动态副本放置方法

Publications (2)

Publication Number Publication Date
CN113849457A true CN113849457A (zh) 2021-12-28
CN113849457B CN113849457B (zh) 2024-04-05

Family

ID=78976398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110985362.0A Active CN113849457B (zh) 2021-08-25 2021-08-25 一种基于神经网络的多数据中心动态副本放置方法

Country Status (1)

Country Link
CN (1) CN113849457B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122985A (ja) * 1998-08-11 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> アクセス予測方法および装置とアクセス負荷分散方法および装置と前記方法を実施するプログラムを記録した記録媒体
CN106648456A (zh) * 2016-09-18 2017-05-10 重庆邮电大学 基于用户访问量以及预测机制的动态副本文件访问方法
US10037386B1 (en) * 2013-12-23 2018-07-31 EMC IP Holding Company LLC Data replication optimization for online social network cloud computing
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN111258980A (zh) * 2020-01-18 2020-06-09 重庆邮电大学 一种云存储***中基于组合预测的动态文件放置方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122985A (ja) * 1998-08-11 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> アクセス予測方法および装置とアクセス負荷分散方法および装置と前記方法を実施するプログラムを記録した記録媒体
US10037386B1 (en) * 2013-12-23 2018-07-31 EMC IP Holding Company LLC Data replication optimization for online social network cloud computing
CN106648456A (zh) * 2016-09-18 2017-05-10 重庆邮电大学 基于用户访问量以及预测机制的动态副本文件访问方法
CN111124762A (zh) * 2019-12-30 2020-05-08 航天科工网络信息发展有限公司 一种基于改进粒子群算法的动态副本放置方法
CN111258980A (zh) * 2020-01-18 2020-06-09 重庆邮电大学 一种云存储***中基于组合预测的动态文件放置方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张松;杜庆伟;孙静;孙振;: "基于预测的云计算热点数据副本因子决策算法", 计算机与现代化, no. 02, 15 February 2015 (2015-02-15), pages 62 - 66 *
龙赛琴等: "A Game-Based Approach for Cost-Aware Task Assignment With QoS Constraint in Collaborative Edge and Cloud Environments", IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS, vol. 32, no. 7, 31 July 2021 (2021-07-31), pages 1629 - 1638 *
龙赛琴等: "一种基于CloudSIM的分级云存储仿真模型", 《计算技术与自动化》, vol. 38, no. 3, 30 September 2019 (2019-09-30), pages 112 - 116 *

Also Published As

Publication number Publication date
CN113849457B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
US10620839B2 (en) Storage pool capacity management
US8504556B1 (en) System and method for diminishing workload imbalance across multiple database systems
CN104704773A (zh) 云存储环境中基于一致性的服务级协定
US7716431B2 (en) Analysis technique of execution states in computer system
CN111917882B (zh) 文件缓存方法、装置及电子设备
CN111737168A (zh) 一种缓存***、缓存处理方法、装置、设备及介质
Limam et al. Data replication strategy with satisfaction of availability, performance and tenant budget requirements
CN110636388A (zh) 一种业务请求分配方法、***、电子设备及存储介质
CN110618867A (zh) 一种预测资源使用量的方法和装置
EP3973417A1 (en) Efficient freshness crawl scheduling
CN111932314A (zh) 推荐内容的推送方法、装置、设备及可读存储介质
CN114070847B (zh) 服务器的限流方法、装置、设备及存储介质
US10594620B1 (en) Bit vector analysis for resource placement in a distributed system
CN110708361B (zh) 数字内容发布用户的等级确定***、方法、装置及服务器
CN113849457B (zh) 一种基于神经网络的多数据中心动态副本放置方法
CN112506875B (zh) 文件存储方法、相关装置及文件存储***
CN113868110A (zh) 一种企业数字中台服务健康度的评估方法和装置
CN112214460A (zh) 基于分布式大容量分片高性能的存储控制方法
Beigrezaei et al. Improve Performance by a Fuzzy‐Based Dynamic Replication Algorithm in Grid, Cloud, and Fog
US10721181B1 (en) Network locality-based throttling for automated resource migration
CN116402279A (zh) 网点分区方法、装置、设备和介质
EP4184325A1 (en) Method and system for high-throughput distributed computing of computational jobs
US20220413986A1 (en) Tenant database placement in oversubscribed database-as-a-service cluster
US20230153305A1 (en) Method and system for high-throughput distributed computing of computational jobs
CN117972367B (zh) 一种数据存储预测方法、数据存储子***及智能计算平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant