CN113849457A - 一种基于神经网络的多数据中心动态副本放置方法 - Google Patents
一种基于神经网络的多数据中心动态副本放置方法 Download PDFInfo
- Publication number
- CN113849457A CN113849457A CN202110985362.0A CN202110985362A CN113849457A CN 113849457 A CN113849457 A CN 113849457A CN 202110985362 A CN202110985362 A CN 202110985362A CN 113849457 A CN113849457 A CN 113849457A
- Authority
- CN
- China
- Prior art keywords
- file
- data center
- request
- copies
- expressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000010839 reverse transcription Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/122—File system administration, e.g. details of archiving or snapshots using management policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
- G06F16/1756—De-duplication implemented within the file system, e.g. based on file segments based on delta files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于神经网络的多云数据中心动态副本放置方法。包括下列主要步骤:首先,根据文件的历史访问记录,统计文件的各个周期的访问量,使用LSTM神经网络预测文件下一段时间的访问量;其次,根据文件副本数计算文件的可用性,及可用性差值用来确定该文件的最小副本数,然后根据文件访问量和最小副本数计算各文件的副本数;最后,根据数据中心对文件访问请求的平均处理时间,及惩罚代价,以及各个数据中心的负载方差构建目标函数,对文件副本进行放置;本发明提高了对文件访问量的预。
Description
技术领域
本发明主要涉及到云数据中心存储领域,具体涉及到多数据中心动态副本放置领域。
背景技术
随着云计算技术的快速发展,数据密集型应用的出现,导致互联网应用的数据量呈爆发式增长。越来越多的用户和企业应用程序被托管在云中,以至于大部分用户数据都被存放在远程数据中心存储和管理,云计算服务提供商将虚拟化资源通过网络租赁给用户并按需求提供,此外资源通过按使用付费模式提供服务,用户可以根据自身的使用情况为所需资源付费。
对于大多数用户来说,数据中心的位置对用户是完全透明的,主要关心的是他们是否可以随时随地访问和快速检索所需的数据信息。而在这一方面互联网公司取得了很大进展,例如谷歌、亚马逊,它们的应用程序为分散在世界各地的数亿用户提供服务,其中谷歌在15个国家至少拥有30多个数据中心,大约有 900k服务器。因此为了提供可靠的服务以及高数据可用性和性能等要求,通常需要用到数据复制的概念,将数据放置到位于不同地理位置的数据中心,由于单一数据中心的数据副本不能满足大量用户的访问请求,导致用户数据的安全性和可靠性都得不到保障,也会提高服务提供商的经济成本,所以考虑将数据的多个副本放置在多个不同的数据中心,以保证数据的可靠性和安全性。但是在放置数据副本的时候需要考虑,什么时候创建副本,如何控制副本的数量,以及不同的数据中心通常具有不同的存储容量和性能,如何在保证数据的可用性,用户的响应延迟下找到一个合适的放置位置将服务提供商的利润最大化。
目前有较多的研究人员与相关学者提出了考虑文件的访问量来计算副本数,但都是检测文件当前的实际访问量来计算副本数,或者用预测算法来预测文件下一周期的访问量来计算副本数,但是在实际应用情况下的用户访问特征多变且规律模糊,预测算法无法准确的预测实际情况下的访问量,在副本放置方面,很多研究者只是考虑了固定的副本数,或者单一目标下的放置,而实际情况下文件副本数是动态变化的,数据中心之间存在异构性,副本放置的多个目标优化都是需要考虑的,因此,针对以上情况本发明设计了一种基于神经网络的多数据中心动态副本放置方法。
发明内容
本发明公开了一种基于神经网络的多数据中心动态副本放置方法,它通过LSTM神经网络提升文件访问量预测精度,再以降低违规惩罚,和数据中心的负载标准差为目标的动态副本放置方法。
本发明提供的基于神经网络的多数据中心动态副本放置方法,包括以下步骤:
步骤1、根据文件的历史访问记录,统计文件的各个周期的访问量;
步骤2、使用LSTM神经网络预测文件下一周期的访问量;
步骤3、计算文件的可用性,可用性差值用来确定该文件的最小副本数;
步骤4、根据步骤2和步骤3计算各个文件的副本数;
步骤5、计算数据中心对文件访问请求的平均处理时间,建立惩罚代价目标函数;
步骤6、计算各个数据中心的负载,建立负载目标函数;
步骤7、以降低惩罚代价和标准差构建优化函数,对文件副本进行放置;
附图说明
图1是本发明的流程图;
图2是本发明的放置步骤图;
具体实施方式
如图1所示,本发明方法的具体实施过程步骤为:
步骤2、使用LSTM神经网络预测文件fi下一个时间段的访问量;
1)假设3个文件的11个周期的访问量如下:
2)使用LSTM神经网络预测结果为:
步骤3、计算文件fi的最小副本数:
2)计算文件fi的可用性差值ΔPi:
步骤5、计算数据中心对文件访问请求的平均处理时间,及惩罚代价:
1)假设数据中心j中访问文件fi的请求服从平均请求到达率为λj的泊松分布,各请求的平均请求服务速率相互独立,服从于参数为μj的指数分布,为文件fi分配到数据中心j的副本数,根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟,则数据中心j对文件fi的单位请求的平均处理时间DTj为:
2)假设用户到数据中心端到端的平均延迟为Davg,则数据中心j单位请求的响应时间为:
RTj=DTj+Davg
3)当RTj>RTmax时就会产生惩罚代价,则对于数据中心j中所有文件的请求惩罚代价函数可以表示为:
其中λi,j为数据中心j中文件i的请求访问量,β为数据中心j对单位请求的延迟惩罚代价系数,RTmax表示为用户对文件的最大响应时间要求;
4)则将k个文件放置到m个数据中心的惩罚代价目标函数SLA表示为:
步骤6、计算各个数据中心的负载,及负载标准差:
1)数据中心j的负载为:
2)所有数据中心的平均负载计算如下:
3)将所有数据中心的负载与平均负载的标准差作为衡量***的负载均衡的标准,则负载目标函数表示为:
步骤7、以降低惩罚代价和标准差构建优化函数,对文件副本进行放置:
优化函数表示为:
min F=W1*SLA+W2*LS
s.t.W1+W2=1
s.t.W1,W2∈[0,1]
1)设置最大迭代次数M,随机生成N个个体的种群,并计算惩罚代价及负载方差目标函数值,每个个体代表对副本的一种分配方案;
2)如果个体a的惩罚代价目标函数值及负载方差目标函数值都小于等于个体b的惩罚代价目标函数值及负载方差目标函数值,则称a支配b,首先在种群中随机选择两个个体a,b进行目标函数值比较,如果a支配b,则选择a生成新的种群,否则选择b,如果a,b不互相支配,则随机选择 a,b其中一个,生成新的种群;
3)以W1=0.4,W2=0.6计算所有个体优化函数值,并按照非降序的顺序排列,选择最小优化函数值为最佳个体;
4)判断是否达到最大迭代次数,如果没有达到最大迭代次数则继续返回1)执行,如果达到最大迭代次数则将最佳个体作为副本放置方案。
Claims (4)
1.一种基于神经网络的多数据中心动态副本放置方法,其特征在于,所述方法至少包括以下步骤:
(2)使用LSTM神经网络预测文件下一周期的访问量;
(3)计算文件的可用性,可用性差值用来确定该文件的最小副本数:文件fi的可用性表示为:其中Pj为数据中心j的节点可用概率,x(i,j)为0/1矩阵,x(i,j)∈{0,1},文件i放置在数据中心j上则x(i,j)=1,否则为0,fri num表示为文件i的副本数;
(5)计算数据中心对文件访问请求的平均响应时间,及惩罚代价:根据M/M/C排队模型对数据中心的请求处理时间问题进行模拟,计算数据中心j对文件fi的单位请求的平均处理时间DTj,和用户到数据中心端到端的平均延迟Davg,则数据中心j对单位请求的响应时间表示为:RTj=DTj+Davg,当RTj>RTmax时就会产生惩罚代价,则对于数据中心j中所有文件的请求惩罚代价函数可以表示为:
其中λi,j为数据中心j中文件i的请求访问量,β为数据中心j对单位请求的延迟惩罚代价系数,RTmax表示为用户对文件的最大响应时间要求,则将k个文件放置到m个数据中心的总惩罚代价目标函数SLA表示为:
(6)计算各个数据中心的负载,及负载方差建立目标函数:数据中心j的负载Lj表示为:所有数据中心的平均负载Lavg计算如下:将所有数据中心的负载与平均负载的标准差作为衡量***的负载均衡的标准,则负载目标函数表示为:
(7)以降低惩罚代价和标准差构建优化函数,对文件副本进行放置。
4.根据权利要1所述的一种基于神经网络的多数据中心动态副本放置方法,其特征在于,所述步骤7中以降低惩罚代价和标准差构建优化函数:
优化函数表示为:
min F=W1*SLA+W2*LS
s.t.W1+W2=1
s.t.W1,W2∈[0,1]
其中W1,W2为优化目标系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985362.0A CN113849457B (zh) | 2021-08-25 | 2021-08-25 | 一种基于神经网络的多数据中心动态副本放置方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985362.0A CN113849457B (zh) | 2021-08-25 | 2021-08-25 | 一种基于神经网络的多数据中心动态副本放置方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849457A true CN113849457A (zh) | 2021-12-28 |
CN113849457B CN113849457B (zh) | 2024-04-05 |
Family
ID=78976398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985362.0A Active CN113849457B (zh) | 2021-08-25 | 2021-08-25 | 一种基于神经网络的多数据中心动态副本放置方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849457B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122985A (ja) * | 1998-08-11 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | アクセス予測方法および装置とアクセス負荷分散方法および装置と前記方法を実施するプログラムを記録した記録媒体 |
CN106648456A (zh) * | 2016-09-18 | 2017-05-10 | 重庆邮电大学 | 基于用户访问量以及预测机制的动态副本文件访问方法 |
US10037386B1 (en) * | 2013-12-23 | 2018-07-31 | EMC IP Holding Company LLC | Data replication optimization for online social network cloud computing |
CN111124762A (zh) * | 2019-12-30 | 2020-05-08 | 航天科工网络信息发展有限公司 | 一种基于改进粒子群算法的动态副本放置方法 |
CN111258980A (zh) * | 2020-01-18 | 2020-06-09 | 重庆邮电大学 | 一种云存储***中基于组合预测的动态文件放置方法 |
-
2021
- 2021-08-25 CN CN202110985362.0A patent/CN113849457B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122985A (ja) * | 1998-08-11 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | アクセス予測方法および装置とアクセス負荷分散方法および装置と前記方法を実施するプログラムを記録した記録媒体 |
US10037386B1 (en) * | 2013-12-23 | 2018-07-31 | EMC IP Holding Company LLC | Data replication optimization for online social network cloud computing |
CN106648456A (zh) * | 2016-09-18 | 2017-05-10 | 重庆邮电大学 | 基于用户访问量以及预测机制的动态副本文件访问方法 |
CN111124762A (zh) * | 2019-12-30 | 2020-05-08 | 航天科工网络信息发展有限公司 | 一种基于改进粒子群算法的动态副本放置方法 |
CN111258980A (zh) * | 2020-01-18 | 2020-06-09 | 重庆邮电大学 | 一种云存储***中基于组合预测的动态文件放置方法 |
Non-Patent Citations (3)
Title |
---|
张松;杜庆伟;孙静;孙振;: "基于预测的云计算热点数据副本因子决策算法", 计算机与现代化, no. 02, 15 February 2015 (2015-02-15), pages 62 - 66 * |
龙赛琴等: "A Game-Based Approach for Cost-Aware Task Assignment With QoS Constraint in Collaborative Edge and Cloud Environments", IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS, vol. 32, no. 7, 31 July 2021 (2021-07-31), pages 1629 - 1638 * |
龙赛琴等: "一种基于CloudSIM的分级云存储仿真模型", 《计算技术与自动化》, vol. 38, no. 3, 30 September 2019 (2019-09-30), pages 112 - 116 * |
Also Published As
Publication number | Publication date |
---|---|
CN113849457B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10620839B2 (en) | Storage pool capacity management | |
US8504556B1 (en) | System and method for diminishing workload imbalance across multiple database systems | |
CN104704773A (zh) | 云存储环境中基于一致性的服务级协定 | |
US7716431B2 (en) | Analysis technique of execution states in computer system | |
CN111917882B (zh) | 文件缓存方法、装置及电子设备 | |
CN111737168A (zh) | 一种缓存***、缓存处理方法、装置、设备及介质 | |
Limam et al. | Data replication strategy with satisfaction of availability, performance and tenant budget requirements | |
CN110636388A (zh) | 一种业务请求分配方法、***、电子设备及存储介质 | |
CN110618867A (zh) | 一种预测资源使用量的方法和装置 | |
EP3973417A1 (en) | Efficient freshness crawl scheduling | |
CN111932314A (zh) | 推荐内容的推送方法、装置、设备及可读存储介质 | |
CN114070847B (zh) | 服务器的限流方法、装置、设备及存储介质 | |
US10594620B1 (en) | Bit vector analysis for resource placement in a distributed system | |
CN110708361B (zh) | 数字内容发布用户的等级确定***、方法、装置及服务器 | |
CN113849457B (zh) | 一种基于神经网络的多数据中心动态副本放置方法 | |
CN112506875B (zh) | 文件存储方法、相关装置及文件存储*** | |
CN113868110A (zh) | 一种企业数字中台服务健康度的评估方法和装置 | |
CN112214460A (zh) | 基于分布式大容量分片高性能的存储控制方法 | |
Beigrezaei et al. | Improve Performance by a Fuzzy‐Based Dynamic Replication Algorithm in Grid, Cloud, and Fog | |
US10721181B1 (en) | Network locality-based throttling for automated resource migration | |
CN116402279A (zh) | 网点分区方法、装置、设备和介质 | |
EP4184325A1 (en) | Method and system for high-throughput distributed computing of computational jobs | |
US20220413986A1 (en) | Tenant database placement in oversubscribed database-as-a-service cluster | |
US20230153305A1 (en) | Method and system for high-throughput distributed computing of computational jobs | |
CN117972367B (zh) | 一种数据存储预测方法、数据存储子***及智能计算平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |