CN113742304B - 一种混合云的数据存储方法 - Google Patents

一种混合云的数据存储方法 Download PDF

Info

Publication number
CN113742304B
CN113742304B CN202111313263.4A CN202111313263A CN113742304B CN 113742304 B CN113742304 B CN 113742304B CN 202111313263 A CN202111313263 A CN 202111313263A CN 113742304 B CN113742304 B CN 113742304B
Authority
CN
China
Prior art keywords
file
compression
cloud
storage
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111313263.4A
Other languages
English (en)
Other versions
CN113742304A (zh
Inventor
邱创和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yaguan Technology Co ltd
Original Assignee
Hangzhou Yaguan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yaguan Technology Co ltd filed Critical Hangzhou Yaguan Technology Co ltd
Priority to CN202111313263.4A priority Critical patent/CN113742304B/zh
Publication of CN113742304A publication Critical patent/CN113742304A/zh
Application granted granted Critical
Publication of CN113742304B publication Critical patent/CN113742304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种混合云的数据存储方法,属于数字信息的传输技术领域,包括以下步骤:步骤1,建立混合云;步骤2,所述缓存管理器处理来自用户的请求;步骤3,所述云管理器访问公共云存储器并下载该文件到缓存管理器;步骤4,缓存管理器判断该文件是否需要压缩,以及确定当文件需要压缩时采用的具体压缩方法;步骤5,所述云管理器确定保存到公共云存储器所有文件的压缩方法。本方案通过将不同的压缩法进行组合,提升混合云的私有云端的性能并节省公共云端的成本。私有云根据文件特征和列表对每个未命中的请求做出压缩方案的决策。公共云为所有存储文件做出压缩方案的决策。本方案找到一组压缩法来最小化成本,同时满足响应限制时间的要求。

Description

一种混合云的数据存储方法
技术领域
本发明属于数字信息的传输技术领域,具体涉及为一种混合云的数据存储方法。
背景技术
混合云通常包括一个公有云和多个私有云,其综合了公有云和私有云各自的优势,混合云可以将公有云作为私有云数据备份、云端数据处理、远程数据访问的平台,将私有云作为热数据存储的平台。
公开号为CN102263825A的中国专利公开了一种基于云位置的混合云存储***数据传输方法,其通过对云存储节点、云客户端云位置的分析,针对不同的云环境自动采取不同的数据传输方式,同时满足私有云环境数据传输的高性能,以及公共云环境的高带宽利用率、高安全性等要求。同时,其认为:
私有云承担可用性及性能要求较高数据的存储任务,压缩等策略反而导致较高的延迟。相对云位置越低,则数据传输尽可能少的压缩或不压缩,以提高性能,降低延迟;相对云位置越高,则采取较高的压缩比,提升带宽利用率。
因此,传统的方案,就是将位置低的私有云存储作为缓存,以保证私有云的数据传输性能,同时,将位置高的公共云存储作为备份。
上述方法存在以下缺陷:位置低的私有云存储尽可能少的压缩或不压缩。然而,如果私有云存储均应用压缩方案,一方面,减少了公共云和私有云之间的传输带宽,另一方面,可以有效利用私有云存储的有限存储空间,将更多的文件保留在私有云存储中,减少私有云必须访问公共云存储的文件数量,降低从公共云到私有云的文件转移成本,从而提升混合云的性能。
因此,有必要在位置低的私有云存储也同样应用压缩方案。然而,私有云承担可用性及性能要求较高数据的存储任务,有些文件被频繁访问,反复压缩和解压则会造成很大的开销,反而导致较高的延迟,而另外一些文件则相反。对于状态不同的文件采用同样的压缩方法,其效果并不会理想。因此,对于状态不同的文件采用不同的压缩方案,以达到提升性能的效果。
发明内容
针对现有技术的不足,本发明提供了一种混合云的数据存储方法。
为实现以上目的,本发明通过以下技术方案予以实现。
一种混合云的数据存储方法,包括以下步骤:
步骤1,建立混合云,所述混合云包括私有云和公共云;
所述私有云包括私有云存储器和缓存管理器;所述公共云包括公共云存储器和云管理器;
步骤2,所述缓存管理器处理来自用户的请求,当缓存管理器接收到用户请求时,缓存管理器检查请求对应的文件是否存在于私有云存储器:如果该文件存在于私有云存储器,则允许用户直接访问;如果该文件不存在于私有云存储器,缓存管理器请求云管理器下载该文件,然后进行下一步;
步骤3,所述云管理器在收到缓存管理器的文件下载请求后,访问公共云存储器并下载该文件到缓存管理器;
步骤4,当该文件下载后,在将该文件放入私有云存储器之前,缓存管理器判断该文件是否需要压缩,以及确定当文件需要压缩时采用的具体压缩方法;
步骤5,所述云管理器确定保存到公共云存储器所有文件的压缩方法。
进一步,所述私有云存储器,充当缓存存储;所述缓存管理器,当请求对应的文件丢失时,该文件下载后为其选择合适的压缩方法;所述公共云存储器,充当备份存储;所述云管理器,对所有文件采用组合式的压缩方法,在既定的响应时间的约束下,找到存储成本最小的压缩方法。
进一步,步骤4包括以下步骤:
步骤4a,缓存管理器根据私有云中的请求文件的平均写读比率wrcii为下载的文件提供默认压缩法:如果wrcii>0.5,表示文件更适合写入,将默认压缩法设置为LZW压缩法,否则,将默认压缩法设置为LZMA压缩法;
步骤4b,将下载的文件压缩后并存入私有云存储器前,缓存管理器确定私有云存储器中将删除的文件;缓存管理器设立两个列表:压缩列表和未压缩列表;其中,压缩列表,表示下载的文件经过压缩并存入缓存管理器后必须从私有云存储器中删除的文件列表;未压缩列表,表示下载的文件未被压缩并存入缓存管理器后必须从私有云存储器中删除的文件列表;未压缩列表中的文件数量不少于压缩列表中的文件数量。
步骤4c,将在未压缩列表中且不在压缩列表中的文件归为免踢列表;免踢列表,表示因为对下载的文件进行压缩而免遭删除的文件;
用v表示采用压缩节省的整体时间,v的计算式:v=vco−vci
其中,vco表示采用免踢列表后节省的时间,vci表示采用压缩花费的响应时间;
如果v>0,表示采用压缩后整体是节约时间的,因此,缓存管理器将压缩下载的文件并存储于私有云存储器;否则,下载的文件未经压缩直接存储于私有云存储器。
更进一步,vco的计算式:当压缩法J为alcoi时,
vco=∑i∈AvoidKick[siJ×(tco+dJ)−siJ×(tci+cJ×wrcii+dJ×(1−wrcii))];
其中,alcoi,表示在公有云存储器中,文件i所使用的压缩法;AvoidKick,表示免踢列表;siJ,表示文件i经过压缩法J压缩后的大小;tco,表示公共云存储器的传输时间,单位为s/MB;dJ,表示压缩法J的解压时间;tci,表示私有云存储器的传输时间,单位为s/MB;cJ,表示压缩法J的压缩时间;wrcii,表示私有云中的请求文件的平均写读比率。
更进一步,步骤4c中,vci的计算式:当i为下载的文件,压缩法j为alcii时,
vci=sij×[tci+cj×wrcii+dj×(1−wrcii)]−si0×tci
其中,alcii,表示在私有云存储器中,文件i所使用的压缩法;sij,表示文件i经过压缩法j压缩后的大小;tci,表示私有云存储器的传输时间,单位为s/MB;cj,表示压缩法j的压缩时间;wrcii,表示私有云中的请求文件的平均写读比率;dj,表示压缩法j的解压时间;si0,表示文件i未经压缩的大小。
进一步,步骤5中,对公共云存储器中的文件进行分类,通过计时器来计算每个文件未被访问的时间,将未被访问的时间超过经验值的文件归为沉默文件,剩余文件则归为活跃文件;对沉默文件使用CM压缩法;对活跃文件使用线性规划问题的方案,即,在公共云平均响应时间有界的情况下最小化公共云存储器的存储成本。
线性规划问题的方案用数学式表示如下:
最小化存储成本:
Figure 995938DEST_PATH_IMAGE001
需要满足的条件:
Figure DEST_PATH_IMAGE003
其中,Coststo,表示云存储的存储成本,单位为$/MB;sij,文件i经过压缩法j压缩后的大小;freqi,表示文件i访问公共云时的访问频率;tco,表示公共云存储器的传输时间,单位为s/MB;cj,表示压缩法j的压缩时间;wrcoi,表示公共云中的请求文件的平均写读比率;dj,表示压缩法j的解压时间;cloudLim,表示公共云的响应限制时间。
与现有技术相比,本发明具备以下有益效果:
本方案通过将不同的压缩法进行组合,提升混合云的私有云端的性能并节省公共云端的成本。私有云根据文件特征和列表对每个未命中的请求做出压缩方案的决策。公共云为所有存储文件做出压缩方案的决策。本方案找到一组压缩法来最小化成本,同时满足响应限制时间的要求。
模拟表明,与传统方案(私有云存储原始文件)相比,本方法可以提高50%的性能并节省75%的成本。主要原因在于本方案并非采用单一的压缩法,可以为文件选择更合适的压缩方案。
附图说明
图1为私有云的总体响应时间图;
图2为私有云的命中率和压缩率之间的关系图;
图3为公共云的响应时间图;
图4为公共云的平均响应时间和存储成本的比较图;
图5是公共云为本方案的各种组合的响应时间比较图;
图6是私有云为本方案的各种组合的响应时间比较图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
压缩方法介绍:
哈夫曼压缩法,具有较短的压缩时间,较高的压缩率(约为0.6),适用以写入文件为主的存储。
LZ77压缩法,具有较短的解压时间,较高的压缩率(约为0.6),适用以读取文件为主的存储。但是,压缩时间和解压时间之间的差距较大,在某些情况下并不有利。例如,当10个请求中,9个请求为读取,1个请求为写入,则,根据表1中的数据,LZ77压缩法将花费0.477秒,而哈夫曼压缩法花费0.2秒,可见,此时,采用LZ77压缩法并非优解。
LZMA压缩法和LZW压缩法的压缩率均小于哈夫曼压缩法和LZ77压缩法。较小的压缩率使得这两种算法更适用于公共云的存储。在这两种算法中,LZMA压缩法适用以读取文件为主的存储,LZW压缩法适用以写入文件为主的存储。
CM压缩法,其压缩率最低,但是压缩时间和解压时间都比较长,适合用于备份文件,但是不适用于私有云存储器。这是由于私有云存储器中的文件需要会被经常访问。
压缩法 哈夫曼 LZ77 LZMA LZW CM
压缩率 0.58 0.59 0.34 0.45 0.25
压缩时间(s/MB) 0.02 0.45 0.64 0.35 1079
解压时间(s/MB) 0.02 0.003 0.12 0.25 1075
适用: 写入 读取 读取 写入 备份
在私有云的数据存储应用压缩方案,可以将更多的文件保存在私有云存储器,进一步降低从云端访问文件的可能性,从而降低传输成本。但是,由于采用压缩方案将额外花费压缩和解压时间。因此,需要对整个压缩方案做适应性的调整。
私有云,当请求文件丢失时,对请求的文件选择合适的压缩方法,根据请求文件从公共云存储中下载可能产生的开销来决定是否压缩,并主要根据写读比率来决定如何压缩文件。
一种混合云的数据存储方法,包括以下步骤:
步骤1,建立混合云,所述混合云包括私有云和公共云;
所述私有云包括私有云存储器和缓存管理器;
所述私有云存储器,充当缓存存储;
所述缓存管理器,当请求对应的文件丢失时,该文件下载后为其选择合适的压缩方法;
所述公共云包括公共云存储器和云管理器;
所述公共云存储器,充当备份存储;
所述云管理器,对所有文件采用组合式的压缩方法;在既定的响应时间的约束下,找到存储成本最小的压缩方法。
步骤2,所述缓存管理器处理来自用户的请求,当缓存管理器接收到用户请求时,缓存管理器检查请求对应的文件是否存在于私有云存储器:如果该文件存在于私有云存储器,则允许用户直接访问;如果该文件不存在于私有云存储器,缓存管理器请求云管理器下载该文件,然后进行下一步。
步骤3,所述云管理器在收到缓存管理器的文件下载请求后,访问公共云存储器并下载该文件到缓存管理器。
步骤4,当该文件下载后,在将该文件放入私有云存储器之前,缓存管理器判断该文件是否需要压缩,以及确定当文件需要压缩时采用的具体压缩方法。
步骤4a,缓存管理器根据私有云中的请求文件的平均写读比率wrcii为下载的文件提供默认压缩法:如果wrcii>0.5,表示文件更适合写入,将默认压缩法设置为LZW压缩法,否则,将默认压缩法设置为LZMA压缩法。
步骤4b,将下载的文件压缩后并存入私有云存储器前,缓存管理器确定私有云存储器中将删除的文件;缓存管理器设立两个列表:压缩列表和未压缩列表;其中,压缩列表,表示下载的文件经过压缩并存入缓存管理器后必须从私有云存储器中删除的文件列表;未压缩列表,表示下载的文件未被压缩并存入缓存管理器后必须从私有云存储器中删除的文件列表;未压缩列表中的文件数量不少于压缩列表中的文件数量。
步骤4c,将在未压缩列表中且不在压缩列表中的文件归为免踢列表AvoidKick;免踢列表,表示因为对下载的文件进行压缩而免遭删除的文件。例如,当下载的文件大小为10MB时,在存入私有云存储器前存在“被压缩”和“未被压缩”两种可能。当该文件“被压缩”时,缓存管理器确定私有云存储器中将删除的文件为文件1和文件2,此时,由文件1和文件2组成压缩列表。当该文件“未被压缩”时,缓存管理器确定私有云存储器中将删除的文件为文件1、文件2和文件3,此时,由文件1、文件2和文件3组成未压缩列表。由于免踢列表AvoidKick为在未压缩列表中且不在压缩列表中的文件,此时,文件3组成免踢列表AvoidKick。私有云存储器删除旧文件并存入新文件的过程,为循环存储,删除旧文件的逻辑通常为删除最老的文件,当然也可以采用其它删除逻辑,总之,删除旧文件的顺序是确定的,因此,未压缩列表,必然包含压缩列表,即,未压缩列表中的文件数量不少于压缩列表中的文件数量。
用vco表示采用免踢列表后节省的时间,计算vco
当压缩法J为alcoi时,
vco=∑i∈AvoidKick[siJ×(tco+dJ)−siJ×(tci+cJ×wrcii+dJ×(1−wrcii))];
其中,alcoi,表示在公有云存储器中,文件i所使用的压缩法;AvoidKick,表示免踢列表;siJ,表示文件i经过压缩法J压缩后的大小;tco,表示公共云存储器的传输时间,单位为s/MB;dJ,表示压缩法J的解压时间;tci,表示私有云存储器的传输时间,单位为s/MB;cJ,表示压缩法J的压缩时间;wrcii,表示私有云中的请求文件的平均写读比率。
用vci表示采用压缩花费的响应时间,计算vci
当i为下载的文件,压缩法j为alcii时,
vci=sij×[tci+cj×wrcii+dj×(1−wrcii)]−si0×tci
其中,alcii,表示在私有云存储器中,文件i所使用的压缩法;sij,表示文件i经过压缩法j压缩后的大小;tci,表示私有云存储器的传输时间,单位为s/MB;cj,表示压缩法j的压缩时间;wrcii,表示私有云中的请求文件的平均写读比率;dj,表示压缩法j的解压时间;si0,表示文件i未经压缩的大小。
用v表示采用压缩节省的整体时间,计算v。
v=vco−vci
因为免踢列表中的文件,会被留存于私有云存储器,从而节省了从公共云存储器下载这些文件的时间。vco的计算中,同时减去了压缩和解压的时间,因为免踢列表中的文件已经存在于私有云存储器。
vci聚焦于下载的文件,比较了不压缩和压缩所花费的时间。如果vci>0,表示压缩可以节省响应时间。
如果v>0,表示采用压缩后整体是节约时间的,因此,缓存管理器将压缩下载的文件并存储于私有云存储器;否则,下载的文件未经压缩直接存储于私有云存储器。
步骤5,所述云管理器确定保存到公共云存储器所有文件的压缩方法。
在私有云中应用的压缩方案,由于在私有云存储器中保留更多的文件,从而降低访问公共云的可能性,进而降低传输成本。在公共云中应用压缩方案,也可以降低成本,但是其原因有别于私有云,其降低传输成本的原因是在于:压缩后的文件所占用的存储空间减小了,从而降低存储成本。但是,存储成本并非采用压缩的唯一考虑因素,采用何种压缩方案还应该考虑到响应限制时间。在公共云中应用压缩方案后的响应时间,应当在可接收的范围内。将可接收的最大响应时间设置为公共云的响应限制时间cloudLim。
公共云存储器,充当备份存储,有别于私有云存储器的缓存负载。因此,公共云存储器的压缩方法应当着眼于每个文件而不是每个请求,这样可以节省大量计算开销。同时,引入公共云平均响应时间,避免压缩方案被大文件所支配。因此,将公共云存储器采用何种压缩方案的问题,简化为一个线性规划问题,即,在公共云平均响应时间有界的情况下最小化公共云存储器的存储成本。
线性规划问题用数学式表示如下:
最小化存储成本:
Figure 100029DEST_PATH_IMAGE001
需要满足的条件:
Figure 614187DEST_PATH_IMAGE003
其中,Coststo,表示云存储的存储成本,单位为$/MB;sij,文件i经过压缩法j压缩后的大小;freqi,表示文件i访问公共云时的访问频率;tco,表示公共云存储器的传输时间,单位为s/MB;cj,表示压缩法j的压缩时间;wrcoi,表示公共云中的请求文件的平均写读比率;dj,表示压缩法j的解压时间;cloudLim,表示公共云的响应限制时间。存储成本的单位:$/MB,其表示,每存储1MB的数据所需花费的成本。在本领域中,成本通常以美元来计算,例如:PUT、POST、LIST请求的API成本为每1000个请求0.005美元;网络下载成本为每GB需要0.09美元。
公共云平均响应时间,包括传输到私有云的时间以及压缩和解压的时间,这些时间都受文件大小的影响,而文件大小还受到压缩法的影响。公共云平均响应时间,还受到公共云的响应限制时间cloudLim的影响。因此,解决这个线性规划问题的计算开销,随着文件数量的增加而急剧增加,所以,有必要再简化上述方案。
对公共云存储器中的文件进行分类,通过计时器来计算每个文件未被访问的时间,将未被访问的时间超过经验值的文件归为沉默文件,剩余文件则归为活跃文件。对沉默文件使用CM压缩法。对活跃文件使用上述线性规划问题的方案。
使用工作负载模拟器ProWGen生成工作负载,设置***中有100个文件,私有云存储器的容量等于满足常规分布的文件大小之和,平均文件大小设为为50MB,缓存大小设定为1500MB,从公共云传输文件的速度在0.05s/MB~1.5s/MB;私有云存储器访问速度为0.0067s/MB,该速度比公共云快近200倍;设定25%的文件只会被访问一次。
当模拟私有云时,由于CM压缩法具有较低的压缩率,且公共云的大多数操作都是读取,因此,假设公共云存储器的所有文件都采用CM压缩法进行压缩,在传输和存储方面都节省了很多成本。
图1为私有云的总体响应时间图,总体响应时间的单位为s。从图1中可见,无论写读比率多少,在这几种方案中,本方案均取得最佳结果。整体上,总体响应时间是随着写读比率的增加而增加的,这是因为压缩时间大于解压时间。当写读比率增加时,表示有更多的写入请求,***需要花费更多的时间来压缩,从而增加了总体响应时间。由于本方案采用了匹配工作负载的压缩法的组合,其性能好于仅使用一种压缩法。
图2为私有云的命中率和压缩率之间的关系图。命中率随着压缩率的增加而增加,但最后变得平滑。压缩率的增加,表示更多的文件被压缩。命中率的增加,表示在请求文件在私有云中的概率增加,对访问公共云的需求降低。
当模拟公共云时,预先设定公共云的写读比率和私有云的写读比率相同,并且访问频率为30%的文件占据了60%以上的请求。使用数学规划求解器lp_solve来解决公共云的线性规划问题。
图3为公共云的响应时间图,单位为s。图3中显示,不压缩的方案的响应时间最好,因为这不花费任何压缩或解压时间,而且传输速度更快,但是,由于它存储的是原始文件,所以该方案的存储成本最高。采用本专利方案,响应时间受到公共云的响应限制时间cloudLim的影响,但在不同的公共云的响应限制时间cloudLim的影响下,其响应时间,均小于仅采用LZW压缩法或LZMA压缩法的方案。
图4为公共云的平均响应时间和存储成本的比较图,平均响应时间单位为s,存储成本单位为$/MB。图4显示,随着公共云的响应限制时间cloudLim的越来越宽松,本方案倾向于选择能节省更多存储成本的压缩法。因此,随着响应时间的增加,存储成本会越来越小。
接下来综合考虑私有云和公共云的组合结果。比较私有云和公共云两端均使用本方案的结果,以及私有云和公共云只有一端使用本方案,另一端采用单一算法的结果。
图5是公共云为本方案的各种组合的响应时间比较图,平均响应时间单位为s,图5中,“+”前表示私有云的压缩方案,“+”后表示公共云的压缩方案,Auto表示本专利方案。“Auto+Auto”的组合方案表现最为凸出,相比于“LZW+Auto”的组合方案提升了40%。由于公共云均采用了本方案,所以影响响应时间的主要因素是私有云的压缩法。可见,本方案在私有云的表现更好。
图6是私有云为本方案的各种组合的响应时间比较图,响应时间单位为s,图6中,“+”前表示私有云的压缩方案,“+”后表示公共云的压缩方案,Auto表示本专利方案。“Auto+Auto”的组合方案表现最为凸出。“Auto+LZMA”的组合方案的表现也很凸出,这是因为两种组合方案在两端的每个文件所选用的压缩方法类似。
综上,本方案通过将不同的压缩法进行组合,提升混合云的私有云端的性能并节省公共云端的成本。私有云根据文件特征和列表对每个未命中的请求做出压缩方案的决策。公共云为所有存储文件做出压缩方案的决策。本方案找到一组压缩法来最小化成本,同时满足响应限制时间的要求。
模拟表明,与传统方案(私有云存储原始文件)相比,本方法可以提高50%的性能并节省75%的成本。主要原因在于本方案并非采用单一的压缩法,可以为文件选择更合适的压缩方案。
本方案适用的参数汇总如下:
tci,私有云存储器的传输时间,单位为s/MB;
tco,公共云存储器的传输时间,单位为s/MB;
cacheSize,私有云存储器的存储容量;
cloudLim,公共云的响应限制时间;
Coststo,云存储的存储成本,单位为$/MB;
Costtrn,云存储的传输成本,单位为$/MB;
sij,文件i经过压缩法j压缩后的大小;
wrcii,私有云中的请求文件的平均写读比率;
wrcoi,公共云中的请求文件的平均写读比率;
freqi,文件i访问公共云时的访问频率;
alcii,在私有云存储器中,文件i所使用的压缩法;
alcoi,在公有云存储器中,文件i所使用的压缩法;
cj,压缩法j的压缩时间;
dj,压缩法j的解压时间。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种混合云的数据存储方法,其特征在于,包括以下步骤:
步骤1,建立混合云,所述混合云包括私有云和公共云;
所述私有云包括私有云存储器和缓存管理器;所述公共云包括公共云存储器和云管理器;
步骤2,所述缓存管理器处理来自用户的请求,当缓存管理器接收到用户请求时,缓存管理器检查请求对应的文件是否存在于私有云存储器:如果该文件存在于私有云存储器,则允许用户直接访问;如果该文件不存在于私有云存储器,缓存管理器请求云管理器下载该文件,然后进行下一步;
步骤3,所述云管理器在收到缓存管理器的文件下载请求后,访问公共云存储器并下载该文件到缓存管理器;
步骤4,当该文件下载后,在将该文件放入私有云存储器之前,缓存管理器判断该文件是否需要压缩,以及确定当文件需要压缩时采用的具体压缩方法;
步骤4包括以下步骤:
步骤4a,缓存管理器根据私有云中的请求文件的平均写读比率wrcii为下载的文件提供默认压缩法:如果wrcii>0.5,表示文件更适合写入,将默认压缩法设置为LZW压缩法,否则,将默认压缩法设置为LZMA压缩法;
步骤4b,将下载的文件压缩后并存入私有云存储器前,缓存管理器确定私有云存储器中将删除的文件;缓存管理器设立两个列表:压缩列表和未压缩列表;其中,压缩列表,表示下载的文件经过压缩并存入缓存管理器后必须从私有云存储器中删除的文件列表;未压缩列表,表示下载的文件未被压缩并存入缓存管理器后必须从私有云存储器中删除的文件列表;未压缩列表中的文件数量不少于压缩列表中的文件数量;
步骤4c,将在未压缩列表中且不在压缩列表中的文件归为免踢列表;免踢列表,表示因为对下载的文件进行压缩而免遭删除的文件;
用v表示采用压缩节省的整体时间,v的计算式:v=vco−vci
其中,vco表示采用免踢列表后节省的时间,vci表示采用压缩花费的响应时间;
如果v>0,表示采用压缩后整体是节约时间的,因此,缓存管理器将压缩下载的文件并存储于私有云存储器;否则,下载的文件未经压缩直接存储于私有云存储器;
步骤5,所述云管理器确定保存到公共云存储器所有文件的压缩方法。
2.根据权利要求1所述的一种混合云的数据存储方法,其特征在于,所述私有云存储器,充当缓存存储;所述缓存管理器,当请求对应的文件丢失时,该文件下载后为其选择合适的压缩方法;所述公共云存储器,充当备份存储;所述云管理器,对所有文件采用组合式的压缩方法,在既定的响应时间的约束下,找到存储成本最小的压缩方法。
3.根据权利要求1所述的一种混合云的数据存储方法,其特征在于, 步骤4c中,vco的计算式:当压缩法J为alcoi时,
vco=∑i∈AvoidKick[siJ×(tco+dJ)−siJ×(tci+cJ×wrcii+dJ×(1−wrcii))];
其中,alcoi,表示在公有云存储器中,文件i所使用的压缩法;AvoidKick,表示免踢列表;siJ,表示文件i经过压缩法J压缩后的大小;tco,表示公共云存储器的传输时间,单位为s/MB;dJ,表示压缩法J的解压时间;tci,表示私有云存储器的传输时间,单位为s/MB;cJ,表示压缩法J的压缩时间;wrcii,表示私有云中的请求文件的平均写读比率。
4.根据权利要求3所述的一种混合云的数据存储方法,其特征在于,步骤4c中,vci的计算式:当i为下载的文件,压缩法j为alcii时,
vci=sij×[tci+cj×wrcii+dj×(1−wrcii)]−si0×tci
其中,alcii,表示在私有云存储器中,文件i所使用的压缩法;sij,表示文件i经过压缩法j压缩后的大小;tci,表示私有云存储器的传输时间,单位为s/MB;cj,表示压缩法j的压缩时间;wrcii,表示私有云中的请求文件的平均写读比率;dj,表示压缩法j的解压时间;si0,表示文件i未经压缩的大小。
5.根据权利要求1所述的一种混合云的数据存储方法,其特征在于,步骤5中,对公共云存储器中的文件进行分类,通过计时器来计算每个文件未被访问的时间,将未被访问的时间超过经验值的文件归为沉默文件,剩余文件则归为活跃文件;对沉默文件使用CM压缩法;对活跃文件使用线性规划问题的方案,即,在公共云平均响应时间有界的情况下最小化公共云存储器的存储成本。
6.根据权利要求5所述的一种混合云的数据存储方法,其特征在于,线性规划问题的方案用数学式表示如下:
最小化存储成本:
Figure 897442DEST_PATH_IMAGE001
需要满足的条件:
Figure 345741DEST_PATH_IMAGE002
其中,Coststo,表示云存储的存储成本,单位为$/MB;sij,文件i经过压缩法j压缩后的大小;freqi,表示文件i访问公共云时的访问频率;tco,表示公共云存储器的传输时间,单位为s/MB;cj,表示压缩法j的压缩时间;wrcoi,表示公共云中的请求文件的平均写读比率;dj,表示压缩法j的解压时间;cloudLim,表示公共云的响应限制时间。
CN202111313263.4A 2021-11-08 2021-11-08 一种混合云的数据存储方法 Active CN113742304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111313263.4A CN113742304B (zh) 2021-11-08 2021-11-08 一种混合云的数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111313263.4A CN113742304B (zh) 2021-11-08 2021-11-08 一种混合云的数据存储方法

Publications (2)

Publication Number Publication Date
CN113742304A CN113742304A (zh) 2021-12-03
CN113742304B true CN113742304B (zh) 2022-02-15

Family

ID=78727719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111313263.4A Active CN113742304B (zh) 2021-11-08 2021-11-08 一种混合云的数据存储方法

Country Status (1)

Country Link
CN (1) CN113742304B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230259406A1 (en) * 2022-02-14 2023-08-17 International Business Machines Corporation Workflow Data Redistribution in Hybrid Public/Private Computing Environments

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102263825B (zh) * 2011-08-08 2014-08-13 浪潮电子信息产业股份有限公司 一种基于云位置的混合云存储***数据传输方法
CN102523446B (zh) * 2011-12-26 2014-06-04 南京鹏力***工程研究所 一种船舶交通导航***雷达视频自适应压缩方法
CN106210015B (zh) * 2016-07-05 2019-12-31 福州大学 一种混合云结构中热度数据缓存的云存储方法
CN107678685B (zh) * 2017-09-11 2020-01-17 清华大学 基于闪存的存储路径优化的键值存储管理方法
WO2020252614A1 (en) * 2019-06-17 2020-12-24 Beijing Voyager Technology Co., Ltd. Systems and methods for data processing
CN112764686A (zh) * 2021-01-26 2021-05-07 东北大学 一种基于数据压缩的大数据处理***节能方法

Also Published As

Publication number Publication date
CN113742304A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
US7895242B2 (en) Compressed storage management
US7188227B2 (en) Adaptive memory compression
CN110188080B (zh) 基于客户端高效缓存的远程文件数据访问性能优化方法
US7617362B2 (en) System for balancing multiple memory buffer sizes and method therefor
US6349375B1 (en) Compression of data in read only storage and embedded systems
US20120303905A1 (en) Method and apparatus for implementing cache
CN107249035B (zh) 一种等级动态可变的共享重复数据存储和读取方法
CN110688062B (zh) 一种缓存空间的管理方法及装置
US20160306738A1 (en) Reducing Memory Commit Charge When Compressing Memory
CN113655969B (zh) 一种基于流式分布式存储***的数据均衡存储方法
CN113742304B (zh) 一种混合云的数据存储方法
CN111611250A (zh) 数据存储设备、数据查询方法、装置、服务器及存储介质
CN112825023A (zh) 集群资源管理方法、装置、电子设备和存储介质
CN111930305A (zh) 数据的存储方法和装置、存储介质、电子装置
US8751750B2 (en) Cache device, data management method, program, and cache system
CN111857574A (zh) 一种写请求数据压缩方法、***、终端及存储介质
CN109325001B (zh) 基于元数据服务器删除小文件的方法、装置及设备
CN112925472A (zh) 请求处理方法、装置、电子设备及计算机存储介质
CN112667847A (zh) 数据缓存方法、数据缓存装置和电子设备
CN108234552B (zh) 一种数据存储方法及装置
CN115951832A (zh) 针对对象存储的智能小文件合并的方法及***
US10992743B1 (en) Dynamic cache fleet management
CN115809263A (zh) 数据处理方法、装置、设备及存储介质
KR102195239B1 (ko) 대역폭을 고려한 하둡의 데이터 압축 전송 방법, 이를 수행하기 위한 기록 매체 및 장치
CN107580060B (zh) 一种移动端分库缓存方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant