CN115203177B - 一种分布式数据存储***及存储方法 - Google Patents

一种分布式数据存储***及存储方法 Download PDF

Info

Publication number
CN115203177B
CN115203177B CN202211125471.6A CN202211125471A CN115203177B CN 115203177 B CN115203177 B CN 115203177B CN 202211125471 A CN202211125471 A CN 202211125471A CN 115203177 B CN115203177 B CN 115203177B
Authority
CN
China
Prior art keywords
occupancy
node
storage
resource utilization
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211125471.6A
Other languages
English (en)
Other versions
CN115203177A (zh
Inventor
王云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyue Network Technology Co ltd
Original Assignee
Beijing Zhiyue Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyue Network Technology Co ltd filed Critical Beijing Zhiyue Network Technology Co ltd
Priority to CN202211125471.6A priority Critical patent/CN115203177B/zh
Publication of CN115203177A publication Critical patent/CN115203177A/zh
Application granted granted Critical
Publication of CN115203177B publication Critical patent/CN115203177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式数据存储***及存储方法,包括存储节点,内部设置有处理器和存储器,所述存储节点之间通过网络互相连接;监视模块,监控并记录各个所述存储节点的容量占用率和资源利用率;计算模块,针对每一所述存储节点,基于所述历史资源利用率计算每个所述存储节点的迁移时间段;评估模块,根据所述计算模块提供的数据和所述容量占用率,对所述存储节点进行筛选,确定需要迁入迁出的存储节点;迁移模块,用于迁移存储数据;本发明通过检测各个存储节点的数据存储量并进行数据迁移,从而可以自动调节各个存储节点的容量占用率和资源利用率,从而实现存储***的负载均衡。

Description

一种分布式数据存储***及存储方法
技术领域
本发明涉及分布式数据存储技术领域,特别涉及一种分布式数据存储***及存储方法。
背景技术
分布式数据存储***中包含多个存储节点和管理节点,存储节点负责文件的存储、读取和写入;管理节点负责将任务分配给这些数据节点执行,满足应用需求。由于数据分配在不同的存储节点上,当存储节点的数据较多时,其读取频次也会相应的增加,若同一存储节点同时收到多个访问信息时,其数据的读取速度势必会降低,因此,为了降低存储节点的资源使用率,需要将该存储节点上的数据进行迁移,然而目前的数据迁移主要依赖于运维人员进行操作,效率较低。
发明内容
为解决上述问题,本发明提供一种分布式数据存储***及存储方法,以解决现有技术中分布式数据存储***中的数据迁移主要依赖于运维人员进行操作、存在效率低下问题。
为实现上述目的,本发明采用了如下技术方案,一种分布式数据存储方法,包括:
步骤S1:获取各个存储节点的容量占用率,定义所述容量占用率超过第一阈值的存储节点为高占用率节点,所述容量占用率低于第二阈值的存储节点为低占用率节点,所述第二阈值小于所述第一阈值;
步骤S2:基于历史资源利用率数据预测所述高占用率节点资源利用率低于预设资源利用率的空闲时间段,若多个所述高占用率节点的所述空闲时间段位于同一时间段,执行步骤S3,否则执行步骤S4;
步骤S3:通过第一公式计算各个所述高占用率节点的压力值,选取压力值最大的所述高占用率节点进行数据迁移,所述第一公式为:
Figure 55432DEST_PATH_IMAGE001
,其中,
Figure 927573DEST_PATH_IMAGE002
为所述容量占用率,
Figure 452095DEST_PATH_IMAGE003
为所述高占用率节点在24小时内的读取频次,
Figure 347370DEST_PATH_IMAGE004
为所述高占用率节点需要迁移的数据量,
Figure 22065DEST_PATH_IMAGE005
分别为加权系数;
步骤S4:确定所述高占用率节点需要迁移的数据量;
步骤S5:筛选剩余存储容量满足第二公式的所述低占用率节点,所述第二公式为:
Figure 748712DEST_PATH_IMAGE006
,其中,
Figure 709715DEST_PATH_IMAGE007
为所述第二阈值,
Figure 92286DEST_PATH_IMAGE008
为所述低占用率节点当前的存储数据量,
Figure 305093DEST_PATH_IMAGE009
为所述高占用率节点需要迁移的数据量,
Figure 89509DEST_PATH_IMAGE010
为所述低占用率节点的总容量;
步骤S6:从满足所述第二公式的所述低占用率节点中选取与所述高占用率节点最适配的存储节点,将所述高占用率节点的存储数据迁移至所述低占用率节点中;
步骤S7:重复步骤S2至步骤S6,直至存储***内不再存在所述高占用率节点,或所有所述低占用率节点均不再适合迁入新的存储数据。
进一步的,所述步骤S6中,选取与所述高占用率节点最适配的存储节点包括以下步骤:
步骤S61:将所述高占用率节点和所述低占用率节点对应时间点的历史资源利用率相加,获得所述低占用率节点被转移存储数据后,各个时间点的预测资源利用率
Figure 362359DEST_PATH_IMAGE011
其中,
Figure 28963DEST_PATH_IMAGE012
Figure 373357DEST_PATH_IMAGE013
分别代表所述高占用率节点和所述低占用率节点过去第j天第i个时间点的所述资源利用率;
步骤S62:基于第三公式获取所述预测资源利用率的平均值
Figure 277859DEST_PATH_IMAGE014
,所述第三公式为:
Figure 252768DEST_PATH_IMAGE015
,其中m代表共获取过去m天,n代表每天获取n个时间点;
步骤S63:设置资源利用率阈值,以时间为X轴,以所述资源利用率为Y轴建立直角坐标系,将所述资源利用率阈值和所述预测资源利用率绘制于所述直角坐标系上,基于曲线拟合法拟合所述预测资源利用率的各个坐标点得出曲线函数f(x),基于第四公式计算所述曲线函数与X轴围成面积中超过所述资源使用率阈值与X轴围成的面积S,所述第四公式为:
Figure 141090DEST_PATH_IMAGE016
,
Figure 289175DEST_PATH_IMAGE017
其中,
Figure 48183DEST_PATH_IMAGE018
为所述曲线函数与所述资源利用率阈值的交点,
Figure 193994DEST_PATH_IMAGE019
为所述资源利用率阈值,
Figure 897507DEST_PATH_IMAGE020
是返回
Figure 521387DEST_PATH_IMAGE021
Figure 400481DEST_PATH_IMAGE022
中数值较大的参数;
步骤S64:基于第五公式计算各个所述低占用率节点的抵触分,所述抵触分最低的所述低占用率节点为最佳适配存储节点,所述第五公式为:
Figure 779510DEST_PATH_IMAGE023
,其中
Figure 642424DEST_PATH_IMAGE024
分别为加权系数。
进一步的,在进行所述步骤S61之前,还包括以下步骤:
步骤S061:基于当前网络状态、存储数据大小、存储节点硬件配置和存储节点所述资源利用率预测存储数据迁移速度,剔除所述迁移速度低于预设迁移速度的所述低占用率节点。
进一步的,所述步骤S61之后,还包括以下步骤:
步骤S611:存在所述预测资源利用率超过所述低占用率节点的所述资源利用率上限时,剔除所述低占用率节点。
进一步的,存储数据迁移过程中,若所述高占用率节点和所述低占用率节点的所述资源利用率大于所述预设资源利用率阈值时,降低存储数据的迁移速率。
进一步的,未进行数据迁移时,每隔第一时间获取所述高占用率节点和所述低占用率节点的所述资源利用率,进行数据迁移时,每隔第二时间获取所述高占用率节点和所述低占用率节点的所述资源利用率,所述第二时间小于所述第一时间。
进一步的,设定迁移数值上限,禁止对数据量大于所述迁移数值上限的存储数据进行数据迁移。
进一步的,所述曲线拟合法为最小二乘法。
另一方面,本发明还提供了一种分布式数据存储***,该***用于实现上述技术方案中一种分布式数据存储方法,包括
存储节点,内部设置有处理器和存储器,所述存储节点之间通过网络互相连接;
监视模块,监控并记录各个所述存储节点的容量占用率和资源利用率;
计算模块,基于历史资源利用率计算每个存储节点的空闲时间段;
评估模块,根据所述计算模块提供的数据和所述容量占用率,对存储节点进行筛选,确定需要进行数据迁入迁出的存储节点;
迁移模块,用于迁移存储数据
与现有技术相比,本发明的有益效果至少如下所述:
1、本发明首先基于容量占用率对各个存储节点进行划分,获取高占用率节点和低占用率节点,从而获得需要进行数据迁移的目标的对象;然后再获取历史资源利用率数据,从而对高占用率节点未来的资源利用率进行预测,避免选择在该数据节点数据读取繁忙时进行数据迁移,影响数据迁移的速度;本发明通过检测各个存储节点的数据存储量并进行数据迁移,从而可以自动调节各个存储节点的容量占用率和资源利用率,从而实现存储***的负载均衡。
2、若存在多个高占用率节点进行数据迁移,则需要对迁移的顺序进行排序,在进行排序时,分别依据数据节点的容量占用率、读取频次和需要迁移的数据量进行评估,从而获得最需要进行数据迁移的高占用率节点。
附图说明
图1为本发明一种分布式数据存储方法的流程图;
图2为本发明低占用率节点的预测资源利用率示意图;
图3为本发明低占用率节点预测资源利用率的曲线拟合图。
图中:1、高占用率节点;2、低占用率节点。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“ 第一”、“ 第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,一种分布式数据存储方法,包括:
步骤S1:获取各个存储节点的容量占用率,定义容量占用率超过第一阈值的存储节点为高占用率节点,容量占用率低于第二阈值的存储节点为低占用率节点,第二阈值小于第一阈值;
步骤S2:基于历史资源利用率数据预测高占用率节点资源利用率低于预设资源利用率的空闲时间段,若多个高占用率节点的空闲时间段位于同一时间段,执行步骤S3,否则执行步骤S4;
步骤S3:通过第一公式计算各个高占用率节点的压力值,选取压力值最大的高占用率节点进行数据迁移,第一公式为:
Figure 273256DEST_PATH_IMAGE001
,其中,
Figure 538016DEST_PATH_IMAGE002
为容量占用率,
Figure 25629DEST_PATH_IMAGE003
为高占用率节点在24小时内的读取频次,
Figure 641418DEST_PATH_IMAGE004
为高占用率节点需要迁移的数据量,
Figure 75941DEST_PATH_IMAGE005
分别为加权系数;
步骤S4:确定高占用率节点需要迁移的数据量;
步骤S5:筛选剩余存储容量满足第二公式的低占用率节点,第二公式为:
Figure 523103DEST_PATH_IMAGE006
,其中,
Figure 916038DEST_PATH_IMAGE007
为第二阈值,
Figure 956807DEST_PATH_IMAGE008
为低占用率节点当前的存储数据量,
Figure 54076DEST_PATH_IMAGE009
为高占用率节点需要迁移的数据量,
Figure 559006DEST_PATH_IMAGE010
为低占用率节点的总容量;
步骤S6:从满足第二公式的低占用率节点中选取与高占用率节点最适配的存储节点,将高占用率节点的存储数据迁移至低占用率节点中;
步骤S7:重复步骤S2至步骤S6,直至存储***内不再存在高占用率节点,或所有低占用率节点均不再适合迁入新的存储数据。
本发明首先基于容量占用率对各个存储节点进行划分,获取高占用率节点和低占用率节点,从而获得需要进行数据迁移的目标的对象;然后再获取历史资源利用率数据,从而对高占用率节点未来的资源利用率进行预测,避免选择在该数据节点数据读取繁忙时进行数据迁移,影响数据迁移的速度;若存在多个高占用率节点进行数据迁移,则需要对迁移的顺序进行排序,若***同时进行多个存储节点的数据迁移,必然会造成CPU的过载,使得整个数据存储***出现卡顿。
在进行排序时,分别依据数据节点的容量占用率、读取频次和需要迁移的数据量进行评估,对于容量占用率,由于存储节点内的数据存储于磁盘内,在实际使用过程中,当磁盘内的数据趋于饱和时,磁盘的读取速度会有所降低,对于读取频次,高频次的读取代表该数据是被频繁访问的,那么将该数据转移,可以显著降低原数据节点的资源利用率,对于数据量,优先转移数据量较大的存储数据可以快读降低存储节点的容量占用率;通过步骤S5可以保证存储数据迁移后,不会使得低占用率节点变为高占用率数据节点;本发明通过检测各个存储节点的数据存储量并进行数据迁移,从而可以自动调节各个存储节点的容量占用率和资源利用率,从而实现存储***的负载均衡。
步骤S6中,选取与高占用率节点最适配的存储节点包括以下步骤:
步骤S61:将高占用率节点和低占用率节点对应时间点的历史资源利用率相加,获得低占用率节点被转移存储数据后,各个时间点的预测资源利用率
Figure 60526DEST_PATH_IMAGE011
其中,
Figure 978803DEST_PATH_IMAGE012
Figure 551867DEST_PATH_IMAGE013
分别代表高占用率节点和低占用率节点过去第j天第i个时间点的资源利用率;
步骤S62:基于第三公式获取预测资源利用率的平均值
Figure 837269DEST_PATH_IMAGE014
,第三公式为:
Figure 899903DEST_PATH_IMAGE015
,其中m代表共获取过去m天,n代表每天获取n个时间点;
步骤S63:设置资源利用率阈值,以时间为X轴,以资源利用率为Y轴建立直角坐标系,将资源利用率阈值和预测资源利用率绘制于直角坐标系上,基于曲线拟合法拟合预测资源利用率的各个坐标点得出曲线函数f(x),具体的,曲线拟合法为最小二乘法,基于第四公式计算曲线函数与X轴围成面积中超过资源使用率阈值与X轴围成的面积S,第四公式为:
Figure 712001DEST_PATH_IMAGE025
,
Figure 26439DEST_PATH_IMAGE017
其中,
Figure 568278DEST_PATH_IMAGE018
为曲线函数与资源利用率阈值的交点,
Figure 739497DEST_PATH_IMAGE019
为资源利用率阈值,
Figure 242153DEST_PATH_IMAGE020
是返回
Figure 219337DEST_PATH_IMAGE021
Figure 491049DEST_PATH_IMAGE022
中数值较大的参数;
步骤S64:基于第五公式计算各个低占用率节点的适配分,适配分最高的低占用率节点为最佳适配存储节点,第五公式为:
Figure 833169DEST_PATH_IMAGE023
,其中
Figure 682176DEST_PATH_IMAGE024
分别为加权系数。
如图2所示,首先通过步骤S61将获取到的高占用率节点1和低占用率节点2对应时间点的历史资源利用率相加,从而获得将高占用率节点1内的存储数据转移至低占用率节点2后,低占用率节点2在对应时间段的预测资源利用率;例如在本实施例中,共获取过去3天,每天24个时间点,共72个高占用率节点1和低占用率节点2的历史资源利用率数据,那么将对应时间的数据相加,可得到图2所示的预测资源利用率数据。
通过步骤S62将所有的预测资源利用率数据相加并除以72,得到每个时间点的平均预测资源利用率;通过步骤S63将各个预测资源利用率绘制在平面坐标系内,并使用曲线拟合法得出与各个坐标点走向最接近的曲线函数,如图3所示,设置资源使用率阈值并在坐标系内绘制,得到曲线函数和资源使用率阈值的交点
Figure 338417DEST_PATH_IMAGE018
,通过定积分获取曲线函数与资源使用率阈在各个交点区间内与X轴围成面积,然后减去各个交点区间资源使用率阈值与X轴围成的面积,最后通过
Figure 526952DEST_PATH_IMAGE020
剔除各个交点区间内小于0的面积时,也即曲线函数与X轴围成面积中小于资源使用率阈值的部分,最后通过步骤S64计算各个低占用率节点2的抵触分,得到与高占用率节点1最佳适配的低占用率节点2,也即获取到平均资源利用率最低,且转移的存储数据与低占用率节点2内的原有的存储数据读取高峰时间点重合率较低,从而提升整个存储***的稳定性。
在进行步骤S61之前,还包括以下步骤:
步骤S061:基于当前网络状态、存储数据大小、存储节点硬件配置和存储节点资源利用率预测存储数据迁移速度,剔除迁移速度低于预设迁移速度的低占用率节点。
通过此步骤可以避免迁移速度过慢导致数据的迁移时间过长,致使迁移任务长时间占用节点的资源利用率,影响***的运行速率。
步骤S61之后,还包括以下步骤:
步骤S611:存在预测资源利用率超过低占用率节点的资源利用率上限时,剔除低占用率节点。
存储数据迁移过程中,若高占用率节点和低占用率节点的资源利用率大于预设资源利用率阈值时,降低存储数据的迁移速率。
通过降低存储数据的迁移速率以降低节点的资源利用率,从而避免迁移任务占用过大的资源利用率,过度影响节点内其他资源的读取速率。
未进行数据迁移时,每隔第一时间获取高占用率节点和低占用率节点的资源利用率,进行数据迁移时,每隔第二时间获取高占用率节点和低占用率节点的资源利用率,第二时间小于第一时间。
在数据迁移过程中,缩短对高占用率节点和低占用率节点资源利用率监测的间隔时间,从而可以更加精准的监测资源利用率是否大于预设资源利用率阈值。
设定迁移数值上限,禁止对数据量大于迁移数值上限的存储数据进行数据迁移。一般来说,存储数据占用的容量越大,其资源利用率也会成比例地升高,因此,即使将过大的存储数据迁移到其他节点的情况下,该存储数据也会使迁移目的地的节点容易出现较大的资源利用率,而且迁移过程也会伴随较大的迁移成本,因此过大的存储数据不适合进行迁移。
一种分布式数据存储***,用于实现上述的一种分布式数据存储方法,包括存储节点,内部设置有处理器和存储器,存储节点之间通过网络互相连接;监视模块,监控并记录各个存储节点的容量占用率和资源利用率;计算模块,基于历史资源利用率计算每个存储节点的空闲时间段;评估模块,根据计算模块提供的数据和容量占用率,对存储节点进行筛选,确定需要进行数据迁入迁出的存储节点;迁移模块,用于迁移存储数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种分布式数据存储方法,其特征在于,包括:
步骤S1:获取各个存储节点的容量占用率,定义所述容量占用率超过第一阈值的存储节点为高占用率节点,所述容量占用率低于第二阈值的存储节点为低占用率节点,所述第二阈值小于所述第一阈值;
步骤S2:基于历史资源利用率数据预测所述高占用率节点资源利用率低于预设资源利用率的空闲时间段,若多个所述高占用率节点的所述空闲时间段位于同一时间段,执行步骤S3,否则执行步骤S4;
步骤S3:通过第一公式计算各个所述高占用率节点的压力值,选取压力值最大的所述高占用率节点进行数据迁移,所述第一公式为:
Figure 930456DEST_PATH_IMAGE001
,其中,
Figure 683649DEST_PATH_IMAGE002
为所述容量占用率,
Figure 565017DEST_PATH_IMAGE003
为所述高占用率节点在过去24小时内的读取频次,
Figure 61857DEST_PATH_IMAGE004
为所述高占用率节点需要迁移的数据量,
Figure 712282DEST_PATH_IMAGE005
分别为加权系数;
步骤S4:确定所述高占用率节点需要迁移的数据量;
步骤S5:筛选剩余存储容量满足第二公式的所述低占用率节点,所述第二公式为:
Figure 370796DEST_PATH_IMAGE006
,其中,
Figure 739461DEST_PATH_IMAGE007
为所述第二阈值,
Figure 571150DEST_PATH_IMAGE008
为所述低占用率节点当前的存储数据量,
Figure 341660DEST_PATH_IMAGE009
为所述高占用率节点需要迁移的数据量,
Figure 171076DEST_PATH_IMAGE010
为所述低占用率节点的总容量;
步骤S6:从满足所述第二公式的所述低占用率节点中选取与所述高占用率节点最适配的存储节点,将所述高占用率节点的存储数据迁移至所述低占用率节点中;
步骤S7:重复步骤S2至步骤S6,直至存储***内不再存在所述高占用率节点,或所有所述低占用率节点均不再适合迁入新的存储数据;
所述步骤S6中,选取与所述高占用率节点最适配的存储节点包括以下步骤:
步骤S61:将所述高占用率节点和所述低占用率节点对应时间点的历史资源利用率相加,获得所述低占用率节点被转移存储数据后,各个时间点的预测资源利用率
Figure 27036DEST_PATH_IMAGE011
其中,
Figure 600100DEST_PATH_IMAGE012
Figure 959537DEST_PATH_IMAGE013
分别代表所述高占用率节点和所述低占用率节点过去第j天第i个时间点的所述资源利用率;
步骤S62:基于第三公式获取所述预测资源利用率的平均值
Figure 225434DEST_PATH_IMAGE014
,所述第三公式为:
Figure 303111DEST_PATH_IMAGE015
,其中m代表共获取过去m天,n代表每天获取n个时间点;
步骤S63:设置资源利用率阈值,以时间为X轴,以所述资源利用率为Y轴建立直角坐标系,将所述资源利用率阈值和所述预测资源利用率绘制于所述直角坐标系上,基于曲线拟合法拟合所述预测资源利用率的各个坐标点,得出曲线函数f(x),基于第四公式计算所述曲线函数与X轴围成面积中超过所述资源使用率阈值与X轴围成的面积S,所述第四公式为:
Figure 945445DEST_PATH_IMAGE016
其中,
Figure 221706DEST_PATH_IMAGE017
为所述曲线函数与所述资源利用率阈值的交点,
Figure 658503DEST_PATH_IMAGE018
为所述资源利用率阈值,
Figure 223477DEST_PATH_IMAGE019
是返回
Figure 138343DEST_PATH_IMAGE020
Figure 472372DEST_PATH_IMAGE021
中数值较大的参数;
步骤S64:基于第五公式计算各个所述低占用率节点的抵触分,所述抵触分最低的所述低占用率节点为最佳适配存储节点,所述第五公式为:
Figure 91790DEST_PATH_IMAGE022
,其中
Figure 144060DEST_PATH_IMAGE023
分别为加权系数。
2.根据权利要求1所述的一种分布式数据存储方法,其特征在于,在进行所述步骤S61之前,还包括以下步骤:
步骤S061:基于当前网络状态、存储数据大小、存储节点硬件配置和存储节点所述资源利用率预测存储数据迁移速度,剔除所述迁移速度低于预设迁移速度的所述低占用率节点。
3.根据权利要求2所述的一种分布式数据存储方法,其特征在于,所述步骤S61之后,还包括以下步骤:
步骤S611:存在所述预测资源利用率超过所述低占用率节点的所述资源利用率上限时,剔除所述低占用率节点。
4.根据权利要求1所述的一种分布式数据存储方法,其特征在于,存储数据迁移过程中,若所述高占用率节点和所述低占用率节点的所述资源利用率大于所述预设资源利用率阈值时,降低存储数据的迁移速率。
5.根据权利要求1所述的一种分布式数据存储方法,其特征在于,未进行数据迁移时,每隔第一时间获取所述高占用率节点和所述低占用率节点的所述资源利用率,进行数据迁移时,每隔第二时间获取所述高占用率节点和所述低占用率节点的所述资源利用率,所述第二时间小于所述第一时间。
6.根据权利要求1所述的一种分布式数据存储方法,其特征在于,设定迁移数值上限,禁止对数据量大于所述迁移数值上限的存储数据进行数据迁移。
7.根据权利要求1所述的一种分布式数据存储方法,其特征在于,所述曲线拟合法为最小二乘法。
8.一种分布式数据存储***,用于实现权利要求1-7任一项所述的一种分布式数据存储方法,其特征在于,包括
存储节点,内部设置有处理器和存储器,所述存储节点之间通过网络互相连接;
监视模块,监控并记录各个所述存储节点的容量占用率和资源利用率;
计算模块,基于历史资源利用率计算每个存储节点的空闲时间段;
评估模块,根据所述计算模块提供的数据和所述容量占用率,对存储节点进行筛选,确定需要进行数据迁入迁出的存储节点;
迁移模块,用于迁移存储数据。
CN202211125471.6A 2022-09-16 2022-09-16 一种分布式数据存储***及存储方法 Active CN115203177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211125471.6A CN115203177B (zh) 2022-09-16 2022-09-16 一种分布式数据存储***及存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211125471.6A CN115203177B (zh) 2022-09-16 2022-09-16 一种分布式数据存储***及存储方法

Publications (2)

Publication Number Publication Date
CN115203177A CN115203177A (zh) 2022-10-18
CN115203177B true CN115203177B (zh) 2022-12-06

Family

ID=83571890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211125471.6A Active CN115203177B (zh) 2022-09-16 2022-09-16 一种分布式数据存储***及存储方法

Country Status (1)

Country Link
CN (1) CN115203177B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453149B (zh) * 2023-12-22 2024-04-09 柏科数据技术(深圳)股份有限公司 分布式存储***的数据平衡方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227645A (zh) * 2015-09-15 2016-01-06 齐鲁工业大学 一种云数据迁移方法
CN110377430A (zh) * 2019-07-24 2019-10-25 中南民族大学 数据迁移方法、设备、存储介质及装置
WO2021073083A1 (zh) * 2019-10-15 2021-04-22 南京莱斯网信技术研究院有限公司 一种基于节点负载的数据动态分区***
WO2021180056A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 一种资源迁移的方法、***及设备
CN113821340A (zh) * 2021-08-27 2021-12-21 济南浪潮数据技术有限公司 分布式***的动态均衡方法、***、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227645A (zh) * 2015-09-15 2016-01-06 齐鲁工业大学 一种云数据迁移方法
CN110377430A (zh) * 2019-07-24 2019-10-25 中南民族大学 数据迁移方法、设备、存储介质及装置
WO2021073083A1 (zh) * 2019-10-15 2021-04-22 南京莱斯网信技术研究院有限公司 一种基于节点负载的数据动态分区***
WO2021180056A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 一种资源迁移的方法、***及设备
CN113821340A (zh) * 2021-08-27 2021-12-21 济南浪潮数据技术有限公司 分布式***的动态均衡方法、***、终端及存储介质

Also Published As

Publication number Publication date
CN115203177A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN109787908B (zh) 服务器限流方法、***、计算机设备及存储介质
US5481702A (en) Allocation optimization with different block-sized allocation maps
CN107656807B (zh) 一种虚拟资源的自动弹性伸缩方法及装置
CN112689007B (zh) 资源分配方法、装置、计算机设备和存储介质
CN115203177B (zh) 一种分布式数据存储***及存储方法
CN107957848B (zh) 重删处理方法及存储设备
CN111857597A (zh) 一种热点数据缓存方法、***及相关装置
WO2020172852A1 (en) Computing resource scheduling method, scheduler, internet of things system, and computer readable medium
CN105740077B (zh) 一种适用于云计算的任务分配方法
CN116346740A (zh) 一种负载均衡方法及装置
CN113918341A (zh) 设备调度方法、装置、设备及存储介质
CN116627356B (zh) 一种大容量存储数据的分布控制方法及***
CN114168318A (zh) 存储释放模型的训练方法、存储释放方法及设备
CN115951832A (zh) 针对对象存储的智能小文件合并的方法及***
CN111190737A (zh) 一种针对嵌入式***的内存分配方法
CN115994029A (zh) 容器资源调度方法及装置
CN112559191B (zh) 动态部署gpu资源的方法、装置和计算机设备
CN114546652A (zh) 一种参数预估方法、装置及电子设备
CN109828718B (zh) 一种磁盘存储负载均衡方法及装置
CN117519913B (zh) 一种容器内存资源弹性伸缩调度方法和***
CN113741810B (zh) 一种数据迁移方法及装置
CN110704489A (zh) 一种数据库的查询方法、装置、设备及计算机存储介质
CN112181649B (zh) 一种容器资源调整方法、装置、计算机设备及存储介质
CN114465957B (zh) 一种数据写入方法及装置
CN118034613B (zh) 一种存储空间数据智能调度方法、***及存储器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant