CN103106044B

CN103106044B - 分级存储节能方法

Info

Publication number: CN103106044B
Application number: CN201210539442.4A
Authority: CN
Inventors: 张森林; 冯圣中
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2016-09-07
Anticipated expiration: 2032-12-13
Also published as: CN103106044A

Abstract

本发明提供一种分级存储节能方法，所述方法包括以下步骤：存储自动分级：集群启动，自动识别各主机所处于的存储层次，并按照比例将存储层次低的节点调整为节能模式；定向存取：选择距离近、存储层次高的存储层存储和读取文件；寻找热数据：记录文件中各数据块的访问信息，根据所述记录信息，得出每个访问数据块的价值，按照价值从高到低形成队列。本发明的分级存储方法保证了集群的节能。

Description

分级存储节能方法

技术领域

本发明涉及一种计算机领域的存储技术，尤其涉及一种分级存储节能方法。

背景技术

随着数据量的***式增长，存储和处理海量数据的服务器集群越来越普遍。这些服务器集群的能耗问题，越来越引起人们的关注。

据统计，在构建一个服务器集群的成本中，仅服务器和冷却***的电力消耗就占据了20％，而大部分服务器在多数时候都处于低负载状态，普遍不高于30％，造成了很大的电力浪费。为了尽力减少这种电力浪费带来的不必要的损失，集群节能技术应运而生。

目前集群的节能技术，其关键点是将集群中的任务集中运行在个别服务器上，而其他服务器调整为节能状态或关掉，从而达到集群节能的目的。

当前这些集群节能技术的立足点是，集群中数据的访问是分散且不固定的，这与整个集群中数据的分布有关。现在的服务器集群，很多都实现了负载均衡技术，使得集群中的数据能够在服务器上平均分配，防止个别服务器过载而其他服务器闲置的情况，以达到并发处理的目的。

但是工业研究表明，只有20％的数据是活跃的，而剩余80％的数据处于不活跃状态，而这些数据的活跃性也会随时间而变化。因此即便是集群达到了负载均衡，但是因为数据的访问特性不一致，一定会出现个别服务器负载重，而其余服务器负载轻的情况。

当前的这种集群节能技术，其实是将负载集中，使得整个集群又处于负载不均衡的状态，然后将闲置的节点调为节能状态。这种做法，其实是负载均衡的逆过程。虽暂时解决了部分问题，但也付出了代价，例如对集群中各节点的负载进行监控，需要传感器等仪器，又增加了部分成本。

所以说，集群中的服务器使用率低，大量浪费电能，其实是在整个集群中实行负载均衡技术带来的必然结果。但是如果不实现负载均衡，可能会使得集群中的个别服务器成为访问瓶颈。因此，要解决集群耗电的问题，又要保证集群中的个别服务器不会成为访问瓶颈，就需要一个全新的数据配置方式。

发明内容

本发明为解决上述技术问题，提供一种成本低、自动化程度高的分级存储节能方法，所述方法包括以下步骤：

存储自动分级：集群启动，利用主机名识别识别各主机所处于的存储层次，并按照比例将存储层次低的节点调整为节能模式；

定向存取：选择距离近、存储层次高、正常工作模式的存储层存储和读取文件；

寻找热数据：记录文件中各数据块的访问信息，判断迁移时机，当迁移时机到来时，根据所述记录信息，得出每个访问数据块的价值，按照价值从高到低形成队列；

数据块迁移：将价值高的数据块迁移到存储层次高的存储层，将价值低的数据块迁移到存储层次低的存储层。

优选地，所述方法还包括：自适应调整：数据迁移完成后，更新数据块访问信息，重新启动监控。

优选地，通过信息估值模型处理所述记录信息，所述数据块访问信息包括访问用户、访问时间以及数据块信息。

优选地，通过队列过滤模型和路径匹配模型，在信息估值模型处理后得到的数据块值队列的基础上，形成具体的数据迁移任务，利用迁移控制模型完成数据迁移。

优选地，所述队列过滤模型为：根据阈值过滤掉不需要迁移的数据分段，过滤后形成的队列中的所有数据分段都已经确定迁移方向，阈值反映了本存储层次上前一次的迁移结果。

优选地，所述路径匹配模型为：在队列中所有的块都确定了迁移方向后，确定距离较近的迁移源和迁移目标，迁移源优先选择剩余空间较少、负载轻、正常工作模式的节点，迁移目标优先选择负载轻的节点。

优选地，所述迁移控制模型为：进行迁移速率控制，使用多线程分批次执行所述数据迁移任务，降低迁移过程对集群中节点访问性能的影响。

优选地，所述更新数据块信息，重新启动监控的步骤具体为：

存储数据块的估值结果，以备下一次估值时使用；

对于已经被删除的数据块，在***所保留的访问记录中删除；

根据迁移的实际情况进行各存储层次的阈值更新；

唤醒监视进程，等待下一次数据迁移的到来。

优选地，在存储自动分级时，所述存储层次至少包括2级，存储层次的划分标准为：存储层次越高，访问性能越好，处理用户请求的响应时间越短。

优选地，将40％的二级存储层和60％的三级存储层调整为节能模式。

本发明的分级存储节能方法在集群实现分级存储技术，使用分级存储的方法，在集群中使用层次存储介质，将访问热点固定在较高层次的存储上，按照比例将存储层次低的节点调整为节能模式，保证了集群的节能并节约了成本。

附图说明

图1为本发明一实施例分级存储节能方法流程示意图。

具体实施方式

下面将结合附图以及具体实施例来对本发明作进一步详细说明。

如图1所示，为本发明一实施例分级存储节能方法流程示意图，本发明分级存储的方法包括以下步骤：

步骤S1：存储自动分级。

集群启动，利用主机名识别各主机包含存储层的存储层次，并按照比例将存储层次低的节点调整为节能模式，本实施例中，hadoop集群启动时，通过“主机名标识法”，***可自动识别每个节点的访问性能。本实施例中，将40％的二级存储层和60％的三级存储层调整为节能模式；当然，在其它实施例中，存储层的多少以及调整成节能模式的比例可任意调节，皆属于本专利保护的范围。

步骤S2：定向存取。

选择距离近、存储层次高、正常工作模式的存储层存储和读取文件。

步骤S3：寻找热数据。

记录文件中各数据块的访问信息，判断迁移时机，当迁移时机到来时，根据所述记录信息，得出每个访问数据块的价值，按照价值从高到低形成队列，本实施例中，集群中的节点被分为3个不同的存储层次，存储层次越高，配置的硬盘访问性能越好，容量就越小，价格也越贵。因此只能由少量的数据存放在存储层次最高的节点上。通常情况下，一个集群中的所有数据中只有少量数据被频繁访问。我们通过记录文件的访问信息，通过信息估值模型处理这些信息，得出一个价值，该价值的越大，代表该数据访问的越是频繁，存储层次就该越高；客户端对文件的读取是以块为单位的，***把块的每次读取操作都记录下来，记录的内容包括：访问用户、访问时间以及数据块信息等，每读取一次***就会生成一条记录。在特定时刻，使用信息估值模型处理这些记录，模型的处理对象是块，用到的参数有：访问时间，访问次数，用户数量，块的大小，块与其他块的关联度，块的历史值等，利用公式计算出特定的值，来衡量块的“热”度，并按照价值从高到低形成队列，信息估值模型初步处理后的块值队列，数据迁移算法利用队列过滤模型、路径匹配模型，形成具体的迁移任务，最后利用迁移控制模型完成最终的数据迁移；队列过滤模型通过各存储层次上的阈值，过滤掉无需迁移的数据块。这些阈值记录的是所有下迁数据块的最大值和所有上迁数据块的最小值。过滤后形成的队列中的所有块都已经确定迁移方向，在其它实施例中，在存储自动分级时，所述存储层次至少包括2级，存储层次的划分标准为：存储层次越高，访问性能越好，处理用户请求的响应时间越短。

步骤S4：数据块迁移。

将价值高的数据块迁移到存储层次高的存储层，将价值低的数据块迁移到存储层次低的存储层，在队列中所有的块都确定了迁移方向后，需要确定迁移的源和目标。迁移源优先选择剩余空间较少，负载轻、正常工作模式的节点，若正常工作模式的节点空间不足，则使用节能模式的节点自动升级为正常工作模式，迁移目标需要有足够的空间来容纳迁移块，优先选择负载轻的节点。同时迁移源与迁移目标的距离要足够的近，队列中所有的块都有了具体的迁移源和迁移目标时，就形成了具体的迁移任务。控制模型使用多线程分批次执行这些迁移任务，如每批次只有50个线程用于迁移，并且每个节点至多有5个线程用于执行迁移任务，使得迁移过程对集群中节点访问性能的影响尽可能小。

步骤S5：自适应调整。

数据迁移完成后，更新数据块访问信息，重新启动监控，本实施例中，根据迁移的触发条件来及时调整迁移周期。所述更新数据块信息，重新启动监控的步骤具体为：

存储数据块的估值结果，以备下一次估值时使用；

对于已经被删除的数据块，在***所保留的访问记录中删除；

根据迁移的实际情况进行各存储层次的阈值更新；

唤醒监视进程，等待下一次数据迁移的到来。

迁移过程中可能有某些处于节能模式的节点(位于二级存储和三级存储上)变成正常工作模式，表明该级存储中处于正常工作模式的节点剩余空间已经不足。根据数据访问的局部性原理，则将负载重且连续2个周期内没有访问记录的节点，置为节能模式，并将部分处于节能模式的节点置为正常工作模式，保证该级存储的可用空间在该级存储总容量的10％以上。

在步骤S5之后，返回执行步骤S2，数据调度的过程循环进行。

本发明的分级存储节能方法使用分级存储的方法，在hadoop集群中使用层次存储介质，将访问热点固定在较高层次的存储上，这样就不需要对任务进行迁移，只需将低层次的存储节点处于节能状态即可。这样保证了集群的节能，又能使得集群中的个别服务器不会成为访问的瓶颈，一举两得。

可以理解的是，对于本领域的普通技术人员来说，可以根据本发明的技术构思做出其他各种相应的改变与变形，而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims

1.一种分级存储节能方法，其特征在于，所述方法包括以下步骤：

存储自动分级：hadoop集群启动，利用主机名识别各主机所处于的存储层次，并按照比例将存储层次低的节点调整为节能模式；

寻找热数据：记录文件中各数据块的访问信息，判断迁移时机，当迁移时机到来时，根据记录信息，得出每个访问数据块的价值，按照价值从高到低形成队列；通过信息估值模型处理所述记录信息，数据块的访问信息包括访问用户、访问时间以及数据块信息；

数据块迁移：将价值高的数据块迁移到存储层次高的存储层，将价值低的数据块迁移到存储层次低的存储层；通过队列过滤模型和路径匹配模型，在信息估值模型处理后得到的数据块值队列的基础上，形成具体的数据迁移任务，利用迁移控制模型完成数据迁移；所述队列过滤模型为：根据阈值过滤掉不需要迁移的数据分段，过滤后形成的队列中的所有数据分段都已经确定迁移方向，阈值反映了本存储层次上前一次的迁移结果；所述路径匹配模型为：在队列中所有的块都确定了迁移方向后，确定距离较近的迁移源和迁移目标，迁移源优先选择剩余空间较少、负载轻、正常工作模式的节点，迁移目标优先选择负载轻的节点；所述迁移控制模型为：进行迁移速率控制，使用多线程分批次执行所述数据迁移任务，降低迁移过程对集群中节点访问性能的影响；

自适应调整：数据迁移完成后，更新数据块访问信息，重新启动监控，具体步骤为：

存储数据块的估值结果，以备下一次估值时使用；

对于已经被删除的数据块，在***所保留的访问记录中删除；

根据迁移的实际情况进行各存储层次的阈值更新；

唤醒监视进程，等待下一次数据迁移的到来。

2.根据权利要求1所述的分级存储节能方法，其特征在于：在存储自动分级时，所述存储层次至少包括2级，存储层次的划分标准为：存储层次越高，访问性能越好，处理用户请求的响应时间越短。

3.根据权利要求1所述的分级存储节能方法，其特征在于：将40％的二级存储层和60％的三级存储层调整为节能模式。