CN106383791A

CN106383791A - 一种基于非统一内存访问架构的内存块组合方法及装置

Info

Publication number: CN106383791A
Application number: CN201610844237.7A
Authority: CN
Inventors: 张健; 王梅
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2017-02-08
Anticipated expiration: 2036-09-23
Also published as: CN106383791B

Abstract

本发明属于云存储技术领域，涉及一种基于非统一内存访问架构的内存块组合方法及装置。方法包括三个步骤，1)将可用节点提供的内存按照节点的频率，将同一频率的可用节点的内存逻辑连接构成一个内存块；2)将内存块作为窗口块，通过调整各窗口块之间的排列顺序以及窗口块中每个可用节点的排列顺序，确定连接成本最小的逻辑排列结果，其中逻辑排列结果中包括连接成本最小的逻辑排列中的主节点，将逻辑排列结果记录在路由表中；3)将路由表存储于与主节点相连接的控制处理器中，并通过控制处理器分配给每个内存块全局地址，以构建内存云。本发明能够克服由于集群互连网络的低效率和杂合不同的存储器，尽可能地构造高质量的非统一访问内存云存储。

Description

一种基于非统一内存访问架构的内存块组合方法及装置

技术领域

本发明属于云存储技术领域，具体涉及一种基于非统一内存访问架构的内存块组合方法及装置。

背景技术

目前，云计算中的云存储技术发展越来越快，从磁盘阵列到SSD(Solid StateDrives，固态硬盘)阵列，发展到现在的RAM(Random Access Memory，随机存取存储器)云存储。RAM云存储利用多达几百甚至几千台服务器的RAM内存来存储整个应用的数据，吞吐率上比基于磁盘的***高几百～几千倍，延迟却只有几百～几千分之一。典型的MapReduce是谷歌公司最近几年兴起的一项新技术，目的在于提高数据接入速度，消除延迟问题。它解决了大规模的问题，但如果是连续的数据访问，将使得该方案仅仅限于在随机访问数据的应用中使用。MapReduce这套分布式计算框架实现主要局限在于以下两个方面，其一是用MapReduce写线性通信模式比较麻烦，其二是它怎么改进都还是一个基于批处理模式的框架；斯坦福大学公布的RAMCloud项目，使用相同类型的内存构建内存阵列，实现了超过1PB的存储量。但是该项目的局限性是使用相同类型的内存。

NUMA(Non Uniform Memory Access Architecture，非一致性内存访问)架构则提供了允许不同类型的内存组合成内存云存储的可能。但是，如果仅仅把内存组通过相应的板卡、总线或者网络连接起来，并不能构成最优化的内存云存储。

发明内容

本发明的目的是为了改变现有的同型内存阵列构成的内存云架构及其他相关问题，提出了一种基于非统一内存访问架构的内存块组合方法及装置，能够高效地对非同型、非统一访问内存进行排序归并，将逻辑排列结果交由控制处理器，尽可能地构造高质量的非统一访问内存云存储。

为实现上述目的，本发明采用如下技术方案：一种基于非统一内存访问架构的内存块组合方法，包括如下步骤：

步骤一：将可用节点提供的内存按照节点的频率，将同一频率的可用节点的内存逻辑连接构成一个内存块；

步骤二：将内存块作为窗口块，通过调整各窗口块之间的排列顺序以及窗口块中每个可用节点的排列顺序，确定连接成本最小的逻辑排列结果，其中所述逻辑排列结果中包括连接成本最小的逻辑排列中的主节点，将所述逻辑排列结果记录在路由表中；

步骤三：将所述路由表存储于与所述主节点相连接的控制处理器中，并通过所述控制处理器分配给每个内存块全局地址，以构建内存云。

本发明的算法是基于NUMA和SIMD硬件环境的。本发明中所述的节点即为网络节点，其中，可用节点为部分可提供内存的节点通过NUMA卡连接到网络的节点。其中，关于节点的频率，由于模型中的各个服务器及连接，存在不同的内存、CPU、主板和网络接口，因此连接速度有所不同，本发明将诸如此类的各个影响速度的因素，简化为节点内存的频率。其中，主节点为可用节点中到其他各可用节点的总成本最小的可用节点。其中，连接成本，影响数据传输的任何因素都被视为连接成本。其中，主节点到内存块的成本为主节点到该内存块内所有节点的成本的累加。

优选地，所述步骤二包括：

通过模拟退火算法先从所述可用节点中选取一个可用节点作为主节点，其中所述主节点为所述控制处理器的连接接口；

将各窗口块，按照所述主节点到窗口块的连接成本从小到大的排序进行排列，并将各窗口块内的可用节点按照所述主节点到各窗口块内的可用节点的连接成本从小到大的排序进行排列。

优选地，所述步骤三包括所述主节点通过总线与所述控制处理器相连。

另一方面，本发明还提供一种基于非统一内存访问架构的内存块组合装置，所述装置包括：

划分模块，用于将可用节点提供的内存按照节点的频率，将同一频率的可用节点的内存逻辑连接构成一个内存块；

处理模块，用于将内存块作为窗口块，通过调整各窗口块之间的排列顺序以及窗口块中每个可用节点的排列顺序，确定连接成本最小的逻辑排列结果，其中所述逻辑排列结果中包括连接成本最小的逻辑排列中的主节点，将所述逻辑排列结果记录在路由表中；

构建模块，用于将所述路由表存储于与所述主节点相连接的控制处理器中，并通过所述控制处理器分配给每个内存块全局地址，以构建内存云。

优选地，所述处理模块，还用于通过模拟退火算法先从所述可用节点中选取一个可用节点作为主节点，其中所述主节点为所述控制处理器的连接接口；

所述处理模块，还用于将各窗口块，按照所述主节点到窗口块的连接成本从小到大的排序进行排列，并将各窗口块内的可用节点按照所述主节点到各窗口块内的可用节点的连接成本从小到大的排序进行排列。

本发明的基于非统一内存访问架构的内存块组合方法及装置，该算法基于非统一内存访问架构，能够高效地对非同型、非统一访问内存进行排序归并，构成了处理器和操作***互联共享存储器总线的基础架构；本发明能够应用于大规模的NUMA内存云存储平台，克服了由于集群互连网络的低效率和杂合不同的存储器，尽可能地构造高质量的非统一访问内存云存储。

附图说明

图1为本发明实施例中RAMCloud非统一内存访问架构；

图2为本发明实施例中潜在的数据中心节点拓扑；

图3为本发明实施例中合并的存储器块；

图4为本发明实施例中窗口块-模拟退火；

图5为本发明实施例中运行次数和收敛状态图。

具体实施方式

实施例1：

一种基于非统一内存访问架构的内存块组合方法，包括如下步骤：

一种基于非统一内存访问架构的内存块组合装置，所述装置包括：

该实施例将应用于大规模的NUMA内存云存储平台，使用处理器和操作***集群互连共享存储器总线的基础架构，这种结构克服了由于集群互连网络的低效率和杂合不同的存储器，可获得性能飞跃，构成较为优化的内存云存储。

实施例2：

其中，所述步骤二包括：

其中，所述步骤三包括所述主节点通过总线与所述控制处理器相连。

一种基于架构非统一内存访问架构的内存块组合装置，所述装置包括：

其中，所述处理模块，还用于通过模拟退火算法先从所述可用节点中选取一个可用节点作为主节点，其中所述主节点为所述控制处理器的连接接口；

如图1所示，在非统一内存访问架构下的内存云包括应用程序库、数据中心和控制处理器。数据中心按非统一内存访问架构组织内存云，控制处理器管理数据中心。

对于内存云，实现其低延迟的目标，需要具有以下特性的高性能网络技术：低延迟，高带宽和全双工带宽。

以下借助模型对本发明的算法做详细阐述：

1.模型表述

假设1：每个节点具有存储器，可能与其他节点非同型，如不同频率、总线、CPU型号和运行速度等，在本模型中，这些方面都简化为不同的频率；

假设2：根据现有技术可知，节点按频率排序归并，可以得到最佳的性能；

假设3：连接节点需要不同的成本。影响数据传输的任何因素都被假定为连接成本。

2.模型定义

如图2所示，节点A/B/C.../H的连接拓扑结构，使用不同的频率模拟非同型、非统一内存。这些节点分别提供一定数量的内存到云端；节点彼此连接具有不同的成本。

3.数据模型和初始化

对于上面提到的每个节点，每个节点都有存储器容量和频率。相关数据如表1所示。

表1:节点信息

对于任何相连接的节点，节点1到节点2和对应的成本。相关数据如表2所示。

表2:节点连接开销

节点1	节点2	节点连接开销
			A	B	2
B	A	1
			A	D	3
D	A	1
			…	…	…
D	B	1

该模型是非统一内存访问架构的云存储，访问时遵循以下3个规则：

(1)不得随机写入相邻的存储节点；

(2)不得随机读取相邻的存储节点；

(3)不同步相邻的存储节点。

实验表明，如有违反相关规则会使性能急剧下降。对金士顿存储器性能测试数据表明，在相同的频率内存的组合是最佳的。否则，内存可能会在单通道或单带宽模式下工作，使内存存取速度会急剧下降。

在内存云中，排序归并连接算法优化的研究主要集中在NUMA和SIMD硬件环境。非统一内存访问架构下的并行排序归并连接算法可分为三个阶段：排序阶段，分隔阶段和连接阶段。因此，本发明是合并同型内存和寻找以最小的成本的接入节点，该节点直接通过使用处理器的总线，如AMD HT(超传输)和英特尔QPI(快速路径互连)进行互连。

我们将定义下面的规则：

规则1：为了获得最佳性能，根据节点频率排序合并可用节点的内存，在排序后得到相应的内存块集合，记为内存块将是一个集合，记为{Mbi}；

规则2：找到一个主节点作为控制处理器的连接接口。从主节点到其他节点的总成本为最小，表示为同时，合并后的内存块内部没有被逻辑地更改；

规则3：从第二内存块，节点序列将被从主节点的成本到此节点，最接近的先排序，该组被表示为{Ai}。

按照上述规则，可以快速有效地排序归并非同型、非统一内存，并寻找到连接控制处理器的节点；由控制处理器进行全局地址的分配，构建内存云，供应用程序访问。

以图2所示的模型为例，该算法将有三个阶段：排序归并、分区和连接

(1)排序、归并----初始化

根据表1中所示的数据，我们排序合并节点的内存。将节点内存的存储器与同一频率逻辑连接。得到四个内存块{Mbi}＝{6,9，6,2}，如图3中所示。

(2)分区----窗口块模拟退火算法

根据表2中所示的数据，我们初始化***。我们得到了表3中的数据，从任何节点到其他节点的成本的最短路径。如果路径细节是0，这意味着这两个节点直接相连；否则这将是一个字符串作为从一个节点到另一个的路由路径。相关联的数据被示为表3。

表3:从服务器到服务器的最小花销及相应的连接路径

根据表3，当前的总开销是

本发明借助模拟退火算法的思想，在一个大的搜索空间近似全局优化算法。

根据规则1，在这种情况下，不能拆散归并后的内存块。本发明利用窗口块，每一个窗口块都会被当作一个内存单元。在窗口块内部，每个节点都会被重新排序。在过程中，计算了当前退火的总成本，并退火。随着移动窗口块和窗口块的内部节点排序，得到有限时间成本内的最佳解决方案。

在图4a中，是一个可能的解决方案。主节点是F，协处理器从F点访问其他节点，总成本是65。

在图4b中，是一个较佳的解决方案。主节点是B，从B到其他节点，总成本是27，并从第2块窗口开始，节点序列按规则3进行排序。

(3)连接——组合的内存云

当得到一个最佳的解决方案，如图4b所示，协处理器将连接到节点B，路由表(类似于表3)将复制和存储在协处理器。协调器将分配给每个群集的全局地址。

本实施例未尽之细节，请参阅前述实施例1的相关描述，此处不再赘述。

该实施例采用的模拟退火算法对传统的算法进行了一些改进，不仅对内存块按成本进行排序，同时也对内存块内部的节点进行排序，采用模拟退火法灵活、效率高，当有新的节点加入到该内存云中时，能够快速的对内存云中的内存块及相应节点作出调整，从而构造高质量的非统一访问内存云存储。

下面以一个具体应用场景对本实施例中基于非统一内存访问架构的内存块组合方法进行说明，具体方式如下：

(4)算法描述

根据规则1，首先初始化，调用Init()排序归并节点，产生第一状态S0，见表3。然后，根据窗口块模拟退火规则2。调用Cost()将计算并返回当前解决方案的成本。调用Neighbor()到传统的模拟退火算法，它将产生一个随机选择的邻居的一个给定的状态。最后，它得到最佳的解决方案。函数Connect()将协处理器连接到主节点和复制路由信息表3。函数AssignGlobalAddress()将协调分配群集存储器根据块序列的全局地址。

参数S0初始解，参数Sbest最好是目前最好的解决方案，参数T0是初始温度，α是冷却速度，β是一个常数，M代表时间直到下一个参数的更新，和最大时限是总时间的退火工艺。

下面的伪代码给出了所描述的针对非统一内存访问架构的内存块组合方法。

在该算法中，最重要的函数是Neighbor()。它产生一个随机选择的邻居的一个给定的状态。在“窗口块”内，每一个节点都将按规则3进行重新排列；在“块”窗口外，每一窗口块都将重新排列。

在这个模型中，有8个节点和4窗口块。经过多次实验结果，最佳解决方案的总开销最终收敛在27。最好的情况是3次，最糟糕的是15次，如图5所示。

Claims

1.一种基于非统一内存访问架构的内存块组合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于非统一内存访问架构的内存块组合方法，其特征在于，所述步骤二包括：

3.根据权利要求1所述的基于非统一内存访问架构的内存块组合方法，其特征在于：所述步骤三包括所述主节点通过总线与所述控制处理器相连。

4.一种基于架构非统一内存访问架构的内存块组合装置，其特征在于，所述装置包括：

5.根据权利要求4所述的基于非统一内存访问架构的内存块组合装置，其特征在于，

所述处理模块，还用于通过模拟退火算法先从所述可用节点中选取一个可用节点作为主节点，其中所述主节点为所述控制处理器的连接接口；