WO2017167106A1

WO2017167106A1 - 存储***

Info

Publication number: WO2017167106A1
Application number: PCT/CN2017/077755
Authority: WO
Inventors: 王东临; 金友兵; 齐宇
Original assignee: 北京书生国际信息技术有限公司; 书生云公司
Priority date: 2016-03-26
Filing date: 2017-03-22
Publication date: 2017-10-05
Also published as: CN105872031A; CN105872031B

Abstract

一种存储***，提供了一种高可用的全局仲裁盘。该存储***包括：存储网络、至少两个存储节点和至少一个存储设备，每个存储设备包括至少一个存储介质，并且至少一个存储设备所包括的所有存储介质构成一个存储池。所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质；将存储池划分成至少两个存储区域，并且从至少两个存储区域中选取一个存储区域作为全局仲裁盘。

Description

存储***

技术领域

本发明涉及数据存储***的技术领域，更具体地，涉及一种存储***。

背景技术

随着计算机应用规模越来越大，对存储空间的需求也与日俱增。一个典型的高可用的分布式存储***将复数设备的物理服务器连接起来，其中一台存储服务器出现故障时其工作负载将由其它存储服务器接管。在判断一台服务器是否出现故障时，在判断一台服务器是否出现故障时，常用心跳线的方法，两台服务器之间用心跳线连接起来，如果一台服务器无法接收另一服务器的心跳信号，就判断另一服务器出现故障。该方法存在一定的问题，当服务器没有故障只是心跳线出现故障时，就会出现误判，甚至可能出现两台服务器都以为对方出现故障，互相抢夺接管对方工作负载的情形。

仲裁盘是用于解决这个问题的。仲裁盘是主从服务器共享的存储空间，通过能否往仲裁盘里写特定信号来判断相应服务器是否出现故障。但实际上，这种技术并不能完全解决问题，如果只是通向仲裁盘的通道出现了故障，但服务器依然完好，则同样的问题依然存在。

发明内容

有鉴于此，本发明实施方式提供一种存储***，提升仲裁盘的可用性，并且改善存储***的可靠性判断。

本发明实施例提供的存储***包括：

存储网络；

至少两个存储节点，连接至所述存储网络；以及

至少一个存储设备，连接至所述存储网络，每个存储设备包括至少一个存储介质，并且至少一个存储设备所包括的所有存储介质构成一个存储池；

所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质；

将所述存储池划分成至少两个存储区域，并且从所述至少两个存储区域中选取一个存储区域作为全局仲裁盘。

利用本发明实施例提供的存储***，由于每台物理服务器上的计算节点(虚拟机、容器等)的自身存储也都是在共享存储中，和仲裁盘一样都在同样的共享存储池中，走的是同样的存储通道，这样一台服务器如果无法读写仲裁盘，不管是服务器出现了故障还是相关存储通道出现了故障，该服务器上的计算节点也肯定无法正常工作，此时用仲裁盘来判断服务器是否出现故障将特别准确。

附图说明

图1示出根据本发明一个实施方式所构建的存储***的架构示意图。

图2示出根据本发明的一个实施方式的存储***的架构示意图。

具体实施方式

下文将参考附图更完整地描述本公开内容，其中在附图中显示了本公开内容的实施方式。但是这些实施方式可以用许多不同形式来实现并且不应该被解释为限于本文所述的实施方式。相反地，提供这些实例以使得本公开内容将是透彻和完整的，并且将全面地向本领域的熟练技术人员表达本公开内容的范围。

下面结合附图以示例的方式详细描述本发明的各种实施方式。

图1示出根据本发明的实施方式的存储***的架构示意图。如图1所示，该存储***包括存储网络；存储节点，连接至所述存储网络，其中，所述存储节点是提供存储服务的软件模块，而非通常意义上的包含存储介质在内的硬件服务器；以及存储设备，同样连接至所述存储网络。每个存储设备包括至少一个存储介质。其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。

利用本发明实施例提供的存储***，每一个存储节点都能够无需借助其他存储节点而访问所有存储介质，从而使得本发明所有的存储介质都实际上被所有的存储节点共享，进而实现了全局存储池的效果。

同时，从上述的描述可以看出，相比于现有技术，存储节点位于存储介质侧，或者严格来说，存储介质是存储节点所在物理机的内置盘；本发明实施例中，存储节点所在的物理机独立于存储设备，存储设备更多作为连接存储介质与存储网络的一个通道。

根据本发明的实施方式，还可以使得在需要进行动态平衡时，无需将物理数据在不同的存储介质中进行迁移，只需要通过配置平衡不同的存储节点所管理的存储介质即可。

在本发明另一实施例中，存储节点侧进一步包括计算节点，并且计算节点和存储节点设置在一台物理服务器中，该物理服务器通过存储网络与存储设备连接。利用本发明实施方式所构建的将计算节点和存储节点位于同一物理机的聚合式存储***，从整体结构而言，可以减少所需物理设备的数量，从而降低成本。同时，计算节点也可以在本地访问到其希望访问的存储资源。另外，由于将计算节点和存储节点聚合在同一台物理服务器上，两者之间数据交换可以简单到仅仅是共享内存，性能特别优异。

本发明实施例提供的存储***中，计算节点到存储介质之间的I/O数据路径长度包括：(1)存储介质到存储节点；以及(2)存储节点到聚合在同一物理服务器的计算节点(CPU总线通路)。而相比之下，图1所示现有技术的存储***，其计算节点到存储介质之间的I/O数据路径长度包括：(1)存储介质到存储节点；(2)存储节点到存储网络接入网交换机；(3)存储网络接入网交换机到核心网交换机；(4)核心网交换机到计算网络接入网交换机；以及(5)计算网络接入网交换机到计算节点。显然，本发明实施方式的存储***的总数据路径只接近于传统存储***的第(1)项。即，本发明实施例提供的存储***，通过对I/O数据路径长度的极致压缩能够极大地提高了存储***的I/O通道性能，其实际运行效果非常接近于读写本地硬盘的I/O通道。

在本发明一实施例中，存储节点可以是物理服务器的一个虚拟机、一个容器或直接运行在服务器的物理操作***上的一个模块，计算节点也可以是同一个物理机服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作***上的一个模块。在一个实施例中，每个存储节点可以对应一个或多个计算节点。

具体而言，可以将一台物理服务器分成多个虚拟机，其中一台虚拟机做存储节点用，其它虚拟机做计算节点用；也可是利用物理OS上的一个模块做存储节点用，以便实现更好的性能。

在本发明一实施例中，形成虚拟机的虚拟化技术可以是KVM或Zen或VMware或Hyper-V虚拟化技术，形成所述容器的容器技术可以是Docker或Rockett或Odin或Chef或LXC或Vagrant或Ansible或Zone或Jail或Hyper-V容器技术。

在本发明一实施例中，各个存储节点同时只负责管理固定的存储介质，并且一个存储介质不会同时被多个存储节点进行写入，以避免数据冲突，从而能够实现每一个存储节点都能够无需借助其他存储节点而访问由其管理的存储介质，并且能够保证存储***中存储的数据的完整性。

在本发明一实施例中，可以将***中所有的存储介质按照存储逻辑进行划分，具体而言，可以将整个***的存储池划分为存储区域、存储组、存储块这样的逻辑存储层级架构，其中，存储块为最小存储单位。在本发明一实施例中，可以将存储池划分成至少两个存储区域。

在本发明一实施例中，每一个存储区域可以分为至少一个存储组。在一个较优的实施例中，每个存储区域至少被划分为两个存储组。

在一些实施例中，存储区域和存储组是可以合并的，从而可以在该存储层级架构中省略一个层级。

在本发明一实施例中，每个存储区域(或者存储组)可以由至少一个存储块组成，其中存储块可以是一个完整的存储介质、也可以是一个存储介质的一部分。为了在存储区域内部构建冗余存储，每个存储区域(或者存储组)可以由至少两个存储块组成，当其中任何一个存储块出现故障时，可以从该组中其余存储块中计算出完整的被存储数据。冗余存储方式可以为多副本模式、独立冗余磁盘阵列(RAID)模式、纠删码(erase code)模式。在本发明一实施例中，冗余存储方式可以通过ZFS文件***建立。在本发明一实施例中，为了对抗存储设备/存储介质的硬件故障，每个存储区域(或者存储组)所包含的多个存储块不会位于同一个存储介质中，甚至也不位于同一个存储设备中。在本发明一实施例中，每个存储区域(或者存储组)所包含的任何两个存储块都不会位于同一个存储介质/存储设备中。在本发明另一实施例中，同一存储区域(或者存储组)中位于同一存储介质/存储设备的存储块数量最好小于或等于冗余存储的冗余度。举例说明，当存储冗余采取的RAID 5方式时，其冗余存储的冗余度为1，那么位于同一存储设备的同一存储组的存储块数量最多为1；对RAID6，其冗余存储的冗余度为2，那么位于同一存储设备的同一存储组的存储块数量最多为2。

在本发明一实施例中，每个存储节点都只能读和写自己管理的存储区域。由于多个存储节点对同一个存储块的读操作并不会互相冲突，而多个存储节点同时写一个存储块容易发生冲突，因此，在另一个实施例中，可以是每个存储节点只能写自己管理的存储区域，但是可以读自己管理的存储区域以及其它存储节点管理的存储区域，即写操作是局域性的，但读操作可以是全局性。

在一个实施方式中，存储***还可以包括存储控制节点，其连接至存储网络，用于确定每个存储节点管理的存储区域。在另一个实施方式中，每个存储节点可以包括存储分配模块，用于确定该存储节点所管理的存储区域，这可以通过每个存储节点所包括的各个存储分配模块之间的通信和协调处理算法来实现，该算法可以例如以使得各个存储节点之间的负载均衡为原则。

在一个实施例中，在监测到一个存储节点发生故障时，可以对其他部分或全部存储节点进行配置，使得这些存储节点接管之前由所述发生故障的存储节点管理的存储区域。例如，可以由其中一个存储节点接管出现故障的存储节点管理的存储区域，或者，可以由其它至少两个存储节点进行接管，其中每个存储节点接管出现故障的存储节点管理的部分的存储区域，比如其他至少两个存储节点分别接管该存储区域内的不同存储组。

在一个实施例中，存储介质可以包括但不限于硬盘、闪存、SRAM、DRAM、NVME或其它形式，存储介质的访问接口可以包括但不限于SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。

在本发明一实施例中，存储网络可以包括至少一个存储交换设备，通过其中包括的存储交换设备之间的数据交换来实现存储节点对存储介质的访问。具体而言，存储节点和存储介质分别通过存储通道与存储交换设备连接。根据本发明的实施方式，提供了一种支持多点控制的存储***，其中的单一存储空间可以通过多个通道访问，例如由计算节点进行访问。

在本发明一实施例中，存储交换设备可以是SAS交换机或PCI/e交换机，对应地，存储通道可以是SAS(串行连接SCSI)通道或PCI/e通道。

以SAS通道为例，相比传统的基于IP协议的存储方案，基于SAS交换的方案，拥有着性能高，带宽大，单台设备磁盘数量多等优点。在与主机适配器(HBA)或者服务器主板上的SAS接口结合使用后，SAS体系所提供的存储能够很容易的被连接的多台服务器同时访问。

具体而言，SAS交换机到存储设备之间通过一根SAS线连接，存储设备与存储介质之间也是由SAS接口连接，比如，存储设备内部将SAS通道连到每个存储介质(可以在存储设备内部设置一个SAS交换芯片)。由于SAS网络的带宽可以达到24Gb或48Gb，是千兆以太网的几十倍，以及昂贵的万兆以太网的数倍；同时在链路层SAS比IP网有大约一个数量级的提升，在传输层，由于TCP协议三次握手四次关闭，开销很高且TCP的延迟确认机制和慢启动有时会导致100毫秒级的延时，SAS协议的延时只有TCP的几十分之一，性能有更大的提升。总之，SAS网络比基于以太网的TCP/IP在带宽、延时性方面具有巨大优势。本领域技术人员可以理解，PCI/e通道的性能也可以适应***的需求。

在本发明一实施例中，存储网络可以包括至少两个存储交换设备，所述每个存储节点都可以通过任意一个存储交换设备连接到任何一个存储设备，进而连接至存储介质。当任何一个存储交换设备或连接到一个存储交换设备的存储通道出现故障时，存储节点通过其它存储交换设备读写存储设备上的数据。

参考图2，其示出了根据本发明一个实施方式所构建的一个具体的存储***30。存储***30中的存储设备被构建成多台JBOD307-310，分别通过SAS数据线连接至两个SAS交换机305和306，这两个SAS交换机构成了存储***所包括的存储网络的交换核心。前端为至少两个服务器301和302，每台服务器通过HBA设备(未示出)或主板上SAS接口连接至这两个SAS交换机305和306。服务器之间存在基本的网络连接用来监控和通信。每台服务器中都有一个存储节点，利用从SAS链路获取的信息，管理所有JBOD磁盘中的部分或全部磁盘。具体而言，可以利用本申请文件以上描述的存储区域、存储组、存储块来将JBOD磁盘划分成不同的存储组。每个存储节点都管理一组或多组这样的存储组。当每个存储组内部采用冗余存储的方式时，可以将冗余存储的元数据存在于磁盘之上，使得冗余存储能够被其他存储节点直接从磁盘识别。

在所示的示例性存储***30中，存储节点可以安装监控和管理模块，负责监控本地存储和其它服务器的状态。当某台JBOD整体异常，或者JBOD上某个磁盘异常时，数据可靠性由冗余存储来确保。当某台服务器故障时，另一台预先设定好的服务器上的存储节点中的管理模块，将按照磁盘上的数据，在本地识别并接管原来由故障服务器的存储节点所管理的磁盘。故障服务器的存储节点原本对外提供的存储服务，也将在新的服务器上的存储节点得到延续。至此，实现了一种全新的高可用的全局存储池结构。

可见，所构建的示例性存储***30提供了一种多点可控的、全局访问的存储池。硬件方面使用多台服务器来对外提供服务，使用JBOD来存放磁盘。将多台JBOD各自连接两台SAS交换机，两台交换机再分别连接服务器的HBA卡，从而确保JBOD上所有磁盘，能够被所有服务器访问。SAS冗余链路也确保了链路上的高可用性。

在每台服务器本地，利用冗余存储技术，从每台JBOD上选取磁盘组成冗余存储，避免单台JBOD的损失造成数据不可用。当一台服务器失效时，对整体状态进行监控的模块将调度另一台服务器，通过SAS通道访问失效服务器的存储节点所管理的磁盘，快速接管对方负责的这些磁盘，实现高可用的全局存储。

虽然在图2中是以JBOD存放磁盘为例进行了说明，但是应当理解，如图2所示的本发明的实施方式还支持JBOD以外的存储设备。另外，以上是以一块存储介质(整个的)作为一个存储块为例，也同样适用于将一个存储介质的一部分作为一个存储块的情形。

在本发明一实施例中，可以通过如下方式监控每台服务器是否失效：将全局存储池划分成至少两个存储区域，并且从该至少两个存储区域中选取一个存储区域作为全局仲裁盘。每个存储节点都能够对所述全局仲裁盘进行读和写操作，但同时只负责管理剩余存储区域中(除全局仲裁盘所在存储区域外)的零到多个存储区域。

根据本发明实施方式，全局仲裁盘由服务器上层应用、即存储节点使用，即每一个存储节点都可以直接对全局仲裁盘进行读写。由于存储访问的多点控制的特性，每个存储节点都能够同步的看到其他存储节点更新的内容。

在本发明一个实施例中，全局仲裁盘的存储空间被划分成多个固定分块，所述多个固定分块中的每一个分别被分配给所述一个或多个存储节点中的每个存储节点，从而可以避免多个控制节点对于仲裁盘的并发读写冲突。

在本发明一个实施例中，全局仲裁盘可以被配置为：一个或多个存储节点中的每个存储节点在使用全局仲裁盘时，只能对分配给其的固定分块执行写操作，而对分配给其他存储节点的固定分块执行读操作。使得存储节点可以在更新自己的状态同时了解其他存储节点的状态变化。

在本发明一实施例中，在全局仲裁盘上可以设置有选举锁。当一个存储节点出现故障时，其余存储节点利用选举锁机制选举出接管节点。特别是当某一存储节点具有特殊功能，并且该具有特殊功能的存储节点出现故障时，选举锁机制的价值就更大。

具体而言，作为一个存储区域的全局仲裁盘也可以具有如上讨论的存储区域的特征。在本发明一实施例中，全局仲裁盘包括一个或多个存储介质，或包括一个或多个存储介质的部分或全部。同时，全局仲裁盘所包括的存储介质可以位于同一个或不同的存储设备中。

举例说明，全局仲裁盘可以由一个完整的存储介质组成，也可以由2个完整的存储介质组成，或者是2个存储介质的部分构成，还可以是一个存储介质的部分以及另一个或几个完整的存储介质构成。

在本发明一实施例中，全局仲裁盘可以由至少两个存储设备上的至少两个存储介质的全部或部分以冗余存储的方式构成。

以JBOD作为存储介质为例进行说明，由于每一台存储节点服务器都能访问所有JBOD上的存储资源，因此可以从每台JBOD的一块或多块磁盘中抽取部分存储空间，组合作为全局的仲裁盘来使用。通过控制仲裁盘的分布，可以很容易的提升仲裁盘的可靠性。最严苛的情况下，***里只有一台JBOD存活时，仲裁盘仍然能够工作。

利用本发明实施例提供的存储***，由于每台物理服务器上的计算节点(虚拟机、容器等)的自身存储也都是在全局存储池中，具体而言，是位于与仲裁盘同样的共享存储池中。计算节点与存储节点对全局存储池的正常读写与存储节点读写仲裁盘走的是同样的存储通道，这种情况下，一台服务器如果无法读写仲裁盘，不管是服务器出现了故障还是相关存储通道出现了故障，该服务器上的计算节点也肯定无法正常工作，即无法访问其正常的存储资源。因此通过这种仲裁盘结构来判断对应的计算节点是否有效工作是非常可靠的。

具体而言，每个存储节点都会持续往仲裁盘写入数据，同时，每个存储节点也会持续监听(通过读的方式)其他存储节点是否有定期往仲裁盘写入数据，一旦发现某个存储节点未准时往仲裁盘写入数据，则可以判断该存储节点对应的计算节点未正常工作。

存储节点持续往仲裁盘写入心跳数据的方式为存储节点以***预设的时间间隔定期往仲裁盘写入心跳数据，比如每五秒往仲裁盘内写入数据。

应当理解，为了不模糊本发明的实施方式，说明书仅对一些关键、未必必要的技术和特征进行了描述，而可能未对一些本领域技术人员能够实现的特征做出说明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

一种存储***，其特征在于，包括：

存储网络；

至少两个存储节点，连接至所述存储网络；以及

至少一个存储设备，连接至所述存储网络，每个存储设备包括至少一个存储介质，并且至少一个存储设备所包括的所有存储介质构成一个共享存储池；

其中，所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质，并且，

将所述共享存储池划分成至少两个存储区域，并且从所述至少两个存储区域中选取一个存储区域作为全局仲裁盘。
根据权利要求1所述的存储***，其特征在于，所述全局仲裁盘的存储空间被划分成多个固定分块，所述多个固定分块中的每一个分别被分配给所述一个或多个存储节点中的每个存储节点；所述每个存储节点能够写分配给其的固定分块，能够读分配给其他存储节点的固定分块。
根据权利要求2所述的存储***，其特征在于，所述全局仲裁盘包括一个或多个存储介质，或包括一个或多个存储介质的部分或全部；或所述全局仲裁盘所包括的存储介质可以位于同一个或不同的存储设备中。
根据权利要求3所述的存储***，其特征在于，所述全局仲裁盘由至少两个存储设备上的至少两个存储介质的全部或部分以冗余存储的方式构成。
根据权利要求1所述的存储***，其特征在于，在所述全局仲裁盘上设置有选举锁；当一个存储节点出现故障时，其余存储节点利用所述选举锁机制选举出接管节点。
根据权利要求1所述的存储***，其特征在于，所述存储网络是SAS网络或PCI/e网络。
根据权利要求1所述的存储***，其特征在于，所述存储节点持久化保存数据的位置是所述共享存储池。
根据权利要求8所述的存储***，其特征在于，所述存储***进一步包括一个或多个计算节点，每个计算节点通过与之对应的存储节点读写持久化保存数据；其中，所述计算节点与对应的存储节点都位于同一物理服务器。
根据权利要求1至8所述的存储***，其特征在于，所述每个存储节点持续往仲裁盘写入心跳数据，同时，每个存储节点都会持续监听其他存储节点是否持续往仲裁盘写入心跳数据，一旦发现某个存储节点未准时往仲裁盘写入心跳数据，可以判断该存储节点出现故障。
根据权利要求9所述的存储***，其特征在于，存储节点持续往仲裁盘写入心跳数据的方式为存储节点以***预设的时间间隔定期往仲裁盘写入心跳数据。