CN105472047B - 存储*** - Google Patents

存储*** Download PDF

Info

Publication number
CN105472047B
CN105472047B CN201610076422.6A CN201610076422A CN105472047B CN 105472047 B CN105472047 B CN 105472047B CN 201610076422 A CN201610076422 A CN 201610076422A CN 105472047 B CN105472047 B CN 105472047B
Authority
CN
China
Prior art keywords
storage
memory
memory node
node
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610076422.6A
Other languages
English (en)
Other versions
CN105472047A (zh
Inventor
王东临
金友兵
齐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shusheng Information Technology Co ltd
Original Assignee
TIANJIN SURSEN CLOUD TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN SURSEN CLOUD TECHNOLOGY Co Ltd filed Critical TIANJIN SURSEN CLOUD TECHNOLOGY Co Ltd
Priority to CN201610076422.6A priority Critical patent/CN105472047B/zh
Publication of CN105472047A publication Critical patent/CN105472047A/zh
Priority to PCT/CN2017/071830 priority patent/WO2017133483A1/zh
Priority to EP17746803.0A priority patent/EP3413538A4/en
Priority to US16/054,536 priority patent/US20180341419A1/en
Priority to US16/121,080 priority patent/US10782989B2/en
Priority to US16/139,712 priority patent/US10782898B2/en
Priority to US16/140,951 priority patent/US20190028542A1/en
Priority to US16/378,076 priority patent/US20190235777A1/en
Application granted granted Critical
Publication of CN105472047B publication Critical patent/CN105472047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种存储***,其包括:存储网络;至少两个存储节点,连接至所述存储网络;以及至少一个存储设备,连接至所述存储网络,每个存储设备包括至少一个存储介质,其中,所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。根据本发明的实施方式,提供了一种能够在动态平衡时无需进行物理数据迁移的存储***。

Description

存储***
技术领域
本发明涉及数据存储***的技术领域,更具体地,涉及一种存储***。
背景技术
随着计算机应用规模越来越大,对存储空间的需求也与日俱增。对应的,将复数设备的存储资源(比如,诸如磁盘组的存储介质)统合为一体作为一个存储池来提供存储服务成为了现在的主流。在传统的存储***中,该存储***通常是由TCP/IP网络连接多个分布式存储节点组成的。图1示出现有技术的存储***的架构示意图。如图1所示,在传统的存储***中,各存储节点S通过接入网交换机连接到TCP/IP网络(过核心网交换机实现)。每个存储节点都是单独一台物理服务器,每台服务器都有自己的若干存储介质。各存储节点通过如IP网络这样的存储网络连接起来,构成一个存储池。
另一侧,各计算节点也通过接入网交换机连接到TCP/IP网络(通过核心网交换机实现),以通过TCP/IP网络访问整个存储池。这种方式下的访问效率较低。
但更为重要的是,现有的存储***,一旦涉及到动态平衡时,需要对存储节点上物理数据进行迁移,以达到平衡目的。
发明内容
有鉴于此,本发明实施方式的目的在于提供一种能够在动态平衡时无需进行物理数据迁移的存储***。
根据本发明的实施方式,提供一种存储***。该存储***包括:
存储网络;
至少两个存储节点,连接至所述存储网络;以及
至少一个存储设备,连接至所述存储网络,每个存储设备包括至少一个存储介质;
其中,所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。
本发明实施方式所提供的存储***,提供了一种支持多点控制的、支持全局访问的存储池,具有优良的扩展性和高可用性,能够通过不断增加存储介质的方式实现很大容量的存储***,并且提升了***抗存储节点单点故障的可靠性。
附图说明
图1示出现有技术的存储***的架构示意图;
图2示出根据本发明一个实施方式所构建的一个具体的存储***的架构示意图;
图3示出根据本发明的一个实施方式的存储***的架构示意图。
具体实施方式
下文将参考附图更完整地描述本公开内容,其中在附图中显示了本公开内容的实施方式。但是这些实施方式可以用许多不同形式来实现并且不应该被解释为限于本文所述的实施方式。相反地,提供这些实例以使得本公开内容将是透彻和完整的,并且将全面地向本领域的熟练技术人员表达本公开内容的范围。
下面结合附图以示例的方式详细描述本发明的各种实施方式。
图2示出根据本发明的实施方式的存储***的架构示意图。如图2所示,该存储***包括存储网络、存储节点,连接至所述存储网络;以及存储设备,同样连接至所述存储网络。每个存储设备包括至少一个存储介质。例如,发明人常用的存储设备可以放置45块存储介质。其中,所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质。
利用本发明实施例提供的存储***,每一个存储节点都能够无需借助其他存储节点而访问所有存储介质,从而使得本发明所有的存储介质都实际上被所有的存储节点共享,进而实现了全局存储池的效果。
同时,从上述的描述可以看出,相比于现有技术,存储节点位于存储介质侧,或者严格来说,存储介质是存储节点所在物理机的内置盘;本发明实施例中,存储节点所在的物理机独立于存储设备,存储设备更多作为连接存储介质与存储网络的一个通道。
这样的方式,使得在需要进行动态平衡时,无需将物理数据在不同的存储介质中进行迁移,只需要通过配置平衡不同的存储节点所管理的存储介质即可。
在本发明另一实施例中,存储节点侧进一步包括计算节点,并且计算节点和存储节点设置在一台物理服务器中,该物理服务器通过存储网络与存储设备连接。利用本发明实施方式所构建的将计算节点和存储节点位于同一物理机的聚合式存储***,从整体结构而言,可以减少所需物理设备的数量,从而降低成本。同时,计算节点也可以在本地访问到其希望访问的存储资源。另外,由于将计算节点和存储节点聚合在同一台物理服务器上,两者之间数据交换可以简单到仅仅是共享内存,性能特别优异。
本发明实施例提供的存储***中,计算节点到存储介质之间的I/O数据路径长度包括:(1)存储介质到存储节点;以及(2)存储节点到聚合在同一物理服务器的计算节点(CPU总线通路)。而相比之下,图1所示现有技术的存储***,其计算节点到存储介质之间的I/O数据路径长度包括:(1)存储介质到存储节点;(2)存储节点到存储网络接入网交换机;(3)存储网络接入网交换机到核心网交换机;(4)核心网交换机到计算网络接入网交换机;以及(5)计算网络接入网交换机到计算节点。显然,本发明实施方式的存储***的总数据路径只接近于传统存储***的第(1)项。即,本发明实施例提供的存储***,通过对I/O数据路径长度的极致压缩能够极大地提高了存储***的I/O通道性能,其实际运行效果非常接近于读写本地硬盘的I/O通道。
在本发明一实施例中,存储节点可以是物理服务器的一个虚拟机、一个容器或直接运行在服务器的物理操作***上的一个模块,计算节点也可以是同一个物理机服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作***上的一个模块。在一个实施例中,每个存储节点可以对应一个或多个计算节点。
具体而言,可以将一台物理服务器分成多个虚拟机,其中一台虚拟机做存储节点用,其它虚拟机做计算节点用;也可是利用物理OS上的一个模块做存储节点用,以便实现更好的性能。
在本发明一实施例中,形成虚拟机的虚拟化技术可以是KVM或Zen或VMware或Hyper-V虚拟化技术,形成所述容器的容器技术可以是Docker或Rockett或Odin或Chef或LXC或Vagrant或Ansible或Zone或Jail或Hyper-V容器技术。
在本发明一实施例中,各个存储节点同时只负责管理固定的存储介质,并且一个存储介质不会同时被多个存储节点进行写入,以避免数据冲突,从而能够实现每一个存储节点都能够无需借助其他存储节点而访问由其管理的存储介质,并且能够保证存储***中存储的数据的完整性。
在本发明一实施例中,可以将***中所有的存储介质按照存储逻辑进行划分,具体而言,可以将整个***的存储池划分为存储区域、存储组、存储块这样的逻辑存储层级架构,其中,存储块为最小存储单位。在本发明一实施例中,可以将存储池划分成至少两个存储区域。
在本发明一实施例中,每一个存储区域可以分为至少一个存储组。在一个较优的实施例中,每个存储区域至少被划分为两个存储组。
在一些实施例中,存储区域和存储组是可以合并的,从而可以在该存储层级架构中省略一个层级。
在本发明一实施例中,每个存储区域(或者存储组)可以由至少一个存储块组成,其中存储块可以是一个完整的存储介质、也可以是一个存储介质的一部分。为了在存储区域内部构建冗余存储,每个存储区域(或者存储组)可以由至少两个存储块组成,当其中任何一个存储块出现故障时,可以从该组中其余存储块中计算出完整的被存储数据。冗余存储方式可以为多副本模式、独立冗余磁盘阵列(RAID)模式、纠删码(erase code)模式。在本发明一实施例中,冗余存储方式可以通过ZFS文件***建立。在本发明一实施例中,为了对抗存储设备/存储介质的硬件故障,每个存储区域(或者存储组)所包含的多个存储块不会位于同一个存储介质中,甚至也不位于同一个存储设备中。在本发明一实施例中,每个存储区域(或者存储组)所包含的任何两个存储块都不会位于同一个存储介质/存储设备中。在本发明另一实施例中,同一存储区域(或者存储组)中位于同一存储介质/存储设备的存储块数量最好小于或等于冗余存储的冗余度。举例说明,当存储冗余采取的RAID 5方式时,其冗余存储的冗余度为1,那么位于同一存储设备的同一存储组的存储块数量最多为1;对RAID6,其冗余存储的冗余度为2,那么位于同一存储设备的同一存储组的存储块数量最多为2。
在本发明一实施例中,每个存储节点都只能读和写自己管理的存储区域。由于多个存储节点对同一个存储块的读操作并不会互相冲突,而多个存储节点同时写一个存储块容易发生冲突,因此,在另一个实施例中,可以是每个存储节点只能写自己管理的存储区域,但是可以读自己管理的存储区域以及其它存储节点管理的存储区域,即写操作是局域性的,但读操作可以是全局性。
在一个实施方式中,存储***还可以包括存储控制节点,其连接至存储网络,用于确定每个存储节点管理的存储区域。在另一个实施方式中,每个存储节点可以包括存储分配模块,用于确定该存储节点所管理的存储区域,这可以通过每个存储节点所包括的各个存储分配模块之间的通信和协调处理算法来实现,该算法可以例如以使得各个存储节点之间的负载均衡为原则。
在一个实施例中,在监测到一个存储节点发生故障时,可以对其他部分或全部存储节点进行配置,使得这些存储节点接管之前由所述发生故障的存储节点管理的存储区域。例如,可以由其中一个存储节点接管出现故障的存储节点管理的存储区域,或者,可以由其它至少两个存储节点进行接管,其中每个存储节点接管出现故障的存储节点管理的部分的存储区域,比如其他至少两个存储节点分别接管该存储区域内的不同存储组。
在一个实施例中,存储介质可以包括但不限于硬盘、闪存、SRAM、DRAM、NVME或其它形式,存储介质的访问接口可以包括但不限于SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。
在本发明一实施例中,存储网络可以包括至少一个存储交换设备,通过其中包括的存储交换设备之间的数据交换来实现存储节点对存储介质的访问。具体而言,存储节点和存储介质分别通过存储通道与存储交换设备连接。
在本发明一实施例中,存储交换设备可以是SAS交换机或PCI/e交换机,对应地,存储通道可以是SAS(串行连接SCSI)通道或PCI/e通道。
以SAS通道为例,相比传统的基于IP协议的存储方案,基于SAS交换的方案,拥有着性能高,带宽大,单台设备磁盘数量多等优点。在与主机适配器(HBA)或者服务器主板上的SAS接口结合使用后,SAS体系所提供的存储能够很容易的被连接的多台服务器同时访问。
具体而言,SAS交换机到存储设备之间通过一根SAS线连接,存储设备与存储介质之间也是由SAS接口连接,比如,存储设备内部将SAS通道连到每个存储介质(可以在存储设备内部设置一个SAS交换芯片)。由于SAS网络的带宽可以达到24Gb或48Gb,是千兆以太网的几十倍,以及昂贵的万兆以太网的数倍;同时在链路层SAS比IP网有大约一个数量级的提升,在传输层,由于TCP协议三次握手四次关闭,开销很高且TCP的延迟确认机制和慢启动有时会导致100毫秒级的延时,SAS协议的延时只有TCP的几十分之一,性能有更大的提升。总之,SAS网络比基于以太网的TCP/IP在带宽、延时性方面具有巨大优势。本领域技术人员可以理解,PCI/e通道的性能也可以适应***的需求。
在本发明一实施例中,存储网络可以包括至少两个存储交换设备,所述每个存储节点都可以通过任意一个存储交换设备连接到任何一个存储设备,进而连接至存储介质。当任何一个存储交换设备或连接到一个存储交换设备的存储通道出现故障时,存储节点通过其它存储交换设备读写存储设备上的数据。
参考图3,其示出了根据本发明一个实施方式所构建的一个具体的存储***30。存储***30中的存储设备被构建成多台JBOD307-310,分别通过SAS数据线连接至两个SAS交换机305和306,这两个SAS交换机构成了存储***所包括的存储网络的交换核心。前端为至少两个服务器301和302,每台服务器通过HBA设备(未示出)或主板上SAS接口连接至这两个SAS交换机305和306。服务器之间存在基本的网络连接用来监控和通信。每台服务器中都有一个存储节点,利用从SAS链路获取的信息,管理所有JBOD磁盘中的部分或全部磁盘。具体而言,可以利用本申请文件以上描述的存储区域、存储组、存储块来将JBOD磁盘划分成不同的存储组。每个存储节点都管理一组或多组这样的存储组。当每个存储组内部采用冗余存储的方式时,可以将冗余存储的元数据存在于磁盘之上,使得冗余存储能够被其他存储节点直接从磁盘识别。
在所示的示例性存储***30中,存储节点可以安装监控和管理模块,负责监控本地存储和其它服务器的状态。当某台JBOD整体异常,或者JBOD上某个磁盘异常时,数据可靠性由冗余存储来确保。当某台服务器故障时,另一台预先设定好的服务器上的存储节点中的管理模块,将按照磁盘上的数据,在本地识别并接管原来由故障服务器的存储节点所管理的磁盘。故障服务器的存储节点原本对外提供的存储服务,也将在新的服务器上的存储节点得到延续。至此,实现了一种全新的高可用的全局存储池结构。
可见,所构建的示例性存储***30提供了一种多点可控的、全局访问的存储池。硬件方面使用多台服务器来对外提供服务,使用JBOD来存放磁盘。将多台JBOD各自连接两台SAS交换机,两台交换机再分别连接服务器的HBA卡,从而确保JBOD上所有磁盘,能够被所有服务器访问。SAS冗余链路也确保了链路上的高可用性。
在每台服务器本地,利用冗余存储技术,从每台JBOD上选取磁盘组成冗余存储,避免单台JBOD的损失造成数据不可用。当一台服务器失效时,对整体状态进行监控的模块将调度另一台服务器,通过SAS通道访问失效服务器的存储节点所管理的磁盘,快速接管对方负责的这些磁盘,实现高可用的全局存储。
虽然在图3中是以JBOD存放磁盘为例进行了说明,但是应当理解,如图3所示的本发明的实施方式还支持JBOD以外的存储设备。另外,以上是以一块存储介质(整个的)作为一个存储块为例,也同样适用于将一个存储介质的一部分作为一个存储块的情形。
应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种存储***,其特征在于,包括:
存储网络;
至少两个计算节点;
至少两个存储节点,连接至所述存储网络,其中,每个所述存储节点对应一个或多个所述计算节点,并且每个所述存储节点与其对应的所述计算节点都位于同一服务器;以及
至少一个存储设备,连接至所述存储网络,每个存储设备包括至少一个存储介质,
其中,所述存储网络被配置为使得每一个存储节点都能够无需借助其他存储节点而访问所有存储介质;
其中,所述存储***所包括的所有存储介质构成一个存储池,将所述存储池划分成至少两个存储区域,每个存储节点负责管理零到多个存储区域;
其中,所述存储节点还包括:存储分配模块,用于确定所述存储节点所管理的存储区域。
2.根据权利要求1所述的存储***,其特征在于,所述存储节点是所述服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作***上的一个模块;和/或
所述计算节点是所述服务器的一个虚拟机、一个容器或直接运行在所述服务器的物理操作***上的一个模块。
3.根据权利要求2所述的存储***,其特征在于,形成所述虚拟机的虚拟化技术是KVM、Zen、VMware或Hyper-V虚拟化技术;和/或
形成所述容器的容器技术是Docker、Rockett、Odin、Chef、LXC、Vagrant、Ansible、Zone、Jail或Hyper-V容器技术。
4.根据权利要求1所述的存储***,其特征在于,设置所述每个存储节点只能读写自己管理的存储区域;或
设置每个存储节点只能写自己管理的存储区域,但可以读自己管理的存储区域以及其它存储节点管理的存储区域;或
设置每一个存储节点对其存储区域的管理可以由另外一个或多个存储节点进行接管。
5.根据权利要求1-4中任一项所述的存储***,其特征在于,所述存储网络包括至少一个存储交换设备,所有至少两个存储节点和所述至少一个存储设备的所有存储介质都通过相应的存储通道与存储交换设备连接。
6.根据权利要求5所述的存储***,其特征在于,所述存储交换设备是SAS交换机或PCI/e交换机;所述相应的存储通道是SAS通道或PCI/e通道。
7.根据权利要求1-4中任一项所述的存储***,其特征在于,所述存储网络包括至少两个存储交换设备,所述至少两个存储节点中的每一个存储节点都可以通过任意一个存储交换设备连接到所述至少一个存储介质中的每一个存储介质。
8.根据权利要求7所述的存储***,其特征在于,当任何一个存储交换设备或连接到一个存储交换设备的存储通道出现故障时,存储节点通过其它存储交换设备读写存储介质。
9.根据权利要求1-4中任一项所述的存储***,其特征在于,所述至少两个存储区域中的每个存储区域由至少两个存储块组成,其中存储块是一个完整的存储介质或者是一个存储介质的一部分。
10.根据权利要求9所述的存储***,其特征在于,组成所述每个存储区域的至少两个存储块被划分为一个或多个存储组,每个存储组内的存储块以冗余存储方式保存数据。
11.根据权利要求10所述的存储***,其特征在于,所述冗余存储方式为RAID、纠删码或者多副本模式。
12.根据权利要求10所述的存储***,其特征在于,一个存储组中位于同一存储设备的存储块数量小于或等于冗余存储的冗余度。
13.根据权利要求10所述的存储***,其特征在于,一个存储组在一个存储设备中最多只有一个存储块。
14.根据权利要求1-4中任一项所述的存储***,其特征在于,所述存储设备为JBOD;和/或所述存储介质是硬盘、闪存、SRAM或DRAM;和/或所述存储介质的接口是SAS接口、SATA接口、PCI/e接口、DIMM接口、NVMe接口、SCSI接口、AHCI接口。
CN201610076422.6A 2011-10-11 2016-02-03 存储*** Active CN105472047B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201610076422.6A CN105472047B (zh) 2016-02-03 2016-02-03 存储***
PCT/CN2017/071830 WO2017133483A1 (zh) 2016-02-03 2017-01-20 存储***
EP17746803.0A EP3413538A4 (en) 2016-02-03 2017-01-20 Storage system
US16/054,536 US20180341419A1 (en) 2016-02-03 2018-08-03 Storage System
US16/121,080 US10782989B2 (en) 2016-02-03 2018-09-04 Method and device for virtual machine to access storage device in cloud computing management platform
US16/139,712 US10782898B2 (en) 2016-02-03 2018-09-24 Data storage system, load rebalancing method thereof and access control method thereof
US16/140,951 US20190028542A1 (en) 2016-02-03 2018-09-25 Method and device for transmitting data
US16/378,076 US20190235777A1 (en) 2011-10-11 2019-04-08 Redundant storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610076422.6A CN105472047B (zh) 2016-02-03 2016-02-03 存储***

Publications (2)

Publication Number Publication Date
CN105472047A CN105472047A (zh) 2016-04-06
CN105472047B true CN105472047B (zh) 2019-05-14

Family

ID=55609308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610076422.6A Active CN105472047B (zh) 2011-10-11 2016-02-03 存储***

Country Status (4)

Country Link
US (1) US20180341419A1 (zh)
EP (1) EP3413538A4 (zh)
CN (1) CN105472047B (zh)
WO (1) WO2017133483A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786414A (zh) * 2016-03-24 2016-07-20 天津书生云科技有限公司 存储***、存储***的访问方法和存储***的访问装置
CN105472047B (zh) * 2016-02-03 2019-05-14 天津书生云科技有限公司 存储***
CN106020737A (zh) * 2016-06-16 2016-10-12 浪潮(北京)电子信息产业有限公司 一种全局共享磁盘的高密度存储架构***
CN106708745A (zh) * 2016-12-05 2017-05-24 郑州云海信息技术有限公司 一种24盘位nvme动态分配结构及方法
CN106708653B (zh) * 2016-12-29 2020-06-30 广州中国科学院软件应用技术研究所 一种基于纠删码与多副本的混合税务大数据安全保护方法
CN109726153B (zh) * 2017-10-27 2023-02-24 伊姆西Ip控股有限责任公司 用于存储设备的集成装置、相应存储设备及其制造方法
CN110515536B (zh) * 2018-05-22 2020-10-27 杭州海康威视数字技术股份有限公司 数据存储***
CN110557354B (zh) * 2018-05-31 2020-10-13 杭州海康威视数字技术股份有限公司 一种实现节点间通讯的方法、装置及电子设备
CN111324311B (zh) 2020-02-28 2021-09-14 苏州浪潮智能科技有限公司 一种lun划分方法和设备
US11899585B2 (en) 2021-12-24 2024-02-13 Western Digital Technologies, Inc. In-kernel caching for distributed cache
US11934663B2 (en) 2022-01-10 2024-03-19 Western Digital Technologies, Inc. Computational acceleration for distributed cache
US11797379B2 (en) * 2022-02-04 2023-10-24 Western Digital Technologies, Inc. Error detection and data recovery for distributed cache

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN203982354U (zh) * 2014-06-19 2014-12-03 天津书生投资有限公司 一种冗余存储***
CN104657316A (zh) * 2015-03-06 2015-05-27 北京百度网讯科技有限公司 服务器
CN104965677A (zh) * 2015-06-26 2015-10-07 北京百度网讯科技有限公司 存储***
CN105045336A (zh) * 2015-06-25 2015-11-11 北京百度网讯科技有限公司 Jbod
CN105068836A (zh) * 2015-08-06 2015-11-18 北京百度网讯科技有限公司 一种基于sas网络的远程可共享的启动***

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148349A (en) * 1998-02-06 2000-11-14 Ncr Corporation Dynamic and consistent naming of fabric attached storage by a file system on a compute node storing information mapping API system I/O calls for data objects with a globally unique identification
US6542961B1 (en) * 1998-12-22 2003-04-01 Hitachi, Ltd. Disk storage system including a switch
US8161134B2 (en) * 2005-09-20 2012-04-17 Cisco Technology, Inc. Smart zoning to enforce interoperability matrix in a storage area network
US8332402B2 (en) * 2007-06-28 2012-12-11 Apple Inc. Location based media items
CN201699750U (zh) * 2010-05-10 2011-01-05 北京月新时代科技有限公司 一种集群存储器
CN201805454U (zh) * 2010-09-21 2011-04-20 北京同有飞骥科技股份有限公司 一种具有并行Cache同步链路的高性能存储***
US9135044B2 (en) * 2010-10-26 2015-09-15 Avago Technologies General Ip (Singapore) Pte. Ltd. Virtual function boot in multi-root I/O virtualization environments to enable multiple servers to share virtual functions of a storage adapter through a MR-IOV switch
CN105472047B (zh) * 2016-02-03 2019-05-14 天津书生云科技有限公司 存储***
CN105897859B (zh) * 2016-03-25 2021-07-30 北京书生云科技有限公司 一种存储***
CN105872031B (zh) * 2016-03-26 2019-06-14 天津书生云科技有限公司 存储***
CN103634350B (zh) * 2012-08-24 2017-05-17 阿里巴巴集团控股有限公司 一种存储***及其实现方法
US10140136B2 (en) * 2013-11-07 2018-11-27 Datrium, linc. Distributed virtual array data storage system and method
JP6354290B2 (ja) * 2014-04-24 2018-07-11 富士通株式会社 情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
US9823849B2 (en) * 2015-06-26 2017-11-21 Intel Corporation Method and apparatus for dynamically allocating storage resources to compute nodes
CN205620984U (zh) * 2016-04-01 2016-10-05 南京紫光云信息科技有限公司 一种数据分层存储设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN203982354U (zh) * 2014-06-19 2014-12-03 天津书生投资有限公司 一种冗余存储***
CN104657316A (zh) * 2015-03-06 2015-05-27 北京百度网讯科技有限公司 服务器
CN105045336A (zh) * 2015-06-25 2015-11-11 北京百度网讯科技有限公司 Jbod
CN104965677A (zh) * 2015-06-26 2015-10-07 北京百度网讯科技有限公司 存储***
CN105068836A (zh) * 2015-08-06 2015-11-18 北京百度网讯科技有限公司 一种基于sas网络的远程可共享的启动***

Also Published As

Publication number Publication date
US20180341419A1 (en) 2018-11-29
CN105472047A (zh) 2016-04-06
EP3413538A4 (en) 2018-12-26
EP3413538A1 (en) 2018-12-12
WO2017133483A1 (zh) 2017-08-10

Similar Documents

Publication Publication Date Title
CN105472047B (zh) 存储***
US11789831B2 (en) Directing operations to synchronously replicated storage systems
CN105843557B (zh) 冗余存储***、冗余存储方法和冗余存储装置
US11392456B1 (en) Calculating parity as a data stripe is modified
US11803492B2 (en) System resource management using time-independent scheduling
US10534677B2 (en) Providing high availability for applications executing on a storage system
US10001947B1 (en) Systems, methods and devices for performing efficient patrol read operations in a storage system
US10146456B1 (en) Data storage system with multi-level, scalable metadata structure
CN105872031B (zh) 存储***
CN105657066B (zh) 用于存储***的负载再均衡方法及装置
US10454810B1 (en) Managing host definitions across a plurality of storage systems
CN105786414A (zh) 存储***、存储***的访问方法和存储***的访问装置
JP2015532985A (ja) 大規模なデータ記憶および受け渡しシステム
US8788753B2 (en) Systems configured for improved storage system communication for N-way interconnectivity
JP5635621B2 (ja) ストレージシステム及びストレージシステムのデータ転送方法
US9747040B1 (en) Method and system for machine learning for write command selection based on technology feedback
US10552090B2 (en) Solid state drives with multiple types of addressable memory
US20230195349A1 (en) Servicing input/output ('i/o') operations during data migration
US10782898B2 (en) Data storage system, load rebalancing method thereof and access control method thereof
KR20190024957A (ko) 메모리 버스 상의 스토리지 및 멀티 레벨 데이터 캐시
US11592991B2 (en) Converting raid data between persistent storage types
Petrenko et al. Secure Software-Defined Storage
Walters et al. Storage Management Strategies
Tao et al. A Systematic Methodology to Architecting High Performance Storage Systems
JP2015043226A (ja) ストレージシステム及びストレージシステムのデータ転送方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20190523

Granted publication date: 20190514

PP01 Preservation of patent right
PD01 Discharge of preservation of patent

Date of cancellation: 20210523

Granted publication date: 20190514

PD01 Discharge of preservation of patent
CP01 Change in the name or title of a patent holder

Address after: Room 645dd18, aviation industry support center No.1, Baohang Road, Tianjin Binhai New Area Airport Economic Zone, 300308

Patentee after: Tianjin Zhongcheng Star Technology Co.,Ltd.

Address before: Room 645dd18, aviation industry support center No.1, Baohang Road, Tianjin Binhai New Area Airport Economic Zone, 300308

Patentee before: TIANJIN SURDOC Corp.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20210714

Address after: 100089 No. 4060, podium, 4th floor, 69 Zizhuyuan Road, Haidian District, Beijing

Patentee after: Beijing Shusheng cloud Technology Co.,Ltd.

Address before: Room 645dd18, aviation industry support center No.1, Baohang Road, Tianjin Binhai New Area Airport Economic Zone, 300308

Patentee before: Tianjin Zhongcheng Star Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220425

Address after: 1101-13, 11th floor, building 1, courtyard 1, Shangdi 10th Street, Haidian District, Beijing 100085

Patentee after: Beijing Shusheng Information Technology Co.,Ltd.

Address before: 100089 No. 4060, podium, 4th floor, 69 Zizhuyuan Road, Haidian District, Beijing

Patentee before: Beijing Shusheng cloud Technology Co.,Ltd.

TR01 Transfer of patent right