WO2008049353A1

WO2008049353A1 - Système de mise en mémoire de données de réseau et procédé pour y accéder

Info

Publication number: WO2008049353A1
Application number: PCT/CN2007/070564
Authority: WO
Inventors: Jinsheng Yang; Zhengrong Tang; Lei Pan
Original assignee: Alibaba Group Holding Limited
Priority date: 2006-10-26
Filing date: 2007-08-27
Publication date: 2008-05-02
Also published as: JP2013061959A; US8953602B2; EP2081329B1; CN101170416A; US20100061375A1; EP2081329A4; JP5567342B2; JP5730271B2; HK1114487A1; CN101170416B; JP2010507876A; EP2081329A1

Description

网络数据存储***及其数据访问方法

本申请要求于 2006 年 10 月 26 日提交中国专利局、申请号为 200610150325.3、发明名称为"网络数据存储***及其数据访问方法"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据存储与管理领域，尤其涉及一种网络数据存储***，以及基于该***的网络数据访问方法。

背景技术

IT技术的发展历程经历了以计算技术为中心，以处理器的发展为核心动力的过程，发展到以传输技术为中心，并由此促进了计算机网络的发展和普及，使得越来越多的企业信息活动转变为数字形式，从而导致数字化信息***性增长，引发了对 IT技术的存储技术需求大量增长。数据存储的应用呈现出以下新的特点：

( 1 )数据成为最宝贵的财富。数据丟失对于企业来讲，损失将是无法估量的，甚至是毁灭性的。

( 2 )数据总量呈***性的增长。

( 3 )全天候服务成为大势所趋。在电子商务和大部分网络服务应用中， 365x24 小时的全天候服务已是大势所趋，这要求现代数据存储***具备优异的高可用性。

( 4 )存储管理和维护要求集中化、自动化、智能化。

( 5 )存储技术要求平***立。

传统的存储***釆用的是 DAS ( Direct Attached Storage, 直接附加存储），即直连方式存储，也可称为 S AS ( Server- Attached Storage, 服务器附加存储）。在这种方式中，存储设备通过电缆（通常是 SCSI接口电缆）直接连接到服务器， I/O (输入 /输出 )请求直接发送到存储设备。这种存储方式依赖于服务器，存储设备本身只是硬件的堆叠，不带有任何存储操作***。由于受服务器总线技术的限制， DAS 方式***的可扩展性差，当客户连接数增多时，服务器将成为整个***的性能瓶颈，这是因为：

( 1 )主机的带宽限制：虽然计算机技术的发展使主机总线带宽大为增加，但是仍赶不上现代存储应用对带宽的要求。

( 2 )主机的内存容量限制：由于主机的内存容量有限，当有连续的大量数据访问请求时，主机的内存容量将很快达到饱和，而不能处理剩下的数据传输请求。

( 3 )文件***的管理开销也会增加数据访问时间。

目前大量的企业应用对数据库技术产生的很强的依赖，釆用数据库中央服务器集中存储数据，往往成为***的单点和性能的瓶颈，扩展也很困难，而且成本高，对于海量数据高并发的在线处理尤其困难。因此，传统的集中式的数据存储和管理方式已经无法满足信息日益快速增长的需求。

发明内容

本发明提供一种网络数据存储***，用以解决现有技术中存在的网络数据存储***扩展能力差、扩展成本高，以及网络数据访问性能差的问题。

基于相同的技术构思，本发明还提供一种网络数据的访问方法。

本发明提供的网络数据存储***，包括：

数据节点，用于存储数据单元；

元数据节点，用于存储和管理路由信息，并根据客户端数据处理请求向其提供路由信息；

数据管理节点，用于根据客户端数据访问请求，处理请求的所述数据节点中的所述数据单元。

所述元数据节点、数据管理节点和数据节点以树型连接；

元数据节点为该树型结构的根节点，其下连接有一个或多个数据管理节点；每个数据管理节点下连接有一个或多个数据节点。

根据本发明的上述***，所述元数据节点存储的路由信息包括：所述元数据节点到所述数据管理节点的路由信息；

所述数据管理节点到所述数据节点的路由信息。

所述元数据节点还存储有所述数据单元的路由算法；所述路由算法为通过数据单元标识推算存储该数据单元的数据节点标识和该数据单元在所述数据节点中的位置信息的算法。

根据本发明的上述***，所述数据管理节点中配置有数据访问服务或 /和冗余策略。

根据本发明的上述***，所述数据节点中存储的所述数据单元为面向业务应用的最小数据集合。

所述数据单元内部由多个文件或 /和目录构成。

所述数据单元内部的文件包括数据文件或 /和索弓 I文件。

本发明的上述***，还包括事务管理节点，用于存储日志文件，并提供日志管理服务。

本发明的上述***，还包括锁节点，用于存储锁文件，并提供锁管理服务。本发明提供的网络数据访问方法，包括步骤：

客户端向元数据节点发送访问数据单元的请求，并从该元数据节点获取到所述数据管理节, 的路由信息；

客户端按照所述路由信息向所述数据管理节点发送访问数据单元的请求；所述数据管理节点收到请求后，从所述元数据节点获取到存储所述数据单元的数据节点的路由信息，并按照该路由信息和客户端请求的操作对所述数据节点中的所述数据单元进行处理。

根据本发明的上述方法，所述元数据节点接收到客户端发送的访问数据单元的请求后，向该客户端提供所述数据管理节点的路由信息，包括步骤：

所述元数据节点获取数据访问请求中的数据单元信息，并根据数据单元信息和数据单元标识的映射关系获取到该数据单元的标识；

按照数据单元的路由算法，由该数据单元的标识计算出存储该数据单元的数据节点的标识；

根据数据节点标识与数据管理节点标识的映射关系 ,获取到对应的数据管理节点标识，并将该数据管理节点标识提供给客户端。

根据本发明的上述方法，所述元数据节点向所述数据管理节点提供路由信息，包括步骤：

所述元数据节点从所述数据管理节点的请求中获取数据单元标识，并按照数据单元的路由算法 ,由该数据单元标识计算出存储该数据单元的数据节点的标识和该数据单元在数据节点中的位置信息，并提供给所述数据管理节点。

根据本发明的上述方法，所述数据管理节点将存储操作与计算操作分离。所述存储操作以存储工作队列对应的线程池执行，所述计算操作以计算工作队列对应的线程池执行。

本发明的上述方法中，还包括步骤：

所述数据节点接收到所述数据管理节点的数据操作指令后，按照该操作指令，通过该数据节点本地的文件***对所述数据单元进行操作。

根据本发明的上述方法，所述数据单元具有唯一标识。

所述数据单元标识由该数据单元所在的数据节点的标识和该数据单元在数据节点中的位置信息经过映射计算得出。

根据本发明的上述方法，所述对数据节点中的所述数据单元进行处理，进一步包括步骤：

将待写块的副本提交到日志文件；

在提交日志文件成功后，将该待写块提交到所述数据节点本地的文件系统；

若提交文件***成功，则将所述日志文件中的所述块副本丟弃；否则保留该块副本。

当***从异常状态恢复到正常状态时，按照所述日志文件中保留的块副本记录进行数据恢复。

本发明的上述方法中，还包括步骤：

使用所述数据节点本地的文件锁或 /和网络文件***中的文件锁，对数据单元的访问操作进行锁保护。

本发明有益效果如下：

( 1 )本发明提供的网络数据存储***，将数据分布式存储在三层结构的网络节点上，并提供统一的访问管理和路由，从而支持线形扩容和升级，比现有技术增强了扩展能力，降低了扩展成本。

( 2 )本发明提供的网络数据访问机制，基于上述分布式数据存储***，釆用两级路由算法，使得数据文件的位置对客户端透明；釆用三层结构的分布式设计，使位于中间层的数据管理节点分担了数据访问处理操作，因而可通过配置合理的三层结构，提高网络数据访问性能。

( 3 )本发明还釆用日志技术支持事务处理功能，提高了网络数据访问的一致性、完整性。

( 4 )本发明还釆用锁管理功能，解决了网络文件***下文件锁失效的问题。

附图说明

图 1为本发明实施例的网络数据存储***的结构示意图；

图 2为本发明实施例的网络数据存储***的树型结构示意图；

图 3为本发明实施例的网络数据访问过程的示意图。

具体实施方式

下面结合实施例和附图对本发明进行详细描述。

参见图 1 , 为本发明实施例的网络数据存储***的结构示意图，该数据存储***包括：

DataNode: 数据节点，是网络上的节点，用于存储原始数据和索引。这些原始数据以数据单元的形式存储于 DataNode。

Management Node: 数据管理节点，是网络上的节点，作为中间层提供一些通用的服务，如索引、冗余策略等。 Management Node 管理一组相关的 DataNode。

MetaNode: 管理数据节点的名称空间和映射关系的元数据节点，是网络上的节点，用于提供基础的路由信息，主要维护两种路由关系： MetaNode到 Management Node的路由（一级路由），以及 Management Node到 DataNode 的路由（二级路由；)。

Transaction Log：这是基于日志技术的事务管理节点，通常部署在 Management Node , 其中存储有日志文件，用于完成数据的事务保护。

Lock Node: 这是全局可见的网络节点，其中存储有以文件形式存在的数据锁，以实现对数据访问进行锁管理。

图 1所示的网络数据存储***的体系结构按照树型结构组织，如图 2所示。参见图 2, 为本发明实施例的网络数据存储***的树型结构示意图。

如图所示，从逻辑上将网络数据存储***中的节点划分为三层，从底层到上层分另 'J是 DataNode, Management Node和 MetaNode。 MetaNode作为根节点, 其下有多个 Management Node作为叶子节点, 每个 Management Node下面又有多个 DataNode作为叶子节点。

构建如上实施例所示的网络数据存储***的步骤包括：

步骤 1、确定数据单元，分配数据单元 ID , 并将数据单元分布存储到

DataNode中。

本实施例中的数据单元是在文件***层次之上的抽象的数据集合，可根据业务特点和业务需要，将可以被单独管理的最小数据集合定义为数据单元。大部分企业数据的请求和处理都具有明显的局部性特征，如在邮件***中，分类、检索和收发邮件都是在一个固定的命名空间——邮件帐号内实现，因此，可以将邮件帐号作为数据单元。

数据单元内部可以由多个文件或者目录构成，如数据文件和索引文件以及文件目录，这些文件和目录通过数据单元所在的 DataNode本地的文件***进行管理。

数据单元的 ID唯一标识了该数据单元。数据单元的 ID包含了两部分信息：存储该数据单元的 DataNode的 ID和该数据单元在 DataNode中的具***置信息。可通过数据单元的路由算法，从数据单元 ID中计算获取到上述两种信息。因此，数据单元的 ID隐含了该数据单元和存储该数据单元的 DataNode的对应关系。

步骤 2、确定路由算法和路由信息，并存储到 MetaNode中。

MetaNode维护的路由信息包括： MetaNode到 Management Node的路由信息 (一级路由信息），以及 Management Node到 DataNode的路由信息（二级路由信息）。这两种路由信息通过以下映射关系表和算法实现：

建立数据单元信息（如数据单元名称）与数据单元 ID 的映射关系表、 DataNode ID与 Management Node ID的映射关系表，设置数据单元的路由算法，即通过该算法，可以从数据单元 ID提取出存储该数据单元的 DataNode 的 ID和该数据单元在 DataNode中的具***置信息。

一级路由的实现过程为： MetaNode依次根据数据单元信息与数据单元 ID 的映射关系表，数据单元的路由算法，以及 DataNode ID与 Management Node ID的映射关系表，得到从 MetaNode到 Management Node的路由。

二级路由的实现过程为： Management Node 向 MetaNode 发送请求， MetaNode根据所请求的数据单元的路由算法得到 Management Node到存储相应数据单元的 DataNode的路由。

步骤 3、部署 Management Node, 包括：

在 Management Node中配置有数据访问服务，如索引服务，还可以配置冗余策略；

在 Management Node 内部实现釆用存储 ( I/O-bound task ) 与计算 ( CPU-bound task )分离的技术，将工作分为两个队列，计算工作队列和存储工作队列分别用两个线程池并行来完成工作，充分利用 CPU和 I/O资源。

基于上述实施例所描述的网络数据存储***，网络数据的访问过程如图 3 所示。

参见图 3 , 为本发明实施例的网络数据访问过程示意图，包括步骤：

5301、客户端向 MetaNode发送数据访问请求，告知要访问的数据单元描述信息（如数据单元名称）。

5302、 MetaNode向客户端返回一级路由信息，告知负责管理该数据单元的 Management Node的位置信息。

MetaNode从客户端的请求中获取到数据单元描述信息，再根据数据单元描述信息和数据单元 ID的映射关系表，获取到客户端请求的数据单元 ID; 然后，根据数据单元的路由算法，由该数据单元 ID计算得到存储该数据单元的 DataNode的 ID;再根据 DataNode ID与 Management Node ID的映射关系表获得管理该 DataNode 的 Management Node 的 ID ; MetaNode 将获取到的 Management Node的 ID发送到客户端。

5303、客户端根据一级路由信息找到 Management Node, 向其发起数据访问请求。

5304、 Management Node根据客户端的身份和请求的数据单元信息，向 MetaNode请求该数据单元在网络中的位置分布。

在步骤 S302中， MetaNode向客户端返回一级路由信息的同时，还可返回客户端所请求的数据单元的 ID。这样，步骤 S303中，客户端在发送的数据访问请求中携带需要访问的数据单元的 ID；在步骤 S304中， Management Node 向 MetaNode发送的请求中携带该数据单元 ID。 5305、 MetaNode向 Management Node返回二级路由信息，告知请求的数据单元在网络中的位置。

MetaNode从 Management Node发送的请求中获取到数据单元 ID,并根据数据单元的路由算法，由该数据单元 ID计算得到存储该数据单元的 DataNode ID和该数据单元在 DataNode中的具***置，并将这些信息返回给 Management Node。

5306、 Management Node根据该位置信息找到存储该数据单元的 DataNode 以及该数据单元在 DataNode的位置，并按照客户端提出的请求，处理数据单元中的数据。

DataNode按照 Management Node的操作指令，通过 DataNode的本地文件 ***对数据单元进行操作。

5307、 Management Node根据需要向客户端返回数据处理结果。

在上述数据访问过程中， Management Node内部釆用存储（ I/0-bound task ) 与计算（CPU-bound task )分离的技术，将工作分为两个队列，计算工作队列和存储工作队列分别用两个线程池并行来完成工作。

在上述数据访问过程中，本发明实施例还釆用事务处理机制来保证网络数据访问的可靠性，包括日志机制和锁技术。

文件的很多操作都是非原子行为 ,尤其是跨越多个文件或者多个节点的过程中，数据的一致性和完整性容易遭到破坏，导致异常情况出现，如***非正常关闭。本发明实施例借鉴数据库和操作***的文件***所提供的日志保护机制，为本发明实施例的非数据库结构的数据存取提供了一种事务保护机制。

当对本发明实施例的数据单元进行访问（如存取操作）时，将待写块的一个副本写入日志文件；当发往日志的 I/O数据传送完成后（即数据成功提交日志文件 ) , 再将该块写入 DataNode本地的文件***；当发往文件***的 I/O数据传送完成后（即数据成功提交文件***），将日志文件中的块副本丟弃；若发往文件***的 I/O数据传送失败，则日志文件保留该块副本。

当***发生崩溃或需要重新启动时， ***首先读取日志文件，并按照日志文件中的记录的块副本进行恢复，使***恢复到发生异常前的正常状态。

为了加强事务隔离性，本发明实施例还提供了锁机制。事务隔离性通常釆用锁住事务所访问资源的方式来保证，同时为了保证文件事务的特性和高并发和高可靠性，锁技术是一个非常有利的工具。

本发明实施例将目前广泛釆用的应用于本地硬盘单节点的文件锁 Dotlock 和网络文件*** （ Network File System , NFS ) 文件***中锁釆用的 POSIX-compliant和 BSD-based system的 Flock() or Fcntl()技术结合使用，具体做法为：

首先获取 DotLock (这一步通常有可能会被多个节点同时获取成功），成功后在尝试获取 Flock()或者 Fcntl()。这些锁以文件的方式存在一个全局可见的节点上。在***恢复的时候检测并释放那些悬挂的锁。锁的粒度，可以对某一个数据块，也可以对一个文件、目录，甚至可以对一个 DataNode加锁。

下面以一个为超大容量的邮件***添加存储能力的例子进行说明。

第一步：进行数据规划，确定***管理的最小数据单元。

邮件地址（邮件帐号）通常由用户名和域名两部分组成，中间用 @符号分割。可以用邮件帐号作为最小单元，也可以用域名作为数据单元，本实施例选择用邮件帐号作为数据单元。

第二步：确定路由算法和路由表。

规划路由算法的目的是解决如何根据用户提供的邮件帐号找到邮箱内容的存储位置。为了支持***容量的不断扩容，本实施例釆用 32位的地址空间来路由，这样最大可以支持 IG用户数量（大约 10亿）。该 32位的地址空间称为 RID ( Route ID ), 用于唯一标识邮件帐号。本实施例假设一个 DataNode的最大容量为支持 1M ( 2²⁰ = 1,048,576 ) 的用户量，因此 DataNode的地址空间大小为 1M,具体地址通常可以用本机文件***的目录来表示。本实施例用 RID 的低 20位来映射具体的目录，称作 DataNode内部地址 DataID。每个 DataNode 有唯一编号 NSN ( Node Sequence Number ), 用 32位 RID的高 12位表示。即表 2所示: 表 1 : 邮件帐号与邮件 RID的映射关系表

表 2: DataNode ID与 Management Node ID的映射关系表

表 2表明一个 Management Node管理三个节点，地址 [email protected]请求由标识为 worker- 1的 Management Node负责处理。

第三步：完成数据规划和路由策略制定后，进行容量规划。

在用户较少的时候，可以部署一台 Management Node和一个 DataNode(编号为 0, 负责管理 0-1M的用户）。随着用户数量的增长，一个 DataNode不能满足存储需求的时候，可以再增加一个 DataNode, 假设编号为 1 , 则 RID的高 12位为 000000000001 , 负责管理低 20位 1M-2M之间的用户，这样如上所述，随着业务的不断发展， ***可以线性不断扩展，实现海量数据存储。

第四步：部署 MetaNode。

如表 1和表 2所示的路由信息表可以存储在 MetaNode的数据库中也可以以文件的形式保存。由于路由信息表不是很大，服务器启动后，可以将整个路由表放在内存中，这样可以快速响应客户端请求。对于不同的应用可以定制不同的策略，如对于简单的应用，数据规则组织良好，则可以简化 MetaNode为一个根据应用提供的唯一数据 ID实现两级 Hash的算法。

第五步：部署 Management Node服务，指定建立索引的配置。

在 Management Node上添加数据搜索功能，对需要存储的数据进行索引，将索引文件和数据文件保存在对应的数据节点上，如果需要对数据进行业务相关的处理，可以将相关逻辑 job作为服务部署在服务器上， Management Node 釆用存储与计算分离的技术，充分发挥***的能力。

以后随着业务的发展，***可以不断的按需扩充容量。随着用户量的增长，可以不断添加 DataNode,每添力口 3个 DataNode,部署一台 Management Node, 而对于 MetaNode, 通常仅需要一台服务器，为了使之不成为***的单点，可釆用备份机制，增设一台用作备份的 MetaNode服务器。

上述优选实施例针对的是一个比较简单的邮件***，但本发明实施例提供的网络数据存储***的应用场合不限此类应用。本发明实施例提供的网络数据存储***尤其适用于 B2B 电子商务平台和软件。这类应用通常以企业和用户为中心，存在大量的在线事务处理，因此可以将用户或者一家企业用户作为一个数据单元集合，因为这些数据主要是内部私有，不容许其他用户任意访问。把这些数据作为一个数据单元集合来管理，这就从物理上保证了企业数据独立性和隔离性，不会和其他用户交织在一起，同时支持在线搜索和事务处理等。这种方案相对数据库的好处是非常明显的。数据库不可能为每个企业用户创建一套数据库，数据库通常将所有的企业同种应用的数据放在一张表中，物理上没有实现安全隔离，需要应用处理非法访问等问题，同时如果用户量非常大的时候这种数据库方法将会导致很大的性能问题。明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求

1、一种网络数据存储***，其特征在于，包括：

数据节点，用于存储数据单元；

2、如权利要求 1所述的***，其特征在于，所述元数据节点、数据管理节点和数据节点以树型连接；

3、如权利要求 1所述的***，其特征在于，所述元数据节点存储的路由信息包括：

所述元数据节点到所述数据管理节点的路由信息；

所述数据管理节点到所述数据节点的路由信息。

4、如权利要求 3所述的***，其特征在于，所述元数据节点还存储有所述数据单元的路由算法；所述路由算法为通过数据单元标识推算存储该数据单元的数据节点标识和该数据单元在所述数据节点中的位置信息的算法。

5、如权利要求 1所述的***，其特征在于，所述数据管理节点中配置有数据访问服务或 /和冗余策略。

6、如权利要求 1所述的***，其特征在于，所述数据节点中存储的所述数据单元为面向业务应用的最小数据集合。

7、如权利要求 6所述的***，其特征在于，所述数据单元内部由多个文件或 /和目录构成。

8、如权利要求 7所述的***，其特征在于，所述数据单元内部的文件包括数据文件或 /和索引文件。

9、如权利要求 1所述的***，其特征在于，还包括事务管理节点，用于存储日志文件，并提供日志管理服务。

10、如权利要求 1或 9所述的***，其特征在于，还包括锁节点，用于存储锁文件，并提供锁管理服务。

11、一种网络数据访问方法，其特征在于，包括以下步骤：

12、如权利要求 11所述的方法，其特征在于，所述元数据节点接收到客户端发送的访问数据单元的请求后，向该客户端提供所述数据管理节点的路由信息，包括步骤：

13、如权利要求 11所述的方法，其特征在于，所述元数据节点向所述数据管理节点提供路由信息，包括步骤：

14、如权利要求 11所述的方法，其特征在于，所述数据管理节点将存储操作与计算操作分离。

15、如权利要求 14所述的方法，其特征在于，所述存储操作以存储工作队列对应的线程池执行，所述计算操作以计算工作队列对应的线程池执行。

16、如权利要求 11所述的方法，其特征在于，还包括步骤：

17、如权利要求 11-16任一权项所述的方法，其特征在于，所述数据单元具有唯一标识。

18、如权利要求 17所述的方法，其特征在于，所述数据单元标识由该数据单元所在的数据节点的标识和该数据单元在数据节点中的位置信息经过映射计算得出。

19、如权利要求 11所述的方法，其特征在于，所述对数据节点中的所述数据单元进行处理，进一步包括步骤：

将待写块的副本提交到日志文件；

20、如权利要求 19所述的方法，其特征在于，当***从异常状态恢复到正常状态时，按照所述日志文件中保留的块副本记录进行数据恢复。

21、如权利要求 11或 19所述的方法，其特征在于，还包括步骤：使用所述数据节点本地的文件锁或 /和网络文件***中的文件锁，对数据单元的访问操作进行锁保护。