CN108008918A

CN108008918A - 数据处理方法、存储节点及分布式存储***

Info

Publication number: CN108008918A
Application number: CN201711235155.3A
Authority: CN
Inventors: 温利娟; 杨杰; 李光辉
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-05-08

Abstract

本申请公开一种应用于存储节点的数据处理方法，包括：接收文件写入请求；响应文件写入请求，确定该存储节点是否存储有与待写入的第一数据块相同的数据块；若未存储相同的数据块，则将第一数据块存储于该存储节点，建立第一数据块的索引信息，建立第一数据块的块号和索引信息的对应关系；若存储有相同的另一数据块，则修改该另一数据块的索引信息中的引用次数，建立第一数据块的块号和该索引信息的对应关系。基于本申请公开的数据处理方法，能够缩短文件的写入响应时间，提高分布式存储***的写性能，同时能够避免存储节点出现重复数据块。本申请还公开存储节点及分布式存储***。

Description

数据处理方法、存储节点及分布式存储***

技术领域

本申请属于通信技术领域，尤其涉及数据处理方法、存储节点及分布式存储***。

背景技术

分布式存储***是将数据分散存储在多台服务器上，其中，用于存储数据的服务器称为存储节点，一个分布式存储***包括多个存储节点。分布式存储***利用多个存储节点分担存储负荷，能够提高***的可靠性、可用性和存取效率，而且***结构便于扩展。

但是，目前的分布式存储***仍然存在读写性能较低的问题，这导致文件的读写响应时间较长。如何进一步提高分布式存储***的读写性能，以便缩短文件的读写响应时间，是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供数据处理方法、存储节点及分布式存储***，以便提高分布式存储***的读写性能，缩短文件的读写响应时间。

为实现上述目的，本申请提供如下技术方案：

一方面，本申请提供一种数据处理方法，应用于分布式存储***的第一存储节点，所述方法包括：

接收文件写入请求；

响应所述文件写入请求，确定所述第一存储节点是否存储有与待写入的第一数据块相同的数据块，所述第一数据块通过对待写入的文件进行分块处理产生；

在所述第一存储节点未存储与所述第一数据块相同的数据块的情况下，将所述第一数据块存储于所述第一存储节点，在所述第一存储节点建立所述第一数据块的索引信息，建立所述第一数据块的块号和所述索引信息的对应关系；

在所述第一存储节点存储有与所述第一数据块相同的另一数据块的情况下，修改所述另一数据块的索引信息中的引用次数，建立所述第一数据块的块号和与所述另一数据块的索引信息的对应关系；

其中，数据块的索引信息包括所述数据块的存储地址信息。

可选的，在上述数据处理方法的基础上，还包括：

在满足预设条件的情况下，确定所述分布式存储***的全局索引信息是否包含所述第一数据块的索引信息；

在所述全局索引信息包含所述第一数据块的索引信息的情况下，删除所述第一存储节点存储的第一数据块，修改所述全局索引信息中所述第一数据块的索引信息中的引用次数，删除所述第一存储节点存储的第一数据块的索引信息；

在所述全局索引信息不包含所述第一数据块的索引信息的情况下，在所述全局索引信息中添加所述第一数据块的索引信息。

可选的，在上述数据处理方法的基础上，还包括：

接收文件读取请求；

响应所述文件读取请求，对待读取的文件进行分块处理，获得待读取的数据块的块号；

根据所述待读取的数据块的块号在所述第一存储节点查找所述待读取的数据块的索引信息；

如果在所述第一存储节点查找到所述待读取的数据块的索引信息，则根据查找到的索引信息中的存储地址信息读取数据块；

如果未在所述第一存储节点查找到所述待读取的数据块的索引信息，则在所述全局索引信息中查找所述待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块；

向客户端反馈读取到的数据块。

可选的，在上述数据处理方法的基础中，数据块的索引信息采用键值对的数据结构，其中，键为数据块的指纹值，值为数据块的描述信息，所述数据块的描述信息包括引用次数和所述数据块的存储地址信息。

可选的，在上述数据处理方法的基础中，所述确定所述第一存储节点是否存储有与待写入的第一数据块相同的数据块，包括：

获得所述第一数据块的指纹值；

在所述第一存储节点存储有以所述第一数据块的指纹值作为键的键值对的情况下，确定所述第一存储节点存储有与待写入的第一数据块相同的数据块；

在所述第一存储节点未存储以所述第一数据块的指纹值作为键的键值对的情况下，确定所述第一存储节点未存储与待写入的第一数据块相同的数据块。

另一方面，本申请提供一种存储节点，包括通信接口、处理器和存储器：

所述通信接口用于接收文件写入请求；

所述处理器用于响应所述文件写入请求，确定所述存储器是否存储有与待写入的第一数据块相同的数据块，所述第一数据块通过对待写入的文件进行分块处理产生；在所述存储器未存储与所述第一数据块相同的数据块的情况下，将所述第一数据块存储于所述存储器，在所述存储器建立所述第一数据块的索引信息，建立所述第一数据块的块号和所述索引信息的对应关系；在所述存储器存储有与所述第一数据块相同的另一数据块的情况下，修改所述另一数据块的索引信息中的引用次数，建立所述第一数据块的块号和所述另一数据块的索引信息的对应关系；其中，数据块的索引信息包括所述数据块的存储地址信息；

所述存储器用于存储数据块、索引信息、以及数据块的块号和索引信息的对应关系。

可选的，在上述存储节点中，所述处理器还用于：

在满足预设条件的情况下，确定所述分布式存储***的全局索引信息是否包含所述第一数据块的索引信息；在所述全局索引信息包含所述第一数据块的索引信息的情况下，删除所述存储器存储的第一数据块，修改所述全局索引信息中所述第一数据块的索引信息中的引用次数，删除所述存储器存储的第一数据块的索引信息；在所述全局索引信息不包含所述第一数据块的索引信息的情况下，在所述全局索引信息中添加所述第一数据块的索引信息。

可选的，在上述存储节点中，所述通信接口还用于接收文件读取请求；

所述处理器还用于：响应所述文件读取请求，对待读取的文件进行分块处理，获得待读取的数据块的块号；根据所述待读取的数据块的块号在所述存储器查找所述待读取的数据块的索引信息；如果在所述存储器查找到所述待读取的数据块的索引信息，则根据查找到的索引信息中的存储地址信息读取数据块；如果未在所述存储器查找到所述待读取的数据块的索引信息，则在所述全局索引信息中查找所述待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块；通过所述通信接口向客户端反馈读取到的数据块。

可选的，在上述存储节点中，数据块的索引信息采用键值对的数据结构，其中，键为数据块的指纹值，值为数据块的描述信息，所述数据块的描述信息包括引用次数和所述数据块的存储地址信息。

可选的，在上述存储节点中，所述处理器在确定所述存储器是否存储有与待写入的第一数据块相同的数据块的方面，具体用于：

所述处理器获得所述第一数据块的指纹值；在所述存储器存储有以所述第一数据块的指纹值作为键的键值对的情况下，确定所述存储器存储有与待写入的第一数据块相同的数据块；在所述存储器未存储以所述第一数据块的指纹值作为键的键值对的情况下，确定所述存储器未存储与待写入的第一数据块相同的数据块。

另一方面，本申请提供一种分布式存储***，包括多个存储节点；

所述存储节点用于：接收文件写入请求；响应所述文件写入请求，确定本存储节点是否存储有与待写入的第一数据块相同的数据块，所述第一数据块通过对待写入的文件进行分块处理产生；在本存储节点未存储与所述第一数据块相同的数据块的情况下，存储所述第一数据块，在本存储节点建立所述第一数据块的索引信息，建立所述第一数据块的块号和所述索引信息的对应关系；在本存储节点存储有与所述第一数据块相同的另一数据块的情况下，修改所述另一数据块的索引信息中的引用次数，建立所述第一数据块的块号和所述另一数据块的索引信息的对应关系；其中，数据块的索引信息包括所述数据块的存储地址信息。

可选的，在上述分布式存储***中，任意一个存储节点存储有全局索引信息；

所述存储节点还用于：在满足预设条件的情况下，确定所述全局索引信息是否包含所述第一数据块的索引信息；在所述全局索引信息包含所述第一数据块的索引信息的情况下，删除本存储节点存储的第一数据块，修改所述全局索引信息中所述第一数据块的索引信息中的引用次数，删除本存储节点存储的第一数据块的索引信息；在所述全局索引信息不包含所述第一数据块的索引信息的情况下，在所述全局索引信息中添加所述第一数据块的索引信息。

由此可见，本申请的有益效果为：

基于本申请公开的数据处理方法，在将文件写入存储节点的过程中，如果存储节点存储有与待存储的数据块相同的其他数据块，那么不再写入该数据块，而是修改相应的索引信息中的引用次数，并建立待写入的数据块的块号与该索引信息的对应关系，能够缩短文件的写入响应时间，提高分布式存储***的写性能，而且能够避免存储节点出现重复数据块，从而减少带宽和存储空间的浪费。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种分布式存储***的架构示意图；

图2为本申请公开的一种数据处理方法的流程图；

图3为本申请公开的另一种数据处理方法的流程图；

图4为本申请公开的另一种数据处理方法的部分流程图；

图5为基于本申请公开的数据处理方法实现重复数据删除的原理示意图；

图6为本申请公开的一种存储节点的硬件结构图。

具体实施方式

本申请公开数据处理方法、存储节点及分布式存储***，以便提高分布式存储***的读写性能，缩短文件的读写响应时间。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，对分布式存储***的架构进行说明。如图1所示，分布式存储***包括多个存储节点10、20和30，多个存储节点之间通过网络连接，用户可以通过客户端将文件存储于分布式存储***，也可以通过客户端从分布式存储***读取文件。

分布式存储***针对数据的保存采用的是多副本机制，在保证副本的同时对所有相同的数据块只保留一份，这样能够避免分布式存储***存在大量的重复数据块，从而避免带宽和存储空间的浪费。

结合图1，下面对本申请公开的数据处理方法进行说明。

参见图2，图2为本申请公开的一种数据处理方法的流程图。该数据处理方法应用于分布式存储***的存储节点，这里以第一存储节点为例进行说明，该数据处理方法包括：

步骤S101：接收文件写入请求。

该文件写入请求由客户端发送。

作为一种实施方式，该文件写入请求携带有待写入的文件。

作为另一种实施方式，该文件写入请求携带有待写入的数据块。其中，待写入的数据块由客户端对待写入的文件进行分块处理产生。

步骤S102：响应文件写入请求，确定第一存储节点是否存储有与待写入的第一数据块相同的数据块。

需要说明的是，如果文件写入请求携带的是待写入的文件，那么由第一存储节点对待写入的文件进行分块处理，产生待写入的数据块。

其中，存储节点和客户端采用预设的分块算法对文件进行分块处理，产生的数据块的块号为：文件的偏移除以数据块的长度。

步骤S103：在第一存储节点未存储与第一数据块相同的数据块的情况下，将第一数据块存储于第一存储节点，在第一存储节点建立第一数据块的索引信息，建立第一数据块的块号和该索引信息的对应关系。

如果第一存储节点未存储与第一数据块相同的数据块，那么将第一数据块写入第一存储节点，在第一存储节点建立第一数据块的索引信息，其中，数据块的索引信息包括所述数据块的存储地址信息。并且，还需要在第一存储节点建立第一数据块的块号和该索引信息的对应关系，以便于后续访问该第一数据块。

步骤S104：在第一存储节点存储有与第一数据块相同的另一数据块的情况下，修改该另一数据块的索引信息中的引用次数，建立第一数据块的块号和与该另一数据块的索引信息的对应关系。

如果第一存储节点存储有与第一数据块相同的数据块，那么就无需再次写入第一数据块，将该另一数据块的索引信息中的引用次数加1，并且建立第一数据块的块号和该索引信息的对应关系，以便于后续访问该第一数据块。

本申请公开的应用于存储节点的数据处理方法，在接收到文件写入请求后，判断本存储节点是否存储有与待存储的第一数据块相同的其他数据块；如果本存储节点未存储与第一数据块相同的其他数据块，则存储第一数据块，建立第一数据块的索引信息以及第一数据块的块号和该索引信息的对应关系；如果本存储节点存储有与待存储的第一数据块相同的另一数据块，则不再存储第一数据块，而是修改该另一数据块的索引信息中的引用次数，建立该第一数据块的块号与该索引信息的对应关系。可以看到，基于本申请公开的数据处理方法，在将文件写入存储节点的过程中，如果存储节点存储有与待存储的数据块相同的其他数据块，那么不再写入该数据块，而是修改相应的索引信息中的引用次数，并建立待写入的数据块的块号与该索引信息的对应关系，能够缩短文件的写入响应时间，提高分布式存储***的写性能，而且能够避免存储节点出现重复数据块，从而减少带宽和存储空间的浪费。

参见图3，图3为本申请公开的另一种数据处理方法的流程图。这里以第一存储节点为例进行说明，该数据处理方法包括：

步骤S101：接收文件写入请求。

步骤S105：在满足预设条件的情况下，确定分布式存储***的全局索引信息是否包含第一数据块的索引信息。

分布式存储***保存有全局索引信息，该全局索引信息可以存储于任意一个存储节点。需要说明的是，该全局索引信息禁止并发的访问，也就是说，在分布式存储***中的一个存储节点访问全局索引信息的过程中，禁止其他存储节点访问该全局索引信息。

在满足预设条件时，第一存储节点要确定全局索引信息是否包含第一数据块的索引信息，由此确定分布式存储***是否已经存储有与第一数据块相同的数据块。

该预设条件用于判断分布式存储***是否处于空闲状态。

作为一种实施方式，该预设条件配置为：到达预设时间。例如，当达到深夜时，执行确定分布式存储***的全局索引信息是否包含第一数据块的索引信息的操作及后续操作。

作为另一种实施方式，该预设条件配置为：对分布式存储***的访问量低于预设数值。也就是说，当对分布式存储***的访问量较低时，执行确定分布式存储***的全局索引信息是否包含第一数据块的索引信息的操作及后续操作。

步骤S106：在全局索引信息包含第一数据块的索引信息的情况下，删除第一存储节点存储的第一数据块，修改全局索引信息中第一数据块的索引信息中的引用次数，删除第一存储节点存储的第一数据块的索引信息。

如果全局索引信息包含第一数据块的索引信息，这表明分布式存储***已经存储有与第一数据块相同的数据块，那么第一存储节点不需要存储第一数据块，第一存储节点删除自身存储的第一数据块，修改全局索引信息中第一数据块的索引信息中的引用次数，并且删除第一存储节点存储的第一数据块的索引信息。

需要说明的是，第一存储节点修改全局索引信息中第一数据块的索引信息中的引用次数具体为：第一存储节点将全局索引信息中第一数据块的索引信息中的引用次数加上第一数值，其中，第一数值为第一存储节点存储的第一数据块的索引信息中的引用次数。

例如，第一存储节点存储的第一数据块的索引信息中的引用次数为3，如果全局索引信息包含第一数据块的索引信息，那么第一存储节点删除自身存储的第一数据块，将全局索引信息中第一数据块的索引信息中的引用次数加3，之后删除自身存储的第一数据块的索引信息。

步骤S107：在全局索引信息不包含第一数据块的索引信息的情况下，在全局索引信息中添加第一数据块的索引信息。

如果全局索引信息不包含第一数据块的索引信息，这表明分布式存储***未存储与第一数据块相同的数据块，那么第一存储节点在全局索引信息中添加第一数据块的索引信息。

本申请图3所示的数据处理方法，采用了在线重删(重删也称为重复数据删除)和离线重删相结合的处理方式，在用户需要写入文件时，第一存储节点进行在线重删，也就是判断本存储节点是否存储有与待写入的第一数据块相同的另一数据块，如果存储有与待写入的数据块相同的另一数据块，那么不再写入该第一数据块，而是修改该另一数据块的索引信息中的引用次数，建立该第一数据块的块号与该索引信息的对应关系；之后，在满足预设条件时，采用离线重删的方式进行全局重删，也就是判断分布式存储***是否已经存储有与第一数据块相同的另一数据块，如果分布式存储***已经存储有与第一数据块相同的另一数据块，那么第一存储节点删除自身保存的第一数据块，并对全局索引信息中该第一数据块的索引信息中的引用次数进行相应修改，删除自身存储的第一数据块的索引信息，保证分布式存储***中相同的数据块仅保留副本数份。

基于本申请图3所示的数据处理方法，存储节点在写入文件的过程中进行在线重删，而不关注其他存储节点，也就无需访问全局索引信息，能够缩短文件的写入响应时间，从而提高分布式存储***的写性能，同时能够避免本存储节点出现重复数据块，而且存储节点采用在线重删的方式，能够降低对额外存储空间的需求；之后，在满足预设条件时，分布式存储***中的各个存储节点进行离线重删，保证分布式存储***中相同的数据块仅保留副本数份。可以看到，本申请图3所示的数据处理方法，采用在线重删和离线重删相结合的处理方式，在提高存储***的写性能的同时，降低了对额外存储空间的需求，减少了硬件的访问频率，提高了硬件的使用寿命。

参见图4，图4为本申请公开的另一种数据处理方法的部分流程图。在图3所示数据处理方法的基础上，进一步包括：

步骤S108：接收文件读取请求。

文件读取请求携带有文件名、文件的偏移和数据块的长度。

步骤S109：响应文件读取请求，对待读取的文件进行分块处理，获得待读取的数据块的块号。

利用预设的分块策略(与写入文件时采用的分块策略相同)对待读取的文件进行分块处理，根据文件的偏移和数据块的长度就可以确定待读取的数据块的块号。其中，数据块的块号为文件的偏移除以数据块的长度。

步骤S110：根据待读取的数据块的块号在第一存储节点查找待读取的数据块的索引信息。

步骤S111：如果在第一存储节点查找到待读取的数据块的索引信息，则根据查找到的索引信息中的存储地址信息读取数据块。

如果第一存储节点存储有待读取的数据块的索引信息，这表明第一存储节点存储有待读取的数据块，根据查找到的索引信息中的存储地址信息读取数据块即可，无需关注其他的存储节点，也就无需访问全局索引信息。

步骤S112：如果未在第一存储节点查找到待读取的数据块的索引信息，则在全局索引信息中查找待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块。

如果第一存储节点未存储待读取的数据块的索引信息，这表明第一存储节点未存储待读取的数据块，在这种情况下，在全局索引信息中查找待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块。

步骤S113：向客户端反馈读取到的数据块。

需要说明的是，第一存储节点可以向客户端反馈读取到的数据块，也可以将读取到的数据块构建为文件，向客户端反馈该文件。

本申请图4所示的数据处理方法中，第一存储节点在接收文件读取请求之后，首先在本存储节点查找待读取的数据块，如果查找到待读取的数据块，那么直接反馈给客户端，如果未在本存储节点查找到待读取的数据块，那么再通过全局索引信息查找待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块，向客户端反馈查找到的数据块。基于本申请图4所示的数据处理方法，可以缩短文件的读取响应时间，提高分布式存储***的读性能。

在本申请上述公开的数据处理方法中，作为一种实施方式，数据块的索引信息采用键值对(key-value)的数据结构。

作为一个示例，键为数据块的指纹值，值为数据块的描述信息，数据块的描述信息包括引用次数和数据块的存储地址信息。在建立数据块的块号和索引信息的对应关系的过程中，建立数据块的块号和该索引信息中的指纹值的对应关系即可。

相应的，步骤S102确定第一存储节点是否存储有与待写入的第一数据块相同的数据块，包括：获得第一数据块的指纹值；在第一存储节点存储有以第一数据块的指纹值作为键的键值对的情况下，确定第一存储节点存储有与待写入的第一数据块相同的数据块；在第一存储节点未存储以第一数据块的指纹值作为键的键值对的情况下，确定第一存储节点未存储与待写入的第一数据块相同的数据块。

作为一种实施方式，由客户端计算待写入的第一数据块的指纹值。也就是说，客户端对待写入的文件进行分块处理产生待写入的数据块，并计算待写入的数据块的指纹值，客户端发送的文件写入请求携带有待写入的数据块以及待写入的数据块的指纹值。

作为另一种实施方式，如果文件写入请求携带的是待写入的文件，那么由第一存储节点对待写入的文件进行分块处理，产生待写入的数据块，并计算待写入的数据块的指纹值。

实施中，第一存储节点和客户端可以采用Hash算法计算数据块的指纹值，例如：MD5算法和SHA1算法。优选的，采用两种或者两种以上的Hash算法计算数据块的指纹值，以获得非常小概率的数据碰撞发生。

相应的，步骤S110根据待读取的数据块的块号在第一存储节点查找待读取的数据块的索引信息，包括：根据待读取的数据块的块号获得待读取的数据块的指纹值；利用待读取的数据块的指纹值在第一存储节点查找待读取的数据块的索引信息。

相应的，步骤S112在全局索引信息中查找待读取的数据块的索引信息，包括：根据待读取的数据块的块号获得待读取的数据块的指纹值；利用待读取的数据块的指纹值在全局索引信息中查找待读取的数据块的索引信息。

作为另一个示例，键为数据块的数字摘要，值为数据块的描述信息，数据块的描述信息包括引用次数和数据块的存储地址信息。在建立数据块的块号和索引信息的对应关系的过程中，建立数据块的块号和该索引信息中的数字摘要的对应关系即可。

相应的，步骤S102确定第一存储节点是否存储有与待写入的第一数据块相同的数据块，包括：获得第一数据块的数字摘要；在第一存储节点存储有以第一数据块的数字摘要作为键的键值对的情况下，确定第一存储节点存储有与待写入的第一数据块相同的数据块；在第一存储节点未存储以第一数据块的数字摘要作为键的键值对的情况下，确定第一存储节点未存储与待写入的第一数据块相同的数据块。

作为一种实施方式，由客户端计算待写入的第一数据块的数字摘要。也就是说，客户端对待写入的文件进行分块处理产生待写入的数据块，并计算待写入的数据块的数字摘要，客户端发送的文件写入请求携带有待写入的数据块以及待写入的数据块的数字摘要。

作为另一种实施方式，如果文件写入请求携带的是待写入的文件，那么由第一存储节点对待写入的文件进行分块处理，产生待写入的数据块，并计算待写入的数据块的数字摘要。

相应的，步骤S110根据待读取的数据块的块号在第一存储节点查找待读取的数据块的索引信息，包括：根据待读取的数据块的块号获得待读取的数据块的数字摘要；利用待读取的数据块的数字摘要在第一存储节点查找待读取的数据块的索引信息。

步骤S112在全局索引信息中查找待读取的数据块的索引信息，包括：根据待读取的数据块的块号获得待读取的数据块的数字摘要；利用待读取的数据块的数字摘要在全局索引信息中查找待读取的数据块的索引信息。

下面结合一个实例对本申请公开的数据处理方法进行说明。请参见图5，分布式存储***包括存储节点1、存储节点2和存储节点3，三个存储节点通过网络连接。

第一阶段：

存储节点1接收到文件写入请求，该文件写入请求携带有待写入文件1。存储节点2接收到文件写入请求，该文件写入请求携带有待写入文件2。存储节点3接收到文件写入请求，该文件写入请求携带有待写入文件3。

第二阶段：

存储节点1对待写入文件1进行分块处理，得到四个待写入的数据块，分别为数据块1，数据块2，数据块3和数据块4，存储节点1根据预设的指纹值算法计算数据块1，数据块2，数据块3和数据块4的指纹值，数据块1，数据块2，数据块3和数据块4的指纹值依次为h1、h2、h1、h2。

存储节点2对待写入文件2进行分块处理，得到四个待写入的数据块，分别为数据块5，数据块6，数据块7和数据块8，存储节点2根据预设的指纹值算法计算数据块5，数据块6，数据块7和数据块8的指纹值，数据块5，数据块6，数据块7和数据块8的指纹值依次为h4、h3、h4、h3。

存储节点3对待写入文件3进行分块处理，得到四个待写入的数据块，分别为数据块9，数据块10，数据块11和数据块12，存储节点3根据预设的指纹值算法计算数据块9，数据块10，数据块11和数据块12的指纹值，数据块9，数据块10，数据块11和数据块12的指纹值依次为h5、h6、h5、h7。

其中，指纹值相同的多个数据块具有相同的数据。

第三阶段：

存储节点1、存储节点2和存储节点3进行在线重删。

存储节点1查询本存储节点的索引信息，发现本存储节点存储了指纹值为h4和h6的数据块，并未存储指纹值为h1和h2的数据块。存储节点1写入指纹值为h1和h2的数据块，更新本存储节点的索引信息，即：建立指纹值为h1和h2的数据块的索引信息，建立四个数据块的块号和相应的索引信息的对应关系。需要说明的是，指纹值为h1的数据块的索引信息中的引用次数为2，指纹值为h2的数据块的索引信息中的引用次数为2。

存储节点2查询本存储节点的索引信息，发现本存储节点存储了指纹值为h2的数据块，并未存储指纹值为h3和h4的数据块。存储节点2写入指纹值为h3和h4的数据块，更新本存储节点的索引信息，即：建立指纹值为h3和h4的数据块的索引信息，建立四个数据块的块号和相应的索引信息的对应关系。需要说明的是，指纹值为h3的数据块的索引信息中的引用次数为2，指纹值为h4的数据块的索引信息中的引用次数为2。

存储节点3查询本存储节点的索引信息，发现本存储节点并未存储指纹值为h5、h6和h7的数据块。存储节点3写入指纹值为h5、h6和h7的数据块，更新本存储节点的索引信息，即：建立指纹值为h5、h6和h7的数据块的索引信息，建立四个数据块的块号和相应的索引信息的对应关系。需要说明的是，指纹值为h5的数据块的索引信息中的引用次数为2，指纹值为h6的数据块的索引信息中的引用次数为1，指纹值为h7的数据块的索引信息中的引用次数为1。

第四阶段：

分布式存储***按照预设策略进行全局重删，即：存储节点1、存储节点2和存储节点3按照预设策略进行离线重删。例如：存储节点1、存储节点2和存储节点3定时进行离线重删，或者在分布式存储***的访问量低于预设数值时进行离线重删。

存储节点1在全局索引信息中查找新写入的数据块的索引信息，即：在全局索引信息中查找指纹值为h1和h2的数据块的索引信息。存储节点1发现全局索引信息中包含有指纹值为h2的数据块的索引信息，那么，存储节点1删除本存储节点存储的指纹值为h2的数据块，更新全局索引信息和本存储节点的索引信息，即：对全局索引信息中指纹值为h2的数据块的索引信息中的引用次数进行修改，删除本存储节点存储的指纹值为h2的数据块的索引信息。

存储节点2在全局索引信息中查找新写入的数据块的索引信息，即：在全局索引信息中查找指纹值为h3和h4的数据块的索引信息。存储节点2发现全局索引信息中包含有指纹值为h4的数据块的索引信息，那么，存储节点2删除本存储节点存储的指纹值为h4的数据块，更新全局索引信息和本存储节点的索引信息，即：对全局索引信息中指纹值为h4的数据块的索引信息中的引用次数进行修改，删除本存储节点存储的指纹值为h4的数据块的索引信息。

存储节点3在全局索引信息中查找新写入的数据块的索引信息，即：在全局索引信息中查找指纹值为h5、h6和h7的数据块的索引信息。存储节点3发现全局索引信息中包含有指纹值为h6的数据块的索引信息，那么，存储节点3删除本存储节点存储的指纹值为h6的数据块，更新全局索引信息和本存储节点的索引信息，即：对全局索引信息中指纹值为h6的数据块的索引信息中的引用次数进行修改，删除本存储节点存储的指纹值为h6的数据块的索引信息。

第五阶段：

存储节点1、存储节点2或者存储节点3接收到文件读取请求后，对待读取的文件进行分块处理，获得待读取的数据块的块号，获得待读取的数据块的指纹。之后，在本存储节点查找待读取的数据块，如果查找到待读取的数据块，那么向客户端反馈查找到的数据块。如果未在本存储节点查找到待读取的数据块，那么在全局索引信息中查找待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块，向客户端反馈查找到的数据块。

本申请还公开一种存储节点，其硬件结构如图6所示，包括通信接口601、处理器602和存储器603。通信接口601、处理器602和存储器603可以通过总线连接。

其中：

通信接口601，用于接收文件写入请求。

处理器602，用于响应文件写入请求，确定存储器603是否存储有与待写入的第一数据块相同的数据块，第一数据块通过对待写入的文件进行分块处理产生；在存储器603未存储与第一数据块相同的数据块的情况下，将第一数据块存储于存储器603，在存储器603建立第一数据块的索引信息，建立第一数据块的块号和所述索引信息的对应关系；在存储器603存储有与第一数据块相同的另一数据块的情况下，修改该另一数据块的索引信息中的引用次数，建立第一数据块的块号和该另一数据块的索引信息的对应关系。其中，数据块的索引信息包括数据块的存储地址信息。

存储器603，用于存储数据块、索引信息、以及数据块的块号和索引信息的对应关系。

基于本申请公开的存储节点，在将文件写入存储节点的过程中，如果存储节点存储有与待存储的数据块相同的其他数据块，那么不再写入该数据块，而是修改相应的索引信息中的引用次数，并建立待写入的数据块的块号与该索引信息的对应关系，能够缩短文件的写入响应时间，提高分布式存储***的写性能，而且能够避免存储节点出现重复数据块，从而减少带宽和存储空间的浪费。

可选的，在本申请上述公开的存储节点中，处理器602还用于：

在满足预设条件的情况下，确定分布式存储***的全局索引信息是否包含第一数据块的索引信息；在全局索引信息包含第一数据块的索引信息的情况下，删除存储器603存储的第一数据块，修改全局索引信息中第一数据块的索引信息中的引用次数，删除存储器603存储的第一数据块的索引信息；在全局索引信息不包含第一数据块的索引信息的情况下，在全局索引信息中添加第一数据块的索引信息。

本申请上述公开的存储节点，在写入文件的过程中进行在线重删，而不关注其他存储节点，也就无需访问全局索引信息，能够缩短文件的写入响应时间，从而提高分布式存储***的写性能，同时能够避免本存储节点出现重复数据块，而且存储节点采用在线重删的方式，能够降低对额外存储空间的需求；之后，分布式存储***中的各个存储节点进行离线重删，保证分布式存储***中相同的数据块仅保留副本数份。本申请上述公开的存储节点，采用在线重删和离线重删相结合的处理方式，在提高存储***的写性能的同时，降低了对额外存储空间的需求，减少了硬件的访问频率，提高了硬件的使用寿命。

在本申请上述公开的存储节点的基础上，通信接口601还用于接收文件读取请求。

处理器602还用于：响应文件读取请求，对待读取的文件进行分块处理，获得待读取的数据块的块号；根据待读取的数据块的块号在存储器603查找待读取的数据块的索引信息；如果在存储器603查找到待读取的数据块的索引信息，则根据查找到的索引信息中的存储地址信息读取数据块；如果未在存储器603查找到待读取的数据块的索引信息，则在全局索引信息中查找待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块；通过通信接口601向客户端反馈读取到的数据块。

本申请上述公开的存储节点，在接收文件读取请求之后，首先在本存储节点查找待读取的数据块，如果查找到待读取的数据块，那么直接反馈给客户端，如果未在本存储节点查找到待读取的数据块，那么再通过全局索引信息查找待读取的数据块的索引信息，根据查找到的索引信息中的存储地址信息读取数据块，向客户端反馈查找到的数据块。基于本申请上述公开的存储节点，可以缩短文件的读取响应时间，提高分布式存储***的读性能。

作为一种实施方式，数据块的索引信息采用键值对的数据结构。

作为一个示例，键为数据块的指纹值，值为数据块的描述信息，数据块的描述信息包括引用次数和数据块的存储地址信息。处理器602在建立数据块的块号和索引信息的对应关系的过程中，建立数据块的块号和该索引信息中的指纹值的对应关系即可。

相应的，处理器602在确定所述存储器是否存储有与待写入的第一数据块相同的数据块的方面，具体用于：处理器602获得第一数据块的指纹值；在存储器603存储有以第一数据块的指纹值作为键的键值对的情况下，确定存储器603存储有与待写入的第一数据块相同的数据块；在存储器603未存储以第一数据块的指纹值作为键的键值对的情况下，确定存储器603未存储与待写入的第一数据块相同的数据块。

相应的，处理器602在根据待读取的数据块的块号在存储器603查找待读取的数据块的索引信息的方面，具体用于：处理器602根据待读取的数据块的块号获得待读取的数据块的指纹值；利用待读取的数据块的指纹值在存储器603查找待读取的数据块的索引信息。

相应的，处理器602在全局索引信息中查找待读取的数据块的索引信息的方面，具体用于：处理器602根据待读取的数据块的块号获得待读取的数据块的指纹值；利用待读取的数据块的指纹值在全局索引信息中查找待读取的数据块的索引信息。

作为另一个示例，键为数据块的数字摘要，值为数据块的描述信息，数据块的描述信息包括引用次数和数据块的存储地址信息。处理器602在建立数据块的块号和索引信息的对应关系的过程中，建立数据块的块号和该索引信息中的数字摘要的对应关系即可。

相应的，处理器602在确定所述存储器是否存储有与待写入的第一数据块相同的数据块的方面，具体用于：处理器602获得第一数据块的数字摘要；在存储器603存储有以第一数据块的数字摘要作为键的键值对的情况下，确定存储器603存储有与待写入的第一数据块相同的数据块；在存储器603未存储以第一数据块的数字摘要作为键的键值对的情况下，确定存储器603未存储与待写入的第一数据块相同的数据块。

相应的，处理器602在根据待读取的数据块的块号在存储器603查找待读取的数据块的索引信息的方面，具体用于：处理器602根据待读取的数据块的块号获得待读取的数据块的数字摘要；利用待读取的数据块的数字摘要在存储器603查找待读取的数据块的索引信息。

相应的，处理器602在全局索引信息中查找待读取的数据块的索引信息的方面，具体用于：处理器602根据待读取的数据块的块号获得待读取的数据块的数字摘要；利用待读取的数据块的数字摘要在全局索引信息中查找待读取的数据块的索引信息。

需要说明的是，处理器602的更为详细的处理过程可以参见前文中关于数据处理方法的描述。

本申请还公开一种分布式存储***，其架构如图1所示，包括多个通过网络连接的存储节点，图1中示出了存储节点10、存储节点20和存储节点30。

存储节点用于：接收文件写入请求；响应文件写入请求，确定本存储节点是否存储有与待写入的第一数据块相同的数据块，第一数据块通过对待写入的文件进行分块处理产生；在本存储节点未存储与第一数据块相同的数据块的情况下，存储第一数据块，在本存储节点建立第一数据块的索引信息，建立第一数据块的块号和该索引信息的对应关系；在本存储节点存储有与第一数据块相同的另一数据块的情况下，修改该另一数据块的索引信息中的引用次数，建立第一数据块的块号和该另一数据块的索引信息的对应关系。

其中，数据块的索引信息包括数据块的存储地址信息。

可选的，分布式存储***保存有全局索引信息，该全局索引信息可以存储于任意一个存储节点。

存储节点还用于：在满足预设条件的情况下，确定全局索引信息是否包含第一数据块的索引信息；在全局索引信息包含第一数据块的索引信息的情况下，删除本存储节点存储的第一数据块，修改全局索引信息中第一数据块的索引信息中的引用次数，删除本存储节点存储的第一数据块的索引信息；在全局索引信息不包含第一数据块的索引信息的情况下，在全局索引信息中添加所述第一数据块的索引信息。

需要说明的是，这里仅对存储节点进行了简要的介绍，关于存储节点更为详细的处理过程可以参见前文中关于数据处理方法的描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的存储节点和分布式存储***而言，由于其与实施例公开的数据处理方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，应用于分布式存储***的第一存储节点，所述方法包括：

接收文件写入请求；

其中，数据块的索引信息包括所述数据块的存储地址信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

接收文件读取请求；

向客户端反馈读取到的数据块。

4.根据权利要求1、2或3所述的方法，其特征在于，数据块的索引信息采用键值对的数据结构，其中，键为数据块的指纹值，值为数据块的描述信息，所述数据块的描述信息包括引用次数和所述数据块的存储地址信息。

5.根据权利要求4所述的方法，其特征在于，所述确定所述第一存储节点是否存储有与待写入的第一数据块相同的数据块，包括：

获得所述第一数据块的指纹值；

6.一种存储节点，其特征在于，包括通信接口、处理器和存储器：

所述通信接口用于接收文件写入请求；

7.根据权利要求6所述的存储节点，其特征在于，所述处理器还用于：

8.根据权利要求7所述的存储节点，其特征在于，所述通信接口还用于接收文件读取请求；

9.根据权利要求6、7或8所述的存储节点，其特征在于，数据块的索引信息采用键值对的数据结构，其中，键为数据块的指纹值，值为数据块的描述信息，所述数据块的描述信息包括引用次数和所述数据块的存储地址信息。

10.根据权利要求9所述的存储节点，其特征在于，所述处理器在确定所述存储器是否存储有与待写入的第一数据块相同的数据块的方面，具体用于：

11.一种分布式存储***，其特征在于，包括多个存储节点；

12.根据权利要求11所述的分布式存储***，其特征在于，任意一个存储节点存储有全局索引信息；