CN108920600A

CN108920600A - 一种基于数据关联性的分布式文件***元数据预取方法

Info

Publication number: CN108920600A
Application number: CN201810681784.7A
Authority: CN
Inventors: 许胤龙; 陈友旭; 李�诚; 李永坤; 吕敏
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-30
Anticipated expiration: 2038-06-27
Also published as: CN108920600B

Abstract

本发明公开了一种基于数据关联性的分布式文件***元数据预取方法，特征是采取设计数据关联性的提取方式和存储结构、预取关联文件的元数据、数据关联性的动态反馈和数据关联性的动态更新步骤；与传统的分布式文件***元数据访问方式相比，本发明提出了轻量级的数据关联性的语法分析方式，对文件***元数据结构加以拓展以支撑数据关联性，通过预取方式提前将关联文件元数据缓存在客户端本地，从而减少了客户端和元数据服务器跨网络交互次数，同时结合客户端的动态反馈机制根据文件访问模式动态调整关联文件的紧密程度，并利用阈值控制进一步提高预取的精确度，减少客户端缓存空间的占用，降低关联文件元数据访问的响应延迟，提高元数据服务性能。

Description

一种基于数据关联性的分布式文件***元数据预取方法

技术领域

本发明属于计算机分布式存储***技术领域，具体涉及通过利用数据关联性加速元数据访问的预取方法。

背景技术

随着互联网的高速发展，数据量日益增多，因此海量数据存储变得至关重要。分布式文件***通过利用计算机网络互连的计算机节点这种分布式部署的物理资源并提供文件***管理，为用户提供了高速的数据存取服务并提供稳定的***扩展性。分布式文件***包含三个组成部分，分别是元数据服务器、数据服务器和客户端。元数据服务器负责管理整个文件***的元数据，包括目录项和索引节点(inode)，数据服务器负责存储文件***的数据，客户端负责发起元数据和数据请求。在这种解耦性的分布式文件***架构中，客户端想要查看文件的数据，首先需要和元数据服务器交互进行相应的元数据操作，最后与数据服务器进行数据传输，完成数据存取。美国USENIX协会2000年出版的《USENIX年度技术会议》第41到54页指出至少50％的用户请求都是针对文件元数据的访问，因此在分布式文件***中元数据的存取性能至关重要。美国USENIX协会2016年出版的《USENIX文件和存储会议》第15到22页提到的文件数据间存在引用关系，访问一个文件会引起与之数据关联的文件访问。但是现有的分布式文件***架构在设计时没有考虑到文件数据间的关联性，因此无法发现文件间的数据关联性，导致客户端和元数据服务器频繁交互，难以优化关联文件的元数据存取流程和降低关联文件元数据的访问延迟。

发明内容

本发明的目的是提出一种基于数据关联性的分布式文件***元数据预取方法，以克服现有技术的上述缺陷，在保证低开销的情况下，减少客户端与元数据服务器跨网络交互次数，缩短请求的响应时间，提高***的吞吐量。

本发明基于数据关联性的分布式文件***元数据预取方法，其特征在于包括以下步骤：

第一步：设计数据关联性的提取方式和存储结构

根据文件类型对应的语法格式，查询对应的引用或者链接语法表达式，并基于查询到的引用或者链接语法表达式设计目标正则表达式；当客户端的应用程序修改文件的数据时，利用设计的目标正则表达式对文件的数据内容进行语法分析来提取引用或者链接文件(关联文件)的文件路径名，同时记录关联文件路径名出现在数据部分的偏移量和路径名的长度；

采用键值对(key-value pairs)的数据结构存储数据关联性，其中键值对的键是关联文件索引节点的编号，用来唯一标志文件，由元数据服务器根据关联文件的路径名检索对应文件索引节点内容获得，占用8个字节；键值对的值包含三个部分，分别是范围在[0,1]的关联分值(score)、关联文件路径名的长度和关联文件路径名在数据部分的偏移量，分别占用4个字节、4个字节和8个字节；扩展分布式文件***索引节点的元数据结构，将存储数据关联性的键值对存储在文件索引节点的扩展属性中以使得分布式文件***支撑数据关联性；客户端对修改的数据内容分析完成后，发送数据关联性同步信息给元数据服务器；元数据服务器接收到同步信息后，持久化更新后的数据关联性到存储设备中；

第二步：预取关联文件的元数据

当元数据服务器处理客户端发起的目标文件元数据操作请求时，首先在元数据服务器的元数据缓存中获取目标文件的目录项和索引节点；当获取到目标文件的索引节点后，检索索引节点的每一条扩展属性，获取目标文件的数据关联性；

设定一个范围在[0,1]的阈值T表示目标文件与预取的关联文件紧密程度的最低值，当目标文件与关联文件的关联分值的值超过阈值T时才进行预取；遍历目标文件的每一条数据关联性，当键值对中的值部分的关联分值的值大于阈值T时，从中提取关联文件索引节点的编号，并根据检索到的关联文件索引节点的编号在元数据缓存中查询关联文件的目录项和索引节点内容；当关联分值的值小于或等于阈值T时，跳过本条数据关联性，进行下一条数据关联性的预取操作；

元数据服务器构建回复消息以返回目标文件和关联文件的元数据给客户端，将目标文件的目录项和索引节点内容添加到回复消息中，同时元数据服务器将第二步查询的关联文件的目录项和索引节点内容添加到回复消息中，并为回复消息设置预取标记为1，表示此次构建的回复消息包含关联文件的元数据；如果回复消息中不包含预取内容，则为回复消息设置预取标记为0；然后元数据服务器将这一条回复消息发送给客户端；

第三步：数据关联性的动态反馈

当客户端接收到元数据服务器发送的回复消息时，首先判断回复消息是否设置了预取标记；如果没有设置预取标记，则解析回复请求内容获得目标文件的目录项和索引节点，并将解析出的目标文件的目录项和索引节点缓存在客户端的内存中，同时链接目标文件的索引节点到目录项中，建立目标文件路径的逻辑结构；

如果设置了预取标记，则在解析回复请求内容获得目标文件的目录项和索引节点之后，进一步解析回复请求的后续内容获得关联文件的目录项和索引节点，同时链接关联文件的索引节点到关联文件的目录项中，建立关联文件路径的逻辑结构，并缓存在客户端的内存中；记录预取的关联文件信息，包含关联文件的索引节点编号、触发预取的目标文件索引节点编号、预取时间和访问标记，并添加到客户端的预取反馈表中；如果预取的关联文件被后续的客户端请求访问，则将预取反馈表中对应的关联文件的访问标记设置为1；如果预取的关联文件没有被后续的客户端请求访问，则将预取反馈表中对应的关联文件的访问标记设置为0；

设定一个遍历客户端预取反馈表的时间间隔(Time)，范围在[0,N]；客户端每隔Time秒逐条遍历预取反馈表中的所有记录并反馈预取的关联文件的访问信息给元数据服务器；如果当前时间的值减去正在遍历的关联文件的预取时间的值大于时间间隔Time，则构建客户端预取反馈请求，并将关联文件的索引节点编号、触发预取的目标文件的索引节点编号、访问标记添加到反馈请求中；如果当前时间减去关联文件的预取时间小于或等于时间间隔Time，则跳过本条记录，遍历预取反馈表中的下一条预取记录；当预取反馈表中所有的记录均被遍历一次后，客户端将构建的预取反馈请求发送给元数据服务器；

第四步：数据关联性的动态更新

当元数据服务器接收到客户端发送的预取反馈请求时，对请求中的预取记录逐条处理；首先根据每条预取记录的关联文件索引节点编号和触发预取的目标文件索引节点编号查询关联文件的索引节点信息和触发预取的目标文件的索引节点信息，并在触发预取的目标文件的索引节点信息中检索对应关联文件的数据关联性，获得对应关联文件的键值对；

设定一个范围在[0,1]的调整分值(s)表示每次目标文件与关联文件紧密程度的调整粒度，如果此条预取记录中的访问标记为1，将键值对的关联分值增加s；如果词条预取记录中的访问标记为0，将键值对的关联分值减少s；逐条遍历反馈请求中的预取记录，根据预取的关联文件的访问情况对触发预取的目标文件的索引节点中的数据关联性进行更新，最终持久化到元数据服务器的存储设备中。

上述本发明基于数据关联性的分布式文件***元数据预取方法，采取了设计数据关联性的提取方式和存储结构、预取关联文件的元数据、数据关联性的动态反馈和数据关联性的动态更新的操作步骤；与传统的分布式文件***元数据访问方式相比，本发明方法提出了轻量级的数据关联性的语法分析方式，对文件***元数据结构加以拓展以支撑数据关联性，通过预取方式提前将关联文件元数据缓存在客户端本地，从而减少了客户端和元数据服务器跨网络交互次数，同时结合客户端的动态反馈机制根据文件访问模式动态调整关联文件的紧密程度，并利用阈值控制进一步提高预取的精确度，减少客户端缓存空间的占用，降低关联文件元数据访问的响应延迟，提高元数据服务性能。

本发明基于数据关联性的分布式文件***元数据预取方法与现有技术相比，具有以下优点：

1、由于本发明考虑文件数据间的关联性，设计了文件数据关联方式的提取方式，并且拓展了分布式文件***元数据的存储结构以支撑数据关联性，与现有技术相比，克服了现有技术无法支持数据关联性的缺点，丰富了文件***元数据结构。

2、由于本发明设计了基于数据关联性的元数据预取方法，并利用阈值控制和动态反馈机制进一步提高预取的精确度，与现有技术相比，减少了客户端缓存空间的占用，减少了客户端与元数据服务器跨网络交互的请求个数，缩短了关联文件元数据访问的响应延迟。

附图说明

图1为分布式文件***架构示意图。

图2表示index.html文件数据关联性提取信息示意图。

图3为各种语法类型对应的引用或者链接格式示意图。

图4表示数据关联性存储结构示意图。

图5为元数据服务器进行元数据预取操作的流程示意图。

图6表示预取反馈表结构示意图。

图7为动态反馈机制的操作流程示意图。

图8为按照本发明方法进行关联文件元数据预取方式的总体操作流程示意图。

具体实施方式

下面结合附图通过具体实施例对本发明基于数据关联性的分布式文件***元数据预取方法作进一步的详细说明。

实施例1：

本实施例基于数据关联性的分布式文件***元数据预取方法，具体包括以下步骤：

第一步：设计数据关联性的提取方式和存储结构

图1给出了分布式文件***架构示意图，包含三个组成部分，分别是分布式文件***客户端、元数据服务器和数据服务器，三者通过网络进行交互。其中分布式文件***客户端的应用程序通过虚拟文件***与分布式文件***客户端交互，负责发起元数据和数据请求，同时客户端缓存缓存元数据和数据从而加速请求的响应；元数据服务器包含元数据请求处理程序元数据缓存和元数据存储三个部分；数据服务器负责提供数据存取。如果应用程序需要读取文件内容，首先分布式文件***客户端与元数据服务器交互获得文件的元数据，并缓存在客户端缓存中；根据元数据中信息获得数据地址，客户端再和数据服务器交互完成文件数据的读取。为保证元数据与数据的一致性，元数据服务器与数据服务器交互更新文件元数据。

图2给出了index.html文件的部分数据，其中index.html文件的数据中引用了路径为“/sponsors.png”的图片。当客户端的应用程序更新了index.html文件的数据内容时，客户端对数据内容进行语法分析以提取数据关联性。图3给出了多种语法类型的引用或者链接格式，例如html语法、c++语法等。根据图3给出的html语法的引用或者链接格式设计目标正则表达式src＝“[^]*”，利用目标表达式对图2中的index.html文件的数据内容进行目标正则表达式的匹配，可得到index.html文件的关联文件的路径名为“/sponsors.png”，其中关联文件的路径长度为13，在index.html文件数据部分中出现的偏移量为108，同时为这条关联性设置初始的关联分值为0.5。

图4给出了数据关联性的存储结构。将从index.html文件数据中提取出的关于“/sponsors.png”文件的数据关联性按键值对的方式存储在index.html文件索引节点的扩展属性中，具体键值对的内容为<10101586,(0.5,13,108)>，其中10101586是关联文件“/sponsors.png”的索引节点编号，客户端对index.html文件中修改的数据内容分析完成后，发送数据关联性同步信息给元数据服务器；元数据服务器接收到同步信息后，持久化更新后的数据关联性到存储设备中；

第二步：预取关联文件的元数据

当客户端的应用程序加载index.html文件时需要访问index.html文件的元数据，同时引用的文件也需要被加载到客户端本地。本地的缓存并没有index.html文件的元数据，则构建查询index.html文件元数据的元数据请求发送给元数据服务器。图5给出了元数据服务器处理元数据请求并预取关联文件元数据的操作流程。首先元数据服务器执行图5中的操作①，接收到客户端发来的元数据请求。然后元数据服务器在元数据缓存中查找目标文件index.html的目录项和索引节点，并添加到回复消息中，即操作②，其中index.html的索引节点编号为10101567。当查询到目标文件index.html的索引节点后，遍历目标文件index.html索引节点的扩展属性以判断是否存在数据关联性。如果目标文件index.html不存在关联文件，则进行操作⑤，将回复消息的预取标记设置为0并发送回复消息给客户端，即操作⑦。如果目标文件存在关联文件，本实施例中关联文件为“/sponsors.png”文件，则进行操作③，逐条遍历数据关联性并判断关联性的关联分值是否大于阈值T。如果关联分值大于阈值T，则进行操作④，根据数据关联性中存储的关联文件索引节点编号在元数据缓存中查找关联文件/sponsors.png的目录项和索引节点，并添加到回复消息中，其中/sponsors.png文件的索引节点编号为10101586。待所有数据关联性遍历完成后，进行操作⑥，为回复消息设置预取标记为1，最终发送回复消息给客户端，即操作⑦。

第三步：数据关联性的动态反馈

当客户端接收到元数据服务器发送的回复消息后，首先判断接收到的回复消息是否设置了预取标记。如果预取标记为0，则表示回复消息中不包含预取文件的元数据，则解析目标文件的目录项和inode并缓存在客户端的缓存中，同时建立目录项和inode的逻辑结构。如果预取标记为1，则解析预取的关联文件的目录项和inode，并缓存在客户端的缓存中，同时建立目录项和inode的逻辑结构。本实施例中，回复消息包含目标文件index.html和关联文件/sponsors.png的目录项和inode，缓存两者的目录项和inode到客户端的缓存中并且建立目录项和inode的逻辑结构。由于文件数据间的关联性，访问index.html文件通常会引起关联文件/sponsors.png的访问，客户端后续对/sponsors.png文件元数据的访问在客户端缓存中就可以完成，无需和元数据服务器交互，从而减少跨网络与元数据服务器交互的次数。

图6表示预取反馈表结构示意图。为了提高预取的准确率，客户端维护预取反馈表，如图6所示的组织结构。当客户端解析关联文件的目录项和索引节点后，添加一条预取记录到预取反馈表中。预取记录包含关联文件的索引节点编号、触发预取的目标文件的索引节点编号、预取时间和访问标记信息。本实施例中，关于预取的关联文件/sponsors.png的预取记录为<10101586,10101567,t₁,0>，其中t₁是关联文件/sponsors.png元数据预取的时间，用回复消息达到客户端的时间来表示。由于客户端后续的元数据操作访问了关联文件/sponsors.png的元数据，则将预取反馈表中关联文件/sponsors.png的预取记录中的访问标记更新为1，关联文件/sponsors.png的预取记录为<10101586,10101567,t₁,1>。

图7给出了动态反馈机制的操作流程示意图，其中图7左侧为客户端的操作流程，右侧为元数据服务器的操作流程。客户端每隔Time秒遍历一次预取反馈表，首先进行图7中的操作在预取反馈表中获取一条预取记录。如果当前时间减去预取记录中的预取时间的值大于Time，则进行操作添加这条预取记录到客户端的反馈信息中；如果当前时间减去预取记录中的预取时间的值不大于Time，则获取下一条预取记录进行判断。当遍历一遍预取反馈表后，进行操作发送反馈信息给元数据服务器。本实施例中反馈信息的内容为<10101586,10101567,t₁,1>。

第四步：数据关联性的动态更新

元数据服务器执行图7所示的操作接收客户端发送的预取反馈信息。元数据服务器依次遍历反馈信息中的每一条预取记录的访问信息，即操作如果记录中的访问标记为1，则表示预取的关联文件被后续的客户端操作访问过，则进行操作在触发预取的目标文件索引节点的数据关联性中将对应关联性的关联分值增加s；如果记录中的访问标记不为1，则表示预取的关联文件没有被后续的客户端操作访问过，则进行操作在触发预取的目标文件索引节点的数据关联性中将对应关联性的关联分值减去s。当反馈信息中的预取记录遍历完毕后，执行操作将更新后的元数据持久化到元数据服务器的存储设备中。根据预取文件的访问信息动态调整关联性的紧密程度使得关联紧密的文件元数据被预取的概率变得更高，关联不紧密的文件元数据被预取的概率变得更低，从而进一步提高元数据预取的精确度。本实施例中，预取的“/sponsors.png”文件元数据被客户端访问，则在编号为10101567的索引节点的数据关联性中将键为10101586的键值对中的关联分值增加s。

图8为按照本发明方法进行关联文件元数据预取方式的总体操作流程示意图，通过利用文件数据间的引用或者链接关系优化关联文件元数据的访问流程。客户端负责操作和发起元数据请求、操作缓存关联文件元数据、操作和动态反馈预取访问信息给元数据服务器；元数据服务器负责操作接收客户端请求、操作查找目标文件元数据、操作预取关联文件与数据并回复元数据请求和操作根据预取反馈信息实时更新数据关联性完成关联文件的预取和更新。

本发明方法通过语法分析获取数据关联性并集成到分布式文件***的元数据中使得分布式文件***可以支撑数据关联性的存储；并且在进行关联文件元数据预取时通过阈值控制以提高预取文件的准确度，并减少客户端缓存空间的占用。根据预取文件的访问信息设计客户端动态反馈机制以实时更新关联性的关联分值进一步提高预取的准确度。与传统的分布式文件***相比，通过预取关联文件的元数据可以优化后续关联文件的元数据访问流程，减少客户端与元数据服务器跨网络的交互次数，同时缩短关联文件元数据访问的延迟。以本实施例中的index.html文件和/sponsors.png文件为例，现有的分布式文件***无法感知文件间的数据关联性，则当访问index.html文件元数据后，客户端仍需要与元数据服务器交互以获取关联文件/sponsors.png的元数据，整个存取流程中，客户端与元数据服务器交互两次；通过本发明方法，分布式文件***事先感知数据关联性，在访问index.html文件元数据时，利用基于数据关联性的预取方法来预取关联文件/sponsors.png的元数据并缓存在客户端本地，使得后续针对关联文件/sponsor.png文件元数据的访问操作在客户端本地即可完成，从而减少了50％的客户端与元数据服务器跨网络的元数据请求个数，并缩短关联文件的元数据操作延迟。

Claims

1.一种基于数据关联性的分布式文件***元数据预取方法，其特征在于包括以下步骤：

第一步：设计数据关联性的提取方式和存储结构

根据文件类型对应的语法格式，查询对应的引用或者链接语法表达式，并基于查询到的引用或者链接语法表达式设计目标正则表达式；当客户端的应用程序修改文件的数据时，利用设计的目标正则表达式对文件的数据内容进行语法分析来提取引用或者链接关联文件的文件路径名，同时记录关联文件路径名出现在数据部分的偏移量和路径名的长度；

采用键值对的数据结构存储数据关联性，其中键值对的键是关联文件索引节点的编号，用来唯一标志文件，由元数据服务器根据关联文件的路径名检索对应文件索引节点内容获得，占用8个字节；键值对的值包含三个部分，分别是范围在[0,1]的关联分值、关联文件路径名的长度和关联文件路径名在数据部分的偏移量，分别占用4个字节、4个字节和8个字节；扩展分布式文件***索引节点的元数据结构，将存储数据关联性的键值对存储在文件索引节点的扩展属性中以使得分布式文件***支撑数据关联性；客户端对修改的数据内容分析完成后，发送数据关联性同步信息给元数据服务器；元数据服务器接收到同步信息后，持久化更新后的数据关联性到存储设备中；

第二步：预取关联文件的元数据

第三步：数据关联性的动态反馈

设定一个遍历客户端预取反馈表的时间间隔Time，范围在[0,N]；客户端每隔Time秒逐条遍历预取反馈表中的所有记录并反馈预取的关联文件的访问信息给元数据服务器；如果当前时间的值减去正在遍历的关联文件的预取时间的值大于时间间隔Time，则构建客户端预取反馈请求，并将关联文件的索引节点编号、触发预取的目标文件的索引节点编号、访问标记添加到反馈请求中；如果当前时间减去关联文件的预取时间小于或等于时间间隔Time，则跳过本条记录，遍历预取反馈表中的下一条预取记录；当预取反馈表中所有的记录均被遍历一次后，客户端将构建的预取反馈请求发送给元数据服务器；

第四步：数据关联性的动态更新

设定一个范围在[0,1]的调整分值s表示每次目标文件与关联文件紧密程度的调整粒度，如果此条预取记录中的访问标记为1，将键值对的关联分值增加s；如果词条预取记录中的访问标记为0，将键值对的关联分值减少s；逐条遍历反馈请求中的预取记录，根据预取的关联文件的访问情况对触发预取的目标文件的索引节点中的数据关联性进行更新，最终持久化到元数据服务器的存储设备中。