CN104850548B

CN104850548B - 一种实现大数据平台输入/输出处理的方法及***

Info

Publication number: CN104850548B
Application number: CN201410050179.1A
Authority: CN
Inventors: 鲁瑞; 侯建卫; 王晓颖; 李栓林; 付长冬
Original assignee: China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Group Shanxi Co Ltd
Priority date: 2014-02-13
Filing date: 2014-02-13
Publication date: 2018-05-22
Anticipated expiration: 2034-02-13
Also published as: CN104850548A

Abstract

本发明实施例公开了一种实现大数据平台I/O处理的方法，Primary server将由client推送的数据写入自身高速缓存后，向master发送已写入Primary server高速缓存的信号；Primary server向client反馈写操作完成信号；Primary server将由client推送的数据发送到各个Secondary server后，各个Secondary server异步将所述数据写入自身的高速缓存中；Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号。本发明实施例还同时公开了一种实现大数据平台I/O处理的***。

Description

一种实现大数据平台输入/输出处理的方法及***

技术领域

本发明涉及云存储技术，尤其涉及一种实现大数据平台输入/输出（Input/Output，I/O）处理的方法及***。

背景技术

随着互联网中业务的飞速发展，在短时间内出现了大量格式多样的数据。据预测，2020年数据量将达到35ZB。然而，大数据时代的核心挑战是：数量大、种类繁、速度快，因此，各种各样的大数据平台应运而生。

目前，人们主要采用遵循Google文件***（Google File System，GFS）的Hadoop分布式文件***（Hadoop Distributed File System，HDFS）、MapReduce并行环境、以及Hbase或Hive数据库数据仓库等，对各种大数据业务进行处理或应用。

在实际***中，GFS、HDFS、并行网络文件***（Parallel Network File System，pNFS）等分布式文件***的主要原理结构，以GFS为例，如图1所示。其中，GFS的每个应用均包含一个主存储服务器（master）和多个块存储服务器（chunk server）；多个客户均可通过GFS客户端（client）与master、各个chunk server进行交互，从而实现对GFS中云存储数据的访问。

在具体实现中，GFS将元数据（metadata）存储在master中，而需要存储的具体数据存储在各个chunk server中；元数据服务主要是client和master进行chunk server位置、块数据位置等信息操作；而具体数据的读写过程操作直接与每个chunk server完成。其中，GFS、HDFS等分布式文件***中，主要的读数据操作过程包括：

（1）利用固定的块（chunk）尺寸，client把文件名（file name）和程序指定的字节偏移转换成文件的块索引（chunk index）；

（2）client向master发送一个包含file name和chunk index的请求；

（3）master返回给client应答，包括块句柄（chunk handle）和chunk server的位置；这里，chunk server的位置包括多个chunk server；

（4）client用file name和chunk index为键值缓存chunk handle和chunk server的位置信息；

（5）client发送请求到其中的一个chunk server处，一般会选择最近的。这个请求指定了块的块句柄和字节范围；这里，chunk server以chunk handle标识chunk；

（6）chunk server将指定数据发送给client。

这里，主要的写数据操作过程包括：

（1）client向master请求当前chunk server的基本服务器（Primary server）的令牌位置和其他从属服务器（Secondary server）的位置；

（2）master反馈应答，该应答中包括当前chunk server的Primary server的令牌位置和其他Secondary server的位置消息；

这里，client会缓存这些数据，从而避免频繁访问master。

（3）client将数据推送给chunk server；

这里，chunk server包括Primary server和Secondary server。

（4）当所有的chunk server收到对应数据后，client发起一个写请求给Primaryserver；

（5）Primary server按照序列号顺序（serial number order）变动他自身本地的状态；

（6）Primary server将写请求发布到所有的Secondary server；每一个Secondaryserver都依照相同的serial number order进行变动；

（7）Secondary server均反馈Primary server应答，表示已完成写操作；

（8）Primary server给client已完成的应答。

现有技术中，基于Hadoop架构的HDFS+MapReduce+Hive+Hbase大数据平台具有高可扩展性、高可靠性以及高容错性。但是，在实际的大数据业务处理过程中，如无线应用协议（Wireless Application Protocol，WAP）上网日志（Web log，Blog）、大用户邮件***、Blog日志分析、用户信息跟踪与分析等应用中，目前的大数据平台在数据I/O处理方法上存在缺陷，尤其是对于非结构化的、半结构的、大数据量的业务，I/O处理速度存在较为严重的问题。

其主要问题包括：

（1）在大数据量的情况，尤其在连续写的情况下，I/O性能比较慢，而且I/O速度加速比和服务器节点数不成线性关系；

（2）在LOG、BLOG、视频、社会关系信息等非结构、半结构数据的处理上，没有按照大数据存储类型与特点进行优化，处理速度偏慢；

（3）采用多chunk server同步写的技术，导致在网络和存储设备情况不明等状态下同步时间较长，使得在数据一致性的处理上花销时间较长；

（4）没有考虑chunk server存储设备的读写速度以及实际设备状况，部分Secondary server的读写性能严重影响整个***的I/O性能。

因此，在大数据平台中，I/O处理性能以及一致性管理策略是目前最为核心的问题，也是影响大数据平台的整体I/O***性能的关键要素。

发明内容

有鉴于此，本发明实施例期望提供一种实现大数据平台I/O处理的方法及***，能够有效提高大数据平台I/O性能，同时解决数据一致性问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种实现大数据平台输入/输出I/O处理的方法，该方法包括：

基本服务器Primary server将由客户端client推送的数据写入自身高速缓存后，向主存储服务器master发送已写入Primary server高速缓存的信号；

Primary server向client反馈写操作完成信号；

Primary server将由client推送的数据发送到各个从属服务器Secondaryserver后，各个Secondary server异步将所述数据写入自身的高速缓存中；

Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号。

上述方案中，所述各个Secondary server异步将所述数据写入自身的高速缓存中包括：

Secondary server异步等待并接收Primary server的写操作命令和具体数据后，将所述具体数据写入自身的高速缓存；之后，向Primary server反馈写缓存完成信号。

上述方案中，所述方法还包括：

Primary server向master发送已写入Secondary server高速缓存的信号之后，直接将需要存储的数据块写到自身的存储器中；之后，向master发送已写入Primary server的信号；

Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测；

当所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；之后，向master发送已写入Secondary server的信号。

上述方案中，所述Secondary server的写操作包括：

Secondary server在发送写缓存完成信号后，异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中；接收到所述检测信号后，经判断确定当前的写操作完成后，向Primary server反馈写操作完成信号并释放自身的高速缓存空间。

上述方案中，所述方法还包括：当反馈信号存在写操作失败信号时，Primaryserver确定对应的反馈写操作失败信号的Secondary server，并将自身的高速缓存的数据块传输给对应的Secondary server；之后，Primary server继续异步等待所有Secondaryserver在写操作完成后的反馈信号并对所述反馈信号进行检测。

本发明实施例还提供了一种实现大数据平台I/O处理的***，该***包括：Primary server、Secondary server、client、以及master；其中，

Primary server，用于将由client推送的数据写入自身高速缓存后，向主master发送已写入Primary server高速缓存的信号；向client反馈写操作完成信号；将由client推送的数据发送到各个Secondary server；异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号；

Secondary server，用于异步接收Primary server发送的所述数据并写入自身的高速缓存中；

client，用于向Primary server推送数据；接收Primary server发送的写操作完成信号；

master，用于接收Primary server发送的已写入Primary server高速缓存的信号；接收Primary server发送的已写入Secondary server高速缓存的信号。

上述方案中，所述Secondary server用于异步接收Primary server发送的所述数据并写入自身的高速缓存包括：Secondary server异步等待并接收Primary server的写操作命令和具体数据后，将所述具体数据写入自身的高速缓存；向Primary server反馈写缓存完成信号。

上述方案中，所述Primary server还用于，在向master发送已写入Secondaryserver高速缓存的信号之后，直接将需要存储的数据块写到自身的存储器中；向master发送已写入Primary server的信号；异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测；当检测确定所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；向master发送已写入Secondary server的信号；

master，还用于接收Primary server发送的已写入Primary server的信号；接收Primary server发送的已写入Secondary server的信号。

上述方案中，所述Secondary server在写操作中，Secondary server还用于，在发送写缓存完成信号后，异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中；接收到所述检测信号后，经判断确定当前的写操作完成后，向Primary server反馈写操作完成信号并释放自身的高速缓存空间。

上述方案中，所述Primary server还用于，当Secondary server的反馈信号存在写操作失败信号时，确定对应的反馈写操作失败信号的Secondary server，并将自身的高速缓存的数据块传输给对应的Secondary server；Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。

本发明实施例所提供的实现大数据平台I/O处理的方法及***，Primary server将由client推送的数据写入自身高速缓存后，向master发送已写入Primary server高速缓存的信号；Primary server向client反馈写操作完成信号；Primary server将由client推送的数据发送到各个Secondary server后，各个Secondary server异步将所述数据写入自身的高速缓存中；Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号。如此，能够有效提高大数据平台I/O性能；进一步地，Primary server向master发送已写入Secondary server高速缓存的信号后，直接将需要存储的数据块写到自身的存储器中；之后，向master发送已写入Primary server的信号；Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测；当所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；然后，向master发送已写入Secondary server的信号，从而有效解决了数据一致性问题，使得大数据平台的整体I/O性能得到提高。

附图说明

图1为GFS的主要原理结构示意图；

图2为本发明实施例实现大数据平台I/O处理的方法实现流程示意图；

图3为本发明实施例实现大数据平台I/O处理的方法具体实现流程示意图；

图4为本发明实施例实现大数据平台I/O处理的***组成结构示意图。

具体实施方式

目前，影响GFS、HDFS等分布式文件***I/O存取性能的核心问题在于对数据进行的写操作上；也就是说，为了保持Primary server和Secondary server的数据一致性，一方面所有Secondary server直接写入存储器，另一方面所有Secondary server完成所有的存储器I/O后，Primary server接到所有Secondary server的应答后才处理后续工作。这样，一个写操作，需要所有Secondary server完成各自的I/O处理，使得整个***I/O处理时间较长，特别在部分Secondary server繁忙、或者部分Secondary server网络传输严重受影响的情况下，会导致I/O写操作时间无法预测，进而影响整个***的I/O性能。

在本发明实施例中，Primary server将由client推送的数据写入自身高速缓存后，向master发送已写入Primary server高速缓存的信号；Primary server向client反馈写操作完成信号；Primary server将由client推送的数据发送到各个Secondary server后，各个Secondary server异步将所述数据写入自身的高速缓存中；Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号。

这里，在大数据平台中，分布式***环境下基于高速缓存实现写缓冲而不直接将数据写入存储器的算法，也称作缓冲写（Cache-Write）算法，可以有效提高***的整体I/O性能。然而，该算法最大的问题是数据一致性问题。

因此，进一步地，在Cache-Write算法的基础上，增加提供数据一致性的方法和机制，该机制也称作直接读写（Direct-IO）机制，具体地，

Primary server向master发送已写入Secondary server高速缓存的信号之后，直接将需要存储的数据块写到自身的存储器中；之后，向master发送已写入Primary server的信号；Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测；当所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；之后，向master发送已写入Secondary server的信号。

如此，基于Cache-Write算法和Direct-IO机制的大数据平台I/O处理方法不仅具有比HDFS等分布式文件较高的I/O性能，而且还具有严格的数据一致性。

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图2为本发明实施例实现大数据平台I/O处理的方法实现流程示意图，如图2所示，本发明实施例实现大数据平台I/O处理的方法包括：

步骤S100：Primary server将由client推送的数据写入自身高速缓存后，向master发送已写入Primary server高速缓存的信号；

步骤S101：Primary server向client反馈写操作完成信号；

步骤S102：Primary server将由client推送的数据发送到各个Secondary server后，各个Secondary server异步将所述数据写入自身的高速缓存中；

步骤S103：Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号。

图3为本发明实施例实现大数据平台I/O处理的方法具体实现流程示意图，如图3所示，本发明实施例实现大数据平台I/O处理的方法具体包括：

步骤S200：Primary server将由client推送的数据写入自身高速缓存后，向master发送已写入Primary server高速缓存的信号；

这里，在所述Primary server将由client推送的数据写入自身高速缓存的过程中，如果写入数据过大，自身的高速缓存没有足够的空间，则异步进行I/O存储的操作。

步骤S201：Primary server向client反馈写操作完成信号；

步骤S202：Primary server将由client推送的数据发送到各个Secondary server后，各个Secondary server异步将所述数据写入自身的高速缓存中；

这里，所述各个Secondary server异步将所述数据写入自身的高速缓存中具体包括：

这里，在所述Secondary server将所述具体数据写入自身的高速缓存的过程中，如果写入数据过大，自身的高速缓存没有足够的空间，则异步进行I/O存储的操作。

步骤S203：Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号。

步骤S204：Primary server向master发送已写入Secondary server高速缓存的信号后，直接将需要存储的数据块写到自身的存储器中；之后，向master发送已写入Primaryserver的信号；

步骤S205：Primary server异步等待所有Secondary server在写操作完成后，发送的反馈信号并对所述反馈信号进行检测；

步骤S206：当所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；之后，向master发送已写入Secondary server的信号。

这里，当反馈信号存在写操作失败信号时，Primary server确定对应的反馈写操作失败信号的Secondary server，并将自身的高速缓存的数据块传输给对应的Secondaryserver；之后，Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。

这里，所述Secondary server的写操作包括：

其中，当经判断确定当前的写操作未完成时，Secondary server继续等待直到写操作完成后，向Primary server反馈写操作完成信号并释放自身的高速缓存空间。

图4为本发明实施例实现大数据平台I/O处理的***组成结构示意图，如图4所示，本发明实施例实现大数据平台I/O处理的***包括：Primary server10、Secondaryserver11、client12、以及master13；其中，

Primary server10，用于将由client12推送的数据写入自身高速缓存后，向主master13发送已写入Primary server10高速缓存的信号；向client12反馈写操作完成信号；将由client12推送的数据发送到各个Secondary server11；异步等待并接收所有Secondary server11反馈的写缓存完成信号后，向master13发送已写入Secondary server高速缓存的信号；

Secondary server11，用于异步接收Primary server10发送的所述数据并写入自身的高速缓存；

具体地，Secondary server11异步等待并接收Primary server10的写操作命令和具体数据后，将所述具体数据写入自身的高速缓存；向Primary server10反馈写缓存完成信号。

client12，用于向Primary server10推送数据；接收Primary server10发送的写操作完成信号；

master13，用于接收Primary server10发送的已写入Primary server10高速缓存的信号；接收Primary server10发送的已写入Secondary server11高速缓存的信号。

进一步地，在Cache-Write算法中增加提高数据一致性的Direct-IO机制后，

Primary server10还用于，在向master13发送已写入Secondary server11高速缓存的信号之后，直接将需要存储的数据块写到自身的存储器中；向master13发送已写入Primary server10的信号；异步等待所有Secondary server12在写操作完成后发送的反馈信号并对所述反馈信号进行检测；当检测确定所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；向master13发送已写入Secondary server11的信号；

master13，还用于接收Primary server10发送的已写入Primary server10的信号；接收Primary server10发送的已写入Secondary server11的信号。

这里，所述Secondary server11在写操作中，具体地：

Secondary server11还用于，在发送写缓存完成信号后，异步等待Primaryserver10发送的检测信号并直接将需要存储的数据写到自身的存储器中；接收到所述检测信号后，经判断确定当前的写操作完成后，向Primary server10反馈写操作完成信号并释放自身的高速缓存空间。

这里，当Secondary server11的反馈信号存在写操作失败信号时，Primaryserver10还用于，确定对应的反馈写操作失败信号的Secondary server11，并将自身的高速缓存的数据块传输给对应的Secondary server11；Primary server10继续异步等待所有Secondary server11在写操作完成后的反馈信号并对所述反馈信号进行检测。

综上所述，基于本发明实施例的cache-Write算法和Direct-IO机制，大数据平台的分布式文件***HDFS和client的写操作具体简化如下：

第一步：client向master请求当前chunk server的Primary server的令牌位置以及其他所有Secondary server的位置；

第二步：master向client反馈应答，具体包括Primary server的令牌位置以及其他所有Secondary server的位置信息。

第三步：client将数据和相关Secondary server的位置信息推送给Primaryserver。

第四步：Primary直接调用Cache-Write算法进行写操作；

第五步：Primary在处理完成本地数据缓存以及Secondary server的位置信息的存储后直接反馈写操作完成信号给client。

第六步：Primary server和Secondary server后台异步处理数据写磁盘（即写到自身的存储器）和数据一致性相关操作。

第七步：Primary server和master后台异步处理各种元数据信息，直到所有写操作完成，结束流程。

比较基于cache-Write算法和Direct-IO机制的新分布式写操作和之前的HDFS分布式文件***写操作，可以得出：

（1）client只将数据写到Primary server，减少了多个Secondary server的传输；（2）在写入Primary server的高速缓存后，client就可以认为写操作完成，从而可以进行其他client的操作，减少了中间的复杂的写Secondary server-Secondary server确认过程；（3）而在客户读的过程，由于Primary server和master之间对数据的存储位置和情况非常清楚，master能够给出最合适的存储位置和块句柄，因此异步写操作不影响读操作的进行；（4）新的分布式文件***写操作具有较高的I/O性能。

从理论上讲，本发明实施例基于cache-Write算法和Direct-IO机制的大数据平台I/O处理方法和HDFS/GFS之前的方法相比，写操作过程将减少3*N次写操作；读操作性能和之前的读方法相比，读操作可以减少N*1次。因此，有效的提高了整个***I/O性能。

为了验证本发明实施例的具体改进效果，可采用hadoop平台的HDFS、Mapdreduce并行环境以及Hive、Hbase等数据库等，具体测试WAP日志***、客户关系管理（CustomerRelationship Management，CRM）报文数据***的I/O性能情况，经过测试发现，在非结构化、读写频繁的情况下该方法比之前的***性能提高约113%左右，而在大容量的CRM报文数据***下，其属于连续写、连续读的情况，其性能提高约81%。由此可见，越是频繁读写操作的业务其性能改进越大，显然，本发明实施例能有效提高大数据平台I/O性能。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种实现大数据平台输入/输出I/O处理的方法，其特征在于，所述方法包括：

Primary server向client反馈写操作完成信号；

Primary server将由client推送的数据发送到各个从属服务器Secondary server后，各个Secondary server异步将所述数据写入自身的高速缓存中；

Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后，向master发送已写入Secondary server高速缓存的信号；

2.根据权利要求1所述的方法，其特征在于，所述各个Secondary server异步将所述数据写入自身的高速缓存中包括：

3.根据权利要求1所述的方法，其特征在于，所述Secondary server的写操作包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：当反馈信号存在写操作失败信号时，Primary server确定对应的反馈写操作失败信号的Secondary server，并将自身的高速缓存的数据块传输给对应的Secondary server；之后，Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。

5.一种实现大数据平台I/O处理的***，其特征在于，所述***包括：Primary server、Secondary server、client、以及master；其中，

master，用于接收Primary server发送的已写入Primary server高速缓存的信号；接收Primary server发送的已写入Secondary server高速缓存的信号；

其中，所述Primary server还用于，在向master发送已写入Secondary server高速缓存的信号之后，直接将需要存储的数据块写到自身的存储器中；向master发送已写入Primary server的信号；异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测；当检测确定所述反馈信号均为写操作完成信号时，释放自身的高速缓存空间；向master发送已写入Secondary server的信号；

所述master，还用于接收Primary server发送的已写入Primary server的信号；接收Primary server发送的已写入Secondary server的信号。

6.根据权利要求5所述的***，其特征在于，所述Secondary server用于异步接收Primary server发送的所述数据并写入自身的高速缓存包括：Secondary server异步等待并接收Primary server的写操作命令和具体数据后，将所述具体数据写入自身的高速缓存；向Primary server反馈写缓存完成信号。

7.根据权利要求5所述的***，其特征在于，所述Secondary server在写操作中，Secondary server还用于，在发送写缓存完成信号后，异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中；接收到所述检测信号后，经判断确定当前的写操作完成后，向Primary server反馈写操作完成信号并释放自身的高速缓存空间。

8.根据权利要求5所述的***，其特征在于，所述Primary server还用于，当Secondaryserver的反馈信号存在写操作失败信号时，确定对应的反馈写操作失败信号的Secondaryserver，并将自身的高速缓存的数据块传输给对应的Secondary server；Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。