CN104850548B - 一种实现大数据平台输入/输出处理的方法及*** - Google Patents

一种实现大数据平台输入/输出处理的方法及*** Download PDF

Info

Publication number
CN104850548B
CN104850548B CN201410050179.1A CN201410050179A CN104850548B CN 104850548 B CN104850548 B CN 104850548B CN 201410050179 A CN201410050179 A CN 201410050179A CN 104850548 B CN104850548 B CN 104850548B
Authority
CN
China
Prior art keywords
server
signal
write
primary server
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410050179.1A
Other languages
English (en)
Other versions
CN104850548A (zh
Inventor
鲁瑞
侯建卫
王晓颖
李栓林
付长冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shanxi Co Ltd filed Critical China Mobile Group Shanxi Co Ltd
Priority to CN201410050179.1A priority Critical patent/CN104850548B/zh
Publication of CN104850548A publication Critical patent/CN104850548A/zh
Application granted granted Critical
Publication of CN104850548B publication Critical patent/CN104850548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明实施例公开了一种实现大数据平台I/O处理的方法,Primary server将由client推送的数据写入自身高速缓存后,向master发送已写入Primary server高速缓存的信号;Primary server向client反馈写操作完成信号;Primary server将由client推送的数据发送到各个Secondary server后,各个Secondary server异步将所述数据写入自身的高速缓存中;Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号。本发明实施例还同时公开了一种实现大数据平台I/O处理的***。

Description

一种实现大数据平台输入/输出处理的方法及***
技术领域
本发明涉及云存储技术,尤其涉及一种实现大数据平台输入/输出(Input/Output,I/O)处理的方法及***。
背景技术
随着互联网中业务的飞速发展,在短时间内出现了大量格式多样的数据。据预测,2020年数据量将达到35ZB。然而,大数据时代的核心挑战是:数量大、种类繁、速度快,因此,各种各样的大数据平台应运而生。
目前,人们主要采用遵循Google文件***(Google File System,GFS)的Hadoop分布式文件***(Hadoop Distributed File System,HDFS)、MapReduce并行环境、以及Hbase或Hive数据库数据仓库等,对各种大数据业务进行处理或应用。
在实际***中,GFS、HDFS、并行网络文件***(Parallel Network File System,pNFS)等分布式文件***的主要原理结构,以GFS为例,如图1所示。其中,GFS的每个应用均包含一个主存储服务器(master)和多个块存储服务器(chunk server);多个客户均可通过GFS客户端(client)与master、各个chunk server进行交互,从而实现对GFS中云存储数据的访问。
在具体实现中,GFS将元数据(metadata)存储在master中,而需要存储的具体数据存储在各个chunk server中;元数据服务主要是client和master进行chunk server位置、块数据位置等信息操作;而具体数据的读写过程操作直接与每个chunk server完成。其中,GFS、HDFS等分布式文件***中,主要的读数据操作过程包括:
(1)利用固定的块(chunk)尺寸,client把文件名(file name)和程序指定的字节偏移转换成文件的块索引(chunk index);
(2)client向master发送一个包含file name和chunk index的请求;
(3)master返回给client应答,包括块句柄(chunk handle)和chunk server的位置;这里,chunk server的位置包括多个chunk server;
(4)client用file name和chunk index为键值缓存chunk handle和chunk server的位置信息;
(5)client发送请求到其中的一个chunk server处,一般会选择最近的。这个请求指定了块的块句柄和字节范围;这里,chunk server以chunk handle标识chunk;
(6)chunk server将指定数据发送给client。
这里,主要的写数据操作过程包括:
(1)client向master请求当前chunk server的基本服务器(Primary server)的令牌位置和其他从属服务器(Secondary server)的位置;
(2)master反馈应答,该应答中包括当前chunk server的Primary server的令牌位置和其他Secondary server的位置消息;
这里,client会缓存这些数据,从而避免频繁访问master。
(3)client将数据推送给chunk server;
这里,chunk server包括Primary server和Secondary server。
(4)当所有的chunk server收到对应数据后,client发起一个写请求给Primaryserver;
(5)Primary server按照序列号顺序(serial number order)变动他自身本地的状态;
(6)Primary server将写请求发布到所有的Secondary server;每一个Secondaryserver都依照相同的serial number order进行变动;
(7)Secondary server均反馈Primary server应答,表示已完成写操作;
(8)Primary server给client已完成的应答。
现有技术中,基于Hadoop架构的HDFS+MapReduce+Hive+Hbase大数据平台具有高可扩展性、高可靠性以及高容错性。但是,在实际的大数据业务处理过程中,如无线应用协议(Wireless Application Protocol,WAP)上网日志(Web log,Blog)、大用户邮件***、Blog日志分析、用户信息跟踪与分析等应用中,目前的大数据平台在数据I/O处理方法上存在缺陷,尤其是对于非结构化的、半结构的、大数据量的业务,I/O处理速度存在较为严重的问题。
其主要问题包括:
(1)在大数据量的情况,尤其在连续写的情况下,I/O性能比较慢,而且I/O速度加速比和服务器节点数不成线性关系;
(2)在LOG、BLOG、视频、社会关系信息等非结构、半结构数据的处理上,没有按照大数据存储类型与特点进行优化,处理速度偏慢;
(3)采用多chunk server同步写的技术,导致在网络和存储设备情况不明等状态下同步时间较长,使得在数据一致性的处理上花销时间较长;
(4)没有考虑chunk server存储设备的读写速度以及实际设备状况,部分Secondary server的读写性能严重影响整个***的I/O性能。
因此,在大数据平台中,I/O处理性能以及一致性管理策略是目前最为核心的问题,也是影响大数据平台的整体I/O***性能的关键要素。
发明内容
有鉴于此,本发明实施例期望提供一种实现大数据平台I/O处理的方法及***,能够有效提高大数据平台I/O性能,同时解决数据一致性问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种实现大数据平台输入/输出I/O处理的方法,该方法包括:
基本服务器Primary server将由客户端client推送的数据写入自身高速缓存后,向主存储服务器master发送已写入Primary server高速缓存的信号;
Primary server向client反馈写操作完成信号;
Primary server将由client推送的数据发送到各个从属服务器Secondaryserver后,各个Secondary server异步将所述数据写入自身的高速缓存中;
Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号。
上述方案中,所述各个Secondary server异步将所述数据写入自身的高速缓存中包括:
Secondary server异步等待并接收Primary server的写操作命令和具体数据后,将所述具体数据写入自身的高速缓存;之后,向Primary server反馈写缓存完成信号。
上述方案中,所述方法还包括:
Primary server向master发送已写入Secondary server高速缓存的信号之后,直接将需要存储的数据块写到自身的存储器中;之后,向master发送已写入Primary server的信号;
Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测;
当所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;之后,向master发送已写入Secondary server的信号。
上述方案中,所述Secondary server的写操作包括:
Secondary server在发送写缓存完成信号后,异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中;接收到所述检测信号后,经判断确定当前的写操作完成后,向Primary server反馈写操作完成信号并释放自身的高速缓存空间。
上述方案中,所述方法还包括:当反馈信号存在写操作失败信号时,Primaryserver确定对应的反馈写操作失败信号的Secondary server,并将自身的高速缓存的数据块传输给对应的Secondary server;之后,Primary server继续异步等待所有Secondaryserver在写操作完成后的反馈信号并对所述反馈信号进行检测。
本发明实施例还提供了一种实现大数据平台I/O处理的***,该***包括:Primary server、Secondary server、client、以及master;其中,
Primary server,用于将由client推送的数据写入自身高速缓存后,向主master发送已写入Primary server高速缓存的信号;向client反馈写操作完成信号;将由client推送的数据发送到各个Secondary server;异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号;
Secondary server,用于异步接收Primary server发送的所述数据并写入自身的高速缓存中;
client,用于向Primary server推送数据;接收Primary server发送的写操作完成信号;
master,用于接收Primary server发送的已写入Primary server高速缓存的信号;接收Primary server发送的已写入Secondary server高速缓存的信号。
上述方案中,所述Secondary server用于异步接收Primary server发送的所述数据并写入自身的高速缓存包括:Secondary server异步等待并接收Primary server的写操作命令和具体数据后,将所述具体数据写入自身的高速缓存;向Primary server反馈写缓存完成信号。
上述方案中,所述Primary server还用于,在向master发送已写入Secondaryserver高速缓存的信号之后,直接将需要存储的数据块写到自身的存储器中;向master发送已写入Primary server的信号;异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测;当检测确定所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;向master发送已写入Secondary server的信号;
master,还用于接收Primary server发送的已写入Primary server的信号;接收Primary server发送的已写入Secondary server的信号。
上述方案中,所述Secondary server在写操作中,Secondary server还用于,在发送写缓存完成信号后,异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中;接收到所述检测信号后,经判断确定当前的写操作完成后,向Primary server反馈写操作完成信号并释放自身的高速缓存空间。
上述方案中,所述Primary server还用于,当Secondary server的反馈信号存在写操作失败信号时,确定对应的反馈写操作失败信号的Secondary server,并将自身的高速缓存的数据块传输给对应的Secondary server;Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。
本发明实施例所提供的实现大数据平台I/O处理的方法及***,Primary server将由client推送的数据写入自身高速缓存后,向master发送已写入Primary server高速缓存的信号;Primary server向client反馈写操作完成信号;Primary server将由client推送的数据发送到各个Secondary server后,各个Secondary server异步将所述数据写入自身的高速缓存中;Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号。如此,能够有效提高大数据平台I/O性能;进一步地,Primary server向master发送已写入Secondary server高速缓存的信号后,直接将需要存储的数据块写到自身的存储器中;之后,向master发送已写入Primary server的信号;Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测;当所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;然后,向master发送已写入Secondary server的信号,从而有效解决了数据一致性问题,使得大数据平台的整体I/O性能得到提高。
附图说明
图1为GFS的主要原理结构示意图;
图2为本发明实施例实现大数据平台I/O处理的方法实现流程示意图;
图3为本发明实施例实现大数据平台I/O处理的方法具体实现流程示意图;
图4为本发明实施例实现大数据平台I/O处理的***组成结构示意图。
具体实施方式
目前,影响GFS、HDFS等分布式文件***I/O存取性能的核心问题在于对数据进行的写操作上;也就是说,为了保持Primary server和Secondary server的数据一致性,一方面所有Secondary server直接写入存储器,另一方面所有Secondary server完成所有的存储器I/O后,Primary server接到所有Secondary server的应答后才处理后续工作。这样,一个写操作,需要所有Secondary server完成各自的I/O处理,使得整个***I/O处理时间较长,特别在部分Secondary server繁忙、或者部分Secondary server网络传输严重受影响的情况下,会导致I/O写操作时间无法预测,进而影响整个***的I/O性能。
在本发明实施例中,Primary server将由client推送的数据写入自身高速缓存后,向master发送已写入Primary server高速缓存的信号;Primary server向client反馈写操作完成信号;Primary server将由client推送的数据发送到各个Secondary server后,各个Secondary server异步将所述数据写入自身的高速缓存中;Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号。
这里,在大数据平台中,分布式***环境下基于高速缓存实现写缓冲而不直接将数据写入存储器的算法,也称作缓冲写(Cache-Write)算法,可以有效提高***的整体I/O性能。然而,该算法最大的问题是数据一致性问题。
因此,进一步地,在Cache-Write算法的基础上,增加提供数据一致性的方法和机制,该机制也称作直接读写(Direct-IO)机制,具体地,
Primary server向master发送已写入Secondary server高速缓存的信号之后,直接将需要存储的数据块写到自身的存储器中;之后,向master发送已写入Primary server的信号;Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测;当所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;之后,向master发送已写入Secondary server的信号。
如此,基于Cache-Write算法和Direct-IO机制的大数据平台I/O处理方法不仅具有比HDFS等分布式文件较高的I/O性能,而且还具有严格的数据一致性。
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图2为本发明实施例实现大数据平台I/O处理的方法实现流程示意图,如图2所示,本发明实施例实现大数据平台I/O处理的方法包括:
步骤S100:Primary server将由client推送的数据写入自身高速缓存后,向master发送已写入Primary server高速缓存的信号;
步骤S101:Primary server向client反馈写操作完成信号;
步骤S102:Primary server将由client推送的数据发送到各个Secondary server后,各个Secondary server异步将所述数据写入自身的高速缓存中;
步骤S103:Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号。
图3为本发明实施例实现大数据平台I/O处理的方法具体实现流程示意图,如图3所示,本发明实施例实现大数据平台I/O处理的方法具体包括:
步骤S200:Primary server将由client推送的数据写入自身高速缓存后,向master发送已写入Primary server高速缓存的信号;
这里,在所述Primary server将由client推送的数据写入自身高速缓存的过程中,如果写入数据过大,自身的高速缓存没有足够的空间,则异步进行I/O存储的操作。
步骤S201:Primary server向client反馈写操作完成信号;
步骤S202:Primary server将由client推送的数据发送到各个Secondary server后,各个Secondary server异步将所述数据写入自身的高速缓存中;
这里,所述各个Secondary server异步将所述数据写入自身的高速缓存中具体包括:
Secondary server异步等待并接收Primary server的写操作命令和具体数据后,将所述具体数据写入自身的高速缓存;之后,向Primary server反馈写缓存完成信号。
这里,在所述Secondary server将所述具体数据写入自身的高速缓存的过程中,如果写入数据过大,自身的高速缓存没有足够的空间,则异步进行I/O存储的操作。
步骤S203:Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号。
步骤S204:Primary server向master发送已写入Secondary server高速缓存的信号后,直接将需要存储的数据块写到自身的存储器中;之后,向master发送已写入Primaryserver的信号;
步骤S205:Primary server异步等待所有Secondary server在写操作完成后,发送的反馈信号并对所述反馈信号进行检测;
步骤S206:当所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;之后,向master发送已写入Secondary server的信号。
这里,当反馈信号存在写操作失败信号时,Primary server确定对应的反馈写操作失败信号的Secondary server,并将自身的高速缓存的数据块传输给对应的Secondaryserver;之后,Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。
这里,所述Secondary server的写操作包括:
Secondary server在发送写缓存完成信号后,异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中;接收到所述检测信号后,经判断确定当前的写操作完成后,向Primary server反馈写操作完成信号并释放自身的高速缓存空间。
其中,当经判断确定当前的写操作未完成时,Secondary server继续等待直到写操作完成后,向Primary server反馈写操作完成信号并释放自身的高速缓存空间。
图4为本发明实施例实现大数据平台I/O处理的***组成结构示意图,如图4所示,本发明实施例实现大数据平台I/O处理的***包括:Primary server10、Secondaryserver11、client12、以及master13;其中,
Primary server10,用于将由client12推送的数据写入自身高速缓存后,向主master13发送已写入Primary server10高速缓存的信号;向client12反馈写操作完成信号;将由client12推送的数据发送到各个Secondary server11;异步等待并接收所有Secondary server11反馈的写缓存完成信号后,向master13发送已写入Secondary server高速缓存的信号;
Secondary server11,用于异步接收Primary server10发送的所述数据并写入自身的高速缓存;
具体地,Secondary server11异步等待并接收Primary server10的写操作命令和具体数据后,将所述具体数据写入自身的高速缓存;向Primary server10反馈写缓存完成信号。
client12,用于向Primary server10推送数据;接收Primary server10发送的写操作完成信号;
master13,用于接收Primary server10发送的已写入Primary server10高速缓存的信号;接收Primary server10发送的已写入Secondary server11高速缓存的信号。
进一步地,在Cache-Write算法中增加提高数据一致性的Direct-IO机制后,
Primary server10还用于,在向master13发送已写入Secondary server11高速缓存的信号之后,直接将需要存储的数据块写到自身的存储器中;向master13发送已写入Primary server10的信号;异步等待所有Secondary server12在写操作完成后发送的反馈信号并对所述反馈信号进行检测;当检测确定所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;向master13发送已写入Secondary server11的信号;
master13,还用于接收Primary server10发送的已写入Primary server10的信号;接收Primary server10发送的已写入Secondary server11的信号。
这里,所述Secondary server11在写操作中,具体地:
Secondary server11还用于,在发送写缓存完成信号后,异步等待Primaryserver10发送的检测信号并直接将需要存储的数据写到自身的存储器中;接收到所述检测信号后,经判断确定当前的写操作完成后,向Primary server10反馈写操作完成信号并释放自身的高速缓存空间。
这里,当Secondary server11的反馈信号存在写操作失败信号时,Primaryserver10还用于,确定对应的反馈写操作失败信号的Secondary server11,并将自身的高速缓存的数据块传输给对应的Secondary server11;Primary server10继续异步等待所有Secondary server11在写操作完成后的反馈信号并对所述反馈信号进行检测。
综上所述,基于本发明实施例的cache-Write算法和Direct-IO机制,大数据平台的分布式文件***HDFS和client的写操作具体简化如下:
第一步:client向master请求当前chunk server的Primary server的令牌位置以及其他所有Secondary server的位置;
第二步:master向client反馈应答,具体包括Primary server的令牌位置以及其他所有Secondary server的位置信息。
第三步:client将数据和相关Secondary server的位置信息推送给Primaryserver。
第四步:Primary直接调用Cache-Write算法进行写操作;
第五步:Primary在处理完成本地数据缓存以及Secondary server的位置信息的存储后直接反馈写操作完成信号给client。
第六步:Primary server和Secondary server后台异步处理数据写磁盘(即写到自身的存储器)和数据一致性相关操作。
第七步:Primary server和master后台异步处理各种元数据信息,直到所有写操作完成,结束流程。
比较基于cache-Write算法和Direct-IO机制的新分布式写操作和之前的HDFS分布式文件***写操作,可以得出:
(1)client只将数据写到Primary server,减少了多个Secondary server的传输;(2)在写入Primary server的高速缓存后,client就可以认为写操作完成,从而可以进行其他client的操作,减少了中间的复杂的写Secondary server-Secondary server确认过程;(3)而在客户读的过程,由于Primary server和master之间对数据的存储位置和情况非常清楚,master能够给出最合适的存储位置和块句柄,因此异步写操作不影响读操作的进行;(4)新的分布式文件***写操作具有较高的I/O性能。
从理论上讲,本发明实施例基于cache-Write算法和Direct-IO机制的大数据平台I/O处理方法和HDFS/GFS之前的方法相比,写操作过程将减少3*N次写操作;读操作性能和之前的读方法相比,读操作可以减少N*1次。因此,有效的提高了整个***I/O性能。
为了验证本发明实施例的具体改进效果,可采用hadoop平台的HDFS、Mapdreduce并行环境以及Hive、Hbase等数据库等,具体测试WAP日志***、客户关系管理(CustomerRelationship Management,CRM)报文数据***的I/O性能情况,经过测试发现,在非结构化、读写频繁的情况下该方法比之前的***性能提高约113%左右,而在大容量的CRM报文数据***下,其属于连续写、连续读的情况,其性能提高约81%。由此可见,越是频繁读写操作的业务其性能改进越大,显然,本发明实施例能有效提高大数据平台I/O性能。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种实现大数据平台输入/输出I/O处理的方法,其特征在于,所述方法包括:
基本服务器Primary server将由客户端client推送的数据写入自身高速缓存后,向主存储服务器master发送已写入Primary server高速缓存的信号;
Primary server向client反馈写操作完成信号;
Primary server将由client推送的数据发送到各个从属服务器Secondary server后,各个Secondary server异步将所述数据写入自身的高速缓存中;
Primary server异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号;
Primary server向master发送已写入Secondary server高速缓存的信号之后,直接将需要存储的数据块写到自身的存储器中;之后,向master发送已写入Primary server的信号;
Primary server异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测;
当所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;之后,向master发送已写入Secondary server的信号。
2.根据权利要求1所述的方法,其特征在于,所述各个Secondary server异步将所述数据写入自身的高速缓存中包括:
Secondary server异步等待并接收Primary server的写操作命令和具体数据后,将所述具体数据写入自身的高速缓存;之后,向Primary server反馈写缓存完成信号。
3.根据权利要求1所述的方法,其特征在于,所述Secondary server的写操作包括:
Secondary server在发送写缓存完成信号后,异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中;接收到所述检测信号后,经判断确定当前的写操作完成后,向Primary server反馈写操作完成信号并释放自身的高速缓存空间。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当反馈信号存在写操作失败信号时,Primary server确定对应的反馈写操作失败信号的Secondary server,并将自身的高速缓存的数据块传输给对应的Secondary server;之后,Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。
5.一种实现大数据平台I/O处理的***,其特征在于,所述***包括:Primary server、Secondary server、client、以及master;其中,
Primary server,用于将由client推送的数据写入自身高速缓存后,向主master发送已写入Primary server高速缓存的信号;向client反馈写操作完成信号;将由client推送的数据发送到各个Secondary server;异步等待并接收所有Secondary server反馈的写缓存完成信号后,向master发送已写入Secondary server高速缓存的信号;
Secondary server,用于异步接收Primary server发送的所述数据并写入自身的高速缓存中;
client,用于向Primary server推送数据;接收Primary server发送的写操作完成信号;
master,用于接收Primary server发送的已写入Primary server高速缓存的信号;接收Primary server发送的已写入Secondary server高速缓存的信号;
其中,所述Primary server还用于,在向master发送已写入Secondary server高速缓存的信号之后,直接将需要存储的数据块写到自身的存储器中;向master发送已写入Primary server的信号;异步等待所有Secondary server在写操作完成后发送的反馈信号并对所述反馈信号进行检测;当检测确定所述反馈信号均为写操作完成信号时,释放自身的高速缓存空间;向master发送已写入Secondary server的信号;
所述master,还用于接收Primary server发送的已写入Primary server的信号;接收Primary server发送的已写入Secondary server的信号。
6.根据权利要求5所述的***,其特征在于,所述Secondary server用于异步接收Primary server发送的所述数据并写入自身的高速缓存包括:Secondary server异步等待并接收Primary server的写操作命令和具体数据后,将所述具体数据写入自身的高速缓存;向Primary server反馈写缓存完成信号。
7.根据权利要求5所述的***,其特征在于,所述Secondary server在写操作中,Secondary server还用于,在发送写缓存完成信号后,异步等待Primary server发送的检测信号并直接将需要存储的数据写到自身的存储器中;接收到所述检测信号后,经判断确定当前的写操作完成后,向Primary server反馈写操作完成信号并释放自身的高速缓存空间。
8.根据权利要求5所述的***,其特征在于,所述Primary server还用于,当Secondaryserver的反馈信号存在写操作失败信号时,确定对应的反馈写操作失败信号的Secondaryserver,并将自身的高速缓存的数据块传输给对应的Secondary server;Primary server继续异步等待所有Secondary server在写操作完成后的反馈信号并对所述反馈信号进行检测。
CN201410050179.1A 2014-02-13 2014-02-13 一种实现大数据平台输入/输出处理的方法及*** Active CN104850548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410050179.1A CN104850548B (zh) 2014-02-13 2014-02-13 一种实现大数据平台输入/输出处理的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410050179.1A CN104850548B (zh) 2014-02-13 2014-02-13 一种实现大数据平台输入/输出处理的方法及***

Publications (2)

Publication Number Publication Date
CN104850548A CN104850548A (zh) 2015-08-19
CN104850548B true CN104850548B (zh) 2018-05-22

Family

ID=53850196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410050179.1A Active CN104850548B (zh) 2014-02-13 2014-02-13 一种实现大数据平台输入/输出处理的方法及***

Country Status (1)

Country Link
CN (1) CN104850548B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980645B (zh) * 2017-02-24 2020-09-15 北京同有飞骥科技股份有限公司 一种分布式文件***架构实现方法和装置
CN109222853A (zh) * 2018-11-19 2019-01-18 苏州新光维医疗科技有限公司 内窥镜及内窥镜工作方法
CN112866339B (zh) * 2020-12-30 2022-12-06 金蝶软件(中国)有限公司 数据传输方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149923B1 (en) * 2003-01-17 2006-12-12 Unisys Corporation Software control using the controller as a component to achieve resiliency in a computer system utilizing separate servers for redundancy
CN101854388A (zh) * 2010-05-17 2010-10-06 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及***
CN102129434A (zh) * 2010-01-13 2011-07-20 腾讯科技(北京)有限公司 读写分离数据库的方法及***
CN102882983A (zh) * 2012-10-22 2013-01-16 南京云创存储科技有限公司 一种云存储***中提升并发访问性能的数据快速存储方法
CN103078936A (zh) * 2012-12-31 2013-05-01 网宿科技股份有限公司 基于gfs的分布式文件***的元数据分级存储方法和***
CN103530387A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种hdfs针对小文件的改进方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149923B1 (en) * 2003-01-17 2006-12-12 Unisys Corporation Software control using the controller as a component to achieve resiliency in a computer system utilizing separate servers for redundancy
CN102129434A (zh) * 2010-01-13 2011-07-20 腾讯科技(北京)有限公司 读写分离数据库的方法及***
CN101854388A (zh) * 2010-05-17 2010-10-06 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及***
CN102882983A (zh) * 2012-10-22 2013-01-16 南京云创存储科技有限公司 一种云存储***中提升并发访问性能的数据快速存储方法
CN103078936A (zh) * 2012-12-31 2013-05-01 网宿科技股份有限公司 基于gfs的分布式文件***的元数据分级存储方法和***
CN103530387A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种hdfs针对小文件的改进方法

Also Published As

Publication number Publication date
CN104850548A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN107169083B (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
JP6044539B2 (ja) 分散ストレージシステムおよび方法
US11119654B2 (en) Determining an optimal storage environment for data sets and for migrating data sets
US9952940B2 (en) Method of operating a shared nothing cluster system
CN109086388A (zh) 区块链数据存储方法、装置、设备及介质
CN109710614A (zh) 一种实时数据存储与查询的方法及装置
CN106775446A (zh) 基于固态硬盘加速的分布式文件***小文件访问方法
CN103207894A (zh) 一种多路实时视频数据存储***及其进行缓存控制的方法
TW201702860A (zh) 自主空間壓縮之儲存裝置以及方法
CN103312624A (zh) 一种消息队列服务***和方法
CN103559229A (zh) 基于MapFile的小文件管理服务SFMS***及其使用方法
US9083725B2 (en) System and method providing hierarchical cache for big data applications
CN111159176A (zh) 一种海量流数据的存储和读取的方法和***
CN109471843A (zh) 一种元数据缓存方法、***及相关装置
WO2013172405A1 (ja) ストレージシステムおよびデータアクセス方法
CN110413413A (zh) 一种数据写入方法、装置、设备及存储介质
CN104850548B (zh) 一种实现大数据平台输入/输出处理的方法及***
US11157456B2 (en) Replication of data in a distributed file system using an arbiter
CN104052824A (zh) 分布式缓存方法及***
CN105335450B (zh) 数据存储处理方法及装置
CN106254270A (zh) 一种队列管理方法及装置
CN107493309A (zh) 一种分布式***中的文件写入方法及装置
WO2024001025A1 (zh) 一种预执行缓存数据清理方法和区块链节点
CN106528667A (zh) 读写分离的低功耗海量数据全文检索***框架
CN105653566B (zh) 一种实现数据库写访问的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant