CN105426472A - 分布式计算***及其数据处理方法 - Google Patents

分布式计算***及其数据处理方法 Download PDF

Info

Publication number
CN105426472A
CN105426472A CN201510791223.9A CN201510791223A CN105426472A CN 105426472 A CN105426472 A CN 105426472A CN 201510791223 A CN201510791223 A CN 201510791223A CN 105426472 A CN105426472 A CN 105426472A
Authority
CN
China
Prior art keywords
spark
data
module
computing system
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510791223.9A
Other languages
English (en)
Other versions
CN105426472B (zh
Inventor
孙煜华
毛为民
张志亮
陆宏治
吴永欢
梁哲辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201510791223.9A priority Critical patent/CN105426472B/zh
Publication of CN105426472A publication Critical patent/CN105426472A/zh
Application granted granted Critical
Publication of CN105426472B publication Critical patent/CN105426472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明涉及一种分布式计算***及其数据处理方法,Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至混合存储模块中的SSD单元;SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令,并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算***相比,在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入SSD作为Spark计算的缓存层来补充内存的有限空间,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限,实现分布式计算***的高性能处理能力。

Description

分布式计算***及其数据处理方法
技术领域
本发明涉及数据处理技术领域,特别是涉及一种分布式计算***及其数据处理方法。
背景技术
数据作为企业最重要的资产,一直以来都是企业应用、技术、架构和服务等创新的源泉。随着信息数据化和互联网技术的发展,企业数据正在迅速增长,庞大而复杂的数据能带来远超传统数据的信息,同时也需要与传统数据截然不同的处理方式。
Hadoop最核心的设计是分布式文件***HDFS(HadoopDistributedFileSystem)和MapReduce计算模型。HDFS被设计部署在价格低廉的硬件上,依靠数据冗余达到高度容错,提供高吞吐量的数据访问,适合批量处理大量数据。MapReduce将复杂的计算过程抽象为多组map和reduce步骤,map和reduce各由多个mapper和reducer函数执行,将不同mapper和reducer分配至不同的计算节点,实现了在大型计算集群上的高效分布式计算处理。
当用户要求Hadoop作为一个全栈平台,同时兼容批处理交互迭代式查询和流处理时,Hadoop架构的局限性日益显现。最大的瓶颈之一是MapReduce的大量中间结果需要向磁盘进行读写,当计算量大时,磁盘I/O(输入/输出)是显而易见的瓶颈,导致MapReduce不适合迭代式(Iterative)和交互式(Interactive)应用。传统的分布式计算***受限于磁盘I/O而存在低性能问题。
发明内容
基于此,有必要针对上述问题,提供一种可实现高性能处理能力的分布式计算***及其数据处理方法。
一种分布式计算***,包括Spark平台模块和混合存储模块,所述混合存储模块包括SSD单元和存储层单元,所述SSD单元连接所述Spark平台模块,所述存储层单元连接所述SSD单元,
所述Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至所述SSD单元进行缓存,所述SSD单元将缓存的数据发送至所述存储层单元进行存储;所述Spark平台模块还用于接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。
一种分布式计算***的数据处理方法,包括以下步骤:
通过Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至混合存储模块中的SSD单元;
通过所述SSD单元将缓存的数据发送至所述混合存储模块中的存储层单元进行存储;
通过所述Spark平台模块接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。
上述分布式计算***及其数据处理方法,Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据并发送至混合存储模块中的SSD单元;SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令,并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算***相比,在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入SSD作为Spark计算的缓存层来补充内存的有限空间,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限,实现分布式计算***的高性能处理能力。
附图说明
图1为一实施例中分布式计算***的结构图;
图2为一实施例中分布式计算***的示意图;
图3为一实施例中分布式计算***的数据处理方法的流程图。
具体实施方式
一种分布式计算***,如图1所示,包括Spark平台模块120和混合存储模块130,混合存储模块130包括SSD(SolidStateDrives,固态硬盘)单元132和存储层单元134,SSD单元132连接Spark平台模块120,存储层单元134连接SSD单元132。
Spark平台模块120利用大数据处理框架Spark作为计算引擎,根据获取到的数据信息进行处理后,将处理得到的数据发送至SSD单元132进行缓存,SSD单元132将缓存的数据发送至存储层单元134进行存储;Spark平台模块120还用于接收查询指令,并经SSD单元132从存储层单元134获取与查询指令对应的数据后输出。本实施例中在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入价格约只有内存价格十分之一的SSD代替HDD(HardDiskDrive,机械硬盘)作内存之外的缓存,让SSD和内存共同组成混合存储体系,提升存储空间利用率和处理效率。存储层单元134具体可包括用于存储数据的存储元件。
在其中一个实施例中,Spark平台模块120将数据发送至SSD单元132后,以行列混合存储的ORCFile格式进行缓存。ORCFile的前身是一种高效的数据存储结构RCFile(RecordColumnarFile),并被应用于后来发展为ApacheHive的Facebook的数据仓库中。RCFile更有效地满足基于MapReduce的数据仓库的四个关键需求,即快速加载数据、快速处理查询、高效利用存储空间和高度适应动态工作负载。
RCFile的核心思想是首先把表水平切分成多个行组(rowgroups),然后组内按照列垂直切分,这样行组之内便按列存储。当一个行组内的所有列写到磁盘时,RCFile就会以列为单位对数据使用类zlib/lzo的算法进行压缩。当读取列数据的时候使用惰性解压策略(lazydecompression),也就是说用户的某个查询如果只是涉及到部分列,RCFile只会解压涉及到的列而跳过无关列。
ORCFile的设计思想相似在RCFile的基础上做了优化,具体改进为:1)每个Sparktask只输出单个文件。2)文件中存储了一些轻量级的索引数据;3)基于数据类型的块模式压缩;4)用多个互相独立的RecordReaders并行读相同的文件;5)控制读写所需要的内存量。
本实施例中使用针对SSD硬件特性而优化的存储格式,对存储在SSD单元132上的数据采用行列混合式文件(ORC)结构进行存储,充分发挥SSD硬件特性,提升处理性能和压缩空间。大幅提升大数据***处理的性能。
在其中一个实施例中,如图2所示,Spark平台模块120包括多个执行单元122,多个执行单元122均连接SSD单元132。通过多个执行单元122分别进行数据存储和读取操作,提高数据处理速度,且确保操作可靠性。
在其中一个实施例中,混合存储模块130还包括文件***API(ApplicationProgrammingInterface,应用程序编程接口)接口131,SSD单元132通过文件***API接口131与Spark平台模块120连接,以进行数据传输。
在其中一个实施例中,继续参照图2,分布式计算***还包括连接Spark平台模块120的数据接收模块110,数据接收模块110用于接收数据并发送至Spark平台模块120,以及接收查询指令发送至Spark平台模块120,并输出Spark平台模块120返回的数据。
此外,分布式计算***还可包括连接混合存储模块130的容量监控模块,容量监控模块用于对混合存储模块130的剩余容量进行监控,并在剩余容量小于预设阈值时输出报警信息。预设阈值的具体取值可根据混合存储模块130的容量大小决定,输出报警信息可以是控制扬声器发声或控制报警灯闪烁等。在混合存储模块130的剩余容量过低时进行报警,提醒工作人员及时对存储数据进行转移或更换存储硬盘等,提高数据存储可靠性。
上述分布式计算***,在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入SSD作为Spark计算的缓存层来补充内存的有限空间。使用比内存价格便宜很多的SSD作为内存的缓存,而不是直接扩展内存容量(投资很大)来支持Spark大数据量计算的需求,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限,实现分布式计算***的高性能处理能力。
本发明还提供了一种分布式计算***的数据处理方法,如图3所示,包括以下步骤:
步骤S110:通过Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至混合存储模块中的SSD单元进行缓存。Spark平台模块接收到数据后,将数据发送至SSD单元进行缓存。在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入价格约只有内存价格十分之一的SSD代替HDD(HardDiskDrive,机械硬盘)作内存之外的缓存,让SSD和内存共同组成混合存储体系,提升存储空间利用率和处理效率。
Spark平台模块具体可包括多个执行单元,多个执行单元均连接SSD单元。通过多个执行单元分别进行数据存储和读取操作,提高数据处理速度,且确保操作可靠性。此外,混合存储模块还可包括文件***API接口,SSD单元通过文件***API接口与Spark平台模块连接,以进行数据传输。
在其中一个实施例中,步骤S110中通过Spark平台模块将处理得到的数据发送至混合存储模块中的SSD单元进行缓存具体为,Spark平台模块将数据发送至SSD单元后,以行列混合存储的ORCFile格式进行缓存。使用针对SSD硬件特性而优化的存储格式,对存储在SSD单元132上的数据采用行列混合式文件(ORC)结构进行存储,充分发挥SSD硬件特性,提升处理性能和压缩空间。大幅提升大数据***处理的性能。
步骤S120:通过SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。SSD单元在缓存接入的数据后,将缓存的数据发送至存储层单元进行存储。
步骤S130:通过Spark平台模块接收查询指令,并经SSD单元从存储层单元获取与查询指令对应的数据后输出。Spark平台模块在接收到查询指令后,同样通过SSD单元从存储层单元获取对应数据。
在其中一个实施例中,分布式计算***的数据处理方法还包括步骤140。
步骤140:通过容量监控模块对混合存储模块的剩余容量进行监控,并在剩余容量小于预设阈值时输出报警信息。预设阈值的具体取值可根据混合存储模块的容量大小决定,输出报警信息可以是控制扬声器发声或控制报警灯闪烁等。在混合存储模块的剩余容量过低时进行报警,提醒工作人员及时对存储数据进行转移或更换存储硬盘等,提高数据存储可靠性。
上述分布式计算***的数据处理方法,在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入SSD作为Spark计算的缓存层来补充内存的有限空间。使用比内存价格便宜很多的SSD作为内存的缓存,而不是直接扩展内存容量(投资很大)来支持Spark大数据量计算的需求,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限,实现分布式计算***的高性能处理能力。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种分布式计算***,其特征在于,包括Spark平台模块和混合存储模块,所述混合存储模块包括SSD单元和存储层单元,所述SSD单元连接所述Spark平台模块,所述存储层单元连接所述SSD单元,
所述Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至所述SSD单元进行缓存,所述SSD单元将缓存的数据发送至所述存储层单元进行存储;所述Spark平台模块还用于接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。
2.根据权利要求1所述的分布式计算***,其特征在于,所述Spark平台模块包括多个执行单元,所述多个执行单元均连接所述SSD单元。
3.根据权利要求1所述的分布式计算***,其特征在于,所述混合存储模块还包括文件***API接口,所述SSD单元通过所述文件***API接口与所述Spark平台模块连接。
4.根据权利要求1所述的分布式计算***,其特征在于,所述Spark平台模块将数据发送至所述SSD单元后,以行列混合存储的ORCFile格式进行缓存。
5.根据权利要求1所述的分布式计算***,其特征在于,还包括连接所述Spark平台模块的数据接收模块,所述数据接收模块用于接收数据并发送至所述Spark平台模块,以及接收所述查询指令发送至所述Spark平台模块,并输出所述Spark平台模块返回的数据。
6.根据权利要求1所述的分布式计算***,其特征在于,还包括连接所述混合存储模块的容量监控模块,所述容量监控模块用于对所述混合存储模块的剩余容量进行监控,并在剩余容量小于预设阈值时输出报警信息。
7.一种分布式计算***的数据处理方法,其特征在于,包括以下步骤:
通过Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至混合存储模块中的SSD单元进行缓存;
通过所述SSD单元将缓存的数据发送至所述混合存储模块中的存储层单元进行存储;
通过所述Spark平台模块接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。
8.根据权利要求7所述的分布式计算***的数据处理方法,其特征在于,通过Spark平台模块将处理得到的数据发送至混合存储模块中的SSD单元进行缓存具体为,所述Spark平台模块将数据发送至所述SSD单元后,以行列混合存储的ORCFile格式进行缓存。
9.根据权利要求7所述的分布式计算***的数据处理方法,其特征在于,还包括以下步骤:
通过容量监控模块对所述混合存储模块的剩余容量进行监控,并在剩余容量小于预设阈值时输出报警信息。
CN201510791223.9A 2015-11-16 2015-11-16 分布式计算***及其数据处理方法 Active CN105426472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510791223.9A CN105426472B (zh) 2015-11-16 2015-11-16 分布式计算***及其数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510791223.9A CN105426472B (zh) 2015-11-16 2015-11-16 分布式计算***及其数据处理方法

Publications (2)

Publication Number Publication Date
CN105426472A true CN105426472A (zh) 2016-03-23
CN105426472B CN105426472B (zh) 2019-08-16

Family

ID=55504684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510791223.9A Active CN105426472B (zh) 2015-11-16 2015-11-16 分布式计算***及其数据处理方法

Country Status (1)

Country Link
CN (1) CN105426472B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122264A (zh) * 2017-05-15 2017-09-01 成都优孚达信息技术有限公司 海量数据容灾备份方法
CN107179883A (zh) * 2017-05-19 2017-09-19 深圳大学 一种基于SSD和HDD的混合存储***的Spark架构优化方法
CN107193495A (zh) * 2017-05-19 2017-09-22 深圳大学 一种分布式计算***及其数据处理方法
CN108108358A (zh) * 2016-11-24 2018-06-01 全球能源互联网研究院 一种电能质量数据的存储和检索方法
WO2018209692A1 (zh) * 2017-05-19 2018-11-22 深圳大学 一种基于SSD和HDD的混合存储***的Spark架构优化方法
WO2018209694A1 (zh) * 2017-05-19 2018-11-22 深圳大学 一种分布式计算***及其数据处理方法
CN111752689A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 一种基于数据流的神经网络多引擎同步计算***
CN112381501A (zh) * 2020-11-05 2021-02-19 上海汇付数据服务有限公司 一种产品运作平台***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678519A (zh) * 2013-11-29 2014-03-26 中国科学院计算技术研究所 一种支持Hive DML增强的混合存储***及其方法
CN104102702A (zh) * 2014-07-07 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现软硬件结合的面向应用的大数据***及方法
CN104715039A (zh) * 2015-03-23 2015-06-17 星环信息科技(上海)有限公司 基于硬盘和内存的列式存储和查询方法及设备
CN104834719A (zh) * 2015-05-12 2015-08-12 北京比酷天地文化股份有限公司 应用于实时大数据场景下的数据库***
CN104991958A (zh) * 2015-07-21 2015-10-21 山东鲁能软件技术有限公司 一种电力设备监控数据的分析***及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678519A (zh) * 2013-11-29 2014-03-26 中国科学院计算技术研究所 一种支持Hive DML增强的混合存储***及其方法
CN104102702A (zh) * 2014-07-07 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现软硬件结合的面向应用的大数据***及方法
CN104715039A (zh) * 2015-03-23 2015-06-17 星环信息科技(上海)有限公司 基于硬盘和内存的列式存储和查询方法及设备
CN104834719A (zh) * 2015-05-12 2015-08-12 北京比酷天地文化股份有限公司 应用于实时大数据场景下的数据库***
CN104991958A (zh) * 2015-07-21 2015-10-21 山东鲁能软件技术有限公司 一种电力设备监控数据的分析***及其方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATEI ZAHARIA: "《大型集群上的快速和通用数据处理架构》", 31 December 2013 *
晁平复 等: "支持通信数据查询分析的分布式计算***", 《华东师范大学学报(自然科学版)》 *
陈凯: "大数据应用的关键技术研究", 《电信网技术》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108358A (zh) * 2016-11-24 2018-06-01 全球能源互联网研究院 一种电能质量数据的存储和检索方法
CN108108358B (zh) * 2016-11-24 2024-02-06 全球能源互联网研究院 一种电能质量数据的存储和检索方法
CN107122264B (zh) * 2017-05-15 2020-06-09 成都优孚达信息技术有限公司 海量数据容灾备份方法
CN107122264A (zh) * 2017-05-15 2017-09-01 成都优孚达信息技术有限公司 海量数据容灾备份方法
CN107193495A (zh) * 2017-05-19 2017-09-22 深圳大学 一种分布式计算***及其数据处理方法
WO2018209692A1 (zh) * 2017-05-19 2018-11-22 深圳大学 一种基于SSD和HDD的混合存储***的Spark架构优化方法
WO2018209694A1 (zh) * 2017-05-19 2018-11-22 深圳大学 一种分布式计算***及其数据处理方法
CN107179883B (zh) * 2017-05-19 2020-07-17 深圳大学 一种基于SSD和HDD的混合存储***的Spark架构优化方法
CN107179883A (zh) * 2017-05-19 2017-09-19 深圳大学 一种基于SSD和HDD的混合存储***的Spark架构优化方法
CN111752689A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 一种基于数据流的神经网络多引擎同步计算***
CN111752689B (zh) * 2020-06-22 2023-08-25 深圳鲲云信息科技有限公司 一种基于数据流的神经网络多引擎同步计算***
CN112381501A (zh) * 2020-11-05 2021-02-19 上海汇付数据服务有限公司 一种产品运作平台***
CN112381501B (zh) * 2020-11-05 2024-06-07 上海汇付支付有限公司 一种产品运作平台***

Also Published As

Publication number Publication date
CN105426472B (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN105426472A (zh) 分布式计算***及其数据处理方法
US9256633B2 (en) Partitioning data for parallel processing
US9813502B1 (en) Data transfers in columnar data systems
US20150127691A1 (en) Efficient implementations for mapreduce systems
US20150032938A1 (en) System and method for performing efficient processing of data stored in a storage node
US20140188870A1 (en) Lsm cache
US7979394B2 (en) Method of managing storage and retrieval of data objects
CN103020205A (zh) 一种分布式文件***上基于硬件加速卡的压缩解压缩方法
CN103329111A (zh) 一种基于块存储的数据处理方法、装置及***
CN109710175A (zh) 用于数据存储管理的设备和方法
CN104765575A (zh) 信息存储处理方法
US9973210B1 (en) Reduction of execution stalls of LZ4 decompression via parallelization
CN114327280B (zh) 一种基于冷热分离存储的消息存储方法及***
US20160124683A1 (en) In-memory data compression complementary to host data compression
CN103678603A (zh) 多源异构数据高效汇聚存取架构***
CN104765574A (zh) 数据云端存储方法
CN103414762B (zh) 云备份方法和装置
US11126359B2 (en) Partitioning graph data for large scale graph processing
CN107450856A (zh) 存储数据的写入方法、读取方法以及相应的装置、终端
CN105630810A (zh) 一种对于海量小文件在分布式存储***中上载的方法
CN104298697A (zh) 一种fat32格式的数据文件管理***
CN105718561A (zh) 一种特定分布式数据存储文件结构去冗余构造方法及***
CN107423425B (zh) 一种对k/v格式的数据快速存储和查询方法
CN102929935B (zh) 一种基于事务的大容量数据读写方法
CN104239231A (zh) 一种加速二级缓存预热的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200918

Address after: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Patentee after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Patentee before: GUANGZHOU POWER SUPPLY Co.,Ltd.

TR01 Transfer of patent right