CN106055678A - 一种基于hadoop的全景大数据分布式存储方法 - Google Patents

一种基于hadoop的全景大数据分布式存储方法 Download PDF

Info

Publication number
CN106055678A
CN106055678A CN201610397090.1A CN201610397090A CN106055678A CN 106055678 A CN106055678 A CN 106055678A CN 201610397090 A CN201610397090 A CN 201610397090A CN 106055678 A CN106055678 A CN 106055678A
Authority
CN
China
Prior art keywords
big data
hadoop
distributed storage
hbase
race
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610397090.1A
Other languages
English (en)
Inventor
***
马建伟
孙芊
周凤珍
杨磊
王鹏
王文博
黄伟
邹会权
肖寒
赵理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Henan Enpai High Tech Group Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Henan Enpai High Tech Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Henan Electric Power Co Ltd, Electric Power Research Institute of State Grid Henan Electric Power Co Ltd, Henan Enpai High Tech Group Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201610397090.1A priority Critical patent/CN106055678A/zh
Publication of CN106055678A publication Critical patent/CN106055678A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Water Supply & Treatment (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于hadoop的全景大数据分布式存储方法,能够为智能电网大数据提供了一种新型的大数据分布式存储方法,可以有效解决传统关系型数据库存储冗余、访问效率低、灾备鲁棒性差等问题。本发明提出的分布式全景大数据分布式存储技术,首先基于分布式数据存储和访问的Hbase表优化设计处理行键长度最小化和固定设置,然后,对Hbase***性能进行负载均衡、JVM优化、***与合并服务优化,最后,对HDFS的大规模小文件优化采用标记法进行优化处理。对于电力大数据分布式存储技术的存储冗余优化处理、快速访问高效率、高可靠灾备安全性有显著改进。

Description

一种基于hadoop的全景大数据分布式存储方法
技术领域
本发明涉及电力数据分析技术领域,尤其涉及一种基于hadoop的全景大数据分布式存储方法。
背景技术
现有的智能电网业务数据挖掘中智能电网运行和设备检测或监测数据、电力企业营销数据和电力企业管理数据均存在如下的几方面的特征:1)数据种类繁多数据量大;电网中密布着众多的电力设备和监测仪器,它们发送的采集数据就组成了海量的需要电力信息***不停接收和处理的实时状态数据。2)数据格式不统一且通用性差;长期以来,国内外电力自动化设备厂商推出的状态监测装置与***的通信规则不统一、功能和接口各不相同,不同设备之间也不能直接通信,难以进行互操作,而且上层的管理和决策***无法调度和分析这些数据。3)一次写入,多次读取;电力监测设备不断地将实时监测数据和故障数据等写入历史数据库和实时数据库,作为以后分析使用的数据来源,数据便不做修改。
目前,电力信息***中的专家***、神经网络***等的知识获取需要利用和提取现实电力***数据做分析和锻炼;电力设备故障分析、电力自动化设备优化调整等方面需要多次从数据库中读取、计算电力数据。现有的电力数据存储***,采用的是一次写入、以供相关***调用和读取的关系型数据库,不能满足日益增长和变化的电力大数据存储需求。
发明内容
本发明的目的是提供一种基于hadoop的全景大数据分布式存储方法,能够为智能电网大数据提供了一种新型的大数据分布式存储方法,可以有效解决传统关系型数据库存储冗余、访问效率低、灾备鲁棒性差等问题。
本发明采用的技术方案为:
一种基于hadoop的全景大数据分布式存储方法,包括以下步骤:
第一步,基于分布式数据存储和访问的Hbase表优化设计,具体如下:
首先,对分布式数据库行键设计,且设计过程遵循下述规则:
(1)避免使用单调递增行键;
(2)行键与列族关系为一对多的关系,同一个行键可以在同一个表的每个列族中存在而不会冲突;
(3)行键长度最小化设计:由于设计行键需要权衡长度,既要满足语义,又要尽可能地缩短以降低存储空间,所有以短到可读为标准;
然后,对分布式数据库的列族进行优化设计,优化规则具体如下:
(1)列族的数量设计中,在Hbase的表单设计中使用一个列族:只有你的所有查询操作只访问一个列族的时候,可以引入第二个和第三个列族;
(2)所述的列族名的长度为一到两个字符;
第二步,对Hbase***性能进行优化:
(1)设置负载均衡:调整不同的Region数量以适应不同的场景要求;
(2)对JVM进行优化:调整不同的JVM参数以满足***的具体要求,选择不同的Java垃圾回收机制提高JVM的性能;
(3)***与合并服务优化:在不同的应用场景中,选择不同的***或合并策略,降低对***服务的依赖,提高服务的性能;
第三步,对HDFS的大规模小文件进行标记法优化:
首先,对Hbase中存储的小文件元数据增加一个状态标志位,每次操作会进行会进行文件大小判断,并对其进行相应处理,更新标志位;
其次,采用“标记法”对Mapfile打包小文件时的增删改查进行处理,保证了小文件存储访问的效率。
所述的设置负载均衡中,Region数量包括全局计划、随机计划、批量启动计划三种,每种计划适应不同的应用场景,有利于发挥的***最大性能,提高响应速度,降低负载集中的风险。
方案的GC搭配为CMS+ParNew。
所述第三步中该状态标志位可能的取值为“HdfsLargeFile”,“HdfsMapflie”,“LocalSmallFile”以及“Deleted”四种。
本发明基于Hadoop架构的全景大数据分布式存储技术通过为智能电网中的各种电力***计算与应用进行服务,实现负荷预测与风险评估等功能,并将具体的计算任务提交给该分布式存储计算平台,然后利用高效的大数据分析和计算处理能力快速响应技术反馈,并对智能电网全景大数据常规监控和突发故障的运维分析进行改进,对于电力大数据分布式存储技术的存储冗余优化处理、快速访问高效率、高可靠灾备安全性有显著改进。
附图说明
图1为本发明流程图。
具体实施方式
如图1所示,本发明包括以下步骤:
第一步,基于分布式数据存储和访问的Hbase表优化设计,具体如下:
首先,对分布式数据库行键设计,在Hbase设计中,行键设计是最关键的部分,直接关系到后续服务的访问性能。如果行键设计不合理,对于后续查询服务会造成很大影响,效率会成倍递减,以下为设计过程遵循规则:
(1)避免使用单调递增行键;使用Hbase的过程中,在进行单线程全表扫描时,可以发现所有的请求会集中在单个Region上,并且只有在完成当前Region所有扫描之后,再进行下一个Region,如果存储的Region集中在一个节点上,就容易造成单结点的负载过高,所以需要避免发生这种情况。
(2)行键与列族关系为一对多的关系,同一个行键可以在同一个表的每个列族中存在而不会冲突;
(3)行键长度最小化设计:短到可读;由于对于查询需求(Get或者Scan),短键并不比长键性能好多少,所以设计行键需要权衡长度,既要满足语义,又要尽可能地缩短以降低存储空间;在Hbase中,值是作为一个单元保存在***中的,要定位一个单元,需要行键、列名和时间戳。通常情况下,由于Hbase存储文件StoreFile中使用索引部分来加速值的随机访问,如果行键和列名太大,访问一个单元的“位置坐标”太大,将会占用很大的内存,索引可能会被用尽。
(4)行键进行固定设置:开始设计时需要满足不同业务需求对行键进行定义;
行键不能改变,可以先删除后然后再***,所以开始设计时需要注意定义满足不同业务需求的行键,如若不然则会耗费不小的代价进行数据转换。
然后,对分布式数据库的列族进行优化设计,优化规则具体如下:
(1)列族的数量设计中,在Hbase的表单设计中使用一个列族:只有你的所有查询操作只访问一个列族的时候,可以引入第二个和第三个列族。
(2)所述的列族名的长度为一到两个字符;基于前面提到的节省存储空间的原因,要最大化减小列族的长度,最好是一到两个字符。
(3)列族的基数设计
列族的基数即行数,如果表存在多个列族,其中列族A有100万行,列族B有10亿行,那么列族A可能被分散到很多的Region或者RegionServer中,这会导致扫描列族A时性能低下。
基于前面提到的节省存储空间的原因,列族名长度设计时要减小列族的长度,最好是一到两个字符。列族的基数设计中,由于列族的基数即行数,如果表中存在多个列族,其中列族A有100万行,列族B有10亿行,那么列族A可能被分散到很多的Region或者RegionServer中,这会导致扫描列族A时性能低下。
第二步,对Hbase***性能进行优化:
(1)设置负载均衡:调整不同的Region数量以适应不同的场景要求,包括全局计划、随机计划、批量启动计划三种,每种计划适应不同的应用场景,有利于发挥的***最大性能,提高响应速度,降低负载集中的风险。
(2)JVM优化:调整不同的JVM参数以满足***的具体要求,选择不同的Java垃圾回收机制提高JVM的性能,成熟方案的GC搭配通常为CMS+ParNew。
(3)***与合并服务优化:在不同的应用场景中,选择不同的***或合并策略,降低对***服务的依赖,提高服务的性能;
第三步,对HDFS的大规模小文件进行标记法进行优化存储:
采用“标记法”对Mapfile打包小文件时的增删改查进行处理,保证了小文件存储访问的效率,首先对Hbase中存储的小文件元数据增加一个状态标志位,该状态位可能的取值为“HdfsLargeFile”,“HdfsMapflie”,“LocalSmallFile”以及“Deleted”四种。每次操作会进行会进行文件大小判断,并对其进行相应处理,更新标志位。
在大规模小文件处理背景中,文件的存储形式探讨就成为了保证***性能的重要部分。HDFS存在普遍的小文件存储的通病,对小文件的读取通常会造成大量从datanode到datanode的seeks和hopping来retrieve文件,而这样是非常的低效的一种访问方式。因此对于大小远小于HDFS的块大小的文件,需要进行处理后再存入HDFS中。
由于小文件存储在HDFS的特殊环境,因此文件的增删改查操作需要进行特殊的处理。mapfile不支持追加写入操作,这样每次进行操作需要对原mapfile文件进行覆盖写入效率低下。为了实现相应功能,我们对Hbase中存储的小文件元数据增加一个状态标志位,该状态位可能的取值为“HdfsLargeFile”,“HdfsMapflie”,“LocalSmallFile”以及“Deleted”四种。每次操作会进行会进行文件大小判断,并对其进行相应处理,更新标志位。
Hadoop提供了HARfile、Sequencefile、Mapfile几种方式可供选择。结合电力***中产生的大量文本文档和图片文件的存储和查询需求,我们采用Mapfile作为小文件的容器存储。由于HDFS默认块大小为64M,而若对于所有小于64M的文件均进行打包,则会加大打包文件的过程的资源损耗,因此需要定一个阈值(例如4M),当文件大小超过该阈值后进行打包操作,否则直接通过namenode进行上传。我们可以采用“标记法”对Mapfile打包小文件时的增删改查进行处理,保证了小文件存储访问的效率。
本发明以某电力公司电力大数据平台搭建为实施例进行实施进行说明,关于数据量的估算,可以使用“序号1 用电信息采集”来计算,假设每一条信息具有“时间,设备编号,数据”三个信息,每个信息是int64类型,则每一条信息量约为50byte,每一年的数据量为如表1所示:
表1
设计分布式存储***的硬件架构可以根据上述信息采用4TB(单机)×5的方式进行存储。根据图1所示分布式存储***架构框图,大数据存储部分从底层向上可以分为以下几个***组成部分:
***组件1:Linux集群
根据实际需求计算并设计单个计算机***的硬件配置,并安装优化后的Linux***来通过千兆网络交换机进行通信,最终组成一个基于Linux***的存储服务器集群。硬件初步设计为5台机器组成的分布式存储***,分为两种规格:
(1)2CPU * 12核 128G 内存(8G*8) 1T硬盘 (sata) 7200转/min(1台)
(2)2CPU * 12核 64G 内存( 4T硬盘 (sata) 7200转/min (4台)
具体硬件规格参照下表:表2所示
表2
***组件2:HDFS文件***
Hadoop分布式文件*** ( Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问文件***中的数据。
***组件3:Hbase数据库
实施例基于谷歌BigTable进行建模,构建开源的非关系型分布式数据库Hbase运行于HDFS文件***之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。Hbase在列上实现了BigTable论文提到的压缩算法、内存操作和布隆过滤器。Hbase的表能够作为MapReduce任务的输入和输出,可以通过Java API来存取数据,也可以通过REST、Avro或者Thrift的API来访问。
***组件4:OpenTSDB:
利用OpenTSDB使用Hbase作为存储中心,它无须采样,可以完整的收集和存储上亿的数据点,支持秒级别的数据监控,得益于Hbase的分布式列式存储,Hbase可以灵活的支持metrics的增加,可以支持上万机器和上亿数据点的采集。在OpenTSDB中,TSD是Hbase对外通信的daemon程序,没有master/slave之分,也没有共享状态,因此利用这点和Hbase集群的特点就可以消除单点。用户可以通过telnet或者http协议直接访问TSD接口,也可以通过rpc访问TSD。
根据实施例***搭建,基于Hadoop架构的全景大数据分布式存储技术是为智能电网中的各种电力***计算与应用进行服务,实现负荷预测与风险评估等功能,并最终将具体的计算任务提交给该分布式存储计算平台,然后利用高效的大数据分析和计算处理能力快速响应技术反馈,该规范对智能电网全景大数据常规监控和突发故障的运维分析改进具有重大的意义。

Claims (4)

1.一种基于hadoop的全景大数据分布式存储方法,其特征在于:包括以下步骤:
第一步,基于分布式数据存储和访问的Hbase表优化设计,具体如下:
首先,对分布式数据库行键设计,且设计过程遵循下述规则:
(1)避免使用单调递增行键;
(2)行键与列族关系为一对多的关系,同一个行键可以在同一个表的每个列族中存在而不会冲突;
(3)行键长度最小化设计:由于设计行键需要权衡长度,既要满足语义,又要尽可能地缩短以降低存储空间,所有以短到可读为标准;
然后,对分布式数据库的列族进行优化设计,优化规则具体如下:
(1)列族的数量设计中,在Hbase的表单设计中使用一个列族:只有你的所有查询操作只访问一个列族的时候,可以引入第二个和第三个列族;
(2)所述的列族名的长度为一到两个字符;
第二步,对Hbase***性能进行优化:
(1)设置负载均衡:调整不同的Region数量以适应不同的场景要求;
(2)对JVM进行优化:调整不同的JVM参数以满足***的具体要求,选择不同的Java垃圾回收机制提高JVM的性能;
(3)***与合并服务优化:在不同的应用场景中,选择不同的***或合并策略,降低对***服务的依赖,提高服务的性能;
第三步,对HDFS的大规模小文件进行标记法优化:
首先,对Hbase中存储的小文件元数据增加一个状态标志位,每次操作会进行会进行文件大小判断,并对其进行相应处理,更新标志位;
其次,采用“标记法”对Mapfile打包小文件时的增删改查进行处理,保证了小文件存储访问的效率。
2.根据权利要求1所述的基于hadoop的全景大数据分布式存储技术,其特征在于:所述的设置负载均衡中,Region数量包括全局计划、随机计划、批量启动计划三种,每种计划适应不同的应用场景,有利于发挥的***最大性能,提高响应速度,降低负载集中的风险。
3.根据权利要求2所述的基于hadoop的全景大数据分布式存储技术,其特征在于:方案的GC搭配为CMS+ParNew。
4.根据权利要求3所述的基于hadoop的全景大数据分布式存储技术,其特征在于:所述第三步中该状态标志位可能的取值为“HdfsLargeFile”,“HdfsMapflie”,“LocalSmallFile”以及“Deleted”四种。
CN201610397090.1A 2016-06-07 2016-06-07 一种基于hadoop的全景大数据分布式存储方法 Pending CN106055678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610397090.1A CN106055678A (zh) 2016-06-07 2016-06-07 一种基于hadoop的全景大数据分布式存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610397090.1A CN106055678A (zh) 2016-06-07 2016-06-07 一种基于hadoop的全景大数据分布式存储方法

Publications (1)

Publication Number Publication Date
CN106055678A true CN106055678A (zh) 2016-10-26

Family

ID=57170461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610397090.1A Pending CN106055678A (zh) 2016-06-07 2016-06-07 一种基于hadoop的全景大数据分布式存储方法

Country Status (1)

Country Link
CN (1) CN106055678A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940627A (zh) * 2017-03-24 2017-07-11 联想(北京)有限公司 一种数据处理方法及服务器集群
CN107341198A (zh) * 2017-06-16 2017-11-10 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询方法
CN109522311A (zh) * 2018-11-20 2019-03-26 北京锐安科技有限公司 数据存储方法、装置、服务器和存储介质
CN109657009A (zh) * 2018-12-21 2019-04-19 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN109889500A (zh) * 2019-01-18 2019-06-14 广州信安数据有限公司 电网数据开放运营平台
CN110019247A (zh) * 2018-08-16 2019-07-16 比亚迪股份有限公司 数据存储以及查询方法、装置和监控***
CN112015733A (zh) * 2020-08-04 2020-12-01 国家电网有限公司客户服务中心 一种电力客服营配业务海量数据存储及快速查询方法
CN113553300A (zh) * 2021-07-27 2021-10-26 北京字跳网络技术有限公司 文件的处理方法、装置、可读介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282668A1 (en) * 2012-04-20 2013-10-24 Cloudera, Inc. Automatic repair of corrupt hbases
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN105321124A (zh) * 2015-11-23 2016-02-10 南京信息工程大学 一种基于Hadoop的电力云平台设计方案
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282668A1 (en) * 2012-04-20 2013-10-24 Cloudera, Inc. Automatic repair of corrupt hbases
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN105321124A (zh) * 2015-11-23 2016-02-10 南京信息工程大学 一种基于Hadoop的电力云平台设计方案

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
施志林: "时空数据分布式存储研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940627A (zh) * 2017-03-24 2017-07-11 联想(北京)有限公司 一种数据处理方法及服务器集群
CN106940627B (zh) * 2017-03-24 2020-08-25 联想(北京)有限公司 一种数据处理方法及服务器集群
CN107341198A (zh) * 2017-06-16 2017-11-10 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询方法
CN110019247A (zh) * 2018-08-16 2019-07-16 比亚迪股份有限公司 数据存储以及查询方法、装置和监控***
CN109522311A (zh) * 2018-11-20 2019-03-26 北京锐安科技有限公司 数据存储方法、装置、服务器和存储介质
CN109657009A (zh) * 2018-12-21 2019-04-19 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN109657009B (zh) * 2018-12-21 2021-03-12 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN109889500A (zh) * 2019-01-18 2019-06-14 广州信安数据有限公司 电网数据开放运营平台
CN112015733A (zh) * 2020-08-04 2020-12-01 国家电网有限公司客户服务中心 一种电力客服营配业务海量数据存储及快速查询方法
CN113553300A (zh) * 2021-07-27 2021-10-26 北京字跳网络技术有限公司 文件的处理方法、装置、可读介质和电子设备
CN113553300B (zh) * 2021-07-27 2024-05-24 北京字跳网络技术有限公司 文件的处理方法、装置、可读介质和电子设备

Similar Documents

Publication Publication Date Title
CN106055678A (zh) 一种基于hadoop的全景大数据分布式存储方法
US10769148B1 (en) Relocating data sharing operations for query processing
US10942812B2 (en) System and method for building a point-in-time snapshot of an eventually-consistent data store
CN110196871B (zh) 数据入库方法和***
US9158843B1 (en) Addressing mechanism for data at world wide scale
CN110032604B (zh) 数据存储装置、转译装置及数据库访问方法
CN102054025B (zh) 交通信息资源整合处理方法及***
CN107515878B (zh) 一种数据索引的管理方法及装置
CN111324610A (zh) 一种数据同步的方法及装置
Wang et al. Research and implementation on spatial data storage and operation based on Hadoop platform
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及***
Liang et al. Express supervision system based on NodeJS and MongoDB
CN102917009B (zh) 一种基于云计算技术的股票数据采集和存储方法和***
CN107343021A (zh) 国网云中应用的一种基于大数据的日志管理***
CN103473696A (zh) 一种收集、分析和分发网络商业信息的方法和***
CN103019728A (zh) 一种高效复杂报表解析引擎及其解析方法
CN104090901A (zh) 一种对数据进行处理的方法、装置及服务器
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据***
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN104933173A (zh) 一种用于异构多数据源的数据处理方法、装置和服务器
CN106383720A (zh) 一种软件产品原型的云端分享协作方法
CN104111936A (zh) 数据查询方法和***
CN103810272A (zh) 一种数据处理方法和***
Savitha et al. Mining of web server logs in a distributed cluster using big data technologies
CN112860777A (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026