CN110990340B - 一种大数据多层次存储架构 - Google Patents

一种大数据多层次存储架构 Download PDF

Info

Publication number
CN110990340B
CN110990340B CN201911103255.XA CN201911103255A CN110990340B CN 110990340 B CN110990340 B CN 110990340B CN 201911103255 A CN201911103255 A CN 201911103255A CN 110990340 B CN110990340 B CN 110990340B
Authority
CN
China
Prior art keywords
level
data
analysis
big data
service module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911103255.XA
Other languages
English (en)
Other versions
CN110990340A (zh
Inventor
冯报安
杨晶生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co ltd
Original Assignee
Shanghai Microphone Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co ltd filed Critical Shanghai Microphone Culture Media Co ltd
Priority to CN201911103255.XA priority Critical patent/CN110990340B/zh
Publication of CN110990340A publication Critical patent/CN110990340A/zh
Application granted granted Critical
Publication of CN110990340B publication Critical patent/CN110990340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据存储技术领域,尤其是涉及一种大数据多层次存储***,包括三个层次,三个所述层次分别为层级一、层级二和层级三;所述层级一包括以下步骤:只保存热点数据;使用Hbase来提供低延迟的随机读写;使用SSD硬盘来作为硬件提供良好性能;所述层级二包括以下步骤:保存相对热门数据;使用Spark来提供高效的大规模分析计算;使用开源的ApacheHadoop分布式文件***来存储数据;数据存储使用Parquet格式,来提升Spark计算效率。本发明提出利用不同大数据框架和技术搭建多层次的大数据架构平台,针对不同的使用场景运用不同的技术和解决方案,提升业务性能和降低计算时间以及硬件成本。

Description

一种大数据多层次存储架构
技术领域
本发明涉及大数据存储技术领域,尤其涉及一种大数据多层次存储架构。
背景技术
随着业务和时间的不断发展,用户以及产品相关的数据量的持续扩大,传统的单数据库或者单模型存储的方式已经无法满足日益增长的大数据需求,如:即需要在短的延迟内从大量的数据中读出特定用户相关的个人数据,又要对大范围的用户数据进行批量的长时间跨度的分析运算等等。
另外,以前的传统关系型数据库当单表的数据量不断增大之后,会对读写的性能有着极大的性能的负面影响,最终导致的服务的不可用。然而现代的大数据工具也有着各自的使用场景的限制,如适合随机读写的存储不适合批量大范围读写,反之亦然。同时因为数据量的增大,随之而来的存储设备所带来的成本的上升,这也是当下不可忽视的问题。
因此,现在需要一个新的架构满足不同的使用场景下的数据随机读写和批量读写的性能要求。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种大数据多层次存储架构。
为了实现上述目的,本发明采用了如下技术方案:
一种大数据多层次存储架构,包括三个层次,三个所述层次分别为层级一、层级二和层级三;
所述层级一包括以下步骤:
S1、只保存热点数据(如7天);
S2、使用Hbase来提供低延迟的随机读写;
S3、使用SSD硬盘来作为硬件提供良好性能;
所述层级二包括以下步骤:
A1、保存相对热门数据(如180天);
A2、使用Spark来提供高效的大规模分析计算;
A3、使用开源的ApacheHadoop分布式文件***(HDFS)来存储数据;
A4、数据存储使用Parquet格式,来提升Spark计算效率;
所述层级三包括以下步骤:
B1、使用Hive,HDFS来保存全部的数据;
B2、数据按照日期进行分组,方便查询某一个时间段内的数据。
在上述的一种大数据多层次存储架构中,所述层级一内设置有后台服务模块,所述后台服务模块与外部的前台服务模块连接,且后台服务模块与Hbase和SSD硬盘之间双向连接,所述后台服务模块受制于外部的Kafka分布式消息***。
在上述的一种大数据多层次存储架构中,所述层级二中的数据以一定的方式进行索引分组,以提升查询效率,并且层级二使用性能相对较好,价格适中的混合硬盘来作为硬件,所述层级二中包含Spark框架,所述后台服务模块的输出端与Spark框架连接,所述Spark框架与外部的分析服务模块连接,且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。
在上述的一种大数据多层次存储架构中,所述层级三使用价格低但价格与存储比高的HDD盘作为硬件,所述Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。
在上述的一种大数据多层次存储架构中,所述分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法。
在上述的一种大数据多层次存储架构中,所述大数据分析根据实时要求分为实时分析和离线分析,大数据分析按照层次的不同分为内存级分析、BI分析和海量分析。
与现有技术相比,本一种大数据多层次存储架构的优点在于:
1、创新之处在于将数据分为三类:冷、温和热,分别对应:
1.十分低频访问的历史数据。
2.相对热点但只用于批量计算,无需实时访问读取的随机数据。
3.最热点最新的数据。需要对线上服务提供低延迟的随机读写。同时对于不同的数据进行分层,不同的层次通过使用不同的技术框架和硬件设备,来解决不同的需求。
2、对于需要随机读写的热点数据,使用Hbase和SSD硬盘来提供平均20ms的随机读性能,对于大规模分析计算,使用Spark、Parquet和混合硬盘,对比单一使用Hbase存储同样规模的数据,将性能提升了几十倍。保护点在于利用不同大数据框架和技术搭建多层次的大数据架构平台,针对不同的使用场景运用不同的技术和解决方案,提升业务性能和降低计算时间以及硬件成本。
附图说明
图1为本发明提出的一种大数据多层次存储架构的方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种大数据多层次存储架构,包括三个层次,三个层次分别为层级一、层级二和层级三;
层级一包括以下步骤:
S1、只保存热点数据(如7天);
S2、使用Hbase来提供低延迟的随机读写;
S3、使用SSD硬盘来作为硬件提供良好性能;
层级二包括以下步骤:
A1、保存相对热门数据(如180天);
A2、使用Spark来提供高效的大规模分析计算;
A3、使用开源的ApacheHadoop分布式文件***(HDFS)来存储数据;
A4、数据存储使用Parquet格式,来提升Spark计算效率;
层级三包括以下步骤:
B1、使用Hive,HDFS来保存全部的数据;
B2、数据按照日期进行分组,方便查询某一个时间段内的数据。
其中,层级一内设置有后台服务模块,后台服务模块与外部的前台服务模块连接,且后台服务模块与Hbase和SSD硬盘之间双向连接,后台服务模块受制于外部的Kafka分布式消息***。
其中,层级二中的数据以一定的方式进行索引分组,以提升查询效率,并且层级二使用性能相对较好,价格适中的混合硬盘来作为硬件,层级二中包含Spark框架,后台服务模块的输出端与Spark框架连接,Spark框架与外部的分析服务模块连接,且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。
具体的,分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法,更具体的,布隆过滤器是由一个位数组和一系列的哈希函数组成。布隆过滤器的原理是通过利用位数组来存储数据本身之外的数据的哈希值。位数组本质上是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。布隆过滤器算法的核心思想:利用多个不同的哈希函数来解决“冲突”;散列法是一种将数据变换为较短的固定长度数值或索引值的基本方法。特点:快速读取、快速写入和高查询速度;索引法是减少磁盘读取和写入成本的有效方法。索引法能够提高***、删除、修改和查询速度,索引一般分为两类:聚集索引和非聚集索引。例子是索引类似于书籍的目录;字典树又称单词查找树,是一种哈希树的变体,它主要应用于快速检索和字频统计,主要思想是:利用字符串的常见前缀来最大限度地减少字符串的比较,从而提高查询效率;并行计算是指利用若干计算资源来完成计算任务,其基本思想是:分解一个问题并将其分配给几个独立的进程,以便独立完成,从而实现协同处理,另外,大数据分析可以根据实时要求分为实时分析和离线分析,大数据分析按照层次的不同还可以分为内存级分析、BI分析和海量分析。
其中,层级三使用价格低但价格与存储比高的HDD盘作为硬件,Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。
本发明解决了之前利用单一结构或者单一数据库导致无法满足不同使用场景的局限性以及因为数据量的大规模,单一数据库无法使用不用类型的硬盘,从而不得不统一使用价格昂贵的高性能硬盘,导致硬件成本的上升。
通过将数据分类,根据不同的使用场景,热点数据小而性能要求高,则使用价格高同时性能也好的SSD硬盘,这样在性能大幅度提升的同时,成本也得到了控制;对于需要进行大规模分析计算的相对热的数据,使用价格适中的混合硬盘,来存储一部分的数据,同时运用Parquet数据格式提升分析的性能;最后使用性能低但是价格低廉的HDD硬盘来存储全量的数据,是考虑到历史数据的访问频率是非常低频的。
最终取得了即能满足线上服务对于最新数据的高性能读写的要求,也能满足线下的分析计算的性能提升,同时也降低了整个存储集群的硬件消耗成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其实用新型构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种大数据多层次存储***,其特征在于,包括三个层次,三个所述层次分别为层级一、层级二和层级三;
所述层级一包括以下步骤:
S1、只保存热点数据或者只保存7天内的热点数据;
S2、使用Hbase来提供低延迟的随机读写;
S3、使用SSD硬盘来作为硬件提供良好性能;
所述层级二包括以下步骤:
A1、保存相对热门数据或者保存180天内的相对热门数据;
A2、使用Spark来提供高效的大规模分析计算;
A3、使用开源的ApacheHadoop分布式文件***HDFS来存储数据;
A4、数据存储使用Parquet格式,来提升Spark计算效率;
所述层级三包括以下步骤:
B1、使用Hive,HDFS来保存全部的数据;
B2、数据按照日期进行分组,方便查询某一个时间段内的数据。
2.根据权利要求1所述的一种大数据多层次存储***,其特征在于,所述层级一内设置有后台服务模块,所述后台服务模块与外部的前台服务模块连接,且后台服务模块与Hbase和SSD硬盘之间双向连接,所述后台服务模块受制于外部的Kafka分布式消息***。
3.根据权利要求2所述的一种大数据多层次存储***,其特征在于,所述层级二中的数据按照索引分组,以提升查询效率,并且层级二使用混合硬盘来作为硬件,所述层级二中包含Spark框架,所述后台服务模块的输出端与Spark框架连接,所述Spark框架与外部的分析服务模块连接,且Spark框架与HDFS、Parquet格式和混合硬盘之间双向连接。
4.根据权利要求3所述的一种大数据多层次存储***,其特征在于,所述层级三使用价格低但价格与存储比高的HDD盘作为硬件,所述Spark框架的输出端分别与HDFS、Hive和HDD硬盘连接。
5.根据权利要求3所述的一种大数据多层次存储***,其特征在于,所述分析服务模块包括布隆过滤器、散列法、索引法、字典树和并行计算的分析方法。
6.根据权利要求5所述的一种大数据多层次存储***,其特征在于,所述大数据分析根据实时要求分为实时分析和离线分析,大数据分析按照层次的不同分为内存级分析、BI分析和海量分析。
CN201911103255.XA 2019-11-12 2019-11-12 一种大数据多层次存储架构 Active CN110990340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911103255.XA CN110990340B (zh) 2019-11-12 2019-11-12 一种大数据多层次存储架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911103255.XA CN110990340B (zh) 2019-11-12 2019-11-12 一种大数据多层次存储架构

Publications (2)

Publication Number Publication Date
CN110990340A CN110990340A (zh) 2020-04-10
CN110990340B true CN110990340B (zh) 2024-04-12

Family

ID=70084117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911103255.XA Active CN110990340B (zh) 2019-11-12 2019-11-12 一种大数据多层次存储架构

Country Status (1)

Country Link
CN (1) CN110990340B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112051968B (zh) * 2020-08-07 2021-10-22 东北大学 基于Kafka的分布式数据流分级缓存自动迁移方法
CN113407577B (zh) * 2021-06-29 2023-06-23 成都新潮传媒集团有限公司 一种kafka数据的查询方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713861A (zh) * 2014-01-09 2014-04-09 浪潮(北京)电子信息产业有限公司 一种基于层次划分的文件处理方法及***
CN104133909A (zh) * 2014-08-08 2014-11-05 浪潮电子信息产业股份有限公司 一种多层次文件***
WO2017096941A1 (zh) * 2015-12-11 2017-06-15 深圳市华讯方舟软件技术有限公司 一种基于Spark-SQL大数据处理平台的后台刷新方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713861A (zh) * 2014-01-09 2014-04-09 浪潮(北京)电子信息产业有限公司 一种基于层次划分的文件处理方法及***
CN104133909A (zh) * 2014-08-08 2014-11-05 浪潮电子信息产业股份有限公司 一种多层次文件***
WO2017096941A1 (zh) * 2015-12-11 2017-06-15 深圳市华讯方舟软件技术有限公司 一种基于Spark-SQL大数据处理平台的后台刷新方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张骁 ; 应时 ; 张韬 ; .应用软件运行日志的收集与服务处理框架.计算机工程与应用.2017,(10),全文. *
郭慈 ; 廖振松 ; .基于Spark核心架构的大数据平台技术研究与实践.电信工程技术与标准化.2016,(10),全文. *

Also Published As

Publication number Publication date
CN110990340A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US11741053B2 (en) Data management system, method, terminal and medium based on hybrid storage
US20200117661A1 (en) Large scale application specific computing system architecture and operation
US8819335B1 (en) System and method for executing map-reduce tasks in a storage device
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN103106249B (zh) 一种基于Cassandra的数据并行处理***
CN103246616B (zh) 一种长短周期访问频度的全局共享缓存替换方法
WO2019109732A1 (zh) 一种基因变异数据分布式存储方法及架构
CN102521405A (zh) 支持高速加载的海量结构化数据存储、查询方法和***
CN102622434B (zh) 数据存储方法、查找方法及装置
CN110990340B (zh) 一种大数据多层次存储架构
Veeraiah et al. An efficient data duplication system based on hadoop distributed file system
WO2012083754A1 (zh) 处理脏数据的方法及装置
CN111159176A (zh) 一种海量流数据的存储和读取的方法和***
CN109783441A (zh) 基于Bloom Filter的海量数据查询方法
CN113268457B (zh) 一种支持高效写的自适应学习索引方法和***
Zhang et al. Oceanrt: Real-time analytics over large temporal data
El Alami et al. Supply of a key value database redis in-memory by data from a relational database
US8396858B2 (en) Adding entries to an index based on use of the index
CN110888861A (zh) 一种新型大数据存储方法
CN103841168B (zh) 数据副本更新方法及元数据服务器
CN109471864A (zh) 一种面向并行文件***双层索引方法和***
CN116089414B (zh) 基于海量数据场景的时序数据库写入性能优化方法及装置
CN106909623A (zh) 一种支持高效海量数据分析和检索的数据装置及数据存储方法
CN103995869A (zh) 一种基于Apriori算法的数据缓存方法
CN110688386A (zh) 面向新型供电轨道交通大数据的分布式列族数据索引方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant