CN106446145A - 一种基于Hadoop的大数据索引快速创建方法 - Google Patents

一种基于Hadoop的大数据索引快速创建方法 Download PDF

Info

Publication number
CN106446145A
CN106446145A CN201610837341.3A CN201610837341A CN106446145A CN 106446145 A CN106446145 A CN 106446145A CN 201610837341 A CN201610837341 A CN 201610837341A CN 106446145 A CN106446145 A CN 106446145A
Authority
CN
China
Prior art keywords
data
index
hadoop
big data
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610837341.3A
Other languages
English (en)
Inventor
魏金雷
张烨
刘安
孙思清
高传集
臧勇真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201610837341.3A priority Critical patent/CN106446145A/zh
Publication of CN106446145A publication Critical patent/CN106446145A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop的大数据索引快速创建方法,所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件,针对需拼接或需修改的数据,读取映射文件,相应数据组织成索引格式,利用分布式Hadoop集群的并发能力,通过执行MapReduce任务,将大数据自动分拆成数据段到集群中的每个机器中,并行运行。本发明针对目前动辄上亿条的数据建立索引,克服了传统单台机器创建索引时的种种缺点,减少了对高性能服务器的依赖,增强了工作稳定性,本发明有着环境易搭建、处理海量数据速度快且拥有良好的扩展性,具有很好的推广使用价值。

Description

一种基于Hadoop的大数据索引快速创建方法
技术领域
本发明涉及计算机软件应用技术领域,具体涉及一种基于Hadoop的大数据索引快速创建方法。
背景技术
随着信息数据量的增大,单服务器的环境难以满足搜索引擎构建大规模数据索引的时空开销需求,因此如何实施高效信息索引越来越受到人们的关注。特别是近些年,由于网络信息的***式增长,仅靠升级计算机硬件设备来提高数据处理的能力,已经不能适应信息的增长速度和信息处理效率的需求,研究者开始探索能够应对和处理庞大信息数据问题的策略。
单台计算机在构建大数据倒排索引时出现的两个问题:1)数据量越大,构建的时间越长,效率越低;2)建立倒排索引的单个文档不能过大,否则会导致机器内存不足问题,引起死机。
Hadoop作为一个开源的分布式***基础架构,如今已成为国内外云计算热门研究对象。Hadoop的HDFS分布式存储和MapReduce分布式计算框架提供了高可靠性的分布式存储和高速的海量数据计算。前者是一个面向海量数据密集型应用的、可扩展的分布式文件***,可在多台廉价的计算机上运行,具有强大的纠错功能,为用户提供可靠的服务;后者是实现对超大数据集的处理和生成算法的分布式编程模型,用户可以在不了解分布式底层细节的情况下开发分布式程序,并充分利用计算机集群的协作能力实现事物的高效运算。Hadoop这一技术使得高效建立大规模索引成为可能。
发明内容
本发明要解决的技术问题是:本发明针对以上问题,提供一种基于Hadoop的大数据索引快速创建方法,针对目前动辄上亿条的数据建立索引,克服了传统单台机器创建索引时的种种缺点,减少了对高性能服务器的依赖,增强了工作稳定性,且拥有较好的可扩展性,便于推广应用。
本发明所采用的技术方案为:
一种基于Hadoop的大数据索引快速创建方法,所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件,针对需拼接或需修改的数据,读取映射文件,相应数据组织成索引格式,利用分布式Hadoop集群的并发能力,通过执行MapReduce任务,将大数据自动分拆成数据段到集群中的每个机器中,并行运行,几何倍数的增加工作效率。
通过创建映射配置文件,增强了灵活性和实用性,只需通过修改配置文件即可针对不同的Hbase表建立索引。
所述方法在创建索引前,通过“能否更新”判断机制,对于已经建立过索引的数据,直接跳过,减少不必要的性能损耗,达到索引增量更新的目的。
所述方法采用Nginx负载均衡自动分发机制,向Solr中创建索引,通过配置了Nginx负载均衡的分布式Solr,将接收到的创建索引请求自动分发到相对空闲的Solr主机,进行索引的创建。
Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个 IMAP/POP3/SMTP服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本0.1.0发布于2004年10月4日,其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低***资源的消耗而闻名,2011年6月1日,nginx 1.0.4发布。
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
本发明的有益效果为:
本发明针对目前动辄上亿条的数据建立索引,克服了传统单台机器创建索引时的种种缺点,减少了对高性能服务器的依赖,增强了工作稳定性,本发明有着环境易搭建、处理海量数据速度快且拥有良好的扩展性,具有很好的推广使用价值。
附图说明
图1为本发明方法流程图;
图2为MapReduce处理过程示意图。
具体实施方式
下面根据说明书附图,结合具体实施方式对本发明进一步说明:
实施例1:
一种基于Hadoop的大数据索引快速创建方法,所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件,针对需拼接或需修改的数据,读取映射文件,相应数据组织成索引格式,利用分布式Hadoop集群的并发能力,通过执行MapReduce任务,将大数据自动分拆成数据段到集群中的每个机器中,并行运行,几何倍数的增加工作效率,如图2所示。
通过创建映射配置文件,增强了灵活性和实用性,只需通过修改配置文件即可针对不同的Hbase表建立索引。
实施例2
如图1所示,在实施例1的基础上,本实施例所述方法在创建索引前,通过“能否更新”判断机制,对于已经建立过索引的数据,直接跳过,减少不必要的性能损耗,达到索引增量更新的目的。
实施例3
在实施例2的基础上,本实施例所述方法采用Nginx负载均衡自动分发机制,向Solr中创建索引,通过配置了Nginx负载均衡的分布式Solr,将接收到的创建索引请求自动分发到相对空闲的Solr主机,进行索引的创建。
Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个 IMAP/POP3/SMTP服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本0.1.0发布于2004年10月4日,其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低***资源的消耗而闻名,2011年6月1日,nginx 1.0.4发布。
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (3)

1.一种基于Hadoop的大数据索引快速创建方法,其特征在于,所述方法通过编写Hbase数据字段与需建索引字段之间的映射xml文件,针对需拼接或需修改的数据,读取映射文件,相应数据组织成索引格式,利用分布式Hadoop集群的并发能力,通过执行MapReduce任务,将大数据自动分拆成数据段到集群中的每个机器中,并行运行。
2.根据权利要求1所述的一种基于Hadoop的大数据索引快速创建方法,其特征在于,所述方法在创建索引前,通过“能否更新”判断机制,对于已经建立过索引的数据,直接跳过。
3.根据权利要求2所述的一种基于Hadoop的大数据索引快速创建方法,其特征在于,所述方法采用Nginx负载均衡自动分发机制,向Solr中创建索引,通过配置了Nginx负载均衡的分布式Solr,将接收到的创建索引请求自动分发到相对空闲的Solr主机,进行索引的创建。
CN201610837341.3A 2016-09-21 2016-09-21 一种基于Hadoop的大数据索引快速创建方法 Pending CN106446145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610837341.3A CN106446145A (zh) 2016-09-21 2016-09-21 一种基于Hadoop的大数据索引快速创建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610837341.3A CN106446145A (zh) 2016-09-21 2016-09-21 一种基于Hadoop的大数据索引快速创建方法

Publications (1)

Publication Number Publication Date
CN106446145A true CN106446145A (zh) 2017-02-22

Family

ID=58166666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610837341.3A Pending CN106446145A (zh) 2016-09-21 2016-09-21 一种基于Hadoop的大数据索引快速创建方法

Country Status (1)

Country Link
CN (1) CN106446145A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870114B2 (en) * 2007-06-15 2011-01-11 Microsoft Corporation Efficient data infrastructure for high dimensional data analysis
CN102426609A (zh) * 2011-12-28 2012-04-25 厦门市美亚柏科信息股份有限公司 一种基于MapReduce编程架构的索引生成方法和装置
CN103744878A (zh) * 2013-12-21 2014-04-23 云南大学 一种基于MapReduce的大规模贝叶斯网并行推理方法
CN104102710A (zh) * 2014-07-15 2014-10-15 浪潮(北京)电子信息产业有限公司 一种海量数据查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870114B2 (en) * 2007-06-15 2011-01-11 Microsoft Corporation Efficient data infrastructure for high dimensional data analysis
CN102426609A (zh) * 2011-12-28 2012-04-25 厦门市美亚柏科信息股份有限公司 一种基于MapReduce编程架构的索引生成方法和装置
CN103744878A (zh) * 2013-12-21 2014-04-23 云南大学 一种基于MapReduce的大规模贝叶斯网并行推理方法
CN104102710A (zh) * 2014-07-15 2014-10-15 浪潮(北京)电子信息产业有限公司 一种海量数据查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李青云: ""基于HBase的应用平台的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法

Similar Documents

Publication Publication Date Title
Benelallam et al. Neo4EMF, a scalable persistence layer for EMF models
US10223431B2 (en) Data stream splitting for low-latency data access
US20170155707A1 (en) Multi-level data staging for low latency data access
CN104331435B (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN106776783B (zh) 非结构化数据存储管理方法和***
CN104239572A (zh) 基于分布式缓存实现元数据分析的***及方法
CN103955510A (zh) 基于etl云平台上传的海量电力营销数据整合方法
CN103442036A (zh) 一种基于云平台的设计开发、后期制作及数据存储一体化***
CN106446099A (zh) 一种分布式云存储方法、***及其上传下载方法
CN107368578B (zh) 一种快速生成es查询语句的方法及***
CN107395674A (zh) 一种应用***访问异构区块链平台的方法及装置
CN102467412A (zh) 一种处理操作请求的方法、装置及业务***
CN110705891A (zh) 一种基于高可配可变更的数据处理方法
CN104516985A (zh) 一种基于HBase数据库的海量数据快速导入方法
Lee et al. Implementation of MapReduce-based image conversion module in cloud computing environment
CN106383896A (zh) 一种基于爬虫+RocketMQ的数据抓取分发方法
CN106446145A (zh) 一种基于Hadoop的大数据索引快速创建方法
Mangler et al. On the origin of services using riddl for description, evolution and composition of restful services
CN108121807B (zh) Hadoop环境下多维索引结构OBF-Index的实现方法
Gupta et al. Efficient query analysis and performance evaluation of the NoSQL data store for bigdata
Wang et al. A BSP-based parallel iterative processing system with multiple partition strategies for big graphs
US20220357935A1 (en) Optimizing services deployment in a cloud computing environment
Sun et al. Research on cloud computing application in the peer-to-peer based video-on-demand systems
CN204652428U (zh) 一种分布式数据库管理***
CN106897450A (zh) 一种基于HDFS海量数据快速导入HBase的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222