CN102426609A - 一种基于MapReduce编程架构的索引生成方法和装置 - Google Patents

一种基于MapReduce编程架构的索引生成方法和装置 Download PDF

Info

Publication number
CN102426609A
CN102426609A CN2011104463259A CN201110446325A CN102426609A CN 102426609 A CN102426609 A CN 102426609A CN 2011104463259 A CN2011104463259 A CN 2011104463259A CN 201110446325 A CN201110446325 A CN 201110446325A CN 102426609 A CN102426609 A CN 102426609A
Authority
CN
China
Prior art keywords
index
data recording
data
inverted index
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104463259A
Other languages
English (en)
Other versions
CN102426609B (zh
Inventor
兰轶伦
汤伟宾
章正道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN 201110446325 priority Critical patent/CN102426609B/zh
Publication of CN102426609A publication Critical patent/CN102426609A/zh
Application granted granted Critical
Publication of CN102426609B publication Critical patent/CN102426609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于MapReduce编程架构的索引生成方法和装置,其中方法包括步骤:获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;对记录集合中的每条数据记录进行头部封装;向HBase集群批量***经头部封装的数据记录;调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群;进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;进行Reduce操作,生成倒排索引文件;启动一个新的Map任务,对倒排索引文件进行分片操作,生成最终的索引。采用本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。

Description

一种基于MapReduce编程架构的索引生成方法和装置
技术领域
本发明涉及互联网信息技术领域,更具体地说,涉及一种基于MapReduce编程架构的索引生成方法和装置。
背景技术
传统的索引引擎(如:lucene及基于lucene的Solr)创建索引及管理索引的保存方式仍是基于文件的,该方式有多种弊端:
1、不适用与集群文件***保存,因为索引文件仍是大批量小文件,放在集群文件***上将使读写效率大幅下降;
2、不容易进行集群化扩展,在大量数据同时建立索引时,由于频繁的创建新分片、合并,易使索引引擎的响应时间提升,效率降低。
综合以上的分析可以发现:通过引进一种外部的管理方式来提升索引引擎本身的索引生成效率势在必行。
MapReduce(映射化简)***是一个最先由Google提出的分布式计算软件构架,通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理,可以用来解决大数据量的分布式计算问题,然后把计算后的结果放入文件***或者数据库中。
MapReduce***中,每一个map操作都是相对独立的,所有的map任务都是并行运行的,虽然实践中会受到数据源和中央处理器个数的影响。同样的,MapReduce***用一个reducer集合来执行reduce操作,所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效,但是MapReduce***能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群可以在几个小时内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能,当一个map操作或reduce操作失效时,整个工作就会被重新安排,从而不会影响数据处理工作的连续性。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于MapReduce编程架构的索引生成方法和装置,其能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
本发明解决其技术问题所采用的技术方案是:
构造一种基于MapReduce编程架构的索引生成方法,其中,包括步骤:
获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
对所述记录集合中的每条数据记录进行头部封装;
并行向HBase集群批量***经头部封装的数据记录;
调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
对所述HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
对所述HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明所述的索引生成方法,其中,,所述步骤:对所述记录集合中的每条数据记录进行头部封装,具体包括:
读取所述记录集合中的数据记录;
在所述数据记录头部添加标示值;
在添加有所述标示值的数据记录头部添加主键值。
本发明所述的索引生成方法,其中,所述步骤:进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件,具体包括:
扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件。
本发明所述的索引生成方法,其中,所述步骤:进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件,具体包括:
读取所述倒排索引中间文件;
汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
本发明所述的索引生成方法,其中,所述启动一个新的Map任务,对所述倒排索引文件进行分片操作,生成最终的索引具体包括:
对所述HBase集群中每一条数据记录的标示值进行运算;
根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明还提供了一种基于MapReduce编程架构的索引生成装置,其中,包括:
数据输入模块,用于获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
数据封装模块,用于对所述记录集合中的每条数据记录进行头部封装;
数据***模块,用于并行向HBase集群批量***经头部封装的数据记录;
事件通知模块,用于调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
Map并行预处理模块,用于对所述HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
Reduce并行预处理模块,用于对所述HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
Solr集群Map调度模块,用于启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明所述的索引生成装置,其中,所述数据封装模块包括:
记录读取单元,用于读取所述记录集合中的数据记录;
标示值添加单元,用于在所述数据记录头部添加标示值;
主键值添加单元,用于在添加有所述标示值的数据记录头部添加主键值。
本发明所述的索引生成装置,其中,所述Map并行预处理模块包括:
扫描单元,用于扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
第一汇总单元,用于汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件。
本发明所述的索引生成装置,其中,所述Reduce并行预处理模块包括:
中间文件读取单元,用于读取所述倒排索引中间文件;
第二汇总单元,用于汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
本发明所述的索引生成装置,其中,所述Solr集群Map调度模块包括:
标示值运算单元,用于对所述HBas e集群中每一条数据记录的标示值进行运算;
索引生成单元,用于根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
本发明的有益效果在于:通过对数据记录进行头部封装,并将经过头部封装的数据记录***到HBase集群中进行存储,再利用MapReduce编程架构下的Map操作和Reduce操作来对HBase集群中的数据记录进行处理,生成最终索引。通过本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明较佳实施例的基于MapReduce编程架构的索引生成方法流程图;
图2是本发明较佳实施例的数据记录封装过程示意图;
图3是本发明较佳实施例的索引生成方法中Map操作和Reduce操作过程示意图;
图4是本发明较佳实施例的索引生成方法中Solr集群Map操作过程示意图;
图5是本发明较佳实施例的数据检索流程图;
图6是本发明较佳实施例的基于MapReduce编程架构的索引生成装置原理框图;
图7是本发明较佳实施例的索引生成装置中数据封装模块原理框图;
图8是本发明较佳实施例的索引生成装置中Map并行预处理模块原理框图;
图9是本发明较佳实施例的索引生成装置中Reduce并行预处理模块原理框图;
图10是本发明较佳实施例的索引生成装置中Solr集群Map调度模块原理框图。
具体实施方式
本发明较佳实施例的基于MapReduce编程架构的索引生成方法S100流程如图1所示,该方法S100可采用硬件、软件或软硬件结合的方式实现。其起始于步骤S110。在步骤S120中,获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;在步骤S130中,对记录集合中的每条数据记录进行头部封装;在步骤S140中,并行向HBase集群批量***经头部封装的数据记录;在步骤S150中,调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;在步骤S160中,对HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;在步骤S170中,对HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;在步骤S180中,启动一个新的Map任务,对倒排索引文件进行分片操作,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。上述方法结束于步骤S190。通过本发明的方法能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
具体地,在上述步骤S120中,所获取的数据可以是任一种可转换成纯文本格式的数据。在接收到数据后,将其梳理成统一的与***关键字、保留字无冲突的纯文本格式,对***保留字符等特殊字符进行转义。例如:将数据中的引号(″)转换成为(\″)、将回车符用(\n)标示等。
上述步骤S130具体包括:读取记录集合中的数据记录;在数据记录头部添加标示值;在添加有标示值的数据记录头部添加主键值。具体封装过程如图2所示,在原始数据记录的头部依次添加标示值和主键值,得到新数据记录。其中主键值是通过对整条数据记录进行哈希取值,使其具有全局唯一性;标示值则使用通用唯一识别码(Universally Unique Identifier,UUID),以设定数据记录在后续步骤中的索引生成位置。
在上述步骤S140中,用于进行数据存储的HBase集群是一种非关系型数据库,其数据表现形式为一张<关键字,主键值>型的大表,用于作为MapReduce的数据仓库和暂存地。因此采用HBase集群可以提高数据处理量,以便于应对海量数据,且并行向HBase集群批量***数据记录可以提高数据***速度,提高索引生成效率。
上述步骤S160具体包括:扫描HBase集群中每一条数据记录,运用分词方法,将数据记录切分为多个关键字K的集合;汇总同一Map操作中具有相同关键字的数据记录对应的主键值V,形成倒排索引中间文件。上述步骤S170具体包括:读取倒排索引中间文件;汇总所有Map操作中具有相同关键字K的数据记录对应的主键值V,进行Reduce操作,形成倒排索引文件。Map操作和Reduce操作的过程如图3所示。图3中,HBase集群中包括n个数据记录:数据记录1、数据记录2、数据记录3……数据记录n,其中n为自然数。并行扫描HBase集群中每一条数据记录,对其中的n个数据记录进行n个并行的Map操作:Map操作1、Map操作2……Map操作n,再汇总同一Map操作中具有相同关键字K(包括K1、K2……Kn,K1x、K2y……Knz)的数据记录对应的主键值V(包括V1、V2……Vn,V1x、V2y……Vnz),生成倒排索引中间文件。通过将所有倒排索引中间文件中相同关键字K的主键值V进行汇总形成一个单一的主键值V:如V=(Value1,Value2,Value3……),汇总为统一的倒排索引文件。这样可以充分利用MapReduce编程架构下的多个节点,不同节点完成不同的工作,相互合作以共同完成任务;或者不同的节点都完成一样的工作,以保证可扩展性和容错性。
上述步骤S180过程如图4所示,具体包括:对HBase集群中每一条数据记录的标示值进行运算,即,启动一个新的Map服务,多个Map操作可并行执行,包括Map操作1、Map操作2……Map操作n,负责对倒排索引文件进行分片(split)操作,对标示值(id值)进行运算;根据标示值,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点(Solr集群节点1、Solr集群节点2……Solr集群节点n)上,生成最终的索引。而数据记录的详细内容仍保留在HBase集群上,这样可以提供所处理数据量,以及提高索引生成效率和数据查询效率。
当客户通过采用上述方法S100所生成的索引进行数据查询时,流程如图5所示,包括如下步骤:
步骤1,包括客户端输入搜索关键字步骤;在该步骤中,客户端输入查找关键字进行分词解析,以查找各个相关的数据记录内容,并访问Solr集群;
步骤2,包括数据记录的主键值及数据记录的标示值读取步骤;在该步骤中,返回每个关键字对应的数据记录的主键值及数据记录的标示值,以便读取HBase集群中的记录全文;
步骤3,包括全文内容集读取步骤;在该步骤中,通过上一步输出的数据记录的主键值及数据记录的标示值,读取HBase集群中的数据记录的全文内容集,并返回给客户端。
在本发明的另一实施例中,还提供了一种基于MapReduce编程架构的索引生成装置,如图6所示,其中包括:数据输入模块10,用于获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;数据封装模块20,用于对记录集合中的每条数据记录进行头部封装;数据***模块30,用于并行向HBase集群批量***经头部封装的数据记录;事件通知模块40,用于调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;Map并行预处理模块50,用于对HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;Reduce并行预处理模块60,用于对HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;Solr集群Map调度模块70,用于启动一个新的Map任务,对倒排索引文件进行分片操作,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。通过本发明的装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。
上述实施例中,数据输入模块10所获取的数据可以是任一种可转换成纯文本格式的数据,在接收数据后,将其梳理成统一的与***关键字、保留字无冲突的纯文本格式,对***保留字符等特殊字符进行转义。例如:将数据中的引号(″)转换成为(\″)、将回车符用(\n)标示等。
上述实施例中,用于进行数据存储的HBase集群是一种非关系型数据库,其数据表现形式为一张<关键字,主键值>型的大表,用于作为MapReduce的数据仓库和暂存地。因此采用HBase集群可以提高数据处理量,以便于应对海量数据,且并行向HBase集群批量***数据记录可以提高数据***速度,提高索引生成效率。
进一步地,如图7所示,上述实施例中索引生成装置的数据封装模块20包括:记录读取单元21,用于读取记录集合中的数据记录;标示值添加单元22,用于在数据记录头部添加标示值;主键值添加单元23,用于在添加有标示值的数据记录头部添加主键值。具体封装过程如图2所示,在原始数据记录的头部依次添加标示值和主键值,得到新数据记录。其中主键值是通过对整条数据记录进行哈希取值,使其具有全局唯一性;标示值则使用通用唯一识别码(Universally Unique Identifier,UUID),以设定数据记录在后续步骤中的索引生成位置。
进一步地,如图8和图9所示,上述实施例中索引生成装置的Map并行预处理模块50包括:扫描单元51,用于扫描HBase集群中每一条数据记录,运用分词方法,将数据记录切分为多个关键字K的集合;第一汇总单元52,用于汇总同一Map操作中具有相同关键字的数据记录对应的主键值V,形成倒排索引中间文件。上述实施例中索引生成装置的Reduce并行预处理模块60包括:中间文件读取单元61,用于读取倒排索引中间文件;第二汇总单元62,用于汇总所有Map操作中具有相同关键字K的数据记录对应的主键值V,进行Reduce操作,形成倒排索引文件。Map操作和Reduce操作的过程如图3所示。图3中,HBase集群中包括n个数据记录:数据记录1、数据记录2、数据记录3……数据记录n,其中n为自然数。并行扫描HBase集群中每一条数据记录,对其中的n个数据记录进行n个并行的Map操作:Map操作1、Map操作2……Map操作n,再汇总同一Map操作中具有相同关键字K(包括K1、K2……Kn,K1x、K2y……Knz)的数据记录对应的主键值V(包括V1、V2……Vn,V1x、V2y……Vnz),生成倒排索引中间文件。通过将所有倒排索引中间文件中相同关键字K的主键值V进行汇总形成一个单一的主键值V:如V=(Value1,Value2,Value3……),汇总为统一的倒排索引文件。这样可以充分利用MapReduce编程架构下的多个节点,不同节点完成不同的工作,相互合作以共同完成任务;或者不同的节点都完成一样的工作,以保证可扩展性和容错性。
更进一步地,如图10所示,上述实施例中索引生成装置的Solr集群Map调度模块70包括:标示值运算单元71,用于对HBase集群中每一条数据记录的标示值进行运算,即,启动一个新的Map服务,多个Map操作可并行执行,包括Map操作1、Map操作2……Map操作n,负责对倒排索引文件进行分片(split)操作,对数据记录的标示值(id值)进行运算;索引生成单元72,用于根据标示值,将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点(Solr集群节点1、Solr集群节点2……Solr集群节点n)上,生成最终的索引。而数据记录的详细内容仍保留在HBase集群上,这样可以提高所处理数据量,以及提高索引生成效率和数据查询效率。
综上所述,本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。且采用本发明的方法和装置,还可通过预写日志的方式来保证所有的操作在发生异常时都可回滚回正常状态,加强***的健壮性;通过异步消息队列的方式来传递信息,可使集群节点在异常中断后,可由其他节点接手工作。这样不仅提高了索引创建的效率,而且增强了索引的搜索能力,无论是文本匹配还是全文索引,都具有优秀的性能。
应当理解的是,上述实施例仅用来进一步说明本发明的一种基于MapReduce编程架构的索引生成方法和装置,但本发明并不局限于上述实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

Claims (10)

1.一种基于MapReduce编程架构的索引生成方法,其特征在于,包括步骤:
获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
对所述记录集合中的每条数据记录进行头部封装;
并行向HBase集群批量***经头部封装的所述数据记录;
调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
对所述HBase集群中的数据记录进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
对所述HBase集群中的数据记录进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
2.根据权利要求1所述的索引生成方法,其特征在于,所述步骤:对所述记录集合中的每条数据记录进行头部封装,具体包括:
读取所述记录集合中的数据记录;
在所述数据记录头部添加标示值;
在添加有所述标示值的数据记录头部添加主键值。
3.根据权利要求2所述的索引生成方法,其特征在于,所述步骤:进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件,具体包括:
扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件。
4.根据权利要求3所述的索引生成方法,其特征在于,所述步骤:进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件,具体包括:
读取所述倒排索引中间文件;
汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
5.根据权利要求4所述的索引生成方法,其特征在于,所述启动一个新的Map任务,对所述倒排索引文件进行分片操作,生成最终的索引具体包括:
对所述HBase集群中每一条数据记录的标示值进行运算;
根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
6.一种基于MapReduce编程架构的索引生成装置,其特征在于,包括:
数据输入模块,用于获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
数据封装模块,用于对所述记录集合中的每条数据记录进行头部封装;
数据***模块,用于并行向HBase集群批量***经头部封装的数据记录;
事件通知模块,用于调用Hadoop集群中的MapReduce服务和HBase服务,连接Solr集群,确认集群状态;
Map并行预处理模块,用于进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;
Reduce并行预处理模块,用于进行Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件;
Solr集群Map调度模块,用于启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
7.根据权利要求6所述的索引生成装置,其特征在于,所述数据封装模块包括:
记录读取单元,用于读取所述记录集合中的数据记录;
标示值添加单元,用于在所述数据记录头部添加标示值;
主键值添加单元,用于在添加有所述标示值的数据记录头部添加主键值。
8.根据权利要求7所述的索引生成装置,其特征在于,所述Map并行预处理模块包括:
扫描单元,用于扫描所述HBase集群中每一条数据记录,运用分词方法,将所述数据记录切分为多个关键字的集合;
第一汇总单元,用于汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成所述倒排索引中间文件。
9.根据权利要求8所述的索引生成装置,其特征在于,所述Reduce并行预处理模块包括:
中间文件读取单元,用于读取所述倒排索引中间文件;
第二汇总单元,用于汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行Reduce操作,形成所述倒排索引文件。
10.根据权利要求9所述的索引生成装置,其特征在于,所述Solr集群Map调度模块包括:
标示值运算单元,用于对所述HBase集群中每一条数据记录的标示值进行运算;
索引生成单元,用于根据所述标示值,将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上,生成最终的索引。
CN 201110446325 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置 Active CN102426609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110446325 CN102426609B (zh) 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110446325 CN102426609B (zh) 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置

Publications (2)

Publication Number Publication Date
CN102426609A true CN102426609A (zh) 2012-04-25
CN102426609B CN102426609B (zh) 2013-02-13

Family

ID=45960589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110446325 Active CN102426609B (zh) 2011-12-28 2011-12-28 一种基于MapReduce编程架构的索引生成方法和装置

Country Status (1)

Country Link
CN (1) CN102426609B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750353A (zh) * 2012-06-08 2012-10-24 清华大学 一种在键值库中进行分布式数据分析的方法
CN103077183A (zh) * 2012-12-14 2013-05-01 北京普泽天玑数据技术有限公司 一种分布式顺序表的数据导入方法及其***
CN103324762A (zh) * 2013-07-17 2013-09-25 陆嘉恒 基于Hadoop的索引创建方法及其索引方法
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析***
CN103678491A (zh) * 2013-11-14 2014-03-26 东南大学 一种基于Hadoop中小文件优化和倒排索引的方法
CN103678691A (zh) * 2013-12-26 2014-03-26 世纪禾光科技发展(北京)有限责任公司 一种基于hadoop的通用创建索引方法及***
CN104216865A (zh) * 2013-05-31 2014-12-17 三星Sds株式会社 映射和化简运算加速***及方法
CN104239269A (zh) * 2013-06-19 2014-12-24 苏州吉浦迅科技有限公司 基于计算机机群的智能并行蜂群算法数据***
CN104268158A (zh) * 2014-09-03 2015-01-07 深圳大学 一种结构化数据分布式索引及检索方法
CN104462236A (zh) * 2014-11-14 2015-03-25 浪潮(北京)电子信息产业有限公司 一种基于大数据的伴随车辆识别方法和装置
CN104484226A (zh) * 2014-12-08 2015-04-01 无锡城市云计算中心有限公司 MapReduce作业处理***、服务器及处理方法
CN104503985A (zh) * 2014-12-03 2015-04-08 浪潮电子信息产业股份有限公司 一种Hbase数据自动化创建Solr索引文件的方法
CN104572785A (zh) * 2013-10-29 2015-04-29 阿里巴巴集团控股有限公司 一种分布式创建索引的方法和装置
CN104714983A (zh) * 2013-12-17 2015-06-17 中兴通讯股份有限公司 分布式索引的生成方法及装置
CN104809212A (zh) * 2015-04-29 2015-07-29 苏州星熙数据科技有限公司 一种基于低延迟的HBase枚举***设计方法
CN104834730A (zh) * 2015-05-15 2015-08-12 北京京东尚科信息技术有限公司 数据分析***和方法
TWI499971B (zh) * 2013-03-05 2015-09-11 Univ Nat Cheng Kung 聯合多運算叢集系統執行映射化簡程式的方法
WO2016119275A1 (zh) * 2015-01-30 2016-08-04 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN105958652A (zh) * 2016-06-23 2016-09-21 江苏科技大学 基于大数据分析的无人值守变电站预警***及方法
CN103678691B (zh) * 2013-12-26 2016-11-30 世纪禾光科技发展(北京)有限公司 一种基于hadoop的通用创建索引方法及***
CN106326429A (zh) * 2016-08-25 2017-01-11 武汉光谷信息技术股份有限公司 一种基于solr的Hbase秒级查询方案
CN106446145A (zh) * 2016-09-21 2017-02-22 郑州云海信息技术有限公司 一种基于Hadoop的大数据索引快速创建方法
CN106649462A (zh) * 2016-09-26 2017-05-10 北京赛思信安技术股份有限公司 一种针对海量数据全文检索场景的实现方法
CN106649451A (zh) * 2016-09-22 2017-05-10 北京奇虎科技有限公司 数据更新方法及装置
CN106844716A (zh) * 2017-02-08 2017-06-13 上海熙菱信息技术有限公司 一种基于Solr索引与Oracle存储的海量数据自动化存储方法
CN107038225A (zh) * 2017-03-31 2017-08-11 江苏飞搏软件股份有限公司 信息智能检索***的检索方法
CN107273515A (zh) * 2017-06-21 2017-10-20 国网内蒙古东部电力有限公司信息通信分公司 基于多形态数据索引技术的电网数据资产资源检索及展示
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
WO2018040488A1 (zh) * 2016-08-31 2018-03-08 华为技术有限公司 一种处理连接查询的方法及装置
CN109195175A (zh) * 2018-09-03 2019-01-11 郑州云海信息技术有限公司 一种基于云计算的移动无线网络优化方法
CN109522357A (zh) * 2018-11-28 2019-03-26 北京锐安科技有限公司 一种数据处理方法、装置、服务器及存储介质
CN110222015A (zh) * 2019-06-19 2019-09-10 北京泰迪熊移动科技有限公司 一种文件数据的读取、查询方法、装置及可读存储介质
CN110413670A (zh) * 2019-06-28 2019-11-05 阿里巴巴集团控股有限公司 基于MapReduce的数据导出方法、装置及设备
CN111831622A (zh) * 2020-03-31 2020-10-27 北京嘀嘀无限科技发展有限公司 数据索引生成方法、装置、电子设备和可读存储介质
CN114638553A (zh) * 2022-05-17 2022-06-17 四川观想科技股份有限公司 一种基于大数据的维修质量分析方法
CN116541006A (zh) * 2023-06-28 2023-08-04 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951462B (zh) 2014-03-27 2018-08-03 国际商业机器公司 用于管理数据库的方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055370A1 (en) * 2008-10-10 2009-02-26 Business.Com System and method for data warehousing and analytics on a distributed file system
CN102096603A (zh) * 2009-12-14 2011-06-15 ***通信集团公司 MapReduce***中的作业分解控制方法及调度节点设备
CN102163226A (zh) * 2011-04-12 2011-08-24 浙江大学 基于映射-化简和分词及邻接排序去重方法
WO2011134875A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Data center operation
CN102255926A (zh) * 2010-05-17 2011-11-23 ***通信集团公司 MapReduce***中的任务分配方法、***及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055370A1 (en) * 2008-10-10 2009-02-26 Business.Com System and method for data warehousing and analytics on a distributed file system
CN102096603A (zh) * 2009-12-14 2011-06-15 ***通信集团公司 MapReduce***中的作业分解控制方法及调度节点设备
WO2011134875A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Data center operation
CN102255926A (zh) * 2010-05-17 2011-11-23 ***通信集团公司 MapReduce***中的任务分配方法、***及装置
CN102163226A (zh) * 2011-04-12 2011-08-24 浙江大学 基于映射-化简和分词及邻接排序去重方法

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750353A (zh) * 2012-06-08 2012-10-24 清华大学 一种在键值库中进行分布式数据分析的方法
CN102750353B (zh) * 2012-06-08 2014-04-16 清华大学 一种在键值库中进行分布式数据分析的方法
CN103077183A (zh) * 2012-12-14 2013-05-01 北京普泽天玑数据技术有限公司 一种分布式顺序表的数据导入方法及其***
CN103077183B (zh) * 2012-12-14 2017-11-17 北京普泽创智数据技术有限公司 一种分布式顺序表的数据导入方法及其***
TWI499971B (zh) * 2013-03-05 2015-09-11 Univ Nat Cheng Kung 聯合多運算叢集系統執行映射化簡程式的方法
CN104216865A (zh) * 2013-05-31 2014-12-17 三星Sds株式会社 映射和化简运算加速***及方法
CN104216865B (zh) * 2013-05-31 2017-08-08 三星Sds株式会社 映射和化简运算加速***及方法
CN104239269A (zh) * 2013-06-19 2014-12-24 苏州吉浦迅科技有限公司 基于计算机机群的智能并行蜂群算法数据***
CN103324762A (zh) * 2013-07-17 2013-09-25 陆嘉恒 基于Hadoop的索引创建方法及其索引方法
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析***
CN104572785A (zh) * 2013-10-29 2015-04-29 阿里巴巴集团控股有限公司 一种分布式创建索引的方法和装置
CN104572785B (zh) * 2013-10-29 2018-07-03 阿里巴巴集团控股有限公司 一种分布式创建索引的方法和装置
CN103678491A (zh) * 2013-11-14 2014-03-26 东南大学 一种基于Hadoop中小文件优化和倒排索引的方法
CN104714983B (zh) * 2013-12-17 2019-02-19 中兴通讯股份有限公司 分布式索引的生成方法及装置
CN104714983A (zh) * 2013-12-17 2015-06-17 中兴通讯股份有限公司 分布式索引的生成方法及装置
CN103678691B (zh) * 2013-12-26 2016-11-30 世纪禾光科技发展(北京)有限公司 一种基于hadoop的通用创建索引方法及***
CN103678691A (zh) * 2013-12-26 2014-03-26 世纪禾光科技发展(北京)有限责任公司 一种基于hadoop的通用创建索引方法及***
CN104268158A (zh) * 2014-09-03 2015-01-07 深圳大学 一种结构化数据分布式索引及检索方法
CN104462236A (zh) * 2014-11-14 2015-03-25 浪潮(北京)电子信息产业有限公司 一种基于大数据的伴随车辆识别方法和装置
CN104503985A (zh) * 2014-12-03 2015-04-08 浪潮电子信息产业股份有限公司 一种Hbase数据自动化创建Solr索引文件的方法
CN104484226B (zh) * 2014-12-08 2018-02-02 无锡城市云计算中心有限公司 MapReduce作业处理***、服务器及处理方法
CN104484226A (zh) * 2014-12-08 2015-04-01 无锡城市云计算中心有限公司 MapReduce作业处理***、服务器及处理方法
WO2016119275A1 (zh) * 2015-01-30 2016-08-04 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN104809212A (zh) * 2015-04-29 2015-07-29 苏州星熙数据科技有限公司 一种基于低延迟的HBase枚举***设计方法
CN104834730A (zh) * 2015-05-15 2015-08-12 北京京东尚科信息技术有限公司 数据分析***和方法
CN104834730B (zh) * 2015-05-15 2018-06-01 北京京东尚科信息技术有限公司 数据分析***和方法
CN105958652A (zh) * 2016-06-23 2016-09-21 江苏科技大学 基于大数据分析的无人值守变电站预警***及方法
CN106326429A (zh) * 2016-08-25 2017-01-11 武汉光谷信息技术股份有限公司 一种基于solr的Hbase秒级查询方案
US11030196B2 (en) 2016-08-31 2021-06-08 Huawei Technologies Co., Ltd. Method and apparatus for processing join query
WO2018040488A1 (zh) * 2016-08-31 2018-03-08 华为技术有限公司 一种处理连接查询的方法及装置
CN106446145A (zh) * 2016-09-21 2017-02-22 郑州云海信息技术有限公司 一种基于Hadoop的大数据索引快速创建方法
CN106649451A (zh) * 2016-09-22 2017-05-10 北京奇虎科技有限公司 数据更新方法及装置
CN106649462A (zh) * 2016-09-26 2017-05-10 北京赛思信安技术股份有限公司 一种针对海量数据全文检索场景的实现方法
CN106649462B (zh) * 2016-09-26 2019-11-08 北京赛思信安技术股份有限公司 一种针对海量数据全文检索场景的实现方法
CN106844716A (zh) * 2017-02-08 2017-06-13 上海熙菱信息技术有限公司 一种基于Solr索引与Oracle存储的海量数据自动化存储方法
CN107038225A (zh) * 2017-03-31 2017-08-11 江苏飞搏软件股份有限公司 信息智能检索***的检索方法
CN107273515A (zh) * 2017-06-21 2017-10-20 国网内蒙古东部电力有限公司信息通信分公司 基于多形态数据索引技术的电网数据资产资源检索及展示
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN109195175A (zh) * 2018-09-03 2019-01-11 郑州云海信息技术有限公司 一种基于云计算的移动无线网络优化方法
CN109195175B (zh) * 2018-09-03 2021-12-21 郑州云海信息技术有限公司 一种基于云计算的移动无线网络优化方法
CN109522357A (zh) * 2018-11-28 2019-03-26 北京锐安科技有限公司 一种数据处理方法、装置、服务器及存储介质
CN110222015A (zh) * 2019-06-19 2019-09-10 北京泰迪熊移动科技有限公司 一种文件数据的读取、查询方法、装置及可读存储介质
CN110413670A (zh) * 2019-06-28 2019-11-05 阿里巴巴集团控股有限公司 基于MapReduce的数据导出方法、装置及设备
CN110413670B (zh) * 2019-06-28 2023-07-14 创新先进技术有限公司 基于MapReduce的数据导出方法、装置及设备
CN111831622A (zh) * 2020-03-31 2020-10-27 北京嘀嘀无限科技发展有限公司 数据索引生成方法、装置、电子设备和可读存储介质
CN114638553A (zh) * 2022-05-17 2022-06-17 四川观想科技股份有限公司 一种基于大数据的维修质量分析方法
CN114638553B (zh) * 2022-05-17 2022-08-12 四川观想科技股份有限公司 一种基于大数据的维修质量分析方法
CN116541006A (zh) * 2023-06-28 2023-08-04 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置
CN116541006B (zh) * 2023-06-28 2024-01-26 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置

Also Published As

Publication number Publication date
CN102426609B (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
US11475034B2 (en) Schemaless to relational representation conversion
CN106227800B (zh) 一种高度关联大数据的存储方法及管理***
CN110196871B (zh) 数据入库方法和***
US10565208B2 (en) Analyzing multiple data streams as a single data object
Li Transforming relational database into HBase: A case study
CN104794123B (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
CN106326361B (zh) 一种基于HBase数据库的数据查询方法及装置
CN110674154B (zh) 一种基于Spark的对Hive中数据进行***、更新和删除的方法
US8572110B2 (en) Textual search for numerical properties
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN111324610A (zh) 一种数据同步的方法及装置
CN103440288A (zh) 一种大数据存储方法及装置
CN107807932B (zh) 一种基于路径枚举的层级数据管理方法和***
CN105183884A (zh) 一种基于大数据技术的搜索引擎***及搜索引擎方法
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
WO2017161540A1 (zh) 数据查询的方法、数据对象的存储方法和数据***
CN105900093A (zh) 一种KeyValue数据库的数据表的更新方法与表数据更新装置
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN106055678A (zh) 一种基于hadoop的全景大数据分布式存储方法
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN111046041A (zh) 数据处理方法和装置、存储介质及处理器
Huang et al. R-HBase: A multi-dimensional indexing framework for cloud computing environment
CN111625596A (zh) 新能源实时消纳调度的多源数据同步共享方法及***
CN108121807B (zh) Hadoop环境下多维索引结构OBF-Index的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120425

Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000039

Denomination of invention: An index generation method and device based on MapReduce programming architecture

Granted publication date: 20130213

License type: Common License

Record date: 20230301

EE01 Entry into force of recordation of patent licensing contract