CN101950297A - 一种海量语义数据的存储和查询方法及装置 - Google Patents

一种海量语义数据的存储和查询方法及装置 Download PDF

Info

Publication number
CN101950297A
CN101950297A CN 201010279073 CN201010279073A CN101950297A CN 101950297 A CN101950297 A CN 101950297A CN 201010279073 CN201010279073 CN 201010279073 CN 201010279073 A CN201010279073 A CN 201010279073A CN 101950297 A CN101950297 A CN 101950297A
Authority
CN
China
Prior art keywords
node
cluster
semantic data
data
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010279073
Other languages
English (en)
Inventor
陈岩光
邹磊
赵东岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN 201010279073 priority Critical patent/CN101950297A/zh
Publication of CN101950297A publication Critical patent/CN101950297A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种海量语义数据的存储和查询方法及装置,基于云计算搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点,集群中的每个节点都建立分布式数据库;将海量语义数据通过云计算编程模型导入各节点的分布式数据库,实现了存储的分布式,解决了当处理海量数据时单机***遇到的存储瓶颈和管理困难的问题,同时,如果数据规模继续扩大,只需要增加集群的从属节点,具有良好的可扩展性。另外,在解决海量数据查询的问题时,本发明方法利用了RMI技术,将查询进行了分割,使得集群的各个节点可以同时处理所得到的分割查询,使得查询速度更快,效率更高。

Description

一种海量语义数据的存储和查询方法及装置
技术领域
本发明涉及数据库技术领域、云计算领域、分布式计算领域、语义网领域,特别涉及一种利用云计算技术对海量语义数据进行存储和查询的方法及装置。
背景技术
语义数据是一种表示实体的属性信息以及实体之间语义关系的数据,一般可以利用三元组的集合形式来表示,三元组的格式为<主体,谓词,客体>。例如:<张三,出生地,北京>,<张三,指导老师,李四>,……,<张三,毕业于,北京大学>这些三元组就可以把有关张三的一系列属性信息以及和张三有关的实体信息都表示出来。
这些语义数据的传统的存储和查询方法是将其存储在单机数据库中,利用数据库的表格和相关索引技术来进行查询。但是这种方法的前提是数据量不大,即单机数据库可以承受的数据规模。然而,随着互联网的不断发展,信息的规模呈现***式增长,与此同时,语义数据的规模也在不断扩大,很多语义数据集达到了数亿到数十亿个三元组的规模。在这种情况下,使用传统的方法就无法很好的解决存储和查询的问题了,因为无论是内存还是硬盘,都无法支持海量的数据管理。同时,如果数据量继续增加,单机数据库也无法支持***的扩展性。可见,传统的单机数据库已经无法满足日益增长的海量语义数据的存储和查询的需求。
发明内容
本发明克服现有技术中的缺点,提供一种基于云计算平台的海量语义数据的存储和查询方法及装置,用以支持海量语义数据的管理,并很好的支持了扩展性。
为了实现本发明存储方法的目的,采用的技术方案如下:
一种海量语义数据存储的方法,其步骤包括:
1)基于云计算搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;
2)集群中的每个节点都建立分布式数据库,将语义数据以三元组<主体,谓词,客体>的形式表示,映射到分布式数据库;利用云计算编程模型将语义数据导入分布式数据库;
3)对语义数据建立索引,利用云计算编程模型存储在分布式数据库。
所述步骤2)映射的过程为:三元组的谓词都对应到分布式数据库属性列中,三元组的主体对应一个行键(Rowkey),三元组的客体对应一行中某一属性列的值。
所述步骤3)编程模型为MapReduce编程模型,分为Map函数和Reduce函数,在数据导入中,Map函数和Reduce函数实现如下所示:
Map:<文件行号,三元组>-><主体,谓词+客体>
Reduce:<主体,List(谓词+客体)>导入数据库。
所述步骤3)建立索引时,每一张索引表都对应了唯一一个的谓词,索引表的行键是一个客体,该行对应的每一列都是一个主体。
所述步骤3)编程模型为MapReduce编程模型,分为Map函数和Reduce函数,建立索引时,Map函数和Reduce函数实现如下所示:
Map:<文件行号,三元组>-><客体+谓词,主体>
Reduce:<客体+谓词,List(主体)>导入数据库。
为了实现本发明查询方法的目的,采用的技术方案如下:
一种海量语义数据查询的方法,其步骤包括:
6-1)基于云计算搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;
6-2)集群中的每个节点都建立分布式数据库,存储有语义数据,语义数据以三元组<主体,谓词,客体>的形式表示;
6-3)集群的各个节点都开设查询服务,将某一查询条件分成若干份,分别发送给不同的节点去查询,最后各个节点将查询结果汇总到主控节点。
所述步骤6-2)对语义数据进行比特序列化,数据表的每一行设置一个比特序列,语义数据中所出现的不同谓词的个数对于该行,如果某一属性列有值,则该比特位设置为1,否则,设置为0。
所述步骤6-3)通过预先统计语义数据每个谓词所关联的三元组个数决定查询条件的优先级。
所述步骤6-3)利用RMI方法送至集群中的各个节点进行分布式查询。
为了实现本发明存储装置的目的,采用的技术方案如下:
一种海量语义数据存储的装置,其特征在于,基于云计算平台上搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;所述节点上包括:
数据导入单元:利用云计算编程模型将海量语义数据导入各节点的分布式数据库;
建立索引单元:利用云计算编程模型对语义数据建立索引。
为了实现本发明查询装置的目的,采用的技术方案如下:
一种海量语义数据存储的装置,其特征在于,基于云计算平台上搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;所述节点上包括:
查询分割单元:将查询分割成若干部分,送至集群中的各个节点进行分布式查询;
查询合并单元:将各个节点的查询结果进行合并;
查询结果显示单元:用于显示用户输入的查询图和满足查询条件的查询结果。
还包括:
数据统计单元,用于记录语义数据的统计信息;
比特序列化单元:对语义数据进行语义序列化;
查询优化单元:利用统计信息和比特序列进行查询优化。
与现有技术相比,本发明的方法实现了存储的分布式,解决了当处理海量数据时单机***遇到的存储瓶颈和管理困难的问题,同时,如果数据规模继续扩大,只需要增加集群的从属节点,具有良好的可扩展性。另外,在解决海量数据查询的问题时,本发明实例利用了RMI技术,将查询进行了分割,使得集群的各个节点可以同时处理所得到的分割查询,使得查询速度更快,效率更高。
附图说明
图1为本发明实施例中海量语义数据存储的方法的图示;
图2为本发明实施例中海量语义数据查询的方法的图示;
图3为本发明实施例中海量语义数据存储的装置结构图;
图4为本发明实施例中海量语义数据查询的装置结构图
图5a为语义数据导入过程中Map函数处理过程;
图5b为语义数据导入过程中Reduce函数处理过程;
图6a为建立索引过程中Map函数处理过程;
图6b为建立索引过程中Reduce函数处理过程;
图7为所有主体、客体都是变量的查询结果图。
具体实施方式
本发明实例是基于Hadoop云计算平台的,在这个平台上搭建了一个具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点。主控节点的作用是控制从属节点的存储细节信息,调度存储单元,分配计算任务,监测节点状态,平衡集群负载。从属节点的作用是存储具体数据,完成主控节点所分配的计算任务,向主控节点报告存储信息、计算信息以及自己的当前状态。在这个集群上,建立了分布式数据库Hbase,这样集群的每个节点都可以提供存储功能,当存储海量语义数据时,不用再担心容量的问题。而且当数据继续增加时,只需增加集群中的从属节点个数即可,具有非常好的可扩展性。在数据导入和建立索引时利用了MapReduce编程框架,使得集群中每个节点同时完成计算任务,海量数据的导入时间耗费更短。
本发明实施例提供一种海量语义数据存储的方法,包括:
利用Hadoop云计算平台的Hbase存储海量语义数据;
利用Hadoop云计算平台的Hbase存储海量语义数据的索引;
利用MapReduce云计算编程模型将海量语义数据导入Hbase;
利用MapReduce云计算编程模型对海量语义数据建立索引。
本发明实施例提供一种海量语义数据查询的方法,包括:
记录语义数据的统计信息,利用语义数据的统计信息进行查询优化;
对语义数据进行比特序列化,利用比特序列的方法进行查询优化;
利用RMI技术实现集群中多个节点同时进行查询。
本发明实施例提供一种海量语义数据存储的装置,包括:
数据导入单元:利用MapReduce云计算编程模型将海量语义数据导入Hbase;
建立索引单元:利用MapReduce云计算编程模型对海量语义数据建立索引。
本发明实施例提供一种海量语义数据查询的装置,包括:
数据统计单元:记录语义数据的统计信息;
比特序列化单元:对语义数据进行语义序列化;
查询优化单元:利用统计信息和比特序列进行查询优化;
查询分割单元:将查询分割成若干部分,利用RMI技术送至集群中的各个节点进行分布式查询;
查询合并单元:将各个节点的查询结果进行合并。
查询结果显示单元:用于显示用户输入的查询图和满足查询条件的查询结果。
参见图1,实施例中,海量语义数据存储的方法包括:
步骤101:利用Hadoop云计算平台的Hbase存储海量语义数据。
Hbase的表格类似于属性表,每一列都可以表示一个属性,但相对于属性表,Hbase的表格支持稀疏数据和多值数据的存储。表1显示了一个Hbase表的例子:
表1
表1显示了“张三”和“北京大学”这两个实体的信息,张三有“出生于”和“毕业于”两个属性,而在“成立于”和“校长”这两个属性列上没有值,在实际存储时,这两列对于“张三”这个实体不消耗任何存储空间,这就解决了数据稀疏时带来的存储空间浪费问题。“北京大学”这个实体在“校长”这个属性列有三个值,分别为“周其凤”、“***”、“***”,这三个值分别对应一个时间戳,也就是说,这个表是三维的,这就解决了数据的多值问题。
从表1我们可以看出,只要把语义数据的谓词都对应到表中的属性列中,对于三元组<主体,谓词,客体>,三元组的主体对应一个Rowkey,三元组的客体对应一行中某一属性列的值,然后这张大表就可以把所有的三元组信息全部表示出来。
步骤102:利用Hadoop云计算平台的Hbase存储海量语义数据的索引。
为了提高查询速度,对数据建立索引是必不可少的。考虑到索引表的规模也是很大的,所以索引表也存储在Hbase中。对于语义数据中每一个不同的谓词,都建立一张索引表,也就是说,每一张索引表都对应了唯一一个的谓词。所以表的Rowkey(即行键)是一个客体,这一行对应的每一列都是一个主体,这个主体和该表所对应的谓词以及行键客体组成的三元组是原始语义数据所包含的三元组。表2是一个索引表的例子:
Figure BSA00000265820000052
表2
表2是关于谓词“出生于”的索引表的一个片段,可以看出,第一行表示了所有出生于北京的人,第一行可以还原成4个三元组:<张三,出生于,北京><李四,出生于,北京><王五,出生于,北京><李六,出生于,北京>。
步骤103:利用MapReduce云计算编程模型将海量语义数据导入Hbase。
由于海量语义数据的规模非常大,如果采用传统的单机导入方式会消耗大量时间,同时为了充分利用集群中各个节点的计算资源,我们采用了MapReduce的编程模型来分布式的进行语义数据的导入。
MapReduce编程模型主要分为Map函数和Reduce函数。Map函数将输入的键值对处理并输出新的键值对,即<k1,v1>-><k2,v2>。
然后合并函数combine会将Map的输出的具有相同key的键值对合并在一起,组成<k2,List<v2>>发送给Reduce函数。Reduce函数对输入的<k2,List<v2>>进行处理。MapReduce的工作过程是这样的:将原始数据切分成若干份,然后将每一份发送给集群中的一个节点,每个节点根据预先定义好的Map函数对收到的切分数据进行处理,combine函数将所有的节点的Map结果进行合并,并发送给相应的Reduce函数完成相应工作。
在数据导入中,Map函数和Reduce函数如下所示:
Map:<文件行号,三元组>-><主体,谓词+客体>
Reduce:<主体,List(谓词+客体)>导入数据库
Map函数处理过程如图5a所示;Reduce函数处理过程如图5b所示
由上图可知,由于多个节点同时在运行Map函数,这样就可以并行的处理多个三元组,所以用这种方法导入数据库节约了大量的时间。
步骤104:利用MapReduce云计算编程模型对海量语义数据建立索引。
在建立索引时,Map函数和Reduce函数如下所示:
Map:<文件行号,三元组>-><客体+谓词,主体>
Reduce:<客体+谓词,List(主体)>导入数据库
Map函数处理过程如图6a所示;Reduce函数处理过程如图6b所示
参见图2,实施例中,海量语义数据查询的方法包括:
步骤201:记录语义数据的统计信息,利用语义数据的统计信息进行查询优化。
语义数据的查询一般形式为如下:
Query1:?p1<hasAcademicAdvisor>?p2
        ?p1<bornIn>?c1
        ?c1<locatedIn>“Switzerland”
        ?p2<bornIn>?c2
        ?c2<locatedIn>“Germany”
其中,带“?”前缀的是变量,可见一个查询包含多个条件,那么这些条件的查询顺序就会影响到查询的速度。所以可以通过预先统计每个谓词所关联的三元组个数来决定查询条件的优先级。例如,对于如下所示的这个文件片段:
张三  出生于  北京
张三  导师    李四
张三  毕业于  北京大学
李四  出生于  北京
李四  毕业于  北京大学
统计结果为出生于:2,导师:1,毕业于:2,那么在一个查询中,包含“出生于”和“毕业于”的条件就要优先于“导师”。
步骤202:对语义数据进行比特序列化,利用比特序列的方法进行查询优化。
下面这个查询是一个所有主体、客体都是变量的查询:
Query2:?p1<isMarriedTo>?p2
        ?p1<bornIn>?c1
        ?p2<diedIn>?c1
如果直接对这个query查索引,那么每个条件都要得到很多的候选集,得到每个候选集都需要大量的IO操作,而且要对得到的候选集做交集,这样会极大的影响查询速度。所以采用了另外一种方法,即利用将语义数据进行比特序列化。
所谓比特序列化,就是对Hbase语义数据表的每一行设置一个比特序列,这个比特序列的长度为所有属性列的个数,亦即语义数据中所出现的不同谓词的个数。对于该行,如果某一属性列有值,则该比特位设置为“1”,否则,设置为“0”。由于每一行都代表一个实体,所以我们就可以得到所有实体的比特序列,从而知道每个实体具体都有哪些属性。这些比特序列所占的空间要比数据表和索引表小很多,所以可以直接放在内存中。另外,这些比特序列按照树的结构存储,就可以对数的时间开销来查找满足条件的实体。对于Query2,就可以直接查找比特序列中<isMarriedTo>和<bornIn>这两位同时为“1”的实体,这种查询速度要快很多。
步骤203:利用RMI技术实现集群中多个节点同时进行查询。
由于MapReduce编程框架解决批量处理任务具有很大优势,但并不适合于实时任务,所以为了实现分布式的查询操作,我们采用了RMI技术。
对于Query1来说,查询的第一步可能会找到所有位于“Germany”的城市,然后再遍历每一个城市来判断剩下的查询条件。如果得到的城市非常多,例如有几万个甚至几十万个,那么遍历的速度就会很慢。这样我们利用RMI技术,在集群的各个节点都开设查询服务,然后将得到的这些城市分成若干份,分别发送给不同的节点服务程序去查询,最后各个节点将查询结果汇总到主控节点,这样就可以充分利用集群的计算资源,实现实时的分布式计算,大大提高了查询速度。
根据上述海量语义数据存储的方法,可以构造一种海量语义数据存储的装置,参见图3,包括:数据导入单元310,以及建立索引单元320。
数据导入单元310:利用MapReduce云计算编程模型将海量语义数据导入Hbase;
建立索引单元320:利用MapReduce云计算编程模型对海量语义数据建立索引。
在本发明实例中,只需要将原始的语义数据三元组文件输入到数据导入单元310和建立索引单元320,就可以直接将语义数据导入Hbase数据库中,并建立相应的索引表,具体实现原理已经在方法里说明,不再赘述。
根据上述海量数据查询的方法,可以构造一种海量数据查询的装置,参见图4,包括:数据统计单元410,比特序列化单元420,查询优化单元430,查询分割单元440,查询合并单元450,查询结果显示单元460。
数据统计单元410:记录语义数据的统计信息;
比特序列化单元420:对语义数据进行语义序列化;
查询优化单元430:利用统计信息和比特序列进行查询优化;
查询分割单元440:将查询分割成若干部分,利用RMI技术送至集群中的各个节点进行分布式查询;
查询合并单元450:将各个节点的查询结果进行合并。
查询结果显示单元460:用于显示用户输入的查询图和满足查询条件的查询结果。
其中410-450这五个单元的实现原理已经在相关方法中说明,不再赘述。对于查询结果显示单元460,根据用户输入的查询条件,可以将查询以图的形式表现出来,从而更直观的让用户了解自己输入的查询结构。
例如,对于Query2,显示的查询图如图7所示,查询图可以反馈给用户更准确的查询意图。
综上所述,本发明实例中,以Hadoop为依托,搭建了一个云计算的平台,用来解决海量语义数据的存储和查询问题。首先将语义中的谓词映射到Hbase表的属性列中,然后对语义数据建立了索引和比特序列,实现了存储的分布式,解决了当处理海量数据时单机***遇到的存储瓶颈和管理困难的问题,同时,如果数据规模继续扩大,只需要增加集群的从属节点,具有良好的可扩展性。另外,在解决海量数据查询的问题时,本发明实例利用了RMI技术,将查询进行了分割,使得集群的各个节点可以同时处理所得到的分割查询,使得查询速度更快,效率更高。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种海量语义数据存储的方法,其步骤包括:
1)基于云计算搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;
2)集群中的每个节点都建立分布式数据库,将语义数据以三元组<主体,谓词,客体>的形式表示,映射到分布式数据库;利用云计算编程模型将语义数据导入分布式数据库;
3)对语义数据建立索引,利用云计算编程模型存储在分布式数据库。
2.如权利要求1所述的方法,其特征在于,所述步骤2)映射的过程为:三元组的谓词都对应到分布式数据库属性列中,三元组的主体对应一个行键,三元组的客体对应一行中某一属性列的值。
3.如权利要求1所述的方法,其特征在于,所述步骤3)编程模型为MapReduce编程模型,分为Map函数和Reduce函数,在数据导入中,Map函数和Reduce函数实现如下所示:
Map:<文件行号,三元组>-><主体,谓词+客体>
Reduce:<主体,List(谓词+客体)>导入数据库。
4.如权利要求1所述的方法,其特征在于,所述步骤3)建立索引时,每一张索引表都对应了唯一一个的谓词,索引表的行键是一个客体,该行对应的每一列都是一个主体。
5.如权利要求1所述的方法,其特征在于,所述步骤3)编程模型为MapReduce编程模型,分为Map函数和Reduce函数,建立索引时,Map函数和Reduce函数实现如下所示:
Map:<文件行号,三元组>-><客体+谓词,主体>
Reduce:<客体+谓词,List(主体)>导入数据库。
6.一种海量语义数据查询的方法,其步骤包括:
6-1)基于云计算搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;
6-2)集群中的每个节点都建立分布式数据库,存储有语义数据,语义数据以三元组<主体,谓词,客体>的形式表示;
6-3)集群的各个节点都开设查询服务,将某一查询条件分成若干份,分别发送给不同的节点去查询,最后各个节点将查询结果汇总到主控节点。
7.如权利要求6所述的方法,其特征在于,所述步骤6-2)对语义数据进行比特序列化,数据库的每一行设置一个比特序列,如果某一属性列有值,则该比特位设置为1,否则,设置为0。
8.如权利要求6所述的方法,其特征在于,所述步骤6-3)通过预先统计语义数据每个谓词所关联的三元组个数决定查询条件的优先级。
9.如权利要求6所述的方法,其特征在于,所述步骤6-3)利用RMI方法送至集群中的各个节点进行分布式查询。
10.一种海量语义数据存储的装置,其特征在于,基于云计算平台上搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;所述节点上包括:
数据导入单元:利用云计算编程模型将海量语义数据导入各节点的分布式数据库;
建立索引单元:利用云计算编程模型对语义数据建立索引。
11.一种海量语义数据查询的装置,其特征在于,基于云计算平台上搭建具有多个计算机节点的集群,集群包括一个主控节点和若干个从属节点;所述节点上包括:
查询分割单元:将查询分割成若干部分,送至集群中的各个节点进行分布式查询;
查询合并单元:将各个节点的查询结果进行合并;
查询结果显示单元:用于显示用户输入的查询图和满足查询条件的查询结果。
12.如权利要求11所述的装置,其特征在于,还包括:
数据统计单元,用于记录语义数据的统计信息,语义数据每个谓词所关联的三元组个数;
比特序列化单元:对语义数据进行语义序列化;
查询优化单元:利用统计信息和比特序列进行查询优化。
CN 201010279073 2010-09-10 2010-09-10 一种海量语义数据的存储和查询方法及装置 Pending CN101950297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010279073 CN101950297A (zh) 2010-09-10 2010-09-10 一种海量语义数据的存储和查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010279073 CN101950297A (zh) 2010-09-10 2010-09-10 一种海量语义数据的存储和查询方法及装置

Publications (1)

Publication Number Publication Date
CN101950297A true CN101950297A (zh) 2011-01-19

Family

ID=43453799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010279073 Pending CN101950297A (zh) 2010-09-10 2010-09-10 一种海量语义数据的存储和查询方法及装置

Country Status (1)

Country Link
CN (1) CN101950297A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270232A (zh) * 2011-07-21 2011-12-07 华中科技大学 一种存储优化的语义数据查询***
CN102402606A (zh) * 2011-11-28 2012-04-04 中国科学院计算机网络信息中心 一种高效的文本数据挖掘方法
CN102769642A (zh) * 2011-06-10 2012-11-07 上海子鼠云计算技术有限公司 移动云存储***及移动云存储实现方法
CN102841944A (zh) * 2012-08-27 2012-12-26 南京云创存储科技有限公司 一种实现大数据实时处理的方法
WO2013026287A1 (zh) * 2011-08-25 2013-02-28 中兴通讯股份有限公司 基于分布式数据库***的数据控制方法及***
CN103023992A (zh) * 2012-11-28 2013-04-03 江苏乐买到网络科技有限公司 海量数据的分布式存储方法
CN103108000A (zh) * 2011-11-09 2013-05-15 ***通信集团公司 用于任务同步的方法和***及***中的主节点和工作节点
CN103136363A (zh) * 2013-03-14 2013-06-05 曙光信息产业(北京)有限公司 查询处理方法和集群数据库***
CN103327128A (zh) * 2013-07-23 2013-09-25 百度在线网络技术(北京)有限公司 用于MapReduce的中间数据传输方法及***
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103455374A (zh) * 2012-06-05 2013-12-18 阿里巴巴集团控股有限公司 一种基于MapReduce的分布式计算方法和装置
CN103488704A (zh) * 2013-09-06 2014-01-01 乐视致新电子科技(天津)有限公司 一种数据存储方法及装置
CN103491158A (zh) * 2013-09-18 2014-01-01 万达信息股份有限公司 一种就近计算的云计算架构
CN103500173A (zh) * 2013-09-03 2014-01-08 北京泰乐德信息技术有限公司 一种轨道交通监测数据的查询方法
CN103544222A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种通用亲缘关系信息存储表示方法、***及设备
CN103544233A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种完全亲缘关系信息库存储组织方法、***及设备
CN103544226A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种通用亲缘关系信息库存储组织方法、***及设备
CN103544223A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种基本亲缘关系信息存储表示方法、***及设备
CN103544225A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种抚养关系信息存储表示方法、***及设备
CN103617232A (zh) * 2013-11-26 2014-03-05 北京京东尚科信息技术有限公司 一种针对HBase表的分页查询方法
CN103810224A (zh) * 2012-11-15 2014-05-21 阿里巴巴集团控股有限公司 信息持久化和查询方法及装置
CN104111936A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 数据查询方法和***
CN104317896A (zh) * 2014-10-24 2015-01-28 浪潮软件股份有限公司 一种基于海量数据进行分布式比对碰撞方法
CN104376053A (zh) * 2014-11-04 2015-02-25 南京信息工程大学 一种基于海量气象数据的存储与检索方法
CN105022833A (zh) * 2015-08-10 2015-11-04 浪潮(北京)电子信息产业有限公司 一种数据处理的方法、节点及监控***
CN105426489A (zh) * 2015-11-23 2016-03-23 宁波数方信息技术有限公司 基于内存计算的分布式可扩展数据搜索***
CN106227803A (zh) * 2016-07-21 2016-12-14 浪潮电子信息产业股份有限公司 一种基于Hbase的海量数据导入方法及装置
CN106709005A (zh) * 2016-12-23 2017-05-24 北京奇虎科技有限公司 一种处理数据库***中的冗余索引的方法、装置和***
CN107301198A (zh) * 2017-05-16 2017-10-27 浙江大学 一种受限环境下的语义数据构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826005A (zh) * 2009-06-09 2010-09-08 张艳红 图像、视频多维信息挖掘与立体可视化搜索引擎软件
CN101826092A (zh) * 2009-08-24 2010-09-08 张艳红 基于序列仿真技术的图像搜索引擎

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826005A (zh) * 2009-06-09 2010-09-08 张艳红 图像、视频多维信息挖掘与立体可视化搜索引擎软件
CN101826092A (zh) * 2009-08-24 2010-09-08 张艳红 基于序列仿真技术的图像搜索引擎

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《现代图书情报技术》 20070825 吴宝贵等 基于Map/Reduce的分布式搜索引擎研究 , 第08期 2 *
《电信科学》 20100531 吴吉义等 云数据管理研究综述 , 第05期 2 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102769642A (zh) * 2011-06-10 2012-11-07 上海子鼠云计算技术有限公司 移动云存储***及移动云存储实现方法
CN102270232B (zh) * 2011-07-21 2012-09-26 华中科技大学 一种存储优化的语义数据查询***
CN102270232A (zh) * 2011-07-21 2011-12-07 华中科技大学 一种存储优化的语义数据查询***
CN102955801B (zh) * 2011-08-25 2017-06-16 中兴通讯股份有限公司 基于分布式数据库***的数据控制方法及***
WO2013026287A1 (zh) * 2011-08-25 2013-02-28 中兴通讯股份有限公司 基于分布式数据库***的数据控制方法及***
CN102955801A (zh) * 2011-08-25 2013-03-06 中兴通讯股份有限公司 基于分布式数据库***的数据控制方法及***
CN103108000A (zh) * 2011-11-09 2013-05-15 ***通信集团公司 用于任务同步的方法和***及***中的主节点和工作节点
CN102402606A (zh) * 2011-11-28 2012-04-04 中国科学院计算机网络信息中心 一种高效的文本数据挖掘方法
CN103455374A (zh) * 2012-06-05 2013-12-18 阿里巴巴集团控股有限公司 一种基于MapReduce的分布式计算方法和装置
CN103455374B (zh) * 2012-06-05 2016-10-19 阿里巴巴集团控股有限公司 一种基于MapReduce的分布式计算方法和装置
CN102841944A (zh) * 2012-08-27 2012-12-26 南京云创存储科技有限公司 一种实现大数据实时处理的方法
CN103810224A (zh) * 2012-11-15 2014-05-21 阿里巴巴集团控股有限公司 信息持久化和查询方法及装置
CN103810224B (zh) * 2012-11-15 2017-04-12 阿里巴巴集团控股有限公司 信息持久化和查询方法及装置
CN103023992A (zh) * 2012-11-28 2013-04-03 江苏乐买到网络科技有限公司 海量数据的分布式存储方法
CN103136363A (zh) * 2013-03-14 2013-06-05 曙光信息产业(北京)有限公司 查询处理方法和集群数据库***
CN104111936B (zh) * 2013-04-18 2017-12-05 阿里巴巴集团控股有限公司 数据查询方法和***
CN104111936A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 数据查询方法和***
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103338261B (zh) * 2013-07-04 2016-06-29 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103327128A (zh) * 2013-07-23 2013-09-25 百度在线网络技术(北京)有限公司 用于MapReduce的中间数据传输方法及***
CN103500173B (zh) * 2013-09-03 2017-07-28 北京泰乐德信息技术有限公司 一种轨道交通监测数据的查询方法
CN103500173A (zh) * 2013-09-03 2014-01-08 北京泰乐德信息技术有限公司 一种轨道交通监测数据的查询方法
CN103488704B (zh) * 2013-09-06 2016-10-05 乐视致新电子科技(天津)有限公司 一种数据存储方法及装置
CN103488704A (zh) * 2013-09-06 2014-01-01 乐视致新电子科技(天津)有限公司 一种数据存储方法及装置
CN103491158A (zh) * 2013-09-18 2014-01-01 万达信息股份有限公司 一种就近计算的云计算架构
CN103544222A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种通用亲缘关系信息存储表示方法、***及设备
CN103544226A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种通用亲缘关系信息库存储组织方法、***及设备
CN103544233A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种完全亲缘关系信息库存储组织方法、***及设备
CN103544225A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种抚养关系信息存储表示方法、***及设备
CN103544223A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种基本亲缘关系信息存储表示方法、***及设备
CN103617232B (zh) * 2013-11-26 2018-03-30 北京京东尚科信息技术有限公司 一种针对HBase表的分页查询方法
CN103617232A (zh) * 2013-11-26 2014-03-05 北京京东尚科信息技术有限公司 一种针对HBase表的分页查询方法
CN104317896A (zh) * 2014-10-24 2015-01-28 浪潮软件股份有限公司 一种基于海量数据进行分布式比对碰撞方法
CN104376053A (zh) * 2014-11-04 2015-02-25 南京信息工程大学 一种基于海量气象数据的存储与检索方法
CN104376053B (zh) * 2014-11-04 2017-12-22 南京信息工程大学 一种基于海量气象数据的存储与检索方法
CN105022833A (zh) * 2015-08-10 2015-11-04 浪潮(北京)电子信息产业有限公司 一种数据处理的方法、节点及监控***
CN105426489A (zh) * 2015-11-23 2016-03-23 宁波数方信息技术有限公司 基于内存计算的分布式可扩展数据搜索***
CN106227803A (zh) * 2016-07-21 2016-12-14 浪潮电子信息产业股份有限公司 一种基于Hbase的海量数据导入方法及装置
CN106709005A (zh) * 2016-12-23 2017-05-24 北京奇虎科技有限公司 一种处理数据库***中的冗余索引的方法、装置和***
CN106709005B (zh) * 2016-12-23 2020-11-24 北京奇虎科技有限公司 一种处理数据库***中的冗余索引的方法、装置和***
CN107301198A (zh) * 2017-05-16 2017-10-27 浙江大学 一种受限环境下的语义数据构建方法

Similar Documents

Publication Publication Date Title
CN101950297A (zh) 一种海量语义数据的存储和查询方法及装置
CN106934014B (zh) 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN107291807B (zh) 一种基于图遍历的sparql查询优化方法
CN102467570B (zh) 用于分布式数据仓库的连接查询***和方法
CN103106249B (zh) 一种基于Cassandra的数据并行处理***
CN103853714B (zh) 一种数据处理方法和装置
CN104111936B (zh) 数据查询方法和***
WO2019024060A1 (zh) 数据存储方法、装置和存储介质
CN110659430A (zh) 一种支持多区块链网络的区块链浏览方法
CN105843933B (zh) 分布式内存列式数据库的索引建立方法
CN105224658A (zh) 一种大数据的实时查询方法和***
CN106777027B (zh) 大规模并行处理行列混合数据存储装置及存储、查询方法
Li et al. Efficient subspace skyline query based on user preference using MapReduce
CN113515545A (zh) 数据查询方法、装置、***、电子设备以及存储介质
CN113282611A (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN116166191A (zh) 湖仓一体***
Ji et al. Scalable nearest neighbor query processing based on inverted grid index
CN103092886A (zh) 一种数据查询操作的实现方法、装置及***
CN117056303B (zh) 适用于军事行动大数据的数据存储方法及装置
CN105930104A (zh) 数据存储方法和装置
US9817853B1 (en) Dynamic tier-maps for large online databases
Waluyo et al. Design and implementation of a mobile broadcast system
CN103324640A (zh) 一种确定搜索结果文档的方法、装置和设备
CN110134728B (zh) 一种基于全文搜索提供地图空间数据的方法及***
CN113821514A (zh) 数据拆分方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110119