CN101950297A

CN101950297A - 一种海量语义数据的存储和查询方法及装置

Info

Publication number: CN101950297A
Application number: CN 201010279073
Authority: CN
Inventors: 陈岩光; 邹磊; 赵东岩
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2010-09-10
Filing date: 2010-09-10
Publication date: 2011-01-19

Abstract

本发明提供了一种海量语义数据的存储和查询方法及装置，基于云计算搭建具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点，集群中的每个节点都建立分布式数据库；将海量语义数据通过云计算编程模型导入各节点的分布式数据库，实现了存储的分布式，解决了当处理海量数据时单机***遇到的存储瓶颈和管理困难的问题，同时，如果数据规模继续扩大，只需要增加集群的从属节点，具有良好的可扩展性。另外，在解决海量数据查询的问题时，本发明方法利用了RMI技术，将查询进行了分割，使得集群的各个节点可以同时处理所得到的分割查询，使得查询速度更快，效率更高。

Description

一种海量语义数据的存储和查询方法及装置

技术领域

本发明涉及数据库技术领域、云计算领域、分布式计算领域、语义网领域，特别涉及一种利用云计算技术对海量语义数据进行存储和查询的方法及装置。

背景技术

语义数据是一种表示实体的属性信息以及实体之间语义关系的数据，一般可以利用三元组的集合形式来表示，三元组的格式为<主体，谓词，客体>。例如：<张三，出生地，北京>，<张三，指导老师，李四>，……，<张三，毕业于，北京大学>这些三元组就可以把有关张三的一系列属性信息以及和张三有关的实体信息都表示出来。

这些语义数据的传统的存储和查询方法是将其存储在单机数据库中，利用数据库的表格和相关索引技术来进行查询。但是这种方法的前提是数据量不大，即单机数据库可以承受的数据规模。然而，随着互联网的不断发展，信息的规模呈现***式增长，与此同时，语义数据的规模也在不断扩大，很多语义数据集达到了数亿到数十亿个三元组的规模。在这种情况下，使用传统的方法就无法很好的解决存储和查询的问题了，因为无论是内存还是硬盘，都无法支持海量的数据管理。同时，如果数据量继续增加，单机数据库也无法支持***的扩展性。可见，传统的单机数据库已经无法满足日益增长的海量语义数据的存储和查询的需求。

发明内容

本发明克服现有技术中的缺点，提供一种基于云计算平台的海量语义数据的存储和查询方法及装置，用以支持海量语义数据的管理，并很好的支持了扩展性。

为了实现本发明存储方法的目的，采用的技术方案如下：

一种海量语义数据存储的方法，其步骤包括：

1)基于云计算搭建具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点；

2)集群中的每个节点都建立分布式数据库，将语义数据以三元组<主体，谓词，客体>的形式表示，映射到分布式数据库；利用云计算编程模型将语义数据导入分布式数据库；

3)对语义数据建立索引，利用云计算编程模型存储在分布式数据库。

所述步骤2)映射的过程为：三元组的谓词都对应到分布式数据库属性列中，三元组的主体对应一个行键(Rowkey)，三元组的客体对应一行中某一属性列的值。

所述步骤3)编程模型为MapReduce编程模型，分为Map函数和Reduce函数，在数据导入中，Map函数和Reduce函数实现如下所示：

Map：<文件行号，三元组>-><主体，谓词+客体>

Reduce：<主体，List(谓词+客体)>导入数据库。

所述步骤3)建立索引时，每一张索引表都对应了唯一一个的谓词，索引表的行键是一个客体，该行对应的每一列都是一个主体。

所述步骤3)编程模型为MapReduce编程模型，分为Map函数和Reduce函数，建立索引时，Map函数和Reduce函数实现如下所示：

Map：<文件行号，三元组>-><客体+谓词，主体>

Reduce：<客体+谓词，List(主体)>导入数据库。

为了实现本发明查询方法的目的，采用的技术方案如下：

一种海量语义数据查询的方法，其步骤包括：

6-1)基于云计算搭建具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点；

6-2)集群中的每个节点都建立分布式数据库，存储有语义数据，语义数据以三元组<主体，谓词，客体>的形式表示；

6-3)集群的各个节点都开设查询服务，将某一查询条件分成若干份，分别发送给不同的节点去查询，最后各个节点将查询结果汇总到主控节点。

所述步骤6-2)对语义数据进行比特序列化，数据表的每一行设置一个比特序列，语义数据中所出现的不同谓词的个数对于该行，如果某一属性列有值，则该比特位设置为1，否则，设置为0。

所述步骤6-3)通过预先统计语义数据每个谓词所关联的三元组个数决定查询条件的优先级。

所述步骤6-3)利用RMI方法送至集群中的各个节点进行分布式查询。

为了实现本发明存储装置的目的，采用的技术方案如下：

一种海量语义数据存储的装置，其特征在于，基于云计算平台上搭建具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点；所述节点上包括：

数据导入单元：利用云计算编程模型将海量语义数据导入各节点的分布式数据库；

建立索引单元：利用云计算编程模型对语义数据建立索引。

为了实现本发明查询装置的目的，采用的技术方案如下：

查询分割单元：将查询分割成若干部分，送至集群中的各个节点进行分布式查询；

查询合并单元：将各个节点的查询结果进行合并；

查询结果显示单元：用于显示用户输入的查询图和满足查询条件的查询结果。

还包括：

数据统计单元，用于记录语义数据的统计信息；

比特序列化单元：对语义数据进行语义序列化；

查询优化单元：利用统计信息和比特序列进行查询优化。

与现有技术相比，本发明的方法实现了存储的分布式，解决了当处理海量数据时单机***遇到的存储瓶颈和管理困难的问题，同时，如果数据规模继续扩大，只需要增加集群的从属节点，具有良好的可扩展性。另外，在解决海量数据查询的问题时，本发明实例利用了RMI技术，将查询进行了分割，使得集群的各个节点可以同时处理所得到的分割查询，使得查询速度更快，效率更高。

附图说明

图1为本发明实施例中海量语义数据存储的方法的图示；

图2为本发明实施例中海量语义数据查询的方法的图示；

图3为本发明实施例中海量语义数据存储的装置结构图；

图4为本发明实施例中海量语义数据查询的装置结构图

图5a为语义数据导入过程中Map函数处理过程；

图5b为语义数据导入过程中Reduce函数处理过程；

图6a为建立索引过程中Map函数处理过程；

图6b为建立索引过程中Reduce函数处理过程；

图7为所有主体、客体都是变量的查询结果图。

具体实施方式

本发明实例是基于Hadoop云计算平台的，在这个平台上搭建了一个具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点。主控节点的作用是控制从属节点的存储细节信息，调度存储单元，分配计算任务，监测节点状态，平衡集群负载。从属节点的作用是存储具体数据，完成主控节点所分配的计算任务，向主控节点报告存储信息、计算信息以及自己的当前状态。在这个集群上，建立了分布式数据库Hbase，这样集群的每个节点都可以提供存储功能，当存储海量语义数据时，不用再担心容量的问题。而且当数据继续增加时，只需增加集群中的从属节点个数即可，具有非常好的可扩展性。在数据导入和建立索引时利用了MapReduce编程框架，使得集群中每个节点同时完成计算任务，海量数据的导入时间耗费更短。

本发明实施例提供一种海量语义数据存储的方法，包括：

利用Hadoop云计算平台的Hbase存储海量语义数据；

利用Hadoop云计算平台的Hbase存储海量语义数据的索引；

利用MapReduce云计算编程模型将海量语义数据导入Hbase；

利用MapReduce云计算编程模型对海量语义数据建立索引。

本发明实施例提供一种海量语义数据查询的方法，包括：

记录语义数据的统计信息，利用语义数据的统计信息进行查询优化；

对语义数据进行比特序列化，利用比特序列的方法进行查询优化；

利用RMI技术实现集群中多个节点同时进行查询。

本发明实施例提供一种海量语义数据存储的装置，包括：

数据导入单元：利用MapReduce云计算编程模型将海量语义数据导入Hbase；

建立索引单元：利用MapReduce云计算编程模型对海量语义数据建立索引。

本发明实施例提供一种海量语义数据查询的装置，包括：

数据统计单元：记录语义数据的统计信息；

比特序列化单元：对语义数据进行语义序列化；

查询优化单元：利用统计信息和比特序列进行查询优化；

查询分割单元：将查询分割成若干部分，利用RMI技术送至集群中的各个节点进行分布式查询；

查询合并单元：将各个节点的查询结果进行合并。

参见图1，实施例中，海量语义数据存储的方法包括：

步骤101：利用Hadoop云计算平台的Hbase存储海量语义数据。

Hbase的表格类似于属性表，每一列都可以表示一个属性，但相对于属性表，Hbase的表格支持稀疏数据和多值数据的存储。表1显示了一个Hbase表的例子：

表1

表1显示了“张三”和“北京大学”这两个实体的信息，张三有“出生于”和“毕业于”两个属性，而在“成立于”和“校长”这两个属性列上没有值，在实际存储时，这两列对于“张三”这个实体不消耗任何存储空间，这就解决了数据稀疏时带来的存储空间浪费问题。“北京大学”这个实体在“校长”这个属性列有三个值，分别为“周其凤”、“***”、“***”，这三个值分别对应一个时间戳，也就是说，这个表是三维的，这就解决了数据的多值问题。

从表1我们可以看出，只要把语义数据的谓词都对应到表中的属性列中，对于三元组<主体，谓词，客体>，三元组的主体对应一个Rowkey，三元组的客体对应一行中某一属性列的值，然后这张大表就可以把所有的三元组信息全部表示出来。

步骤102：利用Hadoop云计算平台的Hbase存储海量语义数据的索引。

为了提高查询速度，对数据建立索引是必不可少的。考虑到索引表的规模也是很大的，所以索引表也存储在Hbase中。对于语义数据中每一个不同的谓词，都建立一张索引表，也就是说，每一张索引表都对应了唯一一个的谓词。所以表的Rowkey(即行键)是一个客体，这一行对应的每一列都是一个主体，这个主体和该表所对应的谓词以及行键客体组成的三元组是原始语义数据所包含的三元组。表2是一个索引表的例子：

表2

表2是关于谓词“出生于”的索引表的一个片段，可以看出，第一行表示了所有出生于北京的人，第一行可以还原成4个三元组：<张三，出生于，北京><李四，出生于，北京><王五，出生于，北京><李六，出生于，北京>。

步骤103：利用MapReduce云计算编程模型将海量语义数据导入Hbase。

由于海量语义数据的规模非常大，如果采用传统的单机导入方式会消耗大量时间，同时为了充分利用集群中各个节点的计算资源，我们采用了MapReduce的编程模型来分布式的进行语义数据的导入。

MapReduce编程模型主要分为Map函数和Reduce函数。Map函数将输入的键值对处理并输出新的键值对，即<k1，v1>-><k2，v2>。

然后合并函数combine会将Map的输出的具有相同key的键值对合并在一起，组成<k2，List<v2>>发送给Reduce函数。Reduce函数对输入的<k2，List<v2>>进行处理。MapReduce的工作过程是这样的：将原始数据切分成若干份，然后将每一份发送给集群中的一个节点，每个节点根据预先定义好的Map函数对收到的切分数据进行处理，combine函数将所有的节点的Map结果进行合并，并发送给相应的Reduce函数完成相应工作。

在数据导入中，Map函数和Reduce函数如下所示：

Map：<文件行号，三元组>-><主体，谓词+客体>

Reduce：<主体，List(谓词+客体)>导入数据库

Map函数处理过程如图5a所示；Reduce函数处理过程如图5b所示

由上图可知，由于多个节点同时在运行Map函数，这样就可以并行的处理多个三元组，所以用这种方法导入数据库节约了大量的时间。

步骤104：利用MapReduce云计算编程模型对海量语义数据建立索引。

在建立索引时，Map函数和Reduce函数如下所示：

Map：<文件行号，三元组>-><客体+谓词，主体>

Reduce：<客体+谓词，List(主体)>导入数据库

Map函数处理过程如图6a所示；Reduce函数处理过程如图6b所示

参见图2，实施例中，海量语义数据查询的方法包括：

步骤201：记录语义数据的统计信息，利用语义数据的统计信息进行查询优化。

语义数据的查询一般形式为如下：

Query1：？p1<hasAcademicAdvisor>？p2

？p1<bornIn>？c1

？c1<locatedIn>“Switzerland”

？p2<bornIn>？c2

？c2<locatedIn>“Germany”

其中，带“？”前缀的是变量，可见一个查询包含多个条件，那么这些条件的查询顺序就会影响到查询的速度。所以可以通过预先统计每个谓词所关联的三元组个数来决定查询条件的优先级。例如，对于如下所示的这个文件片段：

张三出生于北京

张三导师李四

张三毕业于北京大学

李四出生于北京

李四毕业于北京大学

统计结果为出生于：2，导师：1，毕业于：2，那么在一个查询中，包含“出生于”和“毕业于”的条件就要优先于“导师”。

步骤202：对语义数据进行比特序列化，利用比特序列的方法进行查询优化。

下面这个查询是一个所有主体、客体都是变量的查询：

Query2：？p1<isMarriedTo>？p2

？p1<bornIn>？c1

？p2<diedIn>？c1

如果直接对这个query查索引，那么每个条件都要得到很多的候选集，得到每个候选集都需要大量的IO操作，而且要对得到的候选集做交集，这样会极大的影响查询速度。所以采用了另外一种方法，即利用将语义数据进行比特序列化。

所谓比特序列化，就是对Hbase语义数据表的每一行设置一个比特序列，这个比特序列的长度为所有属性列的个数，亦即语义数据中所出现的不同谓词的个数。对于该行，如果某一属性列有值，则该比特位设置为“1”，否则，设置为“0”。由于每一行都代表一个实体，所以我们就可以得到所有实体的比特序列，从而知道每个实体具体都有哪些属性。这些比特序列所占的空间要比数据表和索引表小很多，所以可以直接放在内存中。另外，这些比特序列按照树的结构存储，就可以对数的时间开销来查找满足条件的实体。对于Query2，就可以直接查找比特序列中<isMarriedTo>和<bornIn>这两位同时为“1”的实体，这种查询速度要快很多。

步骤203：利用RMI技术实现集群中多个节点同时进行查询。

由于MapReduce编程框架解决批量处理任务具有很大优势，但并不适合于实时任务，所以为了实现分布式的查询操作，我们采用了RMI技术。

对于Query1来说，查询的第一步可能会找到所有位于“Germany”的城市，然后再遍历每一个城市来判断剩下的查询条件。如果得到的城市非常多，例如有几万个甚至几十万个，那么遍历的速度就会很慢。这样我们利用RMI技术，在集群的各个节点都开设查询服务，然后将得到的这些城市分成若干份，分别发送给不同的节点服务程序去查询，最后各个节点将查询结果汇总到主控节点，这样就可以充分利用集群的计算资源，实现实时的分布式计算，大大提高了查询速度。

根据上述海量语义数据存储的方法，可以构造一种海量语义数据存储的装置，参见图3，包括：数据导入单元310，以及建立索引单元320。

数据导入单元310：利用MapReduce云计算编程模型将海量语义数据导入Hbase；

建立索引单元320：利用MapReduce云计算编程模型对海量语义数据建立索引。

在本发明实例中，只需要将原始的语义数据三元组文件输入到数据导入单元310和建立索引单元320，就可以直接将语义数据导入Hbase数据库中，并建立相应的索引表，具体实现原理已经在方法里说明，不再赘述。

根据上述海量数据查询的方法，可以构造一种海量数据查询的装置，参见图4，包括：数据统计单元410，比特序列化单元420，查询优化单元430，查询分割单元440，查询合并单元450，查询结果显示单元460。

数据统计单元410：记录语义数据的统计信息；

比特序列化单元420：对语义数据进行语义序列化；

查询优化单元430：利用统计信息和比特序列进行查询优化；

查询分割单元440：将查询分割成若干部分，利用RMI技术送至集群中的各个节点进行分布式查询；

查询合并单元450：将各个节点的查询结果进行合并。

查询结果显示单元460：用于显示用户输入的查询图和满足查询条件的查询结果。

其中410-450这五个单元的实现原理已经在相关方法中说明，不再赘述。对于查询结果显示单元460，根据用户输入的查询条件，可以将查询以图的形式表现出来，从而更直观的让用户了解自己输入的查询结构。

例如，对于Query2，显示的查询图如图7所示，查询图可以反馈给用户更准确的查询意图。

综上所述，本发明实例中，以Hadoop为依托，搭建了一个云计算的平台，用来解决海量语义数据的存储和查询问题。首先将语义中的谓词映射到Hbase表的属性列中，然后对语义数据建立了索引和比特序列，实现了存储的分布式，解决了当处理海量数据时单机***遇到的存储瓶颈和管理困难的问题，同时，如果数据规模继续扩大，只需要增加集群的从属节点，具有良好的可扩展性。另外，在解决海量数据查询的问题时，本发明实例利用了RMI技术，将查询进行了分割，使得集群的各个节点可以同时处理所得到的分割查询，使得查询速度更快，效率更高。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种海量语义数据存储的方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，所述步骤2)映射的过程为：三元组的谓词都对应到分布式数据库属性列中，三元组的主体对应一个行键，三元组的客体对应一行中某一属性列的值。

3.如权利要求1所述的方法，其特征在于，所述步骤3)编程模型为MapReduce编程模型，分为Map函数和Reduce函数，在数据导入中，Map函数和Reduce函数实现如下所示：

Map：<文件行号，三元组>-><主体，谓词+客体>

Reduce：<主体，List(谓词+客体)>导入数据库。

4.如权利要求1所述的方法，其特征在于，所述步骤3)建立索引时，每一张索引表都对应了唯一一个的谓词，索引表的行键是一个客体，该行对应的每一列都是一个主体。

5.如权利要求1所述的方法，其特征在于，所述步骤3)编程模型为MapReduce编程模型，分为Map函数和Reduce函数，建立索引时，Map函数和Reduce函数实现如下所示：

Map：<文件行号，三元组>-><客体+谓词，主体>

Reduce：<客体+谓词，List(主体)>导入数据库。

6.一种海量语义数据查询的方法，其步骤包括：

7.如权利要求6所述的方法，其特征在于，所述步骤6-2)对语义数据进行比特序列化，数据库的每一行设置一个比特序列，如果某一属性列有值，则该比特位设置为1，否则，设置为0。

8.如权利要求6所述的方法，其特征在于，所述步骤6-3)通过预先统计语义数据每个谓词所关联的三元组个数决定查询条件的优先级。

9.如权利要求6所述的方法，其特征在于，所述步骤6-3)利用RMI方法送至集群中的各个节点进行分布式查询。

10.一种海量语义数据存储的装置，其特征在于，基于云计算平台上搭建具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点；所述节点上包括：

建立索引单元：利用云计算编程模型对语义数据建立索引。

11.一种海量语义数据查询的装置，其特征在于，基于云计算平台上搭建具有多个计算机节点的集群，集群包括一个主控节点和若干个从属节点；所述节点上包括：

查询合并单元：将各个节点的查询结果进行合并；

12.如权利要求11所述的装置，其特征在于，还包括：

数据统计单元，用于记录语义数据的统计信息，语义数据每个谓词所关联的三元组个数；

比特序列化单元：对语义数据进行语义序列化；

查询优化单元：利用统计信息和比特序列进行查询优化。