CN107291807B

CN107291807B - 一种基于图遍历的sparql查询优化方法

Info

Publication number: CN107291807B
Application number: CN201710343003.9A
Authority: CN
Inventors: 李亮; 沈志宏; 周园春; 黎建辉; 朱小杰; 刘东江; 李跃鹏
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2020-10-16
Anticipated expiration: 2037-05-16
Also published as: CN107291807A

Abstract

本发明公开了一种基于图遍历的SPARQL查询优化方法。本方法为：1)使用属性图表示RDF数据中三元组，然后利用Bigtable模型存储RDF数据，得到RDF数据对应的Bigtable数据；2)将SPARQL查询转化对RDF属性图的遍历；3)根据步骤2)获得的遍历序列，遍历Bigtable数据中满足条件的所有节点，完成SPARQL查询。本发明一方面消除了传统SPARQL查询对Hash等数据结构的依赖，减少了中间数据的产生，避免了大规模RDF数据的连接计算；另一方面，能有效利用基于Bigtable的大数据处理技术存储和管理RDF海量关联知识网络数据，加速RDF关联数据的查询和分析。

Description

一种基于图遍历的SPARQL查询优化方法

技术领域

本发明涉及一种基于图遍历的SPARQL查询执行方法，具体涉及一种面向大数据关联的存储和查询的方法及***。

背景技术

图数据挖掘和分析是大数据的新领域，通过建立关联万维网资源、微生物菌种资源、以及科研资源等的关联关系，支持基于数据关联的信息挖掘和科学发现。资源描述框架(Resource Description Framework,简称RDF)是用于表达关于万维网(World Wide Web)资源的信息的语言，能够表达任何可在互联网上被标识的事物的信息，如页面标题、作者和修改时间以及不同数据之间的关联关系。RDF规范提供了描述资源的基础性词汇表，定义了各领域应用如WDCM(Mircen World Data Centre for Microorganisms)微生物描述资源词汇表时必须遵循的规则。SPARQL(SPARQL Protocol and RDF Query Language)是为RDF开发的一种查询语言和数据获取协议，由W3C国际标准组织推荐的RDF数据模型定义，用于查询任何能用RDF表示的信息资源。SPARQL协议和RDF查询语言(SPARQL)于2008年1月15日正式成为一项W3C推荐标准。

由于RDF使用了结构化的XML数据，检索和查询能够理解元数据的精确含义，搜索变得更为智能和准确，有效避免了检索经常返回无关数据的情况。RDF文件包含若干资源描述，每个资源描述由若干语句构成，每个语句由资源、属性类型、属性值构成三元组，表示资源具有一个属性。资源对应于自然语言中的主语，属性类型对应于谓语，属性值对应于宾语，多个RDF资源文件构成完整的资源描述和关联图。随着关联网络的数据规模越来越大，其表达和处理的数据类型越来越多，对RDF数据存储和SPARQL查询的实时性构成挑战。因此，采用可扩展的新型大数据架构提升RDF数据的存储和管理效率，提高SPARQL查询速度和分析能力非常重要。基于大图数据处理技术如Bigtable的图数据存储和管理框架，由于其出色的大规模数据处理能力，成为知识图谱网络的新发展方向。

目前，RDF数据主要采用关系数据库表或KV数据仓库存储和管理RDF三元组，通过自连接的方式实现RDF三元组的主语、谓语和宾语的子图匹配和SPARQL查询，通过Hash或Index支持本地数据的快速查询和检索，其典型实现如Virtuoso RDF图数据库。其分布式版本主要采用联邦方式，将RDF数据查询和分布式计算框架融合到一个统一的框架中，具体为：将SPARQL查询解析并分发到各个节点，每个节点运行子图匹配计算然后汇总每个节点的匹配结果。该架构简单且易于实现，支持RDF数据的分布式查询和快速返回，简化了面向较大大规模知识关联网络的设计和开发。

然而，基于联邦和子图匹配的分布式查询方式，每次查询均需要将SPARQL查询分解为子图匹配分发到多个结点，运行子图匹配并返回结果，容易导致大量的节点通信和中间数据。当数据规模超大时，***面临如下问题：

1)高开销的自连接操作。针对分布式***，数据表的连接操作导致***结点间大量的数据通信。当数据量大和机器结点较多时，自连接开销大，查询延迟明显增加，不利于***的横向扩展。

2)大量的中间数据。SPARQL查询分解后被分发到多个节点分别运行，每个节点相当于一个查询引擎，其运行产生大量的中间数据，增加了***的内存消耗，减少了***并行处理的SPARQL个数。

3)对数据分片要求高。联邦式查询将SPARQL查询分发到各个节点分别完成，对数据分片的质量要求较高。如果不同划分之间存在大量的关联关系，则SPARQL子图匹配不能在多个数据结点并行执行，降低了***的运行效率。

由于这些问题的存在，基于联邦方式的SPARQL查询难以有效应对大规模RDF关联数据的大规模增长和满足知识网络关联应用的实时性查询需求，查询时间随数据规模的增长而增加。而基于Bigtable的数据处理技术由于缺乏大规模表的连接操作(Join)，难以应用到海量RDF知识网络关联数据的处理中。

发明内容

针对RDF大数据SPARQL查询存在的问题，本发明的目的在于提供一种基于图遍历的SPARQL查询优化方法。

本发明的技术方案为：

一种基于图遍历的SPARQL查询优化方法，其步骤为：

1)使用属性图表示RDF数据中三元组，然后利用Bigtable模型存储RDF数据，得到RDF数据对应的Bigtable数据；

2)将SPARQL查询转化对RDF属性图的遍历；

3)根据步骤2)获得的遍历序列，遍历Bigtable数据中满足条件的所有节点，完成SPARQL查询。

利用Bigtable模型存储RDF数据的方法为：

21)针对RDF数据中的每一RDF三元组(sub，pre，obj)，将主语sub作为节点v，存储为Bigtable模型中一行；

22)判断宾语obj的类型：a)若宾语obj为rdf:literal，即谓语pre为主语sub的属性，则将宾语obj作为该节点v的属性值，然后将谓语pre作为该节点v的属性名称，存储为该节点v所在行的一个存贮单元Cell；b)若宾语obj为rdf:resource，即谓语pre为主语sub关联到其它节点的边，则将宾语obj作为一独立节点w，存储为Bigtable模型中一行；然后将谓语pre作为该节点v的出边，指向该节点w，存储为该节点v所在行的一个Cell，并且将谓语pre作为该节点w的入边，出自该节点v，存储为该节点w所在行的一个Cell。

进一步的，步骤2)中，将SPARQL查询转化为Gremlin图遍历，实现将SPARQL查询转化对RDF属性图的遍历。

进一步的，将SPARQL查询转化为Gremlin图遍历的方法为：对于SPARQL查询的where子句中的每个三元组(sub，pre，obj)，如果该三元组为谓语pre表示属性图中属性的三元组，则将该三元组转化为对主语sub所代表属性图中节点的过滤has(pre,obj)，obj为过滤条件，pre为谓语pre所代表的属性名称；如果该三元组为谓语pre表示属性图中边的三元组，则将该三元组转化为主语sub所代表节点到宾语obj所代表节点的遍历sub.out(pre)->obj，out表示出边，pre表示谓语pre所代表的边的关联标签；通过处理where子句的所有三元组，获得所述遍历序列。

进一步的，根据步骤2)获得的遍历序列，遍历Bigtable数据中满足条件的所有节点的方法为：所述遍历序列为过滤和关联边组成的遍历序列；首先根据关联边组成遍历路径，然后利用过滤消除无效的遍历路径，得到有效遍历路径；然后根据有效遍历路径遍历Bigtable数据中满足条件的所有节点，然后组织有效遍历路径的节点和边的属性值。

本发明包括Bigtable数据存储、SPARQL到Gremlin遍历转化、Gremlin图遍历执行。

其功能描述如下：

1)基于Bigtable模型存储RDF数据

RDF是一种面向互联网的图数据格式，采用<主语，谓语，宾语>三元组表示图数据，其主语(Subject)表示图节点，谓语为sub主语节点的属性名称，对应的宾语obj为属性。宾语(Object)主要包括rdf:literal和rdf:resource两种情况，前者表示主语节点的属性，属性名为谓语；后者表示主语节点关联到的其它节点，谓语标识主语关联到其它节点的边，边的标签为谓语。RDF图对应的属性图为图1(a)，其Bigtable表示如图1(b)所示。

本发明使用Bigtable存储RDF图，针对RDF数据三元组：主语(Subject)、谓语(Predicate)、宾语(Object)，依据其特性以及RDF模型(即RDF本体)，其结构解析如下：

针对“sub pre obj.”RDF三元组，将主语sub作为节点v，存储为Bigtable模型中一行。

若宾语obj为rdf:literal，则将宾语obj作为节点v的属性值，将谓语pre作为该节点v的属性名称，存储为v所在行的一个Cell(存贮单元)。否则，将obj作为独立节点w，存储为Bigtable中一行。将谓语pre作为主语sub节点v的出边，指向该节点w，将谓语pre存储为节点v所在行的一个Cell；将谓语pre作为宾语obj节点w的入边，出自节点v(即入边的出发点为节点v)，存储为节点w所在行的一个Cell。

其中，rdf:lieral为宾语的一种类型，由Apache Jena或其他RDF工具解析。其中，Bigtable是一种海量数据的存储结构，能够高效支持海量图数据的存储和管理。2)将SPARQL查询转化为Gremlin图遍历

如图2所示，SPARQL查询使用where子句的多个RDF三元组序列表示子图匹配。本发明使用图遍历实现SPARQL子图匹配，将SPARQL查询的where子句中的三元组序列转化为对图中节点和边的过滤和遍历。针对where子句中的每个“sub pre obj.”三元组，其转化流程如下所示：针对谓语pre表示属性图中属性的三元组，转化为对sub所代表属性图中节点的过滤has(pre,obj)，obj为过滤条件，pre为谓语pre所代表的属性名称。针对谓语pre表示属性图中边的三元组，转化为sub所代表节点到obj所代表节点的遍历，其gremlin代码为sub.out(pre)->obj，out表示出边，pre表示谓语pre所代表的边的关联标签。

通过处理where子句的所有三元组，获得过滤和关联边组成的遍历序列。

3)图遍历执行

针对步骤(2)获得的遍历序列，遍历步骤1)中基于Bigtable模型存储RDF数据得到的Bigtable数据中满足条件的所有节点。其关联边组成遍历路径，而过滤用于消除无效的遍历路径。遍历完成后，组织有效遍历路径的节点和边的属性值，按用户需求返回。由于是直接对Bigtable访问，查询过程基本没有中间数据的产生。所述RDF数据指W3C国际标准组织定义的图数据表示方法，采用三元组表示数据和数据之间的关联关系，所述主语、谓语、宾语指RDF数据的标准数据结构。所述Gremlin指面向图数据遍历的标准语言。

本发明的有益效果在于：

针对目前大规模RDF图数据存储可扩展性差和查询效率较低的问题，提出了一种基于Bigtable的RDF图数据存储和查询方法，通过将RDF图数据转换为Bigtable模型的数据格式，支持大规模图数据的水平扩展；通过将SPARQL查询转化为基于图遍历的Bigtable数据访问，避免了RDF数据连接导致的开销较大和扩展性差的问题，减少了查询过程中间数据的产生。而且由于将SPARQL查询过程转化为对Bigtable的访问，能够利用缓存减少访问次数。

本发明解决了海量大规模RDF数据的分布式存储和低延迟查询的问题，一方面消除了传统SPARQL查询对Hash等数据结构的依赖，减少了中间数据的产生，避免了大规模RDF数据的连接计算；另一方面，能有效利用基于Bigtable的大数据处理技术存储和管理RDF海量关联知识网络数据，利用缓存技术和索引技术加速RDF关联数据的查询和分析。

附图说明

图1为基于Bigtable模型存储RDF数据表示图；

(a)RDF数据属性图，(b)基于Bigtable模型RDF数据图；

图2为基于图遍历的SPARQL查询执行流程图；

图3为小数据集vs大数据集对比图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

如图2所示，一种基于图遍历的SPARQL执行引擎，由Bigtable数据存储、SPARQL到Gremlin转化，图遍历执行组成。本发明依据RDF三元组宾语的rdf:literal特性和rdf:resource特性，使用属性图表示RDF三元组的关联关系和literal值，使用Bigtable数据模型存储和管理RDF数据，使用图遍历实现SPARQL对RDF关联数据的查询和分析。

目前面向RDF数据的数据仓库以三元组为基本单位存储和管理RDF知识网络数据，依赖表自连接的方式实现子图匹配，从而实现对RDF数据的SPARQL查询和分析。

本发明则采用Bigtable存储和管理RDF数据，将SPARQL查询和分析转化为对RDF属性图的遍历，通过对Bigtable的访问完成SPARQL查询。如此，本发明实现了对RDF海量数据的分布式扩展，避免了连接操作对SPARQL查询的不利影响。下面描述RDF数据的Bigtable存储和SPARQL到Gremlin转化按如图1所示进行设计来支持RDF数据的快速检索和分析：

Bigtable数据存储：如图1所示，针对RDF三元组数据，将其表示为如图1(a)所示的属性图。如“<tax1><type><taxNode>.”，其宾语类型为rdf:literal，则转化为主语tax1所代表节点的属性值，属性名称为谓语；“<tax1><x-taxon><gene1>.”，其宾语为rdf:resource，则转化为主语tax1所代表节点指向宾语所代表gene1节点的边，谓语为边的标签，如此将所有的RDF三元组和属性图对应起来，并采用Bigtable数据结构存储属性和边。

SPARQL到Gremlin：将SPARQL查询中where子句的三元组转化为对属性图的遍历，其中SPARQL为面向RDF数据的查询语言，而Gremlin是面向属性图的遍历语言。

针对where子句的三元组“？tax<type><taxNode>.”，由于在属性图中type表示属性，则将该关联转化为gremlin中对节点属性type的过滤has(type,taxNode)step，其执行过程为依据taxNode对BigTable数据的过滤，减小遍历范围，提高遍历效率。

针对“？tax<x-taxon>？gene.”，由于在属性图中x-taxon为节点之间的边，因此将该关联转化为gremlin中对tax所代表节点出边的遍历out(x-taxon)step，通过对Bigtable数据的访问实现该遍历。

本发明选取微生物关联数据集WDCM的3亿规模小数据集、30亿规模的大数据集和16条标准SPARQL查询对发明进行测试，给出使用发明中所提出的面向大数据的基于图遍历的SPARQL执行引擎的一个具体实施过程，查询重复过程为10次，并去除最大值和最小值。

测试环境为4台支持BigTable的HBase集群，HBase版本为0.98.23.hadoop1，每个节点32G内存、12核CPU、28T磁盘，节点之间通过万兆交换机互联。Gremlin查询和分析引擎为Titan 1.0.0，SparQLToGremlin转化由项目组开发。

使用本发明***得到的查询运行时间如下：

如图3所示，对于3亿规模的小数据集，查询需要的时间在1s左右。

针对30亿三元组规模的大数据集，由于图遍历负载有效分散在多个结点，16条查询语句所用时间小于1s，反而优于小数据集的查询时间。

实验结果表明，针对不断增加的RDF数据，本发明能够有效利用Bigtable分布式数据存储的优势和图遍历查询的优势，保持查询时间恒定，很好地解决了目前RDF数据大规模增加时SPARQL查询时间明显增加的问题。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于图遍历的SPARQL查询优化方法，其步骤为：

2)将SPARQL查询转化对RDF属性图的遍历；

3)根据步骤2)获得的遍历序列，遍历Bigtable数据中满足条件的所有节点，完成SPARQL查询；

利用Bigtable模型存储RDF数据的方法为：21)针对RDF数据中的每一RDF三元组(sub，pre，obj)，将主语sub作为节点v，存储为Bigtable模型中一行；22)判断宾语obj的类型：a)若宾语obj为rdf:literal，即谓语pre为主语sub的属性，则将宾语obj作为该节点v的属性值，然后将谓语pre作为该节点v的属性名称，存储为该节点v所在行的一个存贮单元Cell；b)若宾语obj为rdf:resource，即谓语pre为主语sub关联到其它节点的边，则将宾语obj作为一独立节点w，存储为Bigtable模型中一行；然后将谓语pre作为该节点v的出边，指向该节点w，存储为该节点v所在行的一个Cell，并且将谓语pre作为该节点w的入边，出自该节点v，存储为该节点w所在行的一个Cell。

2.如权利要求1所述的方法，其特征在于，步骤2)中，将SPARQL查询转化为Gremlin图遍历，实现将SPARQL查询转化对RDF属性图的遍历。

3.如权利要求2所述的方法，其特征在于，将SPARQL查询转化为Gremlin图遍历的方法为：对于SPARQL查询的where子句中的每个三元组(sub，pre，obj)，如果该三元组为谓语pre表示属性图中属性的三元组，则将该三元组转化为对主语sub所代表属性图中节点的过滤has(pre,obj)，obj为过滤条件，pre为谓语pre所代表的属性名称；如果该三元组为谓语pre表示属性图中边的三元组，则将该三元组转化为主语sub所代表节点到宾语obj所代表节点的遍历sub.out(pre)->obj，out表示出边，pre表示谓语pre所代表的边的关联标签；通过处理where子句的所有三元组，获得所述遍历序列。

4.如权利要求1所述的方法，其特征在于，根据步骤2)获得的遍历序列，遍历Bigtable数据中满足条件的所有节点的方法为：所述遍历序列为过滤和关联边组成的遍历序列；首先根据关联边组成遍历路径，然后利用过滤消除无效的遍历路径，得到有效遍历路径；然后根据有效遍历路径遍历Bigtable数据中满足条件的所有节点，然后组织有效遍历路径的节点和边的属性值。