CN105608228B

CN105608228B - 一种高效的分布式的rdf数据存储方法

Info

Publication number: CN105608228B
Application number: CN201610064516.1A
Authority: CN
Inventors: 吴志坚; 黎建辉; 周园春; 侯艳飞; 韩岳岐
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2019-05-17
Anticipated expiration: 2036-01-29
Also published as: CN105608228A

Abstract

本发明公开了一种高效的分布式的RDF数据存储方法。本方法为：1)用户为待上传的每一三元组选取一命名图或设定一新的命名图；并根据业务需求为该三元组设定一有效谓词及其三元组；2)数据控制***对用户上传的RDF数据中的每条三元组进行解析，提取该三元组的谓词及该三元组的命名图的有效谓词；然后根据该有效谓词，将该三元组拆分成具有相同唯一标识的两个三元组：同一主语的完整谓词的三元组和同一主语的有效谓词的三元组；有效谓词为完整谓词中一部分谓词；3)数据控制***将得到的同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分别存储到不同的数据库集群。本发明得到提升了数据的高可用性。

Description

一种高效的分布式的RDF数据存储方法

技术领域

本发明涉及RDF数据存储技术领域，特别是高效的分布式的RDF数据存储方法，属于计算机软件领域。

背景技术

随着互联网技术的高速发展，使得互联网的应用范围越来越广泛，并且形成一个庞大的知识网络库，但同时也带来很多挑战，为了把不同形式的知识网络库连接起来，让计算机能够理解数据与数据之间的联系，提出了语义网的概念。语义网的目标是让网络上的信息资源能够被机器理解，从而实现网络信息资源的自动化处理，以适应网络信息资源的快速增长。

语义网定义一种资源描述框架RDF来描述网络上的信息资源。RDF是一个网络资源对象和其间关系的数据模型，提供一个通用的数据模型来支持对网络资源的描述，RDF使用三元组(主语、谓语和宾语)来描述网络上的各种资源和他们之间的关系。从图的角度分析，该模型是由节点和节点之间的边构成，节点表示主语和宾语，边表示谓语，如此可以用节点表示资源，边表示资源的属性。

目前对RDF数据存储普遍采用单机RDF数据库管理***，比如：GraphDB、stardog和allegrograph等。这种RDF存储方式可以管理大量的三元组数据，但是随着互联网信息资源的快速增长，单机的存储能力有限，已不能满足目前海量三元组数据存储的需求。针对海量三元组数据的存储有学者提出了多种方案，但都处在研究阶段。比如使用Hadoop或Hbase分布式集群存储三元组数据，由于Hadoop或Hbase都天然具有海量数据的存储管理能力，并采用mapreduce模拟实现数据查询；但是由于这种存储方式使得同一主语的三元组数据存储具有分散性，即同一主语的三元组可能存储在多台机器；加上RDF数据关联关系的复杂性，每个三元组之间都有可能存在关联关系，mapreduce模拟实现数据查询方案进行数据查询时，需要进行大量的数据关联筛选，目前的存储方案不能实现对数据高速的查询，查询性能比较低，特别是数据量很大的情况下，一条简单的查询可能就需要执行十几秒，不能满足实际的业务查询需求。

发明内容

针对上面提到的RDF数据存储中遇到的问题，本发明提出了一种高效的分布式的RDF数据存储方法，解决现有RDF数据存储方式中数据存储量有限、三元组数据分散的问题。

为解决上述问题，本发明提出了一种高效的分布式的RDF数据存储方法，该方法主要包括以下实现步骤：

1)数据解析器对用户上传的RDF数据进行解析，把每条三元组数据解析成统一格式的三元组对象；对解析后的数据进行处理，解析并提取三元组中的谓词，提取命名图的有效谓词，有效谓词通过用户的业务需求而定义，用户根据具体的业务需求确定目前用到的谓词三元组，即构成有效谓词的三元组。根据该命名图的有效谓词，把同一主语的三元组数据拆分成两部分，即同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据；同一主语的完整谓词的三元组数据即是同一主语的完整的三元组数据，同一主语的有效谓词的三元组数据即是同一主语的部分谓词的三元组数据，因此同一主语的有效谓词的三元组数据是同一主语的完整谓词的三元组数据子集。根据该命名图的有效谓词，把同一主语的三元组数据拆分成两部分，即同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据；并生成唯一ID，唯一标示该主语的三元组，每一主语的三元组都会生成该唯一ID，用于唯一标示该主语的三元组，同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据共用该唯一ID。

2)数据分为两部分进行存储管理，即同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分开存储。使用开源分布式NoSQL数据库集群存储同一主语的完整谓词的三元组数据，为了保证数据的完整性，将来谓词需求变化时，对有效谓词三元组数据进行扩展或者缩减。使用RDF数据库集群存储同一主语的有效谓词的三元组数据，同一主语的有效谓词的三元组数据是同一主语的完整谓词的三元组数据子集，在存储能力不变的情况下，提高***三元组数据的存储量和管理能力，减少了三元组的数据量进而提高数据查询效率；RDF数据库集群由数据节点、路由节点和配置节点构成。

3)RDF数据库集群中的有效谓词三元组数据可动态扩展。RDF数据库集群只存储同一主语的有效谓词的三元组数据，有效谓词可动态变化，有效谓词发生变化时，首先用户提交谓词更新任务，***的谓词更新任务监控模块监控用户提交的谓词更新任务，当用户提交谓词更新任务后，该监控模块在后台启动谓词更新任务，检测哪些谓词发生变化，RDF数据库集群存储的三元组相应的也需要发生变化，数据管理模块负责有效谓词变化时，根据分布式NoSQL数据库集群存储同一主语的完整谓词的三元组数据中发生变化谓词的三元组数据导入到RDF数据库集群中，保证存储三元组数据的完整性。

进一步的，所述三元组和命名图(graphname)，在RDF数据中基本结构是多个三元组的集合，每个三元组由一个主体、一个谓词和一个客体组成，谓词表示主体和客体之间的关联关系，每个三元组也可以理解为由一个主语、一个谓语和一个宾语组成。一系列这样的三元组被称为一个RDF图，定义RDF图的名称即命名图(graphname)，命名图就是数据保存的空间，等同于关系型数据库中数据库的概念，是在用户上传数据时根据业务需求定义，可以选择已有的命名图，也可添加新的命名图。

进一步的，所述完整谓词和有效谓词，本发明把同一主语的三元组的谓词划分为两部分，即完整谓词和有效谓词；完整谓词：某一命名图包含的所有谓词，有效谓词：用户根据业务需求自定义，即某一命名图中用户目前需求会使用到的谓词；根据谓词信息将同一主语的三元组划分成两部分，即完整谓词的三元组和有效谓词的三元组。

进一步的，所述同一主语完整谓词的三元组数据和同一主语有效谓词的三元组数据分开存储管理。由于同一主语的三元组谓词一般有多个，并且在实际需求中大部分谓词是冗余数据，不会在现有业务需求中使用到，但是在未来的需求发生变化时，可能会使用到该部分数据，为了保证数据的完整性，所以不能把该部分数据丢掉，所以采用这种模式对数据进行划分管理，即完整谓词的三元组数据和有效谓词的三元组数据分开存储，并使用唯一ID进行关联这两部分数据，使用开源分布式NoSQL数据库集群存储完整谓词的三元组数据，使用RDF数据库集群存储有效谓词的三元组。

进一步的，所述RDF数据库集群由数据节点、路由节点和配置节点构成；数据节点主要进行数据存储，由多个开源单机版RDF数据库构成；路由(routor)节点对数据节点进行控制，包括数据更新、数据节点选择、数据分片和数据同步等；配置节点(config)对数据节点配置信息进行管理，包括各数据节点的IP和端口、名称、命名图、谓词信息、存储三元组数据量、最大装填因子和主从库标示等信息。

进一步的，所述数据分片和数据节点选择，存储三元组数据时，为了解决数据分散性的问题，将同一主语的三元组数据存储到同一数据节点，同一命名图的数据在数据节点最大存储量内存储到同一数据节点，使得数据分布式查询减少数据查询的计算量和不同节点间的数据传输，提升查询速度。在进行数据分片时，同一主语的三元组数据作为一个原子数据，根据各个数据节点当前数据存储量、存储能力、最大装填因子、图的分布情况选择相应的数据节点，存储该三元组数据。

与现有技术相比，本发明的积极效果为：

本发明针对大规模RDF数据的存储，提出一种新的分布式RDF数据存储方案，把数据分为两部分进行存储管理，完整谓词的三元组数据和有效谓词的三元组数据分开存储模式。提高RDF数据的存储能力，使其可以管理海量的RDF数据；提升数据高可用性，RDF数据库集群具有数据分片和备份数据，当某个数据节点失效时，能够保证***正常不间断运行；数据分片策略是以同一主语的三元组数据作为一个原子数据，根据命名图和主语进行数据分片和数据节点选择，降低三元组数据在各数据节点的分散性，减少数据查询时的复杂度和不同节点间数据传输量，同时提高数据的查询效率。

附图说明

附图为本发明一种高效的分布式的RDF数据存储方法的***架构图。

具体实施方式

为了更清晰和直观的表达本发明的方法，下面结合附图对本发明进行进一步详细描述。本发明高效的分布式的RDF数据存储方法包括以下步骤：

1)数据访问，负责对外提供统一的数据访问接口，通过提供的接口进行数据的访问。主要包括的内容有数据上传、数据更新、数据查询、谓词扩展和谓词信息查询等接口。

2)数据控制，提供对数据的控制处理功能主要包括的内容有数据管理、谓词管理和数据存储管理。

数据管理提供对RDF数据的管理功能，包括对RDF数据的上传、更新和查询控制；RDF上传数据控制，包括RDF数据解析器、RDF数据分割模块和生成唯一ID。数据上传时，首先，RDF数据解析器进行RDF数据解析，支持对多种格式RDF数据的解析，包括xml、json和nt等格式的RDF数据，根据用户上传数据格式，把数据解析成统一格式的RDF数据对象；然后，RDF数据分割模块对解析生成的统一格式的RDF数据对象进行分割，用户定义RDF数据的命名图名称，用于确定上传数据保存到哪个命名图，根据该RDF数据的命名图获取其有效谓词列表，根据有效谓词列表把数据分割成两部分，即同一主语的完整谓词的三元组对象、同一主语的有效谓词的三元组对象；最后，生成唯一ID，用于唯一标示该主语的三元组，并关联一主语的完整谓词的三元组和同一主语的有效谓词的三元组这两部分数据，使用ID自增策略生成，通过自定义的唯一ID生成器获取该命名图的自增ID，并生成一条包含该ID的三元组分别封装到同一主语的完整谓词的三元组对象和同一主语的有效谓词的三元组对象中。

谓词管理提供对RDF数据的谓词的管理功能，包括谓词的扩展、谓词的缩减和谓词信息的查询等功能。谓词的扩展，指对有效谓词进行扩展，由于RDF数据库集群只存储部分谓词的三元组，当用户需要使用某命名图的谓词不在有效谓词中时，需要对有效谓词进行扩展，扩展数据库中这些谓词的三元组。谓词扩展步骤：用户提交要进行扩展的命名图的谓词，谓词管理模块获取用户提交的命名图及其扩展谓词，对比该命名图中的有效谓词，核实得出要扩展谓词，为了保证现有的有效谓词不包括用户提交的扩展谓词，起到用户输入数据校验的作用；通过谓词扩展调度提交谓词扩展任务，后台异步执行谓词扩展任务，进行数据导入，从NoSQL数据库读取相应的三元组数据，提取扩展谓词的三元组，导入到RDF数据库集群中。

数据存储管理提供数据管理模块和谓词管理模块对数据库的操作，所有对数据库的操作都通过该模块进行，提供统一的数据访问接口，实现数据处理和数据存储分离，包括对数据库进行数据查询、更新和上传等功能，以及谓词扩展的数据导入、谓词信息进行查询、更新和上传功能。

3)数据持久化，负责数据的物理存储，把数据保存到磁盘，数据分为两部分进行持久化，使用NoSQL数据库集群和RDF数据库集群进行数据存储。NoSQL数据库集群使用开源分布式NoSQL数据库集群，利用其海量的数据管理能力特点，存储完整谓词的三元组数据，用于保证数据的完整性，当有效谓词发生变化时，读取其相应的谓词三元组数据导入到RDF数据库集群中。RDF数据库集群由多个数据节点、路由节点和配置节点构成；数据节点主要进行三元组数据存储，由多台单机版开源RDF数据库构成；路由节点对数据节点进行控制，包括数据更新、数据节点选择、数据分片和数据同步等。路由节点管理RDF数据库集群，是集群的中心节点，控制各个RDF数据库数据节点。配置节点对数据节点配置信息进行管理，包各数据节点的IP和端口、名称、命名图、谓词信息、存储三元组数据量、最大装填因子和主从库标示等信息。装填因子是指数据存储量和数据最大容纳量比值，最大装填因子是指允许的最大的装填因子值，当前装填因子是指当前据存储量和数据最大容纳量比值。进行三元组数据上传时，路由节点根据该三元组的命名图和配置节点的配置信息，得出该命名图数据所在数据节点，如果该命名图数据没有存储在任何数据节点，表示该命名图是新的图，则从所有数据节点中选取一个当前装填因子最小的数据节点，存储上传的三元组数据；如果有该命名图存储在某些数据节点，则从这些数据节点中选取某个当前装填因子最小的数据节点，如果数据节点中的最小的当前装填因子值大于等于最大装填因子值，则需要对该命名图数据进行分片存储，从其他数据节点中选取一个填装因子最小的数据节点，存储上传的三元组数据，否则直接选取当前填装因子最小的数据节点，存储上传的三元组数据。数据存储到数据节点之后，更新相应的配置信息，包括更新命名图信息和数据节点的存储三元组数据量等配置信息。

数据上传的实施案例分析：

1.准备三元组数据，并定义该三元组数据的命名图(graphname)，即确定数据要上传到哪个命名图，通过调用数据上传接口，上传三元组数据和其命名图到数据管理模块。

2.数据管理模块调用数据解析器，解析该三元组数据，把数据封装成统一格式的三元组数据对象。

3.数据管理模块调用数据分割模块，并通过谓词管理模块查询其命名图的有效谓词列表，根据有效谓词列表，把上传三元组数据对象分割成两部分，即完整谓词三元组数据对象和有效谓词三元组数据对象。

4.数据管理模块使用唯一ID自增生成器，生成上传三元组数据的唯一ID，并把ID值分别封装到完整谓词三元组数据对象和有效谓词三元组数据对象中。

5.调用数据存储控制模块，分别把完整谓词三元组数据和有效谓词三元组数据存储到NoSQL数据库集群和RDF数据库集群。完整谓词三元组数据直接存储到NoSQL数据库集群中。RDF数据库集群的路由节点控制有效谓词三元组数据的存储。

6.RDF数据库集群的路由节点，通过调用配置节点获取该命名图所在数据节点，如果该命名图数据没有存储在任何数据节点，表示该命名图是新的图，则从所有数据节点中选取一个当前装填因子最小的数据节点，存储上传的三元组数据，按步骤10继续进行数据存储。

7.如果有该命名图存储在某些数据节点，则从这些数据节点中选取某个当前装填因子最小的数据节点。

8.如果所选数据节点中的最小的当前装填因子值大于等于最大装填因子值，则需要对该命名图数据进行分片存储，从其他数据节点中选取一个当前填装因子最小的数据节点，存储上传的三元组数据，按步骤10继续进行数据存储。

9.如果所选数据节点中的最小的当前装填因子值小于最大装填因子值，则直接选取当前填装因子最小的数据节点，存储上传的三元组数据，按步骤10继续进行数据存储。

10.数据存储到数据节点之后，更新相应的配置信息：命名图信息、数据节点的存储三元组数据量和当前填装因子。

Claims

1.一种高效的分布式的RDF数据存储方法，其步骤为：

1)用户为待上传的每一三元组选取一命名图或设定一新的命名图；并根据业务需求为该三元组设定一有效谓词及其三元组；

2)数据控制***对用户上传的RDF数据中的每条三元组进行解析，提取该三元组的谓词及该三元组的命名图的有效谓词；然后根据该有效谓词，将该三元组拆分成具有相同唯一标识的两个三元组：同一主语的完整谓词的三元组和同一主语的有效谓词的三元组；其中，完整谓词为三元组的命名图包含的所有谓词，有效谓词为完整谓词中一部分谓词；

3)数据控制***将得到的同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分别存储到不同的数据库集群；所述RDF数据库集群包括数据节点、路由节点和配置节点；其中，数据节点用于数据存储；路由节点用于对数据节点进行控制，包括数据更新、数据节点选择、数据分片和数据同步；配置节点用于对数据节点配置信息进行管理，包括各数据节点的IP和端口、名称、命名图、谓词信息、存储三元组数据量、最大装填因子和主从库标示信息。

2.如权利要求1所述的方法，其特征在于，使用开源分布式NoSQL数据库集群存储同一主语的完整谓词的三元组数据，使用RDF数据库集群存储同一主语的有效谓词的三元组数据。

3.如权利要求2所述的方法，其特征在于，当数据控制***收到谓词更新任务时，根据该更新任务中的谓词更新信息，检测发生变化的谓词，然后更新RDF数据库集群存储的对应三元组中的谓词。

4.如权利要求1所述的方法，其特征在于，数据控制***将同一主语的三元组数据存储到同一数据节点。

5.如权利要求4所述的方法，其特征在于，数据控制***将同一命名图的数据在数据节点最大存储量内存储到同一数据节点。

6.如权利要求1所述的方法，其特征在于，路由节点根据三元组的命名图和配置节点的配置信息，得出该命名图的数据所在的数据节点；其中，如果该命名图的数据没有存储在任何数据节点，则从所有数据节点中选取一个当前装填因子最小的数据节点，存储上传的三元组数据；如果找到存储该命名图的数据的若干数据节点，则从这些数据节点中选取当前装填因子最小的数据节点，如果该数据节点中的最小的当前装填因子值大于或等于最大装填因子值，则对该命名图的数据进行分片存储，从其他数据节点中选取一填装因子最小的节点，存储上传的三元组数据；否则选取当前填装因子最小的数据节点存储上传的三元组数据。

7.如权利要求6所述的方法，其特征在于，数据节点存储一三元组后，更新相应的配置信息，包括命名图信息、存储的三元组数据量和当前填装因子。

8.如权利要求1所述的方法，其特征在于，数据控制***对提取的有效谓词进行扩展：对于用户提交的要进行扩展的命名图的谓词，数据控制***获取用户提交的命名图及其扩展谓词，对比该命名图中的有效谓词，核实得出要扩展谓词。