CN107491476B

CN107491476B - 一种适用于多种大数据管理***的数据模型转换及查询分析方法

Info

Publication number: CN107491476B
Application number: CN201710515379.3A
Authority: CN
Inventors: 黎建辉; 李跃鹏; 沈志宏
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2021-01-12
Anticipated expiration: 2037-06-29
Also published as: CN107491476A

Abstract

本发明涉及一种适用于多种大数据管理***的数据模型转换及查询分析方法。该方法包括：1)建立关联文档模型，其包括文档集与关联集，关联集是文档之间的关联构成的集合；2)将数据的语义信息，将不同的原始数据模型转换为关联文档模型；3)将关联文档模型中的数据转换为分布式计算编程模型能够接受的数据结构，进而将关联文档模型转换为分布式计算编程模型。然后利用由关联文档模型转换得到的分布式计算编程模型，对来自不同原始数据模型的数据进行统一查询和分析。本发明能够实现对多源异构数据源的统一访问、查询与分析。

Description

一种适用于多种大数据管理***的数据模型转换及查询分析方法

技术领域

本发明涉及一种数据模型，具体涉及一种适用于大数据管理***进行管理分析的数据模型转换及查询分析方法，属于大数据、数据库技术领域。

背景技术

随着计算机的不断普及，数据的管理与处理需求日益迫切，人们针对不同的数据形态和特征提出了不同的数据模型，并实现了相应的数据管理***来实现数据的管理和分析。比较有影响力的数据模型如E-R模型，自上个世纪70年代提出以来，E-R模型基本统治了数据库世界长达40多年。近十年以来，随着互联网和物联网应用的深入，大规模的结构化、半结构化、非结构数据的产生引发了NoSQL运动[Cattell R.Scalable SQL and NoSQLdata stores[J].ACM SIGMOD Record,2010,39(4):12-27]。数据库世界由最初的SQL垄断的局面转变成传统SQL、NoSQL、NewSQL分治的局面。

目前比较流行的数据模型有关系模型、key-value模型、文档模型、属性图模型等。数据库将实际***中的事物映射为既定的数据模型进行存储管理。而数据的查询、分析则均是在数据模型之上进行相应的运算。其中关系模型以关系代数为基础，主要的运算包括集合运算、连接运算、选择运算和投影运算；文档模型(以MongDB为例)主要的运算是对文档的选择和投影；key-value模型(以Redis为例)的主要运算是put与get，此外它还包括对不同类型key和value的管理的操作；属性图模型(以Titan为例)的主要运算是对图的遍历、选择以及投影。

在大数据背景下，与数据模型息息相关的是分布式计算编程模型(programingmodel for distributed computing)。当前流行的编程模型有map/reduce、spark RDD、Pergel、DraydLNQ等。这些分布式编程模型的特点大都是将要分析的问题(比如pagerank、排序、k-means等)映射为编程模型规定的数据模型。比如，使用map/reduce对一个图结构执行pagerank运算，首先要将图结构映射为由key-value构成的数组，然后按照map/reduce编程模型对该数组进行数据并行运算。

不难看出，目前的大数据处理方案中存在着不同数据模型数据库各自为政，数据模型基本运算与数据分析脱节的缺点。比如，一个***中的数据可能存储在MySQL、MongoDB、Titan、Hbase、文件***等数据源中，如何将这些数据源中的数据组合到一起协作则需要开发人员进行一系列的ETL(Extract-Transform-Load的缩写，指数据抽取(Extract)、转换(Transform)、装载(Load)的过程)转换编程；与此同时，本地数据库的对数据的运算结果无法直接作为分布式分析工具的输入，当需要使用map/reduce编程模型进行运算时，开发人员要将数据处理成key-value数组，而需要使用Pergel时则需要转换为图结构。虽然目前已经存在一些方案来屏蔽不同数据模型的差异，但这些方案往往顾此失彼。比如presto,Spark DataFrame可以将任意数据映射为关系模型之后进行统一的SQL查询，但是它却无法提供非关系模型的操作，并且presto无法进行数据的分析。

基于以上背景，本发明提出一种新的数据模型，用以实现对多源异构数据源的统一访问、查询与分析。

发明内容

本发明的目的在于提供一种适用于多种大数据管理***的数据模型转换及查询分析方法，其中主要涉及一种数据模型，称为关联文档模型(Linked Document Model，简称LDM)，该模型可以表示关系模型、文档模型、属性图模型等的语义信息，此外它还可以对大数据分析中的很多问题进行建模，并将数据转换成分析工具能够接受的格式，从而达到统一查询分析的目的。

本发明采用的技术方案如下：

一种适用于多种大数据管理***的数据模型转换方法，其步骤包括：

1)建立关联文档模型，其包括文档集与关联集，关联集是文档之间的关联构成的集合；

2)将数据的语义信息，将不同的原始数据模型转换为关联文档模型；

3)将关联文档模型中的数据转换为分布式计算编程模型能够接受的数据结构，进而将关联文档模型转换为分布式计算编程模型。

进一步地，利用由关联文档模型转换得到的分布式计算编程模型，对来自不同原始数据模型的数据进行统一查询和分析。

进一步地，所述关联文档模型的文档集中的文档是一组属性构成的集合，所述属性是同一种类型数据构成的集合；每个文档默认包含一个主码属性，所述主码属性是全局的唯一标识；所述文档集与关联集拥有一个名称标识符来说明集合中文档和关联的语义。

进一步地，所述原始数据模型包括关系模型、key-value模型、文档模型、属性图模型等的一种或多种；所述分布式计算编程模型包括map/reduce、spark SQL、Pergel等的一种或多种。

进一步地，所述分布式计算编程模型能够接受的数据结构，包括数组、表、图等。

进一步地，将关联文档模型中的数据转换为数组时，将关联文档模型中的数据组合为数组的元素，并说明使用关联文档模型中的哪些数据，以及哪些数据是key，哪些数据是value；将关联文档模型中的数据转换为表时，将关联文档模型中的文档集合作为表，并说明使用关联文档模型中的哪类文档；将关联文档模型中的数据转换为图时，将关联文档模型中的文档和关联组合为图结构，并说明使用关联文档模型中的哪些文档和哪些关联。

进一步地，基于原始数据模型的运算定义所述关联文档模型的运算法则，包括集合运算、关联运算、文档运算；所述集合运算包括并运算、交运算、差运算；所述关联运算包括建立关联、选择运算、投影运算；所述文档运算包括选择运算、投影运算。

进一步地，通过所述关联文档模型将各数据源连接为一体，形成一个网络，并使用类似URL的形式来统一访问网络中的数据。

本发明的使用方式有三种：第一，根据LDM的运算开发相应的查询引擎；第二，使用LDM作为与现有分析工具进行交互的ETL(Extract-Transform-Load)工具；第三，根据LDM设计分布式计算模型，并在此基础上实现数据的统一查询分析。

与现有技术相比，本发明的优点是：

1)首次提出了专门用于统一查询分析的数据模型。现有的数据模型一般针对单一的数据模型进行查询分析，比如spark RDD，Pergel，mogoDB等。也有一些方案希望用统一的方式对不同的数据模型进行查询，比如presto，spark dataframe，impala等，这些技术将不同的数据模型统一映射为关系模型，使用SQL对数据模型进行查询。可想而知，这些方案无疑会损失一些数据模型的运算。

2)具备向主流分布式计算模型提供数据的功能。该模型可以使用简单的URL将数据模型中的数据组合在一起，并且能够将这些数据组合成分布式计算模型能够接受的数据结构，比如数组、表、图结构等。

3)将各数据源连接为一个网络。本发明提出的数据模型可以通过映射规则将不同数据库中的数据连接为一起。比如，它可以将数据库中表、文档、节点、外键、边等数据用统一的方式表示，从而像网络一样将其连接为一体。于此同时可以像URL那样统一访问网络中的资源。

附图说明

图1是数据模型转换方法的流程图。

图2是LDM模型的结构示意图。

图3是根据LDM的运算开发相应的查询引擎的示意图。

图4是使用LDM作为与现有分析工具进行交互的ETL工具的示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

图1是本发明的适用于多种大数据管理***的数据模型转换过程的流程图，主要包括：1)建立关联文档模型(Linked Document Model)，其包括文档集与关联集，关联集是文档之间的关联构成的集合；2)将数据的语义信息，将不同的原始数据模型转换为关联文档模型；3)将关联文档模型中的数据转换为分布式计算编程模型能够接受的数据结构，进而将关联文档模型转换为分布式计算编程模型。然后即可利用由关联文档模型转换得到的分布式计算编程模型，对来自不同原始数据模型的数据进行统一查询和分析。

本发明提出的数据模型Linked Document Model，包括以下部分：LinkedDocument Model的定义，Linked Document Model与其它模型的转换规则，LinkedDocument Model的运算规则，Linked Document Model的数据访问方式。

1、Linked Document模型定义

文档是由一组属性构成的集合，属性是同一种类型数据构成的集合。每个文档默认包含一个唯一标识的主码属性。主码属性与IP地址的功能类似，必须是全局的唯一标识；其它属性的类型可以是任意的，包括一个文档、关联、自定义类型等。关联是一个特殊的文档，其中必须包含(from:主码，to：主码)两个属性，用来表示文档之间的关联，所述关联是指两条数据之间的关系，比如一个person文档与另一个person文档之间的knows关联代表第一个人认识第二个人。文档集与关联集都必须拥有一个名称标识符来说明集合中文档和关联的语义。同一类文档或关联中属性个数可以不同，这就意味着{‘id’:’fffff0’,‘name’:‘bluejoe’,‘age’:30}既可以作为person类文档的一员，也可以作为teacher类文档的一员。

LDM模型是一个由文档集和关联集构成的二元组(文档集，关联集)，其中关联集是两类文档之间的多种关系集合。LDM模型的大致结构如图2所示。其中，Documents表示文档集，Links表示关联集，PersonDocument表示人这类文档集合，SoftwareDocument表示软件类文档集合，InventLink表示人发明软件这类关联的集合，1、2表示文档唯一标识符主码，attr1、attr2…表示文档的属性。

2、LDM转换规则

LDM针对的是数据的查询与分析，它提供两种类型的转换规则：原始数据模型到LDM的转换、LDM到现有编程模型要求格式的转换。

1)原始数据模型→LDM

数据模型转换的形式化定义是(G,L,M)，其中G代表全局模型的Schema也即是LDM，L代表局部数据模型(关系模型、key-value模型、文档模型、属性图模型)，M代表从L到G的映射规则。原始数据模型到LDM的转换主要考虑的是数据的语义，而数据类型层面的转换则可以根据***要求由开发人员自己确定。以下给出的转换包括的原始数据模型有关系模型、key-value模型、文档模型和属性图模型，主要的转换规则如表1所示。其中自定义的转换规则是按照原数据模型的特性，提取出满足某些特征的数据集合。比如提取key-value模型中包含person的key的数据作为Person类文档集合；提取属性图模型中lable为Person的顶点作为Person类文档；将文档模型中Person类文档的personid与Software文档中personid相等这个关系提取为连接集合invent。

表1.原始数据模型到LDM的转换规则

LDM	关系模型	Key-value模型	文档模型	属性图模型
					属性	属性	Key	属性	属性
文档	记录	Pair	文档	顶点
					文档集合	表	自定义	集合	自定义
连接	外键	自定义	自定义	边
					连接集合	外键	自定义	自定义	自定义

需要注意的是，在LDM中不论是文档集还是关联集都必须拥有一个name，因此对于关系模型的外键、以及其它自定义部分的转换过程中，必须由转换人员提供一个name作为集合元素的语义。比如在属性图模型中，可以令lable为‘person’的节点作为LDM中的person类文档；也可以令包含属性‘teacher’的节点作为LDM中的teacher类文档，而事实上这两类文档可能对应着同样的节点。

此外，原始模型到LDM的转换可以不限于以上模型，开发人员可以根据需求定义其它数据模型到LDM的转换规则，比如文件***、列数据库等。

2)LDM→编程模型

LDM到编程模型的转换主要考虑的是数据结构上的关系。目前流行的编程模型如map/reduce、spark SQL、Pergel等能够接受的数据结构主要有数组、表、图。因此以下给出LDM到这三种数据结构的转换规则，如表2所示。

表2.LDM到数组、表、图的转换规则

3、LDM运算规则

LDM的运算规则是基于关系模型、key-value模型、文档模型和属性图模型的运算定义的。其中包括关系模型的集合运算、连接运算、选择运算、投影运算；key-value模型的get运算；文档模型的选择、投影运算；属性图模型的遍历以及选择运算。LDM模型的运算法则主要分为三类：集合运算、关联运算、文档运算，具体的运算规则如表3所示。

表3.LDM的运算规则

4、LDM数据访问规则

由于LDM将数据库连接为了一个网络，我们可以使用类似URL的形式来引用网络中的数据。这个URL的形式如下：

其中，datasource表示数据源，比如MySQL，MongoDB等，document表示数据源向LDM映射的文档，link表示数据源向LDM映射的关联，identity表示文档的主码，propertyName表示文档的属性名。

数据可以在不同层次上进行引用，比如对MySQL数据库中person文档的name属性的引用可以表达成：

MySQL.person.name

对MongoDB数据库中person文档的father关联进行应用可以表示成：

MongoDB.person.father

关联代表的是该关联对应的文档集合，我们还可以继续深入进行引用，比如

MongoDB.person.father.name

数据引用URL对应的数据实际上是LDM的建立关系运算和投影运算之后的结果。比如MongoDB.person.father代表的数据是将两个Person类文档建立father关联，并向father关系进行投影运算的结果。

本发明的使用方式主要有三种：第一，根据LDM的运算开发相应的查询引擎；第二，使用LDM作为与现有分析工具进行交互的ETL工具；第三，根据LDM设计分布式计算模型，并在此基础上实现数据的统一查询分析。

实施例1：根据LDM的运算开发相应的查询引擎

如图3所示，开发人员可以结合领域知识，基于关联文档运算自定义结构化的查询语言。在执行查询过程中，将查询语句转换为一系列关联文档的运算，最后通过这些运算对由多元数据库组合而成的关联文档进行操作。如图3所示，这些多元数据库包括关系数据库表、Key‐value数据库、图数据库、文档数据库等，各数据库中的数据仅为举例，不具有特别的意义，故不再一一解释其含义。

实施例2：使用LDM作为与现有分析工具进行交互的ETL工具

如图4所示，开发人员可以实现关联文档与原数据模型以及三种数据结构之间的映射规则。根据用户需求将元数据模型中的数据整合、转换为一个目标类型的数据，最后通过管道或Driver的形式传送给Spark DataFrame、Spark Graphx、TensorFlow等一系列数据分析工具使用。

实施例3：根据LDM设计分布式计算模型，并在此基础上实现数据的统一查询分析

Spark实现了一个分布式的数组RDD，开发人员可以实现一个分布式的LDM内存管理平台，并提供LDM的相关基础运算和操作接口。使用该平台的开发人员可以直接使用接口编写数据查询和机器学习算法。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种适用于多种大数据管理***的数据模型转换方法，其步骤包括：

1)建立关联文档模型，其包括文档集与关联集，关联集是文档之间的关联构成的集合；所述关联文档模型的文档集中的文档是一组属性构成的集合，所述属性是同一种类型数据构成的集合；每个文档默认包含一个主码属性，所述主码属性是全局的唯一标识；所述文档集与关联集拥有一个名称标识符来说明集合中文档和关联的语义；

2)根据数据的语义信息，将不同的原始数据模型转换为关联文档模型；

3)将关联文档模型中的数据转换为分布式计算编程模型能够接受的数据结构，进而将关联文档模型转换为分布式计算编程模型；

所述分布式计算编程模型能够接受的数据结构，包括数组、表、图；将关联文档模型中的数据转换为数组时，将关联文档模型中的数据组合为数组的元素，并说明使用关联文档模型中的哪些数据，以及哪些数据是key，哪些数据是value；将关联文档模型中的数据转换为表时，将关联文档模型中的文档集合作为表，并说明使用关联文档模型中的哪类文档；

将关联文档模型中的数据转换为图时，将关联文档模型中的文档和关联组合为图结构，并说明使用关联文档模型中的哪些文档和哪些关联。

2.如权利要求1所述的方法，其特征在于，利用由关联文档模型转换得到的分布式计算编程模型，对来自不同原始数据模型的数据进行统一查询和分析。

3.如权利要求1所述的方法，其特征在于，所述原始数据模型包括关系模型、key-value模型、文档模型、属性图模型中的一种或多种；所述分布式计算编程模型包括map/reduce、spark SQL、Pergel中的一种或多种。

4.如权利要求1所述的方法，其特征在于，基于原始数据模型的运算定义所述关联文档模型的运算法则，包括集合运算、关联运算、文档运算；所述集合运算包括并运算、交运算、差运算；所述关联运算包括建立关联、选择运算、投影运算；所述文档运算包括选择运算、投影运算。

5.如权利要求1所述的方法，其特征在于，通过所述关联文档模型将各数据源连接为一体，形成一个网络，并使用类似URL的形式来统一访问网络中的数据。

6.如权利要求1所述的方法，其特征在于，根据关联文档模型的运算开发相应的查询引擎。

7.如权利要求1所述的方法，其特征在于，使用关联文档模型作为与现有分析工具进行交互的ETL工具。