CN111221785A

CN111221785A - 一种多源异构数据的语义数据湖构建方法

Info

Publication number: CN111221785A
Application number: CN201811427793.XA
Authority: CN
Inventors: 陈刚
Original assignee: Sinocbd Inc
Current assignee: Sinocbd Inc
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-02

Abstract

本发明公开了一种多源异构数据的语义数据湖构建方法，包含以下步骤：S1、构建本体，确认本体的属性和参数，存到数据湖服务器的图数据库中；S2、提取导入的数据文件的内容的语义，建立RDF描述，并将建立好的RDF描述保存到数据湖服务器的文档型数据库中；S3、根据RDF描述并参照相关本体，将RDF描述所对应的文件与本体实现语义层级的关联，并写入图数据库中。本发明可展示语义数据的节点关系，还能处理本体数据以及处理与本体关联的数据文件，实现人工可干预的操作，语义数据湖检索便利，还能方便进一步详细获取检索结果文件。

Description

一种多源异构数据的语义数据湖构建方法

技术领域

本发明涉及多源异构数据的收集与管理和应用领域，特别涉及一种多源异构数据的语义数据湖构建方法。

背景技术

数据库技术是现代计算机信息***和计算机应用***的基础和核心，是信息***的重要组成部分。在进行数据库应用***开发时，通常需要将数据库数据导出以用于本***备份或与其它***进行数据共享和交换。

数据湖或hub的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的HDFS(Hadoop分布式文件***)廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起，另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的，并且可以为用户提供越来越多的实时分析。数据湖架构面向多数据源的信息存储，包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。

为了可以解决语义检索的复杂性与便利性的问题，实现自动化建立，检索便利，则需要提供一种多源异构数据的语义数据湖构建方法，使得可以展示语义数据的节点关系，还能处理本体数据以及处理与本体关联的数据文件。

发明内容

本发明的目的在于提供一种多源异构数据的语义数据湖构建方法，通过构造图数据库本体并确认本体属性和参数，保存到图数据库中，并建立与本体相关的文件的RDF描述，保存到文档型数据库，根据RDF描述并参照已有图数据库本体以及属性，建立本体与相关的文件的RDF关联，并写入文档型数据库，可以展示语义数据的节点关系，还能处理本体数据以及处理与本体关联的数据文件，实现本发明人工可干预的操作，语义数据湖检索便利，还能方便进一步详细获取检索结果文件。

为了达到上述目的，本发明提供了一种多源异构数据的语义数据湖构建方法，该方法包含以下步骤：

S1、构建本体，确认本体的属性和参数，存到数据湖服务器的图数据库中；

S2、提取导入的数据文件的内容的语义，建立RDF描述，并将建立好的RDF描述保存到数据湖服务器的文档型数据库中；

S3、根据RDF描述并参照相关本体，将RDF描述所对应的文件与本体实现语义层级的关联，并写入图数据库中。

优选地，所述RDF描述包含节点和边，其中，节点表示实体/资源/属性，边表示实体和实体之间的关系以及实体和属性的关系。

优选地，所述数据湖服务器是包含关系型数据库、文档型数据库、分布式文件***和图数据库这四类数据库的数据存储和管理服务平台，该平台采用分布式运算和存储架构，集成了具有数据存储和运算功能的各类计算机单机、服务器和计算机集群/服务器集群，并提供包括数据管理、算法开发在内的各类功能组件。

优选地，所述数据存储和管理服务平台通过日志文件和元数据文件，对数据文件及其存储、交换进行组织管理；其中，所述日志文件包含的日志记录数据，以键值对的形式存在，包含对应以下内容的字段：

当前操作的操作者名称；

当前操作的类型；

当前操作的内容，即操作动作的执行对象；其中，当操作类型是修改、或创建、或追加时，是指保存对应数据源的位置；当操作类型是查询时，是指保存对应的查询语句；

当前操作的日期时间；

当前操作的状态，用来判断当前操作是否成功；

当前操作的数据类型；

其中，所述元数据文件包含的文件元数据，以键值对的形式存在，其包含对应以下内容的字段：

正在处理的数据的名称；

对当前数据的描述；

当前数据所属的用户；

当前数据所属的组；

存储的目的地，其与数据库类型相匹配；

数据生成的资源描述框架；

元数据创建时间；

元数据更新时间。

优选地，所述图数据库为Neo4j或Cayley或GrapgDB；和/或，所述文档型数据库为MongoDB或CouchDB。

优选地，所述步骤S1中，进一步包含：根据所要建立图数据库的主体，选择本体关键词，并进一步添加本体的属性参数描述，用于构建图形数据库。

优选地，所述数据湖服务器的图数据库是基于图数据库构建和管理的软件建立的。

优选地，所述步骤S2可在导入外部数据源的数据文件的同时执行，或者可在导入外部数据源的数据文件之后执行。

优选地，所述语义数据湖构建完成后，进一步实现以下过程的一种或多种：在所述语义数据湖中通过图数据库查询本体，获得本体相关的属性；语义数据湖提供图形化的检索界面以及层进式查询界面，支持查询结果的数据关系图谱展示，支持图谱的相关操作；获得查询结果对应的源文件，并获得文件或者数据的匹配列表，以及可查询文件内容；用户可进一步在网络图谱中确认节点、下钻细化查询结果。

与现有技术相比，本发明的有益效果为：(1)本发明可以解决语义检索的复杂性与便利性的问题，实现自动化建立，检索便利；(2)本发明可解决构建本体的准确性问题，实现完善的本体构建；(3)本发明可以解决待保存数据的多元异构的问题，以实现各类数据都可以在数据湖中保存；(4)本发明可解决语义湖构建的硬件平台支撑的问题，实现构建语义湖构建的硬件平台支撑；(5)本发明使用便利性，检索过程可追溯，方便管理，可方便进一步详细获取检索结果文件；(6)本发明可建立语义数据湖的便利性、检索的便利性，实现人工可干预的操作以及语义数据湖检索便利；(7)本发明可以解决数据存储的安全性和稳定性，以保证数据存储的安全性和稳定性保障。

附图说明

图1本发明的数据湖的架构示意图。

具体实施方式

为了使本发明更加明显易懂，以下结合附图和具体实施方式对本发明做进一步说明。

如图1所示，数据湖服务器是指由关系型数据库(例如MariaDB、MySQL等)、文档型数据库(例如MongoDB、CouchDB等)、分布式文件***(例如HDFS、PVFS、PanFS等)以及图数据库(例如Neo4j、Cayley、GrapgDB等)这四类数据库构成的数据存储和管理服务平台。这个平台采用分布式运算和存储架构，集成了具有数据存储以及运算功能的各类计算机单机、服务器以及计算机集群或者服务器集群，并提供包括数据管理、算法开发的各类功能组件。

其中，分布式运算和存储架构是指：通过使用PaaS云计算平台提供计算资源的分配，将业务容器分配到集群中各个节点，提供分布式计算资源。

本实施例中，整个数据湖的数据交换管理是基于保存在MongoDB中的日志记录数据和文件元数据。

(a)日志记录数据以键值对的形式存在，其字段名称和内容是：

字段"user"：保存当前操作的操作者名称；

字段"operation_type"：保存当前操作的类型，比如创建，修改，追加等；

字段"operation_record"：用来保存当前操作的内容即操作动作的执行对象。当操作类型是修改、创建、追加时，保存对应数据源的位置；当操作类型是查询时，保存对应的查询语句；

字段"operation_time"：保存当前操作的日期时间，比如："2018-06-28T03:18:58.91"；

字段"operation_statue"：保存当前操作的状态，是辅助字段，用来判断当前操作是否成功；

字段"operation_source"：保存当前操作的数据类型，比如："hdfs"表示文件型数据。

(b)文件元数据以键值对的形式存在，其字段名称和内容主要是：

数据名称：正在处理的数据的名称；

描述：对当前数据的描述；

所属者：当前数据所属的用户；

所属组：当前数据所属的组；

存储后端：存储的目的地，指某种数据库类型；

辅助标签：数据生成的RDF；其中，RDF，是“资源描述框架”的英文简称，其本质是一个数据模型(Data Model)，它提供了统一的标准，用于描述实体和资源，简单来说，就是表示事物的一种方法和手段，其形式上表示为“主语-谓语-宾语”三元组；

元数据创建时间：元数据的创建时间；

元数据更新时间：元数据的更新时间；

上述的“存储后端”字段，又根据数据类型(文件类型、文档类型、表格类型、图类型)的不同，包含不同的字段。

对于文件类型的数据，有以下字段：文件物理路径，文件物理名称，HDFS占用空间大小，真实文件所有者，真实文件所属组，前端显示文件路径，前端显示文件名称，文件扩展名，文件的MINE类型(多用途互联网邮件扩展类型)，文件真实大小，停词表(用于RDF处理)。

对于文档类型的数据(比如JSON型数据)，有以下字段：物理数据库位置，物理集合名称，显示数据库名称，显示集合名称，文档结构(JSON数据结构)，停词表(用于RDF处理)。

对于表格类型的数据(比如MySQL的数据)，有以下字段：物理数据库名称，物理表名称，显示数据库名称，显示表名称，列名表，停词表(用于RDF处理)。

对于图形类型的数据(比如Neo4j的数据)，有以下字段：Neo4j ID(也可称本体的ID)，前端显示名称，停词表(用于RDF处理)。

通过上述的日志文件和元数据文件，数据管理服务平台可以高效、安全地组织管理数据文件、加快数据存储的速度。

本发明的多源异构数据的语义数据湖构建方法包含以下步骤：

S1、构建本体，确认本体的属性和参数，存到数据湖服务器的图数据库中。

其中，该数据湖服务器的图数据库是基于图数据库构建和管理的软件建立的。上述的“构建本体，确认本体的属性和参数”是指：根据所要建立图数据库的主体，选择本体关键词，并进一步添加这些本体的属性参数描述，构建图形数据库的基础。

S2、在导入外部数据源的数据文件的同时或者导入之后，提取导入的数据文件的内容的语义(例如每一个文档或者文档每一行数据记录内容的语义，可根据不同类型数据具体而定)，建立RDF描述，将建立的RDF描述(例如语义信息和关键词等)保存到数据湖服务器的文档型数据库中(例如MongoDB中)。

其中，本发明的数据文件是广义的数据概念，包括各种类型的电子存储文件，对于数据湖服务器而言，均是数据文件。

另，RDF是“资源描述框架”的英文简称，其本质是一个数据模型(Data Model)，它提供了统一的标准，用于描述实体和资源。简单来说，就是表示事物的一种方法和手段，其形式上表示为“主语-谓语-宾语”三元组。在图数据库中，RDF由节点和边组成，节点表示实体/资源、属性，边则表示了实体和实体之间的关系以及实体和属性的关系。

S3、根据该RDF描述(例如语义信息和关键词等)并参照相关本体，将RDF描述所对应的文件与本体实现语义层级的关联，并写入图数据库中。

如图1所示，本实施例的数据湖的外部数据源可以是IT数据(既有数据)、开放数据(例如来自各种网络的数据)与OT数据(例如生成过程中的数据)。

通过上述的多源异构数据的语义数据湖构建，可以实现展示语义数据湖的节点关系，也可以处理本体数据，还可以处理与本体关联的数据文件。具体地，可以在语义数据湖中通过图数据库查询本体，获得本体相关的属性；数据湖提供图形化的检索界面以及层进式查询界面，支持查询结果的数据关系图谱展示，支持图谱的增、删、改、查(比如，增：添加文件关联到本体)；可以获得查询结果对应的源文件，并获得文件或者数据的匹配列表；同时，可以查询文件内容。用户还可以进一步在网络图谱中确认节点、下钻细化查询结果。

作为本发明的实施例一：

本地的数据湖服务器由关系型数据库MariaDB、文档型数据库MongoDB、分布式文件***HDFS以及图数据库Neo4j构成。有一组来自某FTP的工程图纸文件，PDF格式，其IP地址是192.168.12.101，端口是8080，用户名是admin，密码是passwd。

数据湖服务器在自己的软件界面上启动连接服务，输入该文件数据源的访问接口信息，连接成功。

进一步，在界面上看到待导入的PDF文件20个，根据界面菜单，导入这20个PDF工程图纸文件，在导入这些文件的同时，数据湖服务器后台对每一个PDF文件，执行以下操作：

1.将PDF文件转化为纯文本；

2.用自然语言处理方法提取文本中的语义信息和关键词；

3.考查前一步提取的语义和关键词，与已有的图数据库本体以及属性、标签比较，在本体和这个PDF文件之间建立RDF关联，并写入图数据库Neo4j；在Neo4j中记录本体的识别码，与本体关联的PDF文件的指针等其他信息(例如，ID信息，用于查询结果对应的源文件)保存在MongoDB中。

作为本发明的实施例二：

本地的数据湖服务器由关系型数据库MariaDB、文档型数据库MongoDB，分布式文件***HDFS以及图数据库Neo4j构成。有一组来自某FTP的数据记录文件，XLS格式，其IP地址是192.168.12.101，端口是8080，用户名是admin，密码是passwd。

进一步，在界面上看到待导入的XLS文件，根据界面菜单，导入这个XLS数据文件，在导入这些文件的同时，数据湖服务器后台对这个文件中的每一行，执行以下操作：

1.读取这一行数据记录；

2.提取这一行数据记录中的语义信息和关键词；

3.考查前一步提取的语义和关键词，与已有的图数据库本体以及属性、标签比较，在本体和这个XLS文件记录之间建立RDF关联，并写入图数据库Neo4j；在Neo4j中记录本体的识别码，与本体关联的PDF文件的指针等其他信息(例如，ID信息，用于查询结果对应的源文件)保存在MongoDB中。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种多源异构数据的语义数据湖构建方法，其特征在于，该方法包含以下步骤：

2.如权利要求1所述的多源异构数据的语义数据湖构建方法，其特征在于，所述RDF描述包含节点和边，其中，节点表示实体/资源/属性，边表示实体和实体之间的关系以及实体和属性的关系。

3.如权利要求1所述的多源异构数据的语义数据湖构建方法，其特征在于，所述数据湖服务器是包含关系型数据库、文档型数据库、分布式文件***和图数据库这四类数据库的数据存储和管理服务平台，该平台采用分布式运算和存储架构，集成了具有数据存储和运算功能的各类计算机单机、服务器和计算机集群/服务器集群，并提供包括数据管理、算法开发在内的各类功能组件。

4.如权利要求3所述的多源异构数据的语义数据湖构建方法，其特征在于，所述数据存储和管理服务平台通过日志文件和元数据文件，对数据文件及其存储、交换进行组织管理；

其中，所述日志文件包含的日志记录数据，以键值对的形式存在，包含对应以下内容的字段：

当前操作的操作者名称；

当前操作的类型；

当前操作的日期时间；

当前操作的状态，用来判断当前操作是否成功；

当前操作的数据类型；

正在处理的数据的名称；

对当前数据的描述；

当前数据所属的用户；

当前数据所属的组；

存储的目的地，其与数据库类型相匹配；

数据生成的资源描述框架；

元数据创建时间；

元数据更新时间。

5.如权利要求1所述的多源异构数据的语义数据湖构建方法，其特征在于，所述图数据库为Neo4j或Cayley或GrapgDB；和/或，所述文档型数据库为MongoDB或CouchDB。

6.如权利要求1所述的多源异构数据的语义数据湖构建方法，其特征在于，所述步骤S1中，进一步包含：

根据所要建立图数据库的主体，选择本体关键词，并进一步添加本体的属性参数描述，用于构建图形数据库。

7.如权利要求1所述的多源异构数据的语义数据湖构建方法，其特征在于，所述数据湖服务器的图数据库是基于图数据库构建和管理的软件建立的。

8.如权利要求1所述的多源异构数据的语义数据湖构建方法，其特征在于，所述步骤S2可在导入外部数据源的数据文件的同时执行，或者可在导入外部数据源的数据文件之后执行。

9.如权利要求1-8任意一项所述的多源异构数据的语义数据湖构建方法，其特征在于，

所述语义数据湖构建完成后，进一步实现以下过程的一种或多种：

在所述语义数据湖中通过图数据库查询本体，获得本体相关的属性；

语义数据湖提供图形化的检索界面以及层进式查询界面，支持查询结果的数据关系图谱展示，支持图谱的相关操作；

获得查询结果对应的源文件，并获得文件或者数据的匹配列表，以及可查询文件内容；

用户可进一步在网络图谱中确认节点、下钻细化查询结果。