CN112328667B

CN112328667B - 一种基于数据血缘的页岩气田地面工程数字化移交方法

Info

Publication number: CN112328667B
Application number: CN202010693603.XA
Authority: CN
Inventors: 王鸿捷; 何益萍; 梁谷; 张***; 肖坤; 徐心童; 胡耀义; 杨政; 魏士尧; 刘雅琪
Original assignee: Sichuan Changning Natural Gas Development Co ltd; China Petroleum Engineering and Construction Corp
Current assignee: Sichuan Changning Natural Gas Development Co ltd; China Petroleum Engineering and Construction Corp
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2023-09-08
Anticipated expiration: 2040-07-17
Also published as: CN112328667A

Abstract

本发明提供了一种基于数据血缘技术的页岩气田地面工程数字化移交方法，通过基于数据血缘技术的页岩气田地面工程数字化移交技术，包括在数据采集、存储、服务化和成果回存过程中的一整套技术方案和数据血缘关系配置、接口封装方法以及可视化数据血缘图的构建等，实现了整个数据链路都得以完整处理和管控，打通了数据的全生命周期，形成了数据闭环，从而使数据在整个数据链路中不断地提升质量和服务能力。

Description

一种基于数据血缘的页岩气田地面工程数字化移交方法

技术领域

本发明属于数据移交领域，具体地说，涉及一种基于数据血缘的页岩气田地面工程数字化移交方法。

背景技术

传统的工程建设数字化移交，将项目所涉及的数据人为整合起来，按项目里程碑进行阶段移交，移交内容包括设计/采购/施工过程中产生的各类文档、图纸和分布在各类专业软件中的数据/模型。在移交过程中数据提供方和数据接收方需要一起对移交数据的完整性、一致性、正确性、时效性进行检查，移交工作量巨大。

当出现数据问题时，需要通过人工比对从海量文档中查找数据来源，发现数据问题所在，不仅效率低下容易出错，而且还会浪费大量的人力物力。若无法对数据进行有效溯源，则会导致误差逐渐累积，最终影响工程对象的正常生产运营。

在众多的项目实践中，对数据血缘关系的追溯往往能停留在***或者表级别层次，通过数据流的方式来管理血缘关系，在字段级别的血缘关系定义和查看表现不甚理想。

而页岩气田地面工程建设过程中涉及的专业繁多，在设计、施工建造、调试过程中产生大量的、不同格式的数据，并分布在不同的专业软件上。在集中建设和数据移交时期，工程数据移交复杂且工作量大，需要标准化、规范化工程数据的采集、处理和存储，以保障移交工作的有序进行，提高生产准备效率。需要一个统一的平台来采集各个专业所需的数据，对底层数据做统一标准管理，制定数据规范和管理规范，并为将来各个上层应用***提供统一的数据出口，降低数据检索时间成本，实现专业间数据共享互通。

发明内容

本发明针对现有页岩气田地面工程建设时数据移交复杂且工程量大，提出了一种基于数据血缘的页岩气田地面工程数字化移交方法，运用数据血缘技术制定血缘关系对数据通过元数据设定血缘关系实现统一管理。

本发明具体实现内容如下：

本发明公开了一种基于数据血缘的页岩气田地面工程数字化移交方法，在数据采集之前，使用React前端技术结合Spring Cloud微服务技术对数据血缘关系进行定义，把定义的数据血缘关系按照Json协议存入数据库做持久化，在数据采集层应用定义好的关系进行数据解析并存入数据仓库；接着进行数据的采集，对被采集数据的元数据进行登记和注册，并通过采集数据的元数据作为数据血缘关系的输入数据，并对采集的数据进行缓存。

为了更好地实现本发明，进一步地，所述采集的数据包括结构化数据、模型数据、非结构化数据；

所述模型数据、非结构化数据的元数据包括被采集数据的来源信息、结构信息；在配置数据血缘关系的配置界面通过来源信息、结构信息对数据流向的血缘关系进行定义和配置，同时将接收的采集数据按照原始的结构进行缓存；

所述结构化数据定义数据血缘关系通过两种方式实现，具体方法为：

方法一：制作数据血缘关系定义Excel模板，然后在配置数据血缘关系的配置界面通过上传数据血缘关系定义Excel模板进行批量数据导入；

方法二：在配置数据血缘关系的配置界面通过源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段对数据流向的血缘关系进行定义和配置；所述源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段即为结构化数据的元数据。

为了更好地实现本发明，进一步地，对于采集数据的缓存，根据数据分类不同进行不同方式的缓存：

所述结构化数据包括面向关系型数据库中的结构化数据，通过表和字段来标识的内容数据，依赖开源的Kafka消息队列进行采集，将数据封装为Json报文并推送至Kafka平台，然后通过数据处理程序解析报文并进行存储；所述存储的具体操作为：将结构化的数据存储到MySQL数据库中，而将结构化数据的关联关系存储到Neo4j图数据库中；

所述模型数据包括3D模型文件数据，AVEVA三维模型、SP3D三维模型、Revit软件建筑三维模型、线路GIS三维模型、AutoCAD Civil 3D总图三维模型；通过Kafka***导入模型数据，由任务调度根据元数据中的模型对应的统一资源定位符URL把实际的模型数据拉取出来进行存储；将所述模型数据存储到FastDFS分布式文件***中；

所述非结构化数据包括工程图纸、SP PID智能PID数据图纸及数据、Office文件和PDF文件；对于非结构化数据，把非结构化数据的元数据通过Kafka消息队列推送到平台，任务调度会根据元信息中的文件URL把实际的文件数据提取出来进行存储；所述非结构化文件存储到FastDFS分布式文件***中。

为了更好地实现本发明，进一步地，对于所述非结构化数据，在报文的解析提取过程中，同时还会提取非结构化数据所关联的工程对象标识信息，所述工程对象标识信息为结构化数据信息，在结构化数据库中将工程对象标识信息和对应的非结构化数据之间建立关联，从而实现结构化和非结构化之间的数据衔接。

为了更好地实现本发明，进一步地，将采集的数据根据国际标准进行转换处理，将无序的分散数据形成标准、通用的工程类的数据，将转换后的数据存储到标准存储区，形成稳态的数据结构；将结构化的数据存储到MySQL数据库中，将结构化数据的关联关系存储到Neo4Jj图数据库中；将模型数据和非结构化文件存储到FastDFS分布式文件***中。

所述标准、通用的工程类数据通过事先建立的数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单进行规范；所述数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单需要满足以下要求：

以树状目录的层级方式对业务结构进行梳理，对业务实体进行归类；

对资产业务的逻辑类别和分类进行定义和配置；

对物理存储层面进行数据结构表的定义和设计。

为了更好地实现本发明，进一步地，对于存储在标准存储区的数据，不直接推送给上层应用进行数据服务的提供，需要先以服务交付的方式依据业务需求对数据进行业务转换处理，将数据需求进行业务转换后存储进主题存储区供上层应用使用；而对于一些个性化的应用则需要进行个性化定制处理后再存储进定制化存储区供上层应用使用；所述个性化的应用包括接口个性化、协议个性化、查询个性化。

为了更好地实现本发明，进一步地，在进行所述服务交付时，通过高可配、轻开发的方式，基于API网关，以标准的RESTful API在服务目录中注册和开放接口，从而实现数据服务接口的构建；将所构建的数据服务接口以组合与编排的方式实现在不同场景下的数据服务；并将所述数据服务的传输对象作为数据血缘关系的一个输入。

为了更好地实现本发明，进一步地，在上层应用使用完主题存储区或者定制化存储区所提供的数据后，将输出的成果数据回存到成果回存区，再以数据规则库的方式对存入成果回存区的数据进行标准化处理，使回存的成果数据符合国际标准ISO 15926和企业数据存储标准的规范定义，然后存储到到标准存储区中；所述成果回存区基于MongoDB数据库；

采用消息队列和数据持久化技术在数据采集、存储、服务交付应用、个性化定制应用和成果回存过程中每一步的数据转换进行记录，并将记录存储在MySQL数据库和Neo4j图数据库中。

为了更好地实现本发明，进一步地，通过Echarts技术生成结构化数据血缘图进行可视化展示；所述结构化数据血缘图使用元数据作为字段级别数据血缘关系的区分依据，使用数据表作为表级别的数据血缘关系的区分依据；

使用结构化数据血缘图对采集、存储、服务交付应用、个性化定制应用和成果回存的数据进行数据血缘关系展示；所述结构化数据血缘图包含的血缘关系依次按照源***、源所有者、源字段、源表、目标表、目标字段、目标所有者、目标***的顺序进行查看。

为了更好地实现本发明，进一步地，对于非结构化数据进行标签化设置，细化非结构化数据的来源和所处阶段，根据交付物的格式与关键词设置数据标签，以便于快速检索和查询数据来源。

本发明与现有技术相比具有以下优点及有益效果：

(1)通过可视化数据血缘地图查看字段级别的数据血缘关系，实现工程数据快速简单的溯源；

(2)统一数据采集，对底层数据做统一标准管理，制定数据规范和管理规范，并为将来各个上层应用***提供统一的数据出口，降低数据检索时间成本，实现专业间数据共享互通。

附图说明

图1为本发明数据处理完整流程图；

图2为本发明实际操作中下载数据血缘关系定义Excel模板的配置界面示例图；

图3为本发明实际操作中数据血缘关系定义元数据的配置界面示例图；

图4为本发明实际操作中数据血缘关系查看示例图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明公开了一种基于血缘技术的页岩气田地面工程数字化移交方法，如图1所示，首先需要对数据进行采集，采集到的数据包括结构化数据、非结构化数据、工业图纸和模型等，然后对采集到的数据按照存储数据的规则及页岩气田业务方面的规则进行缓存存储，存储中根据数据的分类不同如结构化数据、非结构化数据等，将不同分类的数据存储到不同的数据库中；对于区分存储后的采集数据，依据国际标准进行转换处理，将外部无序的分散数据形成标准化、通用化的工程类数据，转换后的数据进入到标准存储区，形成稳态的数据结构；将结构化的数据存储到MySQL数据库中，将结构化数据的关联关系存储到Neo4j图数据库中；将模型数据和非结构化文件存储到FastDFS分布式文件***中。然后再将通用、标准、稳态的数据根据需求存储到主题存储区或定制存储区以供上层应用使用；在上层应用使用了提供的数据后，将会输出成果数据，对于输出的成果数据，通过血缘关系进行数据回溯，实现快速检索分析等数据管理，在经过了大数据分析后的成果数据，进行成果回存或者历史隔离。

工作原理：本发明克服了传统的通过人为整合进行数据交付时工作量大、效率低下、容易出错、数据溯源难的问题，引入数据血缘技术，实现与建设期和运营期的数据库相连通，接收来自云端和基础设施的设计、采购、施工、检维修等数据，并进行资产化存储与管理，灵活响应上层智能应用的数据需求。

实施例2：

本发明在上述实施例1的基础上，为了更好地实现本发明，进一步地，在数据的采集过程中，接收数据的接收适配器将对被采集数据的元数据进行登记和注册，并将被采集数据的元数据作为数据血缘的输入数据；所述元数据包括被采集数据的来源信息、结构信息；将接收的采集数据按照原始的结构进行缓存。

对于采集数据的缓存，根据分类进行不同方式的缓存，具体分类包括：结构化数据、模型数据、非结构化数据、实时数据；

将所述实时数据进行处理，转换为结构化数据，然后存储到MySQL数据库中；

工作原理：在采集方面，针对异源异构的数据采集，本方法统一采集器，对技术组件和调度操作进行封装并提供给使用人员；在存储方面，针对数据存储的各层功能各自分担，数据库类型的较多情况，本方法以面向对象整合数据存储和统一调用，并提供整合的存储和调用界面。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3：

本发明在上述实施例1-2任一项的基础上，为了更好地实现本发明，进一步地，对于所述非结构化数据，在报文的解析提取过程中，同时还会提取非结构化数据所关联的工程对象标识信息，所述工程对象标识信息为结构化数据信息，在结构化数据库中将工程对象标识信息和对应的非结构化数据之间建立关联，从而实现结构化和非结构化之间的数据衔接。

同时，将采集的数据根据国际标准进行转换处理，将无序的分散数据形成标准、通用的工程类的数据，将转换后的数据存储到标准存储区，形成稳态的数据结构将结构化的数据存储到MySQL数据库中，将结构化数据的关联关系存储到Neo4j图数据库中；将模型数据和非结构化文件存储到FastDFS分布式文件***中。

(1)以树状目录的层级方式对业务结构进行梳理，对业务实体进行归类；

(2)对资产业务的逻辑类别和分类进行定义和配置；

(3)对物理存储层面进行数据结构表的定义和设计。

本实施例的其他部分与上述实施例1-2任一项相同，故不再赘述。

实施例4：

本发明在上述实施例1-3任一项的基础上，为了更好地实现本发明，进一步地，对于存储在标准存储区的数据，不直接推送给上层应用进行数据服务的提供，需要先以服务交付的方式依据业务需求对数据进行业务转换处理，将数据需求进行业务转换后存储进主题存储区供上层应用使用；而对于一些个性化的应用则需要进行个性化定制处理后再存储进定制化存储区供上层应用使用；所述个性化的应用包括接口个性化、协议个性化、查询个性化；所述标准存储区、主题存储区、定制存储区的数据为结构化数据，同样存储到MySQL数据库中。

在进行所述服务交付时，通过高可配、轻开发的方式，基于API网关，以标准的RESTful API在服务目录中注册和开放接口，从而实现数据服务接口的构建；将所构建的数据服务接口以组合与编排的方式实现在不同场景下的数据服务；并将所述数据服务的传输对象作为数据血缘关系的一个输入。

工作原理：在服务输出方面，利用微服务技术框架，将数据接口封装和改造成微服务，通过API网关的方式暴露给上层应用来调用。在服务交付层面，不是为每个应用进行定制化开发来提供数据服务，而是通过高可配、轻开发方式去构建数据服务接口。技术层面上基于API网关的方式，通过标准的RESTful API在服务目录中注册和开放接口。因此服务目录中所有标准化、通用化的接口都可以被组合与编排以满足在不同场景下的数据服务。其数据服务的传输对象是基于数据模型中的逻辑实体去构建和整合的，也作为数据血缘关系的重要输入之一

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本发明在上述实施例1-4任一项的基础上，为了更好地实现本发明，如图2、图3、图4所示，进一步地，在上层应用使用完主题存储区或者定制化存储区所提供的数据后，将输出的成果数据回存到成果回存区，再以数据规则库的方式对存入成果回存区的数据进行标准化处理，使回存的成果数据符合国际标准ISO 15926和企业数据存储标准的规范定义，然后存储到到标准存储区中；所述成果回存区基于MongoDB数据库；

使用React前端技术结合Spring Cloud微服务技术对数据血缘关系进行定义，把定义的数据血缘关系按照Json协议存入数据库做持久化，在数据采集层应用定义好的关系进行数据解析并存入数据仓库；

所述定义数据血缘关系通过两种方式实现，具体方法为：

方法一：制作数据血缘关系定义Excel模板，然后在配置数据血缘关系的配置界面通过上传数据血缘关系定义Excel模板进行批量数据导入，实际操作中界面示意图如图2所示；

方法二：在配置数据血缘关系的配置界面通过源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段对数据流向的血缘关系进行定义和配置；所述源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段即为结构化数据的元数据；实际操作中界面示意图如图3所示。

通过Echarts技术生成结构化数据血缘图进行可视化展示；所述结构化数据血缘图使用元数据作为字段级别数据血缘关系的区分依据，使用数据表作为表级别的数据血缘关系的区分依据；

使用结构化数据血缘图对采集、存储、服务交付应用、个性化定制应用和成果回存的数据进行数据血缘关系展示；所述结构化数据血缘图包含的血缘关系依次按照源***、源所有者、源字段、源表、目标表、目标字段、目标所有者、目标***的顺序进行查看；具体的实际操作示例如图4所示，图4因色彩限制，原图中的红色彩球在图4中展示为黑色，在实际操作时将鼠标悬停在圆形图形结点上面，可以单独查看相应的字段与数据表的血缘关系；点击选择目标字段下拉框，可以查看选定的目标字段对应的血缘关系。

图4中小的红色彩球代表工程实体的数据字段，大的红色彩球代表与字段对应的工程实体数据表，箭头代表从源字段依次到源表、目标表、目标字段的数据流动方向；数据血缘图提供缩放功能，根据整体感知或局部聚焦定位需求，放大或缩小查看血缘关系。

对于非结构化数据进行标签化设置，细化非结构化数据的来源和所处阶段，根据交付物的格式与关键词设置数据标签，以便于快速检索和查询数据来源。

工作原理：通过可视化的方式对外部数据和内部数据，及内部数据之间的数据流向关系进行定义，使用React前端技术结合Spring Cloud微服务技术，把前端定义的血缘关系按照Json协议存入数据库做持久化，在数据采集层应用定义好的关系进行数据解析并存入数据仓库，再通过可视化的数据血缘图来展示其数据流向的映射。在使用平台进行数据移交过程中，若需要进行数据追溯，则可通过可视化数据血缘地图查看字段级别的数据血缘关系，为工程施工的数据溯源提供简单方法。上层应用使用完平台所提供的数据后，将输出综合研究的成果数据回存到平台的成果回存区，再依据数据规则库的方式对其进行标准化处理，使其符合ISO 15926和企业数据存储标准的规范定义最终又进入到标准存储区；基于数据血缘技术的信息处理环节，对数据的变化进行记录，可以分析数据之间的处理关系是否合理，分析上游数据发生变化给下游带来的影响；在下游数据发生变化时追踪上游问题的源头等。表级别、字段级别的数据血缘关系分析清晰地定位了不同工程实体之间的映射、计算、流转等关联关系，分析精度高，具有更广泛的应用前景。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，在数据采集之前，使用React前端技术结合Spring Cloud微服务技术对数据血缘关系进行定义，把定义的数据血缘关系按照Json协议存入数据库做持久化，在数据采集层应用定义好的关系进行数据解析并存入数据仓库；接着进行数据的采集，对被采集数据的元数据进行登记和注册，并通过采集数据的元数据作为数据血缘关系的输入数据，并对采集的数据进行缓存；

所述采集的数据包括结构化数据、模型数据、非结构化数据；

方法二：在配置数据血缘关系的配置界面通过源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段对数据流向的血缘关系进行定义和配置；所述源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段即为结构化数据的元数据；

将采集的数据根据国际标准进行转换处理，将无序的分散数据形成标准、通用的工程类的数据，将转换后的数据存储到标准存储区，形成稳态的数据结构；将结构化的数据存储到MySQL数据库中，将结构化数据的关联关系存储到Neo4j图数据库中；将模型数据和非结构化文件存储到FastDFS分布式文件***中；

(2)对资产业务的逻辑类别和分类进行定义和配置；

(3)对物理存储层面进行数据结构表的定义和设计；

2.如权利要求1所述的一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，对于采集数据的缓存，根据数据分类不同进行不同方式的缓存：

3.如权利要求2所述的一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，对于所述非结构化数据，在报文的解析提取过程中，同时还会提取非结构化数据所关联的工程对象标识信息，所述工程对象标识信息为结构化数据信息，在结构化数据库中将工程对象标识信息和对应的非结构化数据之间建立关联，从而实现结构化和非结构化之间的数据衔接。

4.如权利要求1所述的一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，对于存储在标准存储区的数据，不直接推送给上层应用进行数据服务的提供，需要先以服务交付的方式依据业务需求对数据进行业务转换处理，将数据需求进行业务转换后存储进主题存储区供上层应用使用；而对于一些个性化的应用则需要进行个性化定制处理后再存储进定制化存储区供上层应用使用；所述个性化的应用包括接口个性化、协议个性化、查询个性化。

5.如权利要求4所述的一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，在进行所述服务交付时，通过高可配、轻开发的方式，基于API网关，以标准的RESTful API在服务目录中注册和开放接口，从而实现数据服务接口的构建；将所构建的数据服务接口以组合与编排的方式实现在不同场景下的数据服务；并将所述数据服务的传输对象作为数据血缘关系的一个输入。

6.如权利要求5所述的一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，在上层应用使用完主题存储区或者定制化存储区所提供的数据后，将输出的成果数据回存到成果回存区，再以数据规则库的方式对存入成果回存区的数据进行标准化处理，使回存的成果数据符合国际标准ISO 15926和企业数据存储标准的规范定义，然后存储到到标准存储区中；所述成果回存区基于MongoDB数据库；

7.如权利要求1所述的一种基于数据血缘的页岩气田地面工程数字化移交方法，其特征在于，对于非结构化数据进行标签化设置，细化非结构化数据的来源和所处阶段，根据交付物的格式与关键词设置数据标签，以便于快速检索和查询数据来源。