CN112328667B - 一种基于数据血缘的页岩气田地面工程数字化移交方法 - Google Patents
一种基于数据血缘的页岩气田地面工程数字化移交方法 Download PDFInfo
- Publication number
- CN112328667B CN112328667B CN202010693603.XA CN202010693603A CN112328667B CN 112328667 B CN112328667 B CN 112328667B CN 202010693603 A CN202010693603 A CN 202010693603A CN 112328667 B CN112328667 B CN 112328667B
- Authority
- CN
- China
- Prior art keywords
- data
- blood
- service
- source
- unstructured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000008280 blood Substances 0.000 title claims abstract description 48
- 210000004369 blood Anatomy 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 claims abstract description 50
- 238000005516 engineering process Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 238000012384 transportation and delivery Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000013499 data model Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 7
- 230000002688 persistence Effects 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 abstract 1
- 238000007726 management method Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Marine Sciences & Fisheries (AREA)
- General Health & Medical Sciences (AREA)
- Agronomy & Crop Science (AREA)
- Mining & Mineral Resources (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Animal Husbandry (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于数据血缘技术的页岩气田地面工程数字化移交方法,通过基于数据血缘技术的页岩气田地面工程数字化移交技术,包括在数据采集、存储、服务化和成果回存过程中的一整套技术方案和数据血缘关系配置、接口封装方法以及可视化数据血缘图的构建等,实现了整个数据链路都得以完整处理和管控,打通了数据的全生命周期,形成了数据闭环,从而使数据在整个数据链路中不断地提升质量和服务能力。
Description
技术领域
本发明属于数据移交领域,具体地说,涉及一种基于数据血缘的页岩气田地面工程数字化移交方法。
背景技术
传统的工程建设数字化移交,将项目所涉及的数据人为整合起来,按项目里程碑进行阶段移交,移交内容包括设计/采购/施工过程中产生的各类文档、图纸和分布在各类专业软件中的数据/模型。在移交过程中数据提供方和数据接收方需要一起对移交数据的完整性、一致性、正确性、时效性进行检查,移交工作量巨大。
当出现数据问题时,需要通过人工比对从海量文档中查找数据来源,发现数据问题所在,不仅效率低下容易出错,而且还会浪费大量的人力物力。若无法对数据进行有效溯源,则会导致误差逐渐累积,最终影响工程对象的正常生产运营。
在众多的项目实践中,对数据血缘关系的追溯往往能停留在***或者表级别层次,通过数据流的方式来管理血缘关系,在字段级别的血缘关系定义和查看表现不甚理想。
而页岩气田地面工程建设过程中涉及的专业繁多,在设计、施工建造、调试过程中产生大量的、不同格式的数据,并分布在不同的专业软件上。在集中建设和数据移交时期,工程数据移交复杂且工作量大,需要标准化、规范化工程数据的采集、处理和存储,以保障移交工作的有序进行,提高生产准备效率。需要一个统一的平台来采集各个专业所需的数据,对底层数据做统一标准管理,制定数据规范和管理规范,并为将来各个上层应用***提供统一的数据出口,降低数据检索时间成本,实现专业间数据共享互通。
发明内容
本发明针对现有页岩气田地面工程建设时数据移交复杂且工程量大,提出了一种基于数据血缘的页岩气田地面工程数字化移交方法,运用数据血缘技术制定血缘关系对数据通过元数据设定血缘关系实现统一管理。
本发明具体实现内容如下:
本发明公开了一种基于数据血缘的页岩气田地面工程数字化移交方法,在数据采集之前,使用React前端技术结合Spring Cloud微服务技术对数据血缘关系进行定义,把定义的数据血缘关系按照Json协议存入数据库做持久化,在数据采集层应用定义好的关系进行数据解析并存入数据仓库;接着进行数据的采集,对被采集数据的元数据进行登记和注册,并通过采集数据的元数据作为数据血缘关系的输入数据,并对采集的数据进行缓存。
为了更好地实现本发明,进一步地,所述采集的数据包括结构化数据、模型数据、非结构化数据;
所述模型数据、非结构化数据的元数据包括被采集数据的来源信息、结构信息;在配置数据血缘关系的配置界面通过来源信息、结构信息对数据流向的血缘关系进行定义和配置,同时将接收的采集数据按照原始的结构进行缓存;
所述结构化数据定义数据血缘关系通过两种方式实现,具体方法为:
方法一:制作数据血缘关系定义Excel模板,然后在配置数据血缘关系的配置界面通过上传数据血缘关系定义Excel模板进行批量数据导入;
方法二:在配置数据血缘关系的配置界面通过源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段对数据流向的血缘关系进行定义和配置;所述源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段即为结构化数据的元数据。
为了更好地实现本发明,进一步地,对于采集数据的缓存,根据数据分类不同进行不同方式的缓存:
所述结构化数据包括面向关系型数据库中的结构化数据,通过表和字段来标识的内容数据,依赖开源的Kafka消息队列进行采集,将数据封装为Json报文并推送至Kafka平台,然后通过数据处理程序解析报文并进行存储;所述存储的具体操作为:将结构化的数据存储到MySQL数据库中,而将结构化数据的关联关系存储到Neo4j图数据库中;
所述模型数据包括3D模型文件数据,AVEVA三维模型、SP3D三维模型、Revit软件建筑三维模型、线路GIS三维模型、AutoCAD Civil 3D总图三维模型;通过Kafka***导入模型数据,由任务调度根据元数据中的模型对应的统一资源定位符URL把实际的模型数据拉取出来进行存储;将所述模型数据存储到FastDFS分布式文件***中;
所述非结构化数据包括工程图纸、SP PID智能PID数据图纸及数据、Office文件和PDF文件;对于非结构化数据,把非结构化数据的元数据通过Kafka消息队列推送到平台,任务调度会根据元信息中的文件URL把实际的文件数据提取出来进行存储;所述非结构化文件存储到FastDFS分布式文件***中。
为了更好地实现本发明,进一步地,对于所述非结构化数据,在报文的解析提取过程中,同时还会提取非结构化数据所关联的工程对象标识信息,所述工程对象标识信息为结构化数据信息,在结构化数据库中将工程对象标识信息和对应的非结构化数据之间建立关联,从而实现结构化和非结构化之间的数据衔接。
为了更好地实现本发明,进一步地,将采集的数据根据国际标准进行转换处理,将无序的分散数据形成标准、通用的工程类的数据,将转换后的数据存储到标准存储区,形成稳态的数据结构;将结构化的数据存储到MySQL数据库中,将结构化数据的关联关系存储到Neo4Jj图数据库中;将模型数据和非结构化文件存储到FastDFS分布式文件***中。
所述标准、通用的工程类数据通过事先建立的数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单进行规范;所述数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单需要满足以下要求:
以树状目录的层级方式对业务结构进行梳理,对业务实体进行归类;
对资产业务的逻辑类别和分类进行定义和配置;
对物理存储层面进行数据结构表的定义和设计。
为了更好地实现本发明,进一步地,对于存储在标准存储区的数据,不直接推送给上层应用进行数据服务的提供,需要先以服务交付的方式依据业务需求对数据进行业务转换处理,将数据需求进行业务转换后存储进主题存储区供上层应用使用;而对于一些个性化的应用则需要进行个性化定制处理后再存储进定制化存储区供上层应用使用;所述个性化的应用包括接口个性化、协议个性化、查询个性化。
为了更好地实现本发明,进一步地,在进行所述服务交付时,通过高可配、轻开发的方式,基于API网关,以标准的RESTful API在服务目录中注册和开放接口,从而实现数据服务接口的构建;将所构建的数据服务接口以组合与编排的方式实现在不同场景下的数据服务;并将所述数据服务的传输对象作为数据血缘关系的一个输入。
为了更好地实现本发明,进一步地,在上层应用使用完主题存储区或者定制化存储区所提供的数据后,将输出的成果数据回存到成果回存区,再以数据规则库的方式对存入成果回存区的数据进行标准化处理,使回存的成果数据符合国际标准ISO 15926和企业数据存储标准的规范定义,然后存储到到标准存储区中;所述成果回存区基于MongoDB数据库;
采用消息队列和数据持久化技术在数据采集、存储、服务交付应用、个性化定制应用和成果回存过程中每一步的数据转换进行记录,并将记录存储在MySQL数据库和Neo4j图数据库中。
为了更好地实现本发明,进一步地,通过Echarts技术生成结构化数据血缘图进行可视化展示;所述结构化数据血缘图使用元数据作为字段级别数据血缘关系的区分依据,使用数据表作为表级别的数据血缘关系的区分依据;
使用结构化数据血缘图对采集、存储、服务交付应用、个性化定制应用和成果回存的数据进行数据血缘关系展示;所述结构化数据血缘图包含的血缘关系依次按照源***、源所有者、源字段、源表、目标表、目标字段、目标所有者、目标***的顺序进行查看。
为了更好地实现本发明,进一步地,对于非结构化数据进行标签化设置,细化非结构化数据的来源和所处阶段,根据交付物的格式与关键词设置数据标签,以便于快速检索和查询数据来源。
本发明与现有技术相比具有以下优点及有益效果:
(1)通过可视化数据血缘地图查看字段级别的数据血缘关系,实现工程数据快速简单的溯源;
(2)统一数据采集,对底层数据做统一标准管理,制定数据规范和管理规范,并为将来各个上层应用***提供统一的数据出口,降低数据检索时间成本,实现专业间数据共享互通。
附图说明
图1为本发明数据处理完整流程图;
图2为本发明实际操作中下载数据血缘关系定义Excel模板的配置界面示例图;
图3为本发明实际操作中数据血缘关系定义元数据的配置界面示例图;
图4为本发明实际操作中数据血缘关系查看示例图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明公开了一种基于血缘技术的页岩气田地面工程数字化移交方法,如图1所示,首先需要对数据进行采集,采集到的数据包括结构化数据、非结构化数据、工业图纸和模型等,然后对采集到的数据按照存储数据的规则及页岩气田业务方面的规则进行缓存存储,存储中根据数据的分类不同如结构化数据、非结构化数据等,将不同分类的数据存储到不同的数据库中;对于区分存储后的采集数据,依据国际标准进行转换处理,将外部无序的分散数据形成标准化、通用化的工程类数据,转换后的数据进入到标准存储区,形成稳态的数据结构;将结构化的数据存储到MySQL数据库中,将结构化数据的关联关系存储到Neo4j图数据库中;将模型数据和非结构化文件存储到FastDFS分布式文件***中。然后再将通用、标准、稳态的数据根据需求存储到主题存储区或定制存储区以供上层应用使用;在上层应用使用了提供的数据后,将会输出成果数据,对于输出的成果数据,通过血缘关系进行数据回溯,实现快速检索分析等数据管理,在经过了大数据分析后的成果数据,进行成果回存或者历史隔离。
工作原理:本发明克服了传统的通过人为整合进行数据交付时工作量大、效率低下、容易出错、数据溯源难的问题,引入数据血缘技术,实现与建设期和运营期的数据库相连通,接收来自云端和基础设施的设计、采购、施工、检维修等数据,并进行资产化存储与管理,灵活响应上层智能应用的数据需求。
实施例2:
本发明在上述实施例1的基础上,为了更好地实现本发明,进一步地,在数据的采集过程中,接收数据的接收适配器将对被采集数据的元数据进行登记和注册,并将被采集数据的元数据作为数据血缘的输入数据;所述元数据包括被采集数据的来源信息、结构信息;将接收的采集数据按照原始的结构进行缓存。
对于采集数据的缓存,根据分类进行不同方式的缓存,具体分类包括:结构化数据、模型数据、非结构化数据、实时数据;
所述结构化数据包括面向关系型数据库中的结构化数据,通过表和字段来标识的内容数据,依赖开源的Kafka消息队列进行采集,将数据封装为Json报文并推送至Kafka平台,然后通过数据处理程序解析报文并进行存储;所述存储的具体操作为:将结构化的数据存储到MySQL数据库中,而将结构化数据的关联关系存储到Neo4j图数据库中;
将所述实时数据进行处理,转换为结构化数据,然后存储到MySQL数据库中;
所述模型数据包括3D模型文件数据,AVEVA三维模型、SP3D三维模型、Revit软件建筑三维模型、线路GIS三维模型、AutoCAD Civil 3D总图三维模型;通过Kafka***导入模型数据,由任务调度根据元数据中的模型对应的统一资源定位符URL把实际的模型数据拉取出来进行存储;将所述模型数据存储到FastDFS分布式文件***中;
所述非结构化数据包括工程图纸、SP PID智能PID数据图纸及数据、Office文件和PDF文件;对于非结构化数据,把非结构化数据的元数据通过Kafka消息队列推送到平台,任务调度会根据元信息中的文件URL把实际的文件数据提取出来进行存储;所述非结构化文件存储到FastDFS分布式文件***中。
工作原理:在采集方面,针对异源异构的数据采集,本方法统一采集器,对技术组件和调度操作进行封装并提供给使用人员;在存储方面,针对数据存储的各层功能各自分担,数据库类型的较多情况,本方法以面向对象整合数据存储和统一调用,并提供整合的存储和调用界面。
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本发明在上述实施例1-2任一项的基础上,为了更好地实现本发明,进一步地,对于所述非结构化数据,在报文的解析提取过程中,同时还会提取非结构化数据所关联的工程对象标识信息,所述工程对象标识信息为结构化数据信息,在结构化数据库中将工程对象标识信息和对应的非结构化数据之间建立关联,从而实现结构化和非结构化之间的数据衔接。
同时,将采集的数据根据国际标准进行转换处理,将无序的分散数据形成标准、通用的工程类的数据,将转换后的数据存储到标准存储区,形成稳态的数据结构将结构化的数据存储到MySQL数据库中,将结构化数据的关联关系存储到Neo4j图数据库中;将模型数据和非结构化文件存储到FastDFS分布式文件***中。
所述标准、通用的工程类数据通过事先建立的数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单进行规范;所述数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单需要满足以下要求:
(1)以树状目录的层级方式对业务结构进行梳理,对业务实体进行归类;
(2)对资产业务的逻辑类别和分类进行定义和配置;
(3)对物理存储层面进行数据结构表的定义和设计。
本实施例的其他部分与上述实施例1-2任一项相同,故不再赘述。
实施例4:
本发明在上述实施例1-3任一项的基础上,为了更好地实现本发明,进一步地,对于存储在标准存储区的数据,不直接推送给上层应用进行数据服务的提供,需要先以服务交付的方式依据业务需求对数据进行业务转换处理,将数据需求进行业务转换后存储进主题存储区供上层应用使用;而对于一些个性化的应用则需要进行个性化定制处理后再存储进定制化存储区供上层应用使用;所述个性化的应用包括接口个性化、协议个性化、查询个性化;所述标准存储区、主题存储区、定制存储区的数据为结构化数据,同样存储到MySQL数据库中。
在进行所述服务交付时,通过高可配、轻开发的方式,基于API网关,以标准的RESTful API在服务目录中注册和开放接口,从而实现数据服务接口的构建;将所构建的数据服务接口以组合与编排的方式实现在不同场景下的数据服务;并将所述数据服务的传输对象作为数据血缘关系的一个输入。
工作原理:在服务输出方面,利用微服务技术框架,将数据接口封装和改造成微服务,通过API网关的方式暴露给上层应用来调用。在服务交付层面,不是为每个应用进行定制化开发来提供数据服务,而是通过高可配、轻开发方式去构建数据服务接口。技术层面上基于API网关的方式,通过标准的RESTful API在服务目录中注册和开放接口。因此服务目录中所有标准化、通用化的接口都可以被组合与编排以满足在不同场景下的数据服务。其数据服务的传输对象是基于数据模型中的逻辑实体去构建和整合的,也作为数据血缘关系的重要输入之一
本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。
实施例5:
本发明在上述实施例1-4任一项的基础上,为了更好地实现本发明,如图2、图3、图4所示,进一步地,在上层应用使用完主题存储区或者定制化存储区所提供的数据后,将输出的成果数据回存到成果回存区,再以数据规则库的方式对存入成果回存区的数据进行标准化处理,使回存的成果数据符合国际标准ISO 15926和企业数据存储标准的规范定义,然后存储到到标准存储区中;所述成果回存区基于MongoDB数据库;
采用消息队列和数据持久化技术在数据采集、存储、服务交付应用、个性化定制应用和成果回存过程中每一步的数据转换进行记录,并将记录存储在MySQL数据库和Neo4j图数据库中。
使用React前端技术结合Spring Cloud微服务技术对数据血缘关系进行定义,把定义的数据血缘关系按照Json协议存入数据库做持久化,在数据采集层应用定义好的关系进行数据解析并存入数据仓库;
所述定义数据血缘关系通过两种方式实现,具体方法为:
方法一:制作数据血缘关系定义Excel模板,然后在配置数据血缘关系的配置界面通过上传数据血缘关系定义Excel模板进行批量数据导入,实际操作中界面示意图如图2所示;
方法二:在配置数据血缘关系的配置界面通过源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段对数据流向的血缘关系进行定义和配置;所述源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段即为结构化数据的元数据;实际操作中界面示意图如图3所示。
通过Echarts技术生成结构化数据血缘图进行可视化展示;所述结构化数据血缘图使用元数据作为字段级别数据血缘关系的区分依据,使用数据表作为表级别的数据血缘关系的区分依据;
使用结构化数据血缘图对采集、存储、服务交付应用、个性化定制应用和成果回存的数据进行数据血缘关系展示;所述结构化数据血缘图包含的血缘关系依次按照源***、源所有者、源字段、源表、目标表、目标字段、目标所有者、目标***的顺序进行查看;具体的实际操作示例如图4所示,图4因色彩限制,原图中的红色彩球在图4中展示为黑色,在实际操作时将鼠标悬停在圆形图形结点上面,可以单独查看相应的字段与数据表的血缘关系;点击选择目标字段下拉框,可以查看选定的目标字段对应的血缘关系。
图4中小的红色彩球代表工程实体的数据字段,大的红色彩球代表与字段对应的工程实体数据表,箭头代表从源字段依次到源表、目标表、目标字段的数据流动方向;数据血缘图提供缩放功能,根据整体感知或局部聚焦定位需求,放大或缩小查看血缘关系。
对于非结构化数据进行标签化设置,细化非结构化数据的来源和所处阶段,根据交付物的格式与关键词设置数据标签,以便于快速检索和查询数据来源。
工作原理:通过可视化的方式对外部数据和内部数据,及内部数据之间的数据流向关系进行定义,使用React前端技术结合Spring Cloud微服务技术,把前端定义的血缘关系按照Json协议存入数据库做持久化,在数据采集层应用定义好的关系进行数据解析并存入数据仓库,再通过可视化的数据血缘图来展示其数据流向的映射。在使用平台进行数据移交过程中,若需要进行数据追溯,则可通过可视化数据血缘地图查看字段级别的数据血缘关系,为工程施工的数据溯源提供简单方法。上层应用使用完平台所提供的数据后,将输出综合研究的成果数据回存到平台的成果回存区,再依据数据规则库的方式对其进行标准化处理,使其符合ISO 15926和企业数据存储标准的规范定义最终又进入到标准存储区;基于数据血缘技术的信息处理环节,对数据的变化进行记录,可以分析数据之间的处理关系是否合理,分析上游数据发生变化给下游带来的影响;在下游数据发生变化时追踪上游问题的源头等。表级别、字段级别的数据血缘关系分析清晰地定位了不同工程实体之间的映射、计算、流转等关联关系,分析精度高,具有更广泛的应用前景。
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (7)
1.一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,在数据采集之前,使用React前端技术结合Spring Cloud微服务技术对数据血缘关系进行定义,把定义的数据血缘关系按照Json协议存入数据库做持久化,在数据采集层应用定义好的关系进行数据解析并存入数据仓库;接着进行数据的采集,对被采集数据的元数据进行登记和注册,并通过采集数据的元数据作为数据血缘关系的输入数据,并对采集的数据进行缓存;
所述采集的数据包括结构化数据、模型数据、非结构化数据;
所述模型数据、非结构化数据的元数据包括被采集数据的来源信息、结构信息;在配置数据血缘关系的配置界面通过来源信息、结构信息对数据流向的血缘关系进行定义和配置,同时将接收的采集数据按照原始的结构进行缓存;
所述结构化数据定义数据血缘关系通过两种方式实现,具体方法为:
方法一:制作数据血缘关系定义Excel模板,然后在配置数据血缘关系的配置界面通过上传数据血缘关系定义Excel模板进行批量数据导入;
方法二:在配置数据血缘关系的配置界面通过源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段对数据流向的血缘关系进行定义和配置;所述源***、源所有者、源表、源字段、目标***、目标所有者、目标表、目标字段即为结构化数据的元数据;
将采集的数据根据国际标准进行转换处理,将无序的分散数据形成标准、通用的工程类的数据,将转换后的数据存储到标准存储区,形成稳态的数据结构;将结构化的数据存储到MySQL数据库中,将结构化数据的关联关系存储到Neo4j图数据库中;将模型数据和非结构化文件存储到FastDFS分布式文件***中;
所述标准、通用的工程类数据通过事先建立的数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单进行规范;所述数据模型、业务实体清单、业务实体数据结构表、业务实体文档清单需要满足以下要求:
(1)以树状目录的层级方式对业务结构进行梳理,对业务实体进行归类;
(2)对资产业务的逻辑类别和分类进行定义和配置;
(3)对物理存储层面进行数据结构表的定义和设计;
通过Echarts技术生成结构化数据血缘图进行可视化展示;所述结构化数据血缘图使用元数据作为字段级别数据血缘关系的区分依据,使用数据表作为表级别的数据血缘关系的区分依据;
使用结构化数据血缘图对采集、存储、服务交付应用、个性化定制应用和成果回存的数据进行数据血缘关系展示;所述结构化数据血缘图包含的血缘关系依次按照源***、源所有者、源字段、源表、目标表、目标字段、目标所有者、目标***的顺序进行查看。
2.如权利要求1所述的一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,对于采集数据的缓存,根据数据分类不同进行不同方式的缓存:
所述结构化数据包括面向关系型数据库中的结构化数据,通过表和字段来标识的内容数据,依赖开源的Kafka消息队列进行采集,将数据封装为Json报文并推送至Kafka平台,然后通过数据处理程序解析报文并进行存储;所述存储的具体操作为:将结构化的数据存储到MySQL数据库中,而将结构化数据的关联关系存储到Neo4j图数据库中;
所述模型数据包括3D模型文件数据,AVEVA三维模型、SP3D三维模型、Revit软件建筑三维模型、线路GIS三维模型、AutoCAD Civil 3D总图三维模型;通过Kafka***导入模型数据,由任务调度根据元数据中的模型对应的统一资源定位符URL把实际的模型数据拉取出来进行存储;将所述模型数据存储到FastDFS分布式文件***中;
所述非结构化数据包括工程图纸、SP PID智能PID数据图纸及数据、Office文件和PDF文件;对于非结构化数据,把非结构化数据的元数据通过Kafka消息队列推送到平台,任务调度会根据元信息中的文件URL把实际的文件数据提取出来进行存储;所述非结构化文件存储到FastDFS分布式文件***中。
3.如权利要求2所述的一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,对于所述非结构化数据,在报文的解析提取过程中,同时还会提取非结构化数据所关联的工程对象标识信息,所述工程对象标识信息为结构化数据信息,在结构化数据库中将工程对象标识信息和对应的非结构化数据之间建立关联,从而实现结构化和非结构化之间的数据衔接。
4.如权利要求1所述的一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,对于存储在标准存储区的数据,不直接推送给上层应用进行数据服务的提供,需要先以服务交付的方式依据业务需求对数据进行业务转换处理,将数据需求进行业务转换后存储进主题存储区供上层应用使用;而对于一些个性化的应用则需要进行个性化定制处理后再存储进定制化存储区供上层应用使用;所述个性化的应用包括接口个性化、协议个性化、查询个性化。
5.如权利要求4所述的一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,在进行所述服务交付时,通过高可配、轻开发的方式,基于API网关,以标准的RESTful API在服务目录中注册和开放接口,从而实现数据服务接口的构建;将所构建的数据服务接口以组合与编排的方式实现在不同场景下的数据服务;并将所述数据服务的传输对象作为数据血缘关系的一个输入。
6.如权利要求5所述的一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,在上层应用使用完主题存储区或者定制化存储区所提供的数据后,将输出的成果数据回存到成果回存区,再以数据规则库的方式对存入成果回存区的数据进行标准化处理,使回存的成果数据符合国际标准ISO 15926和企业数据存储标准的规范定义,然后存储到到标准存储区中;所述成果回存区基于MongoDB数据库;
采用消息队列和数据持久化技术在数据采集、存储、服务交付应用、个性化定制应用和成果回存过程中每一步的数据转换进行记录,并将记录存储在MySQL数据库和Neo4j图数据库中。
7.如权利要求1所述的一种基于数据血缘的页岩气田地面工程数字化移交方法,其特征在于,对于非结构化数据进行标签化设置,细化非结构化数据的来源和所处阶段,根据交付物的格式与关键词设置数据标签,以便于快速检索和查询数据来源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010693603.XA CN112328667B (zh) | 2020-07-17 | 2020-07-17 | 一种基于数据血缘的页岩气田地面工程数字化移交方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010693603.XA CN112328667B (zh) | 2020-07-17 | 2020-07-17 | 一种基于数据血缘的页岩气田地面工程数字化移交方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328667A CN112328667A (zh) | 2021-02-05 |
CN112328667B true CN112328667B (zh) | 2023-09-08 |
Family
ID=74303748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010693603.XA Active CN112328667B (zh) | 2020-07-17 | 2020-07-17 | 一种基于数据血缘的页岩气田地面工程数字化移交方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328667B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115145919A (zh) * | 2022-06-30 | 2022-10-04 | 中冶赛迪信息技术(重庆)有限公司 | 一种业务***间数据血缘生成方法、装置、设备及介质 |
CN115687309B (zh) * | 2022-12-30 | 2023-04-18 | 浙江大学 | 非侵入式卷烟出入库全流程数据血缘构建方法、装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902750A (zh) * | 2012-09-20 | 2013-01-30 | 浪潮齐鲁软件产业有限公司 | 一种通用的数据抽取转换方法 |
CN109286653A (zh) * | 2017-07-21 | 2019-01-29 | 埃森哲环球解决方案有限公司 | 智能云工程平台 |
CN109446279A (zh) * | 2018-10-15 | 2019-03-08 | 顺丰科技有限公司 | 基于neo4j大数据血缘关系管理方法、***、设备及存储介质 |
CN110232098A (zh) * | 2019-04-22 | 2019-09-13 | 汇通达网络股份有限公司 | 一种基于数据治理及血缘关系设计的数据仓库*** |
CN110555032A (zh) * | 2019-09-09 | 2019-12-10 | 北京搜狐新媒体信息技术有限公司 | 一种基于元数据的数据血缘关系分析方法及*** |
CN111400305A (zh) * | 2020-02-20 | 2020-07-10 | 深圳市魔数智擎人工智能有限公司 | 基于特征工程血缘关系的可回溯、可视化方法 |
-
2020
- 2020-07-17 CN CN202010693603.XA patent/CN112328667B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902750A (zh) * | 2012-09-20 | 2013-01-30 | 浪潮齐鲁软件产业有限公司 | 一种通用的数据抽取转换方法 |
CN109286653A (zh) * | 2017-07-21 | 2019-01-29 | 埃森哲环球解决方案有限公司 | 智能云工程平台 |
CN109446279A (zh) * | 2018-10-15 | 2019-03-08 | 顺丰科技有限公司 | 基于neo4j大数据血缘关系管理方法、***、设备及存储介质 |
CN110232098A (zh) * | 2019-04-22 | 2019-09-13 | 汇通达网络股份有限公司 | 一种基于数据治理及血缘关系设计的数据仓库*** |
CN110555032A (zh) * | 2019-09-09 | 2019-12-10 | 北京搜狐新媒体信息技术有限公司 | 一种基于元数据的数据血缘关系分析方法及*** |
CN111400305A (zh) * | 2020-02-20 | 2020-07-10 | 深圳市魔数智擎人工智能有限公司 | 基于特征工程血缘关系的可回溯、可视化方法 |
Non-Patent Citations (1)
Title |
---|
张新阳 等.基于电力行业的大数据时代下元数据管理方法.基于电力行业的大数据时代下元数据管理方法.2018,第14卷(第31期),第258-259页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112328667A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213754B (zh) | 一种数据处理***及数据处理方法 | |
CN110781236A (zh) | 一种构建政务大数据治理体系的方法 | |
CN111435344B (zh) | 一种基于大数据的钻井提速影响因素分析模型 | |
CN105045820B (zh) | 一种处理海量级数据的视频图像信息的方法及数据库*** | |
US8484255B2 (en) | Automatic conversion of multidimentional schema entities | |
CN109344223A (zh) | 一种基于云计算技术的建筑信息模型管理***及方法 | |
WO2018051096A1 (en) | System for importing data into a data repository | |
CN111176867B (zh) | 数据共享交换及开放应用平台 | |
CN109542967A (zh) | 基于xbrl标准的智慧城市数据共享***及方法 | |
CN114379608A (zh) | 一种城市轨道交通工程的多源异构数据集成处理方法 | |
CN112328667B (zh) | 一种基于数据血缘的页岩气田地面工程数字化移交方法 | |
CN111400288A (zh) | 数据质量检查方法及*** | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN114925045A (zh) | 大数据集成和管理的PaaS平台 | |
CN112672370B (zh) | 网元指标数据的自动检测方法及***、设备和存储介质 | |
CN108170855B (zh) | 一种CityGML与IFC数据统一查询及数据抽取方法 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN112699100A (zh) | 一种基于元数据管理分析*** | |
CN114116065A (zh) | 获取拓扑图数据对象的方法、装置、及电子设备 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN115934856A (zh) | 一种构造综合能源数据资产的方法和*** | |
CN114254033A (zh) | 一种基于bs架构的数据处理方法及*** | |
CN112214483A (zh) | 一种城市信息模型中数据的分析、关联、存储和访问方法和装置 | |
US20140143248A1 (en) | Integration to central analytics systems | |
CN106657282B (zh) | 一种换流站设备运行状态信息的集成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |