CN116775605A

CN116775605A - 一种基于人工智能的产业数据管理和共享平台

Info

Publication number: CN116775605A
Application number: CN202310747265.7A
Authority: CN
Inventors: 陈刚; 赵凯; 王明浩; 王旭飞
Original assignee: Sinocbd Inc
Current assignee: Sinocbd Inc
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-19

Abstract

本发明公开了一种基于人工智能的产业数据管理和共享平台，包括包括如下步骤：基于数据湖构建数据管理平台；在所述数据管理平台的基础上创建工业数据空间iDS3；对数据源进行数据摄取；将数据导入到工业数据空间iDS3中，进行数据的统一管理；在工业数据空间iDS3中添加数据可信交易机制；结合数据湖和数据编织的能力，实现元数据的统一采集、建模、存储与共享；基于元数据的DIKube管理；根据工业机理，预生成基于元数据的DIKube；通过iDS3联接数据湖与应用层，实现元数据和数据的管理；通过审计日志与数据质量检查，从数据写入、数据一致性、数据源的编排与调度三个方面，监控数据湖中关键ETL任务的数据来源与数据质量；构建数据应用。

Description

一种基于人工智能的产业数据管理和共享平台

技术领域

本发明涉及智能制造领域，尤其涉及到一种基于人工智能的产业数据管理和共享平台。

背景技术

现有开源技术、方法与架构主要包括如下四种：

1)数据湖

数据湖是一种能满足多元化数据结构的存储、查询、非结构化和结构化数据的交叉分析的大数据平台，具有数据管理、治理和资产化能力。数据湖中的所有数据均能以数据的原始格式存储，且没有大小限制。数据湖中的每个数据元素都有一个唯一的标识符，通过这个标识符可以查询找到该元素。实现数据湖的常用数据管理组件有数据接入、数据搬迁、数据治理、质量管理、资产目录、访问控制、任务管理、任务编排和元数据管理等。湖仓一体是一种新的数据架构，它同时吸收了数据仓库和数据湖的优势，融合了数据仓库和数据湖之间的差异，通过将数据仓库构建在数据湖上，使得存储变得更为廉价和弹性。湖仓一体能有效提高数据质量，减少数据冗余。在湖仓一体构建中，ETL(Extract-Transform-Load)能将未经整理的数据湖层的数据转换成数据仓库层的结构化数据。它具有统一的数据管理、多模态的存储引擎、丰富的数据引擎、融合的数据平台和应用按需建模等五个方面的特点。

2)数据空间

数据空间是一个基于异构数据源的信息***，旨在支持数据的智能应用。数据空间可以根据不同应用场景使用不同技术，从而适用于多种访问，并提供不同级别的服务。数据空间通过构建数据的统一描述集成来自多个数据源的数据，更侧重于发现数据关系，而不是管理数据。因此，数据空间强调通过理解数据支持智能决策。即合即用功能通过在使用过程中收集反馈，能为数据空间的用户提供越来越好的使用体验，并使数据空间具有适应新数据源的能力。在不同的工作环境中，数据空间可以有不同的结构设计。

3)数据编织

数据编织是一种作为数据和连接过程的集成层的设计概念，是一种数据体系结构的描述。它能利用元数据的连续分析，支持跨环境(包括混合云和多云平台)下的可集成和可重复使用的数据的设计、部署和利用。Data Fabric是数据体系结构进化的结果。数据编织除继承已有的数据集成和数据治理技术之外，还具有一些新能力，主要包括嵌入式人工智能和机器学习、语义知识图、自动化重复任务、活动的元数据、动态数据集成、数据目录和自动化数据编排等。

4)数据网格

数据网格是一种解决方案架构，旨在构建以业务为中心的数据产品。它能在技术无关的框架内指导解决方案体系结构的设计。数据网格作为一种解决方案，其基本的要求包括产品即数据、分布式数据治理和授权。本质上，数据网格解决方案是围绕业务域所有者组织数据，并将相关数据源转换为数据产品，这些产品可为来自不同业务域或功能的分布式业务用户提供服务。这些数据产品能以自主、分散和自助的方式被创建、管理和使用。

以上所述现有开源技术、方法与架构的不足：

1)数据湖作为一个可扩展的大数据存储、处理、分析的基础设施，最主要的不足是无法保障获取的数据质量。湖仓一体数据架构仍是一种综合数据仓库和数据湖的架构，存在复杂度高、管理成本高、数据安全难度大等问题；其次，企业湖仓一体架构多以特定业务为导向而不具有通用性，尚未形成完善的架构体系，存在缺乏完整数据生命周期过程、对存储对象定义不明确、数据治理能力需优化、支撑应用软件技术需补充等问题；此外，当前企业数据多由中央数据团队集中统一管理，各业务领域间缺乏高效数据共享机制，易形成数据孤岛。

2)数据空间管理***在数据建模与查询、本地存储与索引、数据空间发现这三个方面仍存在不足。当前的数据建模无法处理不同级别的不确定性、不能以即合即用的方式在数据空间中填充数据；无法高效地支持所有类型的查询，如：关键词查询、结构化查询和元数据查询；缺乏高效通用的本地存储与索引的组件；已有的数据空间管理***无法定位新参与者已有数据源之间的关系。

3)数据编织是一种用于访问和移动数据的技术基础设施，它偏向于数据访问而不是数据管理。当创建可复制、可重用的数据流，以及可复制、可重用的数据清理和调节例程时，管理数据与访问数据的优先级容易发生冲突，难以实现即合即用。此外，数据编织侧重于解决企业内部数据资产日益加剧的多样化、分布式、规模、复杂性等问题，无法解决企业间的数据共享问题。

4)从数据管理平台的角度，数据网格是数据产品的下游应用程序。从应用领域的角度，数据网格无法将数据组合到OLAP引擎、无法创建DWH。

因此，有必要对这样现有技术进行改进，以克服上述缺陷。

发明内容

本发明的目的是提供一种基于人工智能的产业数据管理和共享平台，实现企业间数据共享，为企业提供数字化转型、智能升级、融合创新等服务，解决在现有的数据湖、湖仓一体、数据空间、数据编织和数据网格等平台中，数据管理与应用需求相关联的问题。这种关联的问题会导致当企业的应用需求不明确时，其数据资产无法得到有效利用，导致投入到数据管理所花费的成本难以实现利润最大化。

本发明的上述技术目的是通过以下技术方案实现的：

一种基于人工智能的产业数据管理和共享平台，包括包括如下步骤：

1)基于数据湖构建数据管理平台；

2)在所述数据管理平台的基础上创建一个基于数据编织体系结构的去中心化分布式共生共享的工业数据空间iDS3；

3)对数据源进行数据摄取；将来自各种数据库、消息队列、文件存储的数据导入到工业数据空间iDS3中，进行数据的统一管理；

4)在工业数据空间iDS3中添加数据可信交易机制；

5)元数据增强管理；结合数据湖和数据编织的能力，实现元数据的统一采集、建模、存储与共享；

6)基于元数据的DIKube管理；根据工业机理，预生成基于元数据的DIKube；

7)数据的一体化治理；通过iDS3联接数据湖与应用层，实现元数据和数据的管理；

8)数据安全与审计；通过审计日志与数据质量检查，从数据写入、数据一致性、数据源的编排与调度三个方面，监控数据湖中关键ETL任务的数据来源与数据质量；

9)构建数据应用。

进一步的，所述基于数据湖架构建数据管理平台的步骤如下：

1)构建分布式大数据集群环境；

2)安装集群可视化管理插件和环境部署依赖插件；

3)部署存储数据卷管理组件、分布式对象存储组件MinIO、组件服务、数据查询组件Trino和BI工具superset。

进一步的，所述工业数据空间iDS3用于元数据的泛在存储，其采用DIKube的数据存储方式；DIKube中的每一个数据张量中只存储元数据和其对应的唯一ID。

进一步的，所述数据可信交易机制包括如下三种：

4.1)通过唯一ID和区块链技术保证数据交易的可信机制；

4.2)通过审计记录追溯数据的操作历史；

4.3)回溯到指定的历史版本；在充分记录数据特征的基础上，将抽取到的元数据与标签生成标识符ID，并存入工业数据张量体iDIKube中，建立泛在的数据治理机制。

进一步的，所述元数据增强管理的步骤如下：

5.1)根据语义抽取多源异构数据中的相关实例、实体与关系，实现基于RDF的数据同化；

5.2)构建行业数据目录和行业数据编码体系zyxID，依托工业机理，将数据归纳对应为工业词谱iLexiGraph中的节点，借助词谱节点间的关联富化数据语义；

5.3)基于Lakehouse提供的完整的元数据，在iDS3中实现对元数据的汇总整合，并实现管理与共享；

5.4)结合数据湖中的表信息，根据iDS3建立的数据资产的语义关系，关联数据平台与外部***的变更轨迹。

进一步的，所述数据的一体化治理的步骤如下：

7.1)基于数据湖保证数据平台数据质量,利用数据编织联接数据平台与外部***；

7.2)依托iDS3的数据安全与生命周期管理机制，管理数据湖中的数据访问与读写过程；

7.3)通过审计日志与合规性管理，分析、挖掘数据湖的历史访问与变更情况。

进一步的，所述数据安全与审计的实现方法如下：

8.1)利用iDS3从数据源中摄取数据，利用数据湖将摄取的数据写入数据管理平台；

8.2)基于数据湖的事务性和数据质量机制,简化iDS3在ETL/ELT中的数据一致性；

8.3)基于iDS3实现分布式ETL/ELT任务的编排与调度，将数据从源加载至数据湖。

进一步的，所述构建数据应用的步骤如下：

9.1)在iDS3中使用数据湖元数据作为数据源；

9.2)在构建的数据管理平台使用iDS3简化数据分析流程和步骤；

9.3)利用数据湖的ACID事务机制，实现iDS具有能提供高质量分析数据源的功能；

9.4)在iDS3中添加数据可信交易机制，并为每个组织实施iDS3连接器；

9.5)所有组织按照数据空间规则手册中指定的方式交换信息；

9.6)向用户提供面向产业、场景驱动、按需实时的数据应用服务和交互式的海量数据集分析和展示。

综上所述，本发明具有以下有益效果：

1)数据安全与审计从数据写入、数据一致性、数据源的编排与调度三个方面保证了产业数据管理平台中的数据质量。

2)可信数据交易机制和元数据增强管理实现了数据全生命周期的管理。

3)基于RDF的数据同化和基于工业机理构建的词谱iLexiGraph能解决支持各种类型的查询。

4)基于iDS3的元数据治理能实现即合即用的元数据应用。

5)具有可扩展性的行业机理的知识图谱，当补全用户时，能实现基于人工智能的生成式应用场景。

附图说明

图1是本发明所述的基于人工智能的产业数据管理和共享平台示意图。

图2是本发明所述的产业数据管理平台用于企业间数据共享图。

图3是本发明所述的基于人工智能的生成式应用场景的实现步骤图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明。

本发明提出的一种基于人工智能的产业数据管理和共享平台，包括如下步骤：

I、基于数据湖构建数据管理平台

基于数据湖架构构建数据管理平台是指基于数据湖构建一个能实现数据管理的湖仓一体的数据管理平台。其步骤如下：

1)构建分布式大数据集群环境；

2)安装集群可视化管理插件和环境部署依赖插件；

II、在第I步构建的数据管理平台的基础上创建一个基于数据编织体系结构的去中心化分布式共生共享的工业数据空间iDS3

通过数据管理平台创建的数据空间iDS3具有如下2个方面的关键功能：1)能保持元数据的泛在存储。这既节省了数据集成需要的昂贵成本，又保证了企业的数据安全；2)DIKube的数据存储方式。DIKube中的每一个数据张量中只存储元数据和其对应的唯一ID。ID是基于工业机理而设置的编码，不同的应用具有不同的编码规则，保证了企业内部或企业之间的数据共生共享，解决了原生数据编织体系结构无法支持实时、按需的数据融合与整合问题。

III、对数据源进行数据摄取

用自研连接器同步来自各种数据库、消息队列、文件存储的数据到iDS3中，进行数据的统一管理。

IV、在iDS3中添加数据可信交易机制

首先，添加三种可信交易机制：1)通过唯一ID和区块链技术保证数据交易的可信机制；2)通过审计记录追溯数据的操作历史；3)回溯到指定的历史版本。然后，在充分记录数据特征的基础上，将抽取到的元数据与标签生成标识符ID，并存入工业数据张量体iDIKube中，建立泛在的数据治理机制。

V、元数据增强管理

元数据增强管理指的是结合数据湖和数据编织的能力，通过以下步骤，实现元数据的统一采集、建模、存储与共享。

1)根据语义抽取多源异构数据中的相关实例、实体与关系，实现基于RDF(Resource Description Framework)的数据同化。

2)构建行业数据目录和行业数据编码体系zyxID，依托工业机理，将数据归纳对应为工业词谱iLexiGraph中的节点，借助词谱节点间的关联富化数据语义。

3)基于Lakehouse提供的完整的元数据，在iDS3中实现对元数据的汇总整合，并实现管理与共享。

4)结合数据湖中的表信息，根据iDS3建立的数据资产的语义关系，关联数据平台与外部***的变更轨迹。

VI、基于元数据的DIKube管理

根据工业机理，预生成基于元数据的DIKube。iDS3使用ANSI SQL进行数据的检索，避免了用户需要掌握各类纷繁复杂的SQL语句的弊端。

VII、数据的一体化治理

数据的一体化治理是指通过iDS3联接数据湖与应用层，实现元数据和数据的管理。实现步骤如下：

1)基于数据湖保证数据平台数据质量,利用数据编织联接数据平台与外部***。

2)依托iDS3的数据安全与生命周期管理机制，管理数据湖中的数据访问与读写等过程。

3)通过审计日志与合规性管理，分析、挖掘数据湖的历史访问与变更情况。

VIII、数据安全与审计

数据安全与审计是指通过审计日志与数据质量检查，从数据写入、数据一致性、数据源的编排与调度三个方面，监控数据湖中关键ETL任务的数据来源与数据质量。实现方法如下：

1)利用iDS3从数据源中摄取数据，利用数据湖将摄取的数据写入数据管理平台。

2)基于数据湖的事务性和数据质量机制,简化iDS3在ETL/ELT(Extract LoadTransform)中的数据一致性的相关问题。

3)基于iDS3实现分布式ETL/ELT任务的编排与调度，将数据从源加载至数据湖。

IX、构建数据应用

构建数据应用的步骤如下：

1)在iDS3中使用数据湖元数据作为数据源。

2)在构建的数据管理平台使用iDS3简化数据分析流程和步骤。

3)利用数据湖的ACID事务机制，实现iDS具有能提供高质量分析数据源的功能。

4)在iDS3中添加数据可信交易机制，并为每个组织实施iDS3连接器。

5)所有组织按照数据空间规则手册中指定的方式交换信息。

6)向用户提供面向产业、场景驱动、按需实时的数据应用服务和交互式的海量数据集分析和展示。

本申请中的数据安全与审计从数据写入、数据一致性、数据源的编排与调度三个方面保证了iDS3中的数据质量问题，解决了数据湖作为数据管理平台无法保证数据质量的不足；

本申请中的可信数据交易机制和元数据增强管理能分析与控制数据湖的历史访问与变更情况，解决了湖仓一体作为数据管理平台缺乏对数据完整的生命周期进行监控的不足。

本申请基于RDF的数据同化和基于工业机理构建的词谱iLexiGraph能解决数据即合即用时的数据填充、能支持各类查询，能基于ID构建索引并快速发现不同数据源之间的关系，解决了传统数据空间在数据建模与查询、本地存储与索引、数据空间发现这三个方面的不足。

本申请中的行业数据目录、行业数据标识编码体系以及基于工业机理构建的词谱iLexiGraph，能实现面向行业、场景驱动、按需实时、即用即合的源数据应用，解决了原生数据编织无法实现体系结构无法支持实时、按需的数据融合与整合问题。

本申请中的工业数据张量体DIKube可提供按需的数据融合与整合。因为DIKube只存储元数据和其对应的唯一ID。其中，ID是基于工业机理而设置的编码，不同的应用具有不同的编码规则。DIKube的数据存储方式解决了原生数据编织无法支持各种不同的数据应用问题。

参见图1，图1说明的是本发明的产业数据管理平台。该平台是一个具有U型特征的五层体系结构。从下至上分别是数据层、数据摄取&存储层、元数据管理层、DIKube层和数据应用层。数据层表示分布在不同位置的多源异构数据源；数据摄取&存储层采用流批一体技术和ETL技术实现从多源异构的数据源中摄取数据，并利用数据湖将摄取的数据写入数据管理平台。元数据管理层的功能是实现基于RDF的数据同化、利用行业数据标识编码体系zyxID基于工业机理构建的词谱iLexiGraph的构建、利用zyxID创建索引和元数据的存储。DIKube层包含DIKube管理模块和数据分析模块。DIKube管理模块可根据元数据管理层中创建的索引实现元数据的搜索和查询，并能根据用户需求生成不同主题的DIKube，实现工业搜索引擎的研发和数据探索分析。数据分析模块接收来自数据应用层的业务需求，利用DIKube管理完成基于机器学***台中数据的质量。数据治理则采用去中心化分布式数据共生共享的理念，利用包含数据世系(lineage)的zyxID、工业机理和行业开放数据规范CGF等技术，解决实现数据企业内部数据用好难、产业链上下游数据共享难、互联网上有价值的开放数据获取难的问题。

图2说明的基于本发明打造的多功能数据服务一体机，已服务于国内多家重工业型企业及其下属单位。该一体机能全面整合重工业型企业间的企业-下属单位-车间-产线-设备等多维度数据。

图3说明的是基于人工智能的生成式应用场景的实现步骤。本发明可基于此步骤，为有应用需求的用户自动、实时推送高质量的数据，并能满足数据权限和隐私等方面的合规要求。

在本文中，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了表达技术方案的清楚及描述方便，因此不能理解为对本发明的限制。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于人工智能的产业数据管理和共享平台，其特征在于，包括包括如下步骤：

1)基于数据湖构建数据管理平台；

4)在工业数据空间iDS3中添加数据可信交易机制；

9)构建数据应用。

2.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述基于数据湖架构建数据管理平台的步骤如下：

1)构建分布式大数据集群环境；

2)安装集群可视化管理插件和环境部署依赖插件；

3.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述工业数据空间iDS3用于元数据的泛在存储，其采用DIKube的数据存储方式；DIKube中的每一个数据张量中只存储元数据和其对应的唯一ID。

4.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述数据可信交易机制包括如下三种：

4.1)通过唯一ID和区块链技术保证数据交易的可信机制；

4.2)通过审计记录追溯数据的操作历史；

5.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述元数据增强管理的步骤如下：

6.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述数据的一体化治理的步骤如下：

7.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述数据安全与审计的实现方法如下：

8.根据权利要求1所述的基于人工智能的产业数据管理和共享平台，其特征在于，所述构建数据应用的步骤如下：

9.1)在iDS3中使用数据湖元数据作为数据源；

9.5)所有组织按照数据空间规则手册中指定的方式交换信息；