CN112925767A

CN112925767A - 基于互联网监管的多数据源动态数据同步治理方法及***

Info

Publication number: CN112925767A
Application number: CN202110234138.8A
Authority: CN
Inventors: 侯居永; 栾丽丽; 张雷; 陈兆亮
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-08

Abstract

本发明公开了基于互联网监管的多数据源动态数据同步治理方法及***，属于互联网+监管领域，本发明要解决的技术问题为如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心，采用的技术方案为：该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合，并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控，实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心；具体如下：数据源管理：管理数据连接服务；数据流程设计：将每个数据处理流程定义为一个数据流作业，通过数据流作业管理数据处理流程；模板管理：流程迁移和复用。

Description

基于互联网监管的多数据源动态数据同步治理方法及***

技术领域

本发明涉及互联网+监管领域，具体地说是一种基于互联网监管的多数据源动态数据同步治理方法及***。

背景技术

当前，新一代信息技术正在快速改变着社会的生产和生活方式，数据已经成为组织和企业的核心资产，数字经济正在驱动新一轮的全球变革，企业的数字化转型已成为大数据时代的一种趋势。

互联网、大数据、人工智能和实体经济深度融合，推动各行各业的融合创新。在融合创新的时代，充分利用数据的关联、交叉和融合实现大数据的价值最大化成为各行各业实施数字化转型的关键之所在。在此背景下，跨领域、跨行业、跨地域的数据走向跨域融合，组织数据、互联网数据、物联网数据、科研数据等多源数据走向融合，结构化数据、半结构化数据、非结构化数据等超媒体数据走向融合。以大规模、多源异构、跨领域、跨媒体、跨语言、动态演化为主要特征的多源异构超媒体数据融合已经成为垂直行业和生态型企业实施数字化转型战略亟待解决的关键问题。

传统的数据仓库***中，在数据加载入库之前数据模型都是事先定义好的，它只能存放结构化的、已被处理的数据。

故如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心是目前急需解决的问题。

发明内容

本发明的技术任务是提供一种基于互联网监管的多数据源动态数据同步治理方法及***，来解决如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心的问题。

本发明的技术任务是按以下方式实现的，一种基于互联网监管的多数据源动态数据同步治理方法，该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合，并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控，实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心；具体如下：

数据源管理：管理数据连接服务；

数据治理：数据流程设计、数据流程调试、数据流程监控以及数据流程运维，将每个数据处理流程定义为一个数据流作业，通过数据流作业管理数据处理流程；

模板管理：流程迁移和复用，提供数据流模板的上传、删除和下载功能。

作为优选，数据源管理具体如下：

用户统一定义数据源连接，确保在设计数据处理流程时，能够直接引用数据源连接；

数据源连接采用连接池方式，防止占用大量数据源连接数；其中，数据源连接的类型包括如下：

①、JDBC连接类型，如MySQL、Oracle、MSSQL、DB2等各种支持JDBC的数据库；

②、FTP连接类型；

③、SFTP连接类型；

④、HDFS连接类型；

⑤、HBase连接类型；

⑥、Hive连接类型；

⑦、ElasticSearch连接类型；

⑧、Kafka连接类型；

⑨、Excel及csv等其他连接类型。

作为优选，数据流程设计具体如下：

流程分组：提供增加、删除、修改分组、启动以及停止的流程设计功能，通过分组对数据流作业分层分类，降低数据处理流程的管理与运维难度；

流程树形展示：用树显示当前用户所创建的所有作业，作业名称用不同的颜色来区分作业运行状态：绿色表示作业运行正常，红色表示作业运行中有提示告警信息，黑色表示作业没有运行；

可视化作业流程设计；

数据接入：提供多种数据接入处理器，用于采集各种多源异构数据，提供广泛的数据源适配、高性能的数据采集和灵活的调度模式，满足各种数据采集需求；

数据加载：数据加载提供多种数据加载处理器，用于将数据导入各种数据存储服务；

数据清洗：数据加载提供多种数据清洗处理器，用于对采集的数据进行校验和清洗；

数据转换：数据加载提供了多种数据转换处理器，用于对采集的数据进行转换；

自定义处理器：通过java代码编写实现特定功能的处理器，该处理器加载到流程作业，实现更复杂的功能，比如数据拆分，流数据是否在数据表中等。

更优地，可视化作业流程设计具体如下：

每个数据流设计管理一个独立的画布，定义一个或多个流程节点，组成一个或多个数据流程；

在画布的工具栏提供丰富的数据处理类型，通过拖拉拽方式定义流程节点并连接各流程节点；

配置流程节点调度规则，配置流程节点属性，配置启动、停止流程或节点，配置调试和监控流程运行状态；

提供流程节点对齐、高亮展示的辅助功能；

流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。

更优地，数据接入支持的数据源包括如下：

①、通过JDBC方式采集数据，如MySQL、Oracle、DB2、各种支持JDBC的数据库；

②、通过Oracle日志采集Oracle数据，能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作；

③、通过MySQL日志采集MySQL数据，能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作；

④、采集FTP/SFTP文件数据；

⑤、采集HDFS文件数据；

⑥、采集HBase数据；

⑦、采集Hive数据；

⑧、消费Kafka数据。

更优地，数据存储服务包括如下：

①、数据导入各种支持JDBC的数据库，如MySQL、Oracle、DB2等；

②、数据导入FTP/SFTP；

③、数据导入HDFS；

④、数据导入HBase；

⑤、数据导入Hive；

⑥、数据导入ElasticSearch；

⑦、数据导入Kafka。

更优地，数据清洗类型包括如下：

①、空值校验与非空校验；

②、前缀校验与后缀校验；

③、数据长度校验；

④、数值范围校验；

⑤、枚举值校验；

⑥、正则校验；

数据转换类型包括如下：

①、数据映射；

②、字符集转换；

③、数据格式转换；

④、数据拆分；

⑤、数据合并；

⑥、日期格式转换；

⑦、字符串替换；

⑧、空值替换；

⑨、字典值替换。

一种基于互联网监管的多数据源动态数据同步治理***，该***包括，

数据源管理单元，用于管理数据连接服务；

数据治理单元，用于数据治理，将每个数据处理流程定义为一个数据流作业，通过数据流作业管理数据处理流程；数据治理单元包括数据流程设计子单元、数据流程调试子单元、数据流程监控子单元以及数据流程运维子单元；模板管理单元，用于流程迁移和复用，提供数据流模板的上传、删除和下载功能。

作为优选，所述数据流程设计子单元包括，

流程分组模块，用于提供增加、删除、修改分组，启动及停止流程设计功能，通过分组对数据流作业分层分类，降低数据处理流程的管理与运维难度；

树形展示模块，用于用树显示当前用户所创建的所有作业，作业名称用不同的颜色来区分作业运行状态：绿色表示作业运行正常，红色表示作业运行中有提示告警信息，黑色表示作业没有运行；

可视化流程设计模块，用于将流程定义、启停、调试、监控及运维的操作通过一个界面完成可视化方式完成流程设计；

数据接入模块，用于采集各种多源异构数据。提供广泛的数据源适配、高性能的数据采集和灵活的调度模式，满足各种数据采集需求；

数据加载模块，用于将数据导入各种数据存储服务；

数据清洗模块，用于对采集的数据进行校验和清洗；

数据转换模块，用于对采集的数据进行转换；

自定义模块，用于通过java代码编写实现特定功能的处理器。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的基于互联网监管的多数据源动态数据同步治理方法。

本发明的基于互联网监管的多数据源动态数据同步治理方法及***具有以下优点：

(一)本发明通过对各种结构化数据、半结构化数据、非结构化数据等数据走向融合，提供一站式的数据开发环境，可视化流程设计，丰富的数据类型，智能化的任务监控，帮助用户快速构建大数据处理分析流程，低成本快速构建自己数据中心；本发明是一个易于使用、功能强大且可靠的数据处理和分发***，支持强大且可高度配置的基于有向图的数据路由、转换和***中介逻辑，支持从多种数据源动态拉取数据，充分利用数据的关联、交叉和融合实现数据的价值最大化；

(二)本发明依托浪潮互联网+监管行业多年经验和实践积累，提供可视化的任务编排能力，将多源异构数据融合、存储到大数据中心，实现了多源异构数据采集、存储、访问，帮助客户抽取整合所有相关数据，建设统一的数据中心，打破数据孤岛，实现数据互联互通，支撑数据分析洞察，释放数据价值，帮助客户完成大数据信息的转型；

(三)本发明为用户提供了可视化任务编排能力，无需安装任何客户端程序，在浏览器端通过简单的拖拉拽操作即可完成任务流程的编排、调试、启停、监控等操作；

(四)本发明内置丰富的数据开发类型，涵盖SQL、Hive、MapReduce、Spark、Streaming、Flink、Kylin、Jar、RestAPI、PySpark、机器学习、深度学习等多种数据开发类型；

(五)本发明能够提供丰富的调度配置策略与海量的作业调度能力，同时支持时间周期调度、事件驱动调度、手工调度等多种调度方式；

(六)本发明具有可视化任务编排能力，丰富的数据开发类型，丰富的调度配置策略。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于互联网监管的多数据源动态数据同步治理方法的示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于互联网监管的多数据源动态数据同步治理方法及***作以下详细地说明。

实施例1：

如附图1所示，本发明的基于互联网监管的多数据源动态数据同步治理方法，该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合，并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控，实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心；具体如下：

S1、数据源管理：管理数据连接服务；

S2、数据治理：数据流程设计、数据流程调试、数据流程监控以及数据流程运维，将每个数据处理流程定义为一个数据流作业，通过数据流作业管理数据处理流程；

S3、模板管理：流程迁移和复用，提供数据流模板的上传、删除和下载功能。其中，数据流模板包括投诉举报模板、风险预警模板、知识库模板等。

本实施例中步骤S1的数据源管理具体如下：

S101、用户统一定义数据源连接，确保在设计数据处理流程时，能够直接引用数据源连接；

S102、数据源连接采用连接池方式，防止占用大量数据源连接数；

其中，数据源连接的类型包括如下：

②、FTP连接类型；

③、SFTP连接类型；

④、HDFS连接类型；

⑤、HBase连接类型；

⑥、Hive连接类型；

⑦、ElasticSearch连接类型；

⑧、Kafka连接类型；

⑨、Excel及csv等其他连接类型。

本实施例中步骤S2的数据流程设计具体如下：

S201、流程分组：提供增加、删除、修改分组、启动以及停止的流程设计功能，通过分组对数据流作业分层分类，降低数据处理流程的管理与运维难度；

S202、流程树形展示：用树显示当前用户所创建的所有作业，作业名称用不同的颜色来区分作业运行状态：绿色表示作业运行正常，红色表示作业运行中有提示告警信息，黑色表示作业没有运行；

S203、可视化作业流程设计；

S204、数据接入：提供多种数据接入处理器，用于采集各种多源异构数据，提供广泛的数据源适配、高性能的数据采集和灵活的调度模式，满足各种数据采集需求；

S205、数据加载：数据加载提供多种数据加载处理器，用于将数据导入各种数据存储服务；

S206、数据清洗：数据加载提供多种数据清洗处理器，用于对采集的数据进行校验和清洗；

S207、数据转换：数据加载提供了多种数据转换处理器，用于对采集的数据进行转换；

S208、自定义处理器：通过java代码编写实现特定功能的处理器，该处理器加载到流程作业，实现更复杂的功能，比如数据拆分，流数据是否在数据表中等。

本实施例中步骤S203的可视化作业流程设计具体如下：

S20301、每个数据流设计管理一个独立的画布，定义一个或多个流程节点，组成一个或多个数据流程；

S20302、在画布的工具栏提供丰富的数据处理类型，通过拖拉拽方式定义流程节点并连接各流程节点；

S20303、配置流程节点调度规则，配置流程节点属性，配置启动、停止流程或节点，配置调试和监控流程运行状态；

S20304、提供流程节点对齐、高亮展示的辅助功能；

S20305、流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。

本实施例中步骤S204的数据接入支持的数据源包括如下：

④、采集FTP/SFTP文件数据；

⑤、采集HDFS文件数据；

⑥、采集HBase数据；

⑦、采集Hive数据；

⑧、消费Kafka数据。

本实施例中步骤S205的数据存储服务包括如下：

①、数据导入各种支持JDBC的数据库，如MySQL、Oracle、DB2等；

②、数据导入FTP/SFTP；

③、数据导入HDFS；

④、数据导入HBase；

⑤、数据导入Hive；

⑥、数据导入ElasticSearch；

⑦、数据导入Kafka。

本实施例中步骤S206的数据清洗类型包括如下：

①、空值校验与非空校验；

②、前缀校验与后缀校验；

③、数据长度校验；

④、数值范围校验；

⑤、枚举值校验；

⑥、正则校验；

本实施例中步骤S207的数据转换类型包括如下：

①、数据映射；

②、字符集转换；

③、数据格式转换；

④、数据拆分；

⑤、数据合并；

⑥、日期格式转换；

⑦、字符串替换；

⑧、空值替换；

⑨、字典值替换。

实施例2：

本发明的基于互联网监管的多数据源动态数据同步治理***，该***包括，

数据源管理单元，用于管理数据连接服务；

本实施例中的数据流程设计子单元包括，

数据加载模块，用于将数据导入各种数据存储服务；

数据清洗模块，用于对采集的数据进行校验和清洗；

数据转换模块，用于对采集的数据进行转换；

自定义模块，用于通过java代码编写实现特定功能的处理器。

实施例3：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于互联网监管的多数据源动态数据同步治理方法。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于互联网监管的多数据源动态数据同步治理方法及***M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于互联网监管的多数据源动态数据同步治理方法，其特征在于，该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合，并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控，实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心；具体如下：

数据源管理：管理数据连接服务；

2.根据权利要求1所述的基于互联网监管的多数据源动态数据同步治理方法，其特征在于，数据源管理具体如下：

用户统一定义数据源连接；

数据源连接采用连接池方式；其中，数据源连接的类型包括如下：

①、JDBC连接类型；

②、FTP连接类型；

③、SFTP连接类型；

④、HDFS连接类型；

⑤、HBase连接类型；

⑥、Hive连接类型；

⑦、ElasticSearch连接类型；

⑧、Kafka连接类型；

⑨、Excel及csv连接类型。

3.根据权利要求1所述的基于互联网监管的多数据源动态数据同步治理方法，其特征在于，数据流程设计具体如下：

可视化作业流程设计；

自定义处理器：通过java代码编写实现特定功能的处理器，该处理器加载到流程作业。

4.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法，其特征在于，可视化作业流程设计具体如下：

提供流程节点对齐、高亮展示的辅助功能；

5.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法，其特征在于，数据接入支持的数据源包括如下：

①、通过JDBC方式采集数据；

②、通过Oracle日志采集Oracle数据，能够采集数据库INSERT、UPDATE及DELETE的所有数据操作；

③、通过MySQL日志采集MySQL数据，能够采集数据库INSERT、UPDATE及DELETE的所有数据操作；

④、采集FTP/SFTP文件数据；

⑤、采集HDFS文件数据；

⑥、采集HBase数据；

⑦、采集Hive数据；

⑧、消费Kafka数据。

6.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法，其特征在于，数据存储服务包括如下：

①、数据导入各种支持JDBC的数据库，如MySQL、Oracle、DB2等；

②、数据导入FTP/SFTP；

③、数据导入HDFS；

④、数据导入HBase；

⑤、数据导入Hive；

⑥、数据导入ElasticSearch；

⑦、数据导入Kafka。

7.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法，其特征在于，数据清洗类型包括如下：

①、空值校验与非空校验；

②、前缀校验与后缀校验；

③、数据长度校验；

④、数值范围校验；

⑤、枚举值校验；

⑥、正则校验；

数据转换类型包括如下：

①、数据映射；

②、字符集转换；

③、数据格式转换；

④、数据拆分；

⑤、数据合并；

⑥、日期格式转换；

⑦、字符串替换；

⑧、空值替换；

⑨、字典值替换。

8.一种基于互联网监管的多数据源动态数据同步治理***，其特征在于，该***包括，

数据源管理单元，用于管理数据连接服务；

数据治理单元，用于数据治理，将每个数据处理流程定义为一个数据流作业，通过数据流作业管理数据处理流程；数据治理单元包括数据流程设计子单元、数据流程调试子单元、数据流程监控子单元以及数据流程运维子单元；

模板管理单元，用于流程迁移和复用，提供数据流模板的上传、删除和下载功能。

9.根据权利要求8所述的基于互联网监管的多数据源动态数据同步治理***，其特征在于，所述数据流程设计子单元包括，

数据加载模块，用于将数据导入各种数据存储服务；

数据清洗模块，用于对采集的数据进行校验和清洗；

数据转换模块，用于对采集的数据进行转换；

自定义模块，用于通过java代码编写实现特定功能的处理器。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1至7中所述的基于互联网监管的多数据源动态数据同步治理方法。