CN112925767A - 基于互联网监管的多数据源动态数据同步治理方法及*** - Google Patents

基于互联网监管的多数据源动态数据同步治理方法及*** Download PDF

Info

Publication number
CN112925767A
CN112925767A CN202110234138.8A CN202110234138A CN112925767A CN 112925767 A CN112925767 A CN 112925767A CN 202110234138 A CN202110234138 A CN 202110234138A CN 112925767 A CN112925767 A CN 112925767A
Authority
CN
China
Prior art keywords
data
flow
source
internet
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110234138.8A
Other languages
English (en)
Inventor
侯居永
栾丽丽
张雷
陈兆亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110234138.8A priority Critical patent/CN112925767A/zh
Publication of CN112925767A publication Critical patent/CN112925767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于互联网监管的多数据源动态数据同步治理方法及***,属于互联网+监管领域,本发明要解决的技术问题为如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心,采用的技术方案为:该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:数据源管理:管理数据连接服务;数据流程设计:将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;模板管理:流程迁移和复用。

Description

基于互联网监管的多数据源动态数据同步治理方法及***
技术领域
本发明涉及互联网+监管领域,具体地说是一种基于互联网监管的多数据源动态数据同步治理方法及***。
背景技术
当前,新一代信息技术正在快速改变着社会的生产和生活方式,数据已经成为组织和企业的核心资产,数字经济正在驱动新一轮的全球变革,企业的数字化转型已成为大数据时代的一种趋势。
互联网、大数据、人工智能和实体经济深度融合,推动各行各业的融合创新。在融合创新的时代,充分利用数据的关联、交叉和融合实现大数据的价值最大化成为各行各业实施数字化转型的关键之所在。在此背景下,跨领域、跨行业、跨地域的数据走向跨域融合,组织数据、互联网数据、物联网数据、科研数据等多源数据走向融合,结构化数据、半结构化数据、非结构化数据等超媒体数据走向融合。以大规模、多源异构、跨领域、跨媒体、跨语言、动态演化为主要特征的多源异构超媒体数据融合已经成为垂直行业和生态型企业实施数字化转型战略亟待解决的关键问题。
传统的数据仓库***中,在数据加载入库之前数据模型都是事先定义好的,它只能存放结构化的、已被处理的数据。
故如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心是目前急需解决的问题。
发明内容
本发明的技术任务是提供一种基于互联网监管的多数据源动态数据同步治理方法及***,来解决如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心的问题。
本发明的技术任务是按以下方式实现的,一种基于互联网监管的多数据源动态数据同步治理方法,该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:
数据源管理:管理数据连接服务;
数据治理:数据流程设计、数据流程调试、数据流程监控以及数据流程运维,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;
模板管理:流程迁移和复用,提供数据流模板的上传、删除和下载功能。
作为优选,数据源管理具体如下:
用户统一定义数据源连接,确保在设计数据处理流程时,能够直接引用数据源连接;
数据源连接采用连接池方式,防止占用大量数据源连接数;其中,数据源连接的类型包括如下:
①、JDBC连接类型,如MySQL、Oracle、MSSQL、DB2等各种支持JDBC的数据库;
②、FTP连接类型;
③、SFTP连接类型;
④、HDFS连接类型;
⑤、HBase连接类型;
⑥、Hive连接类型;
⑦、ElasticSearch连接类型;
⑧、Kafka连接类型;
⑨、Excel及csv等其他连接类型。
作为优选,数据流程设计具体如下:
流程分组:提供增加、删除、修改分组、启动以及停止的流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
流程树形展示:用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
可视化作业流程设计;
数据接入:提供多种数据接入处理器,用于采集各种多源异构数据,提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
数据加载:数据加载提供多种数据加载处理器,用于将数据导入各种数据存储服务;
数据清洗:数据加载提供多种数据清洗处理器,用于对采集的数据进行校验和清洗;
数据转换:数据加载提供了多种数据转换处理器,用于对采集的数据进行转换;
自定义处理器:通过java代码编写实现特定功能的处理器,该处理器加载到流程作业,实现更复杂的功能,比如数据拆分,流数据是否在数据表中等。
更优地,可视化作业流程设计具体如下:
每个数据流设计管理一个独立的画布,定义一个或多个流程节点,组成一个或多个数据流程;
在画布的工具栏提供丰富的数据处理类型,通过拖拉拽方式定义流程节点并连接各流程节点;
配置流程节点调度规则,配置流程节点属性,配置启动、停止流程或节点,配置调试和监控流程运行状态;
提供流程节点对齐、高亮展示的辅助功能;
流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。
更优地,数据接入支持的数据源包括如下:
①、通过JDBC方式采集数据,如MySQL、Oracle、DB2、各种支持JDBC的数据库;
②、通过Oracle日志采集Oracle数据,能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作;
③、通过MySQL日志采集MySQL数据,能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作;
④、采集FTP/SFTP文件数据;
⑤、采集HDFS文件数据;
⑥、采集HBase数据;
⑦、采集Hive数据;
⑧、消费Kafka数据。
更优地,数据存储服务包括如下:
①、数据导入各种支持JDBC的数据库,如MySQL、Oracle、DB2等;
②、数据导入FTP/SFTP;
③、数据导入HDFS;
④、数据导入HBase;
⑤、数据导入Hive;
⑥、数据导入ElasticSearch;
⑦、数据导入Kafka。
更优地,数据清洗类型包括如下:
①、空值校验与非空校验;
②、前缀校验与后缀校验;
③、数据长度校验;
④、数值范围校验;
⑤、枚举值校验;
⑥、正则校验;
数据转换类型包括如下:
①、数据映射;
②、字符集转换;
③、数据格式转换;
④、数据拆分;
⑤、数据合并;
⑥、日期格式转换;
⑦、字符串替换;
⑧、空值替换;
⑨、字典值替换。
一种基于互联网监管的多数据源动态数据同步治理***,该***包括,
数据源管理单元,用于管理数据连接服务;
数据治理单元,用于数据治理,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;数据治理单元包括数据流程设计子单元、数据流程调试子单元、数据流程监控子单元以及数据流程运维子单元;模板管理单元,用于流程迁移和复用,提供数据流模板的上传、删除和下载功能。
作为优选,所述数据流程设计子单元包括,
流程分组模块,用于提供增加、删除、修改分组,启动及停止流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
树形展示模块,用于用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
可视化流程设计模块,用于将流程定义、启停、调试、监控及运维的操作通过一个界面完成可视化方式完成流程设计;
数据接入模块,用于采集各种多源异构数据。提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
数据加载模块,用于将数据导入各种数据存储服务;
数据清洗模块,用于对采集的数据进行校验和清洗;
数据转换模块,用于对采集的数据进行转换;
自定义模块,用于通过java代码编写实现特定功能的处理器。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于互联网监管的多数据源动态数据同步治理方法。
本发明的基于互联网监管的多数据源动态数据同步治理方法及***具有以下优点:
(一)本发明通过对各种结构化数据、半结构化数据、非结构化数据等数据走向融合,提供一站式的数据开发环境,可视化流程设计,丰富的数据类型,智能化的任务监控,帮助用户快速构建大数据处理分析流程,低成本快速构建自己数据中心;本发明是一个易于使用、功能强大且可靠的数据处理和分发***,支持强大且可高度配置的基于有向图的数据路由、转换和***中介逻辑,支持从多种数据源动态拉取数据,充分利用数据的关联、交叉和融合实现数据的价值最大化;
(二)本发明依托浪潮互联网+监管行业多年经验和实践积累,提供可视化的任务编排能力,将多源异构数据融合、存储到大数据中心,实现了多源异构数据采集、存储、访问,帮助客户抽取整合所有相关数据,建设统一的数据中心,打破数据孤岛,实现数据互联互通,支撑数据分析洞察,释放数据价值,帮助客户完成大数据信息的转型;
(三)本发明为用户提供了可视化任务编排能力,无需安装任何客户端程序,在浏览器端通过简单的拖拉拽操作即可完成任务流程的编排、调试、启停、监控等操作;
(四)本发明内置丰富的数据开发类型,涵盖SQL、Hive、MapReduce、Spark、Streaming、Flink、Kylin、Jar、RestAPI、PySpark、机器学习、深度学习等多种数据开发类型;
(五)本发明能够提供丰富的调度配置策略与海量的作业调度能力,同时支持时间周期调度、事件驱动调度、手工调度等多种调度方式;
(六)本发明具有可视化任务编排能力,丰富的数据开发类型,丰富的调度配置策略。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于互联网监管的多数据源动态数据同步治理方法的示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于互联网监管的多数据源动态数据同步治理方法及***作以下详细地说明。
实施例1:
如附图1所示,本发明的基于互联网监管的多数据源动态数据同步治理方法,该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:
S1、数据源管理:管理数据连接服务;
S2、数据治理:数据流程设计、数据流程调试、数据流程监控以及数据流程运维,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;
S3、模板管理:流程迁移和复用,提供数据流模板的上传、删除和下载功能。其中,数据流模板包括投诉举报模板、风险预警模板、知识库模板等。
本实施例中步骤S1的数据源管理具体如下:
S101、用户统一定义数据源连接,确保在设计数据处理流程时,能够直接引用数据源连接;
S102、数据源连接采用连接池方式,防止占用大量数据源连接数;
其中,数据源连接的类型包括如下:
①、JDBC连接类型,如MySQL、Oracle、MSSQL、DB2等各种支持JDBC的数据库;
②、FTP连接类型;
③、SFTP连接类型;
④、HDFS连接类型;
⑤、HBase连接类型;
⑥、Hive连接类型;
⑦、ElasticSearch连接类型;
⑧、Kafka连接类型;
⑨、Excel及csv等其他连接类型。
本实施例中步骤S2的数据流程设计具体如下:
S201、流程分组:提供增加、删除、修改分组、启动以及停止的流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
S202、流程树形展示:用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
S203、可视化作业流程设计;
S204、数据接入:提供多种数据接入处理器,用于采集各种多源异构数据,提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
S205、数据加载:数据加载提供多种数据加载处理器,用于将数据导入各种数据存储服务;
S206、数据清洗:数据加载提供多种数据清洗处理器,用于对采集的数据进行校验和清洗;
S207、数据转换:数据加载提供了多种数据转换处理器,用于对采集的数据进行转换;
S208、自定义处理器:通过java代码编写实现特定功能的处理器,该处理器加载到流程作业,实现更复杂的功能,比如数据拆分,流数据是否在数据表中等。
本实施例中步骤S203的可视化作业流程设计具体如下:
S20301、每个数据流设计管理一个独立的画布,定义一个或多个流程节点,组成一个或多个数据流程;
S20302、在画布的工具栏提供丰富的数据处理类型,通过拖拉拽方式定义流程节点并连接各流程节点;
S20303、配置流程节点调度规则,配置流程节点属性,配置启动、停止流程或节点,配置调试和监控流程运行状态;
S20304、提供流程节点对齐、高亮展示的辅助功能;
S20305、流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。
本实施例中步骤S204的数据接入支持的数据源包括如下:
①、通过JDBC方式采集数据,如MySQL、Oracle、DB2、各种支持JDBC的数据库;
②、通过Oracle日志采集Oracle数据,能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作;
③、通过MySQL日志采集MySQL数据,能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作;
④、采集FTP/SFTP文件数据;
⑤、采集HDFS文件数据;
⑥、采集HBase数据;
⑦、采集Hive数据;
⑧、消费Kafka数据。
本实施例中步骤S205的数据存储服务包括如下:
①、数据导入各种支持JDBC的数据库,如MySQL、Oracle、DB2等;
②、数据导入FTP/SFTP;
③、数据导入HDFS;
④、数据导入HBase;
⑤、数据导入Hive;
⑥、数据导入ElasticSearch;
⑦、数据导入Kafka。
本实施例中步骤S206的数据清洗类型包括如下:
①、空值校验与非空校验;
②、前缀校验与后缀校验;
③、数据长度校验;
④、数值范围校验;
⑤、枚举值校验;
⑥、正则校验;
本实施例中步骤S207的数据转换类型包括如下:
①、数据映射;
②、字符集转换;
③、数据格式转换;
④、数据拆分;
⑤、数据合并;
⑥、日期格式转换;
⑦、字符串替换;
⑧、空值替换;
⑨、字典值替换。
实施例2:
本发明的基于互联网监管的多数据源动态数据同步治理***,该***包括,
数据源管理单元,用于管理数据连接服务;
数据治理单元,用于数据治理,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;数据治理单元包括数据流程设计子单元、数据流程调试子单元、数据流程监控子单元以及数据流程运维子单元;模板管理单元,用于流程迁移和复用,提供数据流模板的上传、删除和下载功能。
本实施例中的数据流程设计子单元包括,
流程分组模块,用于提供增加、删除、修改分组,启动及停止流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
树形展示模块,用于用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
可视化流程设计模块,用于将流程定义、启停、调试、监控及运维的操作通过一个界面完成可视化方式完成流程设计;
数据接入模块,用于采集各种多源异构数据。提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
数据加载模块,用于将数据导入各种数据存储服务;
数据清洗模块,用于对采集的数据进行校验和清洗;
数据转换模块,用于对采集的数据进行转换;
自定义模块,用于通过java代码编写实现特定功能的处理器。
实施例3:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于互联网监管的多数据源动态数据同步治理方法。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于互联网监管的多数据源动态数据同步治理方法及***M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于互联网监管的多数据源动态数据同步治理方法,其特征在于,该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:
数据源管理:管理数据连接服务;
数据治理:数据流程设计、数据流程调试、数据流程监控以及数据流程运维,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;
模板管理:流程迁移和复用,提供数据流模板的上传、删除和下载功能。
2.根据权利要求1所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据源管理具体如下:
用户统一定义数据源连接;
数据源连接采用连接池方式;其中,数据源连接的类型包括如下:
①、JDBC连接类型;
②、FTP连接类型;
③、SFTP连接类型;
④、HDFS连接类型;
⑤、HBase连接类型;
⑥、Hive连接类型;
⑦、ElasticSearch连接类型;
⑧、Kafka连接类型;
⑨、Excel及csv连接类型。
3.根据权利要求1所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据流程设计具体如下:
流程分组:提供增加、删除、修改分组、启动以及停止的流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
流程树形展示:用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
可视化作业流程设计;
数据接入:提供多种数据接入处理器,用于采集各种多源异构数据,提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
数据加载:数据加载提供多种数据加载处理器,用于将数据导入各种数据存储服务;
数据清洗:数据加载提供多种数据清洗处理器,用于对采集的数据进行校验和清洗;
数据转换:数据加载提供了多种数据转换处理器,用于对采集的数据进行转换;
自定义处理器:通过java代码编写实现特定功能的处理器,该处理器加载到流程作业。
4.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,可视化作业流程设计具体如下:
每个数据流设计管理一个独立的画布,定义一个或多个流程节点,组成一个或多个数据流程;
在画布的工具栏提供丰富的数据处理类型,通过拖拉拽方式定义流程节点并连接各流程节点;
配置流程节点调度规则,配置流程节点属性,配置启动、停止流程或节点,配置调试和监控流程运行状态;
提供流程节点对齐、高亮展示的辅助功能;
流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。
5.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据接入支持的数据源包括如下:
①、通过JDBC方式采集数据;
②、通过Oracle日志采集Oracle数据,能够采集数据库INSERT、UPDATE及DELETE的所有数据操作;
③、通过MySQL日志采集MySQL数据,能够采集数据库INSERT、UPDATE及DELETE的所有数据操作;
④、采集FTP/SFTP文件数据;
⑤、采集HDFS文件数据;
⑥、采集HBase数据;
⑦、采集Hive数据;
⑧、消费Kafka数据。
6.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据存储服务包括如下:
①、数据导入各种支持JDBC的数据库,如MySQL、Oracle、DB2等;
②、数据导入FTP/SFTP;
③、数据导入HDFS;
④、数据导入HBase;
⑤、数据导入Hive;
⑥、数据导入ElasticSearch;
⑦、数据导入Kafka。
7.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据清洗类型包括如下:
①、空值校验与非空校验;
②、前缀校验与后缀校验;
③、数据长度校验;
④、数值范围校验;
⑤、枚举值校验;
⑥、正则校验;
数据转换类型包括如下:
①、数据映射;
②、字符集转换;
③、数据格式转换;
④、数据拆分;
⑤、数据合并;
⑥、日期格式转换;
⑦、字符串替换;
⑧、空值替换;
⑨、字典值替换。
8.一种基于互联网监管的多数据源动态数据同步治理***,其特征在于,该***包括,
数据源管理单元,用于管理数据连接服务;
数据治理单元,用于数据治理,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;数据治理单元包括数据流程设计子单元、数据流程调试子单元、数据流程监控子单元以及数据流程运维子单元;
模板管理单元,用于流程迁移和复用,提供数据流模板的上传、删除和下载功能。
9.根据权利要求8所述的基于互联网监管的多数据源动态数据同步治理***,其特征在于,所述数据流程设计子单元包括,
流程分组模块,用于提供增加、删除、修改分组,启动及停止流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
树形展示模块,用于用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
可视化流程设计模块,用于将流程定义、启停、调试、监控及运维的操作通过一个界面完成可视化方式完成流程设计;
数据接入模块,用于采集各种多源异构数据。提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
数据加载模块,用于将数据导入各种数据存储服务;
数据清洗模块,用于对采集的数据进行校验和清洗;
数据转换模块,用于对采集的数据进行转换;
自定义模块,用于通过java代码编写实现特定功能的处理器。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中所述的基于互联网监管的多数据源动态数据同步治理方法。
CN202110234138.8A 2021-03-03 2021-03-03 基于互联网监管的多数据源动态数据同步治理方法及*** Pending CN112925767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110234138.8A CN112925767A (zh) 2021-03-03 2021-03-03 基于互联网监管的多数据源动态数据同步治理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110234138.8A CN112925767A (zh) 2021-03-03 2021-03-03 基于互联网监管的多数据源动态数据同步治理方法及***

Publications (1)

Publication Number Publication Date
CN112925767A true CN112925767A (zh) 2021-06-08

Family

ID=76173125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110234138.8A Pending CN112925767A (zh) 2021-03-03 2021-03-03 基于互联网监管的多数据源动态数据同步治理方法及***

Country Status (1)

Country Link
CN (1) CN112925767A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114296417A (zh) * 2022-03-11 2022-04-08 中国人民解放军海军工程大学 多源数据高效融合的通用流程控制***
CN116882826A (zh) * 2023-07-14 2023-10-13 广东东方思维科技有限公司 一种基于物联网的公路工程质量管理***及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及***
CN109739922A (zh) * 2019-01-10 2019-05-10 江苏徐工信息技术股份有限公司 一种工业数据智能分析***
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***
CN111857659A (zh) * 2020-06-30 2020-10-30 太极计算机股份有限公司 一种异构数据源拖拽的数据可视化设计平台
CN111880837A (zh) * 2020-07-21 2020-11-03 上海伯俊软件科技有限公司 一种支持动态扩展及可视化配置的业务流程引擎***
CN111917887A (zh) * 2020-08-17 2020-11-10 普元信息技术股份有限公司 大数据环境下实现数据治理的***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及***
CN109739922A (zh) * 2019-01-10 2019-05-10 江苏徐工信息技术股份有限公司 一种工业数据智能分析***
CN111857659A (zh) * 2020-06-30 2020-10-30 太极计算机股份有限公司 一种异构数据源拖拽的数据可视化设计平台
CN111880837A (zh) * 2020-07-21 2020-11-03 上海伯俊软件科技有限公司 一种支持动态扩展及可视化配置的业务流程引擎***
CN111917887A (zh) * 2020-08-17 2020-11-10 普元信息技术股份有限公司 大数据环境下实现数据治理的***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114296417A (zh) * 2022-03-11 2022-04-08 中国人民解放军海军工程大学 多源数据高效融合的通用流程控制***
CN114296417B (zh) * 2022-03-11 2022-07-29 中国人民解放军海军工程大学 多源数据高效融合的通用流程控制***
CN116882826A (zh) * 2023-07-14 2023-10-13 广东东方思维科技有限公司 一种基于物联网的公路工程质量管理***及方法
CN116882826B (zh) * 2023-07-14 2024-05-03 广东东方思维科技有限公司 一种基于物联网的公路工程质量管理***及方法

Similar Documents

Publication Publication Date Title
CN109445802B (zh) 基于容器的私有化Paas平台及其发布应用的方法
CN111061788B (zh) 一种基于云架构的多源异构数据转换整合***及其实现方法
CN108804630B (zh) 一种面向行业应用的大数据智能分析服务***
CN111752959B (zh) 一种实时数据库跨库sql交互方法和***
US11256755B2 (en) Tag mapping process and pluggable framework for generating algorithm ensemble
CN111324610A (zh) 一种数据同步的方法及装置
CN101980207B (zh) 一种数据库访问的实现方法和***
CN105320680A (zh) 一种数据同步方法及装置
CN109408493A (zh) 一种数据源的迁移方法及***
US10949218B2 (en) Generating an execution script for configuration of a system
CN108171528B (zh) 一种归因方法及归因***
CN102467532A (zh) 一种任务处理方法以及任务处理装置
CN112148788A (zh) 异构数据源的数据同步方法及***
CN108874924A (zh) 搜索服务的创建方法、装置及计算机可读存储介质
CN112925767A (zh) 基于互联网监管的多数据源动态数据同步治理方法及***
CN113282795B (zh) 数据结构图生成及更新方法、装置、电子设备及存储介质
CN103268226A (zh) 一种测试脚本文件生成方法及装置
CN110866029A (zh) sql语句构建方法、装置、服务器及可读存储介质
US10747941B2 (en) Tag mapping process and pluggable framework for generating algorithm ensemble
CN108427709A (zh) 一种多源海量数据处理***及方法
CN105573763A (zh) 一种支持rtos的嵌入式***建模方法
CN110007905A (zh) 一种基于大数据的软件开发方案的生成方法及***
CN111143408B (zh) 一种基于业务规则的事件处理方法和装置
CN117314139A (zh) 业务流程的建模方法、装置、终端设备及存储介质
CN112860653A (zh) 一种政务信息资源目录管理方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608

RJ01 Rejection of invention patent application after publication