CN110263052B - 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 - Google Patents
一种基于大数据Hadoop平台ODS自动化同步技术创新方法 Download PDFInfo
- Publication number
- CN110263052B CN110263052B CN201910552169.0A CN201910552169A CN110263052B CN 110263052 B CN110263052 B CN 110263052B CN 201910552169 A CN201910552169 A CN 201910552169A CN 110263052 B CN110263052 B CN 110263052B
- Authority
- CN
- China
- Prior art keywords
- ods
- synchronization
- table structure
- task
- automatically
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:具体包含以下步骤:(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求;(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行;(3)ODS***实施自动化同步。本发明自动化实现ODS数据源新增、修改、数据同步,避免人工误操作导致的数据问题。自动化让ODS开发过程更高效,开发作业更规范,易于管理和维护,实现了版本变更到技术实现的直接映射。
Description
技术领域
本发明涉及ODS自动化同步技术领域,具体涉及一种基于大数据Hadoop平台ODS自动化同步技术创新方法。
背景技术
随着公司业务的发展,多种合作渠道的接入、多元化业务模式的扩展以及核心***的功能优化,导致源数据频繁变更,如表结构新增、修改、***切换等。大数据仓库作为下游***,必须保证完整的业务数据同步接入上线,以快速支撑业务部门的数据分析,这无疑是个巨大的挑战。传统ODS维护方法都是花费大量的工作量和人力成本,依靠人工操作来同步数据源,步骤多且繁琐,一个环节修改失误甚至会导致数据事故,无法保证底层数据稳定可靠。在此背景下急需一种安全、可靠、高效的ODS同步方法。
发明内容
本发明所要解决的技术问题是提供一种基于大数据Hadoop平台ODS自动化同步技术创新方法。
为解决以上技术问题,本发明的技术方案为:提供一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:具体包含以下步骤:
(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求;
(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行;
(3)ODS***实施自动化同步。
进一步的,所述步骤(1)中自动获取源***表的结构变更,并发出同步表结构请求主要包括以下步骤:
①IT研发人员将涉及变更的表在每月的版本日通过页面方式上报至***,并对源***表标注标签,标签分类:常规表、中间表、临时表、备份表;
②ODS***内部每天定时自动比对ETL***和源***表结构,自动捕获异常表,并自动请求同步表结构;
③业务/开发人员或者ETL人员根据业务需求如果发现表结构不同步,通过页面操作方式向ODS***发出请求同步请求操作。
进一步的,所述步骤(1)中自动获取的结构变更的源***表包括新增表、删除表、字段长度变更、字段类型修改。
进一步的,所述所述步骤(2)中决定是立刻执行还是延期执行表结构同步的方法为:ODS***引擎自动根据预先设定的表结构的变更政策,选择合适的时间进行变更,所述变更政策为:
①通过表标签的规则来控制同步机制,如常规表正常同步,中间表和临时表不同步,备份表延迟同步,延迟时间后台配置;
②通过表的白名单和黑名单策略来控制同步机制,如白名单正常同步,黑名单不同步,灰名单延迟同步,延迟时间后台配置;
③通过制定ETL调度和ODS同步的优先级来控制同步机制,当ODS同步之前发现有对应任务实例生成或任务正在执行,延期执行表结构同步,建立任务实例依赖,待任务实例执行结束再执行表结构同步;
④当ODS同步过程中发现有对应任务实例生成,任务实例挂起,待ODS同步结束再触发任务实例继续执行;
⑤若ODS同步过程前后都没有发现对应任务实例生成,则ODS正常执行。
进一步的,所述步骤(3)中实时自动同步包括以下步骤:
①ODS***执行接入新表;
②ODS***执行表结构同步。
进一步的,所述步骤①中的ODS***执行接入新表的具体步骤包括:
A、配置新建Hive表、加入元数据管理平台;
B、新建ETL任务及配置抽数HQL,新建/修改任务流;
C、新建事件并配置任务流内的任务依赖和任务流间的事件依赖关系。
进一步的,所述步骤②中的***执行表结构同步时的具体步骤包括:
A、访问生产***,自动同步ODS表结构;
B、修改ETL任务HQL抽数脚本;
C、同步数据。
本发明和现有技术相比,产生的有益效果为:
本发明的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,自动化实现ODS数据源新增、修改、数据同步,避免人工误操作导致的数据问题。自动化让ODS开发过程更高效,开发作业更规范,易于管理和维护,实现了版本变更到技术实现的直接映射。
附图说明
为了更清晰地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于大数据Hadoop平台ODS自动化同步技术创新方法的步骤流程图。图2为本发明的ODS***执行接入新表的流程图。
图3为本发明的ODS***执行表结构同步的流程图。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。
本发明的提供一种基于大数据Hadoop平台ODS自动化同步技术创新方法,如图1所示,具体包含以下步骤:
(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求,自动获取的结构变更的源***表包括新增表、删除表、字段长度变更、字段类型修改。自动获取源***表的结构变更,并发出同步表结构请求主要包括以下步骤:
①IT研发人员将涉及变更的表在每月的版本日通过页面方式上报至***,并对源***表标注标签,标签分类:常规表、中间表、临时表、备份表;
②ODS***内部每天定时自动比对ETL***和源***表结构,自动捕获异常表,并自动请求同步表结构;
③业务/开发人员或者ETL人员根据业务需求如果发现表结构不同步,通过页面操作方式向ODS***发出请求同步请求操作。
(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行,决定是立刻执行还是延期执行表结构同步的方法为:ODS***引擎自动根据预先设定的表结构的变更政策,选择合适的时间进行变更,所述变更政策为:
①通过表标签的规则来控制同步机制,如常规表正常同步,中间表和临时表不同步,备份表延迟同步,延迟时间后台配置;
②通过表的白名单和黑名单策略来控制同步机制,如白名单正常同步,黑名单不同步,灰名单延迟同步,延迟时间后台配置;
③通过制定ETL调度和ODS同步的优先级来控制同步机制,当ODS同步之前发现有对应任务实例生成或任务正在执行,延期执行表结构同步,建立任务实例依赖,待任务实例执行结束再执行表结构同步;
④当ODS同步过程中发现有对应任务实例生成,任务实例挂起,待ODS同步结束再触发任务实例继续执行;
⑤若ODS同步过程前后都没有发现对应任务实例生成,则ODS正常执行。
(3)ODS***实施自动化同步,实施自动同步包括以下步骤:
①ODS***执行接入新表,如图2所示,具体步骤包括:
A、配置新建Hive表、加入元数据管理平台;
B、新建ETL任务及配置抽数HQL,新建/修改任务流;
C、新建事件并配置任务流内的任务依赖和任务流间的事件依赖关系。
②ODS***执行表结构同步,如图3所示,***执行表结构同步时的具体步骤包括:
A、访问生产***,自动同步ODS表结构;
B、修改ETL任务HQL抽数脚本;
C、同步数据。
上面所述的实施例仅仅是本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计构思的前提下,本领域中普通工程技术人员对本发明的技术方案作出的各种变型和改进均应落入本发明的保护范围,本发明的请求保护的技术内容,已经全部记载在技术要求书中。
Claims (6)
1.一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:具体包含以下步骤:
(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求;
(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行;
(3)ODS***实施自动化同步;
所述步骤(2)中决定是立刻执行还是延期执行表结构同步的方法为:ODS***引擎自动根据预先设定的表结构的变更政策,选择合适的时间进行变更,所述变更政策为:
①通过表标签的规则来控制同步机制,如常规表正常同步,中间表和临时表不同步,备份表延迟同步,延迟时间后台配置;
②通过表的白名单和黑名单策略来控制同步机制,如白名单正常同步,黑名单不同步,灰名单延迟同步,延迟时间后台配置;
③通过制定ETL调度和ODS同步的优先级来控制同步机制,当ODS同步之前发现有对应任务实例生成或任务正在执行,延期执行表结构同步,建立任务实例依赖,待任务实例执行结束再执行表结构同步;
④当ODS同步过程中发现有对应任务实例生成,任务实例挂起,待ODS同步结束再触发任务实例继续执行;
⑤若ODS同步过程前后都没有发现对应任务实例生成,则ODS正常执行。
2.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤(1)中自动获取源***表的结构变更,并发出同步表结构请求主要包括以下步骤:
①IT研发人员将涉及变更的表在每月的版本日通过页面方式上报至***,并对源***表标注标签,标签分类:常规表、中间表、临时表、备份表;
②ODS***内部每天定时自动比对ETL***和源***表结构,自动捕获异常表,并自动请求同步表结构;
③业务/开发人员或者ETL人员根据业务需求如果发现表结构不同步,通过页面操作方式向ODS***发出请求同步请求操作。
3.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤(1)中自动获取的结构变更的源***表包括新增表、删除表、字段长度变更、字段类型修改。
4.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤(3)中实施自动同步包括以下步骤:
①ODS***执行接入新表;
②ODS***执行表结构同步。
5.根据权利要求4所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤①中的ODS***执行接入新表的具体步骤包括:
A、配置新建Hive表、加入元数据管理平台;
B、新建ETL任务及配置抽数HQL,新建/修改任务流;
C、新建事件并配置任务流内的任务依赖和任务流间的事件依赖关系。
6.根据权利要求4所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤②中的***执行表结构同步时的具体步骤包括:
A、访问生产***,自动同步ODS表结构;
B、修改ETL任务HQL抽数脚本;
C、同步数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552169.0A CN110263052B (zh) | 2019-06-25 | 2019-06-25 | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552169.0A CN110263052B (zh) | 2019-06-25 | 2019-06-25 | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110263052A CN110263052A (zh) | 2019-09-20 |
CN110263052B true CN110263052B (zh) | 2021-07-20 |
Family
ID=67921073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910552169.0A Active CN110263052B (zh) | 2019-06-25 | 2019-06-25 | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263052B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699580A (zh) * | 2013-12-03 | 2014-04-02 | 中铁程科技有限责任公司 | 数据库同步方法及装置 |
CN106599061A (zh) * | 2016-11-16 | 2017-04-26 | 成都九洲电子信息***股份有限公司 | 基于SQLite的嵌入式数据库同步方法 |
CN108470228A (zh) * | 2017-02-22 | 2018-08-31 | 国网能源研究院 | 财务数据稽核方法及稽核*** |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109885581A (zh) * | 2019-03-14 | 2019-06-14 | 苏州达家迎信息技术有限公司 | 数据库的同步方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8856071B2 (en) * | 2009-08-11 | 2014-10-07 | At&T Intellectual Property I, L.P. | Minimizing staleness in real-time data warehouses |
BR112015018368B1 (pt) * | 2013-02-27 | 2022-08-02 | Hewlett-Packard Development Company, L.P. | Método, sistema e meio legível por computador para sincronizar dados |
US9805084B2 (en) * | 2015-05-14 | 2017-10-31 | Walleye Software, LLC | Computer data system data source refreshing using an update propagation graph |
US20160350482A1 (en) * | 2015-05-27 | 2016-12-01 | University Of Utah Research Foundation | Agent for healthcare data application delivery |
CN109101622A (zh) * | 2018-08-10 | 2018-12-28 | 北京奇虎科技有限公司 | 数据同步方法、装置、计算设备及计算机存储介质 |
CN109271444A (zh) * | 2018-08-10 | 2019-01-25 | 武汉达梦数据库有限公司 | 一种基于触发器的表级双向同步实现方法和*** |
-
2019
- 2019-06-25 CN CN201910552169.0A patent/CN110263052B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699580A (zh) * | 2013-12-03 | 2014-04-02 | 中铁程科技有限责任公司 | 数据库同步方法及装置 |
CN106599061A (zh) * | 2016-11-16 | 2017-04-26 | 成都九洲电子信息***股份有限公司 | 基于SQLite的嵌入式数据库同步方法 |
CN108470228A (zh) * | 2017-02-22 | 2018-08-31 | 国网能源研究院 | 财务数据稽核方法及稽核*** |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN109885581A (zh) * | 2019-03-14 | 2019-06-14 | 苏州达家迎信息技术有限公司 | 数据库的同步方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
On-Demand Snapshot Maintenance in Data Warehouses Using Incremental ETL Pipeline;Qu,Weiping等;《TRANSACTIONS ON LARGE-SCALE DATA- AND KNOWLEDGE-CENTERED SYSTEMS XXXII》;20171231;全文 * |
Scalable Parallel Join for Huge Tables;Weng,Nianlong等;《2013 IEEE INTERNATIONAL CONGRESS ON BIG DATA》;20131231;全文 * |
内蒙古电力数据中心的建设分析;罗朝宇等;《内蒙古电力技术》;20130630(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110263052A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11379428B2 (en) | Synchronization of client machines with a content management system repository | |
CN108536761B (zh) | 报表数据查询方法及服务器 | |
AU2017409830B2 (en) | Multi-task scheduling method and system, application server and computer-readable storage medium | |
CN109271435B (zh) | 一种支持断点续传的数据抽取方法及*** | |
CN102638566B (zh) | 一种基于云存储的blog***运行方法 | |
CN110865997A (zh) | 一种电力***设备隐患在线识别方法及其应用平台 | |
CN115374102A (zh) | 数据处理方法及*** | |
CN111190892B (zh) | 一种数据回填中处理异常数据的方法和装置 | |
CN108009258A (zh) | 一种可在线配置的数据采集与分析平台 | |
CN109885642B (zh) | 面向全文检索的分级存储方法及装置 | |
GB2507037A (en) | Software application discovery using variable frequency file system scanning | |
CN104298761A (zh) | 一种异构软件***间主数据匹配的实现方法 | |
WO2023050713A1 (zh) | 一种容器集群和组件的管理方法、装置、***及存储介质 | |
CN111177173A (zh) | 大数据环境下实现数据同步优化处理的***及其方法 | |
CN114281757A (zh) | 一种数据库的迁移方法、***及计算机可读存储介质 | |
CN110263052B (zh) | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 | |
CN102122302A (zh) | 文档集中处理***及方法 | |
CN112817915A (zh) | 一种自动化的多产品文档统一发布展示方法 | |
CN110737506A (zh) | 一种虚拟机镜像版本管理的方法 | |
CN115455121A (zh) | 一种实时可靠的数据同步传输方法、设备及介质 | |
CN114116158A (zh) | 一种基于sd-wan***的任务调度方法及*** | |
CN110532000B (zh) | 一种用于运营发布的kbroker分布式操作***和运营发布*** | |
CN112217849B (zh) | Sd-wan***中的任务调度方法、***和计算机设备 | |
CN110245148B (zh) | 一种数据存储方法、装置、***及介质 | |
US10019462B1 (en) | System and method of hierarchical archive management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: No.88, Huaihai Road, Qinhuai District, Nanjing, Jiangsu 210001 Patentee after: Nanyin Faba Consumer Finance Co.,Ltd. Address before: No.88, Huaihai Road, Qinhuai District, Nanjing, Jiangsu 210001 Patentee before: SUNING CONSUMER FINANCE Co.,Ltd. |