CN110263052A - 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 - Google Patents

一种基于大数据Hadoop平台ODS自动化同步技术创新方法 Download PDF

Info

Publication number
CN110263052A
CN110263052A CN201910552169.0A CN201910552169A CN110263052A CN 110263052 A CN110263052 A CN 110263052A CN 201910552169 A CN201910552169 A CN 201910552169A CN 110263052 A CN110263052 A CN 110263052A
Authority
CN
China
Prior art keywords
ods
synchronous
task
big data
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910552169.0A
Other languages
English (en)
Other versions
CN110263052B (zh
Inventor
王德敏
张程
史梦丽
裴宝山
祁洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanyin Faba Consumer Finance Co.,Ltd.
Original Assignee
Suning Consumption Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Consumption Finance Co Ltd filed Critical Suning Consumption Finance Co Ltd
Priority to CN201910552169.0A priority Critical patent/CN110263052B/zh
Publication of CN110263052A publication Critical patent/CN110263052A/zh
Application granted granted Critical
Publication of CN110263052B publication Critical patent/CN110263052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:具体包含以下步骤:(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求;(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行;(3)ODS***实施自动化同步。本发明自动化实现ODS数据源新增、修改、数据同步,避免人工误操作导致的数据问题。自动化让ODS开发过程更高效,开发作业更规范,易于管理和维护,实现了版本变更到技术实现的直接映射。

Description

一种基于大数据Hadoop平台ODS自动化同步技术创新方法
技术领域
本发明涉及ODS自动化同步技术领域,具体涉及一种基于大数据Hadoop平台ODS自动化同步技术创新方法。
背景技术
随着公司业务的发展,多种合作渠道的接入、多元化业务模式的扩展以及核心***的功能优化,导致源数据频繁变更,如表结构新增、修改、***切换等。大数据仓库作为下游***,必须保证完整的业务数据同步接入上线,以快速支撑业务部门的数据分析,这无疑是个巨大的挑战。传统ODS维护方法都是花费大量的工作量和人力成本,依靠人工操作来同步数据源,步骤多且繁琐,一个环节修改失误甚至会导致数据事故,无法保证底层数据稳定可靠。在此背景下急需一种安全、可靠、高效的ODS同步方法。
发明内容
本发明所要解决的技术问题是提供一种基于大数据Hadoop平台ODS自动化同步技术创新方法。
为解决以上技术问题,本发明的技术方案为:提供一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:具体包含以下步骤:
(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求;
(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行;
(3)ODS***实施自动化同步。
进一步的,所述步骤(1)中自动获取源***表的结构变更,并发出同步表结构请求主要包括以下步骤:
①IT研发人员将涉及变更的表在每月的版本日通过页面方式上报至***,并对源***表标注标签,标签分类:常规表、中间表、临时表、备份表;
②ODS***内部每天定时自动比对ETL***和源***表结构,自动捕获异常表,并自动请求同步表结构;
③业务/开发人员或者ETL人员根据业务需求如果发现表结构不同步,通过页面操作方式向ODS***发出请求同步请求操作。
进一步的,所述步骤(1)中自动获取的结构变更的源***表包括新增表、删除表、字段长度变更、字段类型修改。
进一步的,所述所述步骤(2)中决定是立刻执行还是延期执行表结构同步的方法为:ODS***引擎自动根据预先设定的表结构的变更政策,选择合适的时间进行变更,所述变更政策为:
①通过表标签的规则来控制同步机制,如常规表正常同步,中间表和临时表不同步,备份表延迟同步,延迟时间后台配置;
②通过表的白名单和黑名单策略来控制同步机制,如白名单正常同步,黑名单不同步,灰名单延迟同步,延迟时间后台配置;
③通过制定ETL调度和ODS同步的优先级来控制同步机制,当ODS同步之前发现有对应任务实例生成或任务正在执行,延期执行表结构同步,建立任务实例依赖,待任务实例执行结束再执行表结构同步;
④当ODS同步过程中发现有对应任务实例生成,任务实例挂起,待ODS同步结束再触发任务实例继续执行;
⑤若ODS同步过程前后都没有发现对应任务实例生成,则ODS正常执行。
进一步的,所述步骤(3)中实时自动同步包括以下步骤:
①ODS***执行接入新表;
②ODS***执行表结构同步。
进一步的,所述步骤①中的ODS***执行接入新表的具体步骤包括:
A、配置新建Hive表、加入元数据管理平台;
B、新建ETL任务及配置抽数HQL,新建/修改任务流;
C、新建事件并配置任务流内的任务依赖和任务流间的事件依赖关系。
进一步的,所述步骤②中的***执行表结构同步时的具体步骤包括:
A、访问生产***,自动同步ODS表结构;
B、修改ETL任务HQL抽数脚本;
C、同步数据。
本发明和现有技术相比,产生的有益效果为:
本发明的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,自动化实现ODS数据源新增、修改、数据同步,避免人工误操作导致的数据问题。自动化让ODS开发过程更高效,开发作业更规范,易于管理和维护,实现了版本变更到技术实现的直接映射。
附图说明
为了更清晰地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于大数据Hadoop平台ODS自动化同步技术创新方法的步骤流程图。
图2为本发明的ODS***执行接入新表的流程图。
图3为本发明的ODS***执行表结构同步的流程图。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。
本发明的提供一种基于大数据Hadoop平台ODS自动化同步技术创新方法,如图1所示,具体包含以下步骤:
(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求,自动获取的结构变更的源***表包括新增表、删除表、字段长度变更、字段类型修改。自动获取源***表的结构变更,并发出同步表结构请求主要包括以下步骤:
①IT研发人员将涉及变更的表在每月的版本日通过页面方式上报至***,并对源***表标注标签,标签分类:常规表、中间表、临时表、备份表;
②ODS***内部每天定时自动比对ETL***和源***表结构,自动捕获异常表,并自动请求同步表结构;
③业务/开发人员或者ETL人员根据业务需求如果发现表结构不同步,通过页面操作方式向ODS***发出请求同步请求操作。
(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行,决定是立刻执行还是延期执行表结构同步的方法为:ODS***引擎自动根据预先设定的表结构的变更政策,选择合适的时间进行变更,所述变更政策为:
①通过表标签的规则来控制同步机制,如常规表正常同步,中间表和临时表不同步,备份表延迟同步,延迟时间后台配置;
②通过表的白名单和黑名单策略来控制同步机制,如白名单正常同步,黑名单不同步,灰名单延迟同步,延迟时间后台配置;
③通过制定ETL调度和ODS同步的优先级来控制同步机制,当ODS同步之前发现有对应任务实例生成或任务正在执行,延期执行表结构同步,建立任务实例依赖,待任务实例执行结束再执行表结构同步;
④当ODS同步过程中发现有对应任务实例生成,任务实例挂起,待ODS同步结束再触发任务实例继续执行;
⑤若ODS同步过程前后都没有发现对应任务实例生成,则ODS正常执行。
(3)ODS***实施自动化同步,实施自动同步包括以下步骤:
①ODS***执行接入新表,如图2所示,具体步骤包括:
A、配置新建Hive表、加入元数据管理平台;
B、新建ETL任务及配置抽数HQL,新建/修改任务流;
C、新建事件并配置任务流内的任务依赖和任务流间的事件依赖关系。
②ODS***执行表结构同步,如图3所示,***执行表结构同步时的具体步骤包括:
A、访问生产***,自动同步ODS表结构;
B、修改ETL任务HQL抽数脚本;
C、同步数据。
上面所述的实施例仅仅是本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计构思的前提下,本领域中普通工程技术人员对本发明的技术方案作出的各种变型和改进均应落入本发明的保护范围,本发明的请求保护的技术内容,已经全部记载在技术要求书中。

Claims (7)

1.一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:具体包含以下步骤:
(1)ODS***自动获取源***表的结构变更,并发出同步表结构请求;
(2)根据***是否请求同步表结构判断是否执行表结构同步,并决定是立刻执行还是延期执行;
(3)ODS***实施自动化同步。
2.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤(1)中自动获取源***表的结构变更,并发出同步表结构请求主要包括以下步骤:
①IT研发人员将涉及变更的表在每月的版本日通过页面方式上报至***,并对源***表标注标签,标签分类:常规表、中间表、临时表、备份表;
②ODS***内部每天定时自动比对ETL***和源***表结构,自动捕获异常表,并自动请求同步表结构;
③业务/开发人员或者ETL人员根据业务需求如果发现表结构不同步,通过页面操作方式向ODS***发出请求同步请求操作。
3.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤(1)中自动获取的结构变更的源***表包括新增表、删除表、字段长度变更、字段类型修改。
4.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述所述步骤(2)中决定是立刻执行还是延期执行表结构同步的方法为:ODS***引擎自动根据预先设定的表结构的变更政策,选择合适的时间进行变更,所述变更政策为:
①通过表标签的规则来控制同步机制,如常规表正常同步,中间表和临时表不同步,备份表延迟同步,延迟时间后台配置;
②通过表的白名单和黑名单策略来控制同步机制,如白名单正常同步,黑名单不同步,灰名单延迟同步,延迟时间后台配置;
③通过制定ETL调度和ODS同步的优先级来控制同步机制,当ODS同步之前发现有对应任务实例生成或任务正在执行,延期执行表结构同步,建立任务实例依赖,待任务实例执行结束再执行表结构同步;
④当ODS同步过程中发现有对应任务实例生成,任务实例挂起,待ODS同步结束再触发任务实例继续执行;
⑤若ODS同步过程前后都没有发现对应任务实例生成,则ODS正常执行。
5.根据权利要求1所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤(3)中实施自动同步包括以下步骤:
①ODS***执行接入新表;
②ODS***执行表结构同步。
6.根据权利要求5所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤①中的ODS***执行接入新表的具体步骤包括:
A、配置新建Hive表、加入元数据管理平台;
B、新建ETL任务及配置抽数HQL,新建/修改任务流;
C、新建事件并配置任务流内的任务依赖和任务流间的事件依赖关系。
7.根据权利要求5所述的一种基于大数据Hadoop平台ODS自动化同步技术创新方法,其特征在于:所述步骤②中的***执行表结构同步时的具体步骤包括:
A、访问生产***,自动同步ODS表结构;
B、修改ETL任务HQL抽数脚本;
C、同步数据。
CN201910552169.0A 2019-06-25 2019-06-25 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 Active CN110263052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910552169.0A CN110263052B (zh) 2019-06-25 2019-06-25 一种基于大数据Hadoop平台ODS自动化同步技术创新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910552169.0A CN110263052B (zh) 2019-06-25 2019-06-25 一种基于大数据Hadoop平台ODS自动化同步技术创新方法

Publications (2)

Publication Number Publication Date
CN110263052A true CN110263052A (zh) 2019-09-20
CN110263052B CN110263052B (zh) 2021-07-20

Family

ID=67921073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910552169.0A Active CN110263052B (zh) 2019-06-25 2019-06-25 一种基于大数据Hadoop平台ODS自动化同步技术创新方法

Country Status (1)

Country Link
CN (1) CN110263052B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110040727A1 (en) * 2009-08-11 2011-02-17 At&T Intellectual Property I, L.P. Minimizing staleness in real-time data warehouses
CN103699580A (zh) * 2013-12-03 2014-04-02 中铁程科技有限责任公司 数据库同步方法及装置
CN104937582A (zh) * 2013-02-27 2015-09-23 惠普发展公司,有限责任合伙企业 数据同步
US20160335305A1 (en) * 2015-05-14 2016-11-17 Walleye Software, LLC Computer data system data source refreshing using an update propagation graph
CN106599061A (zh) * 2016-11-16 2017-04-26 成都九洲电子信息***股份有限公司 基于SQLite的嵌入式数据库同步方法
CN108470228A (zh) * 2017-02-22 2018-08-31 国网能源研究院 财务数据稽核方法及稽核***
CN109101622A (zh) * 2018-08-10 2018-12-28 北京奇虎科技有限公司 数据同步方法、装置、计算设备及计算机存储介质
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN109271444A (zh) * 2018-08-10 2019-01-25 武汉达梦数据库有限公司 一种基于触发器的表级双向同步实现方法和***
US20190037019A1 (en) * 2015-05-27 2019-01-31 University Of Utah Research Foundation Agent for healthcare data application delivery
CN109885581A (zh) * 2019-03-14 2019-06-14 苏州达家迎信息技术有限公司 数据库的同步方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110040727A1 (en) * 2009-08-11 2011-02-17 At&T Intellectual Property I, L.P. Minimizing staleness in real-time data warehouses
CN104937582A (zh) * 2013-02-27 2015-09-23 惠普发展公司,有限责任合伙企业 数据同步
CN103699580A (zh) * 2013-12-03 2014-04-02 中铁程科技有限责任公司 数据库同步方法及装置
US20160335305A1 (en) * 2015-05-14 2016-11-17 Walleye Software, LLC Computer data system data source refreshing using an update propagation graph
US20190037019A1 (en) * 2015-05-27 2019-01-31 University Of Utah Research Foundation Agent for healthcare data application delivery
CN106599061A (zh) * 2016-11-16 2017-04-26 成都九洲电子信息***股份有限公司 基于SQLite的嵌入式数据库同步方法
CN108470228A (zh) * 2017-02-22 2018-08-31 国网能源研究院 财务数据稽核方法及稽核***
CN109101622A (zh) * 2018-08-10 2018-12-28 北京奇虎科技有限公司 数据同步方法、装置、计算设备及计算机存储介质
CN109271444A (zh) * 2018-08-10 2019-01-25 武汉达梦数据库有限公司 一种基于触发器的表级双向同步实现方法和***
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN109885581A (zh) * 2019-03-14 2019-06-14 苏州达家迎信息技术有限公司 数据库的同步方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LI XIN-YU等: "Research of data synchronization for P2P-based collaborative design systems", 《COMPUTER ENGINEERING》 *
QU,WEIPING等: "On-Demand Snapshot Maintenance in Data Warehouses Using Incremental ETL Pipeline", 《TRANSACTIONS ON LARGE-SCALE DATA- AND KNOWLEDGE-CENTERED SYSTEMS XXXII》 *
WENG,NIANLONG等: "Scalable Parallel Join for Huge Tables", 《2013 IEEE INTERNATIONAL CONGRESS ON BIG DATA》 *
江城: "基于RFID的车辆出入控制***设计与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *
罗朝宇等: "内蒙古电力数据中心的建设分析", 《内蒙古电力技术》 *

Also Published As

Publication number Publication date
CN110263052B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN105740418B (zh) 一种基于文件监控和消息推送的实时同步***
CN103617176B (zh) 一种实现多源异构数据资源自动同步的方法
CN102638566B (zh) 一种基于云存储的blog***运行方法
CN102034152B (zh) 基于soa架构的异构软件***数据的集成整合方法与***
CN104834582B (zh) 一种监控事件展示方法
CN105843182A (zh) 一种基于oms的电力调度事故预案***及方法
CN103532749B (zh) 一种主站信息管理***
CN107797767A (zh) 一种基于容器技术部署分布式存储***及其存储方法
CN101350009A (zh) 一种协同文档编写***
CN108259562A (zh) 一种基于多端点的数据同步方法及装置
CN102508886B (zh) 一种基于xml的空间数据增量同步更新方法
CN107786355A (zh) 一种智慧城市信息共享的方法和装置
CN115374102A (zh) 数据处理方法及***
CN101997714A (zh) 时间处理方法、装置和***
CN104462185A (zh) 一种基于混合结构的数字图书馆云存储***
CN104504160A (zh) 基于SSH框架的Excel文档在线批量写入方法
CN105159831A (zh) 一种软件代码质量自动监控方法
CN107203642A (zh) 一种数据同步方法和装置
CN104519078A (zh) 实现云存储的方法与装置
CN106095959A (zh) 一种数据采集方法、装置及***
CN105227379A (zh) 一种针对java web 应用的集中监控和预警方法
CN107704550A (zh) 文件迁移方法、装置以及计算机可读存储介质
CN111143468B (zh) 基于mpp分布式技术的多数据库数据管理方法
CN103390252B (zh) 一种调度中心与智能变电站图形信息交互方法
CN104298761A (zh) 一种异构软件***间主数据匹配的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No.88, Huaihai Road, Qinhuai District, Nanjing, Jiangsu 210001

Patentee after: Nanyin Faba Consumer Finance Co.,Ltd.

Address before: No.88, Huaihai Road, Qinhuai District, Nanjing, Jiangsu 210001

Patentee before: SUNING CONSUMER FINANCE Co.,Ltd.

CP01 Change in the name or title of a patent holder