CN113961625B - 一种异构大数据管理平台任务迁移方法 - Google Patents

一种异构大数据管理平台任务迁移方法 Download PDF

Info

Publication number
CN113961625B
CN113961625B CN202111256715.XA CN202111256715A CN113961625B CN 113961625 B CN113961625 B CN 113961625B CN 202111256715 A CN202111256715 A CN 202111256715A CN 113961625 B CN113961625 B CN 113961625B
Authority
CN
China
Prior art keywords
data
hive
production environment
checking whether
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111256715.XA
Other languages
English (en)
Other versions
CN113961625A (zh
Inventor
于洋
高经郡
李城军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kejie Technology Co ltd
Original Assignee
Beijing Kejie Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kejie Technology Co ltd filed Critical Beijing Kejie Technology Co ltd
Priority to CN202111256715.XA priority Critical patent/CN113961625B/zh
Publication of CN113961625A publication Critical patent/CN113961625A/zh
Application granted granted Critical
Publication of CN113961625B publication Critical patent/CN113961625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异构大数据管理平台任务迁移方法,将开发环境的元数据信息导出,通过配置的算法将开发环境的数据导入到生产环境中,然后处理生产环境哪些数据需要覆盖,哪些数据保持不变,实现在自动进行任务迁移的同时,不会出现任务反复的问题。

Description

一种异构大数据管理平台任务迁移方法
技术领域
本发明涉及数据管理技术领域,具体涉及一种异构大数据管理平台任务迁移方法。
背景技术
当前数据平台多套环境之间的调度、任务以及任务相关的表迁移的处理方法,一种是人为地在多个环境之间去手动修改,先是在开发环境中将任务测试通过之后,然后手动将任务移植到生产环境去使用,但是手动操作不能保证任务的一致性。另外一种是通过将开发环境的数据完全迁移至生产环境,这样会导致生产环境已经处理过的问题在开发环境没有处理过的时候,将开发环境的问题重新覆盖至生产环境,最终导致任务反复。
发明内容
针对现有技术的不足,本发明旨在提供一种异构大数据管理平台任务迁移方法。
为了实现上述目的,本发明采用如下技术方案:
一种异构大数据管理平台任务迁移方法,具体过程为:
将开发环境的元数据信息导出并导入至生产环境中,并在数据开始导入时,对数据进行校验,然后根据校验结果执行相应的操作;其中:
对于数据库数据,使用HiveDataBaseMerger去检验数据,检验生产环境中hive库是否存在,不存在的时候,需要提示用户去集群申请创建数据库;
对于hive表的数据,使用HiveTableMerger检验数据,检验生产环境中该hive表是否存在,如果不存在,则***该hive表;如果该hive表存在,则进一步检验要导入的该hive表相对于原有的hive表是否有修改,如果没有修改,不操作,保持数据原状,如果有修改,进一步检验该hive表是否有分区或分桶,如果有,则校验分区或者分桶信息是否有变更,如果有变更,提示用户修改,否则修改mysql保存信息;
对于hive表字段的数据,使用hiveColumnMerger检验数据,首先检验生产环境中该hive表字段是否存在,如果该hive表字段不存在,则***该hive表字段,如果存在,则进一步检验该字段是否有变化,如果有变化,则变更相应的字段,否则不操作,保持数据原状;
对于调度任务,使用SchedulerMerger检验数据,查看生产环境中该调度任务是否存在,如果不存在,***该调度任务,如果存在,则检验该调度任务的信息是否有变动,如果有变动,覆盖并修改该调度任务的状态,如果没有变动,则不操作,保持数据的原状;
进一步地,对于任务信息使用JobBaseMerger检验是否有修改,如果有修改则覆盖生产环境中原有的任务信息,没有修改则保持数据原状。
进一步地,对于主表使用MainTableMerger进行检验是否有修改,如果有修改则覆盖生产环境中原有的主表,没有修改则保持数据原状;对于与主表的唯一key具有关联关系的关联表使用RelatedMerger进行检验数据是否有修改,如果有修改则覆盖生产环境中原有的关联表,没有修改则保持数据原状。
本发明的有益效果在于:本发明方法将开发环境的元数据信息导出,通过配置的算法将开发环境的数据导入到生产环境中,然后处理生产环境哪些数据需要覆盖,哪些数据保持不变,实现在自动进行任务迁移的同时,不会出现任务反复的问题。
附图说明
图1为本发明实施例中的方法流程图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种异构大数据管理平台任务迁移方法,如图1所示,具体过程为:
将开发环境的元数据信息导出并导入至生产环境中,并在数据开始导入时,对数据进行校验,然后根据校验结果执行相应的操作;其中:
对于数据库数据,使用HiveDataBaseMerger去检验数据,检验生产环境中hive库是否存在,不存在的时候,需要提示用户去集群申请创建数据库;如果存在,则不操作;
对于hive表的数据,使用HiveTableMerger检验数据,检验生产环境中该hive表是否存在,如果不存在,则***该hive表;如果该hive表存在,则进一步检验要导入的该hive表相对于原有的hive表是否有修改,如果没有修改,不操作,保持数据原状,如果有修改,进一步检验该hive表是否有分区或分桶,如果有,则校验分区或者分桶信息是否有变更,如果有变更,提示用户修改,否则修改mysql保存信息;
对于hive表字段的数据,使用hiveColumnMerger检验数据,首先检验生产环境中该hive表字段是否存在,如果该hive表字段不存在,则***该hive表字段,如果存在,则进一步检验该字段是否有变化,如果有变化,则变更相应的字段,否则不操作,保持数据原状;
对于调度任务,使用SchedulerMerger检验数据,查看生产环境中该调度任务是否存在,如果不存在,***该调度任务,如果存在,则检验该调度任务的信息是否有变动,如果有变动,覆盖并修改该调度任务的状态,如果没有变动,则不操作,保持数据的原状;
进一步地,对于任务信息使用JobBaseMerger检验是否有修改,如果有修改则覆盖生产环境中原有的任务信息,没有修改则保持数据原状;对于主表使用MainTableMerger进行检验是否有修改,如果有修改则覆盖生产环境中原有的主表,没有修改则保持数据原状;对于与主表的唯一key具有关联关系的关联表使用RelatedMerger进行检验数据是否有修改,如果有修改则覆盖生产环境中原有的关联表,没有修改则保持数据原状。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (3)

1.一种异构大数据管理平台任务迁移方法,其特征在于,具体过程为:
将开发环境的元数据信息导出并导入至生产环境中,并在数据开始导入时,对数据进行校验,然后根据校验结果执行相应的操作;其中:
对于数据库数据,使用HiveDataBaseMerger去检验数据,检验生产环境中hive库是否存在,不存在的时候,需要提示用户去集群申请创建数据库;
对于hive表的数据,使用HiveTableMerger检验数据,检验生产环境中该hive表是否存在,如果不存在,则***该hive表;如果该hive表存在,则进一步检验要导入的该hive表相对于原有的hive表是否有修改,如果没有修改,不操作,保持数据原状,如果有修改,进一步检验该hive表是否有分区或分桶,如果有,则校验分区或者分桶信息是否有变更,如果有变更,提示用户修改,否则修改mysql保存信息;
对于hive表字段的数据,使用hiveColumnMerger检验数据,首先检验生产环境中该hive表字段是否存在,如果该hive表字段不存在,则***该hive表字段,如果存在,则进一步检验该字段是否有变化,如果有变化,则变更相应的字段,否则不操作,保持数据原状;
对于调度任务,使用SchedulerMerger检验数据,查看生产环境中该调度任务是否存在,如果不存在,***该调度任务,如果存在,则检验该调度任务的信息是否有变动,如果有变动,覆盖并修改该调度任务的状态,如果没有变动,则不操作,保持数据的原状。
2.根据权利要求1所述的方法,其特征在于,对于任务信息使用JobBaseMerger检验是否有修改,如果有修改则覆盖生产环境中原有的任务信息,没有修改则保持数据原状。
3.根据权利要求1所述的方法,其特征在于,对于主表使用MainTableMerger进行检验是否有修改,如果有修改则覆盖生产环境中原有的主表,没有修改则保持数据原状;对于与主表的唯一key具有关联关系的关联表使用RelatedMerger进行检验数据是否有修改,如果有修改则覆盖生产环境中原有的关联表,没有修改则保持数据原状。
CN202111256715.XA 2021-10-27 2021-10-27 一种异构大数据管理平台任务迁移方法 Active CN113961625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256715.XA CN113961625B (zh) 2021-10-27 2021-10-27 一种异构大数据管理平台任务迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111256715.XA CN113961625B (zh) 2021-10-27 2021-10-27 一种异构大数据管理平台任务迁移方法

Publications (2)

Publication Number Publication Date
CN113961625A CN113961625A (zh) 2022-01-21
CN113961625B true CN113961625B (zh) 2022-06-07

Family

ID=79467596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111256715.XA Active CN113961625B (zh) 2021-10-27 2021-10-27 一种异构大数据管理平台任务迁移方法

Country Status (1)

Country Link
CN (1) CN113961625B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176988A (zh) * 2011-12-21 2013-06-26 上海博腾信息科技有限公司 基于SaaS的数据迁移***
CN105740411A (zh) * 2016-01-30 2016-07-06 武汉大学 一种基于SOA和WebService的数据迁移方法
CN108241632A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种面向数据库数据迁移的数据验证方法
CN108959470A (zh) * 2018-06-20 2018-12-07 郑州云海信息技术有限公司 一种数据库数据跨平台迁移方法和装置
CN109508355A (zh) * 2018-10-19 2019-03-22 平安科技(深圳)有限公司 一种数据抽取方法、***及终端设备
CN109829009A (zh) * 2018-12-28 2019-05-31 北京邮电大学 可配置的异构数据实时同步并可视化的***及方法
CN109997125A (zh) * 2016-09-15 2019-07-09 英国天然气控股有限公司 用于将数据导入数据储存库的***
CN110069335A (zh) * 2019-05-07 2019-07-30 江苏满运软件科技有限公司 任务处理***、方法、计算机设备和存储介质
CN110505228A (zh) * 2019-08-23 2019-11-26 上海宽带技术及应用工程研究中心 基于边缘云架构的大数据处理方法、***、介质及装置
CN111930850A (zh) * 2020-09-24 2020-11-13 腾讯科技(深圳)有限公司 数据校验方法、装置、计算机设备和存储介质
US10909120B1 (en) * 2016-03-30 2021-02-02 Groupon, Inc. Configurable and incremental database migration framework for heterogeneous databases
CN112328539A (zh) * 2020-10-27 2021-02-05 深圳市赛宇景观设计工程有限公司 一种基于大数据的数据迁移方法
CN113434482A (zh) * 2021-06-28 2021-09-24 平安国际智慧城市科技股份有限公司 数据迁移方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130205028A1 (en) * 2012-02-07 2013-08-08 Rackspace Us, Inc. Elastic, Massively Parallel Processing Data Warehouse
CN103605663B (zh) * 2013-10-22 2017-02-15 芜湖大学科技园发展有限公司 通用的数据库校验及元数据导入方法
CN104573100B (zh) * 2015-01-29 2017-11-14 无锡江南计算技术研究所 一种带自增量标识的分布式数据库同步方法
CN111259006B (zh) * 2019-11-19 2023-06-27 中国科学院计算机网络信息中心 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及***
CN112035444B (zh) * 2020-09-03 2023-09-19 中国银行股份有限公司 异构***间影像数据不停机迁移方法及装置
CN113468143A (zh) * 2021-07-22 2021-10-01 咪咕数字传媒有限公司 数据迁移方法、***、计算设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176988A (zh) * 2011-12-21 2013-06-26 上海博腾信息科技有限公司 基于SaaS的数据迁移***
CN105740411A (zh) * 2016-01-30 2016-07-06 武汉大学 一种基于SOA和WebService的数据迁移方法
US10909120B1 (en) * 2016-03-30 2021-02-02 Groupon, Inc. Configurable and incremental database migration framework for heterogeneous databases
CN109997125A (zh) * 2016-09-15 2019-07-09 英国天然气控股有限公司 用于将数据导入数据储存库的***
CN108241632A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种面向数据库数据迁移的数据验证方法
CN108959470A (zh) * 2018-06-20 2018-12-07 郑州云海信息技术有限公司 一种数据库数据跨平台迁移方法和装置
CN109508355A (zh) * 2018-10-19 2019-03-22 平安科技(深圳)有限公司 一种数据抽取方法、***及终端设备
CN109829009A (zh) * 2018-12-28 2019-05-31 北京邮电大学 可配置的异构数据实时同步并可视化的***及方法
CN110069335A (zh) * 2019-05-07 2019-07-30 江苏满运软件科技有限公司 任务处理***、方法、计算机设备和存储介质
CN110505228A (zh) * 2019-08-23 2019-11-26 上海宽带技术及应用工程研究中心 基于边缘云架构的大数据处理方法、***、介质及装置
CN111930850A (zh) * 2020-09-24 2020-11-13 腾讯科技(深圳)有限公司 数据校验方法、装置、计算机设备和存储介质
CN112328539A (zh) * 2020-10-27 2021-02-05 深圳市赛宇景观设计工程有限公司 一种基于大数据的数据迁移方法
CN113434482A (zh) * 2021-06-28 2021-09-24 平安国际智慧城市科技股份有限公司 数据迁移方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hive关于merge的几个参数;阿里云开发者社区;《https://developer.aliyun.com/article/476804》;20171115;1-4 *
Hive学习之路(一)Hive初识;扎心了,老铁;《https://www.cnblogs.com/qingyunzong/p/8707885.html》;20180403;1-9 *
基于Hadoop平台的服务调度管理***设计与实现;胡静;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190115(第12期);I138-301 *

Also Published As

Publication number Publication date
CN113961625A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
US20180081717A1 (en) Hashing data-processing steps in workflow environments
CN106603264A (zh) 一种定位故障根源的方法和设备
CN106777101B (zh) 数据处理引擎
CN105446799A (zh) 一种计算机***中进行规则管理的方法及***
CN107168758A (zh) 多代码库的代码编译检查方法及装置
CN116483586B (zh) 一种基于动态数组的数据高效处理方法
CN109005198A (zh) 一种控制器防攻击安全策略生成方法及***
CN112181477A (zh) 复杂事件处理方法、装置及终端设备
CN107621963A (zh) 一种软件部署方法、软件部署***及电子设备
CN105528381A (zh) 数据库数据迁移方法及***
CN113961625B (zh) 一种异构大数据管理平台任务迁移方法
CN106708902A (zh) 数据库数据迁移方法及***
CN116540638B (zh) 后置处理cam数控加工程序的方法、装置和存储介质
CN105630778A (zh) 数据库数据迁移方法及***
US9442698B2 (en) Migration between model elements of different types in a modeling environment
CN109902085B (zh) 一种配置存储结构优化方法及***
CN117076563A (zh) 一种应用于区块链的剪枝方法和装置
CN116627609A (zh) 基于Hive批处理的调度方法及装置
CN109165325A (zh) 用于切分图数据的方法、装置、设备以及计算机可读存储介质
CN111538715B (zh) 一种风控方案的迁移方法、装置及电子设备
CN114116503A (zh) 一种测试方法、装置、电子设备及存储介质
CN114840418A (zh) 模糊测试方法及装置
CN113010290A (zh) 一种任务管理方法、装置、设备及存储介质
CN117271459B (zh) 一种基于共享数据库的数据处理方法
CN110736920A (zh) 一种基于工程管理测试脚本的卡片测试方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant