CN113934786A - 一种构建统一etl的实施方法 - Google Patents

一种构建统一etl的实施方法 Download PDF

Info

Publication number
CN113934786A
CN113934786A CN202111147981.9A CN202111147981A CN113934786A CN 113934786 A CN113934786 A CN 113934786A CN 202111147981 A CN202111147981 A CN 202111147981A CN 113934786 A CN113934786 A CN 113934786A
Authority
CN
China
Prior art keywords
data
etl
page
processing
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111147981.9A
Other languages
English (en)
Other versions
CN113934786B (zh
Inventor
李源
刘方文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202111147981.9A priority Critical patent/CN113934786B/zh
Publication of CN113934786A publication Critical patent/CN113934786A/zh
Application granted granted Critical
Publication of CN113934786B publication Critical patent/CN113934786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种构建统一ETL的实施方法,涉及决策分析***的建设领域,分析数据源的数据内在逻辑结构,根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,测试脚本并调整处理规则,完成构建ETL。

Description

一种构建统一ETL的实施方法
技术领域
本发明公开一种方法,涉及决策分析***的建设领域,具体地说是一种构建统一ETL的实施方法。
背景技术
随着大数据时代的蓬勃发展,决策分析***建设质量要求不断提高,高效高质量的ETL***直接关系到决策分析***建设的成败。***实施过程中数据需求指标灵活易变,业务逻辑规则纷繁复杂,数据处理规则零碎具体,但数据开发人员缺乏统一的技术规范及人员频繁流动,容易导致决策分析***因ETL实施缺乏质量把控而效率低下,并且准确性无法保证。
发明内容
本发明针对现有技术的问题,提供一种构建统一ETL的实施方法,可在OLAP***的建设实施中,统一地设计和实现ETL数据处理,节约人力开发成本的同时提高开发质量,统一开发规范,让数据处理过程更加规范高效统一。
本发明提出的具体方案是:
一种构建统一ETL的实施方法,分析数据源的数据内在逻辑结构,
根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,
设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,
根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,
测试脚本并调整处理规则,完成构建ETL。
进一步,所述的一种构建统一ETL的实施方法中所述分析数据源的数据内在逻辑结构之前,包括:
爬取数据源,所述爬取数据源是指只采集网页的列表页数据或采集列表页和翻页数据或者采集列表页、翻页及详情页数据。
进一步,所述的一种构建统一ETL的实施方法中所述分析数据源的数据内在逻辑结构,包括:
判断列表页和翻页数据的逻辑结构是否一致,
判断数据合并后是否存在重复情况,
分析梳理列表页和详情页之间或者翻页与详情页之间的关联关系。
进一步,所述的一种构建统一ETL的实施方法中所述梳理业务规则,包括:
根据源数据的数据内在逻辑结构与业务上的唯一性要求确定数据业务的唯一键,
完成数据统一视图的整合机制,
保证各业务数据之间的逻辑关联性。
进一步,所述的一种构建统一ETL的实施方法中根据所述测试脚本的测试结果,调整处理规则,根据调整后的处理规则生成更新的ETL脚本,迭代优化ETL。
一种构建统一ETL的实施***,包括分析整理模块及生成模块,
分析整理模块分析数据源的数据内在逻辑结构,
根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,
设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,
生成模块根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,
测试脚本并调整处理规则,完成构建ETL。
进一步,所述的一种构建统一ETL的实施***中还包括爬取模块,在分析数据源的数据内在逻辑结构之前,爬取模块爬取数据源,所述爬取数据源是指只采集网页的列表页数据或采集列表页和翻页数据或者采集列表页、翻页及详情页数据。
进一步,所述的一种构建统一ETL的实施***中分析整理模块分析数据源的数据内在逻辑结构,包括:
判断列表页和翻页数据的逻辑结构是否一致,
判断数据合并后是否存在重复情况,
分析梳理列表页和详情页之间或者翻页与详情页之间的关联关系。
进一步,所述的一种构建统一ETL的实施***中分析整理模块梳理业务规则,包括:
根据源数据的数据内在逻辑结构与业务上的唯一性要求确定数据业务的唯一键,
完成数据统一视图的整合机制,
保证各业务数据之间的逻辑关联性。
进一步,所述的一种构建统一ETL的实施***中生成模块根据所述测试脚本的测试结果,调整处理规则,根据调整后的处理规则生成更新的ETL脚本,迭代优化ETL。
本发明的有益之处是:
本发明提供一种构建统一ETL的实施方法,在实施的过程中保证业务逻辑规则的统一梳理、数据映射的统一设计、处理规则的统一开发、ETL脚本地统一生成;保证从业务需求到实施落地骤统一、质量检查、开发规范从而高质量地完成决策分析***的搭建。
附图说明
图1是本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供一种构建统一ETL的实施方法,分析数据源的数据内在逻辑结构,
根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,
设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,
根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,
测试脚本并调整处理规则,完成构建ETL。
能够在OLAP***的建设实施中,统一地设计和实现ETL数据处理,节约人力开发成本的同时提高开发质量,统一开发规范,让数据处理过程更加规范高效统一。
具体应用中,在本发明的一些实施例中构建统一ETL的实施时,具体过程如下:
分析数据源的数据内在逻辑结构,其中在分析数据源的数据内在逻辑结构之前,以企业数据的天眼查网站网络爬虫数据为例,爬取源数据,主要包含三种情形,;一是数据只采集网页的列表页数据,二是数据采集了列表页和翻页数据,三是数据采集了列表页/翻页/详情页数据,
分析数据源的数据内在逻辑结构时,包括:
判断列表页和翻页数据的逻辑结构是否一致,若一致的,这说明两部分数据在逻辑上可以做集合UNION操作,
判断数据合并后是否存在重复情况,可以适当删除重复数据,
分析梳理列表页和详情页之间或者翻页与详情页之间的关联关系,梳理及分析清楚数据之间的各种关系;
梳理业务规则,以天眼查企业数据为例,
对数据做业务唯一性处理,即根据源数据的数据内在逻辑结构与业务上的唯一性要求确定数据业务的唯一键,对数据做去重操作,
完成数据统一视图的整合机制,即各业务模块完成数据统一视图的整合,例如列表页数据要与详情页数据统一整合,
保证各业务数据之间的逻辑关联性,如要天眼查企业数据各业务模块数据要有统一编码规则的主外键;
根据业务规则和数据源结构分析总结处理算法,以天眼查企业数据为例,数据处理算法总结P0可为:只有列表页->根据业务逻辑主键去重—>公司名称标准化—>社会统一信用代码/KEY_ID信息补充—>当期数据***目标表;P1:有列表页和翻页,翻页有公司名称->翻页和列表页合并—>根据业务逻辑主键去重—>公司名称标准化—>社会统一信用代码/KEY_ID信息补充—>当期数据***目标表;P3:有列表页/翻页/详情页->列表页及翻页与详情页关联—>合并—>根据业务逻辑主键去重—>公司名称标准化—>社会统一信用代码/KEY_ID信息补充—>当期数据***目标表;
设计数据映射,参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
以天眼查企业数据为例总结归纳了三种数据处理算法,数据映射设计过程中还考虑数据处理算法选择信息的存储,
以及数据处理的映射的字段对应,大部分字段做数据的对应不需要特别的处理,
根据业务规则附加订制信息例如天眼查企业数据要根据业务唯一键对数据做去重操作要在映射中标定唯一键;
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,例如逻辑规则中标明需要多个字段编码生成新的ID,则数据规则开发要编写具体SQL语句做为脚本生成器的输入,最终生成可执行的ETL脚本;
根据数据映射内容以及算法的选择做为输入利用脚本生成器就可以方便地生成要执行的ETL脚本,数据的映射信息、数据处理算法流程、数据去重规则等等都将作为知识库内容存储,脚本生成器会将知识库作为输入然后输出可执行的ETL脚本,该体系可以反复迭代优化,不断地将算法归纳、数据映射设计、处理规则开发优化更加方便地生成符合业务实际的程序脚本;
脚本测试,调整处理规则,脚本测试中需不断修改处理规则开发内容,最终得到规范、准确、统一的程序,完成ETL构建。
本发明还提供一种构建统一ETL的实施***,包括分析整理模块及生成模块,
分析整理模块分析数据源的数据内在逻辑结构,
根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,
设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,
生成模块根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,
测试脚本并调整处理规则,完成构建ETL。
上述***内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
同样地,本发明***能够在OLAP***的建设实施中,统一地设计和实现ETL数据处理,节约人力开发成本的同时提高开发质量,统一开发规范,让数据处理过程更加规范高效统一。
需要说明的是,上述较佳实施例中各流程和各***结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的***结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种构建统一ETL的实施方法,其特征是分析数据源的数据内在逻辑结构,
根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,
设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,
根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,
测试脚本并调整处理规则,完成构建ETL。
2.根据权利要求1所述的一种构建统一ETL的实施方法,其特征是所述分析数据源的数据内在逻辑结构之前,包括:
爬取数据源,所述爬取数据源是指只采集网页的列表页数据或采集列表页和翻页数据或者采集列表页、翻页及详情页数据。
3.根据权利要求2所述的一种构建统一ETL的实施方法,其特征是所述分析数据源的数据内在逻辑结构,包括:
判断列表页和翻页数据的逻辑结构是否一致,
判断数据合并后是否存在重复情况,
分析梳理列表页和详情页之间或者翻页与详情页之间的关联关系。
4.根据权利要求1所述的一种构建统一ETL的实施方法,其特征是所述梳理业务规则,包括:
根据源数据的数据内在逻辑结构与业务上的唯一性要求确定数据业务的唯一键,
完成数据统一视图的整合机制,
保证各业务数据之间的逻辑关联性。
5.根据权利要求1所述的一种构建统一ETL的实施方法,其特征是根据所述测试脚本的测试结果,调整处理规则,根据调整后的处理规则生成更新的ETL脚本,迭代优化ETL。
6.一种构建统一ETL的实施***,其特征是包括分析整理模块及生成模块,
分析整理模块分析数据源的数据内在逻辑结构,
根据数据处理的业务目标和处理规则梳理业务规则,并根据业务规则和数据源结构分析总结数据处理算法,
设计数据映射,其中参考基础映射的初始化涉及的数据处理源表和目标表基础元数据信息,选择相应的数据处理算法,
开发数据规则,其中根据数据映射内容和处理规则将业务规则转化为可执行的代码表达式,
生成模块根据数据映射内容以及数据处理算法利用脚本生成器生成要执行的ETL脚本,
测试脚本并调整处理规则,完成构建ETL。
7.根据权利要求6所述的一种构建统一ETL的实施***,其特征是还包括爬取模块,在分析数据源的数据内在逻辑结构之前,爬取模块爬取数据源,所述爬取数据源是指只采集网页的列表页数据或采集列表页和翻页数据或者采集列表页、翻页及详情页数据。
8.根据权利要求7所述的一种构建统一ETL的实施***,其特征是分析整理模块分析数据源的数据内在逻辑结构,包括:
判断列表页和翻页数据的逻辑结构是否一致,
判断数据合并后是否存在重复情况,
分析梳理列表页和详情页之间或者翻页与详情页之间的关联关系。
9.根据权利要求6所述的一种构建统一ETL的实施***,其特征是分析整理模块梳理业务规则,包括:
根据源数据的数据内在逻辑结构与业务上的唯一性要求确定数据业务的唯一键,
完成数据统一视图的整合机制,
保证各业务数据之间的逻辑关联性。
10.根据权利要求6所述的一种构建统一ETL的实施***,其特征是生成模块根据所述测试脚本的测试结果,调整处理规则,根据调整后的处理规则生成更新的ETL脚本,迭代优化ETL。
CN202111147981.9A 2021-09-29 2021-09-29 一种构建统一etl的实施方法 Active CN113934786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111147981.9A CN113934786B (zh) 2021-09-29 2021-09-29 一种构建统一etl的实施方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111147981.9A CN113934786B (zh) 2021-09-29 2021-09-29 一种构建统一etl的实施方法

Publications (2)

Publication Number Publication Date
CN113934786A true CN113934786A (zh) 2022-01-14
CN113934786B CN113934786B (zh) 2023-09-08

Family

ID=79277360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111147981.9A Active CN113934786B (zh) 2021-09-29 2021-09-29 一种构建统一etl的实施方法

Country Status (1)

Country Link
CN (1) CN113934786B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080653A (zh) * 2022-08-23 2022-09-20 北京华御数观科技有限公司 一种数据处理用通用模型
CN115858622A (zh) * 2022-12-12 2023-03-28 浙江大学 一种业务数据核对脚本的自动化生成方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030172A1 (en) * 2010-07-27 2012-02-02 Oracle International Corporation Mysql database heterogeneous log based replication
CN102915303A (zh) * 2011-08-01 2013-02-06 阿里巴巴集团控股有限公司 一种etl测试的方法和装置
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和***
US9158827B1 (en) * 2012-02-10 2015-10-13 Analytix Data Services, L.L.C. Enterprise grade metadata and data mapping management application
CN105359141A (zh) * 2013-05-17 2016-02-24 甲骨文国际公司 支持基于流的etl和基于实体关系的etl的组合
CN107038177A (zh) * 2016-02-03 2017-08-11 维布络有限公司 自动生成抽取-转换-加载代码的方法和装置
CN108959564A (zh) * 2018-07-04 2018-12-07 玖富金科控股集团有限责任公司 数据仓库元数据管理方法、可读存储介质和计算机设备
CN109669983A (zh) * 2018-12-27 2019-04-23 杭州火树科技有限公司 可视化多数据源etl工具
CN110019551A (zh) * 2017-12-19 2019-07-16 阿里巴巴集团控股有限公司 一种数据仓库构建方法及装置
CN111159266A (zh) * 2019-12-05 2020-05-15 江苏艾佳家居用品有限公司 一种基于元数据的etl任务批量生成方法
CN111324647A (zh) * 2020-01-21 2020-06-23 北京东方金信科技有限公司 一种生成etl代码的方法及装置
CN111930819A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 Etl脚本生成方法和装置
CN112817971A (zh) * 2021-01-21 2021-05-18 于克干 一种基于二维映射表的数据处理方法及***
CN113051263A (zh) * 2019-12-26 2021-06-29 上海科技发展有限公司 基于元数据的大数据平台构建方法、***、设备及介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030172A1 (en) * 2010-07-27 2012-02-02 Oracle International Corporation Mysql database heterogeneous log based replication
CN102915303A (zh) * 2011-08-01 2013-02-06 阿里巴巴集团控股有限公司 一种etl测试的方法和装置
US9158827B1 (en) * 2012-02-10 2015-10-13 Analytix Data Services, L.L.C. Enterprise grade metadata and data mapping management application
CN105359141A (zh) * 2013-05-17 2016-02-24 甲骨文国际公司 支持基于流的etl和基于实体关系的etl的组合
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和***
CN107038177A (zh) * 2016-02-03 2017-08-11 维布络有限公司 自动生成抽取-转换-加载代码的方法和装置
CN110019551A (zh) * 2017-12-19 2019-07-16 阿里巴巴集团控股有限公司 一种数据仓库构建方法及装置
CN108959564A (zh) * 2018-07-04 2018-12-07 玖富金科控股集团有限责任公司 数据仓库元数据管理方法、可读存储介质和计算机设备
CN109669983A (zh) * 2018-12-27 2019-04-23 杭州火树科技有限公司 可视化多数据源etl工具
CN111159266A (zh) * 2019-12-05 2020-05-15 江苏艾佳家居用品有限公司 一种基于元数据的etl任务批量生成方法
CN113051263A (zh) * 2019-12-26 2021-06-29 上海科技发展有限公司 基于元数据的大数据平台构建方法、***、设备及介质
CN111324647A (zh) * 2020-01-21 2020-06-23 北京东方金信科技有限公司 一种生成etl代码的方法及装置
CN111930819A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 Etl脚本生成方法和装置
CN112817971A (zh) * 2021-01-21 2021-05-18 于克干 一种基于二维映射表的数据处理方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
苌程等: "基于ETL的金融数据集成过程模型", 《计算机工程与设计》, no. 09 *
龚莎等: "基于Python的可配置自动化爬虫***的设计与实现", 《电脑迷》, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080653A (zh) * 2022-08-23 2022-09-20 北京华御数观科技有限公司 一种数据处理用通用模型
CN115858622A (zh) * 2022-12-12 2023-03-28 浙江大学 一种业务数据核对脚本的自动化生成方法
CN115858622B (zh) * 2022-12-12 2023-08-04 浙江大学 一种业务数据核对脚本的自动化生成方法

Also Published As

Publication number Publication date
CN113934786B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
US7676453B2 (en) Partial query caching
US8666969B2 (en) Query rewrite for pre-joined tables
US20190272478A1 (en) Generating feature vectors from rdf graphs
EP3671526B1 (en) Dependency graph based natural language processing
CN109522341B (zh) 实现基于sql的流式数据处理引擎的方法、装置、设备
US9928288B2 (en) Automatic modeling of column and pivot table layout tabular data
CN112860727B (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
CN113934786A (zh) 一种构建统一etl的实施方法
CN111984659B (zh) 数据更新方法、装置、计算机设备和存储介质
CN110309214B (zh) 一种指令执行方法及其设备、存储介质、服务器
CN110851514A (zh) 基于flink的etl处理方法
CN116166718B (zh) 一种数据血缘获取方法和装置
CN110008448B (zh) 将SQL代码自动转换为Java代码的方法和装置
CN116975116A (zh) 一种大数据分析***的数据条件筛选方法
US11921763B2 (en) Methods and systems to parse a software component search query to enable multi entity search
US20190095538A1 (en) Method and system for generating content from search results rendered by a search engine
CN114861229A (zh) 一种Hive动态脱敏方法及***
US20230342558A1 (en) Systems and methods for generalized entity matching
Cheney Provenance, XML and the scientific web
US11467752B2 (en) Data migration system and data migration method
Yong et al. Data change analysis based on function call path
CN115545006B (zh) 规则脚本生成方法、装置、计算机设备及介质
CN110968634B (zh) 大数据场景下基于xml描述实现利用可编程函数式进行etl转换处理的方法
CN111221846B (zh) 一种sql语句的自动翻译方法及装置
CN114089976B (zh) 用于生成数据库操作语句的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant