CN104504010B - 一种多对多的数据采集***及其采集方法 - Google Patents

一种多对多的数据采集***及其采集方法 Download PDF

Info

Publication number
CN104504010B
CN104504010B CN201410758012.0A CN201410758012A CN104504010B CN 104504010 B CN104504010 B CN 104504010B CN 201410758012 A CN201410758012 A CN 201410758012A CN 104504010 B CN104504010 B CN 104504010B
Authority
CN
China
Prior art keywords
data
acquisition
task
processing server
communication protocol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410758012.0A
Other languages
English (en)
Other versions
CN104504010A (zh
Inventor
郑葵荣
艾建文
安宏伟
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201410758012.0A priority Critical patent/CN104504010B/zh
Publication of CN104504010A publication Critical patent/CN104504010A/zh
Application granted granted Critical
Publication of CN104504010B publication Critical patent/CN104504010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及计算机应用技术领域,特别涉及一种多对多的数据采集***及其采集方法。本发明的***由采集管理平台、采集引擎和数据处理服务器三部分构成。采集管理平台,用于管理节点、通信协议、ETL规则和采集任务;采集引擎,支持多种通信方式,通过通信协议与数据提供方节点进行握手,识别提供方的合法性并进行数据采集,完成后通知数据处理服务器;数据处理服务器包括了数据清洗和拔插式的数据处理组件。本发明将数据采集流程规范化,组件接口标准化,具有扩展性好,适用范围广等特点,可应用于多种关系型数据库的***中。

Description

一种多对多的数据采集***及其采集方法
技术领域
本发明涉及计算机应用技术领域,特别涉及一种多对多的数据采集***及其采集方法。
背景技术
随着计算机应用技术的发展,应用***间的数据关联越趋紧密,无时无刻都有大量数据信息进行交互。同时,伴随着发展的多样性,各***数据交互方式不一,当交互方式增加时,数据提供方与接收方均需要额外添加渠道,或者各自建立自己的一套方案来解决这一兼容性问题。当原有交互方式改变时,往往伴随着大量变更工作。
发明内容
本发明解决的技术问题之一在于针对交互方式多样,各***增加渠道开销大的问题,提供了一种多对多的数据采集***。实现数据提供方与接收方统一管理,大大减少了多个***间新增渠道造成的额外开销,保证了采集任务流程化、节点间交互多样性及可扩展性。
本发明解决的技术问题之二在于针对交互方式多样,各***增加渠道开销大的问题,提供了一种多对多的数据采集***的采集方法。实现数据提供方与接收方统一管理,减少多个***间新增渠道造成的额外开销,保证采集任务流程化、节点间交互多样性及可扩展性。
本发明解决上述技术问题之一的技术方案是:
所述的***由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;
所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合;
所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;
所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用***提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。
所述的采集管理平台提供CRUD访问接口,用于查询及维护节点信息、通信协议、ETL规则和采集任务。
本发明解决上述技术问题之二的技术方案是:
所述的方法中,建立新任务的详细流程是:
第一步,分配提供方和接收方节点编号,维护节点信息;
第二步,维护通信协议,添加通信方式及其规则;
第三步,与数据提供方和接收方进行通信绿灯测试;
第四步,维护ETL规则;
第五步,维护任务信息,添加任务使用的节点信息、通信协议、ETL规则及其他任务补充信息;
第六步,日志记录,完成;
采集引擎的详细工作流程是:
第一步,采集引擎调度服务处于监听状态;
第二步,根据任务循环周期开始执行任务;
第三步,根据任务节点参数验证节点活动状态;
第四步,根据任务通信协议与提供方节点握手,连接成功后检查文件完整性并进行文件采集;
第五步,添加数据清洗任务至数据处理服务器队列;
第六步,日志记录,完成;
数据处理服务器的详细工作流程是:
第一步,数据处理服务器队列处于运行状态;
第二步,分析任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;
第三步,根据文件类型调用对应的数据处理组件;
第四步,根据ETL规则对数据文件进行萃取、转换及入库;
第五步,日志记录,完成。
本发明针对交互方式多样,各***增加渠道开销大的问题,通过管理平台、引擎和服务器的三大部件,将多个***以节点的模式通过采集、清洗、入库任务链紧密结合在一起。管理平台统一管理节点、通信协议、ETL规则和任务,实现任务流程化管理;采集引擎支持协议多样性,提供标准接口,保证了协议可扩展;数据处理服务器支持可拔插的数据处理模块,同时将任务以队列的方式进行自动化处理。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的总体结构图;
图2是本发明的总体流程框图;
图3是本发明任务流程的序列图;
图4是本发明数据处理服务器的处理活动图。
具体实施方式
本发明针对交互方式多样,各***增加渠道开销大的问题,提供了一种多对多的数据采集***及其方法。实现了数据提供方与接收方统一管理,大大减少了多个***间新增渠道造成的额外开销,保证了采集任务流程化、节点间交互多样性及可扩展性。
见图1、2所示,本发明由采集管理平台、采集引擎和数据处理服务器构成;
采集管理平台:用于管理数据提供方和接收方节点、通信协议、ETL规则以及采集任务;
节点:每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;
通信协议:包括了可配置的通信方式及其规则,是数据采集的方式;
ETL规则:负责对采集文件进行栏位、条件清洗;
采集任务:指一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合。
图2表示了任务的序列流程,任务执行的详细流程是:
第一步,采集引擎调度服务拆分任务信息;
第二步,根据任务节点参数验证提供方节点活动状态;
第三步,接收状态反馈;
第四步,根据任务通信协议与提供方节点握手;
第五步,接收状态反馈;
第六步,连接成功后检查文件完整性并进行文件采集;
第七步,添加数据清洗任务至数据处理服务器队列;
第八步,队列处理清洗任务;
第九步,加载清洗后数据至接收方节点;
第十步,接收状态反馈;
第十一步,任务状态更新;
第十二步,日志记录,完成。
图3表示了数据处理服务器的处理活动状态,数据处理服务器详细的业务流程为:
第一步,数据处理服务器解析清洗任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;
第二步,根据文件类型调用对应的数据处理组件;
第三步,加载文件入缓存库;
第四步,根据ETL规则对缓存数据进行萃取、转换;
第五步,根据目标节点数据库类型及存储位置进行载入;
第六步,任务状态更新;
第七步,日志记录,完成。

Claims (3)

1.一种多对多的数据采集***,其特征在于:所述的***由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;
所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则的数据集合;
所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;
所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用***提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。
2.根据权利要求1所述的一种多对多的数据采集***,其特征在于:所述的采集管理平台提供CRUD访问接口,用于查询及维护节点信息、通信协议、ETL规则和采集任务。
3.权利要求1或2任一项所述的多对多的数据采集***的采集方法,其特征在于:所述的方法中,建立新任务的详细流程是:
第一步,分配提供方和接收方节点编号,维护节点信息;
第二步,维护通信协议,添加通信方式及其规则;
第三步,与数据提供方和接收方进行通信绿灯测试;
第四步,维护ETL规则;
第五步,维护任务信息,添加任务使用的节点信息、通信协议、ETL规则及其他任务补充信息;
第六步,日志记录,完成;
采集引擎的详细工作流程是:
第一步,采集引擎调度服务处于监听状态;
第二步,根据任务循环周期开始执行任务;
第三步,根据任务节点参数验证节点活动状态;
第四步,根据任务通信协议与提供方节点握手,连接成功后检查文件完整性并进行文件采集;
第五步,添加数据清洗任务至数据处理服务器队列;
第六步,日志记录,完成;
数据处理服务器的详细工作流程是:
第一步,数据处理服务器队列处于运行状态;
第二步,分析任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;
第三步,根据文件类型调用对应的数据处理组件;
第四步,根据ETL规则对数据文件进行萃取、转换及入库;
第五步,日志记录,完成。
CN201410758012.0A 2014-12-11 2014-12-11 一种多对多的数据采集***及其采集方法 Active CN104504010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410758012.0A CN104504010B (zh) 2014-12-11 2014-12-11 一种多对多的数据采集***及其采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410758012.0A CN104504010B (zh) 2014-12-11 2014-12-11 一种多对多的数据采集***及其采集方法

Publications (2)

Publication Number Publication Date
CN104504010A CN104504010A (zh) 2015-04-08
CN104504010B true CN104504010B (zh) 2017-08-01

Family

ID=52945408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410758012.0A Active CN104504010B (zh) 2014-12-11 2014-12-11 一种多对多的数据采集***及其采集方法

Country Status (1)

Country Link
CN (1) CN104504010B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630964A (zh) * 2015-12-25 2016-06-01 甘肃万维信息技术有限责任公司 一种数据交互分析***
CN106295220A (zh) * 2016-08-19 2017-01-04 京东方科技集团股份有限公司 一种医疗数据管理方法、装置及医疗数据***
CN106850596B (zh) * 2017-01-16 2020-08-04 北京市天元网络技术股份有限公司 一种数据采集***和方法
CN107135198B (zh) * 2017-03-28 2021-04-16 深圳市卓讯信息技术有限公司 一种基于etl技术协同多通讯协议的数据交换方法及装置
CN109951428A (zh) * 2017-12-21 2019-06-28 上海远动科技有限公司 一种数据整合***
CN113535835A (zh) * 2021-07-12 2021-10-22 上海浦东发展银行股份有限公司 内核数据处理软件的数据采集方法、装置、介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739454A (zh) * 2009-12-29 2010-06-16 用友软件股份有限公司 数据处理***
CN102508908A (zh) * 2011-11-11 2012-06-20 北京用友政务软件有限公司 一种下级财政业务数据的采集方法和***
CN102819589A (zh) * 2012-08-06 2012-12-12 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892134B2 (en) * 2013-03-13 2018-02-13 International Business Machines Corporation Output driven generation of a combined schema from a plurality of input data schemas
US9519695B2 (en) * 2013-04-16 2016-12-13 Cognizant Technology Solutions India Pvt. Ltd. System and method for automating data warehousing processes
GB2513329A (en) * 2013-04-23 2014-10-29 Ibm Method and system for scoring data in a database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739454A (zh) * 2009-12-29 2010-06-16 用友软件股份有限公司 数据处理***
CN102508908A (zh) * 2011-11-11 2012-06-20 北京用友政务软件有限公司 一种下级财政业务数据的采集方法和***
CN102819589A (zh) * 2012-08-06 2012-12-12 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法

Also Published As

Publication number Publication date
CN104504010A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104504010B (zh) 一种多对多的数据采集***及其采集方法
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及***
CN104536814B (zh) 一种处理工作流的方法和***
CN109582289B (zh) 规则引擎中规则流的处理方法、***、存储介质和处理器
CN107015853A (zh) 多阶段任务的实现方法和装置
CN103617508A (zh) 可配置的业务规则插件扩展装置和业务规则插件扩展方法
CN102014282A (zh) 一种分布式视频转码调度方法及***
CN106325887A (zh) 一种基于Activiti的业务流程管理方法
CN104317970A (zh) 一种基于数据加工中心的数据流式处理方法
CN105930502B (zh) 一种收集数据的***、客户端和方法
CN107807815A (zh) 分布式处理任务的方法和装置
CN102957622A (zh) 一种数据处理的方法、装置及***
CN108897876A (zh) 一种数据接入方法及装置
CN102891768A (zh) 网络管理的方法和网元
CN111464352A (zh) 调用链路数据处理方法及装置
CN104933495A (zh) 基于Android的移动终端上的工作任务考核***
CN104410511A (zh) 一种服务器管理方法及***
CN111259066A (zh) 服务器集群数据同步方法及装置
CN107403012A (zh) 一种数据交换方法及装置
CN106777265A (zh) 一种业务数据的处理方法及装置
CN103514044B (zh) 一种动态行为分析***的资源优化方法、装置和***
CN104123135A (zh) 一种统一后台接口的方法及装置
US20160366225A1 (en) Shuffle embedded distributed storage system supporting virtual merge and method thereof
CN106791932A (zh) 分布式转码***、方法及其装置
CN106506647A (zh) 一种客户端具有数据备份装置的智慧社区云存储***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: G-Cloud Technology Co., Ltd.

Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province

Patentee before: G-Cloud Technology Co., Ltd.

CP02 Change in the address of a patent holder