CN106250444A - 一种异构数据源的实时入库***及方法 - Google Patents

一种异构数据源的实时入库***及方法 Download PDF

Info

Publication number
CN106250444A
CN106250444A CN201610600065.9A CN201610600065A CN106250444A CN 106250444 A CN106250444 A CN 106250444A CN 201610600065 A CN201610600065 A CN 201610600065A CN 106250444 A CN106250444 A CN 106250444A
Authority
CN
China
Prior art keywords
data
real
data source
heterogeneous
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610600065.9A
Other languages
English (en)
Inventor
温宗臣
张翼
何良均
范卫卫
冯森林
崔晶晶
林佳婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd filed Critical BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority to CN201610600065.9A priority Critical patent/CN106250444A/zh
Publication of CN106250444A publication Critical patent/CN106250444A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开一种异构数据源的实时入库***,其能够实现异构数据源的热插拔,可以任意添加或者减少数据源的配置,根据配置数据自动实时入库,并且在分布式***的基础上实现了异构***之间的数据同步过程。该***包括:数据采集模块,其配置来对于每个经过AES加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;数据传输模块,其配置为一个基于分布式架构的定制化数据通道;数据解析模块,其配置为一个基于分布式架构的流式计算集群,以便完成实时抽取、转换、加载ETL过程;数据存储模块,其配置为根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。还有方法。

Description

一种异构数据源的实时入库***及方法
技术领域
本发明属于大数据处理的技术领域,具体地涉及一种异构数据源的实时入库***及方法。
背景技术
现有技术中,例如,中国专利“一种异构数据源高效数据同步方法”(专利申请号2015108101397),中国专利“异构数据源实时同步***及方法”(专利申请号2015102411686),均给出了两个异构的数据源之间相互同步数据的技术方案。
但是,现有技术方案只解决了数据库***两两之间相互交换数据的问题,没有解决异构***之间的数据交换;数据同步都是单机***行为,不是分布式***,无法支持海量数据同步。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种异构数据源的实时入库***,其能够实现异构数据源的热插拔,可以任意添加或者减少数据源的配置,根据配置数据自动实时入库,并且在分布式***的基础上实现了异构***之间的数据同步过程。
本发明的技术解决方案是:这种异构数据源的实时入库***,该***包括:
数据采集模块,其配置来对于每个经过AES加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;
数据传输模块,其配置为一个基于分布式架构的定制化数据通道;
数据解析模块,其配置为一个基于分布式架构的流式计算集群,以便完成实时抽取、转换、加载ETL过程;
数据存储模块,其配置为根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。
本发明通过数据采集模块拉取数据,通过数据传输模块透传数据,并记录数据量,通过数据解析模块根据配置文件中的内容来解析数据源,通过数据存储模块把解析后的数据存储到存储介质中,因此能够实现异构数据源的热插拔,可以任意添加或者减少数据源的配置,根据配置数据自动实时入库,并且在分布式***的基础上实现了异构***之间的数据同步过程。
还提供了一种异构数据源的实时入库方法,该方法包括以下步骤:
(1)对于每个经过AES加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;
(2)通过一个基于分布式架构的定制化数据通道进行数据传输;
(3)通过一个基于分布式架构的流式计算集群进行数据的实时抽取、转换、加载;
(4)根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。
附图说明
图1示出了根据本发明的异构数据源的实时入库***的结构示意图。
具体实施方式
如图1所示,这种异构数据源的实时入库***,该***包括:
数据采集模块,其配置来对于每个经过AES(Advanced Encryption Standard,高级加密标准,在密码学中又称Rijndael加密法,是美国联邦政府采用的一种区块加密标准)加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;
数据传输模块,其配置为一个基于分布式架构的定制化数据通道;
数据解析模块,其配置为一个基于分布式架构的流式计算集群,以便完成实时抽取、转换、加载ETL过程;ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程;
ETL 一词较常用在数据仓库,但其对象并不限于数据仓库;
数据存储模块,其配置为根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。
本发明通过数据采集模块拉取数据,通过数据传输模块透传数据,并记录数据量,通过数据解析模块根据配置文件中的内容来解析数据源,通过数据存储模块把解析后的数据存储到存储介质中,因此能够实现异构数据源的热插拔,可以任意添加或者减少数据源的配置,根据配置数据自动实时入库,并且在分布式***的基础上实现了异构***之间的数据同步过程。
另外,所述数据传输模块,其还配置来把数据接入层与数据解析模块解耦,提供数据缓冲和数据归档。
另外,所述数据传输模块的数据缓冲时间为一周,数据归档为永久存储,当然也可以设置为其它时间。
另外,所述数据解析模块,首先完成对数据的高级加密标准AES的解密;其次进行与异构数据源相匹配的解析算法,对数据做结构化和归一化处理,并清洗出异常数据。
另外,所述数据存储模块,其还配置为根据数据总量和延迟时间来判定分区数据是否结束,数据入库之后对外提供在线分析和离线交互式查询服务。
另外,所述存储介质为Hadoop分布式文件***HDFS、开源数据库HBASE或事务数据库ES。
还提供了一种异构数据源的实时入库方法,该方法包括以下步骤:
(1)对于每个经过AES加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;
(2)通过一个基于分布式架构的定制化数据通道进行数据传输;
(3)通过一个基于分布式架构的流式计算集群进行数据的实时抽取、转换、加载;
(4)根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。
当然,在步骤(1)之前,还需要配置数据源节点,包括数据源的IP,端口,存储结构,以及最大访问速度。
另外,所述步骤(2)中,把数据接入层与数据解析模块解耦,提供数据缓冲和数据归档。
另外,所述步骤(3)中,首先完成对数据的高级加密标准AES的解密;其次进行与异构数据源相匹配的解析算法,对数据做结构化和归一化处理,并清洗出异常数据。
另外,所述步骤(4)中,根据数据总量和延迟时间来判定分区数据是否结束,数据入库之后对外提供在线分析和离线交互式查询服务。
本发明的有益效果如下:
1.数据源的增减可配置化;
2.基于分布式的数据同步,效率更高;
3.异构的数据***之间数据同步,更具有数据交换的普遍意义;
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.一种异构数据源的实时入库***,其特征在于:该***包括:
数据采集模块,其配置来对于每个经过AES加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;
数据传输模块,其配置为一个基于分布式架构的定制化数据通道;
数据解析模块,其配置为一个基于分布式架构的流式计算集群,以便完成实时抽取、转换、加载ETL过程;
数据存储模块,其配置为根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。
2.根据权利要求1所述的异构数据源的实时入库***,其特征在于:所述数据传输模块,其还配置来把数据接入层与数据解析模块解耦,提供数据缓冲和数据归档。
3.根据权利要求2所述的异构数据源的实时入库***,其特征在于:所述数据传输模块的数据缓冲时间为一周,数据归档为永久存储。
4.根据权利要求2或3所述的异构数据源的实时入库***,其特征在于:所述数据解析模块,首先完成对数据的高级加密标准AES的解密;其次进行与异构数据源相匹配的解析算法,对数据做结构化和归一化处理,并清洗出异常数据。
5.根据权利要求4所述的异构数据源的实时入库***,其特征在于:所述数据存储模块,其还配置为根据数据总量和延迟时间来判定分区数据是否结束,数据入库之后对外提供在线分析和离线交互式查询服务。
6.根据权利要求5所述的异构数据源的实时入库***,其特征在于:所述存储介质为Hadoop分布式文件***HDFS、开源数据库HBASE或事务数据库ES。
7.一种异构数据源的实时入库方法,其特征在于:该方法包括以下步骤:
(1)对于每个经过AES加密的数据源批次,启动多个子任务并行采集;并配置来使数据接入层支持任务的停启、以及回溯和断点续传;
(2)通过一个基于分布式架构的定制化数据通道进行数据传输;
(3)通过一个基于分布式架构的流式计算集群进行数据的实时抽取、转换、加载;
(4)根据数据源名称和时间标识,生成数据分区,选择存储介质的流向。
8.根据权利要求7所述的异构数据源的实时入库方法,其特征在于:所述步骤(2)中,把数据接入层与数据解析模块解耦,提供数据缓冲和数据归档。
9.根据权利要求8所述的异构数据源的实时入库方法,其特征在于:所述步骤(3)中,首先完成对数据的高级加密标准AES的解密;其次进行与异构数据源相匹配的解析算法,对数据做结构化和归一化处理,并清洗出异常数据。
10.根据权利要求9所述的异构数据源的实时入库方法,其特征在于:所述步骤(4)中,根据数据总量和延迟时间来判定分区数据是否结束,数据入库之后对外提供在线分析和离线交互式查询服务。
CN201610600065.9A 2016-07-27 2016-07-27 一种异构数据源的实时入库***及方法 Pending CN106250444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610600065.9A CN106250444A (zh) 2016-07-27 2016-07-27 一种异构数据源的实时入库***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610600065.9A CN106250444A (zh) 2016-07-27 2016-07-27 一种异构数据源的实时入库***及方法

Publications (1)

Publication Number Publication Date
CN106250444A true CN106250444A (zh) 2016-12-21

Family

ID=57604294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610600065.9A Pending CN106250444A (zh) 2016-07-27 2016-07-27 一种异构数据源的实时入库***及方法

Country Status (1)

Country Link
CN (1) CN106250444A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459919A (zh) * 2018-03-29 2018-08-28 中信百信银行股份有限公司 一种分布式事务处理方法及装置
CN108804533A (zh) * 2018-05-04 2018-11-13 佛山科学技术学院 一种异构大数据信息的过滤方法及装置
CN109246073A (zh) * 2018-07-04 2019-01-18 杭州数云信息技术有限公司 一种数据流处理***及其方法
CN109271435A (zh) * 2018-09-14 2019-01-25 南威软件股份有限公司 一种支持断点续传的数据抽取方法及***
CN109815292A (zh) * 2019-01-03 2019-05-28 广州中软信息技术有限公司 一种基于异步消息机制的涉税数据采集***
CN110309108A (zh) * 2019-05-08 2019-10-08 江苏满运软件科技有限公司 数据采集及储存方法、装置、电子设备、存储介质
CN111026535A (zh) * 2019-12-12 2020-04-17 成都九洲电子信息***股份有限公司 一种非标准化的热插拔式数据批量处理方法
WO2020215532A1 (zh) * 2019-04-26 2020-10-29 厦门市美亚柏科信息股份有限公司 一种异构数据库之间数据同步的***、方法、存储介质
CN112015799A (zh) * 2020-10-20 2020-12-01 平安国际智慧城市科技股份有限公司 Etl任务执行方法、装置、计算机设备及存储介质
CN113239081A (zh) * 2021-05-21 2021-08-10 瀚云科技有限公司 一种流式数据计算方法
CN113377863A (zh) * 2020-03-10 2021-09-10 阿里巴巴集团控股有限公司 数据同步方法、装置、电子设备及计算机可读存储介质
CN113688116A (zh) * 2020-05-19 2021-11-23 长鑫存储技术有限公司 数据展示***、方法、设备及计算机可读存储介质
CN115186020A (zh) * 2022-07-15 2022-10-14 深圳安巽科技有限公司 一种数据接入存储处理方法、***及存储介质
US11983224B2 (en) 2020-05-19 2024-05-14 Changxin Memory Technologies, Inc. Data presentation system, method and device, and computer-readable storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063453A1 (en) * 2007-08-29 2009-03-05 International Business Machines Corporation Apparatus, system, and method for executing a distributed spatial data query
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构***间数据交换与共享技术
CN102938731A (zh) * 2012-11-22 2013-02-20 北京锐易特软件技术有限公司 一种基于代理缓存适配模型的交换集成装置及方法
CN104699723A (zh) * 2013-12-10 2015-06-10 北京神州泰岳软件股份有限公司 数据交换适配器、异构***之间数据同步***和方法
CN105243155A (zh) * 2015-10-29 2016-01-13 贵州电网有限责任公司电力调度控制中心 一种大数据抽取和交换***
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063453A1 (en) * 2007-08-29 2009-03-05 International Business Machines Corporation Apparatus, system, and method for executing a distributed spatial data query
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构***间数据交换与共享技术
CN102938731A (zh) * 2012-11-22 2013-02-20 北京锐易特软件技术有限公司 一种基于代理缓存适配模型的交换集成装置及方法
CN104699723A (zh) * 2013-12-10 2015-06-10 北京神州泰岳软件股份有限公司 数据交换适配器、异构***之间数据同步***和方法
CN105243155A (zh) * 2015-10-29 2016-01-13 贵州电网有限责任公司电力调度控制中心 一种大数据抽取和交换***
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决***

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459919A (zh) * 2018-03-29 2018-08-28 中信百信银行股份有限公司 一种分布式事务处理方法及装置
CN108459919B (zh) * 2018-03-29 2022-04-15 中信百信银行股份有限公司 一种分布式事务处理方法及装置
CN108804533B (zh) * 2018-05-04 2021-11-30 佛山科学技术学院 一种异构大数据信息的过滤方法及装置
CN108804533A (zh) * 2018-05-04 2018-11-13 佛山科学技术学院 一种异构大数据信息的过滤方法及装置
CN109246073A (zh) * 2018-07-04 2019-01-18 杭州数云信息技术有限公司 一种数据流处理***及其方法
CN109271435A (zh) * 2018-09-14 2019-01-25 南威软件股份有限公司 一种支持断点续传的数据抽取方法及***
CN109271435B (zh) * 2018-09-14 2022-03-04 南威软件股份有限公司 一种支持断点续传的数据抽取方法及***
CN109815292A (zh) * 2019-01-03 2019-05-28 广州中软信息技术有限公司 一种基于异步消息机制的涉税数据采集***
WO2020215532A1 (zh) * 2019-04-26 2020-10-29 厦门市美亚柏科信息股份有限公司 一种异构数据库之间数据同步的***、方法、存储介质
CN110309108A (zh) * 2019-05-08 2019-10-08 江苏满运软件科技有限公司 数据采集及储存方法、装置、电子设备、存储介质
CN111026535A (zh) * 2019-12-12 2020-04-17 成都九洲电子信息***股份有限公司 一种非标准化的热插拔式数据批量处理方法
CN111026535B (zh) * 2019-12-12 2023-03-21 成都九洲电子信息***股份有限公司 一种非标准化的热插拔式数据批量处理方法
CN113377863A (zh) * 2020-03-10 2021-09-10 阿里巴巴集团控股有限公司 数据同步方法、装置、电子设备及计算机可读存储介质
CN113377863B (zh) * 2020-03-10 2022-04-29 阿里巴巴集团控股有限公司 数据同步方法、装置、电子设备及计算机可读存储介质
CN113688116A (zh) * 2020-05-19 2021-11-23 长鑫存储技术有限公司 数据展示***、方法、设备及计算机可读存储介质
US11983224B2 (en) 2020-05-19 2024-05-14 Changxin Memory Technologies, Inc. Data presentation system, method and device, and computer-readable storage medium
CN112015799A (zh) * 2020-10-20 2020-12-01 平安国际智慧城市科技股份有限公司 Etl任务执行方法、装置、计算机设备及存储介质
CN113239081A (zh) * 2021-05-21 2021-08-10 瀚云科技有限公司 一种流式数据计算方法
CN115186020A (zh) * 2022-07-15 2022-10-14 深圳安巽科技有限公司 一种数据接入存储处理方法、***及存储介质

Similar Documents

Publication Publication Date Title
CN106250444A (zh) 一种异构数据源的实时入库***及方法
US10949447B2 (en) Blockchain-based data synchronizing and data block parsing method and device
JP6716727B2 (ja) ストリーミングデータ分散処理方法及び装置
CN110674154B (zh) 一种基于Spark的对Hive中数据进行***、更新和删除的方法
WO2016022492A1 (en) Account processing method and apparatus
EP3321821B1 (en) Big data exchange method and device
CN103984745A (zh) 分布式视频垂直搜索方法及***
CN105045856A (zh) 一种基于Hadoop的大数据遥感卫星数据处理***
CN103516802A (zh) 一种实现跨异构虚拟交换机无缝迁移的方法和装置
CN108235069A (zh) 网络电视日志的处理方法及装置
CN106375360B (zh) 一种图数据更新方法、装置及***
CN103618733A (zh) 一种应用于移动互联网的数据过滤***及方法
CN102609464A (zh) Mongodb分片联表查询方法及装置
CN104572505A (zh) 一种保证海量数据缓存最终一致性的***及方法
CN113900810A (zh) 分布式图处理方法、***及存储介质
WO2017173978A1 (zh) 一种大数据交换方法及装置、***
CN116467081A (zh) 数据处理方法、装置、设备及计算机可读存储介质
US10853367B1 (en) Dynamic prioritization of attributes to determine search space size of each term, then index on those sizes as attributes
CN105681199A (zh) 一种车载总线中报文数据的处理方法及装置
CN105337850A (zh) 一种物联网数据处理方法及物联网网关
CN111538772A (zh) 数据的交换处理方法、装置、电子设备及存储介质
CN106161056B (zh) 周期型数据的分布式缓存运维方法及装置
Chen et al. Big data generation and acquisition
CN116186053A (zh) 一种数据处理方法、装置及存储介质
CN102427405A (zh) 话单关联方法、***以及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161221