CN106227862A - 基于分布式的电商数据整合方法 - Google Patents

基于分布式的电商数据整合方法 Download PDF

Info

Publication number
CN106227862A
CN106227862A CN201610610369.3A CN201610610369A CN106227862A CN 106227862 A CN106227862 A CN 106227862A CN 201610610369 A CN201610610369 A CN 201610610369A CN 106227862 A CN106227862 A CN 106227862A
Authority
CN
China
Prior art keywords
data
extraction
electricity
configuration
electricity quotient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610610369.3A
Other languages
English (en)
Inventor
孙海峰
张凯鑫
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610610369.3A priority Critical patent/CN106227862A/zh
Publication of CN106227862A publication Critical patent/CN106227862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于分布式的电商数据整合方法,属于数据整合、数据分布式存储领域,步骤1:配置数据抽取过程,步骤2:配置任务流程的过程,步骤3:配置数据转换,步骤4:配置装载数据,按计划增量或者全部导入数据仓库。步骤5:设定日志输出路径。本发明解决了大数据量、意同形不同、字段转换、任务执行流程等整合的问题。

Description

基于分布式的电商数据整合方法
技术领域
本发明涉及数据整合、数据分布式存储技术,尤其涉及一种基于分布式的电商数据整合方法。
背景技术
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用***的规模迅速扩大,行业应用所产生的数据呈***性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息***的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。IDC发布的报告预测,中国大数据技术与服务市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,5年的复合增长率达51.4%。目前数据的作用已经越来越重要了,数据的重要程度已经高于物质资产和人力资本。而如今,企业每天都在生产海量的数据,其中非结构化的数据信息达到85%左右,传统的信息资源管理技术只能应对结构化数据,通过大数据技术,可以将原本毫无头绪的信息数据编织在一起。
发明内容
为了解决以上问题,本发明提出了一种基于分布式的电商数据整合方法,解决了大数据量、意同形不同、字段转换、任务执行流程等整合的问题。
本发明的技术方案是:
一种基于分布式的电商数据整合方法,
具体步骤如下:
步骤1:配置数据抽取过程,包括抽取方式(增量、全量),选择抽取任务,配置抽取规则,配置存储路径等。
步骤2:配置任务流程的过程,包括执行时间,是否重复,判断条件,执行脚本,执行文件,过程加密等。
步骤3:配置数据转换,包括数据库连接,节点连接,数据分区,子服务器,hadoop配置。
步骤4:配置装载数据,按计划增量或者全部导入数据仓库。
步骤5:设定日志输出路径。
步骤6:设置事件提醒。
电商数据整合是数据抽取、转换、装载的过程,将电商数据规整,清洗去重,迁移等,具体包括:
1)、电商数据的抽取;先将采集电商的非结构化数据保存到kafka,然后通过flumn聚合到hdfs里,最后根据采集电商的任务ID,进行规则配置,方法有:正则法则、xpath、自定义插件,将抽取的数据保存到hbase中,并优化key键;
2)、电商数据的转换;将抽取的电商数据,通过hive进行外部关联,进行字段的重整,表关联;将不同电商平台的数据,通过定义好的规则,进行数据拆分,合并;
3)、电商数据的装载;将转换好的数据选择好增量还是全量进行迁移到数据仓库中,并设置好工作流程,将结果保存到日志,将异常抛给管理员。
将电商数据在不同库中进行迁移,就是将这些历史数据进行清洗、转换,并装载到新库中的过程;不同库之间的数据迁移不同于从生产***OLTP到数据仓库DW的数据抽取。后者主要将生产***在上次抽取后所发生的数据变化同步到数据仓库,这种同步在每个抽取周期都进行,一般以天为单位。而数据迁移是将需要的历史数据一次或几次转换到新的生产***,其最主要的特点是需要在短时间内完成大批量数据的抽取、清洗和装载。
将电商数据进行结构化抽取。
将电商数据整合作为一个工作流,进行步骤化操作。
将转化好的数据保存到数据仓库中。
数据迁移后校验。在数据迁移完成后,需要对迁移后的数据进行校验,也是对迁移质量的检查。
可以单机运行,也可以放在服务器分布式执行。
数据过程中的日志、异常提醒等。主要目的是将采集下来的非结构化的电商数据抽取、整合成有价值的结构化数据。
本发明的有益效果是:
1.在理解源数据的基础上实现数据表属性一致化,对不同表的属性名根据其含义重新定义其在数据库中的名字,并转换规则的形式存放在元数据库中。
2.通过数据缩减,大幅度缩小数据量。
3.通过预先设定数据处理的可视化功能节点,达到可视化的进行数据清洗和数据转换。
4.方便维护历史的数据整合语句。
附图说明
图1是本发明的流程结构图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
由于以分布式的方式进行数据抽取、转换,要进行以下几步部署:
第一步,配置结构化数据库连接。
第二步,配置hadoop clusters。
第三步,配置子服务器,并在子服务器安装数据整合软件。
第四步,配置日志输出路径。
第五步,配置预警通知。

Claims (3)

1.基于分布式的电商数据整合方法,其特征在于
具体步骤如下:
步骤1:配置数据抽取过程,包括抽取方式,选择抽取任务,配置抽取规则,配置存储路径;
步骤2:配置任务流程的过程,包括执行时间,是否重复,判断条件,执行脚本,执行文件,过程加密;
步骤3:配置数据转换,包括数据库连接,节点连接,数据分区,子服务器,hadoop配置;
步骤4:配置装载数据,按计划增量或者全部导入数据仓库;
步骤5:设定日志输出路径;
步骤6:设置事件提醒。
2.根据权利要求1所述的方法,其特征在于,
将电商数据规整,清洗去重,迁移,包括
1)、电商数据的抽取;先将采集电商的非结构化数据保存到kafka,然后通过flumn聚合到hdfs里,最后根据采集电商的任务ID,进行规则配置,方法有:正则法则、xpath、自定义插件,将抽取的数据保存到hbase中,并优化key键;
2)、电商数据的转换;将抽取的电商数据,通过hive进行外部关联,进行字段的重整,表关联;将不同电商平台的数据,通过定义好的规则,进行数据拆分,合并;
3)、电商数据的装载;将转换好的数据选择好增量还是全量进行迁移到数据仓库中,并设置好工作流程,将结果保存到日志,将异常抛给管理员。
3.根据权利要求2所述的方法,其特征在于,
将电商数据在不同库中进行迁移,就是将这些历史数据进行清洗、转换,并装载到新库中的过程;不同库之间的数据迁移不同于从生产***OLTP到数据仓库DW的数据抽取;后者主要将生产***在上次抽取后所发生的数据变化同步到数据仓库,这种同步在每个抽取周期都进行,一般以天为单位;
将电商数据进行结构化抽取;
将电商数据整合作为一个工作流,进行步骤化操作;
将转化好的数据保存到数据仓库中;
数据迁移后校验,在数据迁移完成后,需要对迁移后的数据进行校验,也是对迁移质量的检查;
可以单机运行,也可以放在服务器分布式执行。
CN201610610369.3A 2016-07-29 2016-07-29 基于分布式的电商数据整合方法 Pending CN106227862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610610369.3A CN106227862A (zh) 2016-07-29 2016-07-29 基于分布式的电商数据整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610610369.3A CN106227862A (zh) 2016-07-29 2016-07-29 基于分布式的电商数据整合方法

Publications (1)

Publication Number Publication Date
CN106227862A true CN106227862A (zh) 2016-12-14

Family

ID=57536639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610610369.3A Pending CN106227862A (zh) 2016-07-29 2016-07-29 基于分布式的电商数据整合方法

Country Status (1)

Country Link
CN (1) CN106227862A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599244A (zh) * 2016-12-20 2017-04-26 飞狐信息技术(天津)有限公司 通用的原始日志清洗装置及方法
CN107301214A (zh) * 2017-06-09 2017-10-27 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备
CN107463664A (zh) * 2017-08-01 2017-12-12 山东浪潮云服务信息科技有限公司 一种基于政务数据采集的etl处理方法及装置
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN108038201A (zh) * 2017-12-12 2018-05-15 无锡华云数据技术服务有限公司 一种数据整合***及其分布式数据整合***
CN108038140A (zh) * 2017-11-23 2018-05-15 广东岭南通股份有限公司 交通一卡通交易数据全量查重方法及***
CN108205531A (zh) * 2016-12-16 2018-06-26 北京京东尚科信息技术有限公司 数据抽取方法和数据抽取***
CN108563665A (zh) * 2018-01-05 2018-09-21 成都兴政电子政务运营服务有限公司 一种基于大数据技术的数据处理***及方法
CN111428132A (zh) * 2020-03-18 2020-07-17 腾讯科技(深圳)有限公司 数据的校验方法及装置、计算机存储介质、电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库***
US20130013552A1 (en) * 2011-07-07 2013-01-10 Platfora, Inc. Interest-Driven Business Intelligence Systems and Methods of Data Analysis Using Interest-Driven Data Pipelines
CN104317928A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式数据库的业务etl方法及***
CN104572895A (zh) * 2014-12-24 2015-04-29 天津南大通用数据技术股份有限公司 MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN105512201A (zh) * 2015-11-26 2016-04-20 晶赞广告(上海)有限公司 数据收集和加工方法及装置
CN105760505A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 基于hive的历史数据分析及存档方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013552A1 (en) * 2011-07-07 2013-01-10 Platfora, Inc. Interest-Driven Business Intelligence Systems and Methods of Data Analysis Using Interest-Driven Data Pipelines
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库***
CN104317928A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式数据库的业务etl方法及***
CN104572895A (zh) * 2014-12-24 2015-04-29 天津南大通用数据技术股份有限公司 MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN105512201A (zh) * 2015-11-26 2016-04-20 晶赞广告(上海)有限公司 数据收集和加工方法及装置
CN105760505A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 基于hive的历史数据分析及存档方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205531A (zh) * 2016-12-16 2018-06-26 北京京东尚科信息技术有限公司 数据抽取方法和数据抽取***
CN106599244A (zh) * 2016-12-20 2017-04-26 飞狐信息技术(天津)有限公司 通用的原始日志清洗装置及方法
CN106599244B (zh) * 2016-12-20 2024-01-05 飞狐信息技术(天津)有限公司 通用的原始日志清洗装置及方法
CN107301214A (zh) * 2017-06-09 2017-10-27 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备
CN107301214B (zh) * 2017-06-09 2020-08-28 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备
CN107463664A (zh) * 2017-08-01 2017-12-12 山东浪潮云服务信息科技有限公司 一种基于政务数据采集的etl处理方法及装置
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN108038140A (zh) * 2017-11-23 2018-05-15 广东岭南通股份有限公司 交通一卡通交易数据全量查重方法及***
CN108038201A (zh) * 2017-12-12 2018-05-15 无锡华云数据技术服务有限公司 一种数据整合***及其分布式数据整合***
CN108563665A (zh) * 2018-01-05 2018-09-21 成都兴政电子政务运营服务有限公司 一种基于大数据技术的数据处理***及方法
CN111428132A (zh) * 2020-03-18 2020-07-17 腾讯科技(深圳)有限公司 数据的校验方法及装置、计算机存储介质、电子设备
CN111428132B (zh) * 2020-03-18 2023-09-19 腾讯科技(深圳)有限公司 数据的校验方法及装置、计算机存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN106227862A (zh) 基于分布式的电商数据整合方法
CN104102737B (zh) 一种历史数据存储方法和***
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
Aly et al. M3: Stream processing on main-memory mapreduce
CN108280084A (zh) 一种数据仓库的构建方法、***及服务器
CN105139281A (zh) 一种电力营销大数据的处理方法及***
CN104102702A (zh) 一种实现软硬件结合的面向应用的大数据***及方法
CN103399887A (zh) 一种海量日志的查询与统计分析***
CN109800262A (zh) 数据共享交换方法及***
CN103425762A (zh) 基于Hadoop平台的电信运营商海量数据处理方法
CN109271382A (zh) 一种面向全数据形态开放共享的数据湖***
CN105930479A (zh) 一种数据倾斜处理方法及装置
CN104077402A (zh) 数据处理方法和数据处理***
CN103514205A (zh) 海量数据处理方法和***
Asaad et al. A review: big data technologies with hadoop distributed filesystem and implementing M/R
CN103455896A (zh) 基于物联网的无纸化装配质量控制方法
CN107644050A (zh) 一种基于solr的Hbase的查询方法及装置
CN104598536A (zh) 一种分布式网络信息结构化处理方法
Sinaeepourfard et al. A comprehensive scenario agnostic Data LifeCycle model for an efficient data complexity management
Saranya et al. Data migration using etl workflow
CN112214453A (zh) 大规模工业数据压缩存储方法、***及介质
CN107491558A (zh) 元数据更新方法及装置
CN106780157A (zh) 基于Ceph的电网多时态模型存储与管理***及方法
CN104714983B (zh) 分布式索引的生成方法及装置
CN112925767A (zh) 基于互联网监管的多数据源动态数据同步治理方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214