CN104933112A - 分布式互联网交易信息存储处理方法 - Google Patents

分布式互联网交易信息存储处理方法 Download PDF

Info

Publication number
CN104933112A
CN104933112A CN201510302559.4A CN201510302559A CN104933112A CN 104933112 A CN104933112 A CN 104933112A CN 201510302559 A CN201510302559 A CN 201510302559A CN 104933112 A CN104933112 A CN 104933112A
Authority
CN
China
Prior art keywords
data
distributed
warehouse
transaction information
fairground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510302559.4A
Other languages
English (en)
Other versions
CN104933112B (zh
Inventor
陈海江
吕浩
邵奇可
颜世航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Li Shi Science And Technology Co Ltd
Original Assignee
Zhejiang Li Shi Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Li Shi Science And Technology Co Ltd filed Critical Zhejiang Li Shi Science And Technology Co Ltd
Priority to CN201510302559.4A priority Critical patent/CN104933112B/zh
Publication of CN104933112A publication Critical patent/CN104933112A/zh
Application granted granted Critical
Publication of CN104933112B publication Critical patent/CN104933112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式互联网交易信息存储处理方法,包括:操作数据存储功能模块从外部数据层抽取结构化的交易信息数据;分布式数据仓库和非关系型数据库分别从分布式文件***中读取非结构化的网络日志数据;互联网交易信息数据仓库从所述操作数据存储功能模块和所述分布式数据仓库中分别抽取转换加载所述交易信息数据和网络日志数据后进行整合为数据元组,并以星型模型存储该数据元组;数据集市从所述互联网交易信息数据仓库,和/或所述分布式数据仓库中抽取转换加载集市指定数据;商业智能***根据数据分析需要从所述数据集市,和/或所述非关系型数据库中获取分析所需数据。本发明针对互联网交易数据分析处理的应用场景。

Description

分布式互联网交易信息存储处理方法
技术领域
本发明涉及一种分布式互联网交易信息存储处理方法。
背景技术
数据分析处理的模型和结果只有运用于某些决策应用中才能产生真正的价值,而通过基于事实的支持***来辅助决策而知等一些系列理论和方法便是商业智能(Bussiness Intelligence,简称BI)。随着信息化高度发展,商业智能越来越被重视,尤其是联合在线分析OLAP(即基于数据库、大数据的联机快速分析),更是某种程度上是商业智能的主要处理方法,传统行业的BI解决方案中的核心数据仓库架构设计如图1所示。
然而,互联网交易信息数据不适合采用BI解决方案,主要原因有以下几点:
1.互联网电子商务交易的数据源多种多样,包括不同的电商平台、各种关系型数据库、社交软件产生的数据以及网络日志数据等等;所以单一的ETL工具无法处理好所有的数据。
2.电子商务交易的数据量巨大,传统的集中式关系型数据库无法满足处理如此大规模数据的要求。
3.互联网交易监测对数据分析处理的实时性要求较高,大部分的监测预警需要在短时间内完成处理才能体现数据的价值,传统的离线ETL处理方式已经无法满足需求。
4.互联网交易的用户数量巨大,而传统的BI展现工具设计主要是针对企业的中高层用户,移植到电子商务行业无论从交互效率和用户体验都存在较大的差异。目前的传统模式的商业智能***,并不能很好的适用于互联网交易信息的大规模,异构数据源以及对数据分析实时性的需求。
发明内容
本发明针对互联网交易数据分析处理的应用场景,结合互联网电子商务分析预警的特点基础上,针对现有技术中的缺陷,本发明的目的是提供分布式互联网交易信息存储处理方法。
根据本发明提供的一种分布式互联网交易信息存储处理方法,包括:
操作数据存储功能模块从外部数据层抽取结构化的交易信息数据;
分布式数据仓库和非关系型数据库分别从分布式文件***中读取非结构化的网络日志数据;
互联网交易信息数据仓库从所述操作数据存储功能模块和所述分布式数据仓库中分别抽取转换加载所述交易信息数据和网络日志数据后进行整合为数据元组,并以星型模型存储该数据元组;
数据集市根从所述互联网交易信息数据仓库,和/或所述分布式数据仓库中抽取转换加载集市指定数据;
商业智能***根据数据分析需要从所述数据集市,和/或所述非关系型数据库中获取分析所需数据。
作为一种优化方案,所述数据集市包括交易集市、销售集市以及客服集市;
所述交易集市、销售集市根据业务需要从所述互联网交易信息数据仓库抽取转换加载所述集市指定数据;
所述客服集市根据业务需要从所述分布式数据仓库中抽取转换加载所述集市指定数据。
作为一种优化方案,所述客服集市与所述商业智能***之间还经过MemCache缓存***进行数据传输;
所述商业智能***在向所述客服集市获取分析所需数据时先查看所请求的分析所需的数据是否在MemCache缓存***中,若有,则直接从MemCache缓存***中获取,若不在,则从所述客服集市获取分析所需数据并在MemCache缓存***中缓存一份。
作为一种优化方案,所述智能商务***用于数据挖掘、企业分析、客户分析、数据文件分析以及在线分析。
作为一种优化方案,所述操作数据存储功能模块包括三层结构:
映射层:把外部数据层的数据原表的字段映射到操作数据存储功能模块的本地数据库中,完成数据从业务层到分析层的关联;
数据预处理层:对所述交易信息数据进行预处理,该预处理包括整合、筛选和增加关联表;
数据清洗层:对于有质量问题的交易信息数据进行数据清洗操作。
作为一种优化方案,所述星型模型位于星形中心的事实表包括若干条数据元组的时间地址、地域地址、店铺地址、产品地址以及该条数据元组对应的交易数量和交易金额;
所述星型模型的维表包括店铺维表、时间维表、产品维表和地域维表;
所述店铺维表包含电商平台信息、平台板块信息和店铺管理信息;
所述时间维表包含时间信息;
所述产品维表包含产品名称、产品描述、产品售价以及产品质量;
所述地域维表包含地理位置信息,该地理位置信息包含国家、省份、城市。
作为一种优化方案,所述操作数据存储功能模块使用全量加载方式,具体为:
S101,清空所述操作数据存储功能模块的目标表,
S102,将外部数据层的全量交易信息数据***该目标表。
作为一种优化方案,所述操作数据存储功能模块使用增量加载方式,具体为:
S201,清空所述操作数据存储功能模块的临时表,
S202,将外部数据层的增量交易信息数据***该临时表,
S203,删除目标表与该临时表重复的数据,
S204,将临时表中的数据***目标表中后返回步骤S1直至数据全部抽取结束。
作为一种优化方案,所述互联网交易信息数据仓库的维表为增量加载方式,事实表为全量加载方式;
互联网交易信息数据仓库的维表增量加载过程具体为:
S301,在临时表中对增量数据按照维表历史数据的行号计算排序,
S302,将具有所述排序的增量数据***临时表,
S303,清空互联网交易信息数据仓库的维表,
S304,将所述操作数据存储功能模块的数据表与所述临时表关联,将所述具有所述排序的增量数据***互联网交易信息数据仓库的维表;
事实表的增量加载过程具体为:
清空临时表后,判断是否还有指标取自不同的事实表;
若还有指标取自不同的事实表,则重复取出事实表中时间戳范围内的不同业务事件的过程,直至所有业务事件都被取出后循环结束;
若没有指标取自不同的事实表,则取出事实表中时间戳范围内的不同业务事件,将第一临时表的数据按照维度字段汇总到第二临时表中,删除目标事实表中与该第二临时表重复的数据,将所述第二临时表的数据***目标事实表。
与现有技术相比,本发明具有如下的有益效果:
本发明针对互联网电子商务交易信息特点,设计面向应用的、集成的、具有时间特征的、稳定的数据集合,来为交易数据处理、分析和监测决策提供支持。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:
图1是传统行业的BI解决方案中的核心数据仓库架构图;
图2是可选实施例中的一种分布式互联网交易信息存储架构示意图;
图3是数据仓库的原理框架;
图4是可选实施例中的一种分布式互联网交易信息存储处理方法原理图;
图5是数据仓库星型模型示意图;
图6是操作数据存储功能模块(ODS)全量加载流程图;
图7为操作数据存储功能模块(ODS)增量加载流程图;
图8为互联网交易信息数据仓库(DW)的维表增量加载流程图;
图9为DW的事实表(DM)增量加载流程图;
图10为操作数据存储功能模块ODS、互联网交易信息数据仓库DW、事实表DM之间的关系示意图。
具体实施方式
下文结合附图以具体实施例的方式对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,还可以使用其他的实施例,或者对本文列举的实施例进行结构和功能上的修改,而不会脱离本发明的范围和实质。
本发明针对互联网交易数据分析处理的应用场景,结合互联网电子商务分析预警的特点基础上,主要包括前段报表模块、ETL模块、数据仓库模块、数据库管理模块、数据调度模块和Web service模块组成。本发明针对互联网电子商务交易信息特点,设计面向应用的、集成的、具有时间特征的、稳定的数据集合,来为交易数据处理、分析和监测决策提供支持,整体架构如图2所示。
在本发明提供的一种分布式互联网交易信息存储处理方法的实施例中,如图2和图4所示,包括:
操作数据存储功能模块从外部数据层抽取结构化的交易信息数据;
分布式数据仓库和非关系型数据库分别从分布式文件***中读取非结构化的网络日志数据;
互联网交易信息数据仓库从所述操作数据存储功能模块和所述分布式数据仓库中分别抽取转换加载所述交易信息数据和网络日志数据后进行整合为数据元组,并以星型模型存储该数据元组;
数据集市根从所述互联网交易信息数据仓库,和/或所述分布式数据仓库中抽取转换加载集市指定数据;
商业智能***根据数据分析需要从所述数据集市,和/或所述非关系型数据库中获取分析所需数据。
所述抽取转换加载为ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
随着电子商务的发展,需要实时对用户的交易行为进行在线分析,比如显示某个网上店铺的所有历史访问和询盘记录,同时实时追踪显示这个店铺在电商平台上正在被访问的页面等信息,采用传统的支持离线分析和复杂查询的关系型数据库难以满足这样的需求。同时,电子商务行业越来越多的网站日志、用户行为这样的半结构化的大数据处理结合复杂的数据挖掘处理,因此本发明采用力石科技的大数据平台或Hadoop来实现海量数据册处理工具。力石科技大数据处理核心模块主要包含云数据库、云存储、搜索引擎和数据分析,能处理结构化、半结构化、非结构化数据,支持标准接口,提供一站式自动化的数据部署、迁移、备份、恢复、容灾等功能。数据仓库的原理框架如图3所示。
数据仓库的数据通过标准的数据接口,来源自互联网电子商务交易平台并且开放给外部应用。数据仓库按照数据流向分成三层结构:数据层、信息层和分析层,如图4所示。
数据层
通过推送式的标准数据接口,使用和电商平台数据库一致模型或者中间表的方式获取电商平台的外部数据,再由ODS进行数据抽取或者说数据抓取,抽取的格式包括XML和TXT等。
信息层
在数据层和互联网交易信息数据仓库层中间增加操作数据存储功能模块(ODS:Operation Data Storage)。目的是作为一个缓冲库,将多个数据源的数据集成到一个临时缓冲区中供数据仓库使用,来有效减轻数据源和ETL的压力。
其中,ODS包括三层结构:
映射层:把外部数据层的数据原表的字段映射到操作数据存储功能模块的本地数据库中,完成数据从业务层到分析层的关联,对于外部数据也是通过***管理到映射层进行集中。
数据预处理层:对所述交易信息数据进行预处理,该预处理包括整合、筛选和增加关联表,目的在于简化和提升ETL的工作;
数据清洗:对于有质量问题的交易信息数据进行数据清洗操作。
ODS存储的都是从各类电商平台抓取的互联网交易信息数据。
分析层
通过BI***和Hadoop工具对各类电商平台的交易信息数据和非结构化的网站日志进行数据挖掘、企业分析、客户分析、数据支持和在线分析等处理。所述智能商务***用于数据挖掘、企业分析、客户分析、数据文件分析以及在线分析。
对于存储处理结构化交易信息数据的互联网易信息数据仓库采用关系数据库、内存数据库和分布式数据库的综合体,对于关系数据库采用适合传统的BI服务进行分析处理;对于大量的实时数据的存储和实时查询分析采用支持HBase的Hadoop分布式文件***HDFS为基础的非关系型数据库(Nosql)。
如图4所示的实施例中,所述数据集市包括交易集市、销售集市以及客服集市;
所述交易集市、销售集市根据业务需要从所述互联网交易信息数据仓库抽取转换加载所述集市指定数据;
所述客服集市根据业务需要从所述分布式数据仓库中抽取转换加载所述集市指定数据。
所述交易集市用于存储处理买家和店铺的交易相关信息,如交易时间、交易数量等。
所述销售集市用于存储处理店铺的销售相关数据,如店铺访问量、销售情况等。
所述客服集市用于存储处理买家的投诉信息和交易中的双方交互。
本实施例中的分布式数据仓库是力石云数据库,提供高性能、高可用的分布式关系型数据库一体机,能支持OLAP、OLTP及混合性应用,支持高性能(分布式)、高可用,支持热迁移、热备份、热恢复,支持标准SQL、支持主流开发语言,支持基于x86、龙芯、飞腾、PowerPC 等芯片服务器、对硬件要求低。
也可以采用HBase,即Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储***
图4中分布式数据仓库和非关系型数据库分别从分布式文件***中读取非结构化的网络日志数据。在客服需要调取交易记录和与之对应的交易数据时,从HBASE中直接通过ETL方式抽取,而如果是第三方的商业智能***需要对互联网交易数据进行统计分析,无需详细的交易信息,则直接从所述NOSQL中获取各类电商平台的网络日志数据即可。由此提高了运行速度,使得***存储处理更加高效。
作为一种实施例,所述客服集市与所述商业智能***之间还经过MemCache缓存***进行数据传输;
所述商业智能***在向所述客服集市获取分析所需数据时先查看所请求的分析所需的数据是否在MemCache缓存***中,若有,则直接从MemCache缓存***中获取,若不在,则从所述客服集市获取分析所需数据并在MemCache缓存***中缓存一份。
Memcache是一个高性能的分布式的内存对象缓存***,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调用到内存中,然后从内存中读取,从而大大提高读取速度。
互联网交易信息数据仓库的元数据存储模式采用适合维度和事实分离的星型模型,如图5所示。数据已经经过预处理,关于事实的维度信息已经从事实中抽离出来建立在相应的维表中。处理流程是:ODS层从业务层抽取到关于业务流程相关的数据;在仓库层(DW层)按照业务功能进行数据层设计(主要包括时间维度表、地域维度表等公共维度);事实表(DM层)是历史数据的事实,不具有在业务上的重复出现,对应为业务关联关系表、信誉表、访问量等,事实表是星星结构的核心,记录主体的主干内容。
在如图5所示的实施例中,所述星型模型位于星形中心的事实表包括若干条数据元组的时间地址、地域地址、店铺地址、产品地址以及该条数据元组对应的交易数量和交易金额;
所述星型模型的维表包括店铺维表、时间维表、产品维表和地域维表;
所述店铺维表包含电商平台信息、平台板块信息和店铺管理信息;
所述时间维表包含时间信息;
所述产品维表包含产品名称、产品描述、产品售价以及产品质量;
所述地域维表包含地理位置信息,该地理位置信息包含国家、省份、城市。
作为一种实施例,如图6所示,所述操作数据存储功能模块使用全量加载方式,具体为:
S101,清空所述操作数据存储功能模块的目标表,
S102,将外部数据层的全量交易信息数据***该目标表。
作为一种实施例,如图7所示,所述操作数据存储功能模块使用增量加载方式,具体为:
S201,清空所述操作数据存储功能模块的临时表,
S202,将外部数据层的增量交易信息数据***该临时表,
S203,删除目标表与该临时表重复的数据,
S204,将临时表中的数据***目标表中后返回步骤S1直至数据全部抽取结束。
作为一种实施例,如图8所示,所述互联网交易信息数据仓库的维表为增量加载方式,事实表为全量加载方式;
互联网交易信息数据仓库的维表增量加载过程具体为:
S301,在临时表中对增量数据按照维表历史数据的行号计算排序,
S302,将具有所述排序的增量数据***临时表,
S303,清空互联网交易信息数据仓库的维表,
S304,将所述操作数据存储功能模块的数据表与所述临时表关联,将所述具有所述排序的增量数据***互联网交易信息数据仓库的维表。
作为一种实施例,如图9所示,事实表的增量加载过程具体为:
清空临时表后,判断是否还有指标取自不同的事实表;
若还有指标取自不同的事实表,则重复取出事实表中时间戳范围内的不同业务事件的过程,直至所有业务事件都被取出后循环结束;
若没有指标取自不同的事实表,则取出事实表中时间戳范围内的不同业务事件,将第一临时表的数据按照维度字段汇总到第二临时表中,删除目标事实表中与该第二临时表重复的数据,将所述第二临时表的数据***目标事实表。
本实施例智能各类全量加载或增量加载完成之后都还包括一个将***情况写入***日志的步骤。
采用多维联机分析处理(OLAP: Online Analysis Processing)来根据不同业务需求,从不同需求角度(如销售、客服、财务、时间、地域、行业等视角)对来自其他的数据结构的相关数据进行交叉分析。通过对数据的分析和前段***的多维呈现,实现对互联网交易信息展示和实时动向分析预警。首先提取维度和指标信息;其次由于各个主体间维度在定义时都是相互独立的,为了数据的一致性和关联关系,将建立各个分析主体维度的关系信息,实现主体扩展和关联;建立好数据模型之后,利用ETL将数据仓库中的数据按照客户需求进行相应的统计汇总得到多维分析数据,最后形成报表。
本发明设计了合理的***架构以及相适应的ETL、数据仓库和数据维度设计,使其适用于互联网交易信息的存储处理。
考虑到对不同电商平台的数据进行处理和存储,所以应用层的需求不同;同时对用户的需求变化不仅仅是单一项目可用,所以需要同时兼顾查询效率和数据力度的需求以及良好的可扩展性,采用星型多维数据模型作为数据仓库模型。
经过预处理的数据,把从事实中抽取的关于事实表的维度信息建立在相应的维度表中。因此,处理层功能模块只需要对事实表进行查询就可以获取事务数据,大大提高了访问的效率。操作数据存储功能模块ODS、互联网交易信息数据仓库DW、事实表DM之间的关系示意图如图10所示。
ODS层对应从数据层抽取到关于互联网交易主体和行为的数据;DW层为数据仓库层,主要存储与互联网交易相关时间维表、地域维表等公共信息维表;DM对应事实表,也就是星型结构的核心,记录交易的关联关系等信息。
ETL更新机制,仓库最先更新,集市在更新;维度先更新,事实再更新的机制。
以上所述仅为本发明的较佳实施例,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等同替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims (9)

1.一种分布式互联网交易信息存储处理方法,其特征在于,包括:
操作数据存储功能模块从外部数据层抽取结构化的交易信息数据;
分布式数据仓库和非关系型数据库分别从分布式文件***中读取非结构化的网络日志数据;
互联网交易信息数据仓库从所述操作数据存储功能模块和所述分布式数据仓库中分别抽取转换加载所述交易信息数据和网络日志数据后进行整合为数据元组,并以星型模型存储该数据元组;
数据集市从所述互联网交易信息数据仓库,和/或所述分布式数据仓库中抽取转换加载集市指定数据;
商业智能***根据数据分析需要从所述数据集市,和/或所述非关系型数据库中获取分析所需数据。
2.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述数据集市包括交易集市、销售集市以及客服集市;
所述交易集市、销售集市根据业务需要从所述互联网交易信息数据仓库抽取转换加载所述集市指定数据;
所述客服集市根据业务需要从所述分布式数据仓库中抽取转换加载所述集市指定数据。
3.根据权利要求2所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述客服集市与所述商业智能***之间还经过MemCache缓存***进行数据传输;
所述商业智能***在向所述客服集市获取分析所需数据时先查看所请求的分析所需的数据是否在MemCache缓存***中,若有,则直接从MemCache缓存***中获取,若不在,则从所述客服集市获取分析所需数据并在MemCache缓存***中缓存一份。
4.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述智能商务***用于数据挖掘、企业分析、客户分析、数据文件分析以及在线分析。
5.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述操作数据存储功能模块包括三层结构:
映射层:把外部数据层的数据原表的字段映射到操作数据存储功能模块的本地数据库中,完成数据从业务层到分析层的关联;
数据预处理层:对所述交易信息数据进行预处理,该预处理包括整合、筛选和增加关联表;
数据清洗层:对于有质量问题的交易信息数据进行数据清洗操作。
6.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述星型模型位于星形中心的事实表包括若干条数据元组的时间地址、地域地址、店铺地址、产品地址以及该条数据元组对应的交易数量和交易金额;
所述星型模型的维表包括店铺维表、时间维表、产品维表和地域维表;
所述店铺维表包含电商平台信息、平台板块信息和店铺管理信息;
所述时间维表包含时间信息;
所述产品维表包含产品名称、产品描述、产品售价以及产品质量;
所述地域维表包含地理位置信息,该地理位置信息包含国家、省份、城市。
7.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述操作数据存储功能模块使用全量加载方式,具体为:
S101,清空所述操作数据存储功能模块的目标表,
S102,将外部数据层的全量交易信息数据***该目标表。
8.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述操作数据存储功能模块使用增量加载方式,具体为:
S201,清空所述操作数据存储功能模块的临时表,
S202,将外部数据层的增量交易信息数据***该临时表,
S203,删除目标表与该临时表重复的数据,
S204,将临时表中的数据***目标表中后返回步骤S1直至数据全部抽取结束。
9.根据权利要求1所述的一种分布式互联网交易信息存储处理方法,其特征在于,所述互联网交易信息数据仓库的维表为增量加载方式,事实表为全量加载方式;
互联网交易信息数据仓库的维表增量加载过程具体为:
S301,在临时表中对增量数据按照维表历史数据的行号计算排序,
S302,将具有所述排序的增量数据***临时表,
S303,清空互联网交易信息数据仓库的维表,
S304,将所述操作数据存储功能模块的数据表与所述临时表关联,将所述具有所述排序的增量数据***互联网交易信息数据仓库的维表;
事实表的增量加载过程具体为:
清空临时表后,判断是否还有指标取自不同的事实表;
若还有指标取自不同的事实表,则重复取出事实表中时间戳范围内的不同业务事件的过程,直至所有业务事件都被取出后循环结束;
若没有指标取自不同的事实表,则取出事实表中时间戳范围内的不同业务事件,将第一临时表的数据按照维度字段汇总到第二临时表中,删除目标事实表中与该第二临时表重复的数据,将所述第二临时表的数据***目标事实表。
CN201510302559.4A 2015-06-04 2015-06-04 分布式互联网交易信息存储处理方法 Active CN104933112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510302559.4A CN104933112B (zh) 2015-06-04 2015-06-04 分布式互联网交易信息存储处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510302559.4A CN104933112B (zh) 2015-06-04 2015-06-04 分布式互联网交易信息存储处理方法

Publications (2)

Publication Number Publication Date
CN104933112A true CN104933112A (zh) 2015-09-23
CN104933112B CN104933112B (zh) 2018-12-21

Family

ID=54120280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510302559.4A Active CN104933112B (zh) 2015-06-04 2015-06-04 分布式互联网交易信息存储处理方法

Country Status (1)

Country Link
CN (1) CN104933112B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320757A (zh) * 2015-10-19 2016-02-10 杭州华量软件有限公司 一种快速处理数据的商业智能分析方法
CN105590259A (zh) * 2015-11-04 2016-05-18 ***股份有限公司 交易***的诊断装置和方法
CN105589940A (zh) * 2015-12-16 2016-05-18 南京联成科技发展有限公司 一种基于非结构化实时数据库的安全管理运维服务平台
CN105653696A (zh) * 2015-12-29 2016-06-08 台山核电合营有限公司 一种核电站数据库数据处理方法及***
CN105787660A (zh) * 2016-02-24 2016-07-20 国家电网公司 用于光伏配电网的信息管理***
JP2016170778A (ja) * 2015-03-10 2016-09-23 技研商事インターナショナル株式会社 商圏分析システム
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法
CN106934023A (zh) * 2017-03-13 2017-07-07 山东浪潮云服务信息科技有限公司 一种数据管理方法及装置
CN107832392A (zh) * 2017-10-31 2018-03-23 链家网(北京)科技有限公司 一种元数据管理***
CN107944866A (zh) * 2017-10-17 2018-04-20 厦门市美亚柏科信息股份有限公司 交易记录排重方法及计算机可读存储介质
CN107958046A (zh) * 2017-11-24 2018-04-24 小花互联网金融服务(深圳)有限公司 互联网金融大数据仓库分析挖掘方法
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN108595685A (zh) * 2018-05-04 2018-09-28 北京顶象技术有限公司 一种数据处理方法及装置
CN108733758A (zh) * 2018-04-11 2018-11-02 北京三快在线科技有限公司 酒店静态数据推送方法、装置、电子设备及可读存储介质
CN109189861A (zh) * 2018-06-29 2019-01-11 深圳市彬讯科技有限公司 基于指标的数据流统计方法、服务器及存储介质
CN109325648A (zh) * 2018-06-29 2019-02-12 深圳市彬讯科技有限公司 基于指标的多维度数据流统计方法、服务器及存储介质
CN109656910A (zh) * 2018-12-06 2019-04-19 哈尔滨工业大学 可扩展的大规模生物医学样本管理及可视化平台
CN111581254A (zh) * 2020-05-03 2020-08-25 上海维信荟智金融科技有限公司 基于互联网金融数据的etl方法及***
CN112256523A (zh) * 2020-09-23 2021-01-22 贝壳技术有限公司 业务数据处理方法及装置
CN112380218A (zh) * 2020-11-18 2021-02-19 浪潮天元通信信息***有限公司 一种基于etl进行数据仓库各层数据表汇总的自动触发方法
CN112395345A (zh) * 2020-12-04 2021-02-23 江苏苏宁云计算有限公司 HBase的全量数据导入方法、装置、计算机设备及存储介质
CN112416630A (zh) * 2020-12-10 2021-02-26 湖南新云网科技有限公司 一种数据流架构及数据处理方法
CN112650738A (zh) * 2020-12-31 2021-04-13 广西中科曙光云计算有限公司 一种开放数据库的构建方法
CN112947844A (zh) * 2019-12-11 2021-06-11 北京金山云网络技术有限公司 一种数据存储方法、装置、电子设备及介质
CN113362018A (zh) * 2021-05-25 2021-09-07 北京明略软件***有限公司 一种会议时长的处理方法及***
CN113515362A (zh) * 2021-07-12 2021-10-19 广州云从洪荒智能科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113742320A (zh) * 2021-11-05 2021-12-03 亿景智联(北京)科技有限公司 一种olap数据仓库的管理方法及装置
WO2022133981A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 数据处理方法、平台、计算机可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043841A (zh) * 2010-12-10 2011-05-04 上海市城市建设设计研究院 基于Web技术的多源信息供给方法及其集成服务***
CN102867282A (zh) * 2012-09-13 2013-01-09 福建富士通信息软件有限公司 一种基于移动互联网的客户服务质量分析***的实现方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和***
CN104298779A (zh) * 2014-11-04 2015-01-21 中国银行股份有限公司 海量数据加工的处理方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043841A (zh) * 2010-12-10 2011-05-04 上海市城市建设设计研究院 基于Web技术的多源信息供给方法及其集成服务***
CN102867282A (zh) * 2012-09-13 2013-01-09 福建富士通信息软件有限公司 一种基于移动互联网的客户服务质量分析***的实现方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和***
CN104298779A (zh) * 2014-11-04 2015-01-21 中国银行股份有限公司 海量数据加工的处理方法和***

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170778A (ja) * 2015-03-10 2016-09-23 技研商事インターナショナル株式会社 商圏分析システム
CN105320757A (zh) * 2015-10-19 2016-02-10 杭州华量软件有限公司 一种快速处理数据的商业智能分析方法
CN105590259A (zh) * 2015-11-04 2016-05-18 ***股份有限公司 交易***的诊断装置和方法
CN105589940A (zh) * 2015-12-16 2016-05-18 南京联成科技发展有限公司 一种基于非结构化实时数据库的安全管理运维服务平台
CN105653696A (zh) * 2015-12-29 2016-06-08 台山核电合营有限公司 一种核电站数据库数据处理方法及***
CN105787660A (zh) * 2016-02-24 2016-07-20 国家电网公司 用于光伏配电网的信息管理***
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN106934023A (zh) * 2017-03-13 2017-07-07 山东浪潮云服务信息科技有限公司 一种数据管理方法及装置
CN107944866A (zh) * 2017-10-17 2018-04-20 厦门市美亚柏科信息股份有限公司 交易记录排重方法及计算机可读存储介质
CN107944866B (zh) * 2017-10-17 2021-08-31 厦门市美亚柏科信息股份有限公司 交易记录排重方法及计算机可读存储介质
CN107832392A (zh) * 2017-10-31 2018-03-23 链家网(北京)科技有限公司 一种元数据管理***
CN107958046A (zh) * 2017-11-24 2018-04-24 小花互联网金融服务(深圳)有限公司 互联网金融大数据仓库分析挖掘方法
CN108733758A (zh) * 2018-04-11 2018-11-02 北京三快在线科技有限公司 酒店静态数据推送方法、装置、电子设备及可读存储介质
CN108733758B (zh) * 2018-04-11 2022-04-05 北京三快在线科技有限公司 酒店静态数据推送方法、装置、电子设备及可读存储介质
CN108595685A (zh) * 2018-05-04 2018-09-28 北京顶象技术有限公司 一种数据处理方法及装置
CN109189861A (zh) * 2018-06-29 2019-01-11 深圳市彬讯科技有限公司 基于指标的数据流统计方法、服务器及存储介质
CN109325648A (zh) * 2018-06-29 2019-02-12 深圳市彬讯科技有限公司 基于指标的多维度数据流统计方法、服务器及存储介质
CN109656910A (zh) * 2018-12-06 2019-04-19 哈尔滨工业大学 可扩展的大规模生物医学样本管理及可视化平台
CN109656910B (zh) * 2018-12-06 2021-04-13 哈尔滨工业大学 可扩展的大规模生物医学样本管理及可视化平台
CN112947844A (zh) * 2019-12-11 2021-06-11 北京金山云网络技术有限公司 一种数据存储方法、装置、电子设备及介质
CN111581254A (zh) * 2020-05-03 2020-08-25 上海维信荟智金融科技有限公司 基于互联网金融数据的etl方法及***
CN112256523A (zh) * 2020-09-23 2021-01-22 贝壳技术有限公司 业务数据处理方法及装置
CN112380218A (zh) * 2020-11-18 2021-02-19 浪潮天元通信信息***有限公司 一种基于etl进行数据仓库各层数据表汇总的自动触发方法
CN112380218B (zh) * 2020-11-18 2023-03-28 浪潮通信信息***有限公司 一种基于etl进行数据仓库各层数据表汇总的自动触发方法
CN112395345A (zh) * 2020-12-04 2021-02-23 江苏苏宁云计算有限公司 HBase的全量数据导入方法、装置、计算机设备及存储介质
CN112416630A (zh) * 2020-12-10 2021-02-26 湖南新云网科技有限公司 一种数据流架构及数据处理方法
US11983193B2 (en) 2020-12-25 2024-05-14 Boe Technology Group Co., Ltd. Data processing method, platform, computer-readable storage medium and electronic device
WO2022133981A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 数据处理方法、平台、计算机可读存储介质及电子设备
CN112650738A (zh) * 2020-12-31 2021-04-13 广西中科曙光云计算有限公司 一种开放数据库的构建方法
CN112650738B (zh) * 2020-12-31 2021-09-21 广西中科曙光云计算有限公司 一种开放数据库的构建方法
CN113362018A (zh) * 2021-05-25 2021-09-07 北京明略软件***有限公司 一种会议时长的处理方法及***
CN113515362B (zh) * 2021-07-12 2023-10-20 广州云从洪荒智能科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113515362A (zh) * 2021-07-12 2021-10-19 广州云从洪荒智能科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113742320B (zh) * 2021-11-05 2022-03-01 亿景智联(北京)科技有限公司 一种olap数据仓库的管理方法及装置
CN113742320A (zh) * 2021-11-05 2021-12-03 亿景智联(北京)科技有限公司 一种olap数据仓库的管理方法及装置

Also Published As

Publication number Publication date
CN104933112B (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN104933112A (zh) 分布式互联网交易信息存储处理方法
CN103365929B (zh) 一种数据库连接的管理方法及***
CN104750681B (zh) 一种海量数据的处理方法及装置
Bao et al. Managing massive trajectories on the cloud
US9798813B2 (en) Extensible person container
CN103268336A (zh) 一种快数据和大数据结合的数据处理方法及其***
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和***
CN103440288A (zh) 一种大数据存储方法及装置
CN110990474A (zh) 一种区域性产业画像分析的方法及装置
CN104239377A (zh) 跨平台的数据检索方法及装置
CN110837520A (zh) 一种数据处理方法、平台及***
CN112148718A (zh) 一种用于城市级数据中台的大数据支撑管理***
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN107832392A (zh) 一种元数据管理***
CN105630934A (zh) 一种数据统计方法及***
CN103455335A (zh) 一种多级分类的Web实现方法
CN107832463A (zh) 一种金融数据服务平台
CN111737364A (zh) 安全多方数据融合与联邦共享方法、装置、设备及介质
CN111708895A (zh) 一种知识图谱***的构建方法及装置
CN113127741B (zh) 兼职岗位推荐***中海量用户和岗位数据读写的缓存方法
CN102945270B (zh) 并行化分布式网络舆情数据管理方法及***
CN109446167A (zh) 一种日志数据存储、提取方法及装置
Singh et al. Easy designing steps of a local data warehouse for possible analytical data processing
Dong et al. Research on Architecture of Power Big Data High-Speed Storage System for Energy Interconnection
CN106156904A (zh) 一种基于eID的跨平台虚拟资产溯源方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Distributed Internet transaction information storage and processing method

Effective date of registration: 20200306

Granted publication date: 20181221

Pledgee: Huaxia Bank Co., Ltd. Hangzhou Yuhang sub branch

Pledgor: Zhejiang Li Shi Science and Technology Co., Ltd.

Registration number: Y2020330000080

PE01 Entry into force of the registration of the contract for pledge of patent right