CN114546415A - 一种用于云平台大数据储存优化分析*** - Google Patents

一种用于云平台大数据储存优化分析*** Download PDF

Info

Publication number
CN114546415A
CN114546415A CN202210162512.2A CN202210162512A CN114546415A CN 114546415 A CN114546415 A CN 114546415A CN 202210162512 A CN202210162512 A CN 202210162512A CN 114546415 A CN114546415 A CN 114546415A
Authority
CN
China
Prior art keywords
data
layer
platform
business
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210162512.2A
Other languages
English (en)
Other versions
CN114546415B (zh
Inventor
袁建
周子岩
赵可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Tendering Co ltd
Original Assignee
Huaneng Tendering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Tendering Co ltd filed Critical Huaneng Tendering Co ltd
Priority to CN202210162512.2A priority Critical patent/CN114546415B/zh
Priority claimed from CN202210162512.2A external-priority patent/CN114546415B/zh
Publication of CN114546415A publication Critical patent/CN114546415A/zh
Application granted granted Critical
Publication of CN114546415B publication Critical patent/CN114546415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及云平台大数据技术领域,且公开了一种用于云平台大数据储存优化分析***,包括以下:搭建数据集成平台;建立数据仓库;部署BI数据分析平台;搭建***底层框架,与事务型数据库***通过锁机制来控制并发访问的机制不同,GPDB使用多版本控制保证数据一致性,这意味着在查询数据库时,每个事务看到的只是数据的快照,其确保当前的事务不会看到其他事务在相同记录上的修改,据此为数据库的每个事务提供事务隔离,在迸发控制方面,使用MVCC而不是使用锁机制的最大优势是,MVCC对查询、读的锁与写的锁不存在冲突,并且读与写之间不互相阻塞。

Description

一种用于云平台大数据储存优化分析***
技术领域
本发明涉及云平台大数据技术领域,具体为一种用于云平台大数据储存优化分析***。
背景技术
MVCC的英文全称是MultiversionConcurrencyControl,中文意思是多版本并发控制技术,原理是,通过数据行的多个版本管理来实现数据库的迸发控制,简单来说就是保存数据的历史版本。
但MVCC在读写之间存在有阻塞的问题,从而使得数据并发处理能力下降,对查询(读)的锁与写的锁存在冲突,而增加了死锁的概率,为此提出一种用于云平台大数据储存优化分析***。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于云平台大数据储存优化分析***,以解决上述背景技术中提出的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种用于云平台大数据储存优化分析***,包括以下步骤:
S1、搭建数据集成平台,用于采用图观ETL集成平台实施部署,其中包含Kettle和图观IPAS产品;
S2、建立数据仓库,用于采用开源GreenPlum集群作为底层数据库,结合图观数据仓库解决方案实施;
S3、部署BI数据分析平台,用于采用图观AG产品实施部署;
S4、搭建***底层框架,用于采用图观SEA2企业计算平台作为***底层框架。
优选的,根据步骤S1中所提出的,包括七项,具体如下:
第一项:数据集成平台建设目标,是将分散的业务数据集成整合,打通数据孤岛,整合存储数据;
第二项:数据集成平台功能实现,平台使用采用图观ETL集成平台实施搭建,平台高度集成KETTLE和图观IPAS产品,平台支持JDBC数据库视图、API接口、FILE文件三种方式连接生产***,并进行数据连通性校验,通过KETTLE连接关系型数据进行非实时批量接入,IPAS连接API接口进行实时数据接入,根据数据量级和性质,开发脚本时可以自由选择增量或者全量抽取数据;
第三项:统一的数据集成操作,数据集成工作都在数据集成平台中完成,无需另外编写程序进行数据抽取工作,平台有一套数据集成标准和规范,客户经过一定的培训即可自行完成一部分数据集成工作,大部分操作为图形化操作,低代码进行数据集成工作;
第四项:数据源管理,平台提供完整的数据源管理功能,数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,用户找到相应的数据库连接;
第五项:数据抽取,平台拥有丰富的数据抽取组件,全面覆盖清洗、转换、加载的过程,用户可以灵活搭配组件的组合,完成数据抽取的工作;
第六项:数据服务,平台通过使用IPAS提供API接口、数据库提供JDBC数据视图、KETTLE提供数据文件等方式对业务***提供数据服务;
第七项:平台具备高效的调度功能,在开发完相应的任务脚本后,平台可以根据任务之间的依赖关系自动进行数据收集、数据获取、数据处理、数据分析的流程,调用转换脚本结合任务池模块,实现在执行任务前先从任务池取得相应时间戳,根据获取的时间戳抽取源数据;
优选的,根据步骤S2中所提出,包括以下七类:
第一类:数据仓库建设目标,通过搭建多节点GreenPlum分布式高可用数据库,建立数据仓库和业务数据主题,为跨域分析,为BI分析打基础;
第二类:数据仓库层级,用GREENPLUM高可用集群作为数据仓库底层数据存储,采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级,使用GREENPLUM高可用集群作为数据仓库底层数据存储,采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级;
其中:
ODS层(OPERATIONALDATASTORE操作数据):
ODS层主要是存储生产***数据,总体保持原结构不变,可以对一部分冗余数据进行剔除;
DW层(DATAWAREHOUSE数据仓库):
DW层主要是对ODS层数据进行进一步处理,通过数据建模将数据拆分为维度数据和事实数据,同时将粒度与ODS层保持大致一致;
DM层(DATAMARKET数据集市):
DM层主要是对DW层数据进一步抽象升华,加强数据之间的联系,并且将粒度和数据量压缩,提高***响应速度,降低***负载;
第三类:底层数据库搭建,GreenPlum高可用集群在容量、扩展性、安全和响应速度上都比传统的单实例数据库或者主从结构数据库有着明显的优势,数据仓库采用GreenPlum高可用集群作为底层数据库;
第四类:业务分析,业务分析工作是数据仓库搭建的重要环节,关系到数据仓库中的数据后期是否满足企业的要求;
第五类:合理的数据分层,采用混合的数据仓库分层架构方法,这种架构采用了CIF架构和MD架构相结合的设计方法构建数据仓库,按照“松耦合、层次化”的基本架构原则进行实施,基本思路为总体结构为CIF,即分为ODS层、DW层、DM层,其中DW层采用MD结构,用事实表和维度表构建DW层;
第六类:ODS层汇聚业务***数据,ODS层是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输之后,装入本层;
数据仓库在该层将SAP(ERP),DMS(经销商管理***),WMS(仓储管理***),OA(办公***),费控***,EHR(人力***),EAGLE(客户管理***),DDI(流向接口数据),LIMS(实验室信息管理***),FONE(财务预算)等业务***的数据增量或全量接入到数据仓库中,为后续BI分析和数据服务提供支持;
第七类:DW层分析维度,从ODS层中获得的数据按照主题建立各种数据模型,数据仓库在该层覆盖企业业务的分析维度,包含但不限于会计科目、成本中心、项目及WBS主数据、经销商、产品、物料、组织,岗位、员工、医院、DTP药房、医生、讲者、供应商、客户、渠道、辖区、医院、仓库;
优选的,根据步骤S3中所提出的,包括以下:
1)、BI数据分析平台建设目标,通过建设实施BI数据仓库和主数据,梳理企业的业务数据,打通分散的数据孤岛,形成结构化的数据资产,从而支撑企业业务转型,实现企业战略;
2)、BI数据分析平台功能架构,使用图观AG来实施搭建BI数据分析平台,平台分为五种,具体如下:
①、数据源管理,其中包括多数据库支撑以及连接池管理;
②、数据集管理,其中包括动态SQL、支撑拖拽、结果预览以及支撑变量替换;
③、组件管理,其中包括拖曳式开发、丰富组件、指标二次计算、自定义指标以及样式修改;
④、仪表盘管理,其中包括联动、跳转、钻取、筛选配置、自由的组件布局以及结果预览;
⑤、***管理,其中包括角色管理、部门管理、用户管理以及菜单管理。
优选的,根据其中第六项所提出的数据服务,其种类包括以下:
①、消息输入端口(PORT)配置,PORT配置是IPAS界面的核心配置,定义了传输协议、数据格式、字典以及业务流程对应关系,PORT管理用来配置Web服务等供外部应用访问的服务;
②、消息执行编排(COMMANDMEDIATOR)配置,通过COMMANDMEDIATOR的配置来完成协调多个COMMAND的执行,从而实现对业务数据的正确处理;
③、消息处理命令(Command)管理,Command命令是对于业务数据的处理步骤,包含多类业务命令,选择具体的业务处理命令并设置命令需要的参数,让IPAS实现用户的业务目标,目前支持的命令种类包括SAPIDOC文件导入,SapFunction访问,发送邮件,访问第三方WebAPI,MSDynamicsGP服务访问,Quickbooks服务访问,MySQL,Oracle,Postgresql数据库服务访问,远程服务器文件上传和下载服务访问等命令;
④、文件监控,配置文件监控和FTP文件监控来让IPAS自动处理***生成的业务数据,例如自动处理SAP生成的IDOC文件,用户上传到FTP服务器的业务数据;
⑤、定时,定时管理是通过触发定时任务来访问第三方的服务;
⑥、参数集,参数集是共享COMMAND的参数内容的服务,对于消息输入端口(PORT)配置等功能,由于多个API之间的COMMAND参数可能大部分相同,只有少部分参数在每个API之间有差异,对于多个API可共享的参数内容,只需要配置一个公用参数集,供API进行引用,每个API独有的部分,则继续在各个API各自的参数列表内进行配置;
⑦、文件上传,用于上传Mapping文件的服务;
⑧、日志,用于查询IPAS接口的相关信息;
⑨、映射工具,用于生成JSON格式转JSON格式mapping文件的工具。
优选的,根据其第六类所提出的业务分析,包含以下分析项目:
①、了解指标、维度及业务含义:
根据对需求文档的理解,了解涉及的指标、维度及业务含义,获取诸如指标的定义、计算公式、维度、数据展现形式、图形类展示是否有钻取以及详细信息展示、所属业务模块等信息;
②、划定业务范围:
划定业务范围,从需求和***调研中,获取涉及到的***以及涉及的模块;
③、业务***数据源调研:
获取业务***数据源,确定对接方式和对接数据的数据结构、数据字典,并结合业务对数据进行分析。
(三)有益效果
与现有技术相比,本发明提供了一种用于云平台大数据储存优化分析***,具备以下有益效果:
本***是采用开源GreenPlum分布式数据库作为底层的存储计算引擎,各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,各处理单元之间通过协议通信,并行处理和扩展能力更好,各节点相互独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转,Share-Nothing架构在扩展性和成本上都具有明显优势;
大规模并行处理***是由许多松耦合处理单元组成的,借助MPP这种高性能的***架构,Greenplum能够将TB级的数据仓库负载分解,并使用所有的***资源并行处理单个查询;
与事务型数据库***通过锁机制来控制并发访问的机制不同,GPDB使用多版本控制(MultiversionConcurrencyControl/MVCC)保证数据一致性,这意味着在查询数据库时,每个事务看到的只是数据的快照,其确保当前的事务不会看到其他事务在相同记录上的修改,据此为数据库的每个事务提供事务隔离,在迸发控制方面,使用MVCC而不是使用锁机制的最大优势是,MVCC对查询(读)的锁与写的锁不存在冲突,并且读与写之间不互相阻塞。
附图说明
图1为本发明数据抽取流程图;
图2为本发明任务调度的流程图;
图3为本发明数据仓库层级示意图;
图4为本发明数据分析平台功能架构的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一个技术方案,一种用于云平台大数据储存优化分析***,如图1至图4所示,包括以下步骤:
S1、搭建数据集成平台,用于采用图观ETL集成平台实施部署,其中包含Kettle和图观IPAS产品;
S2、建立数据仓库,用于采用开源GreenPlum集群作为底层数据库,结合图观数据仓库解决方案实施;
S3、部署BI数据分析平台,用于采用图观AG产品实施部署;
S4、搭建***底层框架,用于采用图观SEA2企业计算平台作为***底层框架。
优选的,根据步骤S1中所提出的,包括七项,具体如下:
第一项:数据集成平台建设目标,是将分散的业务数据集成整合,打通数据孤岛,整合存储数据;
第二项:数据集成平台功能实现,平台使用采用图观ETL集成平台实施搭建,平台高度集成KETTLE和图观IPAS产品,平台支持JDBC数据库视图、API接口、FILE文件三种方式连接生产***,并进行数据连通性校验,通过KETTLE连接关系型数据进行非实时批量接入,IPAS连接API接口进行实时数据接入,根据数据量级和性质,开发脚本时可以自由选择增量或者全量抽取数据;
第三项:统一的数据集成操作,数据集成工作都在数据集成平台中完成,无需另外编写程序进行数据抽取工作,平台有一套数据集成标准和规范,客户经过一定的培训即可自行完成一部分数据集成工作,大部分操作为图形化操作,低代码进行数据集成工作;
第四项:数据源管理,平台提供完整的数据源管理功能,数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,用户找到相应的数据库连接;
第五项:数据抽取,平台拥有丰富的数据抽取组件,全面覆盖清洗、转换、加载的过程,用户可以灵活搭配组件的组合,完成数据抽取的工作;
第六项:数据服务,平台通过使用IPAS提供API接口、数据库提供JDBC数据视图、KETTLE提供数据文件等方式对业务***提供数据服务;
第七项:平台具备高效的调度功能,在开发完相应的任务脚本后,平台可以根据任务之间的依赖关系自动进行数据收集、数据获取、数据处理、数据分析的流程,调用转换脚本结合任务池模块,实现在执行任务前先从任务池取得相应时间戳,根据获取的时间戳抽取源数据;
优选的,根据步骤S2中所提出,包括以下七类:
第一类:数据仓库建设目标,通过搭建多节点GreenPlum分布式高可用数据库,建立数据仓库和业务数据主题,为跨域分析,为BI分析打基础;
第二类:数据仓库层级,用GREENPLUM高可用集群作为数据仓库底层数据存储,采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级,使用GREENPLUM高可用集群作为数据仓库底层数据存储,采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级;
其中:
ODS层(OPERATIONALDATASTORE操作数据):
ODS层主要是存储生产***数据,总体保持原结构不变,可以对一部分冗余数据进行剔除;
DW层(DATAWAREHOUSE数据仓库):
DW层主要是对ODS层数据进行进一步处理,通过数据建模将数据拆分为维度数据和事实数据,同时将粒度与ODS层保持大致一致;
DM层(DATAMARKET数据集市):
DM层主要是对DW层数据进一步抽象升华,加强数据之间的联系,并且将粒度和数据量压缩,提高***响应速度,降低***负载;
第三类:底层数据库搭建,GreenPlum高可用集群在容量、扩展性、安全和响应速度上都比传统的单实例数据库或者主从结构数据库有着明显的优势,数据仓库采用GreenPlum高可用集群作为底层数据库;
第四类:业务分析,业务分析工作是数据仓库搭建的重要环节,关系到数据仓库中的数据后期是否满足企业的要求;
第五类:合理的数据分层,采用混合的数据仓库分层架构方法,这种架构采用了CIF架构和MD架构相结合的设计方法构建数据仓库,按照“松耦合、层次化”的基本架构原则进行实施,基本思路为总体结构为CIF,即分为ODS层、DW层、DM层,其中DW层采用MD结构,用事实表和维度表构建DW层;
第六类:ODS层汇聚业务***数据,ODS层是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输之后,装入本层;
数据仓库在该层将SAP(ERP),DMS(经销商管理***),WMS(仓储管理***),OA(办公***),费控***,EHR(人力***),EAGLE(客户管理***),DDI(流向接口数据),LIMS(实验室信息管理***),FONE(财务预算)等业务***的数据增量或全量接入到数据仓库中,为后续BI分析和数据服务提供支持;
第七类:DW层分析维度,从ODS层中获得的数据按照主题建立各种数据模型,数据仓库在该层覆盖企业业务的分析维度,包含但不限于会计科目、成本中心、项目及WBS主数据、经销商、产品、物料、组织,岗位、员工、医院、DTP药房、医生、讲者、供应商、客户、渠道、辖区、医院、仓库;
优选的,根据步骤S3中所提出的,包括以下:
1)、BI数据分析平台建设目标,通过建设实施BI数据仓库和主数据,梳理企业的业务数据,打通分散的数据孤岛,形成结构化的数据资产,从而支撑企业业务转型,实现企业战略;
2)、BI数据分析平台功能架构,使用图观AG来实施搭建BI数据分析平台,平台分为五种,具体如下:
①、数据源管理,其中包括多数据库支撑以及连接池管理;
②、数据集管理,其中包括动态SQL、支撑拖拽、结果预览以及支撑变量替换;
③、组件管理,其中包括拖曳式开发、丰富组件、指标二次计算、自定义指标以及样式修改;
④、仪表盘管理,其中包括联动、跳转、钻取、筛选配置、自由的组件布局以及结果预览;
⑤、***管理,其中包括角色管理、部门管理、用户管理以及菜单管理,
优选的,根据其中第六项所提出的数据服务,其种类包括以下:
①、消息输入端口(PORT)配置,PORT配置是IPAS界面的核心配置,定义了传输协议、数据格式、字典以及业务流程对应关系,PORT管理用来配置Web服务等供外部应用访问的服务;
②、消息执行编排(COMMANDMEDIATOR)配置,通过COMMANDMEDIATOR的配置来完成协调多个COMMAND的执行,从而实现对业务数据的正确处理;
③、消息处理命令(Command)管理,Command命令是对于业务数据的处理步骤,包含多类业务命令,选择具体的业务处理命令并设置命令需要的参数,让IPAS实现用户的业务目标,目前支持的命令种类包括SAPIDOC文件导入,SapFunction访问,发送邮件,访问第三方WebAPI,MSDynamicsGP服务访问,Quickbooks服务访问,MySQL,Oracle,Postgresql数据库服务访问,远程服务器文件上传和下载服务访问等命令;
④、文件监控,配置文件监控和FTP文件监控来让IPAS自动处理***生成的业务数据,例如自动处理SAP生成的IDOC文件,用户上传到FTP服务器的业务数据;
⑤、定时,定时管理是通过触发定时任务来访问第三方的服务;
⑥、参数集,参数集是共享COMMAND的参数内容的服务,对于消息输入端口(PORT)配置等功能,由于多个API之间的COMMAND参数可能大部分相同,只有少部分参数在每个API之间有差异,对于多个API可共享的参数内容,只需要配置一个公用参数集,供API进行引用,每个API独有的部分,则继续在各个API各自的参数列表内进行配置;
⑦、文件上传,用于上传Mapping文件的服务;
⑧、日志,用于查询IPAS接口的相关信息;
⑨、映射工具,用于生成JSON格式转JSON格式mapping文件的工具。
优选的,根据其第六类所提出的业务分析,包含以下分析项目:
①、了解指标、维度及业务含义:
根据对需求文档的理解,了解涉及的指标、维度及业务含义,获取诸如指标的定义、计算公式、维度、数据展现形式、图形类展示是否有钻取以及详细信息展示、所属业务模块等信息;
②、划定业务范围:
划定业务范围,从需求和***调研中,获取涉及到的***以及涉及的模块;
③、业务***数据源调研:
获取业务***数据源,确定对接方式和对接数据的数据结构、数据字典,并结合业务对数据进行分析。
本装置的工作原理:本***是采用开源GreenPlum分布式数据库作为底层的存储计算引擎,Greenplum是基于数据库分布式架构的开源大数据平台,采用无共享(noshareing)的MPP架构,具有良好的线性扩展能力,具有高效的并行运算、并行存储等特性,拥有独特的高效的ORCA优化器,兼容SQL语法,适合用于高效PB数据量级的存储、处理和实时分析能力,由于内核是基于PostgreSQL数据库,也支持涵盖OLTP型业务混合负载,同时数据节点和主节点都有自己备份节点,提供数据库的高可用性,相比Hadoop,Greenplum更适合做结构化大数据的存储、计算和分析引擎,其搭配本***使用,具有以下特性:
SHAREDNOTHING:各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,各处理单元之间通过协议通信,并行处理和扩展能力更好,各节点相互独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转,SHARE-NOTHING架构在扩展性和成本上都具有明显优势;
MPP:大规模并行处理***是由许多松耦合处理单元组成的,借助MPP这种高性能的***架构,GREENPLUM可以将TB级的数据仓库负载分解,并使用所有的***资源并行处理单个查询;
MVCC:与事务型数据库***通过锁机制来控制并发访问的机制不同,GPDB使用多版本控制(MULTIVERSIONCONCURRENCYCONTROL/MVCC)保证数据一致性,这意味着在查询数据库时,每个事务看到的只是数据的快照,其确保当前的事务不会看到其他事务在相同记录上的修改,据此为数据库的每个事务提供事务隔离,在迸发控制方面,使用MVCC而不是使用锁机制的最大优势是,MVCC对查询(读)的锁与写的锁不存在冲突,并且读与写之间不互相阻塞。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种用于云平台大数据储存优化分析***,其特征在于:包括以下步骤:
S1、搭建数据集成平台,用于采用图观ETL集成平台实施部署,其中包含Kettle和图观IPAS产品;
S2、建立数据仓库,用于采用开源GreenPlum集群作为底层数据库,结合图观数据仓库解决方案实施;
S3、部署BI数据分析平台,用于采用图观AG产品实施部署;
S4、搭建***底层框架,用于采用图观SEA2企业计算平台作为***底层框架。
2.根据权利要求1所述的一种用于云平台大数据储存优化分析***,其特征在于:根据步骤S1中所提出的,包括七项,具体如下:
第一项:数据集成平台建设目标,是将分散的业务数据集成整合,打通数据孤岛,整合存储数据;
第二项:数据集成平台功能实现,平台使用采用图观ETL集成平台实施搭建,平台高度集成KETTLE和图观IPAS产品,平台支持JDBC数据库视图、API接口、FILE文件三种方式连接生产***,并进行数据连通性校验,通过KETTLE连接关系型数据进行非实时批量接入,IPAS连接API接口进行实时数据接入,根据数据量级和性质,开发脚本时可以自由选择增量或者全量抽取数据;
第三项:统一的数据集成操作,数据集成工作都在数据集成平台中完成,无需另外编写程序进行数据抽取工作,平台有一套数据集成标准和规范,客户经过一定的培训即可自行完成一部分数据集成工作,大部分操作为图形化操作,低代码进行数据集成工作;
第四项:数据源管理,平台提供完整的数据源管理功能,数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,用户找到相应的数据库连接;
第五项:数据抽取,平台拥有丰富的数据抽取组件,全面覆盖清洗、转换、加载的过程,用户可以灵活搭配组件的组合,完成数据抽取的工作;
第六项:数据服务,平台通过使用IPAS提供API接口、数据库提供JDBC数据视图、KETTLE提供数据文件等方式对业务***提供数据服务;
第七项:平台具备高效的调度功能,在开发完相应的任务脚本后,平台可以根据任务之间的依赖关系自动进行数据收集、数据获取、数据处理、数据分析的流程,调用转换脚本结合任务池模块,实现在执行任务前先从任务池取得相应时间戳,根据获取的时间戳抽取源数据。
3.根据权利要求1所述的一种用于云平台大数据储存优化分析***,其特征在于:根据步骤S2中所提出,包括以下七类:
第一类:数据仓库建设目标,通过搭建多节点GreenPlum分布式高可用数据库,建立数据仓库和业务数据主题,为跨域分析,为BI分析打基础;
第二类:数据仓库层级,用GREENPLUM高可用集群作为数据仓库底层数据存储,采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级,使用GREENPLUM高可用集群作为数据仓库底层数据存储,采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级;
其中:
ODS层(OPERATIONALDATASTORE操作数据):
ODS层主要是存储生产***数据,总体保持原结构不变,可以对一部分冗余数据进行剔除;
DW层(DATAWAREHOUSE数据仓库):
DW层主要是对ODS层数据进行进一步处理,通过数据建模将数据拆分为维度数据和事实数据,同时将粒度与ODS层保持大致一致;
DM层(DATAMARKET数据集市):
DM层主要是对DW层数据进一步抽象升华,加强数据之间的联系,并且将粒度和数据量压缩,提高***响应速度,降低***负载;
第三类:底层数据库搭建,GreenPlum高可用集群在容量、扩展性、安全和响应速度上都比传统的单实例数据库或者主从结构数据库有着明显的优势,数据仓库采用GreenPlum高可用集群作为底层数据库;
第四类:业务分析,业务分析工作是数据仓库搭建的重要环节,关系到数据仓库中的数据后期是否满足企业的要求;
第五类:合理的数据分层,采用混合的数据仓库分层架构方法,这种架构采用了CIF架构和MD架构相结合的设计方法构建数据仓库,按照“松耦合、层次化”的基本架构原则进行实施,基本思路为总体结构为CIF,即分为ODS层、DW层、DM层,其中DW层采用MD结构,用事实表和维度表构建DW层;
第六类:ODS层汇聚业务***数据,ODS层是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输之后,装入本层;
数据仓库在该层将SAP(ERP),DMS(经销商管理***),WMS(仓储管理***),OA(办公***),费控***,EHR(人力***),EAGLE(客户管理***),DDI(流向接口数据),LIMS(实验室信息管理***),FONE(财务预算)等业务***的数据增量或全量接入到数据仓库中,为后续BI分析和数据服务提供支持;
第七类:DW层分析维度,从ODS层中获得的数据按照主题建立各种数据模型,数据仓库在该层覆盖企业业务的分析维度,包含但不限于会计科目、成本中心、项目及WBS主数据、经销商、产品、物料、组织,岗位、员工、医院、DTP药房、医生、讲者、供应商、客户、渠道、辖区、医院、仓库。
4.根据权利要求1所述的一种用于云平台大数据储存优化分析***,其特征在于:根据步骤S3中所提出的,包括以下:
1)、BI数据分析平台建设目标,通过建设实施BI数据仓库和主数据,梳理企业的业务数据,打通分散的数据孤岛,形成结构化的数据资产,从而支撑企业业务转型,实现企业战略;
2)、BI数据分析平台功能架构,使用图观AG来实施搭建BI数据分析平台,平台分为五种,具体如下:
①、数据源管理,其中包括多数据库支撑以及连接池管理;
②、数据集管理,其中包括动态SQL、支撑拖拽、结果预览以及支撑变量替换;
③、组件管理,其中包括拖曳式开发、丰富组件、指标二次计算、自定义指标以及样式修改;
④、仪表盘管理,其中包括联动、跳转、钻取、筛选配置、自由的组件布局以及结果预览;
⑤、***管理,其中包括角色管理、部门管理、用户管理以及菜单管理。
5.根据权利要求2所述的一种用于云平台大数据储存优化分析***,其特征在于:根据其中第六项所提出的数据服务,其种类包括以下:
①、消息输入端口(PORT)配置,PORT配置是IPAS界面的核心配置,定义了传输协议、数据格式、字典以及业务流程对应关系,PORT管理用来配置Web服务等供外部应用访问的服务;
②、消息执行编排(COMMANDMEDIATOR)配置,通过COMMANDMEDIATOR的配置来完成协调多个COMMAND的执行,从而实现对业务数据的正确处理;
③、消息处理命令(Command)管理,Command命令是对于业务数据的处理步骤,包含多类业务命令,选择具体的业务处理命令并设置命令需要的参数,让IPAS实现用户的业务目标,目前支持的命令种类包括SAPIDOC文件导入,SapFunction访问,发送邮件,访问第三方WebAPI,MSDynamicsGP服务访问,Quickbooks服务访问,MySQL,Oracle,Postgresql数据库服务访问,远程服务器文件上传和下载服务访问等命令;
④、文件监控,配置文件监控和FTP文件监控来让IPAS自动处理***生成的业务数据,例如自动处理SAP生成的IDOC文件,用户上传到FTP服务器的业务数据;
⑤、定时,定时管理是通过触发定时任务来访问第三方的服务;
⑥、参数集,参数集是共享COMMAND的参数内容的服务,对于消息输入端口(PORT)配置等功能,由于多个API之间的COMMAND参数可能大部分相同,只有少部分参数在每个API之间有差异,对于多个API可共享的参数内容,只需要配置一个公用参数集,供API进行引用,每个API独有的部分,则继续在各个API各自的参数列表内进行配置;
⑦、文件上传,用于上传Mapping文件的服务;
⑧、日志,用于查询IPAS接口的相关信息;
⑨、映射工具,用于生成JSON格式转JSON格式mapping文件的工具。
6.根据权利要求3所述的一种用于云平台大数据储存优化分析***,其特征在于:根据其第六类所提出的业务分析,包含以下分析项目:
①、了解指标、维度及业务含义:
根据对需求文档的理解,了解涉及的指标、维度及业务含义,获取诸如指标的定义、计算公式、维度、数据展现形式、图形类展示是否有钻取以及详细信息展示、所属业务模块等信息;
②、划定业务范围:
划定业务范围,从需求和***调研中,获取涉及到的***以及涉及的模块;
③、业务***数据源调研:
获取业务***数据源,确定对接方式和对接数据的数据结构、数据字典,并结合业务对数据进行分析。
CN202210162512.2A 2022-02-22 一种用于云平台大数据储存优化分析*** Active CN114546415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162512.2A CN114546415B (zh) 2022-02-22 一种用于云平台大数据储存优化分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162512.2A CN114546415B (zh) 2022-02-22 一种用于云平台大数据储存优化分析***

Publications (2)

Publication Number Publication Date
CN114546415A true CN114546415A (zh) 2022-05-27
CN114546415B CN114546415B (zh) 2024-07-09

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329015A (zh) * 2022-10-14 2022-11-11 中孚安全技术有限公司 一种混合架构的数据仓库***及实现方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
US20200012659A1 (en) * 2018-07-06 2020-01-09 Snowflake Inc. Data replication and data failover in database systems
CN112199164A (zh) * 2020-10-19 2021-01-08 国网新疆电力有限公司信息通信公司 一种保证容器镜像一致性的方法
CN112632025A (zh) * 2020-08-25 2021-04-09 南方电网科学研究院有限责任公司 一种基于paas平台的电网企业管理决策支持应用***
US20210173846A1 (en) * 2019-05-06 2021-06-10 Oracle International Corporation System and method for automatic generation of bi models using data introspection and curation
CN113569278A (zh) * 2021-06-25 2021-10-29 华能招标有限公司 基于区块链的多招投标平台的数据共享方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200012659A1 (en) * 2018-07-06 2020-01-09 Snowflake Inc. Data replication and data failover in database systems
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
US20210173846A1 (en) * 2019-05-06 2021-06-10 Oracle International Corporation System and method for automatic generation of bi models using data introspection and curation
CN112632025A (zh) * 2020-08-25 2021-04-09 南方电网科学研究院有限责任公司 一种基于paas平台的电网企业管理决策支持应用***
CN112199164A (zh) * 2020-10-19 2021-01-08 国网新疆电力有限公司信息通信公司 一种保证容器镜像一致性的方法
CN113569278A (zh) * 2021-06-25 2021-10-29 华能招标有限公司 基于区块链的多招投标平台的数据共享方法及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蔡鸿明;姜祖海;姜丽红;: "分布式环境下业务模型的数据存储及访问框架", 清华大学学报(自然科学版), no. 06, 15 June 2017 (2017-06-15) *
赵毅;: "基于大数据平台构建数据仓库的研究与实践", 中国金融电脑, no. 05, 7 May 2017 (2017-05-07) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329015A (zh) * 2022-10-14 2022-11-11 中孚安全技术有限公司 一种混合架构的数据仓库***及实现方法

Similar Documents

Publication Publication Date Title
CN112534396B (zh) 数据库***中的日记表
JP6602355B2 (ja) クラウドベースの分散永続性及びキャッシュデータモデル
George HBase: the definitive guide
JP5819376B2 (ja) 列ベースのデータベースに対する列スマートな機構
US8347207B2 (en) Automatically moving annotations associated with multidimensional data between live datacubes
CN101828182B (zh) 报告oltp数据的无etl零冗余***和方法
CN101208692B (zh) 在企业软件***的活数据立方体间自动移动多维数据
CN100565510C (zh) 数据访问层类生成器
US9256472B2 (en) System and method for economical migration of legacy applications from mainframe and distributed platforms
CN106021484A (zh) 基于内存计算的可定制多模式大数据处理***
US20210004712A1 (en) Machine Learning Performance and Workload Management
CN114647716B (zh) 一种适用于泛化数据仓库的***
CN108763234A (zh) 一种数据实时同步方法及***
Doshi et al. Blending SQL and NewSQL approaches: reference architectures for enterprise big data challenges
Jia Google cloud computing platform technology architecture and the impact of its cost
CN113051263A (zh) 基于元数据的大数据平台构建方法、***、设备及介质
US11615061B1 (en) Evaluating workload for database migration recommendations
CN114546415A (zh) 一种用于云平台大数据储存优化分析***
CN114546415B (zh) 一种用于云平台大数据储存优化分析***
CN103092872A (zh) 一种基于xml技术的异构数据库存取方法
Blakeley et al. Next-generation data access: Making the conceptual level real
TWM487489U (zh) 以服務導向架構(soa)之走動式指令重組的設計實現於即時商業智慧系統
RU2795902C1 (ru) Способ и система автоматизированной генерации и заполнения витрин данных с использованием декларативного описания
Kovačević et al. Novel BI data architectures
Zhou et al. Review of prime issues in big data storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant