CN114546415A

CN114546415A - 一种用于云平台大数据储存优化分析***

Info

Publication number: CN114546415A
Application number: CN202210162512.2A
Authority: CN
Inventors: 袁建; 周子岩; 赵可
Original assignee: Huaneng Tendering Co ltd
Current assignee: Huaneng Tendering Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27
Anticipated expiration: 2042-02-22

Abstract

本发明涉及云平台大数据技术领域，且公开了一种用于云平台大数据储存优化分析***，包括以下：搭建数据集成平台；建立数据仓库；部署BI数据分析平台；搭建***底层框架，与事务型数据库***通过锁机制来控制并发访问的机制不同，GPDB使用多版本控制保证数据一致性，这意味着在查询数据库时，每个事务看到的只是数据的快照，其确保当前的事务不会看到其他事务在相同记录上的修改，据此为数据库的每个事务提供事务隔离，在迸发控制方面，使用MVCC而不是使用锁机制的最大优势是，MVCC对查询、读的锁与写的锁不存在冲突，并且读与写之间不互相阻塞。

Description

一种用于云平台大数据储存优化分析***

技术领域

本发明涉及云平台大数据技术领域，具体为一种用于云平台大数据储存优化分析***。

背景技术

MVCC的英文全称是MultiversionConcurrencyControl，中文意思是多版本并发控制技术，原理是，通过数据行的多个版本管理来实现数据库的迸发控制，简单来说就是保存数据的历史版本。

但MVCC在读写之间存在有阻塞的问题，从而使得数据并发处理能力下降，对查询(读)的锁与写的锁存在冲突，而增加了死锁的概率，为此提出一种用于云平台大数据储存优化分析***。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用于云平台大数据储存优化分析***，以解决上述背景技术中提出的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种用于云平台大数据储存优化分析***，包括以下步骤：

S1、搭建数据集成平台，用于采用图观ETL集成平台实施部署，其中包含Kettle和图观IPAS产品；

S2、建立数据仓库，用于采用开源GreenPlum集群作为底层数据库，结合图观数据仓库解决方案实施；

S3、部署BI数据分析平台，用于采用图观AG产品实施部署；

S4、搭建***底层框架，用于采用图观SEA2企业计算平台作为***底层框架。

优选的，根据步骤S1中所提出的，包括七项，具体如下：

第一项：数据集成平台建设目标，是将分散的业务数据集成整合，打通数据孤岛，整合存储数据；

第二项：数据集成平台功能实现，平台使用采用图观ETL集成平台实施搭建，平台高度集成KETTLE和图观IPAS产品，平台支持JDBC数据库视图、API接口、FILE文件三种方式连接生产***，并进行数据连通性校验，通过KETTLE连接关系型数据进行非实时批量接入，IPAS连接API接口进行实时数据接入，根据数据量级和性质，开发脚本时可以自由选择增量或者全量抽取数据；

第三项：统一的数据集成操作，数据集成工作都在数据集成平台中完成，无需另外编写程序进行数据抽取工作，平台有一套数据集成标准和规范，客户经过一定的培训即可自行完成一部分数据集成工作，大部分操作为图形化操作，低代码进行数据集成工作；

第四项：数据源管理，平台提供完整的数据源管理功能，数据源中存储了所有建立数据库连接的信息，通过提供正确的数据源名称，用户找到相应的数据库连接；

第五项：数据抽取，平台拥有丰富的数据抽取组件，全面覆盖清洗、转换、加载的过程，用户可以灵活搭配组件的组合，完成数据抽取的工作；

第六项：数据服务，平台通过使用IPAS提供API接口、数据库提供JDBC数据视图、KETTLE提供数据文件等方式对业务***提供数据服务；

第七项：平台具备高效的调度功能，在开发完相应的任务脚本后，平台可以根据任务之间的依赖关系自动进行数据收集、数据获取、数据处理、数据分析的流程，调用转换脚本结合任务池模块，实现在执行任务前先从任务池取得相应时间戳，根据获取的时间戳抽取源数据；

优选的，根据步骤S2中所提出，包括以下七类：

第一类：数据仓库建设目标，通过搭建多节点GreenPlum分布式高可用数据库，建立数据仓库和业务数据主题，为跨域分析，为BI分析打基础；

第二类：数据仓库层级，用GREENPLUM高可用集群作为数据仓库底层数据存储，采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级，使用GREENPLUM高可用集群作为数据仓库底层数据存储，采用混合的数据仓库分层方法将数据仓库构建为ODS层、DW层、DM层三个层级；

其中：

ODS层(OPERATIONALDATASTORE操作数据)：

ODS层主要是存储生产***数据，总体保持原结构不变，可以对一部分冗余数据进行剔除；

DW层(DATAWAREHOUSE数据仓库)：

DW层主要是对ODS层数据进行进一步处理，通过数据建模将数据拆分为维度数据和事实数据，同时将粒度与ODS层保持大致一致；

DM层(DATAMARKET数据集市)：

DM层主要是对DW层数据进一步抽象升华，加强数据之间的联系，并且将粒度和数据量压缩，提高***响应速度，降低***负载；

第三类：底层数据库搭建，GreenPlum高可用集群在容量、扩展性、安全和响应速度上都比传统的单实例数据库或者主从结构数据库有着明显的优势，数据仓库采用GreenPlum高可用集群作为底层数据库；

第四类：业务分析，业务分析工作是数据仓库搭建的重要环节，关系到数据仓库中的数据后期是否满足企业的要求；

第五类：合理的数据分层，采用混合的数据仓库分层架构方法，这种架构采用了CIF架构和MD架构相结合的设计方法构建数据仓库，按照“松耦合、层次化”的基本架构原则进行实施，基本思路为总体结构为CIF，即分为ODS层、DW层、DM层，其中DW层采用MD结构，用事实表和维度表构建DW层；

第六类：ODS层汇聚业务***数据，ODS层是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输之后，装入本层；

数据仓库在该层将SAP(ERP)，DMS(经销商管理***)，WMS(仓储管理***)，OA(办公***)，费控***，EHR(人力***)，EAGLE(客户管理***)，DDI(流向接口数据)，LIMS(实验室信息管理***)，FONE(财务预算)等业务***的数据增量或全量接入到数据仓库中，为后续BI分析和数据服务提供支持；

第七类：DW层分析维度，从ODS层中获得的数据按照主题建立各种数据模型，数据仓库在该层覆盖企业业务的分析维度，包含但不限于会计科目、成本中心、项目及WBS主数据、经销商、产品、物料、组织，岗位、员工、医院、DTP药房、医生、讲者、供应商、客户、渠道、辖区、医院、仓库；

优选的，根据步骤S3中所提出的，包括以下：

1)、BI数据分析平台建设目标，通过建设实施BI数据仓库和主数据，梳理企业的业务数据，打通分散的数据孤岛，形成结构化的数据资产，从而支撑企业业务转型，实现企业战略；

2)、BI数据分析平台功能架构，使用图观AG来实施搭建BI数据分析平台，平台分为五种，具体如下：

①、数据源管理，其中包括多数据库支撑以及连接池管理；

②、数据集管理，其中包括动态SQL、支撑拖拽、结果预览以及支撑变量替换；

③、组件管理，其中包括拖曳式开发、丰富组件、指标二次计算、自定义指标以及样式修改；

④、仪表盘管理，其中包括联动、跳转、钻取、筛选配置、自由的组件布局以及结果预览；

⑤、***管理，其中包括角色管理、部门管理、用户管理以及菜单管理。

优选的，根据其中第六项所提出的数据服务，其种类包括以下：

①、消息输入端口(PORT)配置，PORT配置是IPAS界面的核心配置，定义了传输协议、数据格式、字典以及业务流程对应关系，PORT管理用来配置Web服务等供外部应用访问的服务；

②、消息执行编排(COMMANDMEDIATOR)配置，通过COMMANDMEDIATOR的配置来完成协调多个COMMAND的执行，从而实现对业务数据的正确处理；

③、消息处理命令(Command)管理，Command命令是对于业务数据的处理步骤，包含多类业务命令，选择具体的业务处理命令并设置命令需要的参数，让IPAS实现用户的业务目标，目前支持的命令种类包括SAPIDOC文件导入，SapFunction访问，发送邮件，访问第三方WebAPI，MSDynamicsGP服务访问，Quickbooks服务访问，MySQL，Oracle,Postgresql数据库服务访问，远程服务器文件上传和下载服务访问等命令；

④、文件监控，配置文件监控和FTP文件监控来让IPAS自动处理***生成的业务数据，例如自动处理SAP生成的IDOC文件，用户上传到FTP服务器的业务数据；

⑤、定时，定时管理是通过触发定时任务来访问第三方的服务；

⑥、参数集，参数集是共享COMMAND的参数内容的服务，对于消息输入端口(PORT)配置等功能，由于多个API之间的COMMAND参数可能大部分相同，只有少部分参数在每个API之间有差异，对于多个API可共享的参数内容，只需要配置一个公用参数集，供API进行引用，每个API独有的部分，则继续在各个API各自的参数列表内进行配置；

⑦、文件上传，用于上传Mapping文件的服务；

⑧、日志，用于查询IPAS接口的相关信息；

⑨、映射工具，用于生成JSON格式转JSON格式mapping文件的工具。

优选的，根据其第六类所提出的业务分析，包含以下分析项目：

①、了解指标、维度及业务含义：

根据对需求文档的理解，了解涉及的指标、维度及业务含义，获取诸如指标的定义、计算公式、维度、数据展现形式、图形类展示是否有钻取以及详细信息展示、所属业务模块等信息；

②、划定业务范围：

划定业务范围，从需求和***调研中，获取涉及到的***以及涉及的模块；

③、业务***数据源调研：

获取业务***数据源，确定对接方式和对接数据的数据结构、数据字典，并结合业务对数据进行分析。

(三)有益效果

与现有技术相比，本发明提供了一种用于云平台大数据储存优化分析***，具备以下有益效果：

本***是采用开源GreenPlum分布式数据库作为底层的存储计算引擎，各个处理单元都有自己私有的CPU/内存/硬盘等，不存在共享资源，各处理单元之间通过协议通信，并行处理和扩展能力更好，各节点相互独立，各自处理自己的数据，处理后的结果可能向上层汇总或在节点间流转，Share-Nothing架构在扩展性和成本上都具有明显优势；

大规模并行处理***是由许多松耦合处理单元组成的，借助MPP这种高性能的***架构，Greenplum能够将TB级的数据仓库负载分解，并使用所有的***资源并行处理单个查询；

与事务型数据库***通过锁机制来控制并发访问的机制不同，GPDB使用多版本控制(MultiversionConcurrencyControl/MVCC)保证数据一致性，这意味着在查询数据库时，每个事务看到的只是数据的快照，其确保当前的事务不会看到其他事务在相同记录上的修改，据此为数据库的每个事务提供事务隔离，在迸发控制方面，使用MVCC而不是使用锁机制的最大优势是，MVCC对查询(读)的锁与写的锁不存在冲突，并且读与写之间不互相阻塞。

附图说明

图1为本发明数据抽取流程图；

图2为本发明任务调度的流程图；

图3为本发明数据仓库层级示意图；

图4为本发明数据分析平台功能架构的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一个技术方案，一种用于云平台大数据储存优化分析***，如图1至图4所示，包括以下步骤：

S3、部署BI数据分析平台，用于采用图观AG产品实施部署；

优选的，根据步骤S1中所提出的，包括七项，具体如下：

优选的，根据步骤S2中所提出，包括以下七类：

其中：

ODS层(OPERATIONALDATASTORE操作数据)：

DW层(DATAWAREHOUSE数据仓库)：

DM层(DATAMARKET数据集市)：

优选的，根据步骤S3中所提出的，包括以下：

①、数据源管理，其中包括多数据库支撑以及连接池管理；

⑤、***管理，其中包括角色管理、部门管理、用户管理以及菜单管理，

⑦、文件上传，用于上传Mapping文件的服务；

⑧、日志，用于查询IPAS接口的相关信息；

①、了解指标、维度及业务含义：

②、划定业务范围：

③、业务***数据源调研：

本装置的工作原理：本***是采用开源GreenPlum分布式数据库作为底层的存储计算引擎，Greenplum是基于数据库分布式架构的开源大数据平台，采用无共享(noshareing)的MPP架构，具有良好的线性扩展能力，具有高效的并行运算、并行存储等特性，拥有独特的高效的ORCA优化器，兼容SQL语法，适合用于高效PB数据量级的存储、处理和实时分析能力，由于内核是基于PostgreSQL数据库，也支持涵盖OLTP型业务混合负载，同时数据节点和主节点都有自己备份节点，提供数据库的高可用性，相比Hadoop，Greenplum更适合做结构化大数据的存储、计算和分析引擎，其搭配本***使用，具有以下特性：

SHAREDNOTHING：各个处理单元都有自己私有的CPU/内存/硬盘等，不存在共享资源，各处理单元之间通过协议通信，并行处理和扩展能力更好，各节点相互独立，各自处理自己的数据，处理后的结果可能向上层汇总或在节点间流转，SHARE-NOTHING架构在扩展性和成本上都具有明显优势；

MPP：大规模并行处理***是由许多松耦合处理单元组成的，借助MPP这种高性能的***架构，GREENPLUM可以将TB级的数据仓库负载分解，并使用所有的***资源并行处理单个查询；

MVCC：与事务型数据库***通过锁机制来控制并发访问的机制不同，GPDB使用多版本控制(MULTIVERSIONCONCURRENCYCONTROL/MVCC)保证数据一致性，这意味着在查询数据库时，每个事务看到的只是数据的快照，其确保当前的事务不会看到其他事务在相同记录上的修改，据此为数据库的每个事务提供事务隔离，在迸发控制方面，使用MVCC而不是使用锁机制的最大优势是，MVCC对查询(读)的锁与写的锁不存在冲突，并且读与写之间不互相阻塞。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于云平台大数据储存优化分析***，其特征在于：包括以下步骤：

S3、部署BI数据分析平台，用于采用图观AG产品实施部署；

2.根据权利要求1所述的一种用于云平台大数据储存优化分析***，其特征在于：根据步骤S1中所提出的，包括七项，具体如下：

第七项：平台具备高效的调度功能，在开发完相应的任务脚本后，平台可以根据任务之间的依赖关系自动进行数据收集、数据获取、数据处理、数据分析的流程，调用转换脚本结合任务池模块，实现在执行任务前先从任务池取得相应时间戳，根据获取的时间戳抽取源数据。

3.根据权利要求1所述的一种用于云平台大数据储存优化分析***，其特征在于：根据步骤S2中所提出，包括以下七类：

其中：

ODS层(OPERATIONALDATASTORE操作数据)：

DW层(DATAWAREHOUSE数据仓库)：

DM层(DATAMARKET数据集市)：

第七类：DW层分析维度，从ODS层中获得的数据按照主题建立各种数据模型，数据仓库在该层覆盖企业业务的分析维度，包含但不限于会计科目、成本中心、项目及WBS主数据、经销商、产品、物料、组织，岗位、员工、医院、DTP药房、医生、讲者、供应商、客户、渠道、辖区、医院、仓库。

4.根据权利要求1所述的一种用于云平台大数据储存优化分析***，其特征在于：根据步骤S3中所提出的，包括以下：

①、数据源管理，其中包括多数据库支撑以及连接池管理；

5.根据权利要求2所述的一种用于云平台大数据储存优化分析***，其特征在于：根据其中第六项所提出的数据服务，其种类包括以下：

⑦、文件上传，用于上传Mapping文件的服务；

⑧、日志，用于查询IPAS接口的相关信息；

6.根据权利要求3所述的一种用于云平台大数据储存优化分析***，其特征在于：根据其第六类所提出的业务分析，包含以下分析项目：

①、了解指标、维度及业务含义：

②、划定业务范围：

③、业务***数据源调研：