CN116166191A

CN116166191A - 湖仓一体***

Info

Publication number: CN116166191A
Application number: CN202211736751.0A
Authority: CN
Inventors: 王维峰
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-26

Abstract

本发明实施例提供了一种湖仓一体***，该***包括：存储计算模块，所述存储计算模块包括：计算单元和湖仓统一存储单元；所述湖仓统一存储单元是将数据仓库和数据湖融合后形成的，用于进行数据存储；所述计算单元用于进行数据计算。上述方案，能够实现计算资源和存储资源的分离，快速按需为用户提供计算服务或者存储服务，打造储算分离的存储计算环境，使***能够扩展到更大规模的并发能力和数据容量，有效降低了能耗。

Description

湖仓一体***

技术领域

本发明涉及互联网技术领域，尤其涉及一种湖仓一体***。

背景技术

为了研究数据之间的关系，挖掘数据隐藏的价值，需要将数据进行“开采/储存”即数据的收集储存，其次进行“精炼”即数据的挖掘和分析，最终实现数据创造更多价值。数据仓库的作用能实现跨业务条线、跨***的数据整合，为管理分析和业务决策提供统一的数据支持。企业通常依靠昂贵且私有的本地数据仓库解决方案来存储和分析数据，由于模型范式的要求，底层数据无法做到多样变化，导致企业业务不能随意变迁。

同时随着互联网/移动互联网的爆发，数据量从TB到PB到EB级，数据类型更是涵盖结构化数据、非结构化数据、半结构化数据，并且用户对地域性、及时性的要求愈发苛刻，使得传统的数据仓库方案需要更新，催生了数据湖技术。

数据湖是一个存储企业各种各样原始数据的大型仓库，可供数据存取、处理、分析以及传输，可看作一种大型数据存储库和处理引擎。相比于数据仓库而言，数据湖存储容量更大，数据类型更为丰富，增加了对半结构化数据和非结构化数据的支持，同时对所有数据进行集中式存储。并具有庞大的PB级数据存储规模以及计算能力，提供多元化数据信息交叉分析，及大容量高速度的数据管道。而数据湖架构本身缺少对数据监管、控制和必要的治理手段，导致运维成本不断增加，数据治理效率降低。长此以往，企业落入了“数据沼泽”的境地。随着企业数字化转型的深化，跨多业务、多数据类型的新型应用场景不断涌现，海量大数据场景下的实时处理、非结构化数据治理等需求，给企业数据基础设施带来了新的挑战。

发明内容

本发明实施例提供一种湖仓一体***，以解决上述问题。

第一方面，本发明实施例提供了一种湖仓一体***，包括：

存储计算模块，所述存储计算模块包括：计算单元和湖仓统一存储单元；

所述湖仓统一存储单元是将数据仓库和数据湖融合后形成的，用于进行数据存储；

计算单元用于进行数据计算。

可选的，所述计算单元包括：云原生计算资源单元；

所述云原生计算资源单元用于对第一数据进行聚合快照处理，得到第一快照数据，所述第一快照数据用于索引第一数据信息，所述第一数据信息包括：所述第一数据的位置信息和内容信息。

可选的，所述计算单元还包括：汇总单元；

所述汇总单元包括：汇总层、中间层和整合层；

所述汇总层用于存储指标率数据和标签率数据。

可选的，还包括：数据源模块和数据采集模块；

所述数据采集模块包括：实时入湖单元和数据文件单元；

所述数据文件单元用于将所述数据源模块中的数据文件传输至所述实时入湖单元；

所述实时入湖单元用于将所述数据文件进行数据处理后传输至所述湖仓统一存储单元。

可选的，所述数据采集模块还包括：日志采集单元；

所述日志采集单元用于通过采集工具获取日志数据，并将所述日志数据生成消息数据，并将所述消息数据传输至所述实时入湖单元以及所述计算单元中的实时分析单元；

所述实时入湖单元还用于将所述消息数据进行数据处理后传输至所述湖仓统一存储单元。

可选的，所述日志采集单元还用于将所述消息数据传输至所述计算单元中的实时分析单元；

所述实时分析单元用于实时分析所述消息数据。

可选的，还包括：数据服务模块；

所述数据服务模块包括：实时消息单元；

所述实时消息单元用于获取附加条件，并根据所述附加条件进行数据筛选。

可选的，还包括：平台管理模块；

所述平台管理模块用于进行数据显示和数据告警

在本发明实施例中，湖仓一体***包括存储计算模块，所述存储计算模块包括：计算单元和湖仓统一存储单元，所述湖仓统一存储单元是将数据仓库和数据湖融合后形成的，用于进行数据存储，所述计算单元用于进行数据计算，能够实现计算资源和存储资源的分离，快速按需为用户提供计算服务或者存储服务，打造储算分离的存储计算环境，使***能够扩展到更大规模的并发能力和数据容量，有效降低了能耗。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的湖仓一体***的结构示意图之一；

图2为本发明实施例提供的湖仓一体***的结构示意图之二；

图3为本发明实施例提供的基于湖仓一体***的数据处理流程图之一；

图4为本发明实施例提供的基于湖仓一体***的数据处理流程图之二；

图5为本发明实施例提供的基于湖仓一体***的数据处理流程图之三；

图6为本发明实施例提供的基于湖仓一体***的数据处理流程图之四。

具体实施方式

本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

具体的，如图1所示，本发明实施例提供了一种湖仓一体***，该***的基础平台是基于Hadoop 3.2.1构建的，基础组件开源，利用集群新版本纠删码(Erasure Code，EC)特性，变常规3副本为1.5份，可以在保障数据安全的前提下降低存储开销。并且，多管理文件***的命名空间namenode节点，由原来的1主1备扩展到3-5个，可以保障集群安全。

上述湖仓一体***包括：

所述计算单元用于进行数据计算。

在本发明实施例中，湖仓一体***包括存储计算模块，所述存储计算模块包括：计算单元和湖仓统一存储单元，所述湖仓统一存储单元是将数据仓库和数据湖融合后形成的，用于进行数据存储，所述计算单元用于进行数据计算，能够实现计算资源和存储资源的分离，快速按需为用户提供计算服务或者存储服务，打造储算分离的存储计算环境，使***能够扩展到更大规模的并发能力和数据容量，有效降低了能耗。湖仓一体***融合了数据仓库和数据湖两种架构的优势，弥补原架构的不足。相比数据湖来说，湖仓一体***能够支撑实时查询和实时分析场景，弥补了分布式***基础架构Hadoop技术对于数据实时处理能力的不足。而相比数据仓库来说，湖仓一体***作为支持实时处理的统一数据底座，具备多引擎实时处理多类型数据的能力，避免了数据仓库无法分析非结构化数据的问题，减少了不同平台间数据移动所带来的成本。

作为一可选的实施例，所述计算单元包括：云原生计算资源单元；

具体的，如图1所示，基于开源组件数据湖对象存储Iceberg构建数据湖，以对象Iceberg存储替代传统的分布式文件***(Hadoop Distributed File System，Hdfs)存储层，转数据资产(即第一数据)多账期全量存储为聚合快照数据(即第一快照数据)，在需要获取第一数据信息时，只需要获取第一快照数据，根据第一快照数据索引得到第一数据信息即可，降低数据存储成本，并提高了数据处理效率。并且，云原生计算资源单元向上支撑数仓(即批流一体处理模块)及开放平台(即数据服务模块)，打造标准统一的数据环境。

高效统一的元数据管理，使得计算引擎可以方便地在第一数据信息的基础上索引到各种类型数据来做分析，如：数据文件状态、路径、分区信息、列级别的统计信息(如：最大值、最小值、空值)、文件大小、数据行数等信息快速查询，较原来的分布式文件***(HadoopDistributed File System，HDFS)存储，提升了数据加工计算和查询的效率。

如图5所示，云原生计算资源单元特性为：支持各种数据源，包括非关系型数据库、关系数据库、Hadoop、本地文件***和云存储等。查询加速：可以使用标准结构化查询语言(Structured Query Language，SQL)语句和行为识别(Behavior Identity，BI)展示工具轻松分析数据，帮助分析型数据的快速处理和查询，使得分析计算从分钟级加速到秒级。细粒度的访问权限控制：提供行级和列级的权限控制，基于敏感数据、鉴权用户组来控制对数据的访问权限。实现数仓应用层解耦，对接物理入湖、虚拟入湖的各种数据源，在提升计算效率的基础上解决跨数据源查询、数据访问权限统一控制等问题。

如图6所示，云原生计算资源单元运用kubernetes(简称k8s，是一个开源的，用于管理云平台中多个主机上的容器化的应用)云原生技术，将分布式***Flink、数据湖引擎Dremio、新一代数据湖计算引擎trino和核心应用工具基于k8s部署，实现计算资源和存储资源的隔离，快速按需为用户提供计算服务能力或者存储服务能力，打通与数据湖组件iceberg和对象存储minio融合，打造储算分离的存储计算环境。

作为一可选的实施例所述计算单元还包括：汇总单元；

所述汇总单元包括：汇总层、中间层和整合层；

所述汇总层用于存储指标率数据和标签率数据，包括：明细汇总、关联整合以及指标汇总等。

具体的，如图2所示，将汇总单元传统的五层架构演进为新三层架构，即将传统的应用层剥离出去，将传统的汇总层增大，以便能够从汇总层获取指标率、标签率等，统一计算结果，避免出现计算口径不一致的情况。使用flink计算引擎进行整合过滤、日志采集组件debezium对实时文件的发现、文件内容的过滤、判断处理、入数据湖对象存储iceberg贯穿，在采集入湖过程中，跟数据治理结合，解决数据来源不唯一、命名、类型不统一的数据的问题。

并且，将传统的接入层合并至整合层，新整合层数据作为同一个数据源同时支撑离线及实时数据加工。应用层数据加工逻辑迁移至计算单元中的新一代数据湖计算引擎trino，借其跨数据库加工特性，将数据应用层与上层应用合并，避免数据搬家的同时，简化了数据模型和数据血缘的复杂度，以更清晰和可知的方式进行呈现，提升数据价值获取效率。

作为一可选的实施例，上述***还包括：数据源模块和数据采集模块；

所述数据采集模块包括：实时入湖单元和数据文件单元；

具体的，如图3所示，如果数据文件单元接收到数据源模块(即上游***)中的数据文件，则将该数据文件传输至实时入湖单元，通过实时入湖单元将该数据文件传输至湖仓统一存储单元，即数仓(即数据仓库)与数据湖的融合单元中。

作为一可选的实施例，所述数据采集模块还包括：日志采集单元；

所述日志采集单元用于通过采集工具获取日志数据，并将所述日志数据生成消息数据，并将所述消息数据传输至所述实时入湖单元；

具体的，如图3所示，通过自动拉取入湖元数据，自动生成采集配置信息，自动建表；并匹配相应的采集引擎，通过采集工具采集日志数据，生成消息数据，将所述消息数据传输至实时入湖单元，打造自动化标准的一键入湖流程。将数据仓库技术(Extract-Transform-Load，ETL)批量定时文件采集改造成分布式***FLINK实时流式采集入湖，同时按隐藏分区特性支持离线数仓加工。

具体实现方式为：如图4所示，实时入湖单元包括：文件发现单元、并发采集单元、内容过滤单元、并发入湖单元。其中，文件发现单元秒级发现新增文件，判定文件上传完毕后，对新增文件进行状态比对(如：下载/入湖状态的比对)后排序，写入待处理队列，等待并发采集。其次，并发采集单元使用flink通过文件传输协议(File Transfer Protocol，FTP)/安全文件传送协议(SSH File Transfer Protocol，sftp)连接池，直接流式读取FTP中的文件，将文件分段保存在内存中。其次，内容过滤单元对已经下载好的文件段进行按行和列进行内容过滤。并发入湖单元将已经过滤好的内容并发写入到数据湖中，并更新文件入湖状态。由此，使用数据湖替代直接写入HDFS，减少文件尺寸，提高处理时效。

作为一可选的实施例，所述日志采集单元还用于将所述消息数据传输至所述计算单元中的实时分析单元；

所述实时分析单元用于实时分析所述消息数据。

具体的，日志采集单元还将消息数据传输至计算单元中的实时分析单元，该实时分析单元实时分析消息数据，以便能够实时应用消息数据。

作为一可选的实施例，上述***还包括：数据服务模块；

所述数据服务模块包括：实时消息单元；

具体的，数据服务封装提供数据服务、文件服务、消息服务、API服务封装，对外共享赋能。在精简数据出湖方式的同时，采用对流式数据的类结构化查询语言(StructuredQuery Language，SQL)过滤订阅模式，实现适应业务实际需求的多种数据赋能方式。单个区域渠道营销活动场景，使用信令数据来判断当前位置用户进行活动推送时，不需要订阅所有信令消息，基于附加条件(如：地市、区县、支局、网格等用户划小属性)进行过滤订阅即可，提高实时营销效率。

作为一可选的实施例，上述***还包括：平台管理模块；

所述平台管理模块用于进行数据显示和数据告警。

具体的，如图4所示，全流程接入时序数据库Prometheus+监控工具Grafana大屏构建的开源架构平台管理模块，贯通监控告警流程，便于监控采集积压、主机/网络负载、集群运行情况等。

综上所述，上述实施例打通数据仓库和数据湖，并融合了两种架构的优势，能够降低数据流动带来的开发成本及计算存储开销，提升效率，还能够提供实时查询以及实时分析能力，从而有效的降低了能耗，提高实时性。并且，底层支持多种数据类型并存，包括结构化、半结构化和非结构化数据，且实现数据间的相互共享。并且，将传统的汇总层增大，以便能够从汇总层获取指标率、标签率等，统一计算结果，避免出现计算口径不一致的情况。实时数据入湖同时进行数据处理加工，避免数据多份冗余以及流动导致的算力、网络及成本开销。并且，基于云原生解耦存储和计算资源，打造存算分离，使***能够扩展到更大规模的并发能力和数据容量。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种湖仓一体***，其特征在于，包括：

所述计算单元用于进行数据计算。

2.根据权利要求1所述的湖仓一体***，其特征在于，所述计算单元包括：云原生计算资源单元；

3.根据权利要求2所述的湖仓一体***，其特征在于，所述计算单元还包括：汇总单元；

所述汇总单元包括：汇总层、中间层和整合层；

所述汇总层用于存储指标率数据和标签率数据。

4.根据权利要求1所述的湖仓一体***，其特征在于，还包括：数据源模块和数据采集模块；

所述数据采集模块包括：实时入湖单元和数据文件单元；

5.根据权利要求4所述的湖仓一体***，其特征在于，所述数据采集模块还包括：日志采集单元；

6.根据权利要求5所述的湖仓一体***，其特征在于，所述日志采集单元还用于将所述消息数据传输至所述计算单元中的实时分析单元；

所述实时分析单元用于实时分析所述消息数据。

7.根据权利要求1所述的湖仓一体***，其特征在于，还包括：数据服务模块；

所述数据服务模块包括：实时消息单元；

8.根据权利要求1所述的湖仓一体***，其特征在于，还包括：平台管理模块；

所述平台管理模块用于进行数据显示和数据告警。