CN113568938A

CN113568938A - 数据流处理方法、装置、电子设备及存储介质

Info

Publication number: CN113568938A
Application number: CN202110892026.1A
Authority: CN
Inventors: 巴铁凯; 封磊; 池阳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-10-29
Anticipated expiration: 2041-08-04
Also published as: CN113568938B

Abstract

本公开提供了一种数据流处理方法、装置、电子设备及存储介质，涉及大数据处理技术领域。该方法包括：获取待处理数据流，待处理数据流包括流处理数据和批处理数据；对待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；将处理后的数据存储到数据湖中。本公开技术方案中，对于待处理的流处理数据和批处理数据，按照流批一体处理方式进行处理，可以提高数据处理的时效性，将处理后的数据存储到数据湖中，可以满足用户对于数据查询的低延迟需求。

Description

数据流处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及大数据处理领域。

背景技术

随着互联网业务数据的快速增长，产品、运营以及相关行业管理者等对数据结果获取的时效性要求越来越高。在信息快速获取和交换的今天，可以说，谁能够快速获取到数据的价值结果，谁就能做出更快的决策与行动。

而随着大数据时代下数据规模的不断膨胀，数据的量级、产生速度、复杂性等也越来越高。受限于分析数据的庞大复杂性，目前很多场景下的报表和指标结果都是按照批处理的方式，处理结果存在延迟，不利于更快的获取数据结果，进而不利于及时做出决策。如何通过技术手段在海量数据不断生产的大环境下，快速对数据进行处理并得到处理结果，是当前亟需解决的一个问题，这在产品决策或商业推广等方面都显得尤为重要。

发明内容

本公开提供了一种数据流处理方法、装置、电子设备及存储介质，以解决上述至少一个技术问题。

根据本公开的一方面，提供了一种数据流处理方法，包括：

获取待处理数据流，待处理数据流包括流处理数据和批处理数据；

对待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；

将处理后的数据存储到数据湖中。

根据本公开的另一方面，提供了一种数据流处理装置，包括：

获取模块，用于获取待处理数据流，待处理数据流包括流处理数据和批处理数据；

处理模块，用于对待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；

存储模块，用于将处理后的数据存储到数据湖中。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

本公开技术方案提供的数据流处理方法、装置、电子设备及存储介质，对于待处理的流处理数据和批处理数据，按照流批一体处理方式进行处理，可以提高数据处理的时效性，将处理后的数据存储到数据湖中，可以满足用户对于数据查询的低延迟需求。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一实施例中数据流处理***的***架构示意图；

图2为本公开一实施例中数据流处理方法的示意图；

图3为本公开一实施例中数据流处理方法的示意图；

图4为本公开一实施例中数据仓库与数据湖兼容存储的示意图；

图5为本公开一实施例中数据流处理方法的示意图；

图6为本公开一实施例中数据查询***的示意图；

图7为本公开一实施例中查询效果对比示意图；

图8为本公开一实施例中数据流处理装置的结构示意图；

图9为本公开一实施例中查询模块的结构示意图；

图10是用来实现本公开实施例的数据流处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开技术方案可以应用到大数据处理的场景中，对于某一互联网业务中实时产生的流处理数据和批处理数据，统一进行处理，将处理后的数据存储在数据湖中，可以供用户对处理结果进行查询，辅助产品决策和商业推广。

本公开的执行主体可以是任一电子设备，例如，服务器。以下通过多个实施例对本公开技术方案进行详细介绍。

图1为本公开一实施例中数据流处理***的***架构示意图。如图1所示，本公开实施例中的数据流处理***包括：流批一体层和在线服务层。

数据流处理***中的流批一体层接收实时的待处理数据流，可选的，可以通过kafaka消息队列接收待处理的数据流，其中，待处理的数据流包括批处理数据和流处理数据，批处理数据是可以通过批处理方式处理的数据，一般可以是数据处理量较大的数据，例如，较大时间跨度产生的数据；流处理数据可以是通过流处理方式处理的数据，一般可以是数据处理量较小的数据，例如，较小时间跨度产生的数据。流批一体层可以通过流处理引擎对待处理数据流进行流批一体处理，流处理引擎可以包括但不限于Flink数据处理引擎，Flink数据处理引擎对数据进行类型转换、结构化加工、文本类型清洗等处理，将处理后的数据以数据表的形式存储进线服务层的湖仓一体存储引擎中，以供用户通过应用程序进行数据查询和数据分析。其中，湖仓一体存储引擎包括数据仓库和数据湖，数据仓库存储有历史数据，数据湖存储流批一体层处理的实时接收到的数据，历史数据和实时接收到的数据的格式不同，可以将历史数据转换成与实时接收到的数据相同格式的数据后，存储到数据湖中。其中，数据湖可以理解为存储海量数据的分布式数据库，它与数据仓库的主要区别在于其具备数据实时摄取能力并有很好的查询性能表现。通过数据湖进行数据查询可以达到平均秒级响应，满足用户的低时间延迟的查询需求。

图2为本公开一实施例中数据流处理方法的示意图。如图2所示，数据流处理方法可以包括：

步骤S201，获取待处理数据流，待处理数据流包括流处理数据和批处理数据；

本公开实施例的执行主体可以是服务器。服务器接收实时的待处理数据流，可选的，可以通过kafaka消息队列接收待处理的数据流，其中，待处理的数据流可以包括批处理数据和流处理数据，批处理数据是可以通过批处理方式处理的数据，一般可以是数据处理量较大的数据，例如，较大时间跨度产生的数据；流处理数据可以是通过流处理方式处理的数据，一般可以是数据处理量较小的数据，例如，较小时间跨度产生的数据。

步骤S202，对待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；

其中，流批一体处理方式可以是将流处理数据和批处理数据不区分流处理数据还是批处理数据，以统一的数据处理方式进行处理，具体的数据处理可以包括但不限于对数据进行类型转换、结构化加工、文本类型清洗等处理，得到处理后的数据。

步骤S203，将处理后的数据存储到数据湖中。

服务器将处理后的数据以特定格式数据表的形式存储到数据湖中。其中，特定格式可以是根据具体需要确定的任意格式。数据湖可以理解为存储海量数据的分布式数据库，它与传统数据仓库的主要区别在于其具备数据实时摄取能力并有很好的查询性能表现。通过数据湖进行数据查询可以达到平均秒级响应，满足用户的低时间延迟的查询需求。

本公开实施例提供的数据流处理方法，对于待处理的流处理数据和批处理数据，按照流批一体处理方式进行处理，可以提高数据处理的时效性，将处理后的数据存储到数据湖中，可以满足用户对于数据查询的低延迟需求。

其中，对待处理数据流按照流批一体处理方式进行处理的具体实现方式见如下实施例：

在一种实施方式中，对待处理数据流按照流批一体处理方式进行处理，得到处理后的数据，包括：

利用同一数据处理引擎对待处理数据流进行处理，得到处理后的数据。

其中，流批一体处理方式可以是利用同一数据处理引擎对待处理数据流进行处理，不区分流处理数据还是批处理数据，统一对数据进行处理。

可选的，利用Flink数据处理引擎对待处理数据流进行流批一体处理，可以包括但不限于对数据进行类型转换、结构化加工、文本类型清洗等处理，将处理后的数据以数据表的形式存储进数据湖中，以供用户通过应用程序进行数据查询和数据分析。Flink数据处理引擎可以对待处理数据流实时进行处理，实现支持真正意义上的流式数据处理，实现数据的实时处理与入库，从而进一步降低数据进入数据湖的延迟时间。

本公开实施例中，利用同一数据处理引擎对流处理数据和批处理数据统一进行处理，技术架构简洁，最大程度优化各个环节的功能复用性，易于维护与管理。避免了使用流处理引擎和批处理引擎两套大数据处理引擎，维护成本高的问题，而且，若使用两套数据处理引擎，不同处理层的技术架构不同，应用程序接口(Application ProgrammingInterface，API)不一样，有任何逻辑上的改动，就需要在多处进行同步更新，后期迭代的时间周期会随着数据量的增长不断变长。

另外，利用同一数据处理引擎对流处理数据和批处理数据统一进行处理，支持处理后的数据实时进入数据湖，最大程度降低数据生产延迟时间，可以把数据处理结果的可见性由原来的天级别、小时级别等降低到分钟级别甚至秒级别。若使用两套数据处理引擎，由于定时的进行批处理，所有数据最终到达数据仓库都是一批一批按时处理的，例如，天粒度调度的批处理任务，今天变更的数据只能到明天统一处理进入数据仓库，则数据进入数据仓库的延迟高，不利于用户对数据处理结果进行查询和分析。

其中，将处理后的数据存储进数据湖的具体实现方式见如下实施例：

在一种实施方式中，将处理后的数据存储到数据湖中，包括：

预先配置数据湖中的第一格式的数据表的索引信息；

根据索引信息，对处理后的数据进行更新；

将更新后的数据存储到第一格式的数据表中。

其中，将处理后的数据按照第一格式的数据表的形式存储到数据湖中，其中，第一格式可以是根据具体需要确定的任意格式。可以预先配置第一格式的数据表的索引信息，可以包括但不限于配置哪些字段使用什么索引。其中，索引信息可以是对数据表中一列或多列的值进行排序的一种数据结构。根据索引信息，按照变化数据捕获(Change DataCapture，CDC)方式，将处理后的数据实时写入第一格式的数据表中，或者根据索引信息读取数据表中的目标数据，并对目标数据进行修改。

可选的，服务器还可以预先配置第一格式数据表中各字段对应的数据类型、使用什么压缩策略等，根据索引信息、数据类型、压缩策略中的至少一种，在第一格式的数据表中对处理后的数据进行更新。

本公开实施例中，通过预先配置数据表的索引信息，根据索引信息对第一格式的数据表中的数据进行更新，使得用户在进行数据查询时，可以根据索引信息在数据湖中进行数据查询，可以提高数据查询的效率。如果没有索引信息，一个查询任务对应一个批处理任务，查询速度较慢，延迟相对较高。

在一种实施方式中，该方法还包括：

在处理后的数据为第一格式的数据表存储的数据的情况下，从数据仓库中获取历史数据，历史数据为第二格式的数据表存储的数据；

将历史数据转换为第一格式的数据表存储的数据，并存储到数据湖中。

其中，第二格式可以是与第一格式不同的任意格式。对于存量数据，也就是数据仓库中存储的历史数据，可以通过转换的方式，将不同格式的数据表存储的历史数据转换为与实时处理的数据流相同的格式的数据，也就是将第二格式的数据表存储的数据转换为第一格式的数据表存储的数据，并存储到数据湖中，以实现数据的兼容存储。

本公开实施例中，将历史数据转换为与实时处理的数据流相同格式的数据存储到数据湖中，可以满足用户通过一个数据接口，对历史数据和实时处理的数据流的处理结果的复合查询，可以提高数据查询的便捷性，同时可以实现数据的快速查询。

在一种实施方式中，其中，从数据仓库中获取历史数据，包括：

从数据仓库中获取第二格式的数据表的表结构和数据存储路径；

基于表结构和数据存储路径，得到第二格式的数据表存储的历史数据。

其中，历史数据在数据仓库中以第二格式的数据表的形式进行存储，因此，通过提取第二格式的数据表的表结构和数据存储路径，可以基于表结构和数据存储路径得到第二格式的数据表的实例，从而得到历史数据。

本公开实施例中，通过获取第二格式的数据表的表结构和数据存储路径来获取历史数据，可以方便快捷的获取到第二格式的数据表存储的历史数据。

在一种实施方式中，其中，将历史数据转换为第一格式的数据表存储的数据，并存储到数据湖中，包括：

创建第二格式的数据表的外部表，外部表通过数据存储路径与第二格式的数据表相关联，以使第二格式的数据表存储的历史数据成为外部表存储的历史数据；

利用外部表将第二格式的数据表存储的历史数据加载到第一格式的数据表中，并将第一格式的数据表存储的历史数据存储到数据湖中。

其中，外部表可以是在数据仓库之外在数据湖中创建的数据表。将外部表中的数据存储路径定义为指向数据仓库中的第二格式的数据表的数据存储路径，可选的，数据仓库中的第二格式的数据表中存储的数据可以按照产生数据的时间跨度(例如，1小时、1天)不同进行分区，则将各分区数据注册到外部表中，也就是将各分区数据的数据存储路径与外部表的元数据相关联，则第二格式的数据表存储的历史数据成为外部表存储的历史数据。利用外部表将第二格式的数据表存储的历史数据加载到第一格式的数据表中，从而实现了将历史数据引入到数据湖中。

本公开实施例中，通过第二格式的数据表的外部表将历史数据引入数据中，使得数据中既包括历史数据又包括实时处理的数据流，可以满足用户对于历史数据和实时处理的数据流的处理结果的复合查询需求。

在一种实施方式中，其中，利用外部表将第二格式的数据表存储的历史数据加载到第一格式的数据表中，包括：

将外部表存储的历史数据的存储格式转换为第一格式的数据表的存储格式；

获取第一格式的数据表的索引信息；

根据索引信息，将存储格式转换后的数据写入第一格式的数据表中。

具体的，由于外部表中存储的历史数据是以第二格式的数据表存储的，因此需要对历史数据进行存储格式的转换，转换成第一格式存储的数据表对应的存储格式，按照预先配置的第一格式的数据表的索引信息将数据写入第一格式的数据表。可选的，可以利用spark计算引擎将第二格式的数据表存储的历史数据加载到第一格式的数据表中。

本公开实施例中，通过存储格式转换和索引信息，可以实现将历史数据加载到第一格式的数据表中，以实现历史数据和实时处理的数据流在数据湖中的兼容存储。

在一种实施方式中，第一格式为CarbonData格式；第二格式为Hive格式。

数据湖中的数据表的格式可以是CarbonData格式，CarbonData可以理解为是一种分布式文件存储格式，可以支持使用分布式文件***(Hadoop Distributed File System，HDFS)来存储海量的数据集。数据仓库中存储的数据表的格式可以是Hive格式。

本公开实施例中，通过CarbonData格式的数据表将数据存储到数据湖中，与Hive格式相比，进行数据查询时，响应时间更短，查询速度更快。

在一种实施方式中，该方法还包括：

接收数据查询请求，数据查询请求中包括查询条件；

确定与查询条件相匹配的索引信息，索引信息为数据湖中的第一格式的数据表的索引信息；

根据索引信息，在数据湖中确定符合查询条件的数据。

具体的，服务器接收用户终端通过应用程序发送的数据查询请求，对数据查询请求进行解析，提取数据查询请求中携带的数据查询条件，根据索引信息和数据查询条件进行查询，其中，数据查询条件可以是查询目标需要满足的任意条件，本公开对此不做限定。

可选的，预先配置数据湖中第一格式的数据表的索引信息，数据湖中包括多个以第一格式的数据表存储的第一格式文件，可以为每个第一格式文件配置对应的索引信息，将查询条件与各第一格式文件各自对应的索引信息进行匹配处理，得到匹配度满足预设匹配度阈值的第一格式文件，再根据该第一格式文件的索引信息，进行文件级别的查询，得到满足查询条件的数据块，可选的，针对数据块，可以进一步通过二分查找(Binary Search)的方式继续进行数据查询，得到最终的查询目标。

本公开实施例中，根据第一格式的数据表的索引信息进行数据查询，可以实现数据查询请求的快速响应，提高数据查询速度，满足用户的低延迟查询需求。

在一种实施方式中，确定与查询条件相匹配的索引信息，包括：

在分布式缓存服务器中查询与查询条件相匹配的索引信息。

具体的，在确定与查询条件相匹配的索引信息时，可以在分布式缓存服务器中进行查询，分布式缓存服务器中的索引信息是本次数据查询请求之前缓存的，分布式缓存服务器可以通过配置进行开关式管理，打开之后，对于用户的每次数据查询请求，默认都会先请求一次分布式缓存服务器，如果分布式缓存服务器中有与查询条件相匹配的索引信息，会优先使用该索引信息在数据湖中进行数据查询。

其中，数据缓存服务器可以支持横向扩展，可以根据业务场景灵活选择缓存保留策略，可以是多个服务器组成的服务器集群，进一步支持数据查询的高效性。

本公开实施例中，通过在分布式缓存服务器中查询与查询条件相匹配的索引信息，再根据索引信息进行数据查询，可以提高数据查询的时效性。

在分布式缓存服务器中不存在与查询条件相匹配的索引信息的情况下，通过集群节点在数据湖中确定与查询条件相匹配的索引信息；

将与查询条件相匹配的索引信息加载到分布式缓存服务器中。

具体的，如果分布式缓存服务器中没有与查询条件相匹配的索引信息，则通过集群节点在数据湖中确定与查询条件相匹配的索引信息，将与查询条件相匹配的索引信息加载到分布式缓存服务器中，根据与查询条件相匹配的索引信息在数据湖中进行数据查询。

其中，集群节点可以是数据查询***的查询节点，数据查询***可以包括多个集群节点，每个集群节点可以是一个或多个服务器或者终端设备，通过各个集群节点可以在数据湖中进行数据查询。

本公开实施例中，在分布式缓存服务器中不存在与查询条件相匹配的索引信息的情况下，通过集群节点在数据湖中确定与查询条件相匹配的索引信息，从而满足用户的数据查询需求。

图3为本公开一实施例中数据流处理方法的示意图。如图3所示，数据流处理方法可以包括：

步骤S301，获取待处理数据流，待处理数据流包括流处理数据和批处理数据。

步骤S302，利用同一数据处理引擎对待处理数据流进行处理，得到处理后的数据。

步骤S303，将处理后的数据存储到数据湖中。

步骤S304，接收数据查询请求，数据查询请求中包括查询条件。

步骤S305，在分布式缓存服务器中查询与查询条件相匹配的索引信息，在分布式缓存服务器中不存在与查询条件相匹配的索引信息的情况下，通过集群节点在数据湖中确定与查询条件相匹配的索引信息。

步骤S306，将与查询条件相匹配的索引信息加载到分布式缓存服务器中。

步骤S307，根据索引信息，在数据湖中确定符合查询条件的数据。

本公开实施例中，对于待处理的流处理数据和批处理数据，按照流批一体处理方式进行处理，可以提高数据处理的时效性，利用索引信息和分布式缓存服务器进行高效查询，可以支持PB级数据查询的秒级响应。本实施例从支持数据实时进入数据湖、支持数据查询快速响应两个维度最大化缩短了数据从产生到最终供用户进行数据查询的整体时间，可以很好的保障端到端的低延迟要求。

图4为本公开一实施例中数据仓库与数据湖兼容存储的示意图。如图4所示，本实施例中，第一格式为CarbonData，第二格式为Hive格式。历史数据以Hive表的形式存储在数据仓库(如图中所示的“传统数仓生产环境”)中，元数据管理服务(也可以称为HiveMetaServer)用于维护Hive表的表结构和数据存储路径，从元数据管理服务中获取表结构和数据存储路径(也可以称为Schema获取)，得到Hive表实例(如图中所示的“Hive表”)，在数据湖(如图中所示的“CarbonData数据湖生产环境”)中创建Hive外部表，通过数据存储路径将Hive表和Hive外部表相关联(如图中所示的“外部表关联引入”)，将Hive外部表存储的历史数据进行格式转换，并加载到CarbonData表中，客户端可以对Hive外部表或者CarbonData表中的数据进行读取和写入(如图中所示的“读写”)。其中，客户端可以通过Spark-Shell方式或者ThriftServer方式与数据湖进行连接和数据查询。CarbonData表和Hive表都可以存储在分布式存储***中。

图5为本公开一实施例中数据流处理方法的示意图。如图5所示，本实施例中，第一格式的数据表为CarbonData表。本实施例中包括CarbonData表的预配置和CarbonData表数据的实时捕获两个方面。其中，CarbonData表的预配置包括：预先配置CarbonData表中各字段的索引信息、数据类型(如图中所示的“CarbonData表结构定义”)，后续数据会按照预配置的索引信息、数据类型注入数据湖(如图中所示的“索引类型/字段注入”)。CarbonData表数据的实时捕获包括：待处理数据流通过Kafka消息队列流入Flink数据处理引擎，然后通过Flink数据处理引擎将数据处理后注入变化数据捕获CDC模块，最终通过CDC模块将数据写入到数据湖中的CarbonData表，以供用户进行数据查询。

图6为本公开一实施例中数据查询***的示意图。如图6所示，数据查询***包括Thrift服务器节点、分布式缓存服务器(也可称为Distributed Index Server)和多个集群节点(如图中所示的集群节点1、集群节点2…集群节点n)。其中，Thrift服务器节点包括请求转发子节点(也可称为Thrift服务器子节点)和对话上下文子节点(也可称为SparkContext子节点)；分布式缓存服务器包括索引驱动节点(也可称为Index Driver节点)和多个索引执行节点(也可称为Index Executor节点)：索引执行节点1、索引执行节点2…索引执行节点m；每个集群节点包括计算子节点(也可称为Spark Executor)和查询子节点(也可称为Carbon Engine)。数据湖(如图中所示的“分布式存储***”)中存储有多个以CarbonData表形式存储的文件，如图中所示的文件1、文件2、文件3、文件4…文件X、文件Y。

其中，Thrift服务器节点配置了用户侧的请求地址和端口，让用户可以通过Java数据库连接(Java Database Connectivity，JDBC)的方式连接到该节点服务器上，Thrift服务器节点与spark集群(基于spark计算引擎的服务器集群)相连接，可以将用户的查询请求分发的各集群节点上，从而进行分布式查询，提高数据查询效率。Thrift服务器节点启动后可以以长链接服务状态与其他节点保持连接，当接收到数据查询请求时，实时将请求分发到各集群节点上。同时还可以在启动时锁定Spark资源，以常驻内存的方式随时响应Thrift服务器节点分发过来的数据查询请求。

本实施例中具体的数据查询过程包括：当收到用户应用程序发送的数据查询请求时，请求转发子节点提取数据查询请求中的查询条件，通过索引驱动节点驱动各索引执行节点，通过各索引执行节点在分布式缓存服务器中查询与查询条件相匹配的索引信息，若查询到与查询条件相匹配的索引信息，则根据索引信息在数据湖中查询对应的目标文件。在分布式缓存服务器中不存在与查询条件相匹配的索引信息的情况下，请求转发子节点将数据处理请求转发给对话上下文子节点，对话上下文子节点通过各集群节点中的计算子节点计算与查询条件相匹配的索引信息，并通过查询子节点根据索引信息在数据湖中查询对应的目标文件。

下面结合实际业务场景数据对CarbonData表和Hive表在查询响应时间上进行对比分析，以体现当前方案相对于数据仓库的查询提速实际效果。本实施例中，选择了6个比较有代表性的查询场景，每个场景进行10次查询统计平均耗时。对应详情如表1所示。

表1

对应的查询效果对比如图7所示，图7中横轴表示各场景，纵轴表示各场景下Hive表与CarbonData表分别对应的查询耗时。为了使效果对比在相同条件下，对查询环境做了如下对齐：

(1)存储层面严格对齐：Hive表与CarbonData表所使用的的存储集群为同一个。

(2)计算资源严格对齐：使用同等资源和同一个客户端进行查询，资源分配具体为30个执行实例，每个实例2个核心，8G内存。

从图7和表1可以得出如下结论：

(1)相较于Hive查询而言，CarbonData查询速度在以上六大查询场景中均超过了Hive查询速度，平均提速快了17.91倍。

(2)在限定了查询资源量的情况下，在绝大多数场景下CarbonData都能够做到秒级响应。如果查询资源更充足，查询响应表现会得到进一步的提升。

(3)CarbonData在复杂聚合查询或者点查方面优势显著。

图8为本公开一实施例中数据流处理装置的示意图。如图8所示，数据流处理装置可以包括：

获取模块801，用于获取待处理数据流，待处理数据流包括流处理数据和批处理数据；

处理模块802，用于对待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；

存储模块803，用于将处理后的数据存储到数据湖中。

本公开实施例提供的数据流处理装置，对于待处理的流处理数据和批处理数据，按照流批一体处理方式进行处理，可以提高数据处理的时效性，将处理后的数据存储到数据湖中，可以满足用户对于数据查询的低延迟需求。

在一种实施方式中，处理模块802，具体用于：

在一种实施方式中，存储模块803，具体用于：

预先配置数据湖中的第一格式的数据表的索引信息；

根据索引信息，对处理后的数据进行更新；

将更新后的数据存储到第一格式的数据表中。

在一种实施方式中，该数据流处理装置还包括转换模块，转换模块包括获取单元和转换单元；

获取单元，用于在处理后的数据为第一格式的数据表存储的数据的情况下，从数据仓库中获取历史数据，历史数据为第二格式的数据表存储的数据；

转换单元，用于将历史数据转换为第一格式的数据表存储的数据，并存储到数据湖中。

在一种实施方式中，获取单元，具体用于：

在一种实施方式中，转换单元，具体用于：

在一种实施方式中，转换单元在利用外部表将第二格式的数据表存储的历史数据加载到第一格式的数据表中时，用于：

获取第一格式的数据表的索引信息；

在一种实施方式中，该数据流处理装置还包括查询模块，图9为本公开一实施例中查询模块的示意图，如图9所示，查询模块包括接收单元901、第一确定单元902和第二确定单元903；

接收单元901，用于接收数据查询请求，数据查询请求中包括查询条件；

第一确定单元902，用于确定与查询条件相匹配的索引信息，索引信息为数据湖中的第一格式的数据表的索引信息；

第二确定单元903，用于根据索引信息，在数据湖中确定符合查询条件的数据。

在一种实施方式中，第一确定单元902，用于：

在分布式缓存服务器中查询与查询条件相匹配的索引信息。

在一种实施方式中，第一确定单元901，用于：

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如数据流处理方法。例如，在一些实施例中，数据流处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的数据流处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据流处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据流处理方法，所述方法包括：

获取待处理数据流，所述待处理数据流包括流处理数据和批处理数据；

对所述待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；

将所述处理后的数据存储到数据湖中。

2.根据权利要求1所述的方法，所述对所述待处理数据流按照流批一体处理方式进行处理，得到处理后的数据，包括：

利用同一数据处理引擎对所述待处理数据流进行处理，得到处理后的数据。

3.根据权利要求1所述的方法，所述将所述处理后的数据存储到数据湖中，包括：

预先配置所述数据湖中的第一格式的数据表的索引信息；

根据所述索引信息，对所述处理后的数据进行更新；

将更新后的数据存储到所述第一格式的数据表中。

4.根据权利要求1所述的方法，还包括：

在所述处理后的数据为第一格式的数据表存储的数据的情况下，从数据仓库中获取历史数据，所述历史数据为第二格式的数据表存储的数据；

将所述历史数据转换为所述第一格式的数据表存储的数据，并存储到所述数据湖中。

5.根据权利要求4所述的方法，其中，所述从数据仓库中获取历史数据，包括：

从所述数据仓库中获取第二格式的数据表的表结构和数据存储路径；

基于所述表结构和数据存储路径，得到所述第二格式的数据表存储的历史数据。

6.根据权利要求4所述的方法，其中，所述将所述历史数据转换为所述第一格式的数据表存储的数据，并存储到所述数据湖中，包括：

创建所述第二格式的数据表的外部表，所述外部表通过数据存储路径与所述第二格式的数据表相关联，以使所述第二格式的数据表存储的历史数据成为所述外部表存储的历史数据；

利用所述外部表将所述第二格式的数据表存储的历史数据加载到所述第一格式的数据表中，并将所述第一格式的数据表存储的历史数据存储到所述数据湖中。

7.根据权利要求6所述的方法，其中，所述利用所述外部表将所述第二格式的数据表存储的历史数据加载到所述第一格式的数据表中，包括：

将所述外部表存储的历史数据的存储格式转换为第一格式的数据表的存储格式；

获取所述第一格式的数据表的索引信息；

根据所述索引信息，将存储格式转换后的数据写入所述第一格式的数据表中。

8.根据权利要求4-7任一项所述的方法，其中，所述第一格式为CarbonData格式；所述第二格式为Hive格式。

9.根据权利要求1所述的方法，还包括：

接收数据查询请求，所述数据查询请求中包括查询条件；

确定与所述查询条件相匹配的索引信息，所述索引信息为所述数据湖中的第一格式的数据表的索引信息；

根据所述索引信息，在所述数据湖中确定符合所述查询条件的数据。

10.根据权利要求9所述的方法，所述确定与所述查询条件相匹配的索引信息，包括：

在分布式缓存服务器中查询与所述查询条件相匹配的索引信息。

11.根据权利要求9所述的方法，所述确定与所述查询条件相匹配的索引信息，包括：

在分布式缓存服务器中不存在与所述查询条件相匹配的索引信息的情况下，通过集群节点在所述数据湖中确定与所述查询条件相匹配的索引信息；

将所述与所述查询条件相匹配的索引信息加载到所述分布式缓存服务器中。

12.一种数据流处理装置，所述装置包括：

获取模块，用于获取待处理数据流，所述待处理数据流包括流处理数据和批处理数据；

处理模块，用于对所述待处理数据流按照流批一体处理方式进行处理，得到处理后的数据；

存储模块，用于将所述处理后的数据存储到数据湖中。

13.根据权利要求12所述的装置，所述处理模块，具体用于：

14.根据权利要求12所述的装置，所述存储模块，具体用于：

预先配置所述数据湖中的第一格式的数据表的索引信息；

根据所述索引信息，对所述处理后的数据进行更新；

将更新后的数据存储到所述第一格式的数据表中。

15.根据权利要求12所述的装置，所述装置还包括转换模块，所述转换模块包括获取单元和转换单元；

所述获取单元，用于在所述处理后的数据为第一格式的数据表存储的数据的情况下，从数据仓库中获取历史数据，所述历史数据为第二格式的数据表存储的数据；

所述转换单元，用于将所述历史数据转换为所述第一格式的数据表存储的数据，并存储到所述数据湖中。

16.根据权利要求15所述的装置，其中，所述获取单元，具体用于：

17.根据权利要求15所述的装置，其中，所述转换单元，具体用于：

18.根据权利要求17所述的装置，其中，所述转换单元在利用所述外部表将所述第二格式的数据表存储的历史数据加载到所述第一格式的数据表中时，用于：

获取所述第一格式的数据表的索引信息；

19.根据权利要求15-18任一项所述的装置，其中，所述第一格式为CarbonData格式；所述第二格式为Hive格式。

20.根据权利要求12所述的装置，所述装置还包括查询模块，所述查询模块包括接收单元、第一确定单元和第二确定单元；

所述接收单元，用于接收数据查询请求，所述数据查询请求中包括查询条件；

所述第一确定单元，用于确定与所述查询条件相匹配的索引信息，所述索引信息为所述数据湖中的第一格式的数据表的索引信息；

所述第二确定单元，用于根据所述索引信息，在所述数据湖中确定符合所述查询条件的数据。

21.根据权利要求20所述的装置，所述第一确定单元，用于：

22.根据权利要求20所述的装置，所述第一确定单元，用于：

23.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。