WO2024082693A1

WO2024082693A1 - 数据处理方法及装置

Info

Publication number: WO2024082693A1
Application number: PCT/CN2023/103426
Authority: WO
Inventors: 康祥; 宋立勇; 蔺若林; 巴肯斯蒂格; 洪博斯塔德符文
Original assignee: 华为云计算技术有限公司
Priority date: 2022-10-21
Filing date: 2023-06-28
Publication date: 2024-04-25
Also published as: CN117951141A

Abstract

本申请公开了一种数据处理方法及装置，属于数据库技术领域。分析处理引擎获取来自事务处理引擎的增量数据。分析处理引擎根据增量数据更新存储表。该存储表采用列式存储格式。该存储表包括数据信息列和有效性指示信息列。增量数据以数据行的形式存储在数据信息列中。有效性指示信息列用于指示数据信息列中的数据行有效或无效。分析处理引擎可基于有效性指示信息列过滤数据信息列中的无效数据行而读取数据信息列中的有效数据行，从而实现快速数据去重，有效性指示信息列的数据量较小且能够实现对数据有效性的快速更新，节约了存储资源且提高了数据时效性。

Description

数据处理方法及装置

本申请要求于2022年10月21日提交的申请号为202211298222.7、发明名称为“数据处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据库技术领域，特别涉及一种数据处理方法及装置。

背景技术

事务处理(transactional processing，TP)和分析处理(analytical processing，AP)是两种类型的数据库***应用。TP***用于管理和处理事务。例如TP***用于销售订单录入或银行事务处理。AP***用于分析数据，为业务分析师生成报告。例如AP***生成的报告包括按地理区域、产品类别或客户分类等划分的汇总销售统计资料。

随着现阶段数据业务越来越模糊，AP业务TP化，TP业务AP化，混合负载数据处理成为市场趋势。混合事务/分析处理(hybrid transactional and analytical processing，HTAP)模式是常见的一种混合负载模式。HTAP模式可以支持大量并发的更新，数据同步时延通常在秒级或毫秒级。HTAP***包括TP负载和AP负载，TP负载采用行式存储格式，AP负载采用列式存储格式。TP负载上的数据实时同步到AP负载上。由于AP负载采用列式存储格式，因此AP负载在数据更新时通常采用附加(append)方式追加数据，这会造成AP负载中存在大量重复数据，在处理读请求时需要对数据进行去重。

目前，AP负载定期创建TP负载最新版本的全量数据快照，并基于全量数据快照处理读请求。该全量数据快照实质上包含AP负载在对应版本下经过数据去重之后的数据。但是一方面，由于AP负载定期创建TP负载最新版本的全量数据快照，受限于快照创建间隔时长，AP负载处理读请求时所采用的数据实时性较差。另一方面，AP负载存储全量数据快照所占用的存储资源较多。

发明内容

本申请提供了一种数据处理方法及装置，可以解决目前AP引擎处理AP请求所采用的数据实时性较差、存储全量数据快照占用较多存储资源的问题。

第一方面，提供了一种数据处理方法。该方法包括：分析处理引擎获取来自事务处理引擎的增量数据。分析处理引擎根据增量数据更新存储表。该存储表采用列式存储格式。该存储表包括数据信息列和有效性指示信息列。增量数据以数据行的形式存储在数据信息列中。有效性指示信息列用于指示数据信息列中的数据行有效或无效。

本申请中，分析处理引擎通过在存储表中设置有效性指示信息列来指示数据信息列中的数据行有效或无效，在处理数据查询请求时，分析处理引擎可基于有效性指示信息列过滤数据信息列中的无效数据行而读取数据信息列中的有效数据行，从而实现快速数据去重，提高了数据查询效率。由于分析处理引擎无需创建并存储事务处理引擎的全量数据快照，因此减少了数据存储量，从而节约了存储资源。另外，分析处理引擎在实时同步来自事务处理引擎的增量数据之后，能够通过有效指示信息列快速更新数据最新状态，以使分析处理引擎在处理数据查询请求时尽可能使用最新的更新数据，提高了数据时效性。

在一种可能的实现方式中，响应于接收到数据查询请求，分析处理引擎输出存储表中有效性指示信息列所指示的有效数据行。

本申请中，分析处理引擎可基于有效性指示信息列过滤数据信息列中的无效数据行而读取数据信息列中的有效数据行，从而实现快速数据去重，提高了数据查询效率。

在一种可能的实现方式中，增量数据包括新增数据，分析处理引擎根据增量数据更新存储表的实现方式，包括：分析处理引擎采用增加数据行的方式在存储表中添加新增数据，并在有效性指示信息列中与该新增数据所在数据行对应的指示信息行添加第一指示，第一指示用于指示数据行有效。

这种实现方式下，分析处理引擎只需在数据信息列中增加数据行以添加新增数据，并在有效性指示信息列中增加对应的指示信息行以添加第一指示即可，可实现对新增数据及其有效性的快速更新，数据实时性较高。

在一种可能的实现方式中，增量数据包括修改数据，分析处理引擎根据增量数据更新存储表的实现方式，包括：分析处理引擎采用增加数据行的方式在存储表中添加修改数据，并在有效性指示信息列中与该修改数据所在数据行对应的指示信息行添加第一指示，以及，将有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第一指示用于指示数据行有效，第二指示用于指示数据行无效。

这种实现方式下，分析处理引擎只需在数据信息列中增加数据行以添加修改数据，并在有效性指示信息列中增加对应的指示信息行以添加第一指示，并修改有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的指示即可，可实现对修改数据及其有效性、被修改数据及其有效性的快速更新，数据实时性较高。

在一种可能的实现方式中，增量数据包括删减数据，分析处理引擎根据增量数据更新存储表的实现方式，包括：分析处理引擎将有效性指示信息列中与删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第二指示用于指示数据行无效。

这种实现方式下，分析处理引擎只需修改有效性指示信息列中与删除数据所在数据行对应的指示信息行中的指示即可，可实现对删除数据的有效性的快速更新，数据实时性较高。

在另一种可能的实现方式中，存储表还包括可读性标识信息列，可读性标识信息列用于标识数据信息列中的数据行可被读取或不可被读取，增量数据包括删减数据，分析处理引擎根据增量数据更新存储表的实现方式，包括：分析处理引擎采用增加数据行的方式在存储表中添加删减数据，且在可读性标识信息列中与新增的删减数据所在数据行对应的标识信息行中设置第一标识，并将有效性指示信息列中与原有的删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第一指示用于指示数据行有效，第二指示用于指示数据行无效，第一标识用于标识数据行不可被读取。

这种实现方式下，分析处理引擎需在数据信息列中增加数据行以添加删除数据，并在可读性标识信息列中与新增的删减数据所在数据行对应的标识信息行中设置标识以指示数据行不可被读取，可实现对删除数据的有效性的快速更新，数据实时性较高。

在一种可能的实现方式中，有效性指示信息列包括第一指示信息列和第二指示信息列。第一指示信息列和第二指示信息列用于轮询更新对数据信息列中的数据行的有效性的指示，且第一指示信息列和第二指示信息列满足以下条件：同一时刻，第一指示信息列和第二指示信息列中的至少一个支持数据查询功能；在第一指示信息列和第二指示信息列都支持数据查询功能的情况下，第一指示信息列和第二指示信息列中最近更新的指示信息列用于分析处理引擎进行数据查询。

本申请中，通过在存储表中设置两个指示信息列来轮询更新对数据信息列中的数据行的有效性的指示，使得分析处理引擎在任意时刻总是有可用的指示信息来辅助处理数据查询请求，从而提高数据查询效率。另外，由于指示信息列的数据量较小，可基本实现与数据信息列的同步快速更新，通过将轮询周期设置成较短时长，可以使分析处理引擎在处理数据查询请求时尽可能使用最新的数据，从而提高了数据时效性。另外，由于多个指示信息列共享同一数据信息列，因此不存在数据冗余存储的问题，数据存储成本较低。

在一种可能的实现方式中，存储表还包括版本信息列，版本信息列用于指示数据信息列中的数据行被添加至数据信息列的时间先后顺序。

第二方面，提供了一种数据处理装置，应用于分析处理引擎。该装置包括：获取模块，用于获取来自事务处理引擎的增量数据。更新模块，用于根据增量数据更新存储表，存储表采用列式存储格式，存储表包括数据信息列和有效性指示信息列，增量数据以数据行的形式存储在数据信息列中，有效性指示信息列用于指示数据信息列中的数据行有效或无效。

可选地，该装置还包括：查询模块，用于响应于接收到数据查询请求，输出存储表中有效性指示信息列所指示的有效数据行。

可选地，增量数据包括新增数据，更新模块，具体用于：采用增加数据行的方式在存储表中添加新增数据，并在有效性指示信息列中与新增数据所在数据行对应的指示信息行添加第一指示，第一指示用于指示数据行有效。

可选地，增量数据包括修改数据，更新模块，具体用于：采用增加数据行的方式在存储表中添加修改数据，并在有效性指示信息列中与修改数据所在数据行对应的指示信息行添加第一指示，以及，将有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第一指示用于指示数据行有效，第二指示用于指示数据行无效。

可选地，增量数据包括删减数据，更新模块，具体用于：将有效性指示信息列中与删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第二指示用于指示数据行无效。或者，存储表还包括可读性标识信息列，可读性标识信息列用于标识数据信息列中的数据行可被读取或不可被读取，增量数据包括删减数据，更新模块，具体用于：采用增加数据行的方式在存储表中添加删减数据，且在可读性标识信息列中与新增的删减数据所在数据行对应的标识信息行中设置第一标识，并将有效性指示信息列中与原有的删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第一指示用于指示数据行有效，第二指示用于指示数据行无效，第一标识用于标识数据行不可被读取。

可选地，有效性指示信息列包括第一指示信息列和第二指示信息列，第一指示信息列和第二指示信息列用于轮询更新对数据信息列中的数据行的有效性的指示，且第一指示信息列和第二指示信息列满足以下条件：同一时刻，第一指示信息列和第二指示信息列中的至少一个支持数据查询功能；在第一指示信息列和第二指示信息列都支持数据查询功能的情况下，第一指示信息列和第二指示信息列中最近更新的指示信息列用于分析处理引擎进行数据查询。

可选地，存储表还包括版本信息列，版本信息列用于指示数据信息列中的数据行被添加至数据信息列的时间先后顺序。

第三方面，提供了一种数据处理装置，该数据处理装置可以是分析处理引擎，包括存储器和处理器，存储器存储有程序指令，处理器运行程序指令以执行上述第一方面及其各实施方式中的方法。

第四方面，提供了一种计算机可读存储介质，包括程序指令，当程序指令在计算机设备上运行时，使得计算机设备执行上述第一方面及其各实施方式中的方法。

第五方面，提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面及其各实施方式中的方法。

附图说明

图1是本申请实施例提供的一种应用场景示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的一种数据处理装置的结构示意图；

图4是本申请实施例提供的另一种数据处理装置的结构示意图；

图5是本申请实施例提供的一种数据处理装置的架构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了便于读者对本申请方案的理解，首先对本申请实施例涉及的一些名词进行解释。

快照：指关于数据集合的一个完全可用拷贝。快照中包括对应数据集合在某个时间点(拷贝的开始时刻)的映像，基于数据集合在某个时刻的快照可以查询到该数据集合在该时刻对应的数据。快照可以看作是数据的副本，也可以看作是数据的复制品。

事务：数据库中的事务是指作为单个逻辑工作单元执行的一系列操作，要么完整地执行，要么完全不执行。事务处理可以确保除非事务性单元内的所有操作都成功完成，否则不会永久更新面向数据的资源。通过将一组相关操作组合为一个要么全部成功要么全部失败的单元，可以简化错误恢复并使应用程序更加可靠。一个逻辑工作单元要成为事务，必须满足所谓的原子性(atomicity)、一致性(consistency)、隔离性(isolation)和持久性(durability)(简称：ACID)属性要求。在数据库中进行事务处理，尤其是在网上购物的一次交易过程中，满足事务的ACID属性显得尤为重要。在正常情况下，付款操作顺利进行，最终交易成功，与交易相关的所有数据库信息也成功地更新。但是，如果在这一系列过程中任何一个环节出了差错，例如在更新商品库存信息时发生异常、顾客银行账户存款不足等，都将导致交易失败。一旦交易失败，数据库中所有信息都必须保持交易前的状态不变，否则，数据库的信息将会一片混乱而不可预测。

事务处理引擎(TP engine)：一种数据库引擎，用于处理事务。用户数据通过TP引擎以事务形式提交并持久化。

分析处理引擎(AP engine)：一种数据库引擎，用于分析事务。AP引擎实时同步TP引擎上的数据并提供数据分析功能。

随着现阶段数据业务越来越模糊，AP业务TP化，TP业务AP化，混合负载数据处理成为市场趋势。HTAP是一种新兴的应用体系结构，它打破了事务处理和分析处理之间的“墙”，可以实现混合负载数据处理，即HTAP模式是常见的一种混合负载模式。HTAP模式可以支持大量并发的更新，数据同步时延通常在秒级或毫秒级。HTAP***中，由于AP负载采用列式存储格式，因此AP负载在数据更新时通常采用附加方式追加数据，这会造成AP负载中存在大量重复数据，在处理读请求时需要对数据进行去重。例如，TP负载中写入了一条数据“ID＝1，name＝Tom”，AP负载将该条数据同步到本地后，在采用列式存储格式的存储表中添加一个数据行来记录该条数据。进一步地，TP负载中将“ID＝1，name＝Tom”的这条数据修改为“ID＝1，name＝Tom-1”，AP负载将修改后的数据同步到本地后，在存储表中再追加一行数据行来记录修改后的数据，此时存储表中存在ID＝1的两条数据。这种情况下，AP负载在处理读请求时，则需要对存储表中ID＝1的两条数据进行去重，比如仅读取相同ID下的最新数据，而过滤旧数据。

为了提高数据读取效率，目前AP负载定期创建TP负载最新版本的全量数据快照，并基于全量数据快照处理读请求。该全量数据快照也可称为全局一致性快照。该全量数据快照实质上包含AP负载在对应版本下经过数据去重之后的数据。例如AP负载在表空间下创建若干个隐藏的表，这些隐藏的表是原表某个版本数据去重后的一个影子表(shadow table)。其中，原表为AP负载用于存储来自TP负载的数据的表，一个影子表为AP负载创建的TP负载一个版本的全量数据快照。

上述方案存在一定局限性，一方面，由于AP负载定期创建TP负载最新版本的全量数据快照，而创建全量数据快照耗时较长，因此快照创建间隔时长也会较大。受限于快照创建间隔时长，AP负载处理读请求时所采用的数据实时性较差。例如AP负载在相邻两个快照的创建间隔时长内更新的数据，只有在下一个快照创建之后才能用于处理读请求。另一方面，AP负载存储全量数据快照所占用的存储资源较多。

基于此，本申请实施例提供了一种数据处理方法。分析处理引擎获取来自事务处理引擎的增量数据之后，根据该增量数据更新存储表。该存储表采用列式存储格式，该存储表中包括数据信息列和有效性指示信息列。其中，增量数据以数据行的形式存储在数据信息列中。有效性指示信息列用于指示数据信息列中的数据行有效或无效。具体而言，有效性指示信息列指示数据信息列中的某个数据行无效，表示该数据行已过期，例如该数据行已被删除或该数据行中的信息被修改过，此时该数据行不会被分析处理引擎读取并输出。有效性指示信息列指示数据信息列中的某个数据行有效，表示该数据行未过期(正生效)，该数据行可被分析处理引擎读取并输出。其中，有效性指示信息列可以用于分别指示数据信息列中的各个数据行有效或无效。有效性指示信息列中的指示信息行可以与数据信息列中的数据行一一对应。本申请实施例中，分析处理引擎通过在存储表中设置有效性指示信息列来指示数据信息列中的数据行有效或无效，在处理数据查询请求时，分析处理引擎可基于有效性指示信息列过滤数据信息列中的无效数据行而读取数据信息列中的有效数据行，从而实现快速数据去重，提高了数据查询效率。由于分析处理引擎无需创建并存储事务处理引擎的全量数据快照，因此减少了数据存储量，从而节约了存储资源。另外，分析处理引擎在实时同步来自事务处理引擎的增量数据之后，能够通过有效指示信息列快速更新数据最新状态，以使分析处理引擎在处理数据查询请求时尽可能使用最新的更新数据，提高了数据时效性。

下面从应用场景、方法流程、虚拟装置、硬件装置等多个角度对本申请技术方案进行详细说明。

下面对本申请涉及的应用场景举例说明。

本申请实施例提供的数据处理方法可以应用于HTAP解决方案，数据仓库等。或者也可以应用于大数据服务，各类数据分析***，包括不限于用户数据分析，结算业务等。

例如，图1是本申请实施例提供的一种应用场景示意图。如图1所示，该应用场景包括数据库***101和终端102。数据库***101和终端102能够进行通信。用户可以通过终端102访问数据库***101，包括向数据库***101写数据或从数据库***101读数据。

数据库***101包括数据库引擎和数据库。数据库引擎是用户访问操作数据库中数据的接口。该数据库引擎可以是基于日志化结构合并树(log structured merge tree，LSM-Tree)实现的存储引擎。本申请实施例中，数据库引擎包括TP引擎和AP引擎。其中，TP引擎面向用户提供写入接口，用于响应数据写入请求。用户数据通过TP引擎以事务形式提交。AP引擎实时同步TP引擎上的数据，并面向用户提供只读接口，用于响应数据查询请求。数据库包括联机事务处理(online transactional processing，OLTP)数据库和联机分析处理(online analytical processing，OLTP)数据库，OLTP数据库采用行存(即行式存储格式)支持事务型负载(TP负载)，OLAP数据库采用列存(即列式存储格式)支持分析型负载(AP负载)。本申请以下实施例中描述的事务处理引擎中的数据可以存储在OLTP数据库中，分析处理引擎中的存储表可以存储在OLAP数据库中。

在如图1所示的应用场景中，用户可以通过终端102向数据库***101发送数据写入请求，TP引擎响应该数据写入请求，并将数据以事务形式在OLTP数据库中持久化存储。AP引擎通过数据同步的方式将OLTP数据库中的数据同步在OLAP数据库中。用户可以通过终端102向数据库***101发送数据查询请求，AP引擎响应该数据查询请求，从OLAP数据库中获取对应的数据并输出至终端102。

下面对本申请涉及的方法流程举例说明。

例如，图2是本申请实施例提供的一种数据处理方法的流程示意图。如图2所示，该方法包括：

步骤201、分析处理引擎获取来自事务处理引擎的增量数据。

可选地，增量数据包括修改数据、删减数据或新增数据中的一种或多种。事务处理引擎上的修改数据包括在一个已经写入数据的存储地址重新写入的数据，例如修改数据可以是采用覆盖写的方式在一个存储地址中写入的数据。事务处理引擎上的删减数据包括在一个已经写入数据的存储地址删除的数据。事务处理引擎上的新增数据包括在一个未写入数据的存储地址新写入的数据。

可选地，分析处理引擎实时同步事务处理引擎中的增量数据。具体实现时，分析处理引擎可以基于逻辑日志回放事务处理引擎中增量更新的数据，并进行增量数据同步。在分析处理引擎确定事务处理引擎中有增量更新的数据之后，分析处理引擎首先判断事务处理引擎中是否有存量数据，存量数据也可称作历史数据。如果事务处理引擎中有存量数据，则分析处理引擎获取事务处理引擎的一致性视图，进行全量数据同步。如果事务处理引擎中没有存量数据，则分析处理引擎进行增量数据同步。

步骤202、分析处理引擎根据该增量数据更新存储表，该存储表采用列式存储格式，该存储表包括数据信息列和有效性指示信息列。

其中，数据信息列用于以数据行的形式存储分析处理引擎从事务处理引擎上同步过来的数据。相应地，分析处理引擎获取的来自事务处理引擎的增量数据以数据行的形式存储在数据信息列中。有效性指示信息列用于指示数据信息列中的数据行有效或无效。有效性指示信息列指示数据信息列中的某个数据行无效，表示该数据行已过期，例如该数据行已被删除或该数据行中的信息被修改过，此时该数据行不会被分析处理引擎读取并输出。有效性指示信息列指示数据信息列中的某个数据行有效，表示该数据行未过期(正生效)，该数据行可被分析处理引擎读取并输出。

本申请实施例中，将存储表中数据信息列下的行称为数据行，将存储表中有效性指示信息列下的行称为指示信息行。可选地，存储表中的数据行与指示信息行一一对应，每个指示信息行中设置有指示对应的数据行是否有效的指示。为了便于说明，本申请实施例在文字描述上采用第一指示来指示数据行有效，采用第二指示来指示数据行无效。第一指示和第二指示可以采用不同的数字、字母或字符等表示。例如表1示出了分析处理引擎中一种存储表的结构。

表1

参见表1，分析处理引擎中的存储表至少包括数据信息列和有效性指示信息列。表1以数据信息列和有效性指示信息列集成在一张表中为例。这种实现方式下，分析处理引擎无需单独创建表来指示数据信息的有效性，在能够实现数据快速去重处理的同时，降低了存储成本。实际应用中，数据信息列和有效性指示信息列也可以采用两张独立的表并采用join的方式连接，这种情况下，本申请实施例中的存储表可理解为多张表的集合，数据信息列可视为数据表，有效性指示信息列可视为指示数据表中数据信息的有效性的列式快照。由于有效性指示信息列的数据量较小，因此与全量数据快照相比，创建耗时更短且占用的存储资源更少，也能达到提高数据时效性以及节约存储资源的目的。

可选地，分析处理引擎中的存储表还包括可读性标识信息列和/或版本信息列。可读性标识信息列用于标识数据信息列中的数据行可被读取或不可被读取。版本信息列用于指示数据信息列中的数据行被添加至数据信息列的时间先后顺序。本申请实施例中，将存储表中可读性标识信息列下的行称为标识信息行，将存储表中版本信息列下的行称为版本信息行。可选地，存储表中的标识信息行与数据行一一对应，每个标识信息行中设置有标识对应的数据行是否可被读取的标识。为了便于说明，本申请实施例在文字描述上采用第一标识来标识数据行不可被读取，采用第二标识来标识数据行可被读取。第一标识和第二标识可以采用不同的数字、字母或字符等表示。可选地，存储表中的版本信息行与数据行一一对应，每个版本信息行中设置有指示对应的数据行的版本号。版本号可以采用数字表示，例如版本号的数值越大，表示版本越新。例如表2示出了分析处理引擎中另一种存储表的结构。

表2

参见表2，分析处理引擎中的存储表包括数据信息列、可读性标识信息列、版本信息列和有效性指示信息列。实际应用中，该存储表还可以包括更多的数据属性，可根据实际需求设计存储表的结构，本申请实施例对此不做限定。

可选地，有效性指示信息列包括第一指示信息列和第二指示信息列。第一指示信息列和第二指示信息列用于轮询更新对数据信息列中的数据行的有效性的指示。第一指示信息列和第二指示信息列满足以下条件：同一时刻，第一指示信息列和第二指示信息列中的至少一个支持数据查询功能；在第一指示信息列和第二指示信息列都支持数据查询功能的情况下，第一指示信息列和第二指示信息列中最近更新的指示信息列用于分析处理引擎进行数据查询。例如表3示出了分析处理引擎中又一种存储表的结构。

表3

参见表3，分析处理引擎中的存储表包括数据信息列、可读性标识信息列、版本信息列、第一指示信息列和第二指示信息列。表3中以有效性指示信息列包括第一指示信息列和第二指示信息列为例。实际应用中，有效性指示信息列还可以包括3个、4个或更多的指示信息列，多个指示信息列用于轮询更新数据信息列中的数据行的有效性的指示。本申请实施例中，还可以采用多个指示信息列指示更新数据信息列中的数据行在多个版本下的有效性，以满足用户多版本并发访问场景的需求。

可选地，轮询周期可以是秒级或分钟级，例如轮询周期为5分钟。对于分析处理引擎在第i个轮询周期内从事务处理引擎同步过来的增量数据，分析处理引擎采用第一指示信息列更新对数据信息列中的数据行的有效性的指示，如果第一指示信息列在第i个轮询周期内一直处于更新状态，则第i个轮询周期内由第二指示信息列提供数据查询功能。如果第一指示信息列在第i个轮询周期的结束时刻处于更新完成状态，对于分析处理引擎在第i+1个轮询周期内从事务处理引擎同步过来的增量数据，分析处理引擎采用第二指示信息列更新对数据信息列中的数据行的有效性的指示，如果第二指示信息列在第i+1个轮询周期内一直处于更新状态，则第i+1个轮询周期内由第一指示信息列提供数据查询功能。如果第二指示信息列在第i+1个轮询周期的结束时刻处于更新完成状态，且分析处理引擎在第i+2个轮询周期内未从事务处理引擎同步过来任何数据，那么第一指示信息列和第二指示信息列在第i+2个轮询周期内均处于更新完成状态，由于第二指示信息列的版本相较于第一指示信息列的版本更新，因此第i+2个轮询周期内由第二指示信息列提供数据查询功能。对于分析处理引擎在第i+3个轮询周期内从事务处理引擎同步过来的增量数据，分析处理引擎采用版本更旧的第一指示信息列更新对数据信息列中的数据行的有效性的指示，如果第一指示信息列在第i+3个轮询周期内处于一直更新状态，则第i+3个轮询周期内由第二指示信息列提供数据查询功能。如果当前轮询周期内正在更新的指示信息列在该轮询周期结束之前的某个时刻更新完成，分析处理引擎可以从该时刻起切换使用最新更新完成的指示信息列进行数据查询。

一种可能实现方式，处于更新状态的指示信息列被设置error标识，无法提供数据查询功能。处于更新完成状态的指示信息列被设置ready标识，能够提供数据查询功能。如果一个指示信息列一直处于更新状态，那么即使分析处理引擎在新的轮询周期内从事务处理引擎同步过来增量数据，分析处理引擎也不会采用另一个指示信息列更新对数据信息列中的数据行的有效性的指示，也即是这种情况下，分析处理引擎会暂停基于新的增量数据进行数据有效性的更新。这样能够保证同一时刻至少一个指示信息列可提供数据查询功能，从而提高数据查询效率。

本申请实施例中，通过在存储表中设置两个指示信息列来轮询更新对数据信息列中的数据行的有效性的指示，使得分析处理引擎在任意时刻总是有可用的指示信息来辅助处理数据查询请求，从而提高数据查询效率。另外，由于指示信息列的数据量较小，可基本实现与数据信息列的同步快速更新，通过将轮询周期设置成较短时长，可以使分析处理引擎在处理数据查询请求时尽可能使用最新的数据，从而提高了数据时效性。另外，由于多个指示信息列共享同一数据信息列，因此不存在数据冗余存储的问题，数据存储成本较低。

本申请以下实施例分别针对增量数据包括修改数据、删减数据或新增数据的三种可能情况，对上述步骤202的实现方式进行说明。

第一种可能情况，增量数据包括新增数据。步骤202的实现方式包括：分析处理引擎采用增加数据行的方式在存储表中添加该新增数据，并在有效性指示信息列中与该新增数据所在数据行对应的指示信息行添加第一指示。第一指示用于指示数据行有效。

第二种可能情况，增量数据包括修改数据。步骤202的实现方式包括：分析处理引擎采用增加数据行的方式在存储表中添加该修改数据，并在有效性指示信息列中与该修改数据所在数据行对应的指示信息行添加第一指示，以及，将有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的第一指示修改为第二指示。第一指示用于指示数据行有效，第二指示用于指示数据行无效。

第三种可能情况，增量数据包括删减数据。步骤202的第一种实现方式包括：分析处理引擎将有效性指示信息列中与该删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示。第二指示用于指示数据行无效。在存储表包括可读性标识信息列的情况下，步骤202的第二种实现方式包括：分析处理引擎采用增加数据行的方式在存储表中添加该删减数据，且在可读性标识信息列中与新增的该删减数据所在数据行对应的标识信息行中设置第一标识，并将有效性指示信息列中与原有的删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示。第一指示用于指示数据行有效，第二指示用于指示数据行无效，第一标识用于标识数据行不可被读取。

第一种实现方式下，分析处理引擎只需修改有效性指示信息列中与删除数据所在数据行对应的指示信息行中的指示即可，可实现对删除数据的有效性的快速更新，数据实时性较高。第二种实现方式下，分析处理引擎需在数据信息列中增加数据行以添加删除数据，并在可读性标识信息列中与新增的删减数据所在数据行对应的标识信息行中设置标识以指示数据行不可被读取，也可实现对删除数据的有效性的快速更新，数据实时性较高。第二种实现方式下，有效性指示信息列中与新增的删减数据所在数据行对应的指示信息行中的指示不再起作用，可置为空或任意值。

在上述第一种可能情况、第二种可能情况以及第三种可能情况中的第二种实现方式下，如果有效性指示信息列包括版本信息列、第一指示信息列和第二指示信息列，分析处理引擎具体可以采用以下思路更新指示信息列中对数据行的有效性指示。

第一，如果第一指示信息列和第二指示信息列都处于更新完成状态，则选择版本更旧的进行更新。如果第一指示信息列或第二指示信息列处于更新状态，则选择处于更新状态的进行更新。

第二，分析处理引擎在更新指示信息列时，首先在该指示信息列在上次更新之后新增的指示信息行中统一设置第一指示，然后根据版本信息列将指示信息列中与旧版本数据对应的指示信息行中的指示修改为第二指示。其中旧版本数据可以是被修改数据或被删除数据。

步骤203、响应于接收到数据查询请求，分析处理引擎输出该存储表中有效性指示信息列所指示的有效数据行。

可选地，数据查询请求包括数据标识，如果存储表中存储有该数据标识对应的多个版本的数据，分析处理引擎输出该存储表中有效性指示信息所指示的有效版本的数据，该有效版本一般为最新版本。

本申请以下实施例对上述数据处理方法的具体实现过程进行举例说明。

第一阶段，事务处理引擎上存在存量数据“ID＝1，姓名＝Tom”。分析处理引擎对事务处理引擎上的存量数据进行全量数据同步，得到的存储表如表4所示。

表4

参见表4，“ID”和“姓名”这两列为数据信息列。在表4中，第一指示信息列和第二指示信息列均处于更新完成状态。可读性标识信息列中，采用“-1”来标识数据行不可被读取，采用“1”来标识数据行可被读取。版本信息列中，采用***数字表示版本号，数字越大则表示版本越新。指示信息列中，采用“1”来指示数据行有效，采用“0”来指示数据行无效。

第二阶段，事务处理引擎中被***4条新数据，分别为“ID＝2，姓名＝Mike”、“ID＝3，姓名＝Tony”、“ID＝4，姓名＝Jim”和“ID＝5，姓名＝Ben”。分析处理引擎对事务处理引擎上的增量数据(新增数据)进行同步，得到的存储表如表5所示。

表5

在表5中，第一指示信息列处于更新完成状态。由于在“ID＝5，姓名＝Ben”这条数据之后没有新的数据更新，分析处理引擎已识别到第一指示信息列对应最新的数据版本为5，此时认为第一指示信息列已处于更新完成状态，即能够提供数据查询功能，所以没有必要进行第二指示信息列的更新，因此第二指示信息列中与ID＝5的数据行对应的指示信息行置为0。

第三阶段，事务处理引擎上“ID＝2，姓名＝Mike”这条数据被修改为“ID＝2，姓名＝Mike-2”。其中，“Mike”为被修改数据，“Mike-2”为修改数据。分析处理引擎对事务处理引擎上的增量数据(修改数据)进行同步，得到的存储表如表6所示。

表6

第三阶段轮询到第二指示信息列更新。在表6中，第一指示信息列和第二指示信息列均处于更新完成状态。第一指示信息列指示ID＝2的两条数据中，版本为2的旧版本数据有效，版本为6的新版本数据无效。第二指示信息列指示ID＝2的两条数据中，版本为2的旧版本数据无效，版本为6的新版本数据有效。由于第二指示信息列的版本新于第一指示信息列的版本，因此由第二指示信息列提供数据查询功能。但也不排除需要查询旧版本数据的可能性，如果要查询旧版本数据，则由第一指示信息列提供数据查询功能。

第四阶段，事务处理引擎上“ID＝3，姓名＝Tony”这条数据被删除，该条数据即为删减数据。分析处理引擎对事务处理引擎上的增量数据(删减数据)进行同步，得到的存储表如表7或表8所示。

表7

表8

第四阶段轮询到第一指示信息列更新。在表7中，第一指示信息列和第二指示信息列均处于更新完成状态。第一指示信息列指示ID＝3这条数据无效，第二指示信息列指示ID＝3这条数据有效。由于第一指示信息列的版本新于第二指示信息列的版本，因此由第一指示信息列提供数据查询功能。在表8中，第一指示信息列和第二指示信息列均处于更新完成状态。第一指示信息列指示ID＝3的两条数据中，版本为3的旧版本数据无效，且可读性标识信息列指示ID＝3、版本为7的新版本数据不可被读取。第二指示信息列指示ID＝3的两条数据中，版本为3的旧版本数据有效。由于第一指示信息列的版本新于第二指示信息列的版本，因此由第一指示信息列提供数据查询功能。

之后，随着下一个版本的创建，第二指示信息列中与ID＝3、版本为3这行数据对应的指示信息行也置为0，表7进一步更新为表9，表8进一步更新为表10。

表9

表10

此时，如果分析处理引擎接收到数据查询请求，基于表9或表10可输出如表11所示的数据。

表11

基于表9可知，版本为2和版本为3的数据行无效，因此分析处理引擎会过滤版本为2和版本为3的数据行，读取并输出版本为1、6、4、5的数据行。基于表10可知，版本为2和版本为3的数据行无效，且版本为7的数据行不可被读取，因此分析处理引擎会过滤版本为2和版本为3的数据行，读取并输出版本为1、6、4、5的数据行。因此基于表9或表10进行全量数据查询，都会得到如表11所示的数据查询结果。

在本申请实施例提供的数据处理方法中，分析处理引擎通过在存储表中设置有效性指示信息列来指示数据信息列中的数据行有效或无效，在处理数据查询请求时，分析处理引擎可基于有效性指示信息列过滤数据信息列中的无效数据行而读取数据信息列中的有效数据行，从而实现快速数据去重，整个数据去重过程对业务层透明，且提高了数据查询效率。由于分析处理引擎无需创建并存储事务处理引擎的全量数据快照，因此减少了数据存储量，从而节约了存储资源。另外，分析处理引擎在实时同步来自事务处理引擎的增量数据之后，能够通过有效指示信息列快速更新数据最新状态，以使分析处理引擎在处理数据查询请求时尽可能使用最新的更新数据，提高了数据时效性。

需要说明的是，本申请实施例提供的数据处理方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内。例如本申请实施例提供的有效性指示信息列除了可以用于分析处理引擎进行数据去重以外，还可以用于数据备份进行历史数据归档，也可以用于分析处理引擎内轻量级多版本控制，提供轻量级事务支持，本申请实施例在此不再一一赘述。

下面对本申请涉及的虚拟装置举例说明。

例如，图3是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置应用于分析处理引擎。如图3所示，数据处理装置300包括：获取模块301和更新模块302。

获取模块301，用于获取来自事务处理引擎的增量数据。这里，获取模块301具体用于执行上述步骤201。

更新模块302，用于根据增量数据更新存储表，存储表采用列式存储格式，存储表包括数据信息列和有效性指示信息列，增量数据以数据行的形式存储在数据信息列中，有效性指示信息列用于指示数据信息列中的数据行有效或无效。这里，更新模块302具体用于执行上述步骤202。

可选地，如图4所示，数据处理装置300还包括：查询模块303，用于响应于接收到数据查询请求，输出存储表中有效性指示信息列所指示的有效数据行。这里，查询模块303具体用于执行上述步骤203。

可选地，增量数据包括新增数据，更新模块302，具体用于：采用增加数据行的方式在存储表中添加新增数据，并在有效性指示信息列中与新增数据所在数据行对应的指示信息行添加第一指示，第一指示用于指示数据行有效。

可选地，增量数据包括修改数据，更新模块302，具体用于：采用增加数据行的方式在存储表中添加修改数据，并在有效性指示信息列中与修改数据所在数据行对应的指示信息行添加第一指示，以及，将有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第一指示用于指示数据行有效，第二指示用于指示数据行无效。

可选地，增量数据包括删减数据，更新模块302，具体用于：将有效性指示信息列中与删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第二指示用于指示数据行无效。或者，存储表还包括可读性标识信息列，可读性标识信息列用于标识数据信息列中的数据行可被读取或不可被读取，增量数据包括删减数据，更新模块302，具体用于：采用增加数据行的方式在存储表中添加删减数据，且在可读性标识信息列中与新增的删减数据所在数据行对应的标识信息行中设置第一标识，并将有效性指示信息列中与原有的删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，第一指示用于指示数据行有效，第二指示用于指示数据行无效，第一标识用于标识数据行不可被读取。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面对本申请实施例的硬件装置举例说明。

本申请实施例提供了一种数据处理装置，该数据处理装置可以是分析处理引擎。图5示例性的提供了数据处理装置的一种可能的架构图。如图5所示，数据处理装置500可以包括处理器501、存储器502、通信接口503和总线504。在数据处理装置中，处理器501的数量可以是一个或多个，图5仅示意了其中一个处理器501。可选的，处理器501可以是中央处理器(central processing unit，CPU)。若数据处理装置具有多个处理器501，多个处理器501的类型可以不同，或者可以相同。可选的，数据处理装置的多个处理器还可以集成为多核处理器。

存储器502用于存储计算机指令和数据，存储器502可以存储实现本申请提供的数据处理方法所需的计算机指令和数据。存储器502可以是以下存储介质的任一种或任一种组合：非易失性存储器(如只读存储器(read-only memory，ROM)、固态硬盘(solid state disk，SSD)、硬盘(hard disk drive，HDD等)、光盘、易失性存储器。

通信接口503可以是以下器件的任一种或任一种组合：网络接口(如以太网接口)、无线网卡等具有网络接入功能的器件。

通信接口503用于数据处理装置500与其他设备或组件进行数据通信。

图5还示例性地绘制出总线504。总线504可以将处理器501与存储器502、通信接口503连接。这样，通过总线504，处理器501可以访问存储器502，还可以利用通信接口503与其他设备或组件进行数据交互。

在本申请中，数据处理装置500执行存储器502中的计算机指令，可以实现本申请提供的数据处理方法。例如，获取来自事务处理引擎的增量数据。根据增量数据更新存储表，该存储表采用列式存储格式，该存储表包括数据信息列和有效性指示信息列。增量数据以数据行的形式存储在数据信息列中，有效性指示信息列用于指示数据信息列中的数据行有效或无效。并且，数据处理装置500通过执行存储器502中的计算机指令，执行本申请提供的数据处理方法的步骤的实现过程可以相应参考上述方法实施例中对应的描述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质为非易失性计算机可读存储介质，该计算机可读存储介质包括程序指令，当程序指令在计算机设备上运行时，使得计算机设备执行如本申请实施例提供的数据处理方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行本申请实施例提供的数据处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本申请实施例中，术语“第一”、“第二”和“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的构思和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种数据处理方法，其特征在于，所述方法包括：

分析处理引擎获取来自事务处理引擎的增量数据；

所述分析处理引擎根据所述增量数据更新存储表，所述存储表采用列式存储格式，所述存储表包括数据信息列和有效性指示信息列，所述增量数据以数据行的形式存储在所述数据信息列中，所述有效性指示信息列用于指示所述数据信息列中的数据行有效或无效。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于接收到数据查询请求，所述分析处理引擎输出所述存储表中所述有效性指示信息列所指示的有效数据行。
根据权利要求1或2所述的方法，其特征在于，所述增量数据包括新增数据，所述分析处理引擎根据所述增量数据更新存储表，包括：

所述分析处理引擎采用增加数据行的方式在所述存储表中添加所述新增数据，并在所述有效性指示信息列中与所述新增数据所在数据行对应的指示信息行添加第一指示，所述第一指示用于指示数据行有效。
根据权利要求1至3任一所述的方法，其特征在于，所述增量数据包括修改数据，所述分析处理引擎根据所述增量数据更新存储表，包括：

所述分析处理引擎采用增加数据行的方式在所述存储表中添加所述修改数据，并在所述有效性指示信息列中与所述修改数据所在数据行对应的指示信息行添加第一指示，以及，将所述有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的第一指示修改为第二指示，所述第一指示用于指示数据行有效，所述第二指示用于指示数据行无效。
根据权利要求1至4任一所述的方法，其特征在于，所述增量数据包括删减数据，所述分析处理引擎根据所述增量数据更新存储表，包括：

所述分析处理引擎将所述有效性指示信息列中与所述删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，所述第二指示用于指示数据行无效。
根据权利要求1至4任一所述的方法，其特征在于，所述存储表还包括可读性标识信息列，所述可读性标识信息列用于标识所述数据信息列中的数据行可被读取或不可被读取，所述增量数据包括删减数据，所述分析处理引擎根据所述增量数据更新存储表，包括：

所述分析处理引擎采用增加数据行的方式在所述存储表中添加所述删减数据，且在所述可读性标识信息列中与新增的所述删减数据所在数据行对应的标识信息行中设置第一标识，并将所述有效性指示信息列中与原有的所述删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，所述第一指示用于指示数据行有效，所述第二指示用于指示数据行无效，所述第一标识用于标识数据行不可被读取。
根据权利要求1至6任一所述的方法，其特征在于，所述有效性指示信息列包括第一指示信息列和第二指示信息列，所述第一指示信息列和所述第二指示信息列用于轮询更新对所述数据信息列中的数据行的有效性的指示，且所述第一指示信息列和所述第二指示信息列满足以下条件：

同一时刻，所述第一指示信息列和所述第二指示信息列中的至少一个支持数据查询功能；

在所述第一指示信息列和所述第二指示信息列都支持数据查询功能的情况下，所述第一指示信息列和所述第二指示信息列中最近更新的指示信息列用于所述分析处理引擎进行数据查询。
根据权利要求1至7任一所述的方法，其特征在于，所述存储表还包括版本信息列，所述版本信息列用于指示所述数据信息列中的数据行被添加至所述数据信息列的时间先后顺序。
一种数据处理装置，其特征在于，应用于分析处理引擎，所述装置包括：

获取模块，用于获取来自事务处理引擎的增量数据；

更新模块，用于根据所述增量数据更新存储表，所述存储表采用列式存储格式，所述存储表包括数据信息列和有效性指示信息列，所述增量数据以数据行的形式存储在所述数据信息列中，所述有效性指示信息列用于指示所述数据信息列中的数据行有效或无效。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

查询模块，用于响应于接收到数据查询请求，输出所述存储表中所述有效性指示信息列所指示的有效数据行。
根据权利要求9或10所述的装置，其特征在于，所述增量数据包括新增数据，所述更新模块，用于：

采用增加数据行的方式在所述存储表中添加所述新增数据，并在所述有效性指示信息列中与所述新增数据所在数据行对应的指示信息行添加第一指示，所述第一指示用于指示数据行有效。
根据权利要求9至11任一所述的装置，其特征在于，所述增量数据包括修改数据，所述更新模块，用于：

采用增加数据行的方式在所述存储表中添加所述修改数据，并在所述有效性指示信息列中与所述修改数据所在数据行对应的指示信息行添加第一指示，以及，将所述有效性指示信息列中与被修改数据所在数据行对应的指示信息行中的第一指示修改为第二指示，所述第一指示用于指示数据行有效，所述第二指示用于指示数据行无效。
根据权利要求9至12任一所述的装置，其特征在于，所述增量数据包括删减数据，所述更新模块，用于：

将所述有效性指示信息列中与所述删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，所述第二指示用于指示数据行无效。
根据权利要求9至12任一所述的装置，其特征在于，所述存储表还包括可读性标识信息列，所述可读性标识信息列用于标识所述数据信息列中的数据行可被读取或不可被读取，所述增量数据包括删减数据，所述更新模块，用于：

采用增加数据行的方式在所述存储表中添加所述删减数据，且在所述可读性标识信息列中与新增的所述删减数据所在数据行对应的标识信息行中设置第一标识，并将所述有效性指示信息列中与原有的所述删减数据所在数据行对应的指示信息行中的第一指示修改为第二指示，所述第一指示用于指示数据行有效，所述第二指示用于指示数据行无效，所述第一标识用于标识数据行不可被读取。
根据权利要求9至14任一所述的装置，其特征在于，所述有效性指示信息列包括第一指示信息列和第二指示信息列，所述第一指示信息列和所述第二指示信息列用于轮询更新对所述数据信息列中的数据行的有效性的指示，且所述第一指示信息列和所述第二指示信息列满足以下条件：

同一时刻，所述第一指示信息列和所述第二指示信息列中的至少一个支持数据查询功能；

在所述第一指示信息列和所述第二指示信息列都支持数据查询功能的情况下，所述第一指示信息列和所述第二指示信息列中最近更新的指示信息列用于所述分析处理引擎进行数据查询。
根据权利要求9至15任一所述的装置，其特征在于，所述存储表还包括版本信息列，所述版本信息列用于指示所述数据信息列中的数据行被添加至所述数据信息列的时间先后顺序。
一种数据处理装置，其特征在于，包括存储器和处理器，所述存储器存储有程序指令，所述处理器运行所述程序指令以执行权利要求1至8任一所述的方法。
一种计算机可读存储介质，其特征在于，包括程序指令，当所述程序指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至8任一所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至8任一所述的方法。