CN111897490A

CN111897490A - 删除数据的方法以及装置

Info

Publication number: CN111897490A
Application number: CN202010653945.9A
Authority: CN
Inventors: 邵华西; 李阳; 李扬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-06
Anticipated expiration: 2040-07-08
Also published as: CN111897490B

Abstract

本说明书实施例提供删除数据的方法以及装置，其中所述删除数据的方法包括：在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键；在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键；根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

Description

删除数据的方法以及装置

技术领域

本说明书实施例涉及数据处理领域，特别涉及一种删除数据的方法。本说明书一个或者多个实施例同时涉及一种删除数据的装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的快速发展，人类进入万物互联的工业互联网时代，智能机器与人类、机器与机器之间的广泛互联产生了海量的数据，如带有时间信息和空间信息的时空数据等。

为了支持对大数据的存储、分析和计算，可以根据应用场景采用与之相适应的大数据存储计算架构，例如，基于Geomesa、Spark、Hbase的时空大数据架构等。但是，这些大数据存储计算架构在对数据进行删除时，如果删除任务由于一些错误而异常退出，可能出现数据在一部分数据表中已经删除，这些数据被数据库在逻辑上标志为已经删除，但是在另外一些数据表中未被删除的情况。这些数据就成为了异常数据，对数据安全产生威胁。

发明内容

有鉴于此，本说明书施例提供了一种删除数据的方法。本说明书一个或者多个实施例同时涉及一种删除数据的装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种删除数据的方法，包括：在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键；在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键；根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

可选地，还包括：查找出第二指定数据表的关联数据表；依据所述第二指定数据表的主键，生成与所述第二指定数据表的主键关联的第二关联数据的主键；从所述第二指定数据表的关联数据表中，查找出不在所述第二关联数据的主键范围内的数据；将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据删除。

可选地，还包括：对第二删除任务指定删除的第二指定数据表进行删除合法性检测；如果所述删除合法性检测通过，进入所述查找出第二指定数据表的关联数据表的步骤。

可选地，所述将第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据删除包括：将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据分批量并发删除。

可选地，所述第一删除任务用于先删除所述第一关联数据的主键对应的数据，再删除所述第一指定数据的主键对应的数据；所述根据提取出的所述第一指定数据的主键以及所述第一关联数据的主键，将所述第一指定数据以及所述第一关联数据删除包括：先根据所述第一关联数据的主键，将所述第一关联数据删除；再根据提取出的所述第一指定数据的主键，将所述第一指定数据删除。

可选地，所述第一删除任务包括并发执行的多个删除任务。

可选地，还包括：基于生产者消费者模型，并发执行多个第二删除任务，所述多个第二删除任务用于删除第二指定数据表。

可选地，所述方法应用于基于Spark作为计算层的大数据架构；所述基于生产者消费者模型，并发执行多个第二删除任务包括：基于Spark接口从数据库获取所述第二指定数据表的主键到Spark主节点；Spark主节点作为生产者将所述第二指定数据表的主键分批量发给多个消费者队列；所述多个消费者队列分别根据接收到的主键生成所述第二关联数据的主键；所述多个消费者队列分别针对接收到的主键以及所述第二关联数据的主键，生成对应于所述第二删除任务的删除请求；所述多个消费者队列分别并发向数据库发送所述删除请求。所述方法还包括：所述多个消费者队列分别将接收到的主键以及对应生成的所述第二关联数据的主键写入所述删除事务日志。

可选地，所述删除事务日志，用于以内存文件映射方式进行日志记录。

根据本说明书实施例的第二方面，提供了一种删除数据的装置，包括：删除日志记录模块，被配置为在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键。主键提取模块，被配置为在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键。删除恢复模块，被配置为根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键；在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键；根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现本说明书任意一实施例所述删除数据的方法的步骤。

本说明书一个实施例实现了删除数据的方法，由于该方法在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键，在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键，根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除，从而在删除任务异常退出而导致异常数据产生的情况下，能够根据记录的删除事务日志进行异常数据清理，保证删除成功，提高数据的安全性。

附图说明

图1是本说明书一个实施例提供的一种删除数据的方法的流程图；

图2是本说明书另一个实施例提供的一种删除数据的方法的流程图；

图3是本说明书又一个实施例提供的一种删除数据的方法的流程图；

图4是本说明书一个实施例提供的一种时空大数据架构示意图；

图5是本说明书再一个实施例提供的一种删除数据的方法的流程图；

图6是本说明书一个实施例提供的一种删除数据的装置的结构框图；

图7是本说明书另一个实施例提供的一种删除数据的装置的结构框图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了一种删除数据的方法，本说明书同时涉及一种删除数据的装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种删除数据的方法的流程图，包括步骤110至步骤130。

步骤110：在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键。

主键，是数据表中能够唯一标识表中一条记录的标识，例如，可以是每一行数据的列值。

本说明书实施例对被删除的数据以及删除条件并不进行限制。例如，所述第一指定数据可以是面向关系型数据、key-value或其他结构的数据。

为了确保删除事务日志能够有效的记录下来，例如，可以以内存文件映射方式进行日志记录。内存文件映射技术将日志持久化写入磁盘的操作托管给操作***，如果向数据仓库发送命令删除数据的过程中程序异常退出，操作***可以把当前在内存中的日志写到磁盘，不会因仅仅将数据写入内存，没有真正持久化到磁盘而影响数据安全性。

可选地，例如，还可以在所述删除任务成功的情况下，在所述删除事务日志中清除所述删除任务的记录，防止存储空间的浪费。

为了提高删除效率，例如，所述第一删除任务可以包括并发执行的多个删除任务。

为了支持在删除任务异常退出后，能够对存在于数据库中的异常数据进行删除，本说明书实施例提供的方法，可以针对删除任务进行事务日志的记录。对于每次删除任务，都可以在删除事务日志路径下，以时间为路径名为本次删除任务建立一个专门的日志存储路径，用于记录删除任务的指定删除的数据表和关联数据表。

步骤120：在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键。

步骤130：根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

由于该方法在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键，在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键，根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除，从而在删除任务异常退出而导致异常数据产生的情况下，能够根据记录的删除事务日志进行异常数据清理，保证删除成功，提高数据的安全性。

例如，在删除任务异常退出后，由于原始数据库中的数据被删除，而部分关联数据仍未被删除，各表的索引无法对应这些未被删除的关联数据，造成数据安全问题，根据本说明书实施例提供的方法，根据删除事务日志中记录的关联数据的主键，可以将残留的关联数据删除，保证删除成功，提高数据的安全性。

本说明书一个或多个实施例中，在执行删除任务之前，为了进一步清除该删除任务相关的数据表残存的异常数据，可以首先检测删除任务对数据表删除的合法性，校验通过后会检测和删除指定数据表内已经存在的异常数据。具体地，图2示出了根据本说明书另一个实施例提供的一种删除数据的方法的流程图，如图2所示，所述方法还包括步骤101至步骤105。

步骤101：对第二删除任务指定删除的第二指定数据表进行删除合法性检测。

需要说明的是，所述第二删除任务与所述第一删除任务可以是相同任务，也可以是不同任务。所述第二指定数据表与所述第一指定数据可以指相同数据，也可以指不同数据。

例如，所述删除合法性检测可以包括：数据表所在数据库是否存在的检测、数据表是否存在的检测、删除调用方是否存在删除权限的检测、删除的过滤条件中所涉及的数据在数据表中是否存在的检测等中的任一项或多项。

步骤102：如果所述删除合法性检测通过，查找出所述第二指定数据表的关联数据表。

例如，可以根据大数据架构提供的关联表的表名的规则，生成第二指定数据表的关联数据表表名，再向数据库发送请求查找该表名对应的关联数据表。

步骤103：依据所述第二指定数据表的主键，生成与所述第二指定数据表的主键关联的第二关联数据的主键。

例如，可以根据大数据架构提供的关联表的主键的生成规则，生成第二指定数据表的主键关联的第二关联数据的主键。

步骤104：从所述第二指定数据表的关联数据表中，查找出不在所述第二关联数据的主键范围内的数据。

步骤105：将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据删除。

例如，为了进一步提高删除效率，可以通过分批量并发删除的方式来删除数据。具体地，例如，可以将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据分批量并发删除。

在该实施例中，由于先检测第二删除任务对第二指定数据表进行删除的合法性，从而在检测通过的情况下，能够确定可以进一步根据第二删除任务的相关信息进行残存异常数据的清除。因此，在检测通过的情况下，根据第二指定数据表，查找出与第二指定数据表存在关联的关联数据表。可以理解的是，如果有删除任务异常退出，该第二指定数据表的关联数据表内，可能存在未能成功删除的残存的异常数据。为了能够清除这些异常数据，该实施例根据第二指定数据表的主键，生成与该主键存在关联的第二关联数据的主键，也即正常应存在的关联数据的主键。可以理解的是，不在正常应存在的关联数据的主键范围内的数据则为残存的异常数据，因此，该实施例从第二指定数据表的关联数据表中，查找出不在第二关联数据的主键范围内的数据，并将其删除，从而实现了将数据库表内残存的异常数据进行监测和删除的目的。

考虑到在对数据进行删除时，关联数据表的主键可以通过指定数据表的主键进行拼接转换得到，先删除关联数据表中的数据，再删除指定数据表的数据，这样，即使删除关联数据表失败，仍然可以通过指定数据表的主键进行再次删除。因此，本说明书一个或多个实施例中，所述第一删除任务用于先删除所述第一关联数据的主键对应的数据，再删除所述第一指定数据的主键对应的数据。所述根据提取出的所述第一指定数据的主键以及所述第一关联数据的主键，将所述第一指定数据以及所述第一关联数据删除可以包括：先根据所述第一关联数据的主键，将所述第一关联数据删除；再根据提取出的所述第一指定数据的主键，将所述第一指定数据删除。

本说明书一个或多个实施例中，为了提高删除效率，所述方法还可以基于生产者消费者模型，并发执行多个第二删除任务，所述多个第二删除任务用于删除第二指定数据表。

例如，所述方法可以应用于基于Spark作为计算层的大数据架构。图3示出了根据本说明书又一个实施例提供的删除数据的方法的流程图，如图3所示，所述方法还可以包括步骤140至步骤145。

步骤140：基于Spark接口从数据库获取所述第二指定数据表的主键到Spark主节点。

步骤141：Spark主节点作为生产者将所述第二指定数据表的主键分批量发给多个消费者队列。

步骤142：所述多个消费者队列分别根据接收到的主键生成所述第二关联数据的主键。

步骤143：所述多个消费者队列分别将接收到的主键以及对应生成的所述第二关联数据的主键写入所述删除事务日志。

步骤144：所述多个消费者队列分别针对接收到的主键以及所述第二关联数据的主键，生成对应于所述第二删除任务的删除请求。

步骤145：所述多个消费者队列分别并发向数据库发送所述删除请求。

可见，在该实施例中，由于将Spark主节点作为生产者，将指定删除的数据表的主键分批量发给多个消费者队列，从而多个消费者队列分别并发向数据库发送删除请求，使多个删除请求各自对应的删除任务相互独立、并发执行，极大发挥了删除任务的处理能力，提高了删除效率。

下面，对结合了本说明书多个实施例的一种实施方式进行详细说明。例如，本说明书实施例所述删除数据的方法可以应用于如图4所示基于Geomesa、Spark、Hbase的时空大数据架构中。该大数据架构的客户接入方式灵活，例如，可以接入JDBC访问、Beeline访问等。其中，Spark、Geomesa作为计算层，Hbase作为存储层。Spark，是一种广泛应用的大规模数据处理而设计的快速通用的计算引擎。Hbase，是分布式的面向列的开源数据库。Geomesa：一种开源的进行时空数据处理的工具包。底层存储类型不限，例如：EXT4文件***、NTFS文件***等多种文件***。

基于图4所示时空大数据架构，图5示出了根据本说明书一个实施例提供的删除数据的方法的流程图，如图5所示，所述方法包括步骤502至步骤528。

步骤502：对第二指定数据表进行删除合法性检测。

例如，在该实施例中，可以通过调用Hbase接口查询第二指定数据表的数据库是否存在；调用Hbase接口查询第二指定数据表是否存在；调用Hbase接口判断删除调用方对于第二指定数据表是否具有删除权限；判断第二删除任务的过滤条件中所涉及的列在指定数据库表中是否存在。更具体地，例如，本说明书实施例提供的方法可以应用于基于图4所示的时空数据仓库，删除语句可以采用数据库领域常用的SQL语言来描述过滤条件，过滤条件可以通过列的约束来指定，也可以通过复合函数的方式来组成。例如：“where id>0andname＝’hello’”、“where function(id,name)>0and user_defined_function(id，name，id)<1”，根据删除语句，可以检测数据库表中是否存在“id”和“name”这两个列名对应的列。

步骤504：如果删除合法性检测通过，通过Hbase数据库查找第二指定数据表的关联数据表。

例如，可以根据关联数据表的表名的规则，调用Geomesa接口，根据指定数据表的类型判断是否存在与指定数据表相关联的关联数据表，如时空索引数据表、普通Btree索引数据表等，并向Hbase数据库发送请求确认关联数据表在Hbase中是否存在。具体地，如Geomesa是一套开源的时空计算项目，在Geomesa的源码中给出了给定原始数据表生成关联数据表(比如索引表)的表名的规则。例如，对于数据表“gdeltable”，根据关联数据表的表名的规则，在数据库中会对应生成以下表名的关联数据表：

gdeltable_gdelt_id(id表)

gdeltable_gdelt_z2_v2(z2索引表)

gdeltable_gdelt_z3_v2(z3索引表)

步骤506：提取第二指定数据表的主键。

例如，关联数据表查找完毕后，可以通过Spark调用Hbase接口，将指定数据表的全部数据拉取到Spark主节点。Spark主节点可以提取指定数据表中列的主键，将其写入删除事务日志。例如，删除事务日志可以持久化到本地文件***、分布式文件***或Hbase临时表中其中之一。可以理解的是，由于在步骤506到步骤510删除异常数据的过程中，存在删除失败退出的可能，在失败的情况下，根据持久化的删除事务日志，可以恢复删除，提高性能。在另一个实施方式中，也可以不将步骤506的主键写入删除事务日志，而是通过步骤506到步骤510的重复执行，也可以实现对残留异常数据的删除。

步骤508：生成第二指定数据表的第二关联数据的主键。

例如，指定数据表主键提取完成后，可以通过Spark调用Geomesa接口，依据指定数据表的主键列，在本地生成与其对应的关联数据库表主键列。具体地，例如，在Geomesa的源码中给出了给定原始主键，计算关联列的生成规则，根据该生成规则，可以依据指定数据表主键生成关联数据库表主键。如，对于一条包含空间数据点的数据，原始主键为“FeatureID”，其关联的“空间Z2索引数据表”的主键的生成规则，为geomea中定义的：散列键+Z2索引值+FeatureID。

步骤510：将第二指定数据表的关联数据表中，不在第二关联数据的主键范围内的数据作为异常数据，且将其并行化删除。

例如，可以启动多线程，调用Hbase接口，将步骤504查找出的Hbase关联数据库表中，主键值不在步骤508生成的主键范围内的数据进行并发删除。例如，在删除之前，可以将主键值不在步骤508生成的主键范围内的主键写入删除事务日志，以便在删除失败的情况下，根据删除事务日志恢复删除。当然，也可以不将步骤510需要删除的主键写入删除事务日志，而是通过步骤506到步骤510的重复执行，实现对残留异常数据的删除。

步骤512：通过检测删除事务日志，判断是否残留异常删除任务。

例如，第一删除任务可以是第二删除任务之前的某次删除任务，或者，例如，第一删除任务可以是步骤在第一删除任务异常退出的情况下，删除事务日志中会记录第一删除任务指定删除的第一指定数据的主键以及第一关联数据的主键。

例如，本说明书实施例提供的方法可以预先提供用于确定删除事务日志的默认参数配置和存储路径，或者，也可以通过用户自定义环境变量的方式确定删除事务日志的参数配置和存储路径。在检测删除事务日志时，可以根据环境变量、配置参数或者默认参数找到删除事务日志路径。例如，如果在启动参数中配置了存储路径，则可以采用配置参数；如果没有配置参数，则可以搜索环境变量里是否设置存储路径；如果没有环境变量，则可以采用默认路径。

一实施方式中，可以查找删除事务路径是否存在删除事务日志。如果不存在删除事务日志，说明不存在异常退出的删除事务，则进入步骤520进行正常的删除流程；如果存在删除事务日志，则进入步骤514-516，根据删除事务日志删除数据库内存在的异常数据。

步骤514：并行化删除所述删除事务日志中记录的第一关联数据的主键对应的数据。

例如，当存在删除事务日志时，可以读取删除事务日志中关联数据的日志部分，通过多线程调用Hbase Delete接口，对关联数据的数据进行批量并发删除。

步骤516：并行化删除所述删除事务日志中记录的第一指定数据的主键对应的数据。

当删除完残留的异常关联数据之后，可以继续读取删除事务日志中原始数据部分，提取出待删除的原始数据的主键，对原始数据进行批量并发删除。步

完成上述针对第二指定数据表的残留异常数据删除和基于删除事务日志的异常删除恢复步骤之后，下面进入步骤520进行针对第二指定数据表的正常的删除流程。

步骤520：生产者队列基于Spark接口从Hbase数据库获取满足过滤条件的第二指定数据表的主键。

例如，可以通过Spark调用Hbase接口，将满足过滤条件的第二指定数据表的主键拉取到Spark主节点，Spark主节点作为生产者会将拉取到本地的数据分批量轮流发给多个消费者队列。

步骤522：多个消费者队列消费数据，并调用Geomesa接口计算出关联列主键，即第二关联数据的主键。

例如，将多个线程作为多个消费者，每个消费者将从对应的数据队列中不断拉取数据进行消费，每个消费者可以从拉取的数据中提取待删除的第一指定数据的主键，并调用Geomesa接口生成对应的第二关联数据的主键。

步骤524：多个消费者队列分别将第二指定数据的主键以及第二关联数据的主键写入内存文件映射区。

得到第二指定数据的主键和第二关联数据的主键后，为了能够支持删除异常退出后的故障恢复，可以在这个步骤写入删除事务日志需要记录的数据主键。从而，当第二删除任务失败后，可以依据删除事务日志中记录的主键，也即需要在Hbase仓库中删除的数据的主键，删除对应的数据。可以理解的是，在例如Hbase等数据存储中，会为每条数据存储一个主键，依据主键就可以在指定数据库表中删除数据。各个消费者通过内存文件映射方式将主键写入删除事务日志，在写入前可以先记录当前位置点，再通过内存文件映射技术中常用的几个将数据写入内存映射区的接口如oracle JDK的标准接口，将需要删除的数据的主键，即第二指定数据的主键以及第二关联数据的主键写入内存文件映射区。

步骤526：多个消费者队列并发向Hbase发送删除请求。

例如，第二指定数据的主键以及第二关联数据的主键写入删除事务日志后，当前消费者可以将当前批次的第二关联数据的主键拼接成一个Hbase Delete请求，将关联数据进行删除后再对第二指定数据的主键进行拼接和发送请求删除。在这个步骤中，多个消费者的删除任务相互独立、并行执行，以最大限度的利用了Hbase的并发处理能力。

步骤528：删除成功后，清除内存文件映射区的删除事务日志。

例如，由于在将主键写入删除事务日志前可以先记录当前位置点，从而各个数据消费者通过Hbase delete接口完成数据的删除后，可以根据记录的当前位置点，将对应的内存文件映射区域用空字符覆盖，从而使删除事务日志的写入标记点重置为步骤524记录的初始位置。在该实施例中，先记录删除事务日志，再向Hbase数据仓库发送命令删除数据，通过空字符覆盖以及标记点回退，使正常完成此次删除任务后本个批次的日志记录得以清除，防止存储空间浪费。

对于删除流程的各个数据消费者，当数据生产者拉取数据完毕、当前消费者对应的消费队列为空且当且消费到数据删除完毕后，可以认为当前消费者的消费任务结束，且当所有消费者的消费任务结束后，整体的数据删除流程结束。

可见，在该实施例中，由于删除过程采用基于生产者消费者模式的并行流程，生产者逐批次拉取数据，交给多个独立、并行的消费者进行日志记录和生成Hbase Delete请求，提高并发删除效率，最大程度的利用了存储层Hbase的并发能力。

与上述方法实施例相对应，本说明书还提供了删除数据的装置实施例，图6示出了本说明书一个实施例提供的一种删除数据的装置的结构示意图。如图6所示，该装置包括：删除日志记录模块602、主键提取模块604及删除恢复模块606。

该删除日志记录模块602，可以被配置为在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键。

该主键提取模块604，可以被配置为在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键。

该删除恢复模块606，可以被配置为根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

由于该装置在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键，在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键，根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除，从而在删除任务异常退出而导致异常数据产生的情况下，能够根据记录的删除事务日志进行异常数据清理，保证删除成功，提高数据的安全性。

图7示出了本说明书另一个实施例提供的一种删除数据的装置的结构示意图。如图7所示，该装置还可以包括：合法检测模块608、关联表查找模块610、关联主键生成模块612、异常数据筛选模块614及异常数据删除模块616。

该合法检测模块608，可以被配置为对所述第二删除任务指定删除的第二指定数据表进行删除合法性检测。

该关联表查找模块610，可以被配置为如果所述删除合法性检测通过，查找出所述第二指定数据表的关联数据表。

该关联主键生成模块612，可以被配置为依据所述第二指定数据表的主键，生成与所述第二指定数据表的主键关联的第二关联数据的主键。

该异常数据筛选模块614，可以被配置为从所述第二指定数据表的关联数据表中，查找出不在所述第二关联数据的主键范围内的数据。

该异常数据删除模块616，可以被配置为将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据删除。

为了提高删除效率，可选地，所述异常数据删除模块616，可以被配置为将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据分批量并发删除。

考虑到在对数据进行删除时，关联数据表的主键可以通过指定数据表的主键进行拼接转换得到，先删除关联数据表中的数据，再删除指定数据表的数据，这样，即使删除关联数据表失败，还可以通过指定数据表的主键进行再次删除，因此，本说明书一个或多个实施例中，所述第一删除任务用于先删除所述第一关联数据的主键对应的数据，再删除所述第一指定数据的主键对应的数据。所述删除恢复模块606，可以被配置为先根据所述第一关联数据的主键，将所述第一关联数据删除；再根据提取出的所述第一指定数据的主键，将所述第一指定数据删除。

本说明书一个或多个实施例中，为了提高删除效率，如图7所示，所述装置还可以包括：任务执行模块618，可以被配置为基于生产者消费者模型，并发执行多个第二删除任务，所述多个第二删除任务用于删除第二指定数据表。

可选地，所述装置可以配置于基于Spark作为计算层的大数据架构。如图7所示，所述任务执行模块618可以包括：指定数据获取子模块6180、指定数据主键分发子模块6182、关联数据主键生成子模块6184、删除请求生成子模块6186、删除请求发送子模块6188。所述装置还可以包括：主键写入子模块620，可以被配置为在所述多个消费者队列分别将接收到的主键以及对应生成的所述第二关联数据的主键写入所述删除事务日志。

该指定数据获取子模块6180，可以被配置为基于Spark接口从数据库获取所述第二指定数据表的主键到Spark主节点。

该指定数据主键分发子模块6182，可以被配置为在Spark主节点作为生产者将所述第二指定数据表的主键分批量发给多个消费者队列。

该关联数据主键生成子模块6184，可以被配置为在所述多个消费者队列分别根据接收到的主键生成所述第二关联数据的主键。

该删除请求生成子模块6186，可以被配置为在所述多个消费者队列分别针对接收到的主键以及所述第二关联数据的主键，生成对应于所述第二删除任务的删除请求。

该删除请求发送子模块6188，可以被配置为在所述多个消费者队列分别并发向数据库发送所述删除请求。

在该实施例中，由于将Spark主节点作为生产者，将指定删除的数据表的主键分批量发给多个消费者队列，从而多个消费者队列分别并发向数据库发送删除请求，使多个删除请求各自对应的删除任务相互独立、并发执行，极大发挥了删除任务的处理能力，提高了删除效率。

可选地，如图7所示，所述装置还可以包括：日志清除模块630，可以被配置为在所述删除任务成功的情况下，在所述删除事务日志中清除所述删除任务的记录。

上述为本实施例的一种删除数据的装置的示意性方案。需要说明的是，该删除数据的装置的技术方案与上述的删除数据的方法的技术方案属于同一构思，删除数据的装置的技术方案未详细描述的细节内容，均可以参见上述删除数据的方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令：

在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键；

在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键；

根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的删除数据的方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述删除数据的方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的删除数据的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述删除数据的方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种删除数据的方法，包括：

2.根据权利要求1所述的方法，还包括：

查找出第二指定数据表的关联数据表；

依据所述第二指定数据表的主键，生成与所述第二指定数据表的主键关联的第二关联数据的主键；

从所述第二指定数据表的关联数据表中，查找出不在所述第二关联数据的主键范围内的数据；

将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据删除。

3.根据权利要求2所述的方法，还包括：

对第二删除任务指定删除的第二指定数据表进行删除合法性检测；

如果所述删除合法性检测通过，进入所述查找出第二指定数据表的关联数据表的步骤。

4.根据权利要求2所述的方法，所述将第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据删除包括：

将所述第二指定数据表的关联数据表中，不在所述第二关联数据的主键范围内的数据分批量并发删除。

5.根据权利要求1所述的方法，所述第一删除任务用于先删除所述第一关联数据的主键对应的数据，再删除所述第一指定数据的主键对应的数据；

所述根据提取出的所述第一指定数据的主键以及所述第一关联数据的主键，将所述第一指定数据以及所述第一关联数据删除包括：

先根据所述第一关联数据的主键，将所述第一关联数据删除；

再根据提取出的所述第一指定数据的主键，将所述第一指定数据删除。

6.根据权利要求1所述的方法，所述第一删除任务包括并发执行的多个删除任务。

7.根据权利要求1所述的方法，还包括：

基于生产者消费者模型，并发执行多个第二删除任务，所述多个第二删除任务用于删除第二指定数据表。

8.根据权利要求7所述的方法，所述方法应用于基于Spark作为计算层的大数据架构；

所述基于生产者消费者模型，并发执行多个第二删除任务包括：

基于Spark接口从数据库获取所述第二指定数据表的主键到Spark主节点；

Spark主节点作为生产者将所述第二指定数据表的主键分批量发给多个消费者队列；

所述多个消费者队列分别根据接收到的主键生成所述第二关联数据的主键；

所述多个消费者队列分别针对接收到的主键以及所述第二关联数据的主键，生成对应于所述第二删除任务的删除请求；

所述多个消费者队列分别并发向数据库发送所述删除请求；

所述方法还包括：

所述多个消费者队列分别将接收到的主键以及对应生成的所述第二关联数据的主键写入所述删除事务日志。

9.根据权利要求1或8所述的方法，所述删除事务日志，用于以内存文件映射方式进行日志记录。

10.一种删除数据的装置，包括：

删除日志记录模块，被配置为在删除事务日志中记录第一删除任务需要删除的第一指定数据的主键和/或与所述第一指定数据的主键关联的第一关联数据的主键；

主键提取模块，被配置为在所述第一删除任务异常退出的情况下，从所述删除事务日志中，提取出所述第一指定数据的主键和/或所述第一关联数据的主键；

删除恢复模块，被配置为根据提取出的所述第一指定数据的主键将所述第一指定数据删除，和/或，根据提取出的所述第一关联数据的主键将所述第一关联数据删除。

11.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

12.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至9任意一项所述删除数据的方法的步骤。