CN113254394B

CN113254394B - 一种快照处理方法、***、设备及存储介质

Info

Publication number: CN113254394B
Application number: CN202110529051.3A
Authority: CN
Inventors: 赵鑫
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-10-31
Anticipated expiration: 2041-05-14
Also published as: CN113254394A

Abstract

本发明公开了一种快照处理方法、***、设备及存储介质，包括：利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中，同时记录当前时刻的日志编号；当检测到请求方发送的操作指令时，则基于数据引擎进行重放日志前后数据引擎内容保持不变的原理进行使用一致性算法的分布式存储***的文件删除操作、文件复制操作或文件恢复操作，该方法、***、设备及存储介质全面去除对磁盘的额外操作，对底层文件***的带宽占用较低，且避免对业务带宽的挤占。

Description

一种快照处理方法、***、设备及存储介质

技术领域

本发明属于存储技术领域，涉及一种快照处理方法、***、设备及存储介质。

背景技术

使用一致性算法的分布式存储***一般会在集群内部划分复制组，然后每个复制组都使用一致性算法来保持同组内成员承载的数据完全相同，具体做法是将所有的客户端IO都封装成为日志，然后将日志在复制组内部进行分发，复制组成员会将收到的日志追加写到自己的日志文件中，同时将日志还原成为具体的操作作用到自己的数据引擎(即持久化存储的数据)中。这样如果中途有一个或者多个(少于复制组的最小多数)成员掉线，待其重启之后即可以只传递缺失的日志到这些成员上，将这些日志重放即可以追上复制组的权威日志，从而将数据追平，达到一致。

但是日志不能无限增长，否则会占用两倍的空间。因此一致性算法还使用快照来固化某一时刻的数据引擎，待对数据引擎做快照之后即可将快照记录时间点之前的日志都删掉，释放出空间，这样一旦出现需要恢复数据的复制组成员，先进行判断是否可以通过日志来恢复，如果空缺太大且超出了现存的权威日志长度，则需要全量将快照拷贝到该节点，一般默认复制组的leader为权威，恢复数据时也是leader向成员进行传送数据，然后再通过日志来恢复。因此，在使用了类似一致性算法的存储***上都需要有一套对数据引擎做快照的方法。

传统的增量快照算法，例如，写时复制或者写时重定向等算法的实现都较为复杂，需要同时满足高性能与少占用空间等指标实现起来较为困难，而且只要是对数据引擎中的数据做快照，需要进行额外的磁盘操作，对底层文件***的带宽占用较高，进而会对业务带宽发生一定的挤占，这在某些对性能较为敏感的业务场景下是非常不利的。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种快照处理方法、***、设备及存储介质，该方法、***、设备及存储介质能够全面去除对磁盘的额外操作，对底层文件***的带宽占用较低，且避免对业务带宽的挤占。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种快照处理方法，包括：

利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中；

当检测到请求方发送的数据复制操作指令时，则向请求方发送待复制元数据文件，其中，所述待复制元数据文件中存储有数据复制操作指令中所有待复制文件的文件名称；当检测到请求方发送的拉取文件请求时，则根据拉取文件请求向请求方发送所拉取的待复制文件；

当检测到请求方发送的文件恢复操作指令时，则根据请求方发送的数据恢复操作指令从数据引擎中进行文件的下载拷贝，再创建快照目录，构建待恢复元数据文件，其中，待恢复元数据文件中存储有下载拷贝得到的文件的名称，将待恢复元数据文件存放于创建的快照目录下，再对数据引擎进行日志重放。

还包括：当检测到请求方发送的删除操作指令时，则在快照目录中创建与删除操作指令中待删除文件相同名称且为空白的文件，再删除数据引擎中的待删除文件。

当检测到请求方发送的数据复制操作指令时，则在快照目录下，根据所述数据复制操作指令，向请求方发送待复制元数据文件。

当检测到请求方发送的拉取文件请求时，则根据拉取文件请求中的文件名称从数据引擎中查找文件，再将查找到的文件发送给请求方。

当检测到请求方发送的拉取文件请求时，则根据拉取文件请求中的文件名称从数据引擎中查找文件，当在数据引擎中查找到与拉取文件请求中的文件名称相同的文件时，则将查找到的文件发送给请求方；当在数据引擎中没有查找到与拉取文件请求中的文件名称相同的文件时，则在快照目录下查找与所述拉取文件请求中的文件名称相同且为空白的文件，然后将所述文件名称相同且为空白的文件发送至请求方。

当检测到请求方发送的数据恢复操作请求时，则从数据引擎中下载所述数据恢复操作请求所请求恢复的文件并进行拷贝，再修改文件下载过程中下载目录的名称；

创建快照目录，构建待恢复元数据文件，将待恢复元数据文件存放于新建的快照目录下；

删除数据引擎的目录，将下载目录修改为数据引擎的目录，再对数据引擎进行日志重放，完成数据的恢复。

第二方面，本发明提供一种快照处理***，包括：

创建模块，用于利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中；

文件复制操作模块，用于当检测到请求方发送的数据复制操作指令时，则向请求方发送待复制元数据文件，其中，所述待复制元数据文件中存储有数据复制操作指令中所有待复制文件的文件名称；当检测到请求方发送的拉取文件请求时，则根据拉取文件请求向请求方发送所拉取的待复制文件；

文件恢复操作模块，用于当检测到请求方发送的文件恢复操作指令时，则根据请求方发送的数据恢复操作指令从数据引擎中进行文件的下载拷贝，再创建快照目录，构建待恢复元数据文件，其中，待恢复元数据文件中存储有下载拷贝得到的文件的名称，将待恢复元数据文件存放于创建的快照目录下，再对数据引擎进行日志重放。

还包括：

文件删除操作模块，用于当检测到请求方发送的删除操作指令时，则在快照目录中创建与删除操作指令中待删除文件相同名称且为空白的文件，再删除数据引擎中的待删除文件。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述快照处理方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述快照处理方法的步骤。

本发明具有以下有益效果：

本发明所述的快照处理方法、***、设备及存储介质在具体操作时，利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中，在进行文件复制操作或文件恢复操作时，只需快照文件传送过去，再执行日志回放即可实现文件复制及恢复操作，因此不需要对磁盘进行额外的操作，即使得快照时对底层文件***的带宽占用降低最低，最大限度的减少对业务带宽的挤占。

进一步，在进行删除操作时，在删除文件的同时，在快照目录中保存同名的空文件，有利于减少数据恢复时下载数据的耗时。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的结构示意图；

图2为本发明所述快照处理***的原理图；

图3为本发明进行恢复操作时的流程图。

其中，1为创建模块、2为操作模块、21为文件删除操作模块、22为文件复制操作模块、23为文件恢复操作模块、221为第一获取模块、222为第二获取模块、223为推送模块、231为第三获取模块、232为存放模块、233为日志重放模块。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

公知的，快照的作用主要是进行在线数据备份及恢复，当存储设备发生应用故障或者文件损坏时可以进行快速的数据恢复，将数据恢复某个可用的时间点的状态，快照的另一个作用是为存储用户提供另外一个数据访问通道，当原数据进行在线应用处理时，用户可以访问快照数据，还可以利用快照进行测试等工作，所有存储***，不论高中低端，只要应用于在线***，那么快照就成为一个不可或缺的功能。

本发明的原理是利用数据引擎进行重放日志后保持内容不变的特性，使用一致性算法的存储***因为存在日志重放，因此无须严格固化各时间点的数据内容，例如，一个复制组中的文件被执行了快照，生成快照文件，该快照文件与原始文件在该时间点完全相同，之后随着业务的进行，引擎文件会被业务更新，从而与快照文件产生不同。当后续有需要恢复数据的成员出现时，则只需将该快照文件发送过去，再执行日志回放即可，该方式与将数据引擎里面的文件传过去，再执行日志回放效果完全相同，最终均得到的数据引擎文件，即数据引擎文件对于日志重放这一操作是幂等的。

实施例一

参考图1，本发明所述的快照处理方法包括：

利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中，同时记录当前时刻的日志编号；

基于数据引擎进行重放日志前后数据引擎内容保持不变的原理进行使用一致性算法的分布式存储***的文件删除操作，具体的，当检测到请求方发送的删除操作指令时，则在快照目录中创建与删除操作指令中待删除文件相同名称且为空白的文件，再删除数据引擎中的待删除文件。

例如：当待删除文件的名称为file时，则在快照目录中创建文件file，同时该文件file为空，然后将数据引擎engine中的待删除文件file删除。

需要说明的是，本发明在删除文件的同时，保存同名的空白文件，有利于减少数据恢复时下载数据的耗时。

实施例二

参考图1，本发明所述的快照处理方法包括：

基于数据引擎进行重放日志前后数据引擎内容保持不变的原理进行使用一致性算法的分布式存储***的文件复制操作，具体的过程为：

当检测到请求方发送的数据复制操作指令时，则在快照目录下，根据所述数据复制操作指令，向请求方发送待复制元数据文件；

当检测到请求方发送的拉取文件请求时，则根据拉取文件请求中的文件名称从数据引擎中查找文件，当在数据引擎中查找到与拉取文件请求中的文件名称相同的文件时，则将查找到的文件发送给请求方；当在数据引擎中没有查找到与拉取文件请求中的文件名称相同的文件时，在快照目录下查找与所述拉取文件请求中的文件名称相同且为空白的文件，然后将所述文件名称相同且为空白的文件发送至请求方。

对于请求方，请求方根据接收到的待复制元数据文件中的文件名称依次发送各文件的拉取文件请求，从而依次拉取各文件。

例如，请求方需要获取的文件的名称为file1、file2及file3，则向leader发送数据复制操作指令，则管理者leader将元数据文件mate file发送给请求方，其中，待复制元数据文件mate file存储有文件名称file1、file2及file3，请求方获得所述待复制元数据文件，依次向管理者ledaer发送拉取名称file1、file2及file3的文件请求，管理者leader接收到该请求后，在数据引擎中依次查找文件file1、file2及file3，然后依次发送给请求方。

需要说明的是，当数据引擎中没有找到对应的文件时，则将文件名称相同且为空白的文件发送至请求方，其中，该空文件的内容为空，不会导致后续运行的不正确，同时可以告知请求方，数据引擎中没有找到该文件，另外，该文件既然已经被删，则说明重放日志之后也会最终被删除，此时传送该空文件可以节省网络消耗。

实施例三

参考图1，本发明所述的快照处理方法包括：

基于数据引擎进行重放日志前后数据引擎内容保持不变的原理进行使用一致性算法的分布式存储***的文件恢复操作，具体过程为：

当获取到请求方发送的数据恢复操作请求时，则从数据引擎中下载所述数据恢复操作请求所请求恢复的文件并进行拷贝，再修改文件下载过程中下载目录的名称；

参考图3，例如，管理者获取请求方发送过来的数据恢复操作指令，该操作指令用于恢复出文件file1、文件file2及文件file3，则先在数据引擎中进行文件file1、文件file2及file3的下载拷贝，同时创造快照目录，再将存放有file1、file2及file3的文件名称列表存放于新建的快照目录meta file下，然后删除数据引擎的目录，将下载目录修改为数据引擎的目录，并对数据引擎进行日志重放，从而将文件写入数据引擎中。

需要说明的是，本发明主要是针对使用分布式一致性算法的存储***这种场景特殊设计的解决方案，相较于传统的快照解决方案，本发明实现简单可靠，基本上可以消除一致性算法在对数据引擎做快照时对底层磁盘资源的消耗和对业务的扰动，与传统的快照技术相比，本发明可以最大程度上保证业务流量对磁盘和网络资源的独占，同时又由于基本没有做磁盘操作，也降低了快照存储操作本身的运行时间，减少了对计算资源的消耗。

实施例四

参考图2，本发明所述的快照处理***包括：

创建模块1，用于利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中；

操作模块2，用于当检测到请求方发送的操作指令时，基于数据引擎进行重放日志前后数据引擎内容保持不变的原理进行使用一致性算法的分布式存储***的文件删除操作、文件复制操作或文件恢复操作。

所述操作模块2包括：

文件删除操作模块21，用于当检测到请求方发送的删除操作指令时，则在快照目录中创建与删除操作指令中待删除文件相同名称且为空白的文件，再删除数据引擎中的待删除文件；

文件复制操作模块22，用于当检测到请求方发送的数据复制操作指令时，则向请求方发送待复制元数据文件，其中，所述待复制元数据文件中存储有数据复制操作指令中所有待复制文件的文件名称；当检测到请求方发送的拉取文件请求时，则根据拉取文件请求向请求方发送所拉取的待复制文件；

文件恢复操作模块23，用于当检测到请求方发送的文件恢复操作指令时，则根据请求方发送的数据恢复操作指令从数据引擎中进行文件的下载拷贝，再创建快照目录，构建待恢复元数据文件，其中，待恢复元数据文件中存储有下载拷贝得到的文件的名称，将待恢复元数据文件存放于创建的快照目录下，再对数据引擎进行日志重放。

所述文件复制操作模块22包括：

第一获取模块221，用于检测到请求方发送的数据复制操作指令，并在快照目录下，根据所述数据复制操作指令，向请求方发送待复制元数据文件；

第二获取模块222，用于获取请求方发送的拉取文件请求；

推送模块223，用于根据拉取文件请求中的文件名称从数据引擎中查找文件，当在数据引擎中查找到与拉取文件请求中的文件名称相同的文件时，则将查找到的文件发送给请求方；当在数据引擎中没有查找到与拉取文件请求中的文件名称相同的文件时，在快照目录下查找与所述拉取文件请求中的文件名称相同且为空白的文件，然后将所述文件名称相同且为空白的文件发送至请求方。

所述文件恢复操作模块23包括：

第三获取模块231，用于检测请求方发送的数据恢复操作请求，并从数据引擎中下载所述数据恢复操作请求所请求恢复的文件并进行拷贝，再修改文件下载过程中下载目录的名称；

存放模块232，用于创建快照目录，构建待恢复元数据文件，将待恢复元数据文件存放于新建的快照目录下；

日志重放模块233，用于删除数据引擎的目录，将下载目录修改为数据引擎的目录，再对数据引擎进行日志重放，完成数据的恢复。

实施例五

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述快照处理方法的步骤，其中，所述存储器可能包含内存，例如高速随机存储器，也可能还包括非易失性存储器，例如，至少一个磁盘存储器等；处理器、网络接口、存储器通过内部总线互相连接，该内部总线可以是工业标准体系结构总线、外设部件互连标准总线、扩展工业标准结构总线等，总线可以分为地址总线、数据总线、控制总线等。存储器用于存放程序，具体地，程序可以包括程序代码、所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

实施例六

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述快照处理方法的步骤，具体地，所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器可以包括随机存储存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种快照处理方法，其特征在于，包括：

当检测到请求方发送的文件恢复操作指令时，则根据请求方发送的数据恢复操作指令从数据引擎中进行文件的下载拷贝，再创建快照目录，构建待恢复元数据文件，其中，待恢复元数据文件中存储有下载拷贝得到的文件的名称，将待恢复元数据文件存放于创建的快照目录下，再对数据引擎进行日志重放；

当检测到请求方发送的拉取文件请求时，则根据拉取文件请求中的文件名称从数据引擎中查找文件，当在数据引擎中查找到与拉取文件请求中的文件名称相同的文件时，则将查找到的文件发送给请求方；当在数据引擎中没有查找到与拉取文件请求中的文件名称相同的文件时，则在快照目录下查找与所述拉取文件请求中的文件名称相同且为空白的文件，然后将所述文件名称相同且为空白的文件发送至请求方；

2.根据权利要求1所述的快照处理方法，其特征在于，还包括：当检测到请求方发送的删除操作指令时，则在快照目录中创建与删除操作指令中待删除文件相同名称且为空白的文件，再删除数据引擎中的待删除文件。

3.根据权利要求1所述的快照处理方法，其特征在于，当检测到请求方发送的数据复制操作指令时，则在快照目录下，根据所述数据复制操作指令，向请求方发送待复制元数据文件。

4.根据权利要求1所述的快照处理方法，其特征在于，当检测到请求方发送的拉取文件请求时，则根据拉取文件请求中的文件名称从数据引擎中查找文件，再将查找到的文件发送给请求方。

5.一种快照处理***，其特征在于，包括：

创建模块(1)，用于利用数据引擎中所有文件的名称构建文件名称列表，将所述文件名称列表存储于快照目录下的元数据文件中；

文件复制操作模块(22)，用于当检测到请求方发送的数据复制操作指令时，则向请求方发送待复制元数据文件，其中，所述待复制元数据文件中存储有数据复制操作指令中所有待复制文件的文件名称；当检测到请求方发送的拉取文件请求时，则根据拉取文件请求向请求方发送所拉取的待复制文件；

文件恢复操作模块(23)，用于当检测到请求方发送的文件恢复操作指令时，则根据请求方发送的数据恢复操作指令从数据引擎中进行文件的下载拷贝，再创建快照目录，构建待恢复元数据文件，其中，待恢复元数据文件中存储有下载拷贝得到的文件的名称，将待恢复元数据文件存放于创建的快照目录下，再对数据引擎进行日志重放；

6.根据权利要求5所述的快照处理***，其特征在于，还包括：

文件删除操作模块(21)，用于当检测到请求方发送的删除操作指令时，则在快照目录中创建与删除操作指令中待删除文件相同名称且为空白的文件，再删除数据引擎中的待删除文件。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述快照处理方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述快照处理方法的步骤。