CN111212127A

CN111212127A - 一种存储集群及业务数据的维护方法、装置和存储介质

Info

Publication number: CN111212127A
Application number: CN201911386440.4A
Authority: CN
Inventors: 史宗华; 何营
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2019-12-29
Filing date: 2019-12-29
Publication date: 2020-05-29

Abstract

本申请公开了一种存储集群及业务数据的维护方法、装置和计算机可读存储介质，该方法应用于存储集群中的各存储节点，各存储节点基于部署的CTDB而运行有网络附属存储服务；方法包括：调用预先在CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态；若本存储节点网络异常，则基于CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据；继续调用网卡监听服务以周期性检测本存储节点的网络状态；在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。本申请有效避免了残余进程的缓存数据令存储节点出现数据不一致的问题，进而改善了存储集群的数据存储可靠性。

Description

一种存储集群及业务数据的维护方法、装置和存储介质

技术领域

本申请涉及集群存储技术领域，特别涉及一种存储集群及业务数据的维护方法、装置和计算机可读存储介质。

背景技术

在当今社会，随着云计算和大数据的崛起，每天产生的数据量呈指数级增长；传统的存储已无法满足需求，支持动态容量扩展的分布式海量存储应运而生。

CTDB(Cluster Trivial Database，数据库集群)是一种轻量级的集群数据库实现，是集群Samba的集群数据库组件，常用于处理Samba的跨节点消息。CTDB是在集群节点上实现分布式的TDB数据库，可有效用于保障存储服务的高可用性，特别地，可具体应用于网络附属存储服务(Network Attached Storage，NAS)。

对于网络附属存储服务，存储节点的网络保持通畅是其正常运行的条件之一。因此，现有技术中经常会出现某个存储节点因网络异常而与客户端数据不一致的情况。鉴于此，提供一种解决上述技术问题的方案，已经是本领域技术人员所亟需关注的。

发明内容

本申请的目的在于提供一种存储集群及业务数据的维护方法、装置和计算机可读存储介质，以便有效解决业务数据不一致的问题，改善存储集群的数据存储可靠性。

为解决上述技术问题，第一方面，本申请公开了一种业务数据的维护方法，应用于存储集群中的各存储节点，各所述存储节点基于部署的CTDB而运行有网络附属存储服务；所述方法包括：

调用预先在所述CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态；

若本存储节点网络异常，则基于所述CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据；

继续调用所述网卡监听服务以周期性检测本存储节点的网络状态；

在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。

可选地，所述本存储节点网络异常的判定过程包括：

若连续预设数量次的周期性网络状态检测结果均异常，则判定本存储节点网络异常。

可选地，在所述调用预先在所述CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态之后，还包括：

若本存储节点网络正常，则调用预先在所述CTDB中设置的业务状态监控服务，以便周期性检测本存储节点的网路附属存储服务的运行状态；

若本存储节点的网络附属存储服务停止运行，则重新在本存储节点上启动网络附属存储服务。

若本存储节点网络正常，则定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号中断后，通过触发所述CTDB中预设的业务切换流程，选举出网络状态正常的代理节点，将本存储节点的网络附属存储服务的任务由所述代理节点代替执行。

可选地，在所述在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务之后，还包括：

继续定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号恢复后，通过再次触发业务切换流程，由所述代理节点将代替本存储节点执行的网络附属存储服务的任务切换至本存储节点。

可选地，在所述本存储节点网络异常之后，还包括：

将本存储节点的网络状态标识由正常状态修改为故障状态。

第二方面，本申请还公开了一种业务数据的维护装置，应用于存储集群中的各存储节点，各所述存储节点基于部署的CTDB而运行有网络附属存储服务；所述装置包括：

网卡监听模块，用于调用预先在所述CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态；

缓存清除模块，用于在本存储节点网络异常时，基于所述CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据；并由所述网卡监听模块继续调用所述网卡监听服务以周期性检测本存储节点的网络状态；

业务重启模块，用于在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。

可选地，还包括：

业务监控模块，用于在本存储节点网络正常时，调用预先在所述CTDB中设置的业务状态监控服务，以便周期性检测本存储节点的网路附属存储服务的运行状态；

所述业务重启模块还用于：在本存储节点的网络正常而网络附属存储服务停止运行时，重新在本存储节点上启动网络附属存储服务。

可选地，所述网卡监听模块具体用于：

可选地，还包括：

心跳信号模块，用于在所述业务监控模块周期性检测本存储节点的网络状态之后，若本存储节点网络正常，则定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号中断后，通过触发所述CTDB中预设的业务切换流程，选举出网络状态正常的代理节点，将本存储节点的网络附属存储服务的任务由所述代理节点代替执行。

可选地，所述心跳信号模块还用于：

在所述在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务之后，继续定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号恢复后，通过再次触发业务切换流程，由所述代理节点将代替本存储节点执行的网络附属存储服务的任务切换至本存储节点。

可选地，还包括：

状态标识模块，用于在所述本存储节点网络异常之后，将本存储节点的网络状态标识由正常状态修改为故障状态；在所述本存储节点网络恢复后，将本存储节点的网络状态标识由所述故障状态修改为所述正常状态。

第三方面，本申请还公开了一种存储集群，包括多个存储节点，各所述存储节点包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上所述的任一种业务数据的维护方法的步骤。

第四方面，本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上所述的任一种业务数据的维护方法的步骤。

本申请所提供的业务数据的维护方法应用于存储集群中的各存储节点，各所述存储节点基于部署的CTDB而运行有网络附属存储服务；所述方法包括：调用预先在所述CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态；若本存储节点网络异常，则基于所述CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据；继续调用所述网卡监听服务以周期性检测本存储节点的网络状态；在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。

可见，本申请基于在CTDB中预设的网卡监听服务，可有效监测存储节点的网络状态，进而在网络异常后及时清理网络附属存储服务的残余进程，有效避免了残余进程的缓存数据令存储节点出现数据不一致的问题，进而改善了存储集群的数据存储可靠性。本申请所提供的业务数据的维护装置、存储集群及计算机可读存储介质同样具有上述有益效果。

附图说明

为了更清楚地说明现有技术和本申请实施例中的技术方案，下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然，下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图，所获得的其他附图也属于本申请的保护范围。

图1为本申请实施例公开的一种业务数据的维护方法的流程图；

图2为本申请实施例公开的一种存储节点网路异常后业务切换流程的示意图；

图3为本申请实施例公开的一种存储节点网路恢复后业务切换流程的示意图；

图4为本申请实施例公开的一种业务数据的维护装置的结构框图；

图5为本申请实施例公开的一种存储集群中存储节点的结构框图。

具体实施方式

本申请的核心在于提供一种存储集群及业务数据的维护方法、装置和计算机可读存储介质，以便有效解决业务数据不一致的问题，改善存储集群的数据存储可靠性。

为了对本申请实施例中的技术方案进行更加清楚、完整地描述，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行介绍。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前，随着云计算和大数据的崛起，每天产生的数据量呈指数级增长；传统的存储已无法满足需求，支持动态容量扩展的分布式海量存储应运而生。

CTDB(Cluster Trivial Database，数据库集群)是一种轻量级的集群数据库实现，是集群Samba的集群数据库组件，常用于处理Samba的跨节点消息。CTDB是在集群节点上实现分布式的TDB数据库，可有效用于保障存储服务的高可用性，例如执行节点监控、节点切换、IP切换等功能。特别地，可具体应用于网络附属存储服务(Network AttachedStorage，NAS)。

对于网络附属存储服务，存储节点的网络保持通畅是其正常运行的条件之一。因此，现有技术中经常会出现某个存储节点因网络异常而与客户端数据不一致的情况。

这具体是因为，当客户端向存储节点进行数据存储请求后，若存储节点仅仅是网络发生故障(电源、网卡等硬件设备均正常)，则该存储节点虽然无法正常运行网络附属存储服务，但仍会存留一些网络附属存储服务的残留进程，并带有一定的缓存数据。如此，当该存储节点的网络恢复后，客户端再次向存储节点发起的数据存储请求，受之前缓存数据的影响，此时将出现该存储节点的数据与客户端请求的数据不一致的情况。鉴于此，本申请提供了一种业务数据的维护方案，可有效解决上述问题。

参见图1所示，本申请实施例公开了一种业务数据的维护方法，应用于存储集群中的各存储节点，各存储节点基于部署的CTDB而运行有网络附属存储服务；方法包括：

S101：调用预先在CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态。

具体地，本申请实施例所提供的业务数据的维护方法，可具体应用于部署有CTDB的各个存储节点上。由于存储节点上运行的网络附属存储服务需要网络的支持，而网络中断等异常将很可能会导致该存储节点出现数据不一致的问题，由此，本申请实施例具体在CTDB中预先设置了网卡监听服务，以便对本存储节点的网络状态进行检测。

其中，具体地，对网络状态的检测可周期性不断重复实施。基于网卡监听服务，可每隔一定的检查周期便执行一次对网络状态的检查，该检查周期可根据实际情况而合理设置，例如，可具体设置为2s。

S102：若本存储节点网络异常，则基于CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据。

具体地，若本存储节点的网络异常，例如断网、卡顿等，则网络附属存储服务将无法正常运行，将出现通信中断、数据没有落盘等问题。因此，一旦发现本存储节点的网络异常时，本申请实施例可利用kill命令终结网络附属存储服务的残余进程，从而清除掉这些残余进程的缓存数据，防止这些缓存的业务数据在下次重启了网络附属存储服务后造成数据不一致的问题。

S103：继续调用网卡监听服务以周期性检测本存储节点的网络状态。

具体地，当终结了本存储节点的网络附属存储服务的残余进程后，可继续周期性监测本存储节点的网络状态，以便在网络恢复后重启网络附属存储服务。

S104：在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。

容易理解的是，基于步骤S102，本申请实施例已经在网络异常导致客户端与本存储节点通信中断或延迟后，关闭了残余进程清除了缓存数据，因此，当重启了网络附属存储服务，本存储节点可保持与客户端的数据一致性。

本申请实施例所提供的业务数据的维护方法应用于存储集群中的各存储节点，各存储节点基于部署的CTDB而运行有网络附属存储服务；方法包括：调用预先在CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态；若本存储节点网络异常，则基于CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据；继续调用网卡监听服务以周期性检测本存储节点的网络状态；在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。

可见，本申请基于在CTDB中预设的网卡监听服务，可有效监测存储节点的网络状态，进而在网络异常后及时清理网络附属存储服务的残余进程，有效避免了残余进程的缓存数据令存储节点出现数据不一致的问题，进而改善了存储集群的数据存储可靠性。

作为一种具体实施例，本申请实施例所提供的业务数据的维护方法在上述内容的基础上，本存储节点网络异常的判定过程包括：

具体地，为了防止对网络状态的误判，可综合连续预设数量次的判断结果进行评判。例如，预设数量可具体为4次，即，若连续4个检测周期内的判断结果均为网络异常，那么可判定本存储节点网络异常。

作为一种具体实施例，本申请实施例所提供的业务数据的维护方法在上述内容的基础上，在调用预先在CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态之后，还包括：

若本存储节点网络正常，则调用预先在CTDB中设置的业务状态监控服务，以便周期性检测本存储节点的网路附属存储服务的运行状态；

具体地，本实施例中还进一步在CTDB中设置了业务状态监控服务，用于周期性检测本存储节点的网路附属存储服务的运行状态。具体地，如前，当若存储节点仅仅是网络发生故障(电源、网卡等硬件设备均正常)，该存储节点的网络附属存储服务将无法正常运行但会留有残留进程。但是，若是本存储节点的电源、网卡等硬件设备发生硬件故障(如断电)，则网络附属存储服务将全部无法启动而停止运行。此时，一旦业务状态监控服务监测到此种情况，则可在故障恢复后尝试重新在本存储节点上启动网络附属存储服务。

若本存储节点网络正常，则定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号中断后，通过触发CTDB中预设的业务切换流程，选举出网络状态正常的代理节点，将本存储节点的网络附属存储服务的任务由代理节点代替执行。

具体地，本实施例还基于CTDB设置了业务切换流程。若本存储节点发生网络异常，则其他存储节点可基于业务切换流程，选举出代理节点，以代替本存储节点运行本存储节点的任务。

上述过程可具体参见图2，图2为本申请实施例公开的一种存储节点网路异常后业务切换流程的示意图。其中，图2具体示出了发生了网络故障的节点1，以及其他两个存储节点：主节点2和节点3。通过执行业务切换流程后，主节点2被选为代理节点，节点1的任务被切换至主节点2上执行。

作为一种具体实施例，本申请实施例所提供的业务数据的维护方法在上述内容的基础上，在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务后，还包括：

在本存储节点网络恢复后，继续定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号恢复后，再次触发业务切换流程；

继续定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号恢复后，通过再次触发业务切换流程，由代理节点将代替本存储节点执行的网络附属存储服务的任务切换至本存储节点。

具体地，本存储节点在网络恢复后，可继续发送心跳信号以告知其他存储节点。基于集群负载均衡控制，其他存储节点可通过业务切换流程再将本存储节点之前的任务切换交还至本存储节点。

上述过程可具体参见图3，图3为本申请实施例公开的一种存储节点网路恢复后业务切换流程的示意图。其中，节点1的网络故障解决后恢复了网络正常，主节点2和节点3再次执行业务切换流程后，将节点1的原任务回切至节点1上执行。

作为一种具体实施例，本申请实施例所提供的业务数据的维护方法在上述内容的基础上，在本存储节点网络异常之后，还包括：将本存储节点的网络状态标识由正常状态修改为故障状态；

在本存储节点网络恢复后，还包括：将本存储节点的网络状态标识由故障状态修改为正常状态。

具体地，本申请实施例还为各个存储节点设置了网络状态标识，其具有两个标识态：正常状态和故障状态。因此，在判定了本存储节点网络异常之后，可置为故障状态。类似地，在判定了本存储节点网络恢复之后，可置为正常状态。

参见图4所示，本申请实施例公开了一种业务数据的维护装置，应用于存储集群中的各存储节点，各存储节点基于部署的CTDB而运行有网络附属存储服务；装置包括：

网卡监听模块201，用于调用预先在CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态；

缓存清除模块202，用于在本存储节点网络异常时，基于CTDB生成kill命令终结本存储节点上运行的网络附属存储服务的残余进程，以清除当前缓存的业务数据；并由网卡监听模块201继续调用网卡监听服务以周期性检测本存储节点的网络状态；

业务重启模块203，用于在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务。

可见，本申请实施例所公开的业务数据的维护装置，基于在CTDB中预设的网卡监听服务，可有效监测存储节点的网络状态，进而在网络异常后及时清理网络附属存储服务的残余进程，有效避免了残余进程的缓存数据令存储节点出现数据不一致的问题，进而改善了存储集群的数据存储可靠性

关于上述业务数据的维护装置的具体内容，可参考前述关于业务数据的维护方法的详细介绍，这里就不再赘述。

作为一种具体实施例，本申请实施例所公开的业务数据的维护装置在上述内容的基础上，还包括：

业务监控模块，用于在本存储节点网络正常时，调用预先在CTDB中设置的业务状态监控服务，以便周期性检测本存储节点的网路附属存储服务的运行状态；

业务重启模块203还用于：在本存储节点的网络正常而网络附属存储服务停止运行时，重新在本存储节点上启动网络附属存储服务。

作为一种具体实施例，本申请实施例所公开的业务数据的维护装置在上述内容的基础上，网卡监听模块201具体用于：

心跳信号模块，用于在业务监控模块周期性检测本存储节点的网络状态之后，若本存储节点网络正常，则定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号中断后，通过触发CTDB中预设的业务切换流程，选举出网络状态正常的代理节点，将本存储节点的网络附属存储服务的任务由代理节点代替执行。

作为一种具体实施例，本申请实施例所公开的业务数据的维护装置在上述内容的基础上，心跳信号模块还用于：

在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务之后，继续定时向其他存储节点发送心跳信号；以便其他存储节点在检测到本存储节点的心跳信号恢复后，通过再次触发业务切换流程，由代理节点将代替本存储节点执行的网络附属存储服务的任务切换至本存储节点。

状态标识模块，用于在本存储节点网络异常之后，将本存储节点的网络状态标识由正常状态修改为故障状态；在本存储节点网络恢复后，将本存储节点的网络状态标识由故障状态修改为正常状态。

进一步地，本申请还公开了一种存储集群，包括多个存储节点，参见图5所示，各所述存储节点包括：

存储器301，用于存储计算机程序；

处理器302，用于执行所述计算机程序以实现如上所述的任一种业务数据的维护方法的步骤。

进一步地，本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上所述的任一种业务数据的维护方法的步骤。

关于上述存储集群和计算机可读存储介质的具体内容，可参考前述关于业务数据的维护方法的详细介绍，这里就不再赘述。

本申请中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需说明的是，在本申请文件中，诸如“第一”和“第二”之类的关系术语，仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请的保护范围内。

Claims

1.一种业务数据的维护方法，应用于存储集群中的各存储节点，各所述存储节点基于部署的CTDB而运行有网络附属存储服务；所述方法包括：

2.根据权利要求1所述的业务数据的维护方法，其特征在于，所述本存储节点网络异常的判定过程包括：

3.根据权利要求1所述的业务数据的维护方法，其特征在于，在所述调用预先在所述CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态之后，还包括：

4.根据权利要求1所述的业务数据的维护方法，其特征在于，在所述调用预先在所述CTDB中设置的网卡监听服务，以便周期性检测本存储节点的网络状态之后，还包括：

5.根据权利要求4所述的业务数据的维护方法，其特征在于，在所述在本存储节点网络恢复后，重新在本存储节点上启动网络附属存储服务之后，还包括：

6.根据权利要求1至5任一项所述的业务数据的维护方法，其特征在于，在所述本存储节点网络异常之后，还包括：

将本存储节点的网络状态标识由正常状态修改为故障状态；

在所述本存储节点网络恢复后，还包括：

将本存储节点的网络状态标识由所述故障状态修改为所述正常状态。

7.一种业务数据的维护装置，其特征在于，应用于存储集群中的各存储节点，各所述存储节点基于部署的CTDB而运行有网络附属存储服务；所述装置包括：

8.根据权利要求7所述的业务数据的维护装置，其特征在于，还包括：

9.一种存储集群，包括多个存储节点，其特征在于，各所述存储节点包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至6任一项所述的业务数据的维护方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如权利要求1至6任一项所述的业务数据的维护方法的步骤。