CN111104239A

CN111104239A - 一种分布式存储集群的硬盘故障处理方法、***及装置

Info

Publication number: CN111104239A
Application number: CN201911149378.7A
Authority: CN
Inventors: 张大帅
Original assignee: Beijing Inspur Data Technology Co Ltd
Current assignee: Beijing Inspur Data Technology Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-05-05

Abstract

本发明公开了一种分布式存储集群的硬盘故障处理方法，首先获取分布式存储集群内每个存储服务器中各硬盘的读写IO时延信息，然后根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障，以将出现故障的硬盘从分布式存储集群中进行隔离，从而避免故障盘引起集群数据重构，影响集群业务性能。本发明还公开了一种分布式存储集群的硬盘故障处理***及装置，与上述硬盘故障处理方法具有相同的有益效果。

Description

一种分布式存储集群的硬盘故障处理方法、***及装置

技术领域

本发明涉及分布式存储集群领域，特别是涉及一种分布式存储集群的硬盘故障处理方法、***及装置。

背景技术

目前，分布式存储集群***通常包括多个存储服务器，这些存储服务器组成一个集群统一对外提供存储服务。每个存储服务器均包含多个硬盘，多个硬盘共同实现存储服务器的存储服务。但是，若集群中某个硬盘出现故障，则会引发集群进行数据重构，从而占用集群资源，影响整个集群的业务性能。

因此，如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种分布式存储集群的硬盘故障处理方法、***及装置，可将出现故障的硬盘从分布式存储集群中进行隔离，从而避免故障盘引起集群数据重构，影响集群业务性能。

为解决上述技术问题，本发明提供了一种分布式存储集群的硬盘故障处理方法，应用于包含多个存储服务器的分布式存储集群，包括：

获取每个所述存储服务器中各硬盘的读写IO时延信息；

根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障；其中，所述目标硬盘为各所述硬盘中任一硬盘；

若是，则将所述目标硬盘从所述分布式存储集群中进行隔离。

优选地，所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程，包括：

根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现读写IO中断；

若是，则确定所述目标硬盘出现故障。

优选地，所述根据各所述硬盘的读写IO时延信息相应判断各所述硬盘是否出现故障的过程，还包括：

根据目标硬盘的读写IO时延信息判断所述目标硬盘的读写IO时延是否连续N次超过预设时间阈值；其中，N为正整数；

若是，则确定所述目标硬盘出现故障。

优选地，所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程，包括：

将所述目标硬盘所在的存储服务器开启维护模式，并将所述目标硬盘对应的OSD服务从所述分布式存储集群中移除。

优选地，所述硬盘故障处理方法还包括：

在判断出所述目标硬盘出现故障后，向上层管理设备发送所述目标硬盘的故障信息。

优选地，所述向上层管理设备发送所述目标硬盘的故障信息的过程，包括：

根据预设管理邮箱和/或预设手机号码和/或snmp Trap客户端的IP地址，向所述预设管理邮箱发送告警邮件和/或向所述预设手机号码发送告警短信和/或向所述snmpTrap客户端发送告警信息。

为解决上述技术问题，本发明还提供了一种分布式存储集群的硬盘故障处理***，应用于包含多个存储服务器的分布式存储集群，包括：

OSD服务模块，用于获取每个所述存储服务器中各硬盘的读写IO时延信息；

磁盘检测模块，用于根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障；若是，则将所述目标硬盘从所述分布式存储集群中进行隔离；其中，所述目标硬盘为各所述硬盘中任一硬盘。

根据目标硬盘的读写IO时延信息，判断所述目标硬盘是否出现读写IO中断或所述目标硬盘的读写IO时延是否连续N次超过预设时间阈值；

若是，则确定所述目标硬盘出现故障。

为解决上述技术问题，本发明还提供了一种分布式存储集群的硬盘故障处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序时实现上述任一种分布式存储集群的硬盘故障处理方法的步骤。

本发明提供了一种分布式存储集群的硬盘故障处理方法，首先获取分布式存储集群内每个存储服务器中各硬盘的读写IO时延信息，然后根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障，以将出现故障的硬盘从分布式存储集群中进行隔离，从而避免故障盘引起集群数据重构，影响集群业务性能。

本发明还提供了一种分布式存储集群的硬盘故障处理***及装置，与上述硬盘故障处理方法具有相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种分布式存储集群的硬盘故障处理方法的流程图；

图2为本发明实施例提供的一种分布式存储集群的硬盘故障检测机制示意图；

图3为本发明实施例提供的一种分布式存储集群的硬盘故障检测、隔离、告警机制示意图。

具体实施方式

本发明的核心是提供一种分布式存储集群的硬盘故障处理方法、***及装置，可将出现故障的硬盘从分布式存储集群中进行隔离，从而避免故障盘引起集群数据重构，影响集群业务性能。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种分布式存储集群的硬盘故障处理方法的流程图。

该硬盘故障处理方法应用于包含多个存储服务器的分布式存储集群，包括：

步骤S1：获取每个存储服务器中各硬盘的读写IO时延信息。

具体地，考虑到存储服务器中的硬盘出现故障时，会存在读写IO(Input/Output，输入/输出)中断或读写IO超时，同时考虑到硬盘的读写IO中断或读写IO超时可通过硬盘的读写IO时延信息来体现，所以本申请可获取每个存储服务器中各硬盘的读写IO时延信息，以为后续判断存储服务器中的硬盘是否出现故障打下基础。

更具体地，本申请在分布式存储集群内的每个存储服务器上均添加一个磁盘检测模块，用于实现存储服务器上各硬盘的故障检测和处理功能。已知每个硬盘在加入分布式存储集群后均会对应一个OSD(Object Storage Device，对象存储设备)服务，该OSD服务负责业务数据的读盘和写盘，所以本申请的磁盘检测模块可通过存储服务器的OSD服务模块相应获取存储服务器上各硬盘的读写IO时延信息，即在OSD服务模块中增加硬盘的读写IO时延信息上报功能，使OSD服务模块将对应硬盘每次的读写IO时延信息相应发送至磁盘检测模块，以供磁盘检测模块进行硬盘故障检测和处理。

步骤S2：根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障；若是，则执行步骤S3。

需要说明的是，步骤S2中的目标硬盘为步骤S1中各硬盘中任一硬盘。

具体地，由于硬盘的读写IO时延信息可体现硬盘的故障情况，所以本申请的磁盘检测模块在获取目标硬盘的读写IO时延信息后，可根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障。若目标硬盘未出现故障，说明目标硬盘不会引发集群数据重构，影响集群业务性能，则无需对目标硬盘进行故障处理；若目标硬盘出现故障，说明目标硬盘会引发集群数据重构，影响集群业务性能，则需对目标硬盘进行故障处理。

步骤S3：将目标硬盘从分布式存储集群中进行隔离。

具体地，考虑到对故障盘进行隔离处理可避免故障盘引起集群数据重构，所以本申请的磁盘检测模块在判断出目标硬盘出现故障后，将目标硬盘从分布式存储集群中进行隔离，从而避免故障盘影响集群业务性能。

在上述实施例的基础上：

作为一种可选的实施例，根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障的过程，包括：

根据目标硬盘的读写IO时延信息判断目标硬盘是否出现读写IO中断；

若是，则确定目标硬盘出现故障。

具体地，当目标硬盘的读写IO中断时，目标硬盘无法再继续进行IO读写，所以本申请认为：当目标硬盘的读写IO时延超过一定较长时间(如5s)时，说明目标硬盘的读写IO中断。基于此，本申请可根据目标硬盘的读写IO时延信息判断目标硬盘是否出现读写IO中断，若目标硬盘出现读写IO中断，则确定目标硬盘出现故障，需对目标硬盘进行故障处理。

更具体地，本申请可在OSD服务模块中增加检测硬盘的读写IO中断并上报的功能，使OSD服务模块在对应硬盘的读写IO时延超过一定较长时间时，生成故障盘的中断信号并相应发送至磁盘检测模块，以供磁盘检测模块进行硬盘故障判定和处理。

作为一种可选的实施例，根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障的过程，还包括：

根据目标硬盘的读写IO时延信息判断目标硬盘的读写IO时延是否连续N次超过预设时间阈值；其中，N为正整数；

若是，则确定目标硬盘出现故障。

需要说明的是，本申请的预设是提前设置好的，只需要设置一次，除非根据实际情况需要修改，否则不需要重新设置。

进一步地，当目标硬盘的读写IO超时时，同样认为目标硬盘出现故障，为了避免目标硬盘的读写IO超时的偶然性导致目标硬盘的故障误判，所以本申请认为：当目标硬盘的读写IO时延连续多次(如3次)超过预设时间阈值(如1s)时，认为目标硬盘为慢盘，即目标硬盘出现故障。基于此，本申请可根据目标硬盘的读写IO时延信息判断目标硬盘的读写IO时延是否连续多次超过预设时间阈值，若目标硬盘的读写IO时延连续多次超过预设时间阈值，则确定目标硬盘出现故障，需对目标硬盘进行故障处理；若目标硬盘的读写IO时延未连续多次超过预设时间阈值且目标硬盘未出现读写IO中断，则确定目标硬盘未出现故障，无需对目标硬盘进行故障处理。

作为一种可选的实施例，将目标硬盘从分布式存储集群中进行隔离的过程，包括：

将目标硬盘所在的存储服务器开启维护模式，并将目标硬盘对应的OSD服务从分布式存储集群中移除。

具体地，本申请将目标硬盘从分布式存储集群中进行隔离涉及如下步骤：1)将目标硬盘所在的存储服务器开启维护模式，存储服务器的维护模式主要指将该存储服务器设置为noout模式，即目标硬盘被隔离out，该存储服务器的其他硬盘对应的OSD数据不会发生重构，从而不影响集群业务性能。2)将目标硬盘对应的OSD服务从分布式存储集群中移除，不再参与业务数据读写，从而实现目标硬盘的隔离。

作为一种可选的实施例，硬盘故障处理方法还包括：

在判断出目标硬盘出现故障后，向上层管理设备发送目标硬盘的故障信息。

进一步地，本申请的磁盘检测模块还可在判断出目标硬盘出现故障后，向上层管理设备发送目标硬盘的故障信息，以及时提醒管理员目标硬盘出现故障，需对目标硬盘进行更换。

作为一种可选的实施例，向上层管理设备发送目标硬盘的故障信息的过程，包括：

根据预设管理邮箱和/或预设手机号码和/或snmp Trap客户端的IP地址，向预设管理邮箱发送告警邮件和/或向预设手机号码发送告警短信和/或向snmp Trap客户端发送告警信息。

具体地，本申请可提前设置用于接收告警邮件的管理邮箱，和/或设置用于接收告警短信的手机号码，和/或给出snmp Trap客户端(指的是管理网络中可以管理的资源和设备的客户端)的IP(Internet Protocol，互联网协议)地址，以在判断出目标硬盘出现故障后，根据预设管理邮箱的邮箱地址，向预设管理邮箱发送包含目标硬盘故障信息的告警邮件；和/或根据预设手机号码，向预设手机号码发送包含目标硬盘故障信息的告警短信；和/或根据snmp Trap客户端的IP地址，向snmp Trap客户端发送包含目标硬盘故障信息的告警信息，以实现目标硬盘的故障告警。

比如，请参照图2及图3，图2为本发明实施例提供的一种分布式存储集群的硬盘故障检测机制示意图，图3为本发明实施例提供的一种分布式存储集群的硬盘故障检测、隔离、告警机制示意图。

如图2所示，3个存储服务器(节点1、节点2、节点3)组成一个集群，每个存储服务器上有4个硬盘(OSD 1、OSD 2、OSD 3、OSD 4)。在部署完成集群后，在集群的所有存储服务器上启动磁盘检测模块，每个存储服务器的OSD服务模块实时发送对应硬盘的读写IO时延信息至磁盘检测模块(二者之间的通信协议：Socket，套接字)，以供磁盘检测模块实时进行硬盘故障检测和处理。如图3所示，节点1上的磁盘检测模块检测到节点1上的OSD 1出现故障，则将节点1开启节点维护模式(用“.”填充表示)，并将OSD 1隔离出集群(“X”号表示)，同时上报邮件、短信和snmp告警信息。

本申请还提供了一种分布式存储集群的硬盘故障处理***，应用于包含多个存储服务器的分布式存储集群，包括：

OSD服务模块，用于获取每个存储服务器中各硬盘的读写IO时延信息；

磁盘检测模块，用于根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障；若是，则将目标硬盘从分布式存储集群中进行隔离；其中，目标硬盘为各硬盘中任一硬盘。

根据目标硬盘的读写IO时延信息，判断目标硬盘是否出现读写IO中断或目标硬盘的读写IO时延是否连续N次超过预设时间阈值；

若是，则确定目标硬盘出现故障。

本申请提供的硬盘故障处理***的介绍请参考上述硬盘故障处理方法的实施例，本申请在此不再赘述。

本申请还提供了一种分布式存储集群的硬盘故障处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于在执行计算机程序时实现上述任一种分布式存储集群的硬盘故障处理方法的步骤。

本申请提供的硬盘故障处理装置的介绍请参考上述硬盘故障处理方法的实施例，本申请在此不再赘述。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种分布式存储集群的硬盘故障处理方法，其特征在于，应用于包含多个存储服务器的分布式存储集群，包括：

获取每个所述存储服务器中各硬盘的读写IO时延信息；

2.如权利要求1所述的分布式存储集群的硬盘故障处理方法，其特征在于，所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程，包括：

若是，则确定所述目标硬盘出现故障。

3.如权利要求2所述的分布式存储集群的硬盘故障处理方法，其特征在于，所述根据各所述硬盘的读写IO时延信息相应判断各所述硬盘是否出现故障的过程，还包括：

若是，则确定所述目标硬盘出现故障。

4.如权利要求1所述的分布式存储集群的硬盘故障处理方法，其特征在于，所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程，包括：

5.如权利要求1所述的分布式存储集群的硬盘故障处理方法，其特征在于，所述硬盘故障处理方法还包括：

6.如权利要求5所述的分布式存储集群的硬盘故障处理方法，其特征在于，所述向上层管理设备发送所述目标硬盘的故障信息的过程，包括：

根据预设管理邮箱和/或预设手机号码和/或snmp Trap客户端的IP地址，向所述预设管理邮箱发送告警邮件和/或向所述预设手机号码发送告警短信和/或向所述snmp Trap客户端发送告警信息。

7.一种分布式存储集群的硬盘故障处理***，其特征在于，应用于包含多个存储服务器的分布式存储集群，包括：

8.如权利要求7所述的分布式存储集群的硬盘故障处理***，其特征在于，所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程，包括：

若是，则确定所述目标硬盘出现故障。

9.如权利要求7所述的分布式存储集群的硬盘故障处理***，其特征在于，所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程，包括：

10.一种分布式存储集群的硬盘故障处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序时实现如权利要求1-6任一项所述的分布式存储集群的硬盘故障处理方法的步骤。