CN109101357A

CN109101357A - 一种osd故障的检测方法及装置

Info

Publication number: CN109101357A
Application number: CN201810810371.4A
Authority: CN
Inventors: 孔帅
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2018-12-28

Abstract

本发明公开了一种OSD故障的检测方法及装置，用于减少监控器节点发现故障的对象存储设备OSD的时间间隔，进而尽快触发放置组PG的恢复过程，减少前端业务的中断时间。本发明方法包括：当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过第一OSD向Monitor上报第一OSD异常；通过Monitor更新OSDMAP；通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD；通过Monitor向第一OSD发送反馈消息，以使得第一OSD根据所述反馈消息退出服务。

Description

一种OSD故障的检测方法及装置

技术领域

本发明涉及存储领域，尤其涉及一种OSD故障的检测方法及装置。

背景技术

在分布式存储集群中，读写请求都是先发送给一个放置组(place group，PG)内的主对象存储设备(object storage device，OSD)，再由主OSD发送给从OSD，主OSD和从OSD互为伙伴OSD，其中，每一个OSD都对应一块磁盘，负责存储数据和元数据。因此当主OSD发生故障时，PG就会停止处理读写请求。同一个PG内的OSD通过心跳来检测伙伴OSD是否存在，当超过一定的时间未收到对方的心跳响应时，就认为伙伴OSD出现了故障，将所属的PG置为降级状态(degraded)，并向监控器(Monitor)节点上报异常。当Monitor节点收到足够多的异常上报时，将出现故障的OSD设置为down状态，然后更新OSDMAP并推送给相关的OSD。PG在收到最新的OSDMAP后，会从其余正常的OSD中找个新的来代替出现故障的OSD，并将数据回填到该OSD上，之后PG状态变为正常并开始处理业务。

在这整个过程中前端业务会中断，中断时间取决于Monitor发现OSD出现故障并更新OSDMAP的时间。

在现有方案中，每个OSD往往会承载上百个PG，而且肯定会在某个PG中作为主OSD，而在大规模的集群中发生因坏盘等问题导致OSD退出的现象也无法避免，因此现有方案会导致前端业务存在长时间中断的风险。

发明内容

本发明实施例提供了一种OSD故障的检测方法及装置，用于减少监控器节点发现故障的对象存储设备OSD的时间间隔，进而尽快触发放置组PG的恢复过程，减少前端业务的中断时间。

本发明第一方面提供了一种OSD故障的检测方法，其特征在于，应用于分布式存储***，包括：当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过第一OSD向Monitor上报第一OSD异常；通过Monitor更新OSDMAP；通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD；通过Monitor向第一OSD发送反馈消息，以使得第一OSD根据反馈消息退出服务。本发明实施例中，通过发生故障的对象存储设备OSD向监视器主动上报异常，减少监控器节点发现故障OSD的时间间隔，进而尽快触发放置组PG的恢复过程，减少前端业务的中断时间。

在一种可能的设计中，在本发明实施例第一方面的第一种实现方式中，在所述通过所述Monitor向所述第一OSD发送反馈消息之后，所述方法还包括：通过Monitor确定新的主OSD；通过新的主OSD触发目标PG的恢复过程。

在一种可能的设计中，在本发明实施例第一方面的第二种实现方式中，通过Monitor确定新的主OSD包括：通过Monitor设置第一OSD的状态为down；通过Monitor更新OSDMAP并将更新后的OSDMAP发送至其他OSD；通过Monitor选择其他OSD中的任意一个作为临时的主OSD；通过临时的主OSD确定第二OSD作为目标PG的新的主OSD。

在一种可能的设计中，在本发明实施例第一方面的第三种实现方式中，通过新的主OSD触发目标PG的恢复过程包括：通过第二OSD确定第一OSD上存储的目标数据；将目标数据写入到第二OSD。

在一种可能的设计中，在本发明实施例第一方面的第四种实现方式中，所述方法还包括：当第一OSD在预置时长内未获取到反馈消息时，控制第一OSD退出服务；通过目标PG内的其他OSD进行心跳检测。

本发明第二方面提供了一种OSD故障的检测装置，应用于分布式存储***，包括：上报单元，当监视器Monitor检测到第一对象存储设备OSD发生异常时，用于通过第一OSD向Monitor上报第一OSD异常；更新单元，用于通过Monitor更新OSDMAP；第一发送单元，用于通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD；第二发送单元，用于通过Monitor向所述第一OSD发送反馈消息，以使得第一OSD根据反馈消息退出服务。本发明实施例中，通过发生故障的对象存储设备OSD向监视器主动上报异常，减少监控器节点发现故障OSD的时间间隔，进而尽快触发放置组PG的恢复过程，减少前端业务的中断时间。

在一种可能的设计中，在本发明实施例第二方面的第一种实现方式中，所述检测装置还包括：确定单元，用于通过Monitor确定新的主OSD；触发单元，用于通过新的主OSD触发目标PG的恢复过程。

在一种可能的设计中，在本发明实施例第二方面的第二种实现方式中，确定单元具体用于：通过Monitor设置第一OSD的状态为down；通过Monitor更新OSDMAP并发送至其他OSD；通过Monitor选择其他OSD中的任意一个作为临时的主OSD；通过临时的主OSD确定第二OSD作为目标PG的新的主OSD。

在一种可能的设计中，在本发明实施例第二方面的第三种实现方式中，触发单元具体用于：通过第二OSD确定第一OSD上存储的目标数据；将目标数据写入到第二OSD。

从以上技术方案可以看出，本发明实施例具有以下优点：

当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过第一OSD向Monitor上报第一OSD异常；通过Monitor更新OSDMAP；通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD；通过Monitor向第一OSD发送反馈消息，以使得第一OSD根据所述反馈消息退出服务。本发明实施例中，通过发生故障的对象存储设备OSD向监视器主动上报异常，减少监控器节点发现故障OSD的时间间隔，进而尽快触发放置组PG的恢复过程，减少前端业务的中断时间。

附图说明

图1为本发明实施例中OSD故障的检测方法的一个实施例示意图；

图2为本发明实施例中OSD故障的检测装置的一个实施例示意图；

图3为本发明实施例中OSD故障的检测装置的另一个实施例示意图；

图4为本发明实施例中OSD故障的检测装置的另一个实施例示意图；

图5为本发明实施例提供的一种可能的电子设备的实施例示意图；

图6为本发明实施例提供的一种可能的计算机可读存储介质的实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于说明，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中OSD故障的检测方法的一个实施例包括：

101、当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过第一OSD向Monitor上报第一OSD异常。

当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过第一OSD向Monitor上报第一OSD异常。

具体的，分布式存储***中包括多个OSD和一个监视器Monitor，其中，Monitor为分布式存储***中的监控节点，负责监控和维护分布式存储***的状态；一个OSD对应一块磁盘，负责存储数据和元数据。

102、通过Monitor更新OSDMAP。

通过Monitor更新OSDMAP。其中，OSDMAP包含了分布式存储***中所有OSD的信息，每一个OSD作为分布式存储***的一个节点，所有OSD的改变都会反映到OSDMAP上，例如，进程退出，节点的加入和退出或者节点权重的变化。

103、通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD。

通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD。

可以理解的是，当Monitor上的OSDMAP发生变化(即更新)时，将更新后的OSDMAP发送至与变化相关的PG内的OSD，例如，一个新的OSD加入会导致一些PG的迁移，那么这些PG的OSD会得到通知。除此之外，Monitor也会随机的挑选一些OSD发送OSDMAP。在分布式存储***空闲时，可能需要更长的时间完成OSDMAP的更新，但是并不会影响OSD之间的状态一致性。若一个OSD没有得到新的OSDMAP，则表示该OSD不需要知晓新的OSDMAP变更。

需要说明的是，PG是处理读写请求的最小单元，一个PG分布于多个OSD上，例如，在2+1纠删中，一个PG分布在3个OSD上，其中一个为主OSD，其余为从OSD。同时一个OSD可以同时属于多个PG，具体此处不做限定。

104、通过Monitor向第一OSD发送反馈消息，以使得第一OSD根据反馈消息退出服务。

通过Monitor向第一OSD发送反馈消息，以使得第一OSD根据反馈消息退出服务。第一OSD在接收到Monitor发送的反馈消息，确定Monitor已经获取到第一OSD异常的情况，可以退出服务，便于后续触发PG的恢复过程。

本发明实施例中，通过发生故障的对象存储设备OSD向监视器主动上报异常，减少监控器节点发现故障OSD的时间间隔，进而尽快触发放置组PG的恢复过程，减少前端业务的中断时间。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的OSD故障的检测方法的可选实施例中，在所述通过所述Monitor向所述第一OSD发送反馈消息之后，所述方法还包括：

通过所述Monitor确定新的主OSD；

通过所述新的主OSD触发所述目标PG的恢复过程。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的OSD故障的检测方法的可选实施例中，所述通过所述Monitor确定新的主OSD包括：

通过所述Monitor设置所述第一OSD的状态为down；

通过所述Monitor更新OSDMAP并将更新后的OSDMAP发送至所述其他OSD；

通过所述Monitor选择所述其他OSD中的任意一个作为临时的主OSD；

通过所述临时的主OSD根据更新确定第二OSD作为所述目标PG的新的主OSD。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的OSD故障的检测方法的可选实施例中，所述通过所述新的主OSD触发所述目标PG的恢复过程包括：

通过所述第二OSD确定所述第一OSD上存储的目标数据；

将所述目标数据写入到所述第二OSD。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的OSD故障的检测方法的可选实施例中，所述方法还包括：

当所述第一OSD在预置时长内未获取到所述反馈消息时，控制所述第一OSD退出服务；

通过所述目标PG内的其他OSD进行心跳检测。

以上对本发明中OSD故障的检测方法进行说明，以下对执行上述OSD故障的检测方法的检测装置进行说明。

请参阅图2，本发明实施例中OSD故障的检测装置的一个实施例包括：

上报单元201，当监视器Monitor检测到第一对象存储设备OSD发生异常时，用于通过所述第一OSD向所述Monitor上报所述第一OSD异常；

更新单元202，用于通过所述Monitor更新OSDMAP；

第一发送单元203，用于通过所述Monitor将更新后的OSDMAP发送至所述第一OSD所属的目标放置组PG内的其他OSD；

第二发送单元204，用于通过所述Monitor向所述第一OSD发送反馈消息，以使得所述第一OSD根据所述反馈消息退出服务。

请参阅图3，本发明实施例中OSD故障的检测装置的另一个实施例包括：

上报单元301，当监视器Monitor检测到第一对象存储设备OSD发生异常时，用于通过所述第一OSD向所述Monitor上报所述第一OSD异常；

更新单元302，用于通过所述Monitor更新OSDMAP；

第一发送单元303，用于通过所述Monitor将更新后的OSDMAP发送至所述第一OSD所属的目标放置组PG内的其他OSD；

第二发送单元304，用于通过所述Monitor向所述第一OSD发送反馈消息，以使得所述第一OSD根据所述反馈消息退出服务。

可选的，检测装置还包括：

确定单元305，用于通过所述Monitor确定新的主OSD；

触发单元306，用于通过所述新的主OSD触发所述目标PG的恢复过程。

可选的，确定单元305具体用于：

通过所述Monitor设置所述第一OSD的状态为down；

通过所述临时的主OSD确定第二OSD作为所述目标PG的新的主OSD。

可选的，触发单元306具体用于：

通过所述第二OSD确定所述第一OSD上存储的目标数据；

将所述目标数据写入到所述第二OSD。

可选的，检测装置还包括：

控制单元307，当所述第一OSD在预置时长内未获取到所述反馈消息时，用于控制所述第一OSD退出服务；

检测单元308，用于通过所述目标PG内的其他OSD进行心跳检测。

请参阅图4，本发明实施例中OSD故障的检测装置400一个实施例，包括：

输入装置401、输出装置402、处理器403和存储器404(其中处理器403的数量可以一个或多个，图4中以一个处理器403为例)。在本发明的一些实施例中，输入装置401、输出装置402、处理器403和存储器404可通过总线或其它方式连接，其中，图4中以通过总线连接为例。

其中，通过调用存储器404存储的操作指令，处理器403，用于执行如下步骤：

当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过第一OSD向Monitor上报第一OSD异常；

通过Monitor更新OSDMAP；

通过Monitor将更新后的OSDMAP发送至第一OSD所属的目标放置组PG内的其他OSD；

通过Monitor向第一OSD发送反馈消息，以使得第一OSD根据反馈消息退出服务。

可选的，通过调用存储器404存储的操作指令，处理器403，还用于执行如下步骤：

通过Monitor确定新的主OSD；

通过新的主OSD触发目标PG的恢复过程。

通过Monitor设置第一OSD的状态为down；

通过Monitor更新OSDMAP并将更新后的OSDMAP发送至其他OSD；

通过Monitor选择其他OSD中的任意一个作为临时的主OSD；

通过临时的主OSD根据更新确定第二OSD作为目标PG的新的主OSD。

通过第二OSD确定第一OSD上存储的目标数据；

将目标数据写入到第二OSD。

当第一OSD在预置时长内未获取到反馈消息时，控制第一OSD退出服务；

通过目标PG内的其他OSD进行心跳检测。

请参阅图5，图5为本发明实施例提供的电子设备的实施例示意图。

如图5所示，本发明实施例提供了一种电子设备500，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现以下步骤：

通过Monitor更新OSDMAP；

在具体实施过程中，处理器520执行计算机程序511时，可以实现图1对应的实施例中任一实施方式。

由于本实施例所介绍的电子设备为实施本发明实施例中OSD故障的检测方法所采用的设备，故而基于本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍，只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明所欲保护的范围。

请参阅图6，图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图6所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：

通过Monitor更新OSDMAP；

在具体实施过程中，该计算机程序611被处理器执行时可以实现图1对应的实施例中任一实施方式。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上对本发明所提供的技术方案进行了详细介绍，本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种OSD故障的检测方法，其特征在于，应用于分布式存储***，包括：

当监视器Monitor检测到第一对象存储设备OSD发生异常时，通过所述第一OSD向所述Monitor上报所述第一OSD异常；

通过所述Monitor更新OSDMAP；

通过所述Monitor将更新后的OSDMAP发送至所述第一OSD所属的目标放置组PG内的其他OSD；

通过所述Monitor向所述第一OSD发送反馈消息，以使得所述第一OSD根据所述反馈消息退出服务。

2.根据权利要求1所述的检测方法，其特征在于，在所述通过所述Monitor向所述第一OSD发送反馈消息之后，所述方法还包括：

通过所述Monitor确定新的主OSD；

通过所述新的主OSD触发所述目标PG的恢复过程。

3.根据权利要求2所述的检测方法，其特征在于，所述通过所述Monitor确定新的主OSD包括：

通过所述Monitor设置所述第一OSD的状态为down；

4.根据权利要求3所述的检测方法，其特征在于，所述通过所述新的主OSD触发所述目标PG的恢复过程包括：

通过所述第二OSD确定所述第一OSD上存储的目标数据；

将所述目标数据写入到所述第二OSD。

5.根据权利要求1-4任一所述的检测方法，其特征在于，所述方法还包括：

通过所述目标PG内的其他OSD进行心跳检测。

6.一种OSD故障的检测装置，其特征在于，应用于分布式存储***，包括：

上报单元，当监视器Monitor检测到第一对象存储设备OSD发生异常时，用于通过所述第一OSD向所述Monitor上报所述第一OSD异常；

更新单元，用于通过所述Monitor更新OSDMAP；

第一发送单元，用于通过所述Monitor将更新后的OSDMAP发送至所述第一OSD所属的目标放置组PG内的其他OSD；

第二发送单元，用于通过所述Monitor向所述第一OSD发送反馈消息，以使得所述第一OSD根据所述反馈消息退出服务。

7.根据权利要求6所述的检测装置，其特征在于，所述检测装置还包括：

确定单元，用于通过所述Monitor确定新的主OSD；

触发单元，用于通过所述新的主OSD触发所述目标PG的恢复过程。

8.根据权利要求7所述的检测装置，其特征在于，所述确定单元具体用于：

通过所述Monitor设置所述第一OSD的状态为down；

9.根据权利要求8所述的检测装置，其特征在于，所述触发单元具体用于：

通过所述第二OSD确定所述第一OSD上存储的目标数据；

将所述目标数据写入到所述第二OSD。

10.根据权利要求6-9任一所述的检测装置，其特征在于，所述检测装置还包括：

控制单元，当所述第一OSD在预置时长内未获取到所述反馈消息时，用于控制所述第一OSD退出服务；

检测单元，用于通过所述目标PG内的其他OSD进行心跳检测。