CN104158843A - 分布式文件存储***的存储单元失效检测方法及装置 - Google Patents

分布式文件存储***的存储单元失效检测方法及装置 Download PDF

Info

Publication number
CN104158843A
CN104158843A CN201410333913.5A CN201410333913A CN104158843A CN 104158843 A CN104158843 A CN 104158843A CN 201410333913 A CN201410333913 A CN 201410333913A CN 104158843 A CN104158843 A CN 104158843A
Authority
CN
China
Prior art keywords
node
distributed file
storage system
memory cell
file storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410333913.5A
Other languages
English (en)
Other versions
CN104158843B (zh
Inventor
李璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Toyou Feiji Electronics Co., Ltd.
Original Assignee
SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd filed Critical SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410333913.5A priority Critical patent/CN104158843B/zh
Publication of CN104158843A publication Critical patent/CN104158843A/zh
Application granted granted Critical
Publication of CN104158843B publication Critical patent/CN104158843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式文件存储***的存储单元失效检测方法,方法包括:依次获取各个节点的存储单元的运行标识;在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元,并继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识。本发明还公开了一种分布式文件存储***的存储单元失效检测装置。本发明分布式文件存储***的存储单元失效检测方法和装置,通过依次获取各个节点中存储单元的运行标识,以确定失效存储单元并记录,可以有效的检测出分布式文件存储***的节点中的失效存储单元,以供用户及时对失效的存储单元进行维护,保证了分布式文件存储***的可靠性。

Description

分布式文件存储***的存储单元失效检测方法及装置
技术领域
本发明涉及分布式文件***失效检测领域,尤其涉及分布式文件存储***的存储单元失效检测方法及装置。
背景技术
近年来,网络分布式存储已经成为存储技术发展的新趋势。分布式文件***是构建大规模的分布式存储***必不可少的组成部分。由于数据是分布在不同存储节点的存储单元上的,即使某几个存储单元失效不可用时,由于这些数据在其他节点的某些存储单元上依然存在,所以访问节点依然可以正常访问数据,这就提供了数据的高可靠性。虽然数据在其它存储单元上有备份存储,但是当失效的存储单元不断的累积增加时,可能会导致数据的丢失,进而导致数据不能正常访问,分布式文件存储***失效不可用。
因此,亟需提供一种检测存储单元失效的方案,以及时发现分布式文件存储***中的失效存储单元,从而便于进行存储单元的及时更换,保证分布式文件存储***的高可靠性。
发明内容
本发明的主要目的在于解决分布式文件存储***不能检测失效存储单元的技术问题。
为实现上述目的,本发明提供的一种分布式文件存储***的存储单元失效检测方法,所述分布式文件存储***的存储单元失效检测方法包括以下步骤:
依次获取各个节点的存储单元的运行标识;
在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元,并继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识。
优选地,所述在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元包括:
在存储单元的运行标识获取失败时,重启该存储单元;
在预设的第一时间间隔内,若存储单元重启失败,记录该存储单元为失效存储单元。
优选地,所述在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元,并继续依次获取该节点中其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识的步骤之后,所述分布式文件存储***的存储单元失效检测方法还包括:
确定分布式文件存储***中所述失效存储单元的数量;
在分布式文件存储***中所述失效存储单元的数量大于第一阈值时,确定所述分布式文件存储***失效。
优选地,所述依次获取各个节点的存储单元的运行标识的步骤之前,所述分布式文件存储***的存储单元失效检测方法还包括:
控制分布式文件存储***中的节点之间相互发送检测数据包;
依次将分布式文件存储***中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
在预设的第一时间间隔之内,确定未接收到响应数据包的第一节点的数量,所述反馈数据包是所述第二节点基于所述第一节点发送的检测数据包而反馈的;
在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽。
优选地,所述在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽的步骤之后,所述分布式文件存储***的存储单元失效检测方法还包括:
确定分布式文件存储***中所述失效节点的数量;
在分布式文件存储***中所述失效节点的数量小于预设的第三阈值时,确定所述分布式文件存储***有效。
此外,为实现上述目的,本发明还提供一种分布式文件存储***的存储单元失效检测装置,所述分布式文件存储***的存储单元失效检测装置包括:
获取模块,用于依次获取各个节点的存储单元的运行标识,以及用于在存储单元的运行标识获取失败时,继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识;
记录模块,用于在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元。
优选地,所述记录模块包括:
重启单元,用于在存储单元的运行标识获取失败时,重启该存储单元;
记录单元,用于在预设的第一时间间隔内,若存储单元重启失败,记录该存储单元为失效存储单元。
优选地,所述分布式文件存储***的存储单元失效检测装置还包括:
第一确定模块,用于获取分布式文件存储***中所述失效存储单元的数量;
第二确定模块,用于在分布式文件存储***中所述失效存储单元的数量大于第一阈值时,确定所述分布式文件存储***失效。
优选地,所述分布式文件存储***的存储单元失效检测装置还包括:
控制模块,用于控制分布式文件存储***中的节点之间相互发送检测数据包;
节点有效性检测模块,用于依次将分布式文件存储***中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
第三确定模块,用于在预设的第一时间间隔之内,确定未接收到响应数据包的第一节点的数量,所述反馈数据包是所述第二节点基于所述第一节点发送的检测数据包而反馈的;
屏蔽模块,用于在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽。
优选地,所述分布式文件存储***的存储单元失效检测装置还包括:
第四确定模块,用于确定分布式文件存储***中所述失效节点的数量;
第五确定模块,用于在分布式文件存储***中所述失效节点的数量小于预设的第三阈值时,确定所述分布式文件存储***有效。
本发明的分布式文件存储***的存储单元失效检测方法和装置,通过依次获取各个节点中存储单元的运行标识,以确定失效存储单元并记录,可以有效的检测出分布式文件存储***的节点中的失效存储单元,以供用户及时对失效的存储单元进行维护,保证了分布式文件存储***的可靠性。
附图说明
图1为本发明分布式文件存储***的存储单元失效检测方法第一实施例的流程示意图;
图2为本发明分布式文件存储***的存储单元失效检测方法第二实施例的流程示意图;
图3为本发明分布式文件存储***的存储单元失效检测方法第三实施例的流程示意图;
图4为本发明分布式文件存储***的存储单元失效检测方法第四实施例的流程示意图;
图5为本发明分布式文件存储***的存储单元失效检测方法第五实施例的流程示意图;
图6为本发明分布式文件存储***的存储单元失效检测装置第一实施例的功能模块示意图;
图7为本发明分布式文件存储***的存储单元失效检测装置第二实施例的功能模块示意图;
图8为本发明分布式文件存储***的存储单元失效检测装置第三实施例的功能模块示意图;
图9为本发明分布式文件存储***的存储单元失效检测装置第四实施例的功能模块示意图;
图10为本发明分布式文件存储***的存储单元失效检测装置第五实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种分布式文件存储***的存储单元失效检测方法(以下描述中简称为存储单元失效检测方法)。
参照图1,图1为本发明分布式文件存储***的存储单元失效检测方法第一实施例的流程示意图。
在第一实施例中,该存储单元失效检测方法包括:
步骤S10,依次获取各个节点的存储单元的运行标识;
分布式文件存储***中每个节点包括多个存储单元,每个存储单元在运行时,有唯一对应的运行标识(例如运行进程的进程号)。分布式文件存储***运行时,各个节点工作,节点中的存储单元运行工作,则在节点中能获取到该存储单元对应的运行标识;若节点中某个存储单元不运行工作,则在节点中获取不到该存储单元对应的运行标识。通过依次获取各个节点的存储单元的运行标识,来确定节点中运行工作的存储单元,以及不运行工作的存储单元,即存在故障的存储单元。
步骤S20,在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元,并继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识。
在有存储单元的运行标识获取失败时,即获取不到该存储单元的运行标识时,说明该存储单元没有运行,存在故障而不能使用,将该存储单元记录为失效存储单元;并继续获取该存储单元所在节点的其它存储单元的运行标识或其它节点的存储单元的运行标识。在记录失效存储单元之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,提醒及时对失效存储单元进行维修或更换,以保证分布式文件存储***的可靠性。
本实施例提出的存储单元失效检测方法,通过依次获取各个节点中存储单元的运行标识,以确定失效存储单元并记录,可以有效的检测出分布式文件存储***的节点中的失效存储单元,以供用户及时对失效的存储单元进行维护,保证了分布式文件存储***的可靠性。
参照图2,图2为本发明分布式文件存储***的存储单元失效检测方法第二实施例的流程示意图。
第二实施例的方案基于第一实施例的方案,在第二实施例中,该存储单元失效检测方法的步骤S20中在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元包括:
步骤S21,在存储单元的运行标识获取失败时,重启该存储单元;
由于有些存储单元不能运行工作的故障问题,可通过重启解决,使其恢复正常运行工作,因此在有存储单元的运行标识获取失败时,先重启该存储单元,以使部分存储单元可以立即恢复正常运行,使分布式文件存储***保持尽量多的存储单元运行工作,保证分布式文件存储***运行的最大可靠性,并减少了维护人员的维护工作量。
步骤S22,在预设的第一时间间隔内,若存储单元重启失败,记录该存储单元为失效存储单元。
通常能够通过重启解决故障的存储单元能在规定时间(第一时间)内重启成功,不能通过重启解决故障的存储单元不能在规定内重启成功。对故障的存储单元执行重启操作的第一时间间隔后返回重启操作的结果,若返回的重启结果为重启失败(即该存储单元在预设的第一时间间隔之内重启失败),则记录该存储单元为失效存储单元;若返回的重启结果为重启成功(即该存储单元在预设的第一时间间隔之内重启成功),则该存储单元恢复正常运行,此时能够获取到该存储单元的运行标识,进而判定该存储单元是有效的,则继续依次获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识。
本实施例的存储单元失效检测方法,在存储单元的运行标识获取失败时,对存储单元进行重启,以使可以通过重启解决故障问题的存储单元立即通过重启恢复正常运行,将不能重启解决故障问题的存储度单元记录为失效存储单元,使分布式文件存储***保持尽量多的存储单元运行工作,保证分布式文件存储***的可靠性,并减少维护人员的维护工作量。
参照图3,图3为本发明分布式文件存储***的存储单元失效检测方法第三实施例的流程示意图。
第三实施例的方案基于第一实施例或第二实施例的方案,在第三实施例中,在步骤S20之后,存储单元失效检测方法还包括:
步骤S30,确定分布式文件存储***中所述失效存储单元的数量;
在分布式文件存储***中各个节点的存储单元的运行标识依次获取完成并记录出所有失效存储单元后,确定记录的失效存储单元的总数量。
步骤S40,在分布式文件存储***中所述失效存储单元的数量大于第一阈值时,确定所述分布式文件存储***失效。
预设的第一阈值优选为分布式文件存储***中所有可用的节点(即未失效的节点)的存储单元的总数的一半。分布式文件存储***中所述失效存储单元的数量超过第一阈值时,则认为分布式文件存储***的数据传输和访问容易出现异常(不能访问数据或访问的数据不正确等等),分布式文件存储***的数据的可靠性低,此时确定分布式文件存储***失效,停止运行。
本实施例的存储单元失效检测方法,在分布式文件存储***中的失效存储单元的数量超过第一阈值时,将分布式文件存储***确定为失效,停止分布式文件存储***运行,避免分布式文件存储***继续运行造成数据丢失和访问数据异常。
参照图4,图4为本发明分布式文件存储***的存储单元失效检测方法第四实施例的流程示意图。
第四实施例的方案基于第一至第三实施例中任一实施例的方案,在第四实施例中,在步骤S10之前,存储单元失效检测方法还包括:
步骤S50,控制分布式文件存储***中的节点之间相互发送检测数据包;
在本实施例中,可控制各个节点之间互相发送检测数据包,以保证分布式文件存储***中各个节点之间运行状态的相互检测。
步骤S60,依次将分布式文件存储***中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
例如,在分布式文件存储***中有A、B、C、D四个节点,将B节点作为第二节点,则A、C、D三个节点均为第一节点,判断B节点是否有效,在判断B节点是否有效后,可按照预设的顺序继续判断C节点是否有效,依次类推直至检测完所有的节点。
步骤S70,确定在预设的第一时间间隔之内,未接收到响应数据包的第一节点的数量,所述反馈数据包是所述第二节点基于第一节点发送的检测数据包而反馈的;
在本实施例中,第二节点在接收到数据包时,对接收到的数据包进行解析以确定接收到的数据包的类型,在接收到的数据包为检测数据包时,向所述第一节点反馈响应数据包。由于存在通信链路故障的情况,则第一节点未接收到第二节点发送的反馈数据包括多种情况:a、通信链路出现故障;b、第一节点出现故障并未发送检测数据包;c、第二节点出现故障并未发送反馈数据包。
在本实施例中,确定未接收到第二节点反馈的响应数据包的第一节点的数量的步骤可通过以下方案实现:a、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录第二节点相对于第一节点为不可信节点,并记录第一节点的标识(如名称以及代码等),则该记录的第一节点的标识的数量即为未接收到第二节点反馈的响应数据包的第一节点的数量;b、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录所述第二节点为不可信节点。该记录不可信节点的步骤可通过多种方式实现,例如,建立可信节点数据库以及不可信节点数据库,在将第二节点记录为不可信节点时,将其标识(如名称以及代码等)添加至不可信节点数据库中;或者,在将第二节点记录为不可信节点时,给所述第二节点添加不可信标识,并获取记录第二节点为不可信节点的次数,该记录第二节点为不可信节点的次数即为未接收到第二节点反馈的响应数据包的第一节点的数量。
步骤S80,在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽。
失效节点已经不能使用,对失效节点中的存储单元失效检测已经没有意义,而且节点中存储单元的数量较多,为了提高了存储单元失效检测方法的效率,因此本实施例将检测到的失效节点进行屏蔽,使得不获取失效节点的存储单元的运行标识,避免无意义的检测。第二阀值可由用户进行设定,优选方案为第一节点的数量的一半,以保证在大部分第一节点未接收到第二节点反馈的响应数据包时,记录第二节点为失效节点,并将失效节点屏蔽。
本实施例提出的储存单元失效检测方法,在依次获取各个节点的存储单元的运行标识之前,先检测出分布式文件存储***中的失效节点并将失效节点屏蔽掉,不获取失效节点的存储单元的运行标识,即不对失效节点进行存储单元失效检测,大幅提高了存储单元失效检测的效率。
参照图5,图5为本发明分布式文件存储***的存储单元失效检测方法第五实施例的流程示意图。
第五实施例基于第四实施例的方案,在第五实施例中,在步骤S80之后并在步骤S10之前,存储单元失效检测方法还包括:
步骤S90,确定分布式文件存储***中所述失效节点的数量;
步骤S100,在分布式文件存储***中所述失效节点的数量小于预设的第三阈值时,确定所述分布式文件存储***有效。
在本实施例中,预设的第三阀值优选为分布式文件存储***中节点数量的一半,在分布式文件存储***中节点大部分不可用(即存在大部分失效节点)时,则认为该分布式文件存储***已不可进行数据传输,确定该分布式文件存储***失效,此时分布式文件存储***已经不可用,再对分布式文件存储***的存储单元的失效检测已经没有了意义。在分布式文件存储***中失效节点的数量小于第三阈值时,分布式文件存储***才确定为有效,此时对分布式文件存储***的存储单元的失效检测才有意义。在记录失效节点以及确定该分布式文件存储***失效之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,要保证失效节点和分布式文件存储***及时恢复正常。
本实施例的存储单元失效检测方法,在依次获取各个节点的存储单元的运行标识之前,先确定分布式文件存储***是否可用,在分布式文件存储***可用时才对分布式文件存储***的节点的存储单元进行失效检测,避免了在分布式文件存储***已经失效时,对分布式文件存储***做无意义的存储单元失效检测。
本发明还提供一种分布式文件存储***的存储单元失效检测装置(以下描述中简称为存储单元失效检测装置)。
参照图6,图6为本发明分布式文件存储***的存储单元失效检测装置第一实施例的功能模块示意图。
在第一实施例中,所述存储单元失效检测装置包括:
获取模块10,用于依次获取各个节点的存储单元的运行标识,以及用于在存储单元的运行标识获取失败时,继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识;
分布式文件存储***中每个节点包括多个存储单元,每个存储单元在运行时,有唯一对应的运行标识(例如运行进程的进程号)。分布式文件存储***运行时,各个节点工作,节点中的存储单元运行工作,则在节点中能获取到该存储单元对应的运行标识;若节点中某个存储单元不运行工作,则在节点中获取不到该存储单元对应的运行标识。通过获取模块10依次获取各个节点的存储单元的运行标识,来确定节点中运行工作的存储单元,以及不运行工作的存储单元,即存在故障的存储单元。
记录模块20,用于在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元。
在获取模块10获取存储单元的运行标识失败时,即获取模块10获取不到该存储单元的运行标识时,说明该存储单元没有运行,存在故障而不能使用,则记录模块20将该存储单元记录为失效存储单元;并且获取模块10继续获取该存储单元所在节点的其它存储单元的运行标识或其它节点的存储单元的运行标识。在记录模块20记录失效存储单元之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,提醒及时对失效存储单元进行维修或更换,以保证分布式文件存储***的可靠性。
本实施例提出的存储单元失效检测装置,通过获取模块10依次获取各个节点中存储单元的运行标识,以确定失效存储单元并通过记录模块20进行记录,可以有效的检测出分布式文件存储***的节点中的失效存储单元,以供用户及时对失效的存储单元进行维护,保证了分布式文件存储***的可靠性。
参照图7,图7为本发明分布式文件存储***的存储单元失效检测装置第二实施例的功能模块示意图。
第二实施例的方案基于第一实施例的方案,在第二实施例中,所述存储单元失效检测装置的记录模块20包括:
重启单元21,用于在存储单元的运行标识获取失败时,重启该存储单元;
由于有些存储单元不能运行工作的故障问题,可通过重启解决,使其恢复正常运行工作,因此在获取模块10获取存储单元的运行标识失败时,重启单元21重启该存储单元,以使有些存储单元可以立即恢复正常运行,使分布式文件存储***保持尽量多的存储单元运行工作,保证分布式文件存储***运行的最大可靠性,并减少了维护人员的维护工作量。
记录单元22,用于在预设的第一时间间隔内,若存储单元重启失败,记录该存储单元为失效存储单元。
通常能够通过重启单元21重启解决故障的存储单元能在规定时间(第一时间)内重启成功,不能通过重启单元21重启解决故障的存储单元不能在规定内重启成功。对故障的存储单元执行重启操作的第一时间间隔后返回重启操作的结果,若返回的重启结果为重启失败(即该存储单元在预设的第一时间间隔之内重启失败),则记录单元22记录该存储单元为失效存储单元;若返回的重启结果为重启成功(即该存储单元在预设的第一时间间隔之内重启成功),则该存储单元恢复正常运行,此时获取模块10能够获取到该存储单元的运行标识,进而判定该存储单元是有效的,则获取模块10继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识。
本实施例的存储单元失效检测装置,在存储单元的运行标识获取失败时,重启单元21对存储单元进行重启,以使可以通过重启解决故障问题的存储单元立即通过重启恢复正常运行,记录单元22将不能重启解决故障问题的存储度单元记录为失效存储单元,使分布式文件存储***保持尽量多的存储单元运行工作,保证分布式文件存储***的可靠性,并减少维护人员的维护工作量。
参照图8,图8为本发明分布式文件存储***的存储单元失效检测装置第三实施例的功能模块示意图。
第三实施例的方案基于第一或第二实施例的方案,在第三实施例中,所述存储单元失效检测装置还包括:
第一确定模块30,用于获取分布式文件存储***中所述失效存储单元的数量;
在分布式文件存储***中获取模块10依次获取完成各个节点的存储单元的运行标识,且记录模块20记录出所有失效储单元后,第一确定模块30确定记录的失效存储单元的总数量。
第二确定模块40,用于在分布式文件存储***中所述失效存储单元的数量大于第一阈值时,确定所述分布式文件存储***失效。
预设的第一阈值优选为分布式文件存储***中所有可用的节点(即未失效的节点)的存储单元的总数的一半。第二确定模块40在分布式文件存储***中所述失效存储单元的数量超过第一阈值时,则认为分布式文件存储***的数据传输和访问容易出现异常(不能访问数据或访问的数据不正确等等),分布式文件存储***的数据的可靠性低,此时确定分布式文件存储***失效,停止运行。
参照图9,图9为本发明分布式文件存储***的存储单元失效检测装置第四实施例的功能模块示意图。
第四实施例的方案基于第一至第三实施例中任一实施例的方案,在第四实施例中,所述存储单元失效检测装置还包括:
控制模块50,用于控制分布式文件存储***中的节点之间相互发送检测数据包;
在本实施例中,控制模块50可控制各个节点之间互相发送检测数据包,以保证分布式文件存储***中各个节点之间运行状态的相互检测。
节点有效性检测模块60,用于依次将分布式文件存储***中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
例如,在分布式文件存储***中有A、B、C、D四个节点,节点有效性检测模块60将B节点作为第二节点,则A、C、D三个节点均为第一节点,判断B节点是否有效,在判断B节点是否有效后,节点有效性检测模块60可按照预设的顺序继续判断C节点是否有效,依次类推直至检测完所有的节点。
第三确定模块70,用于在预设的第一时间间隔之内,确定未接收到响应数据包的第一节点的数量,所述反馈数据包是所述第二节点基于所述第一节点发送的检测数据包而反馈的;
在本实施例中,第二节点在接收到数据包时,对接收到的数据包进行解析以确定接收到的数据包的类型,在接收到的数据包为检测数据包时,向所述第一节点反馈响应数据包。由于存在通信链路故障的情况,则第一节点未接收到第二节点发送的反馈数据包括多种情况:a、通信链路出现故障;b、第一节点出现故障并未发送检测数据包;c、第二节点出现故障并未发送反馈数据包。
在本实施例中,第三确定模块70确定未接收到第二节点反馈的响应数据包的第一节点的数量的步骤可通过以下方案实现:a、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录第二节点相对于第一节点为不可信节点,并记录第一节点的标识(如名称以及代码等),则该记录的第一节点的标识的数量即为未接收到第二节点反馈的响应数据包的第一节点的数量;b、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录所述第二节点为不可信节点。该记录不可信节点的步骤可通过多种方式实现,例如,建立可信节点数据库以及不可信节点数据库,在将第二节点记录为不可信节点时,将其标识(如名称以及代码等)添加至不可信节点数据库中;或者,在将第二节点记录为不可信节点时,给所述第二节点添加不可信标识,并获取记录第二节点为不可信节点的次数,该记录第二节点为不可信节点的次数即为未接收到第二节点反馈的响应数据包的第一节点的数量。
屏蔽模块80,用于在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽。
失效节点已经不能使用,对失效节点中的存储单元失效检测已经没有意义,而且节点中存储单元的数量较多,为了提高了存储单元失效检测方法的效率,因此屏蔽模块80将检测到的失效节点进行屏蔽,使得不获取失效节点的存储单元的运行标识,避免无意义的检测。第二阀值可由用户进行设定,优选方案为第一节点的数量的一半,以保证在大部分第一节点未接收到第二节点反馈的响应数据包时,屏蔽模块80记录第二节点为失效节点,并将失效节点屏蔽。
本实施例提出的储存单元失效检测装置,在获取模块10依次获取各个节点的存储单元的运行标识之前,先检测出分布式文件存储***中的失效节点并通过屏蔽模块80将失效节点屏蔽掉,不获取失效节点的存储单元的运行标识,即不对失效节点进行存储单元失效检测,大幅提高了存储单元失效检测的效率。
参照图10,图10为本发明分布式文件存储***的存储单元失效检测装置第五实施例的功能模块示意图。
第五实施例的方案基于第四实施例的方案,在第五实施例中,所述存储单元失效检测装置还包括:
第四确定模块90,用于确定分布式文件存储***中所述失效节点的数量;
第五确定模块100,用于在分布式文件存储***中所述失效节点的数量小于预设的第三阈值时,确定所述分布式文件存储***有效。
在本实施例中,预设的第三阀值优选为分布式文件存储***中节点数量的一半,在分布式文件存储***中节点大部分不可用(即存在大部分失效节点)时,则第五确定模块100认为该分布式文件存储***已不可进行数据传输,确定该分布式文件存储***失效,此时分布式文件存储***已经不可用,再对分布式文件存储***的存储单元的失效检测已经没有了意义。在分布式文件存储***中失效节点的数量小于第三阈值时,第五确定模块100才确定分布式文件存储***有效,此时对分布式文件存储***的存储单元的失效检测才有意义。在记录失效节点以及确定该分布式文件存储***失效之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,要保证失效节点和分布式文件存储***及时恢复正常。
本实施例的存储单元失效检测装置,在获取模块10依次获取各个节点的存储单元的运行标识之前,先通过第五确定模块100确定分布式文件存储***是否可用,在分布式文件存储***确定可用时才对分布式文件存储***的节点的存储单元进行失效检测,避免了在分布式文件存储***已经失效时,对分布式文件存储***做无意义的存储单元失效检测。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种分布式文件存储***的存储单元失效检测方法,其特征在于,所述分布式文件存储***的存储单元失效检测方法包括以下步骤:
依次获取各个节点的存储单元的运行标识;
在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元,并继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识。
2.如权利要求1所述的分布式文件存储***的存储单元失效检测方法,其特征在于,所述在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元包括:
在存储单元的运行标识获取失败时,重启该存储单元;
在预设的第一时间间隔内,若存储单元重启失败,记录该存储单元为失效存储单元。
3.如权利要求1所述的分布式文件存储***的存储单元失效检测方法,其特征在于,所述在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元,并继续依次获取该节点中其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识的步骤之后,所述分布式文件存储***的存储单元失效检测方法还包括:
确定分布式文件存储***中所述失效存储单元的数量;
在分布式文件存储***中所述失效存储单元的数量大于第一阈值时,确定所述分布式文件存储***失效。
4.如权利要求1-3中任一项所述的分布式文件存储***的存储单元失效检测方法,其特征在于,所述依次获取各个节点的存储单元的运行标识的步骤之前,所述分布式文件存储***的存储单元失效检测方法还包括:
控制分布式文件存储***中的节点之间相互发送检测数据包;
依次将分布式文件存储***中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
在预设的第一时间间隔之内,确定未接收到响应数据包的第一节点的数量,所述反馈数据包是所述第二节点基于所述第一节点发送的检测数据包而反馈的;
在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽。
5.如权利要求4所述的分布式文件存储***的存储单元失效检测方法,其特征在于,所述在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽的步骤之后,所述分布式文件存储***的存储单元失效检测方法还包括:
确定分布式文件存储***中所述失效节点的数量;
在分布式文件存储***中所述失效节点的数量小于预设的第三阈值时,确定所述分布式文件存储***有效。
6.一种分布式文件存储***的存储单元失效检测装置,其特征在于,所述分布式文件存储***的存储单元失效检测装置包括:
获取模块,用于依次获取各个节点的存储单元的运行标识,以及用于在存储单元的运行标识获取失败时,继续获取该存储单元所在节点的其它存储单元的运行标识,或者,依次获取其它节点的存储单元的运行标识;
记录模块,用于在存储单元的运行标识获取失败时,记录该存储单元为失效存储单元。
7.如权利要求6所述的分布式文件存储***的存储单元失效检测装置,其特征在于,所述记录模块包括:
重启单元,用于在存储单元的运行标识获取失败时,重启该存储单元;
记录单元,用于在预设的第一时间间隔内,若存储单元重启失败,记录该存储单元为失效存储单元。
8.如权利要求6所述的分布式文件存储***的存储单元失效检测装置,其特征在于,所述分布式文件存储***的存储单元失效检测装置还包括:
第一确定模块,用于获取分布式文件存储***中所述失效存储单元的数量;
第二确定模块,用于在分布式文件存储***中所述失效存储单元的数量大于第一阈值时,确定所述分布式文件存储***失效。
9.如权利要求6-8中任一项所述的分布式文件存储***的存储单元失效检测装置,其特征在于,所述分布式文件存储***的存储单元失效检测装置还包括:
控制模块,用于控制分布式文件存储***中的节点之间相互发送检测数据包;
节点有效性检测模块,用于依次将分布式文件存储***中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
第三确定模块,用于在预设的第一时间间隔之内,确定未接收到响应数据包的第一节点的数量,所述反馈数据包是所述第二节点基于所述第一节点发送的检测数据包而反馈的;
屏蔽模块,用于在未接收到响应数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点,并将所述第二节点屏蔽。
10.如权利要求9所述的分布式文件存储***的存储单元失效检测装置,其特征在于,所述分布式文件存储***的存储单元失效检测装置还包括:
第四确定模块,用于确定分布式文件存储***中所述失效节点的数量;
第五确定模块,用于在分布式文件存储***中所述失效节点的数量小于预设的第三阈值时,确定所述分布式文件存储***有效。
CN201410333913.5A 2014-07-14 2014-07-14 分布式文件存储***的存储单元失效检测方法及装置 Active CN104158843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410333913.5A CN104158843B (zh) 2014-07-14 2014-07-14 分布式文件存储***的存储单元失效检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410333913.5A CN104158843B (zh) 2014-07-14 2014-07-14 分布式文件存储***的存储单元失效检测方法及装置

Publications (2)

Publication Number Publication Date
CN104158843A true CN104158843A (zh) 2014-11-19
CN104158843B CN104158843B (zh) 2018-01-12

Family

ID=51884248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410333913.5A Active CN104158843B (zh) 2014-07-14 2014-07-14 分布式文件存储***的存储单元失效检测方法及装置

Country Status (1)

Country Link
CN (1) CN104158843B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912446A (zh) * 2016-04-29 2016-08-31 深圳市永兴元科技有限公司 分布式数据***失效检测处理方法及装置
CN105975212A (zh) * 2016-04-29 2016-09-28 深圳市永兴元科技有限公司 分布式数据***失效检测处理方法及装置
CN106649555A (zh) * 2016-11-08 2017-05-10 深圳市中博睿存科技有限公司 存储单元状态标记方法及分布式存储***
CN109213637A (zh) * 2018-11-09 2019-01-15 浪潮电子信息产业股份有限公司 分布式文件***集群节点的数据恢复方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101465880A (zh) * 2007-12-18 2009-06-24 卢森特技术有限公司 数据在分布式存储***中的可靠存储
CN102571845A (zh) * 2010-12-20 2012-07-11 南京中兴新软件有限责任公司 一种分布式存储***的数据存储方法及装置
CN103455395A (zh) * 2013-08-08 2013-12-18 华为技术有限公司 一种硬盘故障的检测方法及装置
CN103490919A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 故障管理***和故障管理方法
CN103500140A (zh) * 2013-09-27 2014-01-08 浪潮电子信息产业股份有限公司 一种快速获知分布式集群节点失效的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101465880A (zh) * 2007-12-18 2009-06-24 卢森特技术有限公司 数据在分布式存储***中的可靠存储
CN102571845A (zh) * 2010-12-20 2012-07-11 南京中兴新软件有限责任公司 一种分布式存储***的数据存储方法及装置
CN103455395A (zh) * 2013-08-08 2013-12-18 华为技术有限公司 一种硬盘故障的检测方法及装置
CN103490919A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 故障管理***和故障管理方法
CN103500140A (zh) * 2013-09-27 2014-01-08 浪潮电子信息产业股份有限公司 一种快速获知分布式集群节点失效的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912446A (zh) * 2016-04-29 2016-08-31 深圳市永兴元科技有限公司 分布式数据***失效检测处理方法及装置
CN105975212A (zh) * 2016-04-29 2016-09-28 深圳市永兴元科技有限公司 分布式数据***失效检测处理方法及装置
CN106649555A (zh) * 2016-11-08 2017-05-10 深圳市中博睿存科技有限公司 存储单元状态标记方法及分布式存储***
CN109213637A (zh) * 2018-11-09 2019-01-15 浪潮电子信息产业股份有限公司 分布式文件***集群节点的数据恢复方法、装置及介质
CN109213637B (zh) * 2018-11-09 2022-03-04 浪潮电子信息产业股份有限公司 分布式文件***集群节点的数据恢复方法、装置及介质

Also Published As

Publication number Publication date
CN104158843B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和***
CN104731670B (zh) 一种面向卫星的轮换式星载计算机容错***
CN103458086B (zh) 一种智能手机及其故障检测方法
CN105659215A (zh) 一种故障处理方法、相关装置及计算机
CN103491134B (zh) 一种监控容器的方法、装置与代理服务***
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储***及其方法
CN111478796B (zh) 一种ai平台的集群扩容异常处理方法
US7886181B2 (en) Failure recovery method in cluster system
CN104158843A (zh) 分布式文件存储***的存储单元失效检测方法及装置
CN103092724A (zh) 用于嵌入式电力终端的***自恢复方法
CN111901176B (zh) 故障确定方法、装置、设备及存储介质
CN103823708A (zh) 虚拟机读写请求处理的方法和装置
CN110659147B (zh) 一种基于模块自检行为的自修复方法和***
CN106874126A (zh) 一种软件开发中主进程异常检测方法
WO2023240944A1 (zh) 数据恢复方法、装置、电子设备及存储介质
CN115766402B (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN116015425B (zh) 光模块的控制方法和装置、存储介质及电子装置
CN105224426A (zh) 物理主机故障检测方法、装置及虚机管理方法、***
CN116737444A (zh) 一种数据库服务器故障处理方法及***
US10674337B2 (en) Method and device for processing operation for device peripheral
CN111104266A (zh) 访问资源的分配方法、装置、存储介质和电子设备
CN105843336A (zh) 具有多机柜管理模块的机柜及其韧体更新方法
CN101369238A (zh) Usb设备中异常监控复位处理方法
CN104915289B (zh) 一种金融应用***后台进程异常检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20141119

Assignee: Liu Yi

Assignor: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

Contract record no.: 2014440020487

Denomination of invention: Storage unit invalidation detecting method and device for distributed file storage system

License type: Common License

Record date: 20141230

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Liu Yi

Assignor: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

Contract record no.: 2014440020487

Date of cancellation: 20161025

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190904

Address after: 100089 Floor 1-4, No. 2 Building, No. 9 Courtyard, Dijin Road, Haidian District, Beijing

Patentee after: Beijing Toyou Feiji Electronics Co., Ltd.

Address before: 518000 Room 1402, Feiyada Science and Technology Building, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

TR01 Transfer of patent right