CN114168402A - 一种存储域的健康监测方法及装置 - Google Patents

一种存储域的健康监测方法及装置 Download PDF

Info

Publication number
CN114168402A
CN114168402A CN202111264360.9A CN202111264360A CN114168402A CN 114168402 A CN114168402 A CN 114168402A CN 202111264360 A CN202111264360 A CN 202111264360A CN 114168402 A CN114168402 A CN 114168402A
Authority
CN
China
Prior art keywords
state
storage domain
judging
health
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111264360.9A
Other languages
English (en)
Inventor
赵玉新
冯振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Smart Computing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Smart Computing Technology Co Ltd filed Critical Guangdong Inspur Smart Computing Technology Co Ltd
Priority to CN202111264360.9A priority Critical patent/CN114168402A/zh
Publication of CN114168402A publication Critical patent/CN114168402A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储域的健康监测方法及装置,获取存储域的存储域状态,存储域状态中包括存储域使用的网络状态、存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态中的一种或多种的组合,然后基于存储域状态来判定存储域的健康度状态,能够在用户发起问题反馈或工作人员发现之前时发现存储域的健康问题,能更快地发现存储域的不健康情况,还减少了工作量。

Description

一种存储域的健康监测方法及装置
技术领域
本发明涉及数据存储领域,特别是涉及一种存储域的健康监测方法及装置。
背景技术
CFS(Cloud File Storage,云文件存储)存储域是一种由多个node节点共用心跳盘和数据盘的云存储方案,当存储域的健康情况差时,会出现心跳盘无法正常格式化、数据盘无法正常访问、无法创建存储池以及存储域中的存储池或虚拟机无法工作等问题,所以存储域的健康情况对用户的操作和体验有较大的影响,现有技术在用户发起问题反馈或工作人员发现上述问题时,工作人员对存储域进行问题定位后才能发现存储域健康情况差的原因,存在发现存储域的健康情况差的速度慢以及工作人员的工作量大的问题。
发明内容
本发明的目的是提供一种存储域的健康监测方法及装置,能够在用户发起问题反馈或工作人员发现之前时发现存储域的健康问题,能更快地发现存储域的不健康情况,还减少了工作量。
为解决上述技术问题,本发明提供了一种存储域的健康监测方法,包括:
确定存储域的存储域状态,所述存储域状态包括所述存储域使用的网络状态、所述存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态中的一种或多种的组合;
根据所述存储域状态判定所述存储域的健康度状态,所述健康度状态包括健康状态和不健康状态。
优选的,在所述存储域状态包括所述节点状态时,确定存储域的存储域状态,包括:
判断所述存储域中的各所述node节点的网络是否均正常且各所述node节点是否均未断电且各所述node节点的agent服务是否均正常;
若均为是,则判定所述存储域中的各所述node节点的所述节点状态均正常;
否则,则判定所述存储域中的存在所述node节点的所述节点状态不正常;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述存储域中是否存在所述node节点的所述节点状态不正常;
若存在所述node节点的所述节点状态不正常,则判定所述健康度状态为不健康状态;
若不存在所述node节点的所述节点状态不正常,则判定所述健康度状态为健康状态。
优选的,在所述存储域状态包括所述网络状态时,确定存储域的存储域状态,包括:
获取所述存储域的通信配置文件;
判断所述通信配置文件中的通信配置信息是否为表征所述存储域的网络正常的通信配置信息;
若为表征所述存储域的网络正常的通信配置信息,则判定所述网络状态为正常状态;
若不为表征所述存储域的网络正常的通信配置信息,则判定所述网络状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述网络状态是否为正常状态;
若为正常状态,则判定所述健康度状态为健康状态;
若为异常状态,则判定所述健康度状态为不健康状态。
优选的,在所述存储域状态包括所述存储池状态时,确定存储域的存储域状态,包括:
判断所述存储池是否被卸载;
若没有被卸载,则判定所述存储池状态为正常状态;
若被卸载,则判断是否获取到用户卸载指令;
若未获取到所述用户卸载指令,则对所述存储池进行挂载,并判断所述存储池是否挂载成功;
若挂载成功,则判定所述存储池状态为正常状态;
若挂载失败,则判定所述存储池状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述存储池状态是否为正常状态;
若为正常状态,则判定所述健康度状态为健康状态;
若为异常状态,则判定所述健康度状态为不健康状态。
优选的,在所述存储域状态包括所述虚拟机状态时,确定存储域的存储域状态,包括:
判断所述存储域中所有的虚拟机是否均为关机状态;
若所有的所述虚拟机均为关机状态,则对预设虚拟机进行开机,并判断所述预设虚拟机是否开机成功;
若开机成功,则判定所述虚拟机状态为正常状态;
若开机失败,则判定所述虚拟机状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述虚拟机状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
优选的,在所述存储域状态包括所述心跳盘状态时,确定存储域的存储域状态,包括:
在确定所述心跳盘与所述数据盘之间的连接正常且所述数据盘状态为正常状态时,控制所述心跳盘生成预设第一指令并发送给所述数据盘;
判断所述心跳盘是否成功生成所述预设第一指令并发送给所述数据盘;
若成功生成所述预设第一指令并发送给所述数据盘,则判定所述心跳盘状态为正常状态,否则,判定所述心跳盘状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述心跳盘状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
优选的,在所述存储域状态包括所述心跳盘状态时,确定存储域的存储域状态,包括:
发送预设访问指令给所述心跳盘;
判断预设时间段内是否获取到所述心跳盘在接收到所述预设访问指令时生成的反馈信息;
若接收到所述反馈信息,则判定所述心跳盘状态为正常状态;
若未接收到所述反馈信息,则判定所述心跳盘状态为异常状态;
判断所述心跳盘状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
优选的,在所述存储域状态包括所述数据盘状态时,确定存储域的存储域状态,包括:
在确定所述心跳盘与所述数据盘之间的连接正常且所述心跳盘状态为正常状态时,控制所述心跳盘生成预设第二指令并发送给所述数据盘;
判断所述数据盘是否成功接收到所述心跳盘发送的所述预设第二指令;
若接收到所述预设第二指令,则判定所述数据盘状态为正常状态;
若未接收到所述预设第二指令,则判定所述数据盘状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述数据盘状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
优选的,在根据所述存储域状态判定所述存储域的健康度状态之后,还包括:
若所述存储域的健康度状态为不健康状态,确定所述存储域状态中存在不健康状态的状态类型;
获取包括所述状态类型的故障日志;
基于所述故障日志和预设日志与解决方案的关系确定所述存储域的健康度状态的解决方案。
本发明还提供一种存储域的健康监测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述的存储域的健康监测方法的步骤。
本发明提供了一种存储域的健康监测方法及装置,获取存储域的存储域状态,存储域状态中包括存储域使用的网络状态、存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态中的一种或多种的组合,然后基于存储域状态来判定存储域的健康度状态,能够在用户发起问题反馈或工作人员发现之前时发现存储域的健康问题,能更快地发现存储域的不健康情况,还减少了工作量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种存储域的健康监测方法的流程图;
图2为本发明提供的另一种存储域的健康监测方法的流程图;
图3为本发明提供的一种存储域的健康监测装置的结构示意图。
具体实施方式
本发明的核心是提供一种存储域的健康监测方法及装置,能够在用户发起问题反馈或工作人员发现之前时发现存储域的健康问题,能更快地发现存储域的不健康情况,还减少了工作量。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明提供的一种存储域的健康监测方法的流程图,包括:
S11:确定存储域的存储域状态,存储域状态包括存储域使用的网络状态、存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态中的一种或多种的组合;
S12:根据存储域状态判定存储域的健康度状态,健康度状态包括健康状态和不健康状态。
为了能够在用户发起反馈或工作人员发现存储域的健康度状态存在问题之前感知到健康度状态的情况,本实施例中,通过确定存储域的存储域状态,然后根据存储域状态来判定存储域的健康度状态。
具体的,存储域状态包括很多种,有存储域使用的网络状态、存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态,由于这些状态都能够影响存储域的健康度状态,所以确定存储域的存储域状态也即确定这些状态中的一种或多种的组合,具体确定哪些状态需要根据实际工作中的情况来选择。根据存储域状态来判定存储域的健康度状态,也即根据存储域状态包括的状态类型来判定存储域的健康度状态,当存储域状态包括多种状态时,当这几种状态都正常时判定存储域的健康度状态为健康状态,例如,当存储域状态包括网络状态和节点状态时,则根据节点状态和网络状态来判定存储域的健康度状态,当节点状态和网络状态都属于正常状态时,存储域的健康度状态才为健康状态。
此外,对于如何确定存储域状态,可以使用node节点上报当前状态,也可以是通过软件平台来监控当前状态,本发明对此不作限定,对于确定存储域状态的时间,可以是根据预设周期来周期性确定存储域状态中的各个状态,当存储域状态中包含有多种不同的状态时,可以给所有的状态设定一个相同的确定周期,也可以给不同的状态设定不同的确定周期,本申请对此不作限定。
综上所述,通过获取存储域的存储域状态,存储域状态中包括存储域使用的网络状态、存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态中的一种或多种的组合,然后基于存储域状态来判定存储域的健康度状态,能够在用户发起问题反馈或工作人员发现之前时发现存储域的健康问题,能更快地发现存储域的不健康情况,还减少了工作量。
在上述实施例的基础上:
请参照图2,图2为本发明提供的另一种存储域的健康监测方法的流程图;
作为一种优选的实施例,在存储域状态包括节点状态时,确定存储域的存储域状态,包括:
判断存储域中的各node节点的网络是否均正常且各node节点是否均未断电且各node节点的agent服务是否均正常;
若均为是,则判定存储域中的各node节点的节点状态均正常;
否则,则判定存储域中的存在node节点的节点状态不正常;
根据存储域状态判定存储域的健康度状态,包括:
判断存储域中是否存在node节点的节点状态不正常;
若存在node节点的节点状态不正常,则判定健康度状态为不健康状态;
若不存在node节点的节点状态不正常,则判定健康度状态为健康状态。
在存储域状态包括节点状态时,为了能够简单直接地根据存储域状态判定健康度状态,本实施例中,因为node节点会存在网络异常、节点断电和agent服务无法启动这三种问题,这些问题都会导致节点状态不正常,所以首先判断存储域中每个node节点的网络是否均正常且是否均未断电且agent服务是否均正常,当每个node节点的网络均正常且均未断电且agent服务均正常时判定节点状态为正常,当存在一个及一个以上的node节点存在网络异常和/或断电和/或agent服务异常的情况时,都判定此时节点状态不正常。此时,根据存储域状态判定存储域的健康度状态即为根据节点状态判定存储域的健康度状态,当节点状态正常时,存储域的健康度状态为健康状态,当节点状态不正常时,存储域的状态度状态为不健康状态。
综上所述,当存储域状态包括节点状态时,判断各个node节点的网络是否均正常且是否均未断电且agent服务是否均正常,基于此能够简单直接地根据存储域状态来判定存储域的健康度状态。
作为一种优选的实施例,在存储域状态包括网络状态时,确定存储域的存储域状态,包括:
获取存储域的通信配置文件;
判断通信配置文件中的通信配置信息是否为表征存储域的网络正常的通信配置信息;
若为表征存储域的网络正常的通信配置信息,则判定网络状态为正常状态;
若不为表征存储域的网络正常的通信配置信息,则判定网络状态为异常状态;
根据存储域状态判定存储域的健康度状态,包括:
判断网络状态是否为正常状态;
若为正常状态,则判定健康度状态为健康状态;
若为异常状态,则判定健康度状态为不健康状态。
在存储域状态包括网络状态时,为了能够简单地根据存储域状态来健康度状态,在本实施例中,首先获取存储域中的通信配置文件,通信配置文件中的通信配置信息不是固定不变的,存储域的通信配置文件能够体现出存储域当前的网络状态,此时判断的通信配置文件中的通信配置信息是否为表征存储域的网络处于正常状态下的通信配置信息,若是时,说明此时存储域的网络状态正常,若否时,说明此时存储域的网络状态不正常,不正常的具体原因可以但不限于通过人工去对网络状态进行修复,但无论是何种原因,都表明存储域的网络状态存在问题。此时,根据存储域状态判定存储域的健康度状态即为根据网络状态判定存储域的健康度状态,网络状态正常时,判定存储域的健康度状态为健康状态,网络状态不正常时,判定存储域的健康度状态为不健康状态。
综上所述,当存储域状态包括网络状态时,判断存储域的通信配置文件中的通信配置信息是否为表征存储域的网络状态正常的通信配置信息,基于此能够简单直接地根据存储域状态来判定健康度状态。
作为一种优选的实施例,在存储域状态包括存储池状态时,确定存储域的存储域状态,包括:
判断存储池是否被卸载;
若没有被卸载,则判定存储池状态为正常状态;
若被卸载,则判断是否获取到用户卸载指令;
若未获取到用户卸载指令,则对存储池进行挂载,并判断存储池是否挂载成功;
若挂载成功,则判定存储池状态为正常状态;
若挂载失败,则判定存储池状态为异常状态;
根据存储域状态判定存储域的健康度状态,包括:
判断存储池状态是否为正常状态;
若为正常状态,则判定健康度状态为健康状态;
若为异常状态,则判定健康度状态为不健康状态。
当存储域状态包括存储池状态时,为了能简单直接地根据存储域状态判定健康度状态,本实施例中,在正常情况下的存储池会处于挂载状态以便存储池上的虚拟机或其他软件***工作,首先判断存储池是否被卸载,当出现卸载情况时,说明此时存储池不是正常情况下的状态,在存储池被卸载后,判断是否获取到用户卸载指令,考虑到卸载存储池可能存在人工进行卸载的情况,例如,当存储池需要更新或替换时,工作人员会先把存储池卸载,再会进行其他操作,若没有获取到用户卸载指令,说明此时存储池状态可能存在问题,于是对存储池进行挂载,判断存储池是否挂载成功,若挂载成功,说明存储池状态正常,此次被卸载可能是意外被卸载,若挂载失败,说明存储池状态异常,存在问题导致存储池无法被成功挂载。此时,根据存储域状态判定存储域的健康度状态即为根据存储池状态判定存储域的健康度状态,存储池状态正常时,判定存储域的健康度状态为健康状态,存储池状态不正常时,判定存储域的健康度状态为不健康状态。
综上所述,当存储域状态包括存储池状态时,判断存储池是否被卸载,被被卸载时判断是否获取到用户卸载指令,未获取到用户卸载指令时对存储池进行挂载并判断存储池是否挂载成功,基于此能够简单直接地根据存储域状态判定健康度状态,此外,由于在未获取到用户卸载指令时对存储池进行挂载,能够使一些存储池意外被卸载的情况能够被修复。
作为一种优选的实施例,在存储域状态包括虚拟机状态时,确定存储域的存储域状态,包括:
判断存储域中所有的虚拟机是否均为关机状态;
若所有的虚拟机均为关机状态,则对预设虚拟机进行开机,并判断预设虚拟机是否开机成功;
若开机成功,则判定虚拟机状态为正常状态;
若开机失败,则判定虚拟机状态为异常状态;
根据存储域状态判定存储域的健康度状态,包括:
判断虚拟机状态是否为正常状态;
若为正常状态,则判定健康度状态为健康状态;
若为异常状态,则判定健康度状态为不健康状态。
当存储域状态包括虚拟机状态时,为了能简单直接地根据存储域状态判定健康度状态,本实施例中,可以但不限于在存储域的管理平台上建立一个监测虚拟机状态的任务,判断存储域中所有的虚拟机是否都在关机状态,存储域中的虚拟机包括用户创建的虚拟机和工作人员为了测试或其他工作创建的虚拟机,为了能够随时工作,用户或工作人员的虚拟机会保持开启状态,通常情况下这些虚拟机不会全部处于关机状态,当所有的虚拟机都处于关机状态时,对预设虚拟机进行开机并判断预设虚拟机是否开机成功,由于工作人员无法干涉或使用用户创建的虚拟机,所以预设虚拟机为工作人员创建的虚拟机,当预设虚拟机开机成功时,说明虚拟机状态正常,当预设虚拟机开机失败时,说明虚拟机状态异常。此时,根据存储域状态判定存储域的健康度状态即为根据虚拟机状态判定存储域的健康度状态,虚拟机状态正常时,判定存储域的健康度状态为健康状态,虚拟机状态不正常时,判定存储域的健康度状态为不健康状态。
综上所述,判断存储域中所有的虚拟机是否处于关机状态,都处于关机状态时对预设虚拟机进行开机并判断是否开机成功,能够简单直接地根据存储域状态判定健康度状态。
作为一种优选的实施例,在存储域状态包括心跳盘状态时,确定存储域的存储域状态,包括:
在确定心跳盘与数据盘之间的连接正常且数据盘状态为正常状态时,控制心跳盘生成预设第一指令并发送给数据盘;
判断心跳盘是否成功生成预设第一指令并发送给数据盘;
若成功生成预设第一指令并发送给数据盘,则判定心跳盘状态为正常状态,否则,判定心跳盘状态为异常状态;
根据存储域状态判定存储域的健康度状态,包括:
判断心跳盘状态是否为正常状态;
若为正常状态,则判定健康度状态为健康状态;
若为异常状态,则判定健康度状态为不健康状态。
当存储域状态包括心跳盘状态时,为了能够简单直接地根据存储域状态判定健康度状态,本实施例中,控制心跳盘生成预设第一指令并发送给数据盘,由于心跳盘与数据盘之间的连接和数据传输由心跳盘、数据盘以及两者之间的连接关系构成,心跳盘发送指令给数据盘时除了心跳盘本身可能出现的不能发送预设第一指令给数据盘的问题外,也可能存在两者之间的连接断开或数据盘无法接收预设第一指令的情况,由于这两个问题与心跳盘本身无关,所以此时需要确定连接关系和数据盘都处于正常状态,若能够生成预设第一指令并发送给数据盘,则判定心跳盘状态是正常状态,若不能生成预设第一指令并发送给数据盘,可能是无法生成预设第一指令,或者是生成预设第一指令后不能发送给数据盘,都判定心跳盘状态为异常状态。此时,根据存储域状态判定存储域的健康度状态即为根据心跳盘状态判定存储域的健康度状态,心跳盘状态正常时,判定存储域的健康度状态为健康状态,心跳盘状态不正常时,判定存储域的健康度状态为不健康状态。
此外,预设第一指令可以是写入指令,也可以是其他数据盘能够接收到的指令,本申请在此不作限定。
综上所述,在确定心跳盘与数据盘之间的连接正常且数据盘状态为正常状态时,控制心跳盘生成预设第一指令并发送给数据盘,然后判断心跳盘是否成功生成预设第一指令并发送给数据盘,能够简单直接地根据存储域状态判定健康度状态。
作为一种优选的实施例,在存储域状态包括心跳盘状态时,确定存储域的存储域状态,包括:
发送预设访问指令给心跳盘;
判断预设时间段内是否获取到心跳盘在接收到预设访问指令时生成的反馈信息;
若接收到反馈信息,则判定心跳盘状态为正常状态;
若未接收到反馈信息,则判定心跳盘状态为异常状态;
判断心跳盘状态是否为正常状态;
若为正常状态,则判定健康度状态为健康状态;
若为异常状态,则判定健康度状态为不健康状态。
在存储域状态包括心跳盘状态时,考虑到心跳盘本身可能损坏而无法被访问导致存储域的健康度状态变成不健康状态的情况,本实施例中,首先发送预设访问指令给心跳盘,判断在预设时间段内是否能够获取到心跳盘在接收到预设访问指令时生成的反馈信息,预设时间段可以但不限于是人工设定的时间段,不同的心跳盘接收到预设访问指令后提供反馈信息的速度可能不一样,可以根据具体情况调节预设时间段长短,若能接收到信息,说明此时心跳盘能够正常被访问,心跳盘正常被访问则说明此时心跳盘不存在损坏的问题,若不能接收到反馈信息,说明此时心跳盘不能正常被访问,说明此时心跳盘可能存在硬件上的损坏或者内部数据损坏等情况。此时,根据存储域状态判定存储域的健康度状态即为根据心跳盘状态判定存储域的健康度状态,心跳盘状态正常时,判定存储域的健康度状态为健康状态,心跳盘状态不正常时,判定存储域的健康度状态为不健康状态。
综上所述,发送预设访问指令给心跳盘,判断预设时间段内是否获取到心跳盘在接收到预设访问指令时生成的反馈信息,能够简单直接地根据存储域状态判定健康度状态。
作为一种优选的实施例,在存储域状态包括数据盘状态时,确定存储域的存储域状态,包括:
在确定心跳盘与数据盘之间的连接正常且心跳盘状态为正常状态时,控制心跳盘生成预设第二指令并发送给数据盘;
判断数据盘是否成功接收到心跳盘发送的预设第二指令;
若接收到预设第二指令,则判定数据盘状态为正常状态;
若未接收到预设第二指令,则判定数据盘状态为异常状态;
根据存储域状态判定存储域的健康度状态,包括:
判断数据盘状态是否为正常状态;
若为正常状态,则判定健康度状态为健康状态;
若为异常状态,则判定健康度状态为不健康状态。
当存储域状态包括数据盘状态时,为了能够简单直接地根据存储域状态判定健康度状态,本实施例中,控制心跳盘生成预设第二指令并发送给数据盘,由于心跳盘与数据盘之间的连接和数据传输由心跳盘、数据盘以及两者之间的连接关系构成,心跳盘发送指令给数据盘时除了数据盘本身可能出现的不能正常接收预设第二指令的问题外,也可能存在两者之间的连接断开或心跳盘无法发送预设第二指令的情况,由于这两个问题与数据盘本身无关,所以此时需要确定连接关系和心跳盘都处于正常状态,若数据盘能够接收到预设第二指令,则判定数据盘状态是正常状态,若数据盘未接收到预设第二指令,判定数据盘状态为异常状态。此时,根据存储域状态判定存储域的健康度状态即为根据数据盘状态判定存储域的健康度状态,数据盘状态正常时,判定存储域的健康度状态为健康状态,数据盘状态不正常时,判定存储域的健康度状态为不健康状态。
此外,预设第二指令可以与预设第一指令相同,也可以是其他数据盘能够接收到的指令,本申请在此不作限定。
综上所述,在确定数据盘与数据盘之间的连接正常且数据盘状态为正常状态时,控制数据盘生成预设第一指令并发送给数据盘,然后判断数据盘是否成功生成预设第一指令并发送给数据盘,能够简单直接地根据存储域状态判定健康度状态。
作为一种优选的实施例,在根据存储域状态判定存储域的健康度状态之后,还包括:
S13:若存储域的健康度状态为不健康状态,确定存储域状态中存在不健康状态的状态类型;
S14:获取包括状态类型的故障日志;
S15:基于故障日志和预设日志与解决方案的关系确定存储域的健康度状态的解决方案。
为了能够简单直接地了解存储域中哪些状态出现问题以及问题对应的解决方案,本实施例中,在判定完存储域的健康度状态后,若存储域的健康度状态为不健康状态,首先确定存储域状态中存在不健康状态的状态类型,然后获取包括这些不健康类型的故障日志,再基于故障日志和预设的故障日志所对应的解决方案确定存储域的健康度状态的解决方案。
具体的,存储域的健康度状态为健康状态和不健康状态两种,当健康度状态为不健康状态时,由于存储域状态中各个状态都有各自的正常状态和异常状态,所以此时可以确定存储域状态中处于异常状态的状态类型,然后获取包含处于异常状态的状态类型的故障日志,预设的日志-解决方案的关系中包含了不同异常状态的状态类型对应的解决方案,基于故障日志和预设的日志-解决方案的关系能够确定此时健康度状态的解决方案,例如,当存储域状态包括存储池状态和虚拟机状态时,若存储池状态正常但是虚拟机状态异常,此时则确定存储域状态中处于异常状态的状态类型为虚拟机状态,然后获取包含了虚拟机状态的故障日志,然后确定虚拟机状态对应的解决方案,就能够确定此时健康度状态的解决方案。
此外,为了能够了解到出现不健康状态的具体情况,故障日志里除了包含处于异常状态的状态类型外,还可以包括该状态类型处于异常状态的次数,存储域状态中包括node节点的节点状态时,还可以包括出现异常状态的node节点的名称,同时还可以在出现不健康状态时发出告警,以便更好地根据异常状态的严重性来处理这些异常状态。
综上所述,通过确定存储域状态中存在不健康状态的状态类型,然后获取包括状态类型的故障日志,最后基于故障日志和预设日志与解决方案的关系确定存储域的健康度状态的解决方案,能够简单直接地了解存储域中哪些状态出现问题以及问题对应的解决方案。
请参照图3,图3为本发明提供一种存储域的健康监测装置的结构示意图,包括:
存储器11,用于存储计算机程序;
处理器12,用于执行计算机程序时实现如上述的存储域的健康监测方法的步骤。
对于本发明提供的一种存储域的健康监测装置的详细介绍,请参照上述存储域的健康监测方法的实施例,本申请在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种存储域的健康监测方法,其特征在于,包括:
确定存储域的存储域状态,所述存储域状态包括所述存储域使用的网络状态、所述存储域中的各node节点的节点状态、存储池的存储池状态、虚拟机的虚拟机状态、心跳盘的心跳盘状态和数据盘的数据盘状态中的一种或多种的组合;
根据所述存储域状态判定所述存储域的健康度状态,所述健康度状态包括健康状态和不健康状态。
2.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述节点状态时,确定存储域的存储域状态,包括:
判断所述存储域中的各所述node节点的网络是否均正常且各所述node节点是否均未断电且各所述node节点的agent服务是否均正常;
若均为是,则判定所述存储域中的各所述node节点的所述节点状态均正常;
否则,则判定所述存储域中的存在所述node节点的所述节点状态不正常;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述存储域中是否存在所述node节点的所述节点状态不正常;
若存在所述node节点的所述节点状态不正常,则判定所述健康度状态为不健康状态;
若不存在所述node节点的所述节点状态不正常,则判定所述健康度状态为健康状态。
3.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述网络状态时,确定存储域的存储域状态,包括:
获取所述存储域的通信配置文件;
判断所述通信配置文件中的通信配置信息是否为表征所述存储域的网络正常的通信配置信息;
若为表征所述存储域的网络正常的通信配置信息,则判定所述网络状态为正常状态;
若不为表征所述存储域的网络正常的通信配置信息,则判定所述网络状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述网络状态是否为正常状态;
若为正常状态,则判定所述健康度状态为健康状态;
若为异常状态,则判定所述健康度状态为不健康状态。
4.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述存储池状态时,确定存储域的存储域状态,包括:
判断所述存储池是否被卸载;
若没有被卸载,则判定所述存储池状态为正常状态;
若被卸载,则判断是否获取到用户卸载指令;
若未获取到所述用户卸载指令,则对所述存储池进行挂载,并判断所述存储池是否挂载成功;
若挂载成功,则判定所述存储池状态为正常状态;
若挂载失败,则判定所述存储池状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述存储池状态是否为正常状态;
若为正常状态,则判定所述健康度状态为健康状态;
若为异常状态,则判定所述健康度状态为不健康状态。
5.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述虚拟机状态时,确定存储域的存储域状态,包括:
判断所述存储域中所有的虚拟机是否均为关机状态;
若所有的所述虚拟机均为关机状态,则对预设虚拟机进行开机,并判断所述预设虚拟机是否开机成功;
若开机成功,则判定所述虚拟机状态为正常状态;
若开机失败,则判定所述虚拟机状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述虚拟机状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
6.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述心跳盘状态时,确定存储域的存储域状态,包括:
在确定所述心跳盘与所述数据盘之间的连接正常且所述数据盘状态为正常状态时,控制所述心跳盘生成预设第一指令并发送给所述数据盘;
判断所述心跳盘是否成功生成所述预设第一指令并发送给所述数据盘;
若成功生成所述预设第一指令并发送给所述数据盘,则判定所述心跳盘状态为正常状态,否则,判定所述心跳盘状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述心跳盘状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
7.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述心跳盘状态时,确定存储域的存储域状态,包括:
发送预设访问指令给所述心跳盘;
判断预设时间段内是否获取到所述心跳盘在接收到所述预设访问指令时生成的反馈信息;
若接收到所述反馈信息,则判定所述心跳盘状态为正常状态;
若未接收到所述反馈信息,则判定所述心跳盘状态为异常状态;
判断所述心跳盘状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
8.如权利要求1所述的存储域的健康监测方法,其特征在于,在所述存储域状态包括所述数据盘状态时,确定存储域的存储域状态,包括:
在确定所述心跳盘与所述数据盘之间的连接正常且所述心跳盘状态为正常状态时,控制所述心跳盘生成预设第二指令并发送给所述数据盘;
判断所述数据盘是否成功接收到所述心跳盘发送的所述预设第二指令;
若接收到所述预设第二指令,则判定所述数据盘状态为正常状态;
若未接收到所述预设第二指令,则判定所述数据盘状态为异常状态;
根据所述存储域状态判定所述存储域的健康度状态,包括:
判断所述数据盘状态是否为正常状态;
若为正常状态,则判定所述健康度状态为所述健康状态;
若为异常状态,则判定所述健康度状态为所述不健康状态。
9.如权利要求1至8任一项所述的存储域的健康监测方法,其特征在于,在根据所述存储域状态判定所述存储域的健康度状态之后,还包括:
若所述存储域的健康度状态为不健康状态,确定所述存储域状态中存在不健康状态的状态类型;
获取包括所述状态类型的故障日志;
基于所述故障日志和预设日志与解决方案的关系确定所述存储域的健康度状态的解决方案。
10.一种存储域的健康监测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至9任一项所述的存储域的健康监测方法的步骤。
CN202111264360.9A 2021-10-28 2021-10-28 一种存储域的健康监测方法及装置 Pending CN114168402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111264360.9A CN114168402A (zh) 2021-10-28 2021-10-28 一种存储域的健康监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111264360.9A CN114168402A (zh) 2021-10-28 2021-10-28 一种存储域的健康监测方法及装置

Publications (1)

Publication Number Publication Date
CN114168402A true CN114168402A (zh) 2022-03-11

Family

ID=80477590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111264360.9A Pending CN114168402A (zh) 2021-10-28 2021-10-28 一种存储域的健康监测方法及装置

Country Status (1)

Country Link
CN (1) CN114168402A (zh)

Similar Documents

Publication Publication Date Title
US20110004791A1 (en) Server apparatus, fault detection method of server apparatus, and fault detection program of server apparatus
CN103607297A (zh) 一种计算机集群***的故障处理方法
WO2006035040A1 (en) Method and apparatus for determining impact of faults on network service
CN115632706B (zh) 一种fc链路管理方法、装置、设备及可读存储介质
CN111478792B (zh) 一种割接信息处理方法、***及装置
JP2003233512A (ja) 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法
CN112764956A (zh) 数据库的异常处理***、数据库的异常处理方法及装置
US7546604B2 (en) Program reactivation using triggering
CN114675791A (zh) 一种磁盘处理方法、***及电子设备
US20130204921A1 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
CA2365427A1 (en) Internal product fault monitoring apparatus and method
CN111342986A (zh) 分布式节点管理方法及装置、分布式***、存储介质
CN109271270A (zh) 存储***中底层硬件的故障排除方法、***及相关装置
WO2013066341A1 (en) Fault processing in a system
CN117453036A (zh) 调整服务器中的设备的功耗的方法、***及装置
CN106411643B (zh) Bmc检测方法以及装置
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
CN112069032A (zh) 一种虚拟机的可用性检测方法、***及相关装置
CN111309456B (zh) 一种任务执行方法及***
CN114168402A (zh) 一种存储域的健康监测方法及装置
JP2000047912A (ja) ネットワークサービス監視方法および装置とネットワークサービス監視プログラムを記録した記録媒体
CN115964142A (zh) 应用服务的管理方法、设备及存储介质
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、***、设备及介质
CN108874626B (zh) ***监控方法与装置
CN111416721A (zh) 运用于数据中心的机柜异常状态的远端排除方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination