CN114064401A - 定位硬盘故障的方法、装置、电子设备及存储介质 - Google Patents

定位硬盘故障的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114064401A
CN114064401A CN202111294917.3A CN202111294917A CN114064401A CN 114064401 A CN114064401 A CN 114064401A CN 202111294917 A CN202111294917 A CN 202111294917A CN 114064401 A CN114064401 A CN 114064401A
Authority
CN
China
Prior art keywords
hard disk
positioning
fault
information
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111294917.3A
Other languages
English (en)
Inventor
李杨杨
范晓晋
刘星星
张孟威
何永占
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111294917.3A priority Critical patent/CN114064401A/zh
Publication of CN114064401A publication Critical patent/CN114064401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种定位硬盘故障的方法、装置、电子设备及存储介质,涉及计算机技术领域,以至少解决了现有技术中由于依赖服务器厂商的硬盘拓扑进行故障硬盘定位和替换导致在服务器硬盘运维中硬盘替换效率低,准确度低的技术问题。具体实现方案为:获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;将硬盘故障状态信息上传至目标服务器;接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘。

Description

定位硬盘故障的方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种定位硬盘故障的方法、装置、电子设备及存储介质。
背景技术
数据中心的存储设备中,硬盘是除内存之外故障率最高的部件,每年进行的大规模故障硬盘替换至关重要。
现有方案中,服务器硬盘替换是基于服务器厂家提供的服务器整体硬盘拓扑的方式,即服务器厂商售后人员根据其保留的硬盘配置记录快速找到对应的故障硬盘,进行替换动作,其中,配制记录包括硬盘对应的卡槽编号(SLOT号),产品序列号(Serial Number,简称SN号)等。然而,这种方式的缺陷在于:依托服务器厂商的硬盘拓扑,并且硬盘替换过程中依赖人工识别,缺乏统一处理的工具,对于高密硬盘服务器(例如38盘服务器,68盘服务器,98盘服务器等)硬盘替换效率低,准确度低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本公开提供了一种定位硬盘故障的方法、装置、电子设备及存储介质,以至少解决现有技术中由于依赖服务器厂商的硬盘拓扑进行故障硬盘定位和替换导致在服务器硬盘运维中硬盘替换效率低,准确度低的技术问题。
根据本公开的一方面,提供了一种定位硬盘故障的方法,包括:获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;将硬盘故障状态信息上传至目标服务器;接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘。
根据本公开的另一方面,提供了一种定位硬盘故障的装置,包括:获取模块,用于获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;发送模块,用于将硬盘故障状态信息上传至目标服务器;接收模块,用于接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;定位模块,用于按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的定位硬盘故障的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的定位硬盘故障的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的定位硬盘故障的方法。
本公开的实施例中,获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;通过将硬盘故障状态信息上传至目标服务器;接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;采用按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘的方法,达到了快速、准确、自动定位硬盘故障的目的,实现了在服务器硬盘自动化运维中对于故障硬盘精准定位和快速替换的技术效果,解决了现有技术中由于依赖服务器厂商的硬盘拓扑进行故障硬盘定位和替换导致在服务器硬盘运维中硬盘替换效率低,准确度低的技术问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的一种用于实现定位硬盘故障的方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本公开实施例的一种定位硬盘故障的方法的流程图;
图3是根据本公开实施例的一种可选的***组件及其交互的示意图;
图4是根据本公开实施例的一种可选的硬盘状态监控的示意图;
图5是根据本公开实施例的一种可选的硬盘替换动作的流程图;
图6是根据本公开实施例的提供的一种定位硬盘故障的装置的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在服务器硬盘运维的过程中,需要批量精准定位和快速替换故障硬盘,实现对硬盘运维过程的自动化高效管控,同时防止硬盘替换错误,给业务带来风险。
现有方案中,针对不同使用场景,提供了两种用于服务器硬盘自动化运维的方案:
第一种是基于智能硬盘背板和背板管理控制器(Baseboard ManagementController,简称BMC)联合配置进行硬盘定位,将BMC与智能硬盘背板通过I2C总线连接,通过BMC给智能硬盘背板上的微控制器发送“定位”或者“取消定位”的指令,进而实现对智能硬盘背板上特定SLOT定位灯“亮起”或者“熄灭”的控制。这种方案是目前服务器厂商默认支持的,但是由于这种定位方式中定位信息是外带的,硬盘的定位仅依赖SLOT号,无法关联硬盘的盘符和SN号,如果没有与计算机基本输入输出***(Basic Input Output System,简称BIOS)或者操作***(Operating System,简称OS)进行有效配合,则无法充分实现故障硬盘的定位。
第二种是预先配置服务器的硬盘定位信息进行硬盘定位,这种方案下,OS中存有每一个盘符对应的SLOT信息,一旦盘符对应的硬盘发生故障,OS可以立即查询获得故障硬盘的定位信息。然而,这种方案能适用于服务器硬盘拓扑结构简单的情况,但并不适用于高密服务器以及服务器硬盘拓扑结构复杂的情况。此外,这种方案也无法实现对智能硬盘背板上特定SLOT定位灯“亮起”或者“熄灭”的控制。
现有方案无法实现服务器硬盘自动化运维,存在由于依赖服务器厂商的硬盘拓扑进行故障硬盘定位和替换导致在服务器硬盘运维中硬盘替换效率低,准确度低的技术问题。
根据本公开实施例,提供了一种定位硬盘故障的方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现定位硬盘故障的方法的计算机终端(或移动设备)的硬件结构框图。
如图1所示,计算机终端100包括计算单元101,其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序,来执行各种适当的动作和处理。在RAM 103中,还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
计算机终端100中的多个部件连接至I/O接口105,包括:输入单元106,例如键盘、鼠标等;输出单元107,例如各种类型的显示器、扬声器等;存储单元108,例如磁盘、光盘等;以及通信单元109,例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的定位硬盘故障的方法。例如,在一些实施例中,定位硬盘故障的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM 103并由计算单元101执行时,可以执行本文描述的定位故障硬盘的方法的一个或多个步骤。备选地,在其他实施例中,计算单元101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行定位故障硬盘的方法。
本文中描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
此处需要说明的是,在一些可选实施例中,上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述电子设备中的部件的类型。
在上述运行环境下,本公开提供了如图2所示的定位硬盘故障的方法,该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例的一种定位硬盘故障的方法的流程图。如图2所示,该方法可以包括如下步骤:
步骤S20,获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;
其中,上述目标设备可以是数据中心的服务器,该目标设备包括:CPU、硬盘、内存、***总线等,可用于管理数据中心的计算资源。在数据中心运行的过程中,该目标设备可以检测其内部硬盘的故障信息,尝试自动修复硬盘故障,标记无法自动修复的硬盘故障,并将该目标设备上尚未自动修复的硬盘故障存储为硬盘故障状态信息。
硬盘是数据中心的重要设备之一,硬盘的接口有常见的SATA,SASA,以及NVME接口。运维平台的实际数据表明,硬盘是除内存之外故障率最高的部件,每年数据中心都要通过人工进行大规模的故障硬盘替换,本公开可以在替换的过程中实现故障硬盘的精准定位和快速替换。
上述硬盘故障包括硬件故障和软件故障。其中,硬件故障即物理性故障,是由于硬盘的机械零件或电子元器件物理性损坏而引起的,例如出现坏道等;软件故障即非物理性故障,例如主引导记录、分区表、启动文件等被破坏导致***无法启动,又例如硬盘被病毒感染造成无法运行,再例如非法操作、维护不当等。软件故障一般可以通过软件自动修复。
步骤S22,将硬盘故障状态信息上传至目标服务器;
上述目标服务器能够从目标设备中获取硬盘故障状态信息,硬盘故障状态信息可用于后续对目标设备中硬盘故障的精准定位和自动更换流程。
步骤S24,接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;
上述目标服务器获取上述目标设备中的硬盘故障状态信息后,可以基于该硬盘故障状态信息生成并发送第一定位控制指令。上述第一定位控制指令用于实现上述目标设备中的硬盘故障的定位。
步骤S26,按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘。
可选地,上述第一定位控制指令中包含第一定位操作,上述第一硬盘可以是该目标设备上存在故障的硬盘,执行该第一定位操作可以实现对上述目标设备中的硬盘故障的指示。
图3是根据本公开实施例的一种可选的***组件及其交互的示意图,如图3所示,本实施例是一种通用的对服务器硬盘进行故障精确定位以及替换的方案,本实施例依托于***流程以及服务器OS运行的代理(agent)工具,即自主活动的软件或者硬件实体,从而完成硬盘故障状态信息上报、硬盘替换、硬盘定位、替换完成、故障解除的操作,实现全面运维自动化。本实施例的***主要分为硬盘组、OS agent和上层综合运维平台三部分,其中,目标设备为硬盘组和OS agent,目标服务器为上层综合运维平台。
如图3所示,OS agent是一种运行在***下的实时进程,在本实施例中,OS agent用于按照一定频率查询硬盘的状态信息,尝试自动处理硬盘故障,实时将硬盘故障告警信息发送到运维平台,还用于接收运维平台发出的“硬盘定位”或者“取消定位”的指令,并通过硬盘定位工具实现对故障硬盘的“定位”或者“取消定位”功能。其中,硬盘故障告警信息包含硬盘的SN号。
仍然如图3所示,上层综合运维平台是一种对数据中心的服务器实现综合的状态监控和运维的平台,在本实施例中,上层综合运维平台用于对整体硬盘自动化流程进行统一管控,包括:接收来自OS agent的硬盘故障告警信息,确定是否下发更换硬盘的工单,下发工单后控制对应的SLOT定位灯闪烁,硬盘替换成功后控制对应的SLOT定位灯熄灭。
根据本公开上述步骤S20至步骤S26,获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;通过将硬盘故障状态信息上传至目标服务器;接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;采用按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘的方法,达到了快速、准确、自动定位硬盘故障的目的,实现了在服务器硬盘自动化运维中故障硬盘精准定位和快速替换的技术效果,解决了现有技术中由于依赖服务器厂商的硬盘拓扑进行故障硬盘定位和替换导致在服务器硬盘运维中硬盘替换效率低,准确度低的技术问题。
下面对该实施例的上述方法进行进一步介绍。
作为一种可选的实施方式,上述硬盘故障状态信息通过以下方式中至少之一获得:硬盘故障状态信息通过目标设备上配置的第一线程获得,其中,第一线程用于按照预设时间间隔扫描目标设备上配置的多个硬盘中每个硬盘的盘符,并对盘符对应的硬盘进行故障检测以确定第一硬盘;硬盘故障状态信息通过目标设备上配置的第二线程获得,其中,第二线程用于分析目标设备的***日志信息以确定第一硬盘;硬盘故障状态信息通过目标设备上配置的第三线程获得,其中,第三线程用于检测目标设备上配置的多个硬盘是否发生盘符变化以确定第一硬盘。
上述目标设备可以配置第一线程、第二线程和第三线程中的至少之一,用于获得该目标设备上的硬盘故障状态信息,其中,第一线程用于以一定频率扫描目标设备上配置的多个硬盘中每个硬盘的盘符,一定频率为每个一预设时间间隔扫描一次;第二线程用于分析目标设备的***日志信息已确定第一硬盘,***日志信息中包含硬盘故障状态信息,上述第一硬盘为故障硬盘;第三线程用于检测目标设备上配置的多个硬盘是否发生盘符变化以确定第一硬盘。盘符是OS对存储设备的标识符,对盘符进行扫描,分析盘符的变化可以确定硬盘的故障状态信息。
图4是根据本公开实施例的一种可选的硬盘状态监控的示意图;如图4所示,在该目标设备对硬盘状态的监控逻辑中,配置了三个线程:硬盘状态定时查询线程,***日志实时查询线程以及硬盘***和拔出状态监测线程。
如图4所示,硬盘状态定时查询线程可以根据实际需求规定一预设间隔时间,在本实施例中,根据硬盘故障状态发生的实际情况以及该线程对CPU的利用率,规定该预设间隔时间为7200秒。每隔7200秒,对设备目录(device,简称/dev)下的所有硬盘进行一次动态扫描,该动态扫描的设备支持高密硬盘服务器的扩展盘符,该扩展盘符记为sd[a-z][a-z],该一次动态扫描中对所有盘符中的每一个硬盘进行一次健康状态检测。
仍然如图4所示,***日志实时查询线程以1秒为周期,进行***日志信息的实时抓取和进一步分析,如果发现输入输出错误(IO error)等关键字,则依据一定的筛选逻辑判定是否要立即触发对某一个硬盘的健康状态检测。与硬盘状态定时查询线程相比,***日志实时查询线程依据***日志,针对故障硬盘进行健康状态检测,且该健康状态检测的触发时间随机。
仍然如图4所示,硬盘***和拔出状态监测线程基于监测上报机制(select+notify),判断***/dev下硬盘的盘符数量变化情况,如果存在硬盘***事件,盘符数量增加,则会立即触发对新增硬盘的健康状态检测。
仍然如图4所示,健康状态检测针对某一个硬盘,利用遍历检测工具对该硬盘进行***健康状态的检测和判别,如果检测到硬盘故障,则立即触发对硬盘的自动化修复工作,如果修复未能成功,则将硬盘故障状态信息上报给操作***代理工具中的发送进程,该发送进程将硬盘故障状态信息以一定格式发送给上层综合运维平台。在本实施例中,遍历检测工具使用SMART硬盘检测工具和硬盘故障预警工具,操作***代理工具即OS agent。
作为一种可选的实施方式,在步骤S26中,按照第一定位控制指令执行第一定位操作,包括如下方法步骤:
步骤S261,对第一定位控制指令进行解析,得到第一硬盘的第一标识信息和第一指示灯控制信息,其中,第一指示灯控制信息用于控制第一硬盘对应指示灯进入开启状态;
步骤S262,基于第一标识信息获取第一硬盘的第一定位信息;
步骤S263,利用第一定位信息对第一硬盘进行定位,并开启第一硬盘对应的指示灯。
可选地,上述第一定位控制指令包含第一硬盘的第一标识信息和第一指示灯控制信息,该第一指示灯控制信息用于控制第一硬盘对应的指示灯进入开启状态,该第一标识信息用于获取第一硬盘的第一定位信息,该第一定位信息可以用于对第一硬盘进行定位,还可以用于开启第一硬盘对应的指示灯。
上述指示灯可以为智能硬盘背板上各硬盘特定SLOT定位灯,可以控制某SLOT定位灯“亮起”或者“熄灭”来表示该SLOT定位灯对应的硬盘是否存在故障,便于运维人员进行后续操作。
可选地,上述定位硬盘故障的方法还包括如下方法步骤:
步骤S30,检测目标设备的硬盘挂载状态;
步骤S32,响应于硬盘挂载状态从第一挂载状态调整为第二挂载状态,将第二挂载状态上传至目标服务器,其中,第一挂载状态为第一硬盘的挂载状态,第二挂载状态为第二硬盘的挂载状态;
步骤S34,接收目标服务器基于第二挂载状态下发的第二定位控制指令;
步骤S36,按照第二定位控制指令执行第二定位操作,以取消指示第二硬盘。
上述硬盘挂载状态是指一个存储设备上的计算机文件和目录是否可供用户通过计算机的文件***访问的状态,在本实施例中,某个硬盘的挂载状态是指该硬盘是否连接至目标设备。
可选地,上述第一硬盘为故障硬盘,第二硬盘为更换过的新硬盘,第一挂载状态为第一硬盘的挂载状态,第二挂载状态为第二硬盘的挂载状态;当***检测到硬盘挂载状态从第一挂载状态调整为第二挂载状态时,将第二挂载状态上传至目标服务器。
上述目标服务器基于第二挂载状态,可以发出第二定位控制指令,上述第二定位控制指令包含第二定位操作,该第二定位操作用于取消指示第二硬盘。可选地,在步骤S36中,按照第二定位控制指令执行第二定位操作还包括如下方法步骤:
S361,对第二定位控制指令进行解析,得到第二硬盘的第二标识信息和第二指示灯控制信息,其中,第二指示灯控制信息用于控制第二硬盘对应指示灯进入关闭状态;
S362,基于第二标识信息获取第二硬盘的第二定位信息;
S363,利用第二定位信息对第二硬盘进行定位,并关闭第二硬盘对应的指示灯。
可选地,上述第二定位控制指令包含第二硬盘的第二标识信息和第二指示灯控制信息,该第二指示灯控制信息用于控制第二硬盘对应的指示灯进入关闭状态,该第二标识信息用于获取第二硬盘的第二定位信息,该第二定位信息可以用于对第二硬盘进行定位,还可以用于开启第二硬盘对应的指示灯。
上述指示灯可以为智能硬盘背板上各硬盘特定SLOT定位灯,可以控制某SLOT定位灯“亮起”或者“熄灭”来表示该SLOT定位灯对应的硬盘是否存在故障,便于运维人员进行后续操作。
可选地,在步骤S32中,在满足预设条件时,第一硬盘被替换为第二硬盘,硬盘挂载状态从第一挂载状态调整为第二挂载状态,其中,预设条件为硬盘故障状态信息在目标服务器的预设存储区域内所占用的存储空间大于第一预设阈值,或者,预设条件为基于硬盘故障状态信息确定第一硬盘的数量达到第二预设阈值。
上述目标服务器包含预设存储区域,用于临时存储目标服务器接收到的目标设备的硬盘故障状态信息,当该预设存储区域内的硬盘故障状态信息占用的存储的空间大于第一预设阈值时,目标设备上每一个被确定为的第一硬盘的硬盘都被替换为第二硬盘。
或者,目标设备上每一个被确定为的第一硬盘的硬盘都被替换为第二硬盘的操作还可以在满足这样的条件时触发:目标服务器基于硬盘故障状态信息,将目标设备上确定为第一硬盘的硬盘数量达到第二预设阈值。
仍然如图3所示,OS agent使用硬盘健康状态监测程序对硬盘组中的所有硬盘进行健康监测,并将监测得到的硬盘故障状态信息发送到上层综合运维平台,当满足预设条件时,上层综合运维平台发起硬盘替换工单,数据中心的运维人员将硬盘组中被确定为故障硬盘的所有硬盘替换为新的硬盘,其中,上层综合运维平台有专门用来存储硬盘故障状态信息的数据库,称为故障池,来自OS agent的硬盘故障状态信息不断被存储在故障池中,上述预设条件可以为:当故障池中存储的硬盘故障状态信息占用的存储空间达到一预设值,或者,当基于故障池中存储的硬盘故障状态信息确定的目标设备上的故障硬盘数量达到另一预设值。
图5是根据本公开实施例的一种可选的硬盘替换动作的流程图;如图5所示,上层综合运维平台发起的硬盘替换工单中包含硬盘替换动作流程,该流程包括以下步骤:
步骤S51,上层综合运维平台发出故障硬盘定位指令;
步骤S52,操作***代理工具接收到故障硬盘定位指令,并进一步解析得到故障硬盘的物理地址,执行对应的控制指令,使智能硬盘背板上对应的硬盘定位灯闪烁;
步骤S53,数据中心的运维人员根据硬盘定位灯确定故障硬盘并将故障硬盘替换为新的硬盘,向操作***代理工具发出结单申请;
步骤S54,操作***代理工具接收结单申请,重新检测硬盘挂载状态并发送给上层综合运维平台;
步骤S55,上层综合运维平台检测发现本次发出的故障硬盘定位指令中包含的每个硬盘位置上新的硬盘无故障,向操作***代理工具发出控制指令;
步骤S56,操作***代理工具接收控制指令,熄灭智能硬盘背板上对应的硬盘定位灯,自动通过结单申请。
上述操作***代理工具即上述OS agent,上述硬盘定位灯可以是智能硬盘背板上与硬盘位置对应的指示灯,即SLOT定位灯。
另外,如图3和图5所示,上层综合运维平台与OS agent之间的指令交互是通过互联网https协议实现的,具体方式为调用Os agent中的硬盘定位脚本工具,该硬盘定位脚本工具可以输出故障硬盘的SN号,该硬盘定位脚本工具还可以解析故障硬盘的SN号,得到故障硬盘的物理地址、SLOT号以及故障硬盘所在的硬盘组,该硬盘定位脚本工具还可以通过SES协议控制故障硬盘对应的SLOT定位灯闪烁或者熄灭。
例如,控制故障硬盘对应的SLOT定位灯闪烁的指令可以是“Curl-X POST-d‘{“state”:“flash”}’$hostname:$Port/hdd/$hddSN”;控制故障硬盘对应的SLOT定位灯熄灭的指令可以是“Curl-X POST-d‘{“state”:“off”}’$hostname:$Port/hdd/$hddSN”。指令中,“Hostname”指对应的故障硬盘所在的主机名称;“Port”指OS agent中的服务端口号;“hddSN”指故障硬盘的SN号。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
在本公开中还提供了一种定位硬盘故障的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本公开实施例的提供的一种定位硬盘故障的装置的结构框图,如图6所示,定位硬盘故障的装置600包括:获取模块601,发送模块602,接收模块603,定位模块604。
获取模块601,用于获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;发送模块602,用于将硬盘故障状态信息上传至目标服务器;接收模块603,用于接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;定位模块604,用于按照第一定位控制指令执行第一定位操作,以定位指示目标设备上存在硬盘故障的第一硬盘。
可选地,定位硬盘故障的装置600中,硬盘故障状态信息通过以下方式中至少之一获得:硬盘故障状态信息通过目标设备上配置的第一线程获得,其中,第一线程用于按照预设时间间隔扫描目标设备上配置的多个硬盘中每个硬盘的盘符,并对盘符对应的硬盘进行故障检测以确定第一硬盘;硬盘故障状态信息通过目标设备上配置的第二线程获得,其中,第二线程用于分析目标设备的***日志信息以确定第一硬盘;硬盘故障状态信息通过目标设备上配置的第三线程获得,其中,第三线程用于检测目标设备上配置的多个硬盘是否发生盘符变化以确定第一硬盘。
可选地,定位模块604,用于按照第一定位控制指令执行第一定位操作包括:用于对第一定位控制指令进行解析,得到第一硬盘的第一标识信息和第一指示灯控制信息,其中,第一指示灯控制信息用于控制第一硬盘对应指示灯进入开启状态;用于基于第一标识信息获取第一硬盘的第一定位信息;用于利用第一定位信息对第一硬盘进行定位,并开启第一硬盘对应的指示灯。
可选地,定位硬盘故障的装置600还用于:检测目标设备的硬盘挂载状态;响应于硬盘挂载状态从第一挂载状态调整为第二挂载状态,将第二挂载状态上传至目标服务器,其中,第一挂载状态为第一硬盘的挂载状态,第二挂载状态为第二硬盘的挂载状态;接收目标服务器基于第二挂载状态下发的第二定位控制指令;按照第二定位控制指令执行第二定位操作,以取消指示第二硬盘。
可选地,定位硬盘故障的装置600用于按照第二定位控制指令执行第二定位操作包括:用于对第二定位控制指令进行解析,得到第二硬盘的第二标识信息和第二指示灯控制信息,其中,第二指示灯控制信息用于控制第二硬盘对应指示灯进入关闭状态;用于基于第二标识信息获取第二硬盘的第二定位信息;用于利用第二定位信息对第二硬盘进行定位,并关闭第二硬盘对应的指示灯。
可选地,定位硬盘故障的装置600中,在满足预设条件时,第一硬盘被替换为第二硬盘,其中,预设条件为硬盘故障状态信息在目标服务器的预设存储区域内所占用的存储空间大于第一预设阈值,或者,预设条件为基于硬盘故障状态信息确定第一硬盘的数量达到第二预设阈值。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本公开的实施例,本公开还提供了一种电子设备,包括存储器和至少一个处理器,该存储器中存储有计算机指令,该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S1,获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;
步骤S2,将硬盘故障状态信息上传至目标服务器;
步骤S3,接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;
步骤S4,按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质中存储有计算机指令,其中,该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序:
步骤S1,获取目标设备的硬盘故障状态信息,其中,硬盘故障状态信息表示目标设备上存在尚未自动修复的硬盘故障;
步骤S2,将硬盘故障状态信息上传至目标服务器;
步骤S3,接收目标服务器基于硬盘故障状态信息下发的第一定位控制指令;
步骤S4,按照第一定位控制指令执行第一定位操作,以指示目标设备上存在硬盘故障的第一硬盘。
可选地,在本实施例中,上述非瞬时计算机可读存储介质可以包括但不限于:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
根据本公开的实施例,本公开还提供了一种计算机程序产品。用于实施本公开的定位故障硬盘的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在本公开的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本公开所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本公开的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本公开的保护范围。

Claims (10)

1.一种定位硬盘故障的方法,包括:
获取目标设备的硬盘故障状态信息,其中,所述硬盘故障状态信息表示所述目标设备上存在尚未自动修复的硬盘故障;
将所述硬盘故障状态信息上传至目标服务器;
接收所述目标服务器基于所述硬盘故障状态信息下发的第一定位控制指令;
按照所述第一定位控制指令执行第一定位操作,以指示所述目标设备上存在所述硬盘故障的第一硬盘。
2.根据权利要求1所述的方法,其中,所述硬盘故障状态信息通过以下方式中至少之一获得:
所述硬盘故障状态信息通过所述目标设备上配置的第一线程获得,其中,所述第一线程用于按照预设时间间隔扫描所述目标设备上配置的多个硬盘中每个硬盘的盘符,并对所述盘符对应的硬盘进行故障检测以确定所述第一硬盘;
所述硬盘故障状态信息通过所述目标设备上配置的第二线程获得,其中,所述第二线程用于分析所述目标设备的***日志信息以确定所述第一硬盘;
所述硬盘故障状态信息通过所述目标设备上配置的第三线程获得,其中,所述第三线程用于检测所述目标设备上配置的多个硬盘是否发生盘符变化以确定所述第一硬盘。
3.根据权利要求1所述的方法,其中,按照所述第一定位控制指令执行所述第一定位操作包括:
对所述第一定位控制指令进行解析,得到所述第一硬盘的第一标识信息和第一指示灯控制信息,其中,所述第一指示灯控制信息用于控制所述第一硬盘对应指示灯进入开启状态;
基于所述第一标识信息获取所述第一硬盘的第一定位信息;
利用所述第一定位信息对所述第一硬盘进行定位,并开启所述第一硬盘对应的指示灯。
4.根据权利要求1所述的方法,其中,所述方法还包括:
检测所述目标设备的硬盘挂载状态;
响应于所述硬盘挂载状态从第一挂载状态调整为第二挂载状态,将所述第二挂载状态上传至所述目标服务器,其中,所述第一挂载状态为所述第一硬盘的挂载状态,所述第二挂载状态为第二硬盘的挂载状态;
接收所述目标服务器基于所述第二挂载状态下发的第二定位控制指令;
按照所述第二定位控制指令执行第二定位操作,以取消指示所述第二硬盘。
5.根据权利要求4所述的方法,其中,按照所述第二定位控制指令执行所述第二定位操作包括:
对所述第二定位控制指令进行解析,得到所述第二硬盘的第二标识信息和第二指示灯控制信息,其中,所述第二指示灯控制信息用于控制所述第二硬盘对应指示灯进入关闭状态;
基于所述第二标识信息获取所述第二硬盘的第二定位信息;
利用所述第二定位信息对所述第二硬盘进行定位,并关闭所述第二硬盘对应的指示灯。
6.根据权利要求4所述的方法,其中,在满足预设条件时,所述第一硬盘被替换为第二硬盘,其中,所述预设条件为所述硬盘故障状态信息在所述目标服务器的预设存储区域内所占用的存储空间大于第一预设阈值,或者,所述预设条件为基于所述硬盘故障状态信息确定所述第一硬盘的数量达到第二预设阈值。
7.一种定位硬盘故障的装置,包括:
获取模块,用于获取目标设备的硬盘故障状态信息,其中,所述硬盘故障状态信息表示所述目标设备上存在尚未自动修复的硬盘故障;
发送模块,用于将所述硬盘故障状态信息上传至目标服务器;
接收模块,用于接收所述目标服务器基于所述硬盘故障状态信息下发的第一定位控制指令;
定位模块,用于按照所述第一定位控制指令执行第一定位操作,以定位所述目标设备上存在所述硬盘故障的第一硬盘。
8.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN202111294917.3A 2021-11-03 2021-11-03 定位硬盘故障的方法、装置、电子设备及存储介质 Pending CN114064401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111294917.3A CN114064401A (zh) 2021-11-03 2021-11-03 定位硬盘故障的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111294917.3A CN114064401A (zh) 2021-11-03 2021-11-03 定位硬盘故障的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114064401A true CN114064401A (zh) 2022-02-18

Family

ID=80273722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111294917.3A Pending CN114064401A (zh) 2021-11-03 2021-11-03 定位硬盘故障的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114064401A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775353A (zh) * 2023-05-19 2023-09-19 北京百度网讯科技有限公司 故障磁盘的维修方法、装置、电子设备与可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775353A (zh) * 2023-05-19 2023-09-19 北京百度网讯科技有限公司 故障磁盘的维修方法、装置、电子设备与可读存储介质

Similar Documents

Publication Publication Date Title
US7213179B2 (en) Automated and embedded software reliability measurement and classification in network elements
CN111796959B (zh) 宿主机容器自愈方法、装置及***
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
WO2021056913A1 (zh) 基于i2c通讯的故障定位方法、装置及***
CN114064401A (zh) 定位硬盘故障的方法、装置、电子设备及存储介质
US20160197994A1 (en) Storage array confirmation of use of a path
US10938623B2 (en) Computing element failure identification mechanism
CN106411643B (zh) Bmc检测方法以及装置
WO2024124862A1 (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN113992501A (zh) 一种故障定位***、方法及计算装置
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
CN115964218A (zh) 高速串行计算机扩展总线设备故障的识别方法及装置
CN115543707A (zh) 硬盘故障的检测方法、***和装置、存储介质及电子装置
CN111625185B (zh) 一种磁盘故障监控的方法、***及相关组件
CN114860494A (zh) 一种sas拓展器配置自适应***
TWI698741B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法
CN111414267A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN111416721A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN111414274A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN114513398B (zh) 网络设备告警处理方法、装置、设备及存储介质
CN116382968B (zh) 外部设备的故障检测方法以及装置
TW202026882A (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(一)
CN116483613B (zh) 故障内存条的处理方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination