CN112506744B - 一种NVMe硬盘的运行状态监测方法、装置及设备 - Google Patents

一种NVMe硬盘的运行状态监测方法、装置及设备 Download PDF

Info

Publication number
CN112506744B
CN112506744B CN202011453229.2A CN202011453229A CN112506744B CN 112506744 B CN112506744 B CN 112506744B CN 202011453229 A CN202011453229 A CN 202011453229A CN 112506744 B CN112506744 B CN 112506744B
Authority
CN
China
Prior art keywords
state
hard disk
abnormal
information
nvme hard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011453229.2A
Other languages
English (en)
Other versions
CN112506744A (zh
Inventor
李世坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202011453229.2A priority Critical patent/CN112506744B/zh
Publication of CN112506744A publication Critical patent/CN112506744A/zh
Application granted granted Critical
Publication of CN112506744B publication Critical patent/CN112506744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种NVMe硬盘的运行状态监测方法、装置及设备,该方法包括:获取NVMe硬盘的运行信息;其中,运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;根据运行信息,确定NVMe硬盘的运行状态;其中,运行状态包括正常运行状态和异常预警状态;在运行状态为异常预警状态时,生成并输出运行状态对应的预警信息;本发明通过在运行状态为异常预警状态时,生成并输出运行状态对应的预警信息,能够在NVMe硬盘完全失效前,对监测到的异常情况及时进行预警,能够及时识别到潜在的风险,避免造成宕机和数据丢失等严重故障,从而及时修复排除NVMe硬盘的可修复故障。

Description

一种NVMe硬盘的运行状态监测方法、装置及设备
技术领域
本发明涉及服务器技术领域,特别涉及一种NVMe硬盘的运行状态监测方法、装置及设备。
背景技术
NVMe是Non-Volatile Memory express(非易失性内存主机控制器接口规范)的简称,是通过PCIe总线将存储连接到服务器的接口规范。目前,随着大数据的发展,对数据响应速度的要求越来越高,由开始使用少量NVMe硬盘做缓存加速,到现在大量使用NVMe硬盘做热数据存储,NVMe硬盘的应用也更加广泛。因为介质不同,NVMe硬盘具有不同于SATA硬盘的特性,如SATA接口机械硬盘的功耗大约10W,而标准NVMe硬盘的功耗达到25W,散热考验更加严峻;NVMe硬盘的存储颗粒有读写寿命限制,使用不当会使硬盘过早磨损。
目前,普遍通过NVMe背板故障指示灯检测NVMe硬盘故障,需要在数据存储异常或者机房巡视的时候才能发现问题;并且找到故障的NVMe硬盘后,技术人员把故障盘从服务器中取出来,使用专用的设备进行分析或修复,而由于NVMe硬盘的故障的发生不可预期,一旦发生故障往往是难以修复的。因此,如何能够在NVMe硬盘的运行使用过程中,监测NVMe硬盘的运行状态,避免因NVMe硬盘故障所造成的宕机和数据丢失等严重故障,是现今急需解决问题。
发明内容
本发明的目的是提供一种NVMe硬盘的运行状态监测方法、装置及设备,以通过对NVMe硬盘完全失效前的故障预警,避免因NVMe硬盘故障所造成的宕机和数据丢失等严重故障。
为解决上述技术问题,本发明提供一种NVMe硬盘的运行状态监测方法,包括:
获取NVMe硬盘的运行信息;其中,所述运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;
根据所述运行信息,确定所述NVMe硬盘的运行状态;其中,所述运行状态包括正常运行状态和异常预警状态;
在所述运行状态为所述异常预警状态时,生成并输出所述运行状态对应的预警信息。
可选的,所述运行信息包括所述写入状态信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:
判断所述写入状态信息是否为可写状态;
若否,则确定所述运行状态为写入异常状态;其中,所述异常预警状态包括所述写入异常状态。
可选的,所述运行信息包括所述读写速度信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:
判断所述读写速度信息是否大于预设读写速度;
若否,则确定所述运行状态为读写速度异常状态;其中,所述异常预警状态包括所述读写速度异常状态。
可选的,所述运行信息包括所述温度信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:
判断所述温度信息是否大于第一温度阈值;
若是,则判断所述温度信息是否大于第二温度阈值;其中,所述第二温度阈值大于所述第一温度阈值;
若不大于所述第二温度阈值,则确定所述运行状态为轻度温度异常状态;
若大于所述第二温度阈值,则确定所述运行状态为严重温度异常状态;其中,所述异常预警状态包括所述轻度温度异常状态和所述严重温度异常状态。
可选的,所述运行信息包括所述坏块数量信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:
判断所述坏块数量信息是否大于预警坏块数量;
若是,则判断所述坏块数量信息是否大于危险坏块数量;其中,所述危险坏块数量大于所述预警坏块数量;
若不大于所述危险坏块数量,则确定所述运行状态为轻度坏块异常状态;
若大于所述危险坏块数量,则确定所述运行状态为严重坏块异常状态。
可选的,该方法还包括:
在所述运行状态为所述异常预警状态时,执行所述运行状态对应的处理操作。
可选的,所述异常预警状态包括写入异常状态、读写速度异常状态、轻度温度异常状态、严重温度异常状态、轻度坏块异常状态和所述严重坏块异常状态时,所述执行所述运行状态对应的处理操作,包括:
若所述运行状态为所述写入异常状态,则对所述NVMe硬盘的固件进行在线升级修复;
若所述运行状态为所述读写速度异常状态,则对所述NVMe硬盘进行垃圾清理操作;
若所述运行状态为所述轻度温度异常状态,则将所述NVMe硬盘的I/O速度调整到预设低速数值;其中,所述预设低速数值小于正常运行状态对应的预设正常数值;
若所述运行状态为所述严重温度异常状态,则停止所述NVMe硬盘的读写操作;
若所述运行状态为所述轻度坏块异常状态,则对所述NVMe硬盘中的坏块进行修复;
若所述运行状态为所述严重坏块异常状态,则将所述NVMe硬盘中的数据备份到预设硬盘中。
可选的,所述对所述NVMe硬盘的固件进行在线升级修复,包括:
根据所述NVMe硬盘的重要产品数据信息,匹配所述NVMe硬盘对应的固件;
将所述固件下载到所述NVMe硬盘中并激活所述固件。
本发明还提供了一种NVMe硬盘的运行状态监测装置,包括:
信息获取模块,用于获取NVMe硬盘的运行信息;其中,所述运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;
状态确定模块,用于根据所述运行信息,确定所述NVMe硬盘的运行状态;其中,所述运行状态包括正常运行状态和异常预警状态;
预警模块,用于在所述运行状态为所述异常预警状态时,生成并输出所述运行状态对应的预警信息。
本发明还提供了一种NVMe硬盘的运行状态监测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的NVMe硬盘的运行状态监测方法的步骤。
本发明所提供的一种NVMe硬盘的运行状态监测方法,包括:获取NVMe硬盘的运行信息;其中,运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;根据运行信息,确定NVMe硬盘的运行状态;其中,运行状态包括正常运行状态和异常预警状态;在运行状态为异常预警状态时,生成并输出运行状态对应的预警信息;
可见,本发明通过在NVMe硬盘的运行状态为异常预警状态时,生成并输出运行状态对应的预警信息,能够在NVMe硬盘完全失效前,对监测到的异常情况及时进行预警,能够及时识别到潜在的风险,避免造成宕机和数据丢失等严重故障,从而使得NVMe硬盘的可修复故障能够被及时排除,避免小故障积累成不可修复的大故障的情况。此外,本发明还提供了一种NVMe硬盘的运行状态监测装置及设备,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种NVMe硬盘的运行状态监测方法的流程图;
图2为本发明实施例所提供的一种NVMe硬盘的运行状态监测方法的***结构示意图;
图3为本发明实施例所提供的另一种NVMe硬盘的运行状态监测方法的流程示意图;
图4为本发明实施例所提供的一种NVMe硬盘的运行状态监测装置的结构框图;
图5为本发明实施例所提供的一种NVMe硬盘的运行状态监测设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种NVMe硬盘的运行状态监测方法的流程图。该方法可以包括:
步骤101:获取NVMe硬盘的运行信息;其中,运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项。
可以理解的是,本步骤中NVMe硬盘的运行状态监测设备(如服务器)的处理器可以获取连接的NVMe硬盘的运行信息,即NVMe硬盘运行使用过程中需要监测的信息;如图2所示,服务器中运行有控制***的处理器可以获取通过NVMe背板连接的每个NVMe硬盘各自的运行信息。
具体的,对于本步骤中处理器获取的NVMe硬盘的运行信息的具体内容,可以由设计人员根据实用场景和用户需求自行设置,如运行信息可以包括NVMe硬盘运行使用时的温度(即温度信息);运行信息也可以包括NVMe硬盘运行使用时的数据读写速度(即读写速度信息),如数据读取速度和数据写入速度;运行信息还可以包括NVMe硬盘运行使用时的写入状态(即写入状态信息),如NVMe硬盘能够写入数据时的可写状态或NVMe硬盘不能写入数据时的不可写状态;运行信息还可以包括NVMe硬盘运行使用时的坏块数量(即坏块数量信息)。
步骤102:根据运行信息,确定NVMe硬盘的运行状态;其中,运行状态包括正常运行状态和异常预警状态。
可以理解的是,本步骤中的异常预警状态可以为NVMe硬盘存在问题(即故障)时的运行状态,即NVMe硬盘的运行状态处于异常预警状态时,处理器可以确定NVMe硬盘存在问题,需要进行预警。
具体的,对于本步骤中异常预警状态的具体数量和类型,可以由设计人员根据实用场景和用户需求自行设置,如异常预警状态可以包括NVMe硬盘的写入状态异常对应的写入异常状态、NVMe硬盘的读写速度异常对应的读写速度异常状态、NVMe硬盘的温度异常对应的温度异常状态和NVMe硬盘的坏块数量异常对应的坏块异常状态中的任意一项或多项;相应的,温度异常状态可以包括轻度温度异常状态和严重温度异常状态,坏块异常状态可以包括轻度坏块异常状态和严重坏块异常状态。
对应的,对于本步骤中处理器根据运行信息,确定NVMe硬盘的运行状态的具体方式,可以由设计人员自行设置,如异常预警状态包括写入异常状态、读写速度异常状态、轻度温度异常状态、严重温度异常状态、轻度坏块异常状态和严重坏块异常状态这六种异常状态时,处理器可以依次或分别利用运行信息中相应的内容,检测NVMe硬盘的运行状态是否处于上述六种异常状态;若不处于上述六种异常状态,则确定NVMe硬盘的运行状态处于正常运行状态。例如处理器可以判断运行信息中的写入状态信息是否为可写状态;若不为可写状态,即NVMe硬盘不能写入数据,则确定NVMe硬盘的运行状态处于写入异常状态。处理器可以判断运行信息中的读写速度信息是否大于预设读写速度,即读写速度信息中的读速度和写速度是否均大于各自对应的阈值(即预设读写速度);若不大于预设读写速度,则确定NVMe硬盘的运行状态处于读写速度异常状态。处理器可以判断运行信息中的温度信息是否大于第一温度阈值(如图3中的阈值1);若是,则判断温度信息是否大于第二温度阈值(如图3中的阈值2);其中,第二温度阈值大于第一温度阈值;若不大于第二温度阈值,则确定NVMe硬盘的运行状态为轻度温度异常状态;若大于第二温度阈值,则确定NVMe硬盘的运行状态为严重温度异常状态。处理器可以判断运行信息中的坏块数量信息是否大于预警坏块数量;若是,则判断坏块数量信息是否大于危险坏块数量(如图3中坏块数量对应的阈值);其中,危险坏块数量大于预警坏块数量;若不大于危险坏块数量,则确定运行状态为轻度坏块异常状态;若大于危险坏块数量,则确定运行状态为严重坏块异常状态。
相应的,本实施例中NVMe硬盘的运行状态可以处于一个或多种异常预警状态或者正常运行状态。
步骤103:在运行状态为异常预警状态时,生成并输出运行状态对应的预警信息。
可以理解的是,本步骤的目的可以为处理器在确定NVMe硬盘的运行状态为异常预警状态时,通过生成并输出运行状态所处的异常预警状态对应的预警信息,提醒用户NVMe硬盘存在异常问题,从而使用户可以及时修复NVMe硬盘中的异常问题。
具体的,异常预警状态包括写入异常状态、读写速度异常状态、轻度温度异常状态、严重温度异常状态、轻度坏块异常状态和严重坏块异常状态这六种异常状态时,若运行状态处于写入异常状态,则本步骤中生成并输出的预警信息可以包括写入异常信息;若运行状态处于读写速度异常状态,则本步骤中生成并输出的预警信息可以包括读写速度异常信息;若运行状态处于轻度温度异常状态,则本步骤中生成并输出的预警信息可以包括轻度温度异常信息;若运行状态处于严重温度异常状态,则本步骤中生成并输出的预警信息可以包括严重温度异常信息;若运行状态处于轻度坏块异常状态,则本步骤中生成并输出的预警信息可以包括轻度坏块异常信息;若运行状态处于严重坏块异常状态,则本步骤中生成并输出的预警信息可以包括严重坏块异常信息。
对应的,对于本步骤中处理器输出运行状态对应的预警信息的具体方式,可以由设计人员自行设置,如图2所示,服务器中运行有控制***的处理器可以将预警信息输出到管理中心,以使用户可以在管理中心查看到预警信息;处理器也可以将预警信息输出到显示器上显示。
进一步的,本实施例所提供的方法还可以包括处理器在NVMe硬盘的运行状态为目标异常预警状态时,执行运行状态对应的处理操作;其中,目标异常预警状态可以为部分或全部异常预警状态。如异常预警状态包括写入异常状态、读写速度异常状态、轻度温度异常状态、严重温度异常状态、轻度坏块异常状态和严重坏块异常状态这六种异常状态时,目标异常预警状态可以包括写入异常状态、读写速度异常状态、轻度温度异常状态和轻度坏块异常状态这四种不太严重的故障情况,从而通过执行运行状态对应的处理操作,自动对NVMe硬盘的这四种可修复故障进行在线排除;例如运行状态为写入异常状态时,处理器可以对NVMe硬盘的固件进行在线升级修复;运行状态为读写速度异常状态时,处理器可以对NVMe硬盘进行垃圾清理操作;运行状态为轻度温度异常状态时,处理器可以将NVMe硬盘的I/O速度调整到预设低速数值;其中,预设低速数值小于正常运行状态对应的预设正常数值;运行状态为轻度坏块异常状态时,处理器对NVMe硬盘中的坏块进行修复;相应的,如图3所示,运行状态为严重温度异常状态时,即温度信息大于第二温度阈值(如图3中的阈值2),处理器可以生成并输出严重温度异常信息,以提醒用户检测NVMe硬盘的散热***或者环境问题;运行状态为严重坏块异常状态时,即坏块数量信息大于危险坏块数量(如图3中坏块数量对应的阈值),处理器可以生成并输出严重坏块异常信息,以提醒用户提前备份数据,更换硬盘,以免造成数据损失或者业务中断。
对应的,目标异常预警状态可以为全部的异常预警状态,即处理器在NVMe硬盘的运行状态为异常预警状态时,执行运行状态对应的处理操作。如运行状态为严重温度异常状态时,处理器可以停止NVMe硬盘的读写操作;运行状态为严重坏块异常状态时,可以将NVMe硬盘中的数据备份到预设硬盘中。
具体的,处理器检测到NVMe硬盘工作在第一温度阈值(如60度)以上时,可以降低I/O速度,由于NVMe的接口一般是PCIe3.0的8Gb/s的速度,可以将NVMe硬盘的I/O速度调整到PCIe2.0的5Gb/s的速度(即预设低速数值);速度降低后,芯片的发热量减小,温度下降,温度下降到正常值,再恢复PCIe3.0的I/O速度;如果通过调节I/O速度不能降低NVMe硬盘的温度,就是散热***出了问题,超过检测到NVMe硬盘工作在第二温度阈值(如80度)以上时,可以停止NVMe硬盘的读写操作,输出严重温度异常信息提醒用户散热***或者环境问题,以免高温对NVMe硬盘造成硬件损伤。
NVMe硬盘的使用时间越长,写入的数据增多,整个空间写满一遍后,就需要先擦除旧的块再进行写入,影响写入速度。处理器检测到NVMe硬盘的读写速度信息不大于预设读写速度时,可以对NVMe硬盘进行垃圾清理操作;通过垃圾清理操作可以预先把已经被使用过,后来标记为无数据的空间整体擦除一遍,这样再有数据写入,只需要进行写操作就可以了,提高写入速度。
处理器检测到NVMe硬盘的写入状态信息不为可写状态,即NVMe硬盘不能写入数据时,可以确定NVMe硬盘的固件异常,通过对NVMe硬盘的固件进行在线升级修复,修复NVMe硬盘的固件;如处理器根据NVMe硬盘的VPD(Vital Product Data,重要产品数据)信息,匹配NVMe硬盘对应的固件;将固件下载到NVMe硬盘中并激活固件;例如处理器可以通过开源命令行工具nvmecli执行固件更新操作,用Download(下载)命令将固件(FW)下载到NVMe盘的DRAM(动态随机存取存储器)中,并发送Firmware Commit指令激活固件,实现固件的在线升级修复。
由于随着NVMe硬盘的坏块逐渐增多,整盘的可用空间减小,垃圾清理的频率就会增加,坏块的增加还会对硬盘的稳定性产生影响;因此,处理器检测到NVMe硬盘的运行状态处于轻度坏块异常状态时,可以对NVMe硬盘中的坏块进行修复,从而通过坏块修复对因异常掉电等原因造成的假性坏块进行擦除,增加可使用block(块)数量。而由于随着使用磨损,坏块数量还是会逐渐增加的,处理器检测到NVMe硬盘的运行状态处于严重坏块异常状态时,可以输出严重坏块异常信息,提醒用户更换新盘,以免造成数据损失或者业务中断,处理器还可以通过将NVMe硬盘中的数据备份到预设硬盘中,自动完成NVMe硬盘的备份,以避免用户不能及时更换新盘的情况。
本实施例中,本发明实施例通过在NVMe硬盘的运行状态为异常预警状态时,生成并输出运行状态对应的预警信息,能够在NVMe硬盘完全失效前,对监测到的异常情况及时进行预警,能够及时识别到潜在的风险,避免造成宕机和数据丢失等严重故障,从而使得NVMe硬盘的可修复故障能够被及时排除,避免小故障积累成不可修复的大故障的情况。
请参考图4,图4为本发明实施例所提供的一种NVMe硬盘的运行状态监测装置的结构框图。该装置可以包括:
信息获取模块10,用于获取NVMe硬盘的运行信息;其中,运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;
状态确定模块20,用于根据运行信息,确定NVMe硬盘的运行状态;其中,运行状态包括正常运行状态和异常预警状态;
预警模块30,用于在运行状态为异常预警状态时,生成并输出运行状态对应的预警信息。
可选的,运行信息包括写入状态信息时,状态确定模块20,可以包括:
第一确定子模块,用于判断写入状态信息是否为可写状态;若不为可写状态,则确定运行状态为写入异常状态;其中,异常预警状态包括写入异常状态。
可选的,运行信息包括读写速度信息时,状态确定模块20,可以包括:
第二确定子模块,用于判断读写速度信息是否大于预设读写速度;若不大于预设读写速度,则确定运行状态为读写速度异常状态;其中,异常预警状态包括读写速度异常状态。
可选的,运行信息包括温度信息时,状态确定模块20,可以包括:
温度判断子模块,用于判断温度信息是否大于第一温度阈值;
第三确定子模块,用于若大于第一温度阈值,则判断温度信息是否大于第二温度阈值;若不大于第二温度阈值,则确定运行状态为轻度温度异常状态;若大于第二温度阈值,则确定运行状态为严重温度异常状态;其中,第二温度阈值大于第一温度阈值,异常预警状态包括轻度温度异常状态和严重温度异常状态。
可选的,运行信息包括坏块数量信息时,状态确定模块20,可以包括:
坏块判断子模块,用于判断坏块数量信息是否大于预警坏块数量;
第四确定子模块,用于若大于预警坏块数量,则判断坏块数量信息是否大于危险坏块数量;若不大于危险坏块数量,则确定运行状态为轻度坏块异常状态;若大于危险坏块数量,则确定运行状态为严重坏块异常状态;其中,危险坏块数量大于预警坏块数量。
可选的,该装置还可以包括:
在线修复模块,用于在运行状态为异常预警状态时,执行运行状态对应的处理操作。
可选的,异常预警状态包括写入异常状态、读写速度异常状态、轻度温度异常状态、严重温度异常状态、轻度坏块异常状态和严重坏块异常状态时,在线修复模块,可以包括:
固件修复子模块,用于若运行状态为写入异常状态,则对NVMe硬盘的固件进行在线升级修复;
垃圾清理子模块,用于若运行状态为读写速度异常状态,则对NVMe硬盘进行垃圾清理操作;
第一降温子模块,用于若运行状态为轻度温度异常状态,则将NVMe硬盘的I/O速度调整到预设低速数值;其中,预设低速数值小于正常运行状态对应的预设正常数值;
第二降温子模块,用于若运行状态为严重温度异常状态,则停止NVMe硬盘的读写操作;
坏块修复子模块,用于若运行状态为轻度坏块异常状态,则对NVMe硬盘中的坏块进行修复;
备份子模块,用于若运行状态为严重坏块异常状态,则将NVMe硬盘中的数据备份到预设硬盘中。
可选的,固件修复子模块可以具体用于根据NVMe硬盘的重要产品数据信息,匹配NVMe硬盘对应的固件;将固件下载到NVMe硬盘中并激活固件。
本实施例中,本发明实施例通过预警模块30在NVMe硬盘的运行状态为异常预警状态时,生成并输出运行状态对应的预警信息,能够在NVMe硬盘完全失效前,对监测到的异常情况及时进行预警,能够及时识别到潜在的风险,避免造成宕机和数据丢失等严重故障,从而使得NVMe硬盘的可修复故障能够被及时排除,避免小故障积累成不可修复的大故障的情况。
请参考图5,图5为本发明实施例所提供的一种NVMe硬盘的运行状态监测设备的结构示意图。该设备1可以包括:
存储器11,用于存储计算机程序;处理器12,用于执行该计算机程序时实现如上述实施例所提供的NVMe硬盘的运行状态监测方法的步骤。
设备1可以包括存储器11、处理器12和总线13。
其中,存储器11至少包括一种类型的可读存储介质,该可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备1的内部存储单元。存储器11在另一些实施例中也可以是设备1的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备1的应用软件及各类数据,例如:执行NVMe硬盘的运行状态监测方法的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行NVMe硬盘的运行状态监测方法的程序的代码等。
该总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备1与其他电子设备之间建立通信连接。
可选地,该设备1还可以包括用户接口15,用户接口15可以包括显示器(Display)、输入单元比如按键,可选的用户接口15还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备1中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有组件11-15的设备1,本领域技术人员可以理解的是,图5示出的结构并不构成对设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
此外,本发明实施例还公开了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述实施例所提供的NVMe硬盘的运行状态监测方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上对本发明所提供的一种NVMe硬盘的运行状态监测方法、装置及设备进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (6)

1.一种NVMe硬盘的运行状态监测方法,其特征在于,包括:
获取NVMe硬盘的运行信息;其中,所述运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;
根据所述运行信息,确定所述NVMe硬盘的运行状态;其中,所述运行状态包括正常运行状态和异常预警状态;
所述运行信息包括所述温度信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:判断所述温度信息是否大于第一温度阈值;若是,则判断所述温度信息是否大于第二温度阈值;其中,所述第二温度阈值大于所述第一温度阈值;若不大于所述第二温度阈值,则确定所述运行状态为轻度温度异常状态;若大于所述第二温度阈值,则确定所述运行状态为严重温度异常状态;其中,所述异常预警状态包括所述轻度温度异常状态和所述严重温度异常状态;
所述运行信息包括所述坏块数量信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:判断所述坏块数量信息是否大于预警坏块数量;若是,则判断所述坏块数量信息是否大于危险坏块数量;其中,所述危险坏块数量大于所述预警坏块数量;若不大于所述危险坏块数量,则确定所述运行状态为轻度坏块异常状态;若大于所述危险坏块数量,则确定所述运行状态为严重坏块异常状态;
在所述运行状态为所述异常预警状态时,生成并输出所述运行状态对应的预警信息;
当所述异常预警状态为目标异常预警状态时,通过执行运行状态对应的处理操作对所述NVMe硬盘的故障进行在线排除,所述目标异常预警状态包括:写入异常状态、读写速度异常状态、所述轻度温度异常状态和所述轻度坏块异常状态;
若所述运行状态为所述写入异常状态,则所述通过执行运行状态对应的处理操作对所述NVMe硬盘的故障进行在线排除,包括:对所述NVMe硬盘的固件进行在线升级修复;
若所述运行状态为读写速度异常状态,则所述通过执行运行状态对应的处理操作对所述NVMe硬盘的故障进行在线排除,包括:对所述NVMe硬盘进行垃圾清理操作;
若所述运行状态为所述轻度温度异常状态,则所述通过执行运行状态对应的处理操作对所述NVMe硬盘的故障进行在线排除,包括:将所述NVMe硬盘的I/O速度调整到预设低速数值,其中,所述预设低速数值小于正常运行状态对应的预设正常数值;若所述运行状态为所述严重温度异常状态,则停止所述NVMe硬盘的读写操作;
若所述运行状态为所述轻度坏块异常状态,则所述通过执行运行状态对应的处理操作对所述NVMe硬盘的故障进行在线排除,包括:通过坏块修复对假性坏块进行擦除,对所述NVMe硬盘中的坏块进行修复;若所述运行状态为所述严重坏块异常状态,则将所述NVMe硬盘中的数据备份到预设硬盘中。
2.根据权利要求1所述的NVMe硬盘的运行状态监测方法,其特征在于,所述运行信息包括所述写入状态信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:
判断所述写入状态信息是否为可写状态;
若否,则确定所述运行状态为写入异常状态;其中,所述异常预警状态包括所述写入异常状态。
3.根据权利要求1所述的NVMe硬盘的运行状态监测方法,其特征在于,所述运行信息包括所述读写速度信息时,所述根据所述运行信息,确定所述NVMe硬盘的运行状态,包括:
判断所述读写速度信息是否大于预设读写速度;
若否,则确定所述运行状态为读写速度异常状态;其中,所述异常预警状态包括所述读写速度异常状态。
4.根据权利要求1所述的NVMe硬盘的运行状态监测方法,其特征在于,所述对所述NVMe硬盘的固件进行在线升级修复,包括:
根据所述NVMe硬盘的重要产品数据信息,匹配所述NVMe硬盘对应的固件;
将所述固件下载到所述NVMe硬盘中并激活所述固件。
5.一种NVMe硬盘的运行状态监测装置,其特征在于,包括:
信息获取模块,用于获取NVMe硬盘的运行信息;其中,所述运行信息包括温度信息、读写速度信息、写入状态信息和坏块数量信息中的至少一项;
状态确定模块,用于根据所述运行信息,确定所述NVMe硬盘的运行状态;其中,所述运行状态包括正常运行状态和异常预警状态;
所述运行信息包括所述温度信息时,所述状态确定模块具体用于:判断所述温度信息是否大于第一温度阈值;若是,则判断所述温度信息是否大于第二温度阈值;其中,所述第二温度阈值大于所述第一温度阈值;若不大于所述第二温度阈值,则确定所述运行状态为轻度温度异常状态;若大于所述第二温度阈值,则确定所述运行状态为严重温度异常状态;其中,所述异常预警状态包括所述轻度温度异常状态和所述严重温度异常状态;
所述运行信息包括所述坏块数量信息时,所述状态确定模块具体用于:判断所述坏块数量信息是否大于预警坏块数量;若是,则判断所述坏块数量信息是否大于危险坏块数量;其中,所述危险坏块数量大于所述预警坏块数量;若不大于所述危险坏块数量,则确定所述运行状态为轻度坏块异常状态;若大于所述危险坏块数量,则确定所述运行状态为严重坏块异常状态;
预警模块,用于在所述运行状态为所述异常预警状态时,生成并输出所述运行状态对应的预警信息;
在线修复模块,用于当所述异常预警状态为目标异常预警状态时,通过执行运行状态对应的处理操作对所述NVMe硬盘的故障进行在线排除,所述目标异常预警状态包括:写入异常状态、读写速度异常状态、所述轻度温度异常状态和所述轻度坏块异常状态;
所述在线修复模块具体用于:若所述运行状态为所述写入异常状态,则对所述NVMe硬盘的故障进行在线排除,包括:对所述NVMe硬盘的固件进行在线升级修复
所述在线修复模块还具体用于:若所述运行状态为读写速度异常状态,则对所述NVMe硬盘的故障进行在线排除,包括:对所述NVMe硬盘进行垃圾清理操作;
所述在线修复模块还具体用于:若所述运行状态为所述轻度温度异常状态,则将所述NVMe硬盘的I/O速度调整到预设低速数值,其中,所述预设低速数值小于正常运行状态对应的预设正常数值;若所述运行状态为所述严重温度异常状态,则停止所述NVMe硬盘的读写操作;
所述在线修复模块还具体用于:若所述运行状态为所述轻度坏块异常状态,则通过坏块修复对假性坏块进行擦除,对所述NVMe硬盘中的坏块进行修复;若所述运行状态为所述严重坏块异常状态,则将所述NVMe硬盘中的数据备份到预设硬盘中。
6.一种NVMe硬盘的运行状态监测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的NVMe硬盘的运行状态监测方法的步骤。
CN202011453229.2A 2020-12-11 2020-12-11 一种NVMe硬盘的运行状态监测方法、装置及设备 Active CN112506744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011453229.2A CN112506744B (zh) 2020-12-11 2020-12-11 一种NVMe硬盘的运行状态监测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011453229.2A CN112506744B (zh) 2020-12-11 2020-12-11 一种NVMe硬盘的运行状态监测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112506744A CN112506744A (zh) 2021-03-16
CN112506744B true CN112506744B (zh) 2023-08-25

Family

ID=74973296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011453229.2A Active CN112506744B (zh) 2020-12-11 2020-12-11 一种NVMe硬盘的运行状态监测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112506744B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190179B (zh) * 2021-05-26 2022-02-11 北京自由猫科技有限公司 提升机械硬盘使用寿命的方法、存储设备及***
CN113625957B (zh) * 2021-06-30 2024-02-13 济南浪潮数据技术有限公司 一种硬盘故障的检测方法、装置及设备
CN113556404A (zh) * 2021-08-03 2021-10-26 广东九博科技股份有限公司 一种设备内部单盘间的通信方法及***
CN113901530B (zh) * 2021-09-10 2024-01-09 苏州浪潮智能科技有限公司 一种硬盘防御性预警保护的方法、装置、设备及可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218173A (zh) * 2013-03-27 2013-07-24 华为技术有限公司 存储控制方法及装置
CN106201801A (zh) * 2016-07-18 2016-12-07 联想(北京)有限公司 一种电子设备和报错方法
CN107943652A (zh) * 2017-11-22 2018-04-20 郑州云海信息技术有限公司 一种存储***中的硬盘控制方法、装置及可读存储介质
CN109408328A (zh) * 2018-10-08 2019-03-01 郑州云海信息技术有限公司 一种硬盘健康状态的监测方法、装置以及设备
CN110704228A (zh) * 2019-09-29 2020-01-17 至誉科技(武汉)有限公司 一种固态硬盘异常处理方法及***
CN111858244A (zh) * 2020-07-16 2020-10-30 苏州浪潮智能科技有限公司 一种硬盘的监控方法、***、设备以及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3757810B1 (en) * 2016-12-28 2023-04-05 Huawei Technologies Co., Ltd. Packet forwarding method, device, and system in nvme over fabric

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218173A (zh) * 2013-03-27 2013-07-24 华为技术有限公司 存储控制方法及装置
CN106201801A (zh) * 2016-07-18 2016-12-07 联想(北京)有限公司 一种电子设备和报错方法
CN107943652A (zh) * 2017-11-22 2018-04-20 郑州云海信息技术有限公司 一种存储***中的硬盘控制方法、装置及可读存储介质
CN109408328A (zh) * 2018-10-08 2019-03-01 郑州云海信息技术有限公司 一种硬盘健康状态的监测方法、装置以及设备
CN110704228A (zh) * 2019-09-29 2020-01-17 至誉科技(武汉)有限公司 一种固态硬盘异常处理方法及***
CN111858244A (zh) * 2020-07-16 2020-10-30 苏州浪潮智能科技有限公司 一种硬盘的监控方法、***、设备以及介质

Also Published As

Publication number Publication date
CN112506744A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112506744B (zh) 一种NVMe硬盘的运行状态监测方法、装置及设备
US9875036B2 (en) Concurrent upgrade and backup of non-volatile memory
US20090100287A1 (en) Monitoring Apparatus and a Monitoring Method Thereof
US7921341B2 (en) System and method for reproducing memory error
US20120271983A1 (en) Computing device and data synchronization method
CN114758715B (zh) 一种硬盘故障灯点亮方法、装置、设备及可读存储介质
US8423729B2 (en) Part information restoration method, part information management method and electronic apparatus
CN104021058A (zh) 一种测试板卡快速启动的方法
CN109445561B (zh) 一种应用于服务器上的掉电保护***,方法及服务器
CN115525486A (zh) Ssd smbus温度报警及低功耗状态的测试验证方法及装置
CN112506817B (zh) 一种控制硬盘背板led的方法和设备
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
US8024604B2 (en) Information processing apparatus and error processing
CN210721440U (zh) 一种pcie卡异常恢复装置及pcie卡、pcie扩展***
CN110825547B (zh) 一种基于smbus的pcie卡异常恢复装置及方法
CN115242753B (zh) 网卡mac地址烧录方法、***、电子设备与存储介质
CN115795568A (zh) 一种液冷服务器漏液保护方法、装置、设备及存储介质
CN104914784A (zh) 数值控制装置
JP2016146071A (ja) ハードディスクドライブ装置診断装置及びハードディスクドライブ装置診断機能を備えた複写装置
CN104678292A (zh) 一种复杂可编程逻辑器件cpld测试方法和装置
CN114218001A (zh) 故障修复方法、装置、电子设备及可读存储介质
JP2001256005A (ja) ハードディスク装置
US11983304B2 (en) On-board secure storage system for detecting unauthorized access or failure and performing predetermined processing
CN116107788B (zh) 一种i2c总线故障处理方法及装置
CN114216221B (zh) 用于多联机的检测方法、装置、多联机及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant