CN112084097A - 一种磁盘告警方法及装置 - Google Patents
一种磁盘告警方法及装置 Download PDFInfo
- Publication number
- CN112084097A CN112084097A CN202011021727.XA CN202011021727A CN112084097A CN 112084097 A CN112084097 A CN 112084097A CN 202011021727 A CN202011021727 A CN 202011021727A CN 112084097 A CN112084097 A CN 112084097A
- Authority
- CN
- China
- Prior art keywords
- information
- disk
- current
- file
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000002159 abnormal effect Effects 0.000 claims abstract description 122
- 238000007689 inspection Methods 0.000 claims abstract description 63
- 238000004891 communication Methods 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开一种磁盘告警方法,包括:每个磁盘控制器的当前周期日志文件及与磁盘控制器连接的磁盘的状态信息,当前周期日志文件包括:正常信息和异常信息;按照预设规则将每个当前周期日志文件中的异常信息及与异常信息对应的状态信息、异常状态信息及与异常状态信息对应的正常信息写入当前巡检文件中;将当前巡检文件中的信息一一与上一周期巡检文件中的信息进行比对,直至当前巡检文件中的全部信息比对完成;将比对未通过的信息写入当前告警文件中;基于当前告警文件发出告警信息。本说明书实施例的实施保证发出的告警均为自动巡检时新出现的故障,使故障信息不会淹没在大量的重复告警中,提高故障的发现率。
Description
技术领域
本发明涉及服务器故障监控告警领域技术领域,特别涉及一种磁盘告警方 法及装置。
背景技术
随着数据中心的高速发展,在海量数据的存储方面,磁盘密集型服务器越 来越发挥出其大容量、低成本、扩展灵活、高可靠性的优势。在硬件上,磁盘 密集型服务器采用了设备冗余设计,提供热插拔技术,可在线更换磁盘、电源、 风扇等,磁盘阵列采用RAID机制,对数据库、文件、共享资源信息等进行相应 的保护。当一块磁盘出现故障后,服务器发出告警,只需更换故障磁盘,磁盘 阵列通过RAID机制进行数据校验恢复,不会影响***的数据读写。
现有技术条件下,部分厂商和型号的磁盘密集型服务器的故障状态不能采 用BMC或IPMI方式的硬件管理平台进行收集,而是通过运维工程师人工手动巡 检完成,缺少在操作***级别定时自动发现故障及即将发生故障的预警的方法, 针对该项告警通路的空白现状目前尚未有有效的解决方案。
由于磁盘密集型服务器的磁盘数量多,磁盘故障是一种高发的故障场景, 且故障发生时需要及时获得告警信息进行处理,避免因故障状态持续时间过长 或未及时发现造成数据丢失的风险。目前的故障发现方式依赖运维工程师的人 工手动巡检完成,造成了对运维工程师人力成本的过多消耗,且存在故障漏检、 误检或发现不及时的风险。
因此,为避免单一告警通路失效时磁盘故障无法被发现,亟需提供一种磁 盘告警方法及装置的技术方案,其可以是从操作***级别考虑设计一套针对磁 盘密集型服务器的磁盘故障告警机制,通过定时收取磁盘状态日志,对即将发 生的故障进行预判,并通过定时监控磁盘状态,及时获得故障告警信息,方便 运维人员处理。
发明内容
针对现有技术的上述问题,本发明的目的在于提供一种磁盘告警方法及装 置,能够对日志文件中的敏感信息进行检测,以提高敏感信息的管控,提高用 户安全感。
第一方面,本发明提供一种磁盘告警方法,所述方法应用于磁盘密集型服 务器,所述方法包括:
遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的当前周 期日志文件及与所述磁盘控制器连接的磁盘的状态信息,所述当前周期日志文 件包括:正常信息和异常信息,所述状态信息包括:正常状态信息和异常状态 信息;
按照预设规则将每个所述当前周期日志文件中的异常信息及与所述异常信 息对应的所述状态信息、所述异常状态信息及与所述异常状态信息对应的正常 信息写入当前巡检文件中;
将所述当前巡检文件中的信息一一与上一周期巡检文件中的信息进行比对, 直至所述当前巡检文件中的全部信息比对完成;
将比对未通过的信息写入当前告警文件中;
基于所述当前告警文件发出告警信息,以使得订阅告警信息的人员获知磁 盘对应的异常信息和/或磁盘控制器对应的异常状态信息的内容。
第二方面,本发明提供一种磁盘告警装置,包括:
信息获取模块,被配置为执行遍历当前周期服务器中每个磁盘控制器,以 获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的磁盘的状 态信息,所述当前周期日志文件包括:正常信息和异常信息,所述状态信息包 括:正常状态信息和异常状态信息;
第一写入模块,被配置为执行按照预设规则将每个所述当前周期日志文件 中的异常信息及与所述异常信息对应的所述状态信息、所述异常状态信息及与 所述异常状态信息对应的正常信息写入当前巡检文件中;
比对模块,被配置为执行将所述当前巡检文件中的信息一一与上一周期巡 检文件中的信息进行比对,直至所述当前巡检文件中的全部信息比对完成;
第二写入模块,被配置为执行将比对未通过的信息写入当前告警文件中;
告警模块,被配置为执行基于所述当前告警文件发出告警信息,以使得订 阅告警信息的人员获知磁盘对应的异常信息和/或磁盘控制器对应的异常状态 信息的内容。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介 质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序 由处理器加载并执行以实现如上述所述的磁盘告警方法。
第四方面,本发明提供一种磁盘告警设备,包括至少一个处理器,以及与 所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至 少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指 令实现如上述所述的磁盘告警方法。
本发明提供的一种磁盘告警方法及装置,具有如下有益效果:
本说明书实施例的实施将原来部分厂商和型号的磁盘密集型服务器需要通 过运维工程师人工手动巡检的方式发现故障和异常的过程转化为定时自动巡检 发现并告警的方式,有效避免了故障漏检、误检或发现不及时的风险,从而大 大节约了企业人力运维成本,提高了运维工作的效率。并且,本说明书实施例 的实施保证发出的告警均为自动巡检时新出现的故障,使故障信息不会淹没在 大量的重复告警中,解决运维人员重复收到相同故障信息的困扰,使得新出现 的故障能够被及时发现并处理,提高故障的发现率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中 所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其它附图。
图1为本发明实施例提供的第一种磁盘告警方法的流程示意图;
图2为本发明实施例提供的第二种磁盘告警方法的流程示意图;
图3为本发明实施例提供的第三种磁盘告警方法的流程示意图;
图4为本发明实施例提供的第四种磁盘告警方法的流程示意图;
图5为本发明实施例提供的第五种磁盘告警方法的流程示意图;
图6为本发明实施例提供的第六种磁盘告警方法的流程示意图;
图7为本发明实施例提供的一种磁盘告警装置的结构示意图;
图8为本发明实施例提供的一种磁盘告警设备的结构示意图。
其中,110-信息获取模块,120-第一写入模块,130-比对模块,140-第二 写入模块,150-告警模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第 一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后 次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发 明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如, 包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列 出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、 产品或设备固有的其它步骤或单元。
磁盘阵列(Redundant Arrays of Independent Disks,RAID),有"独立磁 盘构成的具有冗余能力的阵列"之意。
磁盘阵列是由很多磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提 供数据所产生加成效果提升整个磁盘***效能。利用这项技术,将数据切割成 许多区段,分别存放在各个硬盘上。
磁盘阵列还能利用同位检查(Parity Check)的观念,在数组中任意一个硬 盘故障时,仍可读出数据,在数据重构时,将数据经计算后重新置入新硬盘中。
如图1所示,图1为本发明实施例提供的第一种磁盘告警方法的流程示意 图,本发明提供一种磁盘告警方法,方法应用于磁盘密集型服务器,本方法包 括:
S102、遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的 当前周期日志文件及与所述磁盘控制器连接的磁盘的状态信息,所述当前周期 日志文件包括:正常信息和异常信息,所述状态信息包括:正常状态信息和异 常状态信息。
在具体的实施过程中,服务器中可以有多个磁盘控制器,每个磁盘控制器 与多个磁盘连接,磁盘控制器主要由与计算机***总线相连的控制逻辑电路和 微处理器,完成读出数据分离和写入数据补偿的读写数据解码和编码电路,数 据检错和纠错电路,根据计算机发来的命令对数据传递、串并转换以及格式化 等进行控制的逻辑电路,存放磁盘基本输入输出程序的只读存储器和用以数据 交换的缓冲区等部分组成。当前周期日志文件中记载有表征接收到的执行命令 和对应的执行情况。状态信息表征磁盘控制器连接的磁盘的状态。状态信息可 以包括:正常状态信息和异常状态信息,异常状态信息可以表征为磁盘出现异 常状态,磁盘的异常状态可以包括:故障状态和未知状态。故障状态为能够识 别出的磁盘故障,未知状态为磁盘不能正常工作且又不能识别出的故障状态。
可以理解的是,遍历每个磁盘控制器可以通过预设的巡检脚本实现,巡检 脚本可以定时执行遍历每个磁盘控制器。
S104、按照预设规则将每个所述当前周期日志文件中的异常信息及与所述 异常信息对应的所述状态信息、所述异常状态信息及与所述异常状态信息对应 的正常信息写入当前巡检文件中。
在具体的实施过程中,当前巡检文件可以是遍历当前周期服务器中每个磁 盘控制器之前建立的可读写的文件。当前周期日志文件中的异常信息和状态信 息中的异常状态信息可以根据关键字匹配的方式确定出。
根据异常信息的发生时间及异常状态信息的发生时间依次将异常信息及与 所述异常信息对应的所述状态信息、异常状态信息及与所述异常状态信息对应 的正常信息写入当前巡检文件中。
或、将异常信息及与所述异常信息对应的所述状态信息、异常状态信息及 与所述异常状态信息对应的正常信息写入当前巡检文件中后,根据异常信息和 异常状态信息发生的时间对应全部信息进行排序。
S106、将所述当前巡检文件中的信息一一与上一周期巡检文件中的信息进 行比对,直至所述当前巡检文件中的全部信息比对完成。
S108、将比对未通过的信息写入当前告警文件中。
在具体的实施过程中,可以通过关键词匹配的方式将当前巡检文件中的信 息一一与上一周期巡检文件中的信息进行比对,并将比对未通过的信息写入当 前告警文件中,直至当前巡检文件中的信息全部比对完成。
或、通过关键词匹配的方式将当前巡检文件中的信息一一与上一周期巡检 文件中的信息进行比对,在当前巡检文件中的全部信息比对完成后,将比对未 通过的信息写入当前告警文件中。
可以理解的是,当前告警文件特定文件名称的文件,如:check_megaraid_ disk_log。当前巡检文件的文件名称可以是checkDisk.log_now_tmp。
S110、基于所述当前告警文件发出告警信息,以使得订阅告警信息的人员 获知磁盘对应的异常信息和/或磁盘控制器对应的异常状态信息的内容。
在具体的实施过程中,可以基于当前告警文件中的异常信息或异常状态信 息生成对应的告警信息并推送给订阅告警信息的终端设备。以使得订阅告警信 息的人员获知当前周期中发生且上一周期未发生的磁盘对应的异常信息和/或 磁盘控制器对应的异常状态信息的内容。
本说明书实施例的实施将原来部分厂商和型号的磁盘密集型服务器需要通 过运维工程师人工手动巡检的方式发现故障和异常的过程转化为定时自动巡检 发现并告警的方式,有效避免了故障漏检、误检或发现不及时的风险,从而大 大节约了企业人力运维成本,提高了运维工作的效率。并且,本说明书实施例 的实施保证发出的告警均为自动巡检时新出现的故障,使故障信息不会淹没在 大量的重复告警中,解决运维人员重复收到相同故障信息的困扰,使得新出现 的故障能够被及时发现并处理,提高故障的发现率。
在上述实施例基础上,本说明书一个实施例中,图2为本发明实施例提供 的第二种磁盘告警方法的流程示意图,如图2所示,所述遍历当前周期服务器 中每个磁盘控制器,以获取每个磁盘控制器的当前周期日志文件及与所述磁盘 控制器连接的磁盘的状态信息之后包括:
S202、按照所述磁盘控制器的通讯地址将所述当前周期日志文件输出至对 应的文件夹中并添加当前时间标签得到当前周期归档文件。
在具体的实施过程中,由于每个磁盘控制器的通讯地址不同,因此,可以 根据磁盘控制器的通讯地址数量建立对应数量的归档文件,每个归档文件对应 一个磁盘控制器,可以按照磁盘控制器的通讯地址将对应的当前周期日志文件 输出至对应的文件夹中的归档文件中,并添加当前时间标签得到当前周期归档 文件。每个当前周期归档文件中均包括对应磁盘控制器的执行命令和执行情况。
S204、将所述磁盘控制器对应的磁盘的状态信息按照预设类别记录至与所 述当前周期归档文件对应的文件中。
在具体的实施过程中,预设类别可以是状态信息设定的,预设类别可以包 括:异常、未知和正常三个类别。
示例地、磁盘控制器有a个,每个磁盘控制器连接有b个磁盘,因此建立 有a个文件夹,每个文件夹中归档有对应的当前周期归档文件和对应的b个状 态信息,每个状态信息存储在对应类别的文件中。
本说明书实施例的实施,通过对磁盘控制器的状态及连接的磁盘的遍历, 收集到每个磁盘控制器的当前周期日志文件及连接磁盘的状态信息,并将收集 到的信息存储归档,能够全面掌握磁盘密集型服务器的全生命周期的运行情况, 实现对其全生命周期的管理。同时,通过运维数据的历史记录留存,可以发挥 数据的价值,为后续故障统计和分析、提高智能管理和运维能力提供数据支撑。
在上述实施例基础上,本说明书一个实施例中,图3为本发明实施例提供 的第三种磁盘告警方法的流程示意图,如图3所示,所述基于所述当前告警文 件发出告警信息之后包括:
S302、清空所述当前告警文件中的信息。
在具体的实施过程中,在发出告警信息之后可以清空当前告警文件中的信 息。
本说明书实施例的实施能够有效避免当前告警文件中信息过多且存在当前 周期以外的异常状态信息或异常信息,提升该说明书实施例的可靠性。
在上述实施例基础上,本说明书一个实施例中,图4为本发明实施例提供 的第四种磁盘告警方法的流程示意图,如图4所示,所述磁盘包括虚拟磁盘组 和物理磁盘组;
所述遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的当 前周期日志文件及与所述磁盘控制器连接的磁盘的状态信息包括:
S302、获取磁盘阵列上的磁盘拓扑信息,得到不同物理磁盘组的节点信息、 每个物理磁盘组的物理槽位信息及每个虚拟磁盘组与所述物理磁盘组的对应关 系。
在具体的实施过程中,由于磁盘阵列中设置有多个物理磁盘组和多个虚拟 磁盘组,在遍历磁盘控制器之前应与对应的物理磁盘组和虚拟磁盘组建立通讯 连接,并分配不同的通讯地址,并为服务器中的多个节点信息分配相应的地址 信息。
S304、基于所述磁盘拓扑信息获取每个磁盘控制器的当前周期日志文件及 与所述磁盘控制器连接的虚拟磁盘组及物理磁盘组的工况信息,所述工况信息 包括:状态信息、节点信息和物理槽位信息。
在具体的实施过程中,可以基于磁盘拓扑信息获取每个磁盘控制器的当前 周期日志文件及与磁盘控制器连接的虚拟磁盘组及物理磁盘组的工况信息,所 述工况信息包括:状态信息、节点信息和物理槽位信息。
相应的,所述按照预设规则将每个所述当前周期日志文件及中的异常信息 及与所述异常信息对应的所述状态信息、所述异常状态信息及与所述异常状态 信息对应的正常信息写入当前巡检文件中包括:
按照预设规则将每个所述当前周期日志文件及中的异常信息及与所述异常 信息对应的所述工况信息、包含所述异常状态信息的工况信息及与所述异常状 态信息对应的正常信息写入当前巡检文件中。
在具体的实施过程中,巡检脚本可以调用storcli64工具,管理和获取RA ID卡上的硬件拓扑信息,找到每颗磁盘的物理槽位对应关系,获取每个虚拟磁 盘组VD下的物理磁盘对应关系,获得物理磁盘组的状态信息和虚拟磁盘组的状 态信息。当故障或异常发生后,将物理磁盘组的异常状态信息、机器节点信息、 故障磁盘物理槽位信息等记录到当前巡检文件check_megaraid_disk_log中。
本说明书实施例的实施,可以有效解决部分厂商和型号无法通过统一的硬 件管理平台对磁盘运行状态进行有效管理的运维痛点,在操作***层实现了对 服务器硬件状态信息的获取,避免了单一告警通路失效时无法及时发现和处理 故障的风险,保证数据的完整性。
在上述实施例基础上,本说明书一个实施例中,图5为本发明实施例提供 的第五种磁盘告警方法的流程示意图,如图5所示,基于所述当前告警文件发 出告警信息包括:
S502、将所述当前告警文件中的信息与预先配置的异常关键字列表中的异 常关键字相比较。
在具体的实施过程中,异常关键字列表可以包括以下关键字:grd、Pdgd、 OfLn、UBad、Failed、Missing、offln、uncorrectable errors、Unrecoverab le medium error、uncorrectable double medium errors、Background Initi alization failed、Consistency Check completed with uncorrectable data、 Patrol Read puncturingbad block、Rebuild failed、Unable to access de vice、Bad block table、Controllerencountered a fatal error and was r eset等,每个关键字对应一种异常类别。可以理解的是,每个关键字也可以是 其他字符。
S504、获取与所述异常关键字相匹配的一个或多个磁盘预告警信息,所述 预告警信息包括:异常信息和/或异常状态信息。
S506、对所述当前巡检文件进行解析,获取与所述一个或多个磁盘预告警 信息分别对应的异常磁盘的物理槽位信息;
S508、根据所述物理槽位信息和所述预告警信息发出所述告警信息。
本说明书实施例的实施通过对服务器的状态进行巡检日志的历史记录,能 够全面掌握磁盘密集型服务器的全生命周期的运行情况,实现对其全生命周期 的管理。同时,通过运维数据的历史记录留存,可以发挥数据的价值,为后续 故障统计和分析、提高智能管理和运维能力提供数据支撑。
在上述实施例基础上,本说明书一个实施例中,所述告警信息包括:异常 状态信息发生时间、异常信息发生时间、异常磁盘名称、物理槽位信息和解决 建议中的一种或多种信息相关的异常描述。
在具体的实施过程中,异常描述可以如下所示:
针对虚拟磁盘组VD,可以有“err”、“unknown”、“ok”三种状态信息, err是指故障/异常状态,unknown是指未知状态,ok是指正常状态。虚拟磁盘 组的故障异常状态又包含如下几种:
dgrd:虚拟磁盘组处于“dgrd”状态,需要检查RAID组成员盘是否有出现 异常;
Pdgd:虚拟磁盘组处于“Pdgd”状态,需要检查RAID组成员盘是否有出现 异常;
OfLn:虚拟磁盘组处于“OfLn”状态,该磁盘组处于数据不可用状态,需 要排查是否有多颗故障盘。
针对物理磁盘组PD,可以有“err”、“unknown”、“ok”三种状态信息, err是指故障/异常状态,unknown是指未知状态,ok是指正常状态。物理磁盘 的故障异常状态又包含如下几种:
UBad:磁盘处于“UBad”状态,需要检查磁盘是否有个体故障;
Failed:磁盘处于“Failed”状态,需要更换磁盘;
Missing:磁盘处于“Missing”状态,需要检查磁盘是否故障或被拔出;
offln:磁盘处于“offln”状态,需要检查该磁盘是否之前做过RAID配置。
针对磁盘控制器还有如下几种异常状态:
uncorrectable errors:后台初始化完成但存在“uncorrectable errors”, 需要检查物理磁盘的状态;
Unrecoverable medium error:出现“Unrecoverable medium error”, 需要检查物理磁盘状态;
uncorrectable double medium errors:出现“uncorrectable double me diumerror”,需要检查物理磁盘状态;
Background Initialization failed:后台初始化失败,需要检查物理磁 盘的状态;
Consistency Check completed with uncorrectable data:一致性校验完 成,但存在“uncorrectable data”,需要修复数据,该问题不一定与硬件有 关,但需要同步检查是否有故障盘;
Patrol Read puncturing bad block:数据巡检读遇到“bad block”,需 要检查磁盘状态;
Rebuild failed:由于磁盘错误导致重建失败,需要检查磁盘状态是否“f ail”或“missing”;
Unable to access device:磁盘不可使用,需要检查磁盘状态,是否有故 障;
Bad block table:磁盘坏块表已满,需要检查磁盘状态是否故障,并检查 磁盘Smart信息中坏块表是否已满;
Controller encountered a fatal error and was reset:磁盘控制器故 障,需要检查磁盘控制器状态。
在上述实施例基础上,本说明书一个实施例中,图6为本发明实施例提供 的第六种磁盘告警方法的流程示意图,如图6所示,还包括:
S702、将上一周期巡检文件中的信息替换为所述当前巡检文件中的信息, 并将所述当前巡检文件中的信息清除。
本说明书实施例的实施能够提供告警信息生成的计算能力,又能够保证告 警信息生成的准确性。
另一方面、本说明书实施例提供一种磁盘告警装置,图7为本发明实施例 提供的一种磁盘告警装置的结构示意图,如图7所示,包括:
信息获取模块110,被配置为执行遍历当前周期服务器中每个磁盘控制器, 以获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的磁盘的 状态信息,所述当前周期日志文件包括:正常信息和异常信息,所述状态信息 包括:正常状态信息和异常状态信息;
第一写入模块120,被配置为执行按照预设规则将每个所述当前周期日志文 件中的异常信息及与所述异常信息对应的所述状态信息、所述异常状态信息及 与所述异常状态信息对应的正常信息写入当前巡检文件中;
比对模块130,被配置为执行将所述当前巡检文件中的信息一一与上一周期 巡检文件中的信息进行比对,直至所述当前巡检文件中的全部信息比对完成;
第二写入模块140,被配置为执行将比对未通过的信息写入当前告警文件中;
告警模块150,被配置为执行基于所述当前告警文件发出告警信息,以使得 订阅告警信息的人员获知磁盘对应的异常信息和/或磁盘控制器对应的异常状 态信息的内容。
在上述实施例基础上,本说明书一个实施例中,还包括:
第一归档模块,被配置为执行按照所述磁盘控制器的通讯地址将所述当前 周期日志文件输出至对应的文件夹中并添加当前时间标签得到当前周期归档文 件;
第二归档模块,被配置为执行将所述磁盘控制器对应的磁盘的状态信息按 照预设类别记录至与所述当前周期归档文件对应的文件中。
在上述实施例基础上,本说明书一个实施例中,还包括:
第一清除模块,被配置为执行清空所述当前告警文件中的信息。
在上述实施例基础上,本说明书一个实施例中,所述信息获取模块110包 括:
拓扑关系获取单元,被配置为执行获取磁盘阵列上的磁盘拓扑信息,得到 不同物理磁盘组的节点信息、每个物理磁盘组的物理槽位信息及每个虚拟磁盘 组与所述物理磁盘组的对应关系;
工况信息获取单元,被配置为执行基于所述磁盘拓扑信息获取每个磁盘控 制器的当前周期日志文件及与所述磁盘控制器连接的虚拟磁盘组及物理磁盘组 的工况信息,所述工况信息包括:状态信息、节点信息和物理槽位信息;
相应的,所述第一写入模块包括:
写入模块单元,被配置为执行按照预设规则将每个所述当前周期日志文件 及中的异常信息及与所述异常信息对应的所述工况信息、包含所述异常状态信 息的工况信息及与所述异常状态信息对应的正常信息写入当前巡检文件中。
在上述实施例基础上,本说明书一个实施例中,所述告警模块150包括:
比较单元,被配置为执行将所述当前告警文件中的信息与预先配置的异常 关键字列表中的异常关键字相比较;
预告警信息获取单元,被配置为执行获取与所述异常关键字相匹配的一个 或多个磁盘预告警信息,所述预告警信息包括:异常信息和/或异常状态信息;
解析单元,被配置为执行对所述当前巡检文件进行解析,获取与所述一个 或多个磁盘预告警信息分别对应的异常磁盘的物理槽位信息;
告警单元,被配置为执行根据所述物理槽位信息和所述预告警信息发出所 述告警信息。
在上述实施例基础上,本说明书一个实施例中,还包括:
第二清除模块,被配置为执行将上一周期巡检文件中的信息替换为所述当 前巡检文件中的信息,并将所述当前巡检文件中的信息清除。
另一方面、本说明书实施例提供一种计算机可读存储介质,所述计算机可 读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少 一段程序由处理器加载并执行以实现如上述所述的一种磁盘告警方法。
另一方面、本说明书实施例提供一种磁盘告警设备,图8为本发明实施例 提供的一种磁盘告警设备的结构示意图,如图8所示,包括至少一个处理器, 以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被 所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存 储的指令实现如上述所述的一种磁盘告警方法。
由于磁盘告警装置、计算机可读存储介质及磁盘告警设备与磁盘告警方法 的技术效果相同,在此不在赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实 施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部 分互相参见即可。本发明实施例所提供测试方法,其实现原理及产生的技术效 果和前述***实施例相同,为简要描述,方法实施例部分未提及之处,可参考 前述***实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的***和方法,也 可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如, 附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机 程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的 每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代 码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注 意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图 中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它 们有时也可以按相反的顺序执行,依所涉及的功能而定。也要注意的是,框图 和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执 行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与 计算机指令的组合来实现。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时, 可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方 案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件 产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执 行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、 移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说 明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解: 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前 述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术 特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质 脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以上述权利要求的保护范围为准。
Claims (10)
1.一种磁盘告警方法,所述方法应用于磁盘密集型服务器,所述方法包括:
遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的磁盘的状态信息,所述当前周期日志文件包括:正常信息和异常信息,所述状态信息包括:正常状态信息和异常状态信息;
按照预设规则将每个所述当前周期日志文件中的异常信息及与所述异常信息对应的所述状态信息、所述异常状态信息及与所述异常状态信息对应的正常信息写入当前巡检文件中;
将所述当前巡检文件中的信息一一与上一周期巡检文件中的信息进行比对,直至所述当前巡检文件中的全部信息比对完成;
将比对未通过的信息写入当前告警文件中;
基于所述当前告警文件发出告警信息,以使得订阅告警信息的人员获知磁盘对应的异常信息和/或磁盘控制器对应的异常状态信息的内容。
2.如权利要求1所述的方法,所述遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的磁盘的状态信息之后包括:
按照所述磁盘控制器的通讯地址将所述当前周期日志文件输出至对应的文件夹中并添加当前时间标签得到当前周期归档文件;
将所述磁盘控制器对应的磁盘的状态信息按照预设类别记录至与所述当前周期归档文件对应的文件中。
3.如权利要求1所述的方法,所述基于所述当前告警文件发出告警信息之后包括:
清空所述当前告警文件中的信息。
4.如权利要求1所述的方法,所述磁盘包括虚拟磁盘组和物理磁盘组;
所述遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的磁盘的状态信息包括:
获取磁盘阵列上的磁盘拓扑信息,得到不同物理磁盘组的节点信息、每个物理磁盘组的物理槽位信息及每个虚拟磁盘组与所述物理磁盘组的对应关系;
基于所述磁盘拓扑信息获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的虚拟磁盘组及物理磁盘组的工况信息,所述工况信息包括:状态信息、节点信息和物理槽位信息;
相应的,所述按照预设规则将每个所述当前周期日志文件及中的异常信息及与所述异常信息对应的所述状态信息、所述异常状态信息及与所述异常状态信息对应的正常信息写入当前巡检文件中包括:
按照预设规则将每个所述当前周期日志文件及中的异常信息及与所述异常信息对应的所述工况信息、包含所述异常状态信息的工况信息及与所述异常状态信息对应的正常信息写入当前巡检文件中。
5.如权利要求4所述的方法,所述基于所述当前告警文件发出告警信息包括:
将所述当前告警文件中的信息与预先配置的异常关键字列表中的异常关键字相比较;
获取与所述异常关键字相匹配的一个或多个磁盘预告警信息,所述预告警信息包括:异常信息和/或异常状态信息;
对所述当前巡检文件进行解析,获取与所述一个或多个磁盘预告警信息分别对应的异常磁盘的物理槽位信息;
根据所述物理槽位信息和所述预告警信息发出所述告警信息。
6.如权利要求5所述的方法,所述告警信息包括:异常状态信息发生时间、异常信息发生时间、异常磁盘名称、物理槽位信息和解决建议中的一种或多种信息相关的异常描述。
7.如权利要求5所述的方法,还包括:
将上一周期巡检文件中的信息替换为所述当前巡检文件中的信息,并将所述当前巡检文件中的信息清除。
8.一种磁盘告警装置,包括:
信息获取模块(110),被配置为执行遍历当前周期服务器中每个磁盘控制器,以获取每个磁盘控制器的当前周期日志文件及与所述磁盘控制器连接的磁盘的状态信息,所述当前周期日志文件包括:正常信息和异常信息,所述状态信息包括:正常状态信息和异常状态信息;
第一写入模块(120),被配置为执行按照预设规则将每个所述当前周期日志文件中的异常信息及与所述异常信息对应的所述状态信息、所述异常状态信息及与所述异常状态信息对应的正常信息写入当前巡检文件中;
比对模块(130),被配置为执行将所述当前巡检文件中的信息一一与上一周期巡检文件中的信息进行比对,直至所述当前巡检文件中的全部信息比对完成;
第二写入模块(140),被配置为执行将比对未通过的信息写入当前告警文件中;
告警模块(150),被配置为执行基于所述当前告警文件发出告警信息,以使得订阅告警信息的人员获知磁盘对应的异常信息和/或磁盘控制器对应的异常状态信息的内容。
9.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7中任一所述的磁盘告警方法。
10.一种磁盘告警设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-7中任一所述的磁盘告警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011021727.XA CN112084097B (zh) | 2020-09-25 | 2020-09-25 | 一种磁盘告警方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011021727.XA CN112084097B (zh) | 2020-09-25 | 2020-09-25 | 一种磁盘告警方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084097A true CN112084097A (zh) | 2020-12-15 |
CN112084097B CN112084097B (zh) | 2024-05-14 |
Family
ID=73739903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011021727.XA Active CN112084097B (zh) | 2020-09-25 | 2020-09-25 | 一种磁盘告警方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084097B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428709A (zh) * | 2022-01-17 | 2022-05-03 | 广州鲁邦通物联网科技股份有限公司 | 一种云管理平台中sds状态检测方法和*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681930A (zh) * | 2017-01-23 | 2017-05-17 | 北京思特奇信息技术股份有限公司 | 分布式自动检测应用运行异常方法及*** |
CN107423194A (zh) * | 2017-06-30 | 2017-12-01 | 阿里巴巴集团控股有限公司 | 前端异常告警处理方法、装置及*** |
CN108737170A (zh) * | 2018-05-09 | 2018-11-02 | 中国银行股份有限公司 | 一种批量日志异常数据告警方法及装置 |
CN109684141A (zh) * | 2018-12-19 | 2019-04-26 | 郑州云海信息技术有限公司 | 一种磁盘故障诊断方法、装置、终端及可读存储介质 |
CN110187997A (zh) * | 2019-06-06 | 2019-08-30 | 深信服科技股份有限公司 | 一种磁盘异常监测方法、装置、设备及介质 |
US10467075B1 (en) * | 2015-11-19 | 2019-11-05 | American Megatrends International, Llc | Systems, devices and methods for predicting disk failure and minimizing data loss |
CN110442495A (zh) * | 2019-07-30 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 自动化巡检***异常的方法 |
-
2020
- 2020-09-25 CN CN202011021727.XA patent/CN112084097B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467075B1 (en) * | 2015-11-19 | 2019-11-05 | American Megatrends International, Llc | Systems, devices and methods for predicting disk failure and minimizing data loss |
CN106681930A (zh) * | 2017-01-23 | 2017-05-17 | 北京思特奇信息技术股份有限公司 | 分布式自动检测应用运行异常方法及*** |
CN107423194A (zh) * | 2017-06-30 | 2017-12-01 | 阿里巴巴集团控股有限公司 | 前端异常告警处理方法、装置及*** |
CN108737170A (zh) * | 2018-05-09 | 2018-11-02 | 中国银行股份有限公司 | 一种批量日志异常数据告警方法及装置 |
CN109684141A (zh) * | 2018-12-19 | 2019-04-26 | 郑州云海信息技术有限公司 | 一种磁盘故障诊断方法、装置、终端及可读存储介质 |
CN110187997A (zh) * | 2019-06-06 | 2019-08-30 | 深信服科技股份有限公司 | 一种磁盘异常监测方法、装置、设备及介质 |
CN110442495A (zh) * | 2019-07-30 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 自动化巡检***异常的方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428709A (zh) * | 2022-01-17 | 2022-05-03 | 广州鲁邦通物联网科技股份有限公司 | 一种云管理平台中sds状态检测方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN112084097B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468484B (zh) | 用于在存储***中确定故障位置的方法和装置 | |
CN100504795C (zh) | 一种计算机raid阵列预警***及方法 | |
EP2672387B1 (en) | A distributed object storage system | |
CN102880522B (zh) | 面向硬件故障的***关键文件故障纠正方法及装置 | |
US10147048B2 (en) | Storage device lifetime monitoring system and storage device lifetime monitoring method thereof | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和*** | |
CN108536548B (zh) | 一种磁盘坏道的处理方法、装置及计算机存储介质 | |
CN111324192A (zh) | 一种***板卡电源检测方法、装置、设备及存储介质 | |
CN109726036B (zh) | 一种存储***中的数据重构方法和装置 | |
CN105607973B (zh) | 一种虚拟机***中设备故障处理的方法、装置及*** | |
US20140372697A1 (en) | Storage Device Management of Unrecoverable Logical Block Addresses for RAID Data Regeneration | |
CN111414268A (zh) | 故障处理方法、装置及服务器 | |
CN111858240A (zh) | 一种分布式存储***的监控方法、***、设备以及介质 | |
CN105138280A (zh) | 数据写入方法、装置及*** | |
CN112084097B (zh) | 一种磁盘告警方法及装置 | |
CN114860487A (zh) | 一种内存故障识别方法及一种内存故障隔离方法 | |
CN108170375B (zh) | 一种分布式存储***中的超限保护方法和装置 | |
CN106933707B (zh) | 基于raid技术的数据存储设备数据恢复方法及*** | |
CN116737462A (zh) | 一种数据处理方法、***、装置及介质 | |
CN110968456B (zh) | 分布式存储***中故障磁盘的处理方法及装置 | |
JP5849491B2 (ja) | ディスク制御装置、ディスク装置異常検出方法、及びプログラム | |
JP2018180982A (ja) | 情報処理装置、およびログ記録方法 | |
JP2022052504A (ja) | Bmc、サーバシステム、装置安定度判定方法及びプログラム | |
CN117873408B (zh) | 一种云打印机数据恢复方法以及相关装置 | |
CN111488124A (zh) | 一种数据更新方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |