CN112559230A - 面向超大规模存储***性能异常降级问题的自动鉴别方法 - Google Patents

面向超大规模存储***性能异常降级问题的自动鉴别方法 Download PDF

Info

Publication number
CN112559230A
CN112559230A CN201910852581.4A CN201910852581A CN112559230A CN 112559230 A CN112559230 A CN 112559230A CN 201910852581 A CN201910852581 A CN 201910852581A CN 112559230 A CN112559230 A CN 112559230A
Authority
CN
China
Prior art keywords
performance
fault
storage system
storage
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910852581.4A
Other languages
English (en)
Inventor
何晓斌
魏巍
余婷
陈起
王红艳
王涛
肖伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201910852581.4A priority Critical patent/CN112559230A/zh
Publication of CN112559230A publication Critical patent/CN112559230A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种面向超大规模存储***性能异常降级问题的自动鉴别方法,基于以下配置:故障总控模块,用于提供存储***状态的整体视图,并通过查询故障数据库获取文件***的故障信息,并发送到存储***的总信息库;故障探测模块,用于判断当前存储***是否有故障,如果没有故障,则返回状态正常,如果有故障,将当前存储设备的故障信息上报给驻留模块;设置于存储设备上的驻留模块,用于定时调用故障探测模块,对存储***进行探测,并将接收自故障探测模块的故障信息规划后录入故障数据库,还用于将故障信息发送至故障总控模块。本发明实现了面向超大规模存储***中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。

Description

面向超大规模存储***性能异常降级问题的自动鉴别方法
技术领域
本发明涉及一种面向超大规模存储***性能异常降级问题的自动鉴别方法,属于计算机技术领域。
背景技术
随着超大规模存储***的快速发展,人们对***的容量、性能要求不断提高的同时,大规模IO应用课题对存储***性能有了更高的要求。而大规模数据应用课题往往采用读写需同步的方式进行,一个存储设备的性能异常,会导致整个***性能的降级,从而***的故障自动鉴别越来越受到关注。
传统的故障鉴别方式通常通过设备底层管理接口来监测硬件状态,当发现影响性能的硬件问题存在时,往往设备故障已经严重影响***的整体性能;且发现问题后多采用被动的手工方式来进行处理,不但浪费人力和时间,也增加了人为错误发生的概率。因此,如何实现超大规模存储***的自动故障鉴别,成为本领域技术人员努力的方向。
发明内容
本发明的目的是提供一种面向超大规模存储***性能异常降级问题的自动鉴别方法,该面向超大规模存储***性能异常降级问题的自动鉴别方法将***中可能的故障及时统一采集上报,进行实时故障信息的获取和集中处理,实现了面向超大规模存储***中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。
为达到上述目的,本发明采用的技术方案是:一种面向超大规模存储***性能异常降级问题的自动鉴别方法,基于以下配置:
性能异常检测总控模块,用于提供存储***性能的总体视图,其通过查询故障信息数据库,获取存储***的故障信息,通过性能信息数据库获取存储***当前的性能数据,最后通过自动对比规则确定当前存储***中是否存在性能异常降级问题,形成存储***性能的总体视图;
配置于存储设备上的若干个插件式的检测模块,包括故障检查插件、性能采集插件;
所述故障检查插件用于检查当前存储***是否有故障,并将当前存储***的故障信息上报给驻留模块;
所述性能采集插件用于测试和采集当前存储***设备的性能,并将性能数据上报给驻留模块;
配置于存储***所有存储设备上的若干个驻留模块,用于定时依次调用故障检查插件,对存储***进行检测,并将接收自故障检查插件的故障信息按照“故障位置、故障时间、故障类型、故障级别”的格式录入故障信息数据库,还用于监控存储设备的忙闲状态,在存储设备空闲时调用性能采集插件,并将接收自性能采集插件的性能测试结果信息按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式录入性能信息数据库,还用于将故障信息发送至性能异常检测总控模块;
故障信息数据库,用于存储存储***的故障信息;
性能信息数据库,用于存储存储***中存储设备的性能数据;
包括以下步骤:
S1、在存储设备上运行驻留模块,周期性调用故障检查插件,并实时监控存储设备的空闲状态,在存储设备空闲时,执行性能采集插件;
S21、故障检查插件运行,检查其所对应的存储***是否有故障,并将故障信息反馈给驻留模块;
S22、驻留模块按照“故障位置、故障时间、故障类型、故障级别”的格式将故障信息写入故障信息数据库;
S31、性能采集插件运行,执行特定测试,并将测试结果反馈给驻留模块;
S32、驻留模块按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式将性能采集插件的测试结果写入性能信息数据库;
S4、性能异常检测总控模块根据故障信息数据库与性能信息数据库中的数据,判断是否有存储设备出现了性能异常降级,做出判断的具体步骤如下:
S41、根据故障信息数据库中的故障信息对性能信息数据库中的性能数据进行筛选,故障级别较高而会影响性能测试结果的设备对应的故障时间范围内的性能数据将不被采信而被删除;
S42、对筛选后的性能数据,进行如下操作:
S43、计算每个存储设备,每个测试项所获得性能的最低值;
S44、计算每个存储设备,每个测试项所获得性能的最高值;
S45、计算每个存储设备,每个测试项所获得性能的平均值;
S46、对所有存储设备,确定每个测试项的最低值、最高值和平均值的平均值,并计算该测试项的最低值所对应的存储设备;
S47、计算每个存储设备的性能间隔,即S44中获得的性能的最高值与S45中获得的性能的平均值,S43中获得的性能的最低值与S45中获得的性能的平均值之间的差值比例,如果差值比例小于设定的阈值,则认为所有存储设备正常,否则将若干个测试项各自最低值所对应的存储设备列入性能降级怀疑目标;
S48、存储设备被列入性能降级怀疑目标后,在之后的测试中,如果连续三次差值比例均不小于所述设定的阈值,则将该存储设备列为性能降级设备;
S49、所述设定的阈值随着设备使用时间的增加而逐步增加,初始阈值设置为10%,如果出现性能降级的设备占到总设备数量的1/3,则将阈值增加5%,阈值变化后,重新按照上述步骤进行数据测试、计算差值比例、确定性能降级设备,直至性能降级设备占总设备数量的比低于1/3。
上述技术方案中进一步改进的方案如下:
1. 上述方案中,所述存储***包括***中的硬件存储设备和存储***软件。
2. 上述方案中,在S1中,驻留模块周期性调用故障检查插件,获取故障与性能信息,对每个插件判断是否到达该插件的执行周期,如果达到执行周期,则执行该故障检查插件。
3. 上述方案中,在S41中,对影响性能数据的故障,如磁盘损坏数据校验恢复、端口损坏,认为是故障级别较高,其它可容错故障,如单一电源故障,则认为是故障级别较低,不影响性能数据的可信性。
4. 上述方案中,在S47中,差值比例的计算公式为:1-(性能的平均值-性能的最低值)/(性能的最高值-性能的平均值)。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明面向超大规模存储***性能异常降级问题的自动鉴别方法,其通过综合采集各种存储调用的响应时间等参数和对比分析方法,集中收集不同设备性能数据,并将***中可能的故障及时统一采集上报,进行实时故障信息的获取和集中处理,实现了面向超大规模存储***中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。
附图说明
附图1为本发明自动鉴别方法原理示意图;
附图2为本发明自动鉴别方法流程图。
具体实施方式
实施例:一种面向超大规模存储***性能异常降级问题的自动鉴别方法,基于以下配置:
性能异常检测总控模块,用于提供存储***性能的总体视图,其通过查询故障信息数据库,获取存储***的故障信息,通过性能信息数据库获取存储***当前的性能数据,最后通过自动对比规则确定当前存储***中是否存在性能异常降级问题,形成存储***性能的总体视图;
配置于存储设备上的若干个插件式的检测模块,包括故障检查插件、性能采集插件;
所述故障检查插件用于检查当前存储***是否有故障,并将当前存储***的故障信息上报给驻留模块;
所述性能采集插件用于测试和采集当前存储***设备的性能,并将性能数据上报给驻留模块;
配置于存储***所有存储设备上的若干个驻留模块,用于定时依次调用故障检查插件,对存储***进行检测,并将接收自故障检查插件的故障信息按照“故障位置、故障时间、故障类型、故障级别”的格式录入故障信息数据库,还用于监控存储设备的忙闲状态,在存储设备空闲时调用性能采集插件,并将接收自性能采集插件的性能测试结果信息按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式录入性能信息数据库,还用于将故障信息发送至性能异常检测总控模块;
故障信息数据库,用于存储存储***的故障信息;
性能信息数据库,用于存储存储***中存储设备的性能数据;
包括以下步骤:
S1、在存储设备上运行驻留模块,周期性调用故障检查插件,并实时监控存储设备的空闲状态,在存储设备空闲时,执行性能采集插件;
S21、故障检查插件运行,检查其所对应的存储***是否有故障,并将故障信息反馈给驻留模块;
S22、驻留模块按照“故障位置、故障时间、故障类型、故障级别”的格式将故障信息写入故障信息数据库;
S31、性能采集插件运行,执行特定测试,并将测试结果反馈给驻留模块;
S32、驻留模块按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式将性能采集插件的测试结果写入性能信息数据库;
S4、性能异常检测总控模块根据故障信息数据库与性能信息数据库中的数据,判断是否有存储设备出现了性能异常降级,做出判断的具体步骤如下:
S41、根据故障信息数据库中的故障信息对性能信息数据库中的性能数据进行筛选,故障级别较高而会影响性能测试结果的设备对应的故障时间范围内的性能数据将不被采信而被删除;
S42、对筛选后的性能数据,进行如下操作:
S43、计算每个存储设备,每个测试项所获得性能的最低值;
S44、计算每个存储设备,每个测试项所获得性能的最高值;
S45、计算每个存储设备,每个测试项所获得性能的平均值;
S46、对所有存储设备,确定每个测试项的最低值、最高值和平均值的平均值,并计算该测试项的最低值所对应的存储设备;
S47、计算每个存储设备的性能间隔,即S44中获得的性能的最高值与S45中获得的性能的平均值,S43中获得的性能的最低值与S45中获得的性能的平均值之间的差值比例,如果差值比例小于设定的阈值,则认为所有存储设备正常,否则将若干个测试项各自最低值所对应的存储设备列入性能降级怀疑目标;
S48、存储设备被列入性能降级怀疑目标后,在之后的测试中,如果连续三次差值比例均不小于所述设定的阈值,则将该存储设备列为性能降级设备;
S49、所述设定的阈值随着设备使用时间的增加而逐步增加,初始阈值设置为10%,如果出现性能降级的设备占到总设备数量的1/3,则将阈值增加5%,阈值变化后,重新按照上述步骤进行数据测试、计算差值比例、确定性能降级设备,直至性能降级设备占总设备数量的比低于1/3。
上述存储***包括***中的硬件存储设备和存储***软件。
在S1中,驻留模块周期性调用故障检查插件,获取故障与性能信息,对每个插件判断是否到达该插件的执行周期,如果达到执行周期,则执行该故障检查插件。
在S41中,对影响性能数据的故障,如磁盘损坏数据校验恢复、端口损坏,认为是故障级别较高,其它可容错故障,如单一电源故障,则认为是故障级别较低,不影响性能数据的可信性。
在S47中,差值比例的计算公式为:1-(性能的平均值-性能的最低值)/(性能的最高值-性能的平均值)。
实施例进一步解释如下:
存储***是包括了大规模的存储设备的***图,其如果有一个存储设备性能降级就会导致整体的性能被降级,例如一个存储设备性能降低5倍,往往整体性能就会降低5倍,因为超大规模存储***同一类型同样配置的存储设备较多,数据样本多,可以通过对比分析的方法确定性能降级的设备。
本发明的基本构思是采用故障管理总控和驻留各存储设备上的分控进行协同工作的方式,根据指定策略分析存储设备性能数据,判断该故障设备是否需要进行降级处理。
自动鉴别方法设计主要分为两大模块,故障总控程序和存储设备上的驻留程序。
驻留程序定时调用存储***故障探测程序判断当前存储***是否有故障,如果正常,则返回状态正常;如果存储***故障,就当前存储设备(节点名称,故障原因,故障范围)上报给上层的驻留程序,驻留程序则将故障信息规划后录入数据库。
故障主控程序用于提供存储***状态的整体视图,当驻留程序探测到当前存储***处于故障状态时,则发送给处于故障总控程序,故障总控程序通过查询数据库获取文件***的故障信息并发送到存储***的总信息库。
采用上述面向超大规模存储***性能异常降级问题的自动鉴别方法时,其通过综合采集各种存储调用的响应时间等参数和对比分析方法,集中收集不同设备性能数据,并将***中可能的故障及时统一采集上报,进行实时故障信息的获取和集中处理,实现了面向超大规模存储***中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种面向超大规模存储***性能异常降级问题的自动鉴别方法,其特征在于:基于以下配置:
性能异常检测总控模块,用于提供存储***性能的总体视图,其通过查询故障信息数据库,获取存储***的故障信息,通过性能信息数据库获取存储***当前的性能数据,最后通过自动对比规则确定当前存储***中是否存在性能异常降级问题,形成存储***性能的总体视图;
配置于存储设备上的若干个插件式的检测模块,包括故障检查插件、性能采集插件;
所述故障检查插件用于检查当前存储***是否有故障,并将当前存储***的故障信息上报给驻留模块;
所述性能采集插件用于测试和采集当前存储***设备的性能,并将性能数据上报给驻留模块;
配置于存储***所有存储设备上的若干个驻留模块,用于定时依次调用故障检查插件,对存储***进行检测,并将接收自故障检查插件的故障信息按照“故障位置、故障时间、故障类型、故障级别”的格式录入故障信息数据库,还用于监控存储设备的忙闲状态,在存储设备空闲时调用性能采集插件,并将接收自性能采集插件的性能测试结果信息按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式录入性能信息数据库,还用于将故障信息发送至性能异常检测总控模块;
故障信息数据库,用于存储存储***的故障信息;
性能信息数据库,用于存储存储***中存储设备的性能数据;
包括以下步骤:
S1、在存储设备上运行驻留模块,周期性调用故障检查插件,并实时监控存储设备的空闲状态,在存储设备空闲时,执行性能采集插件;
S21、故障检查插件运行,检查其所对应的存储***是否有故障,并将故障信息反馈给驻留模块;
S22、驻留模块按照“故障位置、故障时间、故障类型、故障级别”的格式将故障信息写入故障信息数据库;
S31、性能采集插件运行,执行特定测试,并将测试结果反馈给驻留模块;
S32、驻留模块按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式将性能采集插件的测试结果写入性能信息数据库;
S4、性能异常检测总控模块根据故障信息数据库与性能信息数据库中的数据,判断是否有存储设备出现了性能异常降级,做出判断的具体步骤如下:
S41、根据故障信息数据库中的故障信息对性能信息数据库中的性能数据进行筛选,故障级别较高而会影响性能测试结果的设备对应的故障时间范围内的性能数据将不被采信而被删除;
S42、对筛选后的性能数据,进行如下操作:
S43、计算每个存储设备,每个测试项所获得性能的最低值;
S44、计算每个存储设备,每个测试项所获得性能的最高值;
S45、计算每个存储设备,每个测试项所获得性能的平均值;
S46、对所有存储设备,确定每个测试项的最低值、最高值和平均值的平均值,并计算该测试项的最低值所对应的存储设备;
S47、计算每个存储设备的性能间隔,即S44中获得的性能的最高值与S45中获得的性能的平均值,S43中获得的性能的最低值与S45中获得的性能的平均值之间的差值比例,如果差值比例小于设定的阈值,则认为所有存储设备正常,否则将若干个测试项各自最低值所对应的存储设备列入性能降级怀疑目标;
S48、存储设备被列入性能降级怀疑目标后,在之后的测试中,如果连续三次差值比例均不小于所述设定的阈值,则将该存储设备列为性能降级设备;
S49、所述设定的阈值随着设备使用时间的增加而逐步增加,初始阈值设置为10%,如果出现性能降级的设备占到总设备数量的1/3,则将阈值增加5%,阈值变化后,重新按照上述步骤进行数据测试、计算差值比例、确定性能降级设备,直至性能降级设备占总设备数量的比低于1/3。
2.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法,其特征在于:所述存储***包括***中的硬件存储设备和存储***软件。
3.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法,其特征在于:在S1中,驻留模块周期性调用故障检查插件,获取故障与性能信息,对每个插件判断是否到达该插件的执行周期,如果达到执行周期,则执行该故障检查插件。
4.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法,其特征在于:在S41中,对影响性能数据的故障,如磁盘损坏数据校验恢复、端口损坏,认为是故障级别较高,其它可容错故障,如单一电源故障,则认为是故障级别较低,不影响性能数据的可信性。
5.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法,其特征在于:在S47中,差值比例的计算公式为:1-(性能的平均值-性能的最低值)/(性能的最高值-性能的平均值)。
CN201910852581.4A 2019-09-10 2019-09-10 面向超大规模存储***性能异常降级问题的自动鉴别方法 Withdrawn CN112559230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910852581.4A CN112559230A (zh) 2019-09-10 2019-09-10 面向超大规模存储***性能异常降级问题的自动鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910852581.4A CN112559230A (zh) 2019-09-10 2019-09-10 面向超大规模存储***性能异常降级问题的自动鉴别方法

Publications (1)

Publication Number Publication Date
CN112559230A true CN112559230A (zh) 2021-03-26

Family

ID=75028743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852581.4A Withdrawn CN112559230A (zh) 2019-09-10 2019-09-10 面向超大规模存储***性能异常降级问题的自动鉴别方法

Country Status (1)

Country Link
CN (1) CN112559230A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312328A (zh) * 2023-11-28 2023-12-29 金篆信科有限责任公司 一种自适应底层存储配置方法、装置、***及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312328A (zh) * 2023-11-28 2023-12-29 金篆信科有限责任公司 一种自适应底层存储配置方法、装置、***及介质
CN117312328B (zh) * 2023-11-28 2024-03-01 金篆信科有限责任公司 一种自适应底层存储配置方法、装置、***及介质

Similar Documents

Publication Publication Date Title
CN108415789B (zh) 面向大规模混合异构存储***的节点故障预测***及方法
CN109783322A (zh) 一种企业信息***运行状态的监控分析***及其方法
KR20210019564A (ko) 운영 유지 시스템 및 방법
CN104574219A (zh) 电网业务信息***运行工况的监测预警方法及***
CN103797468A (zh) ***异常的自动化检测
CN107066370A (zh) 一种自动监控并收集故障硬盘日志的工具及方法
CN111259073A (zh) 基于日志、流量和业务访问的业务***运行状态智能研判***
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障***
CN109165138A (zh) 一种监控设备故障的方法和装置
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN103023028A (zh) 一种基于实体间依赖关系图的电网故障快速定位方法
CN113542017A (zh) 基于网络拓扑和多指标的一种网络故障定位方法
CN116345699B (zh) 一种基于互联网的输电电路信息采集***及采集方法
CN115129011B (zh) 基于边缘计算的工业资源管理方法
CN112711493A (zh) 一种场景化根因分析应用
CN115357418A (zh) 微服务故障检测方法、装置、存储介质及计算机设备
CN113395182B (zh) 具有故障预测的智能网络设备管理***及方法
CN102170368B (zh) 一种面向大尺寸构件的分布式测量***的智能故障定位方法
CN112559230A (zh) 面向超大规模存储***性能异常降级问题的自动鉴别方法
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN117194154A (zh) 一种基于微服务的apm全链路监控***及方法
CN116204386B (zh) 应用服务关系自动识别及监控方法、***、介质和设备
Li et al. Microservice anomaly detection based on tracing data using semi-supervised learning
CN114675789B (zh) 一种基于计算机***的大数据分析存储***及方法
CN116541728A (zh) 一种基于密度聚类的故障诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210326

WW01 Invention patent application withdrawn after publication