CN112559230A

CN112559230A - 面向超大规模存储***性能异常降级问题的自动鉴别方法

Info

Publication number: CN112559230A
Application number: CN201910852581.4A
Authority: CN
Inventors: 何晓斌; 魏巍; 余婷; 陈起; 王红艳; 王涛; 肖伟
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2021-03-26

Abstract

本发明公开一种面向超大规模存储***性能异常降级问题的自动鉴别方法，基于以下配置：故障总控模块，用于提供存储***状态的整体视图，并通过查询故障数据库获取文件***的故障信息，并发送到存储***的总信息库；故障探测模块，用于判断当前存储***是否有故障，如果没有故障，则返回状态正常，如果有故障，将当前存储设备的故障信息上报给驻留模块；设置于存储设备上的驻留模块，用于定时调用故障探测模块，对存储***进行探测，并将接收自故障探测模块的故障信息规划后录入故障数据库，还用于将故障信息发送至故障总控模块。本发明实现了面向超大规模存储***中性能降级设备的及时发现的报警，从而使大规模IO应用课题的存储性能得到保证。

Description

面向超大规模存储***性能异常降级问题的自动鉴别方法

技术领域

本发明涉及一种面向超大规模存储***性能异常降级问题的自动鉴别方法，属于计算机技术领域。

背景技术

随着超大规模存储***的快速发展，人们对***的容量、性能要求不断提高的同时，大规模IO应用课题对存储***性能有了更高的要求。而大规模数据应用课题往往采用读写需同步的方式进行，一个存储设备的性能异常，会导致整个***性能的降级，从而***的故障自动鉴别越来越受到关注。

传统的故障鉴别方式通常通过设备底层管理接口来监测硬件状态，当发现影响性能的硬件问题存在时，往往设备故障已经严重影响***的整体性能；且发现问题后多采用被动的手工方式来进行处理，不但浪费人力和时间，也增加了人为错误发生的概率。因此，如何实现超大规模存储***的自动故障鉴别，成为本领域技术人员努力的方向。

发明内容

本发明的目的是提供一种面向超大规模存储***性能异常降级问题的自动鉴别方法，该面向超大规模存储***性能异常降级问题的自动鉴别方法将***中可能的故障及时统一采集上报，进行实时故障信息的获取和集中处理，实现了面向超大规模存储***中性能降级设备的及时发现的报警，从而使大规模IO应用课题的存储性能得到保证。

为达到上述目的，本发明采用的技术方案是：一种面向超大规模存储***性能异常降级问题的自动鉴别方法，基于以下配置：

性能异常检测总控模块，用于提供存储***性能的总体视图，其通过查询故障信息数据库，获取存储***的故障信息，通过性能信息数据库获取存储***当前的性能数据，最后通过自动对比规则确定当前存储***中是否存在性能异常降级问题，形成存储***性能的总体视图；

配置于存储设备上的若干个插件式的检测模块，包括故障检查插件、性能采集插件；

所述故障检查插件用于检查当前存储***是否有故障，并将当前存储***的故障信息上报给驻留模块；

所述性能采集插件用于测试和采集当前存储***设备的性能，并将性能数据上报给驻留模块；

配置于存储***所有存储设备上的若干个驻留模块，用于定时依次调用故障检查插件，对存储***进行检测，并将接收自故障检查插件的故障信息按照“故障位置、故障时间、故障类型、故障级别”的格式录入故障信息数据库，还用于监控存储设备的忙闲状态，在存储设备空闲时调用性能采集插件，并将接收自性能采集插件的性能测试结果信息按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式录入性能信息数据库，还用于将故障信息发送至性能异常检测总控模块；

故障信息数据库，用于存储存储***的故障信息；

性能信息数据库，用于存储存储***中存储设备的性能数据；

包括以下步骤：

S1、在存储设备上运行驻留模块，周期性调用故障检查插件，并实时监控存储设备的空闲状态，在存储设备空闲时，执行性能采集插件；

S21、故障检查插件运行，检查其所对应的存储***是否有故障，并将故障信息反馈给驻留模块；

S22、驻留模块按照“故障位置、故障时间、故障类型、故障级别”的格式将故障信息写入故障信息数据库；

S31、性能采集插件运行，执行特定测试，并将测试结果反馈给驻留模块；

S32、驻留模块按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式将性能采集插件的测试结果写入性能信息数据库；

S4、性能异常检测总控模块根据故障信息数据库与性能信息数据库中的数据，判断是否有存储设备出现了性能异常降级，做出判断的具体步骤如下：

S41、根据故障信息数据库中的故障信息对性能信息数据库中的性能数据进行筛选，故障级别较高而会影响性能测试结果的设备对应的故障时间范围内的性能数据将不被采信而被删除；

S42、对筛选后的性能数据，进行如下操作：

S43、计算每个存储设备，每个测试项所获得性能的最低值；

S44、计算每个存储设备，每个测试项所获得性能的最高值；

S45、计算每个存储设备，每个测试项所获得性能的平均值；

S46、对所有存储设备，确定每个测试项的最低值、最高值和平均值的平均值，并计算该测试项的最低值所对应的存储设备；

S47、计算每个存储设备的性能间隔，即S44中获得的性能的最高值与S45中获得的性能的平均值，S43中获得的性能的最低值与S45中获得的性能的平均值之间的差值比例，如果差值比例小于设定的阈值，则认为所有存储设备正常，否则将若干个测试项各自最低值所对应的存储设备列入性能降级怀疑目标；

S48、存储设备被列入性能降级怀疑目标后，在之后的测试中，如果连续三次差值比例均不小于所述设定的阈值，则将该存储设备列为性能降级设备；

S49、所述设定的阈值随着设备使用时间的增加而逐步增加，初始阈值设置为10%，如果出现性能降级的设备占到总设备数量的1/3，则将阈值增加5%，阈值变化后，重新按照上述步骤进行数据测试、计算差值比例、确定性能降级设备，直至性能降级设备占总设备数量的比低于1/3。

上述技术方案中进一步改进的方案如下：

1. 上述方案中，所述存储***包括***中的硬件存储设备和存储***软件。

2. 上述方案中，在S1中，驻留模块周期性调用故障检查插件，获取故障与性能信息，对每个插件判断是否到达该插件的执行周期，如果达到执行周期，则执行该故障检查插件。

3. 上述方案中，在S41中，对影响性能数据的故障，如磁盘损坏数据校验恢复、端口损坏，认为是故障级别较高，其它可容错故障，如单一电源故障，则认为是故障级别较低，不影响性能数据的可信性。

4. 上述方案中，在S47中，差值比例的计算公式为：1-（性能的平均值-性能的最低值）/（性能的最高值-性能的平均值）。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明面向超大规模存储***性能异常降级问题的自动鉴别方法，其通过综合采集各种存储调用的响应时间等参数和对比分析方法，集中收集不同设备性能数据，并将***中可能的故障及时统一采集上报，进行实时故障信息的获取和集中处理，实现了面向超大规模存储***中性能降级设备的及时发现的报警，从而使大规模IO应用课题的存储性能得到保证。

附图说明

附图1为本发明自动鉴别方法原理示意图；

附图2为本发明自动鉴别方法流程图。

具体实施方式

实施例：一种面向超大规模存储***性能异常降级问题的自动鉴别方法，基于以下配置：

故障信息数据库，用于存储存储***的故障信息；

性能信息数据库，用于存储存储***中存储设备的性能数据；

包括以下步骤：

S42、对筛选后的性能数据，进行如下操作：

S43、计算每个存储设备，每个测试项所获得性能的最低值；

S44、计算每个存储设备，每个测试项所获得性能的最高值；

S45、计算每个存储设备，每个测试项所获得性能的平均值；

上述存储***包括***中的硬件存储设备和存储***软件。

在S1中，驻留模块周期性调用故障检查插件，获取故障与性能信息，对每个插件判断是否到达该插件的执行周期，如果达到执行周期，则执行该故障检查插件。

在S41中，对影响性能数据的故障，如磁盘损坏数据校验恢复、端口损坏，认为是故障级别较高，其它可容错故障，如单一电源故障，则认为是故障级别较低，不影响性能数据的可信性。

在S47中，差值比例的计算公式为：1-（性能的平均值-性能的最低值）/（性能的最高值-性能的平均值）。

实施例进一步解释如下：

存储***是包括了大规模的存储设备的***图，其如果有一个存储设备性能降级就会导致整体的性能被降级，例如一个存储设备性能降低5倍，往往整体性能就会降低5倍，因为超大规模存储***同一类型同样配置的存储设备较多，数据样本多，可以通过对比分析的方法确定性能降级的设备。

本发明的基本构思是采用故障管理总控和驻留各存储设备上的分控进行协同工作的方式，根据指定策略分析存储设备性能数据，判断该故障设备是否需要进行降级处理。

自动鉴别方法设计主要分为两大模块，故障总控程序和存储设备上的驻留程序。

驻留程序定时调用存储***故障探测程序判断当前存储***是否有故障，如果正常，则返回状态正常；如果存储***故障，就当前存储设备（节点名称，故障原因，故障范围）上报给上层的驻留程序，驻留程序则将故障信息规划后录入数据库。

故障主控程序用于提供存储***状态的整体视图，当驻留程序探测到当前存储***处于故障状态时，则发送给处于故障总控程序，故障总控程序通过查询数据库获取文件***的故障信息并发送到存储***的总信息库。

采用上述面向超大规模存储***性能异常降级问题的自动鉴别方法时，其通过综合采集各种存储调用的响应时间等参数和对比分析方法，集中收集不同设备性能数据，并将***中可能的故障及时统一采集上报，进行实时故障信息的获取和集中处理，实现了面向超大规模存储***中性能降级设备的及时发现的报警，从而使大规模IO应用课题的存储性能得到保证。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向超大规模存储***性能异常降级问题的自动鉴别方法，其特征在于：基于以下配置：

故障信息数据库，用于存储存储***的故障信息；

性能信息数据库，用于存储存储***中存储设备的性能数据；

包括以下步骤：

S42、对筛选后的性能数据，进行如下操作：

S43、计算每个存储设备，每个测试项所获得性能的最低值；

S44、计算每个存储设备，每个测试项所获得性能的最高值；

S45、计算每个存储设备，每个测试项所获得性能的平均值；

2.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法，其特征在于：所述存储***包括***中的硬件存储设备和存储***软件。

3.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法，其特征在于：在S1中，驻留模块周期性调用故障检查插件，获取故障与性能信息，对每个插件判断是否到达该插件的执行周期，如果达到执行周期，则执行该故障检查插件。

4.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法，其特征在于：在S41中，对影响性能数据的故障，如磁盘损坏数据校验恢复、端口损坏，认为是故障级别较高，其它可容错故障，如单一电源故障，则认为是故障级别较低，不影响性能数据的可信性。

5.根据权利要求1所述的面向超大规模存储***性能异常降级问题的自动鉴别方法，其特征在于：在S47中，差值比例的计算公式为：1-（性能的平均值-性能的最低值）/（性能的最高值-性能的平均值）。