WO2024139333A1 - 存储集群运行状态的预测方法及装置 - Google Patents

存储集群运行状态的预测方法及装置 Download PDF

Info

Publication number
WO2024139333A1
WO2024139333A1 PCT/CN2023/115970 CN2023115970W WO2024139333A1 WO 2024139333 A1 WO2024139333 A1 WO 2024139333A1 CN 2023115970 W CN2023115970 W CN 2023115970W WO 2024139333 A1 WO2024139333 A1 WO 2024139333A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
risk level
blocking
hard disk
distributed storage
Prior art date
Application number
PCT/CN2023/115970
Other languages
English (en)
French (fr)
Inventor
黄远超
Original Assignee
苏州元脑智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州元脑智能科技有限公司 filed Critical 苏州元脑智能科技有限公司
Publication of WO2024139333A1 publication Critical patent/WO2024139333A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers

Definitions

  • the embodiments of the present application relate to the computer field, and in particular, to a method and device for predicting the operating status of a storage cluster.
  • a method for predicting the operating status of a storage cluster comprising: detecting an IO service blocking event in a distributed storage cluster; in the event that an IO service blocking event occurs in the distributed storage cluster, obtaining operating data of a target storage node where the IO service blocking event occurs, wherein the operating data is used to indicate the processing of the IO service by the target storage node at the current moment when the IO service blocking event occurs; predicting a target risk level of blocking risk for the target storage node in a target time period after the current moment based on the operating data, wherein the target risk level is used to indicate the probability of an IO service blocking event occurring at the target storage node in the target time period; and predicting a target operating status of the distributed storage cluster in the target time period based on the target risk level.
  • predicting a target risk level of a target storage node having a blocking risk in a target time period after the current moment based on the operating data includes: determining the target number of hard disks with target hard disk attributes included in the target storage node and the CPU deployed in the target storage node based on the operating data.
  • the target load parameter of the central processing unit (CPU) where the processing capacity of the hard disk with the target hard disk attributes for IO business is lower than the target processing capacity, and the target load parameter is used to indicate the load of the CPU deployed in the target storage node; the target risk level is predicted based on the target hard disk quantity and the target load parameter.
  • determining the target number of hard disks with target hard disk attributes included in the target storage node and the target load parameter of the CPU deployed in the target storage node based on the operating data includes: counting the target number of hard disks with target hard disk attributes from the reference hard disks included in the operating data, wherein the reference hard disk is the hard disk that generates an IO service blocking event in the target storage node; and calculating the target average load of the CPU deployed in the target storage node at the current moment based on the service load of the target storage node included in the operating data as the target load parameter.
  • a target number of hard disks having target hard disk attributes is counted from the reference hard disks included in the operating data, including: counting the number of first hard disks having fault attributes from the reference hard disks, and/or counting the number of second hard disks having a target processing rate from the reference hard disks, wherein the target processing rate is lower than a target rate threshold; and determining the number of first hard disks, the number of second hard disks, or the sum of the number of first hard disks and the number of second hard disks as the target number of hard disks.
  • the target risk level is predicted based on the target hard disk quantity and target load parameters, including: obtaining hard disk quantity intervals, average load intervals and risk levels with corresponding relationships, wherein the hard disk quantity intervals, average load intervals and risk levels with corresponding relationships are constructed based on data of historical IO business blocking events; and searching for the target risk level corresponding to the target hard disk quantity and target average load from the hard disk quantity intervals, average load intervals and risk levels with corresponding relationships.
  • a target risk level corresponding to the target number of hard disks and the target average load is searched from the hard disk quantity intervals, average load intervals and risk levels with corresponding relationships, including: when the target number of hard disks is less than a first threshold and the target average load is less than a second threshold, determining the target risk level to be a first risk level; when the target number of hard disks is less than the first threshold and the target average load is greater than or equal to the second threshold, determining the target risk level to be a second risk level, wherein the second risk level is higher than the first risk level; when the target number of hard disks is greater than or equal to the first threshold and the target average load is less than the second threshold, determining the target risk level to be a third risk level, wherein the third risk level is higher than or equal to the second risk level; when the target number of hard disks is greater than or equal to the first threshold and the target average load is greater than or equal to the second threshold, determining the target risk level to be a fourth risk level, wherein the
  • a reference blocking risk level is determined based on the growth amplitude of IO business blocking events in the distributed storage cluster, including: when the growth amplitude is less than the target amplitude, determining the reference blocking risk level as a second blocking risk level, wherein the second blocking risk level is higher than the first blocking risk level; when the growth amplitude is greater than or equal to the target amplitude, determining the reference blocking risk level as a third blocking risk level, wherein the third blocking risk level is higher than the second blocking risk level.
  • obtaining blocking event information of an IO business blocking event includes: querying whether a target keyword exists in a target log through a grep command according to a predetermined query cycle to obtain a query result, wherein the target keyword is a keyword corresponding to the IO business blocking event, and the target log is used to record the operating status of the distributed storage cluster; and determining the blocking event information based on the query result.
  • detecting IO business blocking events in a distributed storage cluster includes: running a permission addition script, wherein the permission addition script is used to add running permissions for a prediction script in the distributed storage cluster, and the prediction script is used to predict the running status of the distributed storage cluster in a target time period; detecting IO business blocking events in the distributed storage cluster by running the prediction script.
  • an electronic device including a memory and a processor, wherein a computer program is stored in the memory, and the processor is configured to run the computer program to execute the steps in any one of the above method embodiments.
  • FIG2 is a flow chart of a method for predicting the operating status of a storage cluster according to an embodiment of the present application
  • FIG. 5 is a structural block diagram of a device for predicting the operating status of a storage cluster according to an embodiment of the present application.
  • the memory 104 can be used to store computer programs, for example, software programs and modules of application software, such as the computer program corresponding to the method for predicting the operating status of the storage cluster in the embodiment of the present application.
  • the processor 102 executes various functional applications and data processing by running the computer program stored in the memory 104, that is, to implement the above method.
  • the memory 104 may include a high-speed random access memory, and may also include a non-volatile memory, such as one or more magnetic storage devices, flash memory, or other non-volatile solid-state memory.
  • the memory 104 may further include a memory remotely arranged relative to the processor 102, and these remote memories may be connected to the mobile terminal via a network. Examples of the above-mentioned network include, but are not limited to, the Internet, an intranet, a local area network, a mobile communication network, and combinations thereof.
  • the transmission device 106 is used to receive or send data via a network.
  • the specific example of the above network may include a wireless network provided by a communication provider of the mobile terminal.
  • the transmission device 106 includes a network adapter (Network Interface Controller, referred to as NIC), which can be connected to other network devices through a base station so as to communicate with the Internet.
  • the transmission device 106 can be a radio frequency (Radio Frequency, referred to as RF) module, which is used to communicate with the Internet wirelessly.
  • RF Radio Frequency
  • FIG. 2 is a flow chart of the method for predicting the operating status of a storage cluster according to an embodiment of the present application. As shown in FIG. 2 , the process includes the following steps:
  • Step S202 detecting an IO service blocking event in a distributed storage cluster
  • Step S204 when an IO service blocking event is detected in the distributed storage cluster, the operation data of the target storage node where the IO service blocking event occurs is obtained, wherein the operation data is used to indicate the processing status of the IO service by the target storage node at the current moment when the IO service blocking event occurs;
  • Step S206 predicting a target risk level of a target storage node having a blocking risk in a target time period after the current moment according to the operation data, wherein the target risk level is used to indicate a probability of an IO service blocking event occurring in the target storage node in the target time period;
  • Step S208 predicting a target operating state of the distributed storage cluster in a target time period according to the target risk level.
  • the above storage cluster operation status prediction method can be run on any storage node of the distributed storage cluster, and this solution does not limit this.
  • detecting IO business blocking events in the distributed storage cluster can be achieved by detecting the operation log in the distributed storage cluster, or it can also be achieved by real-time monitoring of the operation status of each storage node in the distributed storage cluster. For example, searching for keywords corresponding to IO business blocking events in the operation log of the distributed storage cluster can determine whether IO business blocking events are stored in the distributed storage cluster. For another example, real-time monitoring of the load and data processing volume of the distributed storage nodes can be performed to determine the IO business blocking events of each distributed storage node, and then the IO business blocking events of the distributed storage cluster can be determined.
  • the target storage node may be determined based on the operating status reported by each distributed storage node.
  • each distributed storage node may periodically report its own operating status, such as reporting whether an IO service blocking event occurs, thereby determining whether an IO service blocking event occurs in the distributed storage cluster.
  • Target storage node of the IO service blocking event may be determined based on the operating status reported by each distributed storage node.
  • the target storage node can also be obtained by screening the information of the hard disks deployed on each storage node in the distributed storage cluster.
  • the hard disk SMART Self-Monitoring Analysis and Reporting Technology
  • the hard disk SMART information of the hard disks deployed on each node in the distributed storage cluster is obtained (the information stores the results of monitoring the operation of the hard disk hardware such as the head, disk, motor, and circuit), and the hard disk SMART information is saved.
  • the server node where the hard disk with the slow disk or the hard disk with physical bad spots is deployed is determined as the target storage node.
  • the target operating state may include but is not limited to the distributed storage cluster operating state being normal, the distributed storage cluster having an IO blocking event, the distributed storage cluster being down due to an IO blocking event, etc., and this solution does not limit this.
  • predicting the target operating state according to the target risk level may also be to search for a target operating state that matches the target risk level from energy levels and operating states of risks that have a corresponding relationship, and this solution does not limit this.
  • FIG. 3 is a flowchart of an optional operation state prediction according to an embodiment of the present application. As shown in FIG. 3 , the flowchart at least includes the following steps:
  • the number of blocks can determine the number of IO business blocking events that occur in the distributed storage cluster. By monitoring the number, duration, and growth of blocks in the distributed storage cluster, the reference blocking risk level of the distributed storage cluster can be predicted and the corresponding alarm signal can be generated. interest.
  • S303 use icfs health detail to record the hard disk information (such as hard disk ID) that is generating blocks, and analyze the hard disk SMART information corresponding to these hard disk information to determine whether these hard disks are slow disks or whether there are physical bad sectors.
  • the target risk level of the storage node generating blocking events within the target time period is predicted based on the hard disk information and the average load of the target storage node.
  • S305 predicting a target operating state of the distributed storage cluster within a target time period according to the reference blocking risk level.
  • predicting a target risk level of a target storage node having a blocking risk in a target time period after the current moment according to the operation data includes:
  • the hard disk with the target hard disk attributes may be a slow disk (such as a mechanical hard disk) with low IO business processing capability, or may be a hard disk with a physical fault, which is not limited in this solution.
  • the running data may carry the hard disk attributes of the hard disk deployed on the storage node and the target load parameters of the CPU on the target storage node, or may also carry relevant data for determining the hard disk attributes and target load parameters.
  • the running data carries the hard disk identifier of the hard disk whose processing capability for IO business is lower than the target processing capability, and then the target hard disk attributes corresponding to the hard disk identifier can be found from the hard disk attribute set according to the hard disk identifier.
  • the running data may also carry the business load on the target storage node and the number of CPUs deployed on the target storage node, and then the target load parameters of each CPU can be determined according to the business load and the number of CPUs.
  • the target risk level may be, but is not limited to, determined from a correspondence between the number of hard disks, the load parameter, and the risk level, and the target risk level corresponding to the target number of hard disks and the target load parameter.
  • determining the target number of hard disks with target hard disk attributes included in the target storage node and the target load parameter of the CPU deployed in the target storage node according to the operation data includes:
  • the reference hard disk is a hard disk generating an IO service blocking event in the target storage node
  • the target average load is obtained by calculating the quotient of the service load and the number of CPUs deployed on the target storage node.
  • the target hard disk number of hard disks whose hard disk properties are counted from the reference hard disks may be obtained by counting the number of hard disks whose hard disk properties of the reference hard disk match the target hard disk properties.
  • counting the number of target hard disks having the target hard disk attribute from the reference hard disks included in the operation data includes:
  • the first hard disk quantity, the second hard disk quantity, or the sum of the first hard disk quantity and the second hard disk quantity is determined as the target hard disk quantity.
  • the hard disk with fault attributes is used to indicate that the hard disk has faults such as bad sectors and damaged magnetic heads.
  • the hard disk having a target processing rate is caused by the hard disk's own processing properties for business data.
  • the hard disk is a slow disk (such as a mechanical hard disk), and its processing rate for IO business is lower than the target rate threshold when there is no fault.
  • predicting the target risk level according to the target hard disk quantity and the target load parameter includes:
  • a target risk level corresponding to the target number of hard disks and the target average load is found from the hard disk number intervals, average load intervals and risk levels that have corresponding relationships.
  • the number of hard disks with target hard disk attributes on the storage node is different, and the average load of the CPU is different, resulting in different risk levels of the storage node in the target time period.
  • searching for a target risk level corresponding to the target number of hard disks and the target average load from the hard disk number intervals, average load intervals and risk levels having corresponding relationships includes:
  • the target risk level is the second risk level, wherein the second risk level is higher than the first risk level
  • the target risk level is determined to be the third risk level, wherein the third risk level is greater than or equal to Second risk level;
  • the target risk level is determined to be a fourth risk level, wherein the fourth risk level is higher than the third risk level.
  • the higher the risk level the higher the probability that the storage node will experience service congestion within the target time period.
  • a reference blocking risk level of the distributed storage cluster within a target time period is determined according to the blocking event information.
  • the blocking event information includes the number of blocking events, the duration of the blocking events, the growth of the number of blocking events, etc., which is not limited in this solution.
  • the reference congestion risk level can be obtained by predicting the congestion event information by referring to a congestion risk prediction model, wherein the reference congestion risk prediction model is obtained by training an initial congestion risk prediction model using historical congestion event information marked with congestion risk levels as samples, and this scheme does not limit this.
  • determining a reference blocking risk level of the distributed storage cluster within a target time period according to the blocking event information includes:
  • the blocking event information includes the number of events and the duration
  • the reference blocking risk level is determined according to the growth rate of the IO business blocking events in the distributed storage cluster, wherein the blocking event information also includes the growth rate.
  • determining the reference blocking risk level according to the growth amplitude of the IO service blocking event may be performed by searching for a reference blocking risk level corresponding to the current growth amplitude from the growth amplitudes and blocking risk levels having a corresponding relationship.
  • FIG. 4 is an optional reference blocking risk prediction flow chart according to an embodiment of the present application. As shown in FIG. 4 , the flow chart at least includes the following steps:
  • the reference blocking risk level is determined to be medium
  • the node and hard disk ID where the block is generated are recorded, and a medium alarm is triggered.
  • determining a reference blocking risk level according to a growth rate of IO service blocking events in a distributed storage cluster includes:
  • the reference blocking risk level is determined to be a second blocking risk level, wherein the second blocking risk level is higher than the first blocking risk level;
  • the reference congestion risk level is determined to be a third congestion risk level, wherein the third congestion risk level is higher than the second congestion risk level.
  • the blocking event information is determined based on the query result.
  • the grep command is used to search for a string that meets the condition in the target log, that is, to search for a target keyword in the target log.
  • a target keyword Each time a target keyword is found, it indicates that there is an IO service blocking event in the distributed storage cluster.
  • each time a target keyword is queried it proves that there is an IO business blocking event in the distributed storage cluster, and then the number of IO business blocking events is obtained by counting the number of target keywords in the current query cycle, and the duration and growth rate of the IO business blocking event are obtained by counting the data queried in multiple query cycles, and then the blocking event information is obtained.
  • the method before querying whether the target keyword exists in the target log by using the grep command according to the predetermined query cycle, the method further includes:
  • obtaining the hard disk properties can be by detecting the hard disk identifier of the hard disk where the IO service blocking event occurs, and then searching for the hard disk properties corresponding to the hard disk identifier from a folder storing hard disk property information, such as searching for SMART information corresponding to the hard disk identifier from pre-stored hard disk SMART information.
  • detecting an IO service blocking event in a distributed storage cluster includes:
  • the first determination unit is configured to: count the number of first hard disks with faulty attributes from reference hard disks, and/or count the number of second hard disks with target processing rates from reference hard disks, wherein the target processing rate is lower than a target rate threshold; determine the number of first hard disks, the number of second hard disks, or the sum of the number of first hard disks and the number of second hard disks as the target number of hard disks.
  • the determination module includes: a second determination unit, configured to determine the reference blocking risk level as the first blocking risk level when the number of IO business blocking events is less than a third threshold and the duration of the IO business blocking events is less than a fourth threshold, wherein the blocking event information includes the number of events and the duration; a third determination unit, configured to determine the reference blocking risk level according to the growth rate of IO business blocking events in the distributed storage cluster when the number of IO business blocking events is greater than or equal to the third threshold and/or the duration of the IO business blocking events is greater than or equal to the fourth threshold, wherein the blocking event information also includes the growth rate.
  • the device also includes: a second acquisition module, configured to obtain a predetermined query cycle before querying whether the target keyword exists in the target log through the grep command according to the predetermined query cycle, wherein the predetermined query cycle is obtained by adjusting the initial query cycle of the distributed storage cluster according to the Crontab command.
  • a second acquisition module configured to obtain a predetermined query cycle before querying whether the target keyword exists in the target log through the grep command according to the predetermined query cycle, wherein the predetermined query cycle is obtained by adjusting the initial query cycle of the distributed storage cluster according to the Crontab command.
  • the second prediction module includes: a fifth determination unit, configured to determine the target node number of target storage nodes included in the distributed storage cluster; a sixth determination unit, configured to determine a target blocking risk level corresponding to the target node number and the target risk level from the node numbers, risk levels and blocking risk levels that have a corresponding relationship, wherein the target blocking risk level is used to indicate the risk level of the distributed storage cluster being blocked when executing IO services within a target time period; and a seventh determination unit, configured to determine a target operating state corresponding to the target blocking risk level.
  • the sixth determination unit is configured to: when the number of nodes with a risk level greater than a preset risk level is greater than the target number, determine the target blocking risk level as a first target blocking risk level; when the number of nodes with a risk level greater than the preset risk level is less than or equal to the target number, determine the target blocking risk level as a second target blocking risk level, wherein the first target blocking risk level is greater than the second target blocking risk level.
  • the detection module includes: an operation unit configured to run a permission addition script, wherein the permission addition script is used to add operation permissions for a prediction script in a distributed storage cluster, and the prediction script is used to predict the operation status of the distributed storage cluster in a target time period; and a prediction unit configured to detect IO service blocking events in the distributed storage cluster by running the prediction script.
  • the above modules can be implemented by software or hardware. For the latter, it can be implemented in the following ways, but not limited to: the above modules are all located in the same processor; or the above modules are located in different processors in any combination.
  • An embodiment of the present application further provides a computer non-volatile readable storage medium, in which a computer program is stored, wherein the computer program is configured to execute the steps of any of the above method embodiments when running.
  • the above-mentioned computer non-volatile readable storage medium may include but is not limited to: a USB flash drive, a read-only memory (ROM), a random access memory (RAM), a mobile hard disk, a magnetic disk or an optical disk, and other media that can store computer programs.
  • An embodiment of the present application further provides an electronic device, including a memory and a processor, wherein a computer program is stored in the memory, and the processor is configured to run the computer program to execute the steps in any one of the above method embodiments.
  • the electronic device may further include a transmission device and an input/output device, wherein the transmission device is connected to the processor, and the input/output device is connected to the processor.
  • modules or steps of the present application can be implemented by a general computing device, they can be concentrated on a single computing device, or distributed on a network composed of multiple computing devices, they can be implemented by a program code executable by a computing device, so that they can be stored in a storage device and executed by the computing device, and in some cases, the steps shown or described can be executed in a different order from that herein, or they can be made into individual integrated circuit modules, or multiple modules or steps therein can be made into a single integrated circuit module for implementation.
  • the present application is not limited to any specific combination of hardware and software.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种存储集群运行状态的预测方法及装置,其中,该方法包括:检测分布式存储集群中的IO业务阻塞事件;在检测到分布式存储集群中发生IO业务阻塞事件的情况下,获取发生IO业务阻塞事件的目标存储节点的运行数据;根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级;根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态。通过本申请,解决相关技术中对分布式存储集群运行状态的监测的效率较低问题,达到提高对分布式存储集群运行状态的监测效率效果。

Description

存储集群运行状态的预测方法及装置
相关申请的交叉引用
本申请要求于2022年12月29日提交中国专利局,申请号为202211707187.X,申请名称为“存储集群运行状态的预测方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种存储集群运行状态的预测方法及装置。
背景技术
随着云计算、大数据等新型技术的发展,各种应用的数据量的不断增大,分布式存储***作为海量数据存储的场景越来越多,存储的性能要求也越来越高。软件应用对分布式存储***的性能指标要求主要体现在延迟、带宽、IOPS(Input/Output Operations Per Second,用于计算机存储设备性能测试的量测方法)等方面,而这些指标压力过大时,通常会表现出分布式存储***中产生IO(Input/Output,输入/输出)阻塞情况,当分布式存储***中产生大量IO阻塞,而不能尽快疏散时,直接影响前端应用的数据写入,产生读写报错,严重的还会出现业务宕机,数据丢失的情况。但目前,管理人员只有在分布式存储***出现非常严重的IO阻塞进而导致分布式存储***宕机的情况下,才得知分布式存储***存在非常严重的IO阻塞,才会对宕机的分布式存储***进行维护,这也对分布式存储***上的业务数据造成了影响,因此,如何有效的对分布式存储***的运行状态进行监测是行业内技术人员急需解决的技术问题。
发明内容
本申请实施例提供了一种存储集群运行状态的预测方法及装置,以至少解决相关技术中对分布式存储集群运行状态的监测的效率较低的问题。
根据本申请的一个实施例,提供了一种存储集群运行状态的预测方法,包括:检测分布式存储集群中的IO业务阻塞事件;在检测到分布式存储集群中发生IO业务阻塞事件的情况下,获取发生IO业务阻塞事件的目标存储节点的运行数据,其中,运行数据用于指示目标存储节点在发生IO业务阻塞事件的当前时刻对IO业务的处理情况;根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,目标风险等级用于指示目标存储节点在目标时间段发生IO业务阻塞事件的概率;根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态。
可选的,根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级,包括:根据运行数据确定目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及目标存储节点中部署的CPU (central processing unit,中央处理器)的目标负载参数,其中,具有目标硬盘属性的硬盘对IO业务的处理能力低于目标处理能力,目标负载参数用于指示目标存储节点中部署的CPU的负载情况;根据目标硬盘数量和目标负载参数预测目标风险等级。
可选的,根据运行数据确定目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及目标存储节点中部署的CPU的目标负载参数,包括:从运行数据所包括的参考硬盘中统计具有目标硬盘属性的硬盘的目标硬盘数量,其中,参考硬盘为目标存储节点中产生IO业务阻塞事件的硬盘;根据运行数据所包括的目标存储节点的业务负载计算目标存储节点中部署的CPU在当前时刻的目标平均负载作为目标负载参数。
可选的,从运行数据所包括的参考硬盘中统计具有目标硬盘属性的硬盘的目标硬盘数量,包括:从参考硬盘中统计具有故障属性的硬盘的第一硬盘数量,和/或,从参考硬盘中统计具有目标处理速率的硬盘的第二硬盘数量,其中,目标处理速率低于目标速率阈值;将第一硬盘数量,第二硬盘数量,或者,第一硬盘数量与第二硬盘数量的和值确定为目标硬盘数量。
可选的,根据目标硬盘数量和目标负载参数预测目标风险等级,包括:获取具有对应关系的硬盘数量区间,平均负载区间和风险等级,其中,具有对应关系的硬盘数量区间,平均负载区间和风险等级是根据历史产生的IO业务阻塞事件的数据构建的;从具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与目标硬盘数量和目标平均负载对应的目标风险等级。
可选的,从具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与目标硬盘数量和目标平均负载对应的目标风险等级,包括:在目标硬盘数量小于第一阈值,目标平均负载小于第二阈值的情况下,确定目标风险等级为第一风险等级;在目标硬盘数量小于第一阈值,目标平均负载大于或者等于第二阈值的情况下,确定目标风险等级为第二风险等级,其中,第二风险等级高于第一风险等级;在目标硬盘数量大于或者等于第一阈值,目标平均负载小于第二阈值的情况下,确定目标风险等级为第三风险等级,其中,第三风险等级高于或者等于第二风险等级;在目标硬盘数量大于或者等于第一阈值,目标平均负载大于或者等于第二阈值的情况下,确定目标风险等级为第四风险等级,其中,第四风险等级高于第三风险等级。
可选的,在获取发生IO业务阻塞事件的目标存储节点的运行数据之前,方法还包括:获取IO业务阻塞事件的阻塞事件信息;根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级。
可选的,根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级,包括:在IO业务阻塞事件的事件数量小于第三阈值,并且,IO业务阻塞事件的持续时间小于第四阈值的情况下,确定参考阻塞风险等级为第一阻塞风险等级,其中,阻塞事件信息包括事件数量和持续时间;在IO业务阻塞事件的事件数量大于或者等于第三阈值,和/或,IO业务阻塞事件的持续时间大于或者等于第四阈值的情况下,根据分布式存储集群中IO业务阻塞事 件的增长幅度确定参考阻塞风险等级,其中,阻塞事件信息还包括增长幅度。
可选的,根据分布式存储集群中IO业务阻塞事件的增长幅度确定参考阻塞风险等级,包括:在增长幅度小于目标幅度的情况下,确定参考阻塞风险等级为第二阻塞风险等级,其中,第二阻塞风险等级高于第一阻塞风险等级;在增长幅度大于或者等于目标幅度的情况下,确定参考阻塞风险等级为第三阻塞风险等级,其中,第三阻塞风险等级高于第二阻塞风险等级。
可选的,获取IO业务阻塞事件的阻塞事件信息,包括:按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字,得到查询结果,其中,目标关键字为与IO业务阻塞事件对应的关键字,目标日志用于记录分布式存储集群的运行状态;根据查询结果确定阻塞事件信息。
可选的,在按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字之前,方法还包括:获取预定查询周期,其中,预定查询周期是分布式存储集群根据Crontab命令对初始查询周期进行调整得到的。
可选的,在根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级之后,方法还包括:生成携带参考阻塞风险等级的第一通知消息;将第一通知消息发送至管理员使用的管理帐号。
可选的,获取发生IO业务阻塞事件的目标存储节点的运行数据,包括:获取参考硬盘的硬盘属性,其中,参考硬盘为产生IO业务阻塞事件的硬盘;获取部署了参考硬盘的目标存储节点的业务负载,其中,运行数据包括硬盘属性和业务负载。
可选的,获取参考硬盘的硬盘属性,包括:获取参考硬盘的参考硬盘标识,其中,参考硬盘标识是参考硬盘触发IO业务阻塞事件后上报的;从SMART(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术)信息集合中获取与参考硬盘标识对应的参考硬盘SMART信息,其中,SMART信息集合用于存储具有对应关系的初始硬盘标识和硬盘SMART信息,初始硬盘标识用于指示正在产生IO业务阻塞事件的硬盘,硬盘SMART信息用于表征硬盘的硬盘属性。
可选的,在根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级之后,方法还包括:生成携带目标风险等级的第二通知消息;将第二通知消息发送至管理员使用的管理帐号。
可选的,根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态,包括:确定分布式存储集群中所包括的目标存储节点的目标节点数量;从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级,其中,目标阻塞风险等级用于指示分布式存储集群在目标时间段内执行IO业务时被阻塞的风险等级;确定与目标阻塞风险等级对应的目标运行状态。
可选的,从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级,包括:在风险等级大于预设风险等级的节点数量大于目标数量的情况下,确定目标阻塞风险等级为 第一目标阻塞风险等级;在风险等级大于预设风险等级的节点数量小于或等于目标数量的情况下,确定目标阻塞风险等级为第二目标阻塞风险等级,其中,第一目标阻塞风险等级大于第二目标阻塞风险等级。
可选的,在从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级之后,方法还包括:生成携带目标阻塞风险等级的第三通知消息;将第三通知消息发送至管理员使用的管理帐号。
可选的,检测分布式存储集群中的IO业务阻塞事件,包括:运行权限添加脚本,其中,权限添加脚本用于在分布式存储集群中添加对预测脚本的运行权限,预测脚本用于预测分布式存储集群在目标时间段的运行状态;通过运行预测脚本的方式检测分布式存储集群中的IO业务阻塞事件。
根据本申请的另一个实施例,提供了一种存储集群运行状态的预测装置,包括:检测模块,被配置为检测分布式存储集群中的IO业务阻塞事件;第一获取模块,被配置为在检测到分布式存储集群中发生IO业务阻塞事件的情况下,获取发生IO业务阻塞事件的目标存储节点的运行数据,其中,运行数据用于指示目标存储节点在发生IO业务阻塞事件的当前时刻对IO业务的处理情况;第一预测模块,被配置为根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,目标风险等级用于指示目标存储节点在目标时间段发生IO业务阻塞事件的概率;第二预测模块,被配置为根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态。
根据本申请的又一个实施例,还提供了一种计算机非易失性可读存储介质,计算机非易失性可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,在检测到分布式存储集群中发生了IO阻塞事件后,通过获取发生IO阻塞事件的目标存储节点的运行数据,进而根据运行数据可以预测出目标存储节点在当前时刻之后的目标时间段内存在阻塞风险的目标风险等级,实现对目标存储节点在未来运行过程中阻塞风险的预测,进而可以根据目标风险等级预测分布式存储集群在目标时间段的运行状态,从而能够实现对分布式存储集群的运行状态***,避免由于分布式存储集群由于严重的IO阻塞导致的分布式存储集群宕机时间的发生。因此,可以解决相关技术中对分布式存储集群运行状态的监测的效率较低问题,达到提高对分布式存储集群运行状态的监测效率效果。
附图说明
图1是本申请实施例的一种存储集群运行状态的预测方法的移动终端的硬 件结构框图;
图2是根据本申请实施例的存储集群运行状态的预测方法的流程图;
图3是根据本申请实施例的一种可选的运行状态的预测流程图;
图4是根据本申请实施例的一种可选的参考阻塞风险预测流程图;
图5是根据本申请实施例的存储集群运行状态的预测装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种存储集群运行状态的预测方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA(Field Programmable Gate Array)等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的存储集群运行状态的预测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种存储集群运行状态的预测方法,图2是根据本申请实施例的存储集群运行状态的预测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,检测分布式存储集群中的IO业务阻塞事件;
步骤S204,在检测到分布式存储集群中发生IO业务阻塞事件的情况下,获取发生IO业务阻塞事件的目标存储节点的运行数据,其中,运行数据用于指示目标存储节点在发生IO业务阻塞事件的当前时刻对IO业务的处理情况;
步骤S206,根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,目标风险等级用于指示目标存储节点在目标时间段发生IO业务阻塞事件的概率;
步骤S208,根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态。
通过上述步骤,在检测到分布式存储集群中发生了IO阻塞事件后,通过获取发生IO阻塞事件的目标存储节点的运行数据,进而根据运行数据可以预测出目标存储节点在当前时刻之后的目标时间段内存在阻塞风险的目标风险等级,实现对目标存储节点在未来运行过程中阻塞风险的预测,进而可以根据目标风险等级预测分布式存储集群在目标时间段的运行状态,从而能够实现对分布式存储集群的运行状态***,避免由于分布式存储集群由于严重的IO阻塞导致的分布式存储集群宕机时间的发生。因此,可以解决相关技术中对分布式存储集群运行状态的监测的效率较低问题,达到提高对分布式存储集群运行状态的监测效率效果。
上述存储集群运行状态的预测方法可以运行在分布式存储集群的任意存储节点上,本方案对此不做限定。
在上述步骤S202提供的实施例中,检测分布式存储集群中的IO业务阻塞事件可以是通过对分布式存储集群中的运行日志进行检测实现的,或者还可以是对分布式存储集群中各个存储节点的运行状态进行实时监控实现的,比如,在分布式存储集群的运行日志中搜索与IO业务阻塞事件对应的关键字,从而确定分布式存储集群中是否存储在IO业务阻塞事件,再比如,通过对分布式存储节点的负载量和数据处理量进行实时监控,从而确定各个分布式存储节点的IO业务阻塞事件,进而确定出分布式存储集群的IO业务阻塞事件。
在上述步骤S204提供的实施例中,存储节点的运行数据可以但不限于包括存储节点上的业务负载情况、存储节点上的CPU核数、存储节点上的硬盘数量以及各个硬盘的硬盘状态等等;
可选地,在本实施例中,目标存储节点的运行数据可以是直接获取分布式存储集群中各个存储节点的运行数据,并检测各个存储节点上是否存在IO阻塞事件,进而将存在IO阻塞事件的存储节点作为目标存储节点,将对应的运行数据确定为目标存储节点的运行数据,或者还可以是通过检测分布式存储集群中产生IO阻塞业务的硬盘,进而查询部署了该硬盘的存储节点,进而查询该存储节点的运行数据,本方案对获取运行数据的方法不做限定。
可选地,在本实施例中,目标存储节点可以是根据各个分布式存储节点上报的运行状态确定的,比如,各个分布式存储节点会定时的上报各自的运行情况,如上报各自是否发生IO业务阻塞事件,进而确定出分布式存储集群中发生 IO业务阻塞事件的目标存储节点。
可选地,在本实施例中,目标存储节点还可以是通过对分布式存储集群中各个存储节点上部署的硬盘的信息进行筛选得到的,比如,获取分布式存储集群中各个节点上部署的硬盘的硬盘SMART(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术)信息(该信息中存储了对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控的结果),并对硬盘SMART信息进行保存,通过对硬盘SMART信息进行分析从而判断出各个硬盘是否是慢盘或者是否存在物理坏点,在并将部署了慢盘或者物理坏点的硬盘的服务器节点确定为目标存储节点。
在上述步骤S206提供的实施例中,目标风险等级可以是使用风险等级预测模型对运行数据进行预测得到的,其中,风险等级预测模型可以是使用通过标注了风险等级的历史运行数据作为训练样本对初始风险等级预测模型进行训练得到的。
可选地,在本实施例中,风险等级还可以是通过对目标存储节点上的不是的用于存储数据的硬盘的硬盘属性以及分布式存储节点上的业务负载情况进行分析得到的,比如,通过对硬盘属性进行分析,从而得到目标分布式存储节点上各个硬盘对IO业务的处理能力,即各个硬盘是否是慢盘或者坏盘,进而根据各个硬盘对IO业务的处理能力和目标存储节点上的业务负载情况预测出目标存储节点在目标时间段存在阻塞风险的目标风险等级。
在上述步骤S208提供的实施例中,目标运行状态可以但不限于包括分布式存储集群运行状态正常、分布式存储集群存在IO阻塞事件、分布式存储集群由于IO阻塞事件导致宕机等等,本方案对此不做限定。
可选地,在本实施例中,根据目标风险等级预测分布式存储集群的运行状态可以是通过对目标风险等级进行分析,从而确定出分布式存储集群中在目标时间段内目标风险等级大于预设风险等级的存储节点的数量,进而根据分布式存储集群中全部节点的数量以及目标风险等级大于预设风险等级的存储节点数量,确定出分布式存储集群在目标时间段内处于各个运行状态的概率值,并将概率值最大的运行状态确定为目标运行状态。
可选地,在本实施例中,根据目标风险等级预测目标运行状态还可以是从具有对应关系的风险的能级和运行状态中查找与目标风险等级匹配的目标运行状态,本方案对此不做限定。
图3是根据本申请实施例的一种可选的运行状态的预测流程图,如图3所示,至少包括如下步骤:
S301,通过crontab定时任务命令,周期查询分布式存储的健康状态,同时使用grep命令自动查找分布式存储集群运行状态输出信息中block的关键字,进而判断分布式存储底层是否有IO业务阻塞事件产生。
S302,block的数量可以判断分布式存储集群发生的阻塞的IO业务阻塞事件的数量,通过监测分布式存储集群中block产生的数量、持续时间、增长情况,从而预测出分布式存储集群的参考阻塞风险等级,并生成对应的报警信 息。
S303,使用icfs health detail记录正在产生block的硬盘信息(如硬盘ID),对这些硬盘信息对应的硬盘SMART信息进行分析可以判断这些硬盘是否为慢盘或者是否存在物理坏道,同时记录下已经产生阻塞硬盘所在的目标存储节点,通过计算平均负载F=CPU负载数/存储节点CPU核数,判断F是否大于1来确定节点是否负载过高,最后通过硬盘信息和目标存储节点的平均负载情况来对存储节点在目标时间段内产生阻塞事件的目标风险等级进行预测。
S304,根据分布式存储集群中各个目标存储节点的目标风险等级,从而预测出分布式存储集群在目标时间段内产生IO业务阻塞的目标阻塞风险等级,并生成对应的报警信息,由于目标风险等级是使用各个目标存储节点的目标风险等级进行预测得到的,因此目标阻塞风险等级的准确率高于参考阻塞风向等级。
S305,根据参考阻塞风险等级从而预测出分布式存储集群在目标时间段内的目标运行状态。
作为一种可选的实施例,根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级,包括:
根据运行数据确定目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及目标存储节点中部署的CPU的目标负载参数,其中,具有目标硬盘属性的硬盘对IO业务的处理能力低于目标处理能力,目标负载参数用于指示目标存储节点中部署的CPU的负载情况;
根据目标硬盘数量和目标负载参数预测目标风险等级。
可选地,在本实施例中,具有目标硬盘属性的硬盘可以是对IO业务处理能力较低的慢盘(如机械硬盘),或者还可以是存在物理故障的硬盘,本方案对此不做限定。
可选地,在本实施例中,运行数据中可以携带了存储节点上部署的硬盘的硬盘属性以及目标存储节点上的CPU的目标负载参数,或者还可以是携带用于确定硬盘属性和目标负载参数的相关数据,比如,运行携带了对IO业务的处理能力低于目标处理能力的硬盘的硬盘标识,进而可以根据该硬盘标识从硬盘属性集合中查找出硬盘标识对应的目标硬盘属性,同时运行数据中还可以携带有目标存储节点上的业务负载量以及目标存储节点上部署的CPU的数量,进而可以根据业务负载量和CPU数量确定出每个CPU的目标负载参数。
可选地,在本实施例中,目标风险等级可以但不限于是从具有对应关系的硬盘数量、负载参数和风险等级的对应关系中确定出于目标硬盘数量和目标负载参数对应的目标风险等级。
作为一种可选的实施例,根据运行数据确定目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及目标存储节点中部署的CPU的目标负载参数,包括:
从运行数据所包括的参考硬盘中统计具有目标硬盘属性的硬盘的目标硬盘数量,其中,参考硬盘为目标存储节点中产生IO业务阻塞事件的硬盘;
根据运行数据所包括的目标存储节点的业务负载计算目标存储节点中部署的CPU在当前时刻的目标平均负载作为目标负载参数。
可选地,在本实施例中,目标平均负载是通过计算业务负载和目标存储节点上部署的CPU数量的商值得到的。
可选地,在本实施例中,从参考硬盘中统计目标硬盘属性的硬盘的目标硬盘数量可以是通过统计参考硬盘的硬盘属性与目标硬盘属性的匹配一致的硬盘的数量得到的。
作为一种可选的实施例,从运行数据所包括的参考硬盘中统计具有目标硬盘属性的硬盘的目标硬盘数量,包括:
从参考硬盘中统计具有故障属性的硬盘的第一硬盘数量,和/或,从参考硬盘中统计具有目标处理速率的硬盘的第二硬盘数量,其中,目标处理速率低于目标速率阈值;
将第一硬盘数量,第二硬盘数量,或者,第一硬盘数量与第二硬盘数量的和值确定为目标硬盘数量。
可选地,在本实施例中,具有故障属性的硬盘用于指示硬盘存在坏道、磁头破损等故障。
可选地,在本实施例中,具有目标处理速率的硬盘是由硬盘的自身对业务数据的处理属性导致的,比如硬盘是慢盘(如机械硬盘),其在无故障存在的情况下对IO业务的处理速率低于目标速率阈值。
作为一种可选的实施例,根据目标硬盘数量和目标负载参数预测目标风险等级,包括:
获取具有对应关系的硬盘数量区间,平均负载区间和风险等级,其中,具有对应关系的硬盘数量区间,平均负载区间和风险等级是根据历史产生的IO业务阻塞事件的数据构建的;
从具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与目标硬盘数量和目标平均负载对应的目标风险等级。
可选地,在本实施例中,存储节点上具有目标硬盘属性的硬盘的硬盘数量不同,CPU的平均负载不同,导致存储节点在目标时间段内的风险等级也是不同的。
作为一种可选的实施例,从具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与目标硬盘数量和目标平均负载对应的目标风险等级,包括:
在目标硬盘数量小于第一阈值,目标平均负载小于第二阈值的情况下,确定目标风险等级为第一风险等级;
在目标硬盘数量小于第一阈值,目标平均负载大于或者等于第二阈值的情况下,确定目标风险等级为第二风险等级,其中,第二风险等级高于第一风险等级;
在目标硬盘数量大于或者等于第一阈值,目标平均负载小于第二阈值的情况下,确定目标风险等级为第三风险等级,其中,第三风险等级高于或者等于 第二风险等级;
在目标硬盘数量大于或者等于第一阈值,目标平均负载大于或者等于第二阈值的情况下,确定目标风险等级为第四风险等级,其中,第四风险等级高于第三风险等级。
可选地,在本实施例中,风险等级越高,则该存储节点在目标时间段内出现业务阻塞的概率越高。
作为一种可选的实施例,在获取发生IO业务阻塞事件的目标存储节点的运行数据之前,方法还包括:
获取IO业务阻塞事件的阻塞事件信息;
根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级。
可选地,在本实施例中,阻塞事件信息包括阻塞事件的事件数量、阻塞事件的持续事件、阻塞事件数量的增长情况等等,本方案对此不做限定。
可选地,在本实施例中,参考阻塞风险等级可以是通过参考阻塞风险预测模型对阻塞事件信息进行预测得到的,其中,参考阻塞风险预测模型是使用标注了阻塞风险等级的历史阻塞事件信息作为样本对初始阻塞风险预测模型进行训练得到的,本方案对此不做限定。
作为一种可选的实施例,根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级,包括:
在IO业务阻塞事件的事件数量小于第三阈值,并且,IO业务阻塞事件的持续时间小于第四阈值的情况下,确定参考阻塞风险等级为第一阻塞风险等级,其中,阻塞事件信息包括事件数量和持续时间;
在IO业务阻塞事件的事件数量大于或者等于第三阈值,和/或,IO业务阻塞事件的持续时间大于或者等于第四阈值的情况下,根据分布式存储集群中IO业务阻塞事件的增长幅度确定参考阻塞风险等级,其中,阻塞事件信息还包括增长幅度。
可选地,在本实施例中,根据IO业务阻塞事件的增长幅度确定参考阻塞风险等级可以是通过从具有对应关系的增长幅度和阻塞风险等级中查找与当前增长幅度对应的参考阻塞风险等级。
图4是根据本申请实施例的一种可选的参考阻塞风险预测流程图,如图4所示,至少包括如下步骤:
S401,通过crontab定时任务命令,周期查询分布式存储的健康状态,同时使用grep命令自动查找分布式存储集群运行状态输出信息中block的关键字,进而判断分布式存储底层是否有IO业务阻塞事件产生,block的数量可以判断分布式存储集群发生的阻塞的IO业务阻塞事件的数量,监测分布式存储集群中block产生的数量、持续时间、增长情况。
S402,检测block数量或者阻塞时间是够大于设定阈值,在大于设定阈值的情况下,执行步骤S404,在小于或者等于设定阈值的情况下,执行步骤S403。
S403,判断参考阻塞风险等级为低级,记录产生block的节点和硬盘ID,触发低级警报。
S404,检测block数量是否持续增长。
S405,当block数量继续增长时,则判断参考阻塞风险等级为高级,记录产生block的节点和硬盘ID,触发严重警报。
S406,当block数量没有继续增长,则判断参考阻塞风险等级为中级,记录产生block的节点和硬盘ID,触发中级警报。
作为一种可选的实施例,根据分布式存储集群中IO业务阻塞事件的增长幅度确定参考阻塞风险等级,包括:
在增长幅度小于目标幅度的情况下,确定参考阻塞风险等级为第二阻塞风险等级,其中,第二阻塞风险等级高于第一阻塞风险等级;
在增长幅度大于或者等于目标幅度的情况下,确定参考阻塞风险等级为第三阻塞风险等级,其中,第三阻塞风险等级高于第二阻塞风险等级。
可选地,在本实施例中,阻塞风险等级越高,则表征分布式存储集群在目标时间段内出现IO业务阻塞的概率越大。
作为一种可选的实施例,获取IO业务阻塞事件的阻塞事件信息,包括:
按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字,得到查询结果,其中,目标关键字为与IO业务阻塞事件对应的关键字,目标日志用于记录分布式存储集群的运行状态;
根据查询结果确定阻塞事件信息。
可选地,在本实施例中,grep命令用于查找目标日志中符合条件的字符串,即查找目标日志中的目标关键字,每查找到一个目标关键字,则表征分布式存储集群中存在一起IO业务阻塞事件。
可选地,在本实施例中,在一个查询周期中,每查询到一个目标关键字则证明分布式存储集群中存在一起IO业务阻塞事件,进而通过统计当前查询周期中目标关键字的数量从而得到IO业务阻塞事件的事件数量,通过将多个查询周期查询到的数据进行统计,从而得到IO业务阻塞事件的持续时间和增长幅度,进而得到阻塞事件信息。
作为一种可选的实施例,在按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字之前,方法还包括:
获取预定查询周期,其中,预定查询周期是分布式存储集群根据Crontab命令对初始查询周期进行调整得到的。
可选地,在本实施例中,Crontab命令用于设置周期性被执行的指令,通过Crontab命令设置grep命令的执行周期。
作为一种可选的实施例,在根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级之后,方法还包括:
生成携带参考阻塞风险等级的第一通知消息;
将第一通知消息发送至管理员使用的管理帐号。
可选地,在本实施例中,第一通知消息用于指示管理员对分布式存储集群 在目标时间段内可能存在的阻塞风险进行预处理,比如对分布式存储集群进行阻塞风险排查,本方案对此不做限定。
可选地,在本实施例中,还可以根据参考阻塞风险触发对应的警报信号,比如参考阻塞风险较低时,触发低级警报,在参考阻塞风险较高时,则触发严重警报,警报用于指示管理员对第一通知消息对应的参考阻塞风险等级的阻塞事件进行预处理。
作为一种可选的实施例,获取发生IO业务阻塞事件的目标存储节点的运行数据,包括:
获取参考硬盘的硬盘属性,其中,参考硬盘为产生IO业务阻塞事件的硬盘;
获取部署了参考硬盘的目标存储节点的业务负载,其中,运行数据包括硬盘属性和业务负载。
可选地,在本实施例中,获取硬盘属性可以是通过检测存在IO业务阻塞事件的硬盘的硬盘标识,进而从存储硬盘属性信息的文件夹中查找与该硬盘标识对应的硬盘属性,比如从预先存储的硬盘SMART信息中查找与硬盘标识对应的SMART信息。
作为一种可选的实施例,获取参考硬盘的硬盘属性,包括:
获取参考硬盘的参考硬盘标识,其中,参考硬盘标识是参考硬盘触发IO业务阻塞事件后上报的;
从SMART信息集合中获取与参考硬盘标识对应的参考硬盘SMART信息,其中,SMART信息集合用于存储具有对应关系的初始硬盘标识和硬盘SMART信息,初始硬盘标识用于指示正在产生IO业务阻塞事件的硬盘,硬盘SMART信息用于表征硬盘的硬盘属性。
可选地,在本实施例中,SMART信息是对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控得到的,通过SMART信息能够表征硬盘的硬盘是否为慢盘、是否存在故障属性等等。
作为一种可选的实施例,在根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级之后,方法还包括:
生成携带目标风险等级的第二通知消息;
将第二通知消息发送至管理员使用的管理帐号。
可选地,在本实施例中,第二通知消息中除了携带目标风险等级外,还可以携带目标存储节点的节点标识,以及目标存储节点上部署的具有目标硬盘属性的硬盘的硬盘标识,进而管理员能够通过第二通知消息准确的得知具体产生IO业务阻塞的硬盘,并对存在IO业务阻塞的硬盘进行处理,以提前消除IO业务阻塞的发生,比如,提前对慢盘进行替换,替换为快盘,将故障属性的硬盘进行替换等等。
可选地,在本实施例中,第二通知消息用于指示管理员对目标存储节点在目标时间段内可能存在的阻塞风险进行预处理,比如对目标存储节点进行维护、程序升级等等,本方案对此不做限定。
可选地,在本实施例中,还可以根据目标风险等级触发对应的警报信号,比如目标风险等级较低时,触发低级警报,在目标风险等级较高时,则触发严重警报,警报用于指示管理员对第二通知消息对应的目标风险等级的阻塞事件进行预处理。
作为一种可选的实施例,根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态,包括:
确定分布式存储集群中所包括的目标存储节点的目标节点数量;
从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级,其中,目标阻塞风险等级用于指示分布式存储集群在目标时间段内执行IO业务时被阻塞的风险等级;
确定与目标阻塞风险等级对应的目标运行状态。
可选地,在本实施例中,目标存储节点的节点数量、目标存储节点发生阻塞事件的风险等级以及阻塞风险之间具有对应关系,即发生阻塞挤时间的存储节点的数量不同,并且每个发生阻塞事件的存储节点的在目标时间段内发生阻塞事件的风险等级不同时,分布式存储集群在目标时间段内的执行IO业务被阻塞的阻塞风险等级也就不同。
可选地,在本实施例中,目标运行状态用于指示分布式存储集群在目标时间段内执行IO业务的状态,可以但不限于包括正常执行IO业务、执行IO业务被阻塞、执行IO业务被阻塞并宕机等等,本方案对此不做限定。
作为一种可选的实施例,从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级,包括:
在风险等级大于预设风险等级的节点数量大于目标数量的情况下,确定目标阻塞风险等级为第一目标阻塞风险等级;
在风险等级大于预设风险等级的节点数量小于或等于目标数量的情况下,确定目标阻塞风险等级为第二目标阻塞风险等级,其中,第一目标阻塞风险等级大于第二目标阻塞风险等级。
作为一种可选的实施例,在从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级之后,方法还包括:
生成携带目标阻塞风险等级的第三通知消息;
将第三通知消息发送至管理员使用的管理帐号。
可选地,在本实施例中,第三通知消息用于指示管理员对分布式存储集群在目标时间段内可能存在的IO业务阻塞等运行状态进行预处理,比如对分布式存储集群中处于阻塞状态的硬盘进行维护、对分布式存储集群中存储程序进行升级等等,本方案对此不做限定。
可选地,在本实施例中,还可以根据目标阻塞风险等级触发对应的警报信号,比如目标阻塞风险等级较低时,触发低级警报,在目标阻塞风险等级较高时,则触发严重警报,警报用于指示管理员对第三通知消息对应的目标阻塞风 险等级的阻塞事件进行预处理。
作为一种可选的实施例,检测分布式存储集群中的IO业务阻塞事件,包括:
运行权限添加脚本,其中,权限添加脚本用于在分布式存储集群中添加对预测脚本的运行权限,预测脚本用于预测分布式存储集群在目标时间段的运行状态;
通过运行预测脚本的方式检测分布式存储集群中的IO业务阻塞事件。
可选地,在本实施例中,权限添加脚本可以运行在分布式存储集群中的任意存储节点上,权限添加脚本可以但不限于是使用chmod+x对预测脚本条件可执行权限。
可选地,在本实施例中,预测脚本用于实现上述存储集群运行状态的预测方法,该预测脚本可以运行在分布式存储集群的任意存储节点上。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个非易失性可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
在本实施例中还提供了一种存储集群运行状态的预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的存储集群运行状态的预测装置的结构框图,如图5所示,该装置包括:检测模块52,被配置为检测分布式存储集群中的IO业务阻塞事件;第一获取模块54,被配置为在检测到分布式存储集群中发生IO业务阻塞事件的情况下,获取发生IO业务阻塞事件的目标存储节点的运行数据,其中,运行数据用于指示目标存储节点在发生IO业务阻塞事件的当前时刻对IO业务的处理情况;第一预测模块56,被配置为根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,目标风险等级用于指示目标存储节点在目标时间段发生IO业务阻塞事件的概率;第二预测模块58,被配置为根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态。
可选的,第一预测模块,包括:第一确定单元,被配置为根据运行数据确定目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及目标存储节点中部署的CPU的目标负载参数,其中,具有目标硬盘属性的硬盘对IO业务的处理能力低于目标处理能力,目标负载参数用于指示目标存储节点中部署的CPU的负载情况;预测单元,被配置为根据目标硬盘数量和目标负载参数 预测目标风险等级。
可选的,第一确定单元,被配置为:从运行数据所包括的参考硬盘中统计具有目标硬盘属性的硬盘的目标硬盘数量,其中,参考硬盘为目标存储节点中产生IO业务阻塞事件的硬盘;根据运行数据所包括的目标存储节点的业务负载计算目标存储节点中部署的CPU在当前时刻的目标平均负载作为目标负载参数。
可选的,第一确定单元,被配置为:从参考硬盘中统计具有故障属性的硬盘的第一硬盘数量,和/或,从参考硬盘中统计具有目标处理速率的硬盘的第二硬盘数量,其中,目标处理速率低于目标速率阈值;将第一硬盘数量,第二硬盘数量,或者,第一硬盘数量与第二硬盘数量的和值确定为目标硬盘数量。
可选的,第一确定单元,被配置为:获取具有对应关系的硬盘数量区间,平均负载区间和风险等级,其中,具有对应关系的硬盘数量区间,平均负载区间和风险等级是根据历史产生的IO业务阻塞事件的数据构建的;从具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与目标硬盘数量和目标平均负载对应的目标风险等级。
可选的,第一确定单元,被配置为:在目标硬盘数量小于第一阈值,目标平均负载小于第二阈值的情况下,确定目标风险等级为第一风险等级;在目标硬盘数量小于第一阈值,目标平均负载大于或者等于第二阈值的情况下,确定目标风险等级为第二风险等级,其中,第二风险等级高于第一风险等级;在目标硬盘数量大于或者等于第一阈值,目标平均负载小于第二阈值的情况下,确定目标风险等级为第三风险等级,其中,第三风险等级高于或者等于第二风险等级;在目标硬盘数量大于或者等于第一阈值,目标平均负载大于或者等于第二阈值的情况下,确定目标风险等级为第四风险等级,其中,第四风险等级高于第三风险等级。
可选的,装置还包括:第二获取模块,被配置为在获取发生IO业务阻塞事件的目标存储节点的运行数据之前,获取IO业务阻塞事件的阻塞事件信息;确定模块,被配置为根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级。
可选的,确定模块,包括:第二确定单元,被配置为在IO业务阻塞事件的事件数量小于第三阈值,并且,IO业务阻塞事件的持续时间小于第四阈值的情况下,确定参考阻塞风险等级为第一阻塞风险等级,其中,阻塞事件信息包括事件数量和持续时间;第三确定单元,被配置为在IO业务阻塞事件的事件数量大于或者等于第三阈值,和/或,IO业务阻塞事件的持续时间大于或者等于第四阈值的情况下,根据分布式存储集群中IO业务阻塞事件的增长幅度确定参考阻塞风险等级,其中,阻塞事件信息还包括增长幅度。
可选的,第三确定单元,被配置为:在增长幅度小于目标幅度的情况下,确定参考阻塞风险等级为第二阻塞风险等级,其中,第二阻塞风险等级高于第一阻塞风险等级;在增长幅度大于或者等于目标幅度的情况下,确定参考阻塞风险等级为第三阻塞风险等级,其中,第三阻塞风险等级高于第二阻塞风险等 级。
可选的,第二获取模块,包括:查询单元,被配置为按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字,得到查询结果,其中,目标关键字为与IO业务阻塞事件对应的关键字,目标日志用于记录分布式存储集群的运行状态;第四确定单元,被配置为根据查询结果确定阻塞事件信息。
可选的,装置还包括:第二获取模块,被配置为在按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字之前,获取预定查询周期,其中,预定查询周期是分布式存储集群根据Crontab命令对初始查询周期进行调整得到的。
可选的,装置还包括:第一生成模块,被配置为在根据阻塞事件信息确定分布式存储集群在目标时间段内的参考阻塞风险等级之后,生成携带参考阻塞风险等级的第一通知消息;第一发送模块,被配置为将第一通知消息发送至管理员使用的管理帐号。
可选的,第一获取模块,包括:第一获取单元,被配置为获取参考硬盘的硬盘属性,其中,参考硬盘为产生IO业务阻塞事件的硬盘;第二获取单元,被配置为获取部署了参考硬盘的目标存储节点的业务负载,其中,运行数据包括硬盘属性和业务负载。
可选的,第一获取单元,被配置为:获取参考硬盘的参考硬盘标识,其中,参考硬盘标识是参考硬盘触发IO业务阻塞事件后上报的;从SMART信息集合中获取与参考硬盘标识对应的参考硬盘SMART信息,其中,SMART信息集合用于存储具有对应关系的初始硬盘标识和硬盘SMART信息,初始硬盘标识用于指示正在产生IO业务阻塞事件的硬盘,硬盘SMART信息用于表征硬盘的硬盘属性。
可选的,装置还包括:第二生成模块,被配置为在根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级之后,生成携带目标风险等级的第二通知消息;第二发送模块,被配置为将第二通知消息发送至管理员使用的管理帐号。
可选的,第二预测模块,包括:第五确定单元,被配置为确定分布式存储集群中所包括的目标存储节点的目标节点数量;第六确定单元,被配置为从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级,其中,目标阻塞风险等级用于指示分布式存储集群在目标时间段内执行IO业务时被阻塞的风险等级;第七确定单元,被配置为确定与目标阻塞风险等级对应的目标运行状态。
可选的,第六确定单元,被配置为:在风险等级大于预设风险等级的节点数量大于目标数量的情况下,确定目标阻塞风险等级为第一目标阻塞风险等级;在风险等级大于预设风险等级的节点数量小于或等于目标数量的情况下,确定目标阻塞风险等级为第二目标阻塞风险等级,其中,第一目标阻塞风险等级大于第二目标阻塞风险等级。
可选的,装置还包括:第三生成模块,被配置为在从具有对应关系的节点 数量,风险等级和阻塞风险等级中确定与目标节点数量和目标风险等级对应的目标阻塞风险等级之后,生成携带目标阻塞风险等级的第三通知消息;第三发送模块,被配置为将第三通知消息发送至管理员使用的管理帐号。
可选的,检测模块,包括:运行单元,被配置为运行权限添加脚本,其中,权限添加脚本用于在分布式存储集群中添加对预测脚本的运行权限,预测脚本用于预测分布式存储集群在目标时间段的运行状态;预测单元,被配置为通过运行预测脚本的方式检测分布式存储集群中的IO业务阻塞事件。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机非易失性可读存储介质,该计算机非易失性可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机非易失性可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (22)

  1. 一种存储集群运行状态的预测方法,其特征在于,包括:
    检测分布式存储集群中的输入/输出IO业务阻塞事件;
    在检测到所述分布式存储集群中发生所述IO业务阻塞事件的情况下,获取发生所述IO业务阻塞事件的目标存储节点的运行数据,其中,所述运行数据用于指示所述目标存储节点在发生所述IO业务阻塞事件的当前时刻对IO业务的处理情况;
    根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,所述目标风险等级用于指示所述目标存储节点在所述目标时间段发生所述IO业务阻塞事件的概率;
    根据目标风险等级预测所述分布式存储集群在所述目标时间段的目标运行状态。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,包括:
    根据所述运行数据确定所述目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及所述目标存储节点中部署的中央处理器CPU的目标负载参数,其中,具有所述目标硬盘属性的硬盘对IO业务的处理能力低于目标处理能力,所述目标负载参数用于指示所述目标存储节点中部署的CPU的负载情况;
    根据所述目标硬盘数量和所述目标负载参数预测所述目标风险等级。
  3. 根据权利要求2所述的方法,其特征在于,所述根据所述运行数据确定所述目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及所述目标存储节点中部署的CPU的目标负载参数,包括:
    从所述运行数据所包括的参考硬盘中统计具有所述目标硬盘属性的硬盘的所述目标硬盘数量,其中,所述参考硬盘为所述目标存储节点中产生所述IO业务阻塞事件的硬盘;
    根据所述运行数据所包括的所述目标存储节点的业务负载计算所述目标存储节点中部署的CPU在所述当前时刻的目标平均负载作为所述目标负载参数。
  4. 根据权利要求3所述的方法,其特征在于,所述从所述运行数据所包括的参考硬盘中统计具有所述目标硬盘属性的硬盘的所述目标硬盘数量,包括:
    从所述参考硬盘中统计具有故障属性的硬盘的第一硬盘数量,和/或,从所述参考硬盘中统计具有目标处理速率的硬盘的第二硬盘数量,其中,所述目标处理速率低于目标速率阈值;
    将所述第一硬盘数量,所述第二硬盘数量,或者,所述第一硬盘数量与所述第二硬盘数量的和值确定为所述目标硬盘数量。
  5. 根据权利要求3所述的方法,其特征在于,所述根据所述目标硬 盘数量和所述目标负载参数预测所述目标风险等级,包括:
    获取具有对应关系的硬盘数量区间,平均负载区间和风险等级,其中,所述具有对应关系的硬盘数量区间,平均负载区间和风险等级是根据历史产生的所述IO业务阻塞事件的数据构建的;
    从所述具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与所述目标硬盘数量和所述目标平均负载对应的所述目标风险等级。
  6. 根据权利要求5所述的方法,其特征在于,所述从所述具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与所述目标硬盘数量和所述目标平均负载对应的所述目标风险等级,包括:
    在所述目标硬盘数量小于第一阈值,所述目标平均负载小于第二阈值的情况下,确定所述目标风险等级为第一风险等级;
    在所述目标硬盘数量小于所述第一阈值,所述目标平均负载大于或者等于所述第二阈值的情况下,确定所述目标风险等级为第二风险等级,其中,所述第二风险等级高于所述第一风险等级;
    在所述目标硬盘数量大于或者等于所述第一阈值,所述目标平均负载小于所述第二阈值的情况下,确定所述目标风险等级为第三风险等级,其中,所述第三风险等级高于或者等于所述第二风险等级;
    在所述目标硬盘数量大于或者等于所述第一阈值,所述目标平均负载大于或者等于所述第二阈值的情况下,确定所述目标风险等级为第四风险等级,其中,所述第四风险等级高于所述第三风险等级。
  7. 根据权利要求1所述的方法,其特征在于,在所述获取发生所述IO业务阻塞事件的目标存储节点的运行数据之前,所述方法还包括:
    获取所述IO业务阻塞事件的阻塞事件信息;
    根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的参考阻塞风险等级。
  8. 根据权利要求7所述的方法,其特征在于,所述根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的所述参考阻塞风险等级,包括:
    在所述IO业务阻塞事件的事件数量小于第三阈值,并且,所述IO业务阻塞事件的持续时间小于第四阈值的情况下,确定所述参考阻塞风险等级为第一阻塞风险等级,其中,所述阻塞事件信息包括所述事件数量和所述持续时间;
    在所述IO业务阻塞事件的所述事件数量大于或者等于所述第三阈值,和/或,所述IO业务阻塞事件的所述持续时间大于或者等于第四阈值的情况下,根据所述分布式存储集群中所述IO业务阻塞事件的增长幅度确定所述参考阻塞风险等级,其中,所述阻塞事件信息还包括所述增长幅度。
  9. 根据权利要求8所述的方法,其特征在于,所述根据所述分布式存储集群中所述IO业务阻塞事件的增长幅度确定所述参考阻塞风险等级,包括:
    在所述增长幅度小于目标幅度的情况下,确定所述参考阻塞风险等级为 第二阻塞风险等级,其中,所述第二阻塞风险等级高于所述第一阻塞风险等级;
    在所述增长幅度大于或者等于所述目标幅度的情况下,确定所述参考阻塞风险等级为第三阻塞风险等级,其中,所述第三阻塞风险等级高于所述第二阻塞风险等级。
  10. 根据权利要求7所述的方法,其特征在于,所述获取所述IO业务阻塞事件的阻塞事件信息,包括:
    按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字,得到查询结果,其中,所述目标关键字为与所述IO业务阻塞事件对应的关键字,所述目标日志用于记录所述分布式存储集群的运行状态;
    根据所述查询结果确定所述阻塞事件信息。
  11. 根据权利要求10所述的方法,其特征在于,在所述按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字之前,所述方法还包括:
    获取所述预定查询周期,其中,所述预定查询周期是所述分布式存储集群根据Crontab命令对初始查询周期进行调整得到的。
  12. 根据权利要求7所述的方法,其特征在于,在所述根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的参考阻塞风险等级之后,所述方法还包括:
    生成携带所述参考阻塞风险等级的第一通知消息;
    将所述第一通知消息发送至管理员使用的管理帐号。
  13. 根据权利要求1所述的方法,其特征在于,所述获取发生所述IO业务阻塞事件的目标存储节点的运行数据,包括:
    获取参考硬盘的硬盘属性,其中,所述参考硬盘为产生所述IO业务阻塞事件的硬盘;
    获取部署了所述参考硬盘的所述目标存储节点的业务负载,其中,所述运行数据包括所述硬盘属性和所述业务负载。
  14. 根据权利要求13所述的方法,其特征在于,所述获取参考硬盘的硬盘属性,包括:
    获取所述参考硬盘的参考硬盘标识,其中,所述参考硬盘标识是所述参考硬盘触发所述IO业务阻塞事件后上报的;
    从自我监测、分析及报告技术SMART信息集合中获取与所述参考硬盘标识对应的参考硬盘SMART信息,其中,所述SMART信息集合用于存储具有对应关系的初始硬盘标识和硬盘SMART信息,所述初始硬盘标识用于指示正在产生所述IO业务阻塞事件的硬盘,所述硬盘SMART信息用于表征硬盘的所述硬盘属性。
  15. 根据权利要求1所述的方法,其特征在于,在所述根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级之后,所述方法还包括:
    生成携带所述目标风险等级的第二通知消息;
    将所述第二通知消息发送至管理员使用的管理帐号。
  16. 根据权利要求1所述的方法,其特征在于,所述根据目标风险等级预测所述分布式存储集群在所述目标时间段的目标运行状态,包括:
    确定所述分布式存储集群中所包括的目标存储节点的目标节点数量;
    从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与所述目标节点数量和所述目标风险等级对应的目标阻塞风险等级,其中,所述目标阻塞风险等级用于指示所述分布式存储集群在目标时间段内执行IO业务时被阻塞的风险等级;
    确定与所述目标阻塞风险等级对应的所述目标运行状态。
  17. 根据权利要求16所述的方法,其特征在于,所述从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与所述目标节点数量和所述目标风险等级对应的目标阻塞风险等级,包括:
    在所述风险等级大于预设风险等级的节点数量大于目标数量的情况下,确定所述目标阻塞风险等级为第一目标阻塞风险等级;
    在所述风险等级大于所述预设风险等级的节点数量小于或等于所述目标数量的情况下,确定所述目标阻塞风险等级为第二目标阻塞风险等级,其中,所述第一目标阻塞风险等级大于所述第二目标阻塞风险等级。
  18. 根据权利要求16所述的方法,其特征在于,在所述从具有对应关系的节点数量,风险等级和阻塞风险等级中确定与所述目标节点数量和所述目标风险等级对应的目标阻塞风险等级之后,所述方法还包括:
    生成携带所述目标阻塞风险等级的第三通知消息;
    将所述第三通知消息发送至管理员使用的管理帐号。
  19. 根据权利要求1所述的方法,其特征在于,所述检测分布式存储集群中的IO业务阻塞事件,包括:
    运行权限添加脚本,其中,所述权限添加脚本用于在所述分布式存储集群中添加对预测脚本的运行权限,所述预测脚本用于预测所述分布式存储集群在所述目标时间段的所述运行状态;
    通过运行所述预测脚本的方式检测所述分布式存储集群中的所述IO业务阻塞事件。
  20. 一种存储集群运行状态的预测装置,其特征在于,包括:
    检测模块,被配置为检测分布式存储集群中的IO业务阻塞事件;
    第一获取模块,被配置为在检测到所述分布式存储集群中发生所述IO业务阻塞事件的情况下,获取发生所述IO业务阻塞事件的目标存储节点的运行数据,其中,所述运行数据用于指示所述目标存储节点在发生所述IO业务阻塞事件的当前时刻对IO业务的处理情况;
    第一预测模块,被配置为根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,所述目标风险等级用于指示所述目标存储节点在所述目标时间段发生所述IO业务阻塞事件的概率;
    第二预测模块,被配置为根据目标风险等级预测所述分布式存储集群在 所述目标时间段的目标运行状态。
  21. 一种计算机非易失性可读存储介质,其特征在于,所述计算机非易失性可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至19任一项中所述的方法的步骤。
  22. 一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至19任一项中所述的方法的步骤。
PCT/CN2023/115970 2022-12-29 2023-08-30 存储集群运行状态的预测方法及装置 WO2024139333A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211707187.XA CN115686381B (zh) 2022-12-29 2022-12-29 存储集群运行状态的预测方法及装置
CN202211707187.X 2022-12-29

Publications (1)

Publication Number Publication Date
WO2024139333A1 true WO2024139333A1 (zh) 2024-07-04

Family

ID=85055893

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/115970 WO2024139333A1 (zh) 2022-12-29 2023-08-30 存储集群运行状态的预测方法及装置

Country Status (2)

Country Link
CN (1) CN115686381B (zh)
WO (1) WO2024139333A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115686381B (zh) * 2022-12-29 2023-03-14 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874640A (zh) * 2018-05-07 2018-11-23 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN112860525A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 分布式***中的节点故障预测方法及装置
CN113438110A (zh) * 2021-06-23 2021-09-24 曙光信息产业(北京)有限公司 一种集群性能的评价方法、装置、设备及存储介质
CN113900894A (zh) * 2021-09-30 2022-01-07 苏州浪潮智能科技有限公司 一种预测大规模集群状态的方法、***、设备及介质
CN114063881A (zh) * 2020-07-31 2022-02-18 阿里巴巴集团控股有限公司 分布式***的磁盘管理方法及装置
CN115686381A (zh) * 2022-12-29 2023-02-03 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4392665B2 (ja) * 2005-05-26 2010-01-06 日本電気株式会社 クラスタシステムの性能予測装置、性能予測方法及び性能予測プログラム
CN108009016B (zh) * 2016-10-31 2021-10-22 华为技术有限公司 一种资源负载均衡控制方法及集群调度器
CN108664346A (zh) * 2017-03-27 2018-10-16 ***通信集团福建有限公司 分布式存储***的节点异常的定位方法、装置和***
CN111026621B (zh) * 2019-12-23 2023-04-07 杭州安恒信息技术股份有限公司 面向Elasticsearch集群的监控报警方法、装置、设备、介质
US20210216351A1 (en) * 2020-01-15 2021-07-15 Purdue Research Foundation System and methods for heterogeneous configuration optimization for distributed servers in the cloud
CN112115031A (zh) * 2020-09-29 2020-12-22 中国银行股份有限公司 集群状态监控方法及装置
CN112965872A (zh) * 2021-02-24 2021-06-15 刘志欣 ***集群节点的风险预测方法、装置、终端及存储介质
CN113032233A (zh) * 2021-03-17 2021-06-25 中国工商银行股份有限公司 分布式服务集群运行时参数自适应处理方法、装置及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874640A (zh) * 2018-05-07 2018-11-23 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN114063881A (zh) * 2020-07-31 2022-02-18 阿里巴巴集团控股有限公司 分布式***的磁盘管理方法及装置
CN112860525A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 分布式***中的节点故障预测方法及装置
CN113438110A (zh) * 2021-06-23 2021-09-24 曙光信息产业(北京)有限公司 一种集群性能的评价方法、装置、设备及存储介质
CN113900894A (zh) * 2021-09-30 2022-01-07 苏州浪潮智能科技有限公司 一种预测大规模集群状态的方法、***、设备及介质
CN115686381A (zh) * 2022-12-29 2023-02-03 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置

Also Published As

Publication number Publication date
CN115686381A (zh) 2023-02-03
CN115686381B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
US11005730B2 (en) System, method, and apparatus for high throughput ingestion for streaming telemetry data for network performance management
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和***
US10771306B2 (en) Log monitoring system
US8655623B2 (en) Diagnostic system and method
EP3425524A1 (en) Cloud platform-based client application data calculation method and device
WO2024139333A1 (zh) 存储集群运行状态的预测方法及装置
US6633834B2 (en) Baselining of data collector data
CN110224885B (zh) 设备监控的告警方法、装置、存储介质及电子设备
US20160094392A1 (en) Evaluating Configuration Changes Based on Aggregate Activity Level
CN112699007A (zh) 监控机器性能的方法、***、网络设备及存储介质
CN110674149A (zh) 业务数据处理方法、装置、计算机设备和存储介质
US20230359514A1 (en) Operation-based event suppression
JP2001077813A (ja) ネットワーク情報管理装置とネットワーク情報管理方法およびその処理プログラムを記録した記録媒体
CN106686082B (zh) 存储资源调整方法及管理节点
CN113409876A (zh) 一种故障硬盘的定位方法及***
CN108023741A (zh) 一种监控资源使用方法及服务器
CN113296596A (zh) 记录信息量的方法及其***
CN114706720B (zh) 分布式存储***慢盘判断方法、***、设备及存储介质
US9253023B2 (en) Network management system with a switchable flood revention mode pregarding fault events for a managed device
US11416187B2 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium
CN117851205A (zh) 一种分布式***中慢盘快速处理方法及装置
CN118409926A (zh) 日志收集方法、装置、计算机设备和存储介质
CN115617617A (zh) 设备状态监控方法及装置
CN117743307A (zh) 数据清理方法、装置和计算机设备
CN117492925A (zh) 一种基于全渠道流量的弹性伸缩***及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23909271

Country of ref document: EP

Kind code of ref document: A1