CN114327241A - 管理磁盘的方法、电子设备和计算机程序产品 - Google Patents

管理磁盘的方法、电子设备和计算机程序产品 Download PDF

Info

Publication number
CN114327241A
CN114327241A CN202011056677.9A CN202011056677A CN114327241A CN 114327241 A CN114327241 A CN 114327241A CN 202011056677 A CN202011056677 A CN 202011056677A CN 114327241 A CN114327241 A CN 114327241A
Authority
CN
China
Prior art keywords
model
parameters
disk
remaining life
target disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011056677.9A
Other languages
English (en)
Inventor
吕烁
高波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202011056677.9A priority Critical patent/CN114327241A/zh
Priority to US17/487,489 priority patent/US20220100389A1/en
Publication of CN114327241A publication Critical patent/CN114327241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开的实施例涉及管理磁盘的方法、电子设备和计算机程序产品。该方法包括:获取用于确定磁盘的剩余寿命的模型,该模型基于将与一组参考磁盘的故障有关的参数集合作为输入并且将该一组参考磁盘在获取该参数集合时的参考剩余寿命作为输出而被训练;获取与目标磁盘的剩余寿命有关的参数,该参数指示该目标磁盘在被使用时的使用信息;以及将该参数应用于该模型,以确定该目标磁盘的该剩余寿命。使用本公开的技术方案,可以预测磁盘的剩余寿命,从而使得可以在磁盘故障前主动替换磁盘,这不仅能够增加存储***的可靠性,也能够减少存储***重建所花费的时间,进而可以提高存储***用户的用户体验。

Description

管理磁盘的方法、电子设备和计算机程序产品
技术领域
本公开的实施例总体上涉及数据存储领域,具体地涉及管理磁盘的方法、电子设备和计算机程序产品。
背景技术
在数据存储***中,磁盘或者硬盘是容易出故障的部件。尽管采取了诸如映射独立磁盘冗余阵列(RAID)和高可用性(HA)之类的大量保护机制,然而在磁盘或者硬盘发生故障时,存储***的可用性和可靠性仍然会被严重地影响。这样,用户体验也会被相应影响。
发明内容
本公开的实施例提供了管理磁盘的方法、电子设备和计算机程序产品。
在本公开的第一方面中,提供了一种管理磁盘的方法。该方法包括:获取用于确定磁盘的剩余寿命的模型,所述模型基于将与一组参考磁盘的故障有关的参数集合作为输入并且将所述一组参考磁盘在获取所述参数集合时的参考剩余寿命作为输出而被训练;获取与目标磁盘的剩余寿命有关的参数,所述参数指示所述目标磁盘在被使用时的使用信息;以及将所述参数应用于所述模型,以确定所述目标磁盘的所述剩余寿命。
在本公开的第二方面中,提供了一种电子设备。该设备包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:获取用于确定磁盘的剩余寿命的模型,所述模型基于将与一组参考磁盘的故障有关的参数集合作为输入并且将所述一组参考磁盘在获取所述参数集合时的参考剩余寿命作为输出而被训练;获取与目标磁盘的剩余寿命有关的参数,所述参数指示所述目标磁盘在被使用时的使用信息;以及将所述参数应用于所述模型,以确定所述目标磁盘的所述剩余寿命。
在本公开的第三方面中,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行使得机器执行根据本公开的第一方面所描述的方法的任意步骤。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的实施例的关键特征或必要特征,也无意限制本公开的实施例的范围。
附图说明
通过结合附图对本公开的示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开的示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了可以在其中实现本公开的某些实施例中的管理磁盘的方法的磁盘管理环境100的示意图;
图2示出了根据本公开的实施例的管理磁盘的方法200的流程图;
图3示出了根据本公开的实施例的训练模型的方法300的流程图;以及
图4示出了可以用来实施本公开的实施例的示例设备400的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以按照各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,例如,“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在传统的存储***中,当磁盘出故障时,将会开始重建工作。以映射独立磁盘冗余阵列为例,当映射独立磁盘冗余阵列由于开始重建工作而处于降级状态时,用户输入输出(IO)将会被严重影响。具体而言,在映射独立磁盘冗余阵列中,当移除一个磁盘后,映射独立磁盘冗余阵列的许多独立磁盘冗余阵列盘区可能会受到影响。死磁盘盘区将会被替换为磁盘池中的其他磁盘。这时,将基于传统逻辑根据独立磁盘冗余阵列盘区索引顺序重建死磁盘盘区。
在一些方案中,已经在映射的独立磁盘冗余阵列中引入了并行重建,从而使得可以同时重建多个磁盘盘区。在并行重建中,如果任何独立磁盘冗余阵列盘区已完成重建,则将顺序地将下一个需要重建的独立磁盘冗余阵列盘区添加到并行重建列表中,直到完全重建被完成。然而,前述机制都是在磁盘出故障时候采取的,在磁盘出故障后再对存储***进行重建仍然不能完全解决存储***的可用性和可靠性问题,并且在重建所花费的时间期间用户输入输出性能会大幅度下降,因此会影响用户体验。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的实施例提出了一种管理磁盘的方案。采用这种方案,可以在磁盘出故障之前预测磁盘的剩余寿命,例如,磁盘何时会出故障,从而使得可以通过预先替换将会出故障的磁盘来提高存储***的可用性和可靠性,并且能够减少在磁盘重建时给用户的输入输出带来的影响。
图1示出了可以在其中实现本公开的某些实施例中的管理磁盘的方法的磁盘管理环境100的示意图。根据本公开的实施例,磁盘管理环境100可以是云环境。如图1中所示,磁盘管理环境100包括计算设备110。在磁盘管理环境100中,用于确定磁盘的剩余寿命的模型120和与目标磁盘的剩余寿命有关的参数130作为计算设备110的输入被提供给计算设备110,目标磁盘的剩余寿命140作为输出由计算设备110输出。
应当理解,磁盘管理环境100仅仅是示例性而不是限制性的,并且其是可扩展的,其中可以包括更多的计算设备110,并且可以向计算设备110提供更多模型120和参数130作为输入,计算设备110页可以输出更多的剩余寿命140作为输出,从而使得可以满足更多用户同时利用更多的计算设备110,甚至利用更多的模型120来确定更多的目标磁盘的剩余寿命140的需求。
根据本公开的实施例,在磁盘管理环境100中,被提供给计算设备110的模型120用于确定磁盘的剩余寿命,并且模型120基于将与一组参考磁盘的故障有关的参数集合作为输入并且将该一组参考磁盘在获取该参数集合时的参考剩余寿命作为输出而被训练。
在存储***操作时,可以通过各种技术来监视和记录磁盘的各种参数。例如,自我监视、分析和报告技术(S.M.A.R.T)是许多现代存储***中内置的补充组件,通过自我监视、分析和报告技术,存储***可以监视、存储和分析磁盘的操作状况。具体而言,自我监视、分析和报告技术可以提供与磁盘的操作状况有关的各种参数,这些参数是磁盘的健康状况和内部操作状况的指标。自我监视、分析和报告技术可以收集关于诸如磁盘的温度、重新分配的扇区数、查找错误等统计信息,并且可以使用这些统计信息来测量设备的运行状况。根据本公开的实施例,这些统计信息可以被用来训练模型120以及作为计算设备110的输入。
由自我监视、分析和报告技术提供的参数可以被称为自我监视、分析和报告技术参数,这些参数涉及包括多达30种磁盘属性,例如,重新分配扇区计数(RSC),起转时间(SUT),寻轨错误率(SER),摄氏温度(TC)和开机时间(POH)。这些参数是磁盘的健康状况和部工作状况的指标。例如,重新分配扇区计数的值指示磁盘坏扇区的数量,并且可以指示磁盘介质的运行状况。起转时间和摄氏温度的变化与主轴电机的工作状态密切相关。
关于自我监视、分析和报告技术参数,可以针对它们设置阈值,在正常操作下该阈值不能被超过。每个参数可以有一个原始值,这一原始值可以是例如十进制或十六进制值,并且其含义可以对应于计数或物理单位,例如,摄氏度或秒。根据本公开的实施例,这些参数可以被归一化,并且它们的归一化值范围可以例如为从1到253(其中1表示最坏的情况,而253代表最好的情况),并且最差值表示记录的最低归一化值。在进行了归一化的情况下,经归一化的参数初始默认值可以例如为100。
根据本公开的实施例,作为计算设备110的输入的、用于确定磁盘的剩余寿命的模型120可以是机器学习模型,例如,随机森林模型或者神经网络模型。随机森林是一种用于分类、回归和其他任务的整体机器学习方法,其通过在训练时构造大量决策树并输出作为个体的类(分类)或均值预测(回归)模式的类来进行操作。随机森林能够纠正决策树过分适应它们的训练集的习惯。
根据本公开的实施例,当磁盘管理环境100中的计算设备110接收到经过训练的模型120以及针对目标磁盘的与剩余寿命有关的参数130之后,计算设备110可以将参数130应用于模型120以确定目标磁盘的剩余寿命140作为输出。
在图1所示的磁盘管理环境100中,向计算设备110输入模型120和参数130以及从计算设备110输出剩余寿命140可以通过网络来进行。
图2示出了根据本公开的实施例的管理磁盘的方法200的流程图。方法200可以由磁盘管理环境100中的计算设备110来实现,也可以由其他适当的设备来实现。应当理解,管理磁盘的方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的实施例的范围在此方面不受限制。
在框202,计算设备110获取用于确定磁盘的剩余寿命的模型120。根据本公开的实施例,模型120基于将与一组参考磁盘的故障有关的参数集合作为输入并且将该一组参考磁盘在获取该参数集合时的参考剩余寿命作为输出而被训练,并且模型120例如可以是随机森林模型或者神经网络模型。
在框204,计算设备110获取与目标磁盘的剩余寿命有关的参数130。根据本公开的实施例,参数130指示所述目标磁盘在被使用时的使用信息,并且例如可以包括自我监视、分析和报告技术参数。根据本公开的实施例,在自我监视、分析和报告技术参数中,一些自我监视、分析和报告技术参数可以用来指示磁盘将会出现故障并且需要被替换。具体而言,对于这些自我监视、分析和报告技术参数,在磁盘出故障前的较为接近的时间内,例如,若干天内,它们的数值会发生较大的变化。因此,可以通过监视这些参数的数值变化来确定磁盘将会出现故障。根据本公开的实施例,这些参数可以例如是可恢复读取错误率(RRER)、开始停止计数(SSC)、重新分配扇区计数(RSC)、寻轨错误率(SER)、开机时间(POH)、起转时间(SUT)、报告的无法恢复错误计数(RUE)、命令超时(CT)、气流摄氏温度(ATC)、负荷周期计数(LCC)、摄氏温度(TC)、当前待决扇区(CPS)、离线无法校正(OU)、磁头飞行时间(HFH)、总逻辑块地址写入总数(TLW)以及总逻辑块地址读取总数(TLR)等。
应当理解,参数130可以具有多种实现形式,并且无需包括上述列举的全部参数,而是可以包括其中的一部分参数。在这种情况下,可以通过调整模型以使得可以通过这部分参数来确定目标磁盘的剩余寿命140。
在框206,计算设备110将在框204获取的参数130应用于在框202获取的模型120,以确定目标磁盘的剩余寿命140。
根据本公开的实施例,可以设置阈值剩余时间,从而使得如果计算设备110确定剩余寿命140短于该阈值剩余时间,则确定需要替换所述目标磁盘。
根据以上结合图2所描述的方法200可知,方法200包括利用经训练的用于确定磁盘的剩余寿命的模型120和与目标磁盘的剩余寿命有关的参数130来确定目标磁盘的剩余寿命140。以下进一步描述用于确定磁盘的剩余寿命的模型120的训练过程。
图3示出了根据本公开的实施例的训练模型的方法300的流程图。方法300同样可以由磁盘管理环境100中的计算设备110来实现,也可以由其他适当的设备来实现。应当理解,方法300还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
在框302,计算设备110获取与一组参考磁盘的故障有关的参数集合。根据本公开的实施例,可以采集大量磁盘从正常工作到出故障时的参数,当磁盘出故障时,可以选择从磁盘出故障回溯一段时间内被采集的大量参数。采集参数的间隔可以是固定或者不固定的,并且采集参数的间隔可以是任何适当的间隔,例如,1秒,1分钟,10分钟,1小时等。应当理解,采集的间隔越小,就有可能更为精确地确定目标磁盘的剩余寿命140。同时,根据本公开的实施例,可以根据需要提前多久确定磁盘即将出故障来确定选择的参数从被采集到磁盘出故障的时长范围。例如,如果想提前14天预测出磁盘即将出故障,就可以采集从磁盘出故障向前回溯14天内的参数。如前所述,针对一组参考磁盘中的每个磁盘所采集的参数可以包括:可恢复读取错误率(RRER),开始停止计数(SSC),重新分配扇区计数(RSC),寻轨错误率(SER),开机时间(POH),起转时间(SUT),报告的无法恢复错误计数(RUE),命令超时(CT),气流摄氏温度(ATC),负荷周期计数(LCC),摄氏温度(TC),当前待决扇区(CPS),离线无法校正(OU),磁头飞行时间(HFH),总逻辑块地址写入总数(TLW),以及总逻辑块地址读取总数(TLR)。这些参数的集合构成与一组参考磁盘的故障有关的参数集合,并且可以用于训练模型120的输入。
在框304,计算设备110获取与该一组参考磁盘在获取该参数集合时的参考剩余寿命。根据本公开的实施例,在采集该参数集合时,也采集与该参数集合中的参数对应的磁盘的参考剩余寿命。由此,可以形成多个参数与参考剩余寿命的参数对。例如,如果一块磁盘在1月3日5:00出了故障,则在1月1日6:00针对这一块磁盘采集的参数对应的这一块磁盘的参考剩余寿命为47小时。
在框306,计算设备110获取用于调节模型120的训练的附加参数。根据本公开的实施例,附加参数可以包括参数集合的权重。在如前所述的各种参数中,有些参数的变化更容易直接指示磁盘的剩余寿命,因此,在训练模型120时,可以对这些参数添加权重,以使得在训练模型120时可以让这些参数展现更大的决定性作用。
根据本公开的实施例,附加参数还可以包括参数集合被获取的时间点与发生故障的时间点之间的时长范围。如前所述,如果想提前14天预测出磁盘即将出故障,就可以采集从磁盘出故障向前回溯14天内的参数,此时可以将前述时长范围设置为0-14天。应当理解的是,也可以将时长范围设置为例如1-14天甚至7-14天,因为本公开的实施例更关注于可以提前多久预测出磁盘将出故障,因此只要能保证模型120可以被训练为正确的提前预定时间预测出磁盘将出故障,就可以不必过于关注邻近磁盘实际出故障时的参数情况。
根据本公开的实施例,当模型120为随机森林模型时,附加参数还可以包括随机森林模型中的树的数目。随机森林模型中的树的数目可以对应于向模型120输入的参数集合中的参数的数目,因此可以通过调整随机森林模型中的树的数目来调节用于训练模型120的参数集合中的参数的数目。
根据本公开的实施例,方法300中的框306是可选框,方法300也可以在无需框306的情况下正常工作,因为模型120也可以在无需附加参数的情况下被训练。
在框308,计算设备110将参数集合和附加参数作为输入并且将参考剩余寿命作为输出来训练模型120。如前所述,由于框306是可选框,因此当框306未被选择时,在框308,计算设备110将参数集合作为输入并且将参考剩余寿命作为输出来训练模型120。
根据本公开的实施例,由于各种参数的单位并不相同,因此为了便于模型120处理这些参数,可以将这些参数归一化,而后再作为输入来训练模型120。例如,可以通过以下的式(1)来实现上述归一化过程:
Figure BDA0002711049550000091
其中x表示一个参数的当前值,xmin和xmax表示该参数的最小值和最大值,xN表示x经过归一化后的值。
根据本公开的实施例,计算设备110在训练模型120时,可以将参数集合分为第一参数子集合和第二参数子集合,其中第一参数子集合用于训练模型120,第二参数子集合用于对经训练的模型120进行测试。第一参数子集合和第二参数子集合中包括的参数的比例例如可以是7:3。应当理解,这一比例仅仅是示例性的,其可以根据参数集合中的参数量以及模型120的训练情况或者预测正确度来进行调整。
经过测试,使用通过方法300而被训练的模型120执行管理磁盘的方法200,正确预测目标磁盘的剩余寿命的准确率能够达到至少90%以上。
以上参考图1至图3描述了可以在其中实现本公开的某些实施例中的管理磁盘的方法的磁盘管理环境100、根据本公开的实施例的管理磁盘的方法200以及根据本公开的实施例的训练模型的方法300的相关内容。应当理解,上述描述是为了更好地展示本公开的实施例中所记载的内容,而不是以任何方式进行限制。
应当理解,本公开的实施例以及各个附图中所采用的各种元件的数目和物理量的大小仅为举例,而并不是对本公开的实施例的保护范围的限制。上述数目和大小可以根据需要而被任意设置,而不会对本公开的实施例的正常实施产生影响。
通过以上参考图1至图3的描述,根据本公开的实施例的技术方案相对于传统方案具有诸多优点。例如,使用本公开的技术方案,可以预测磁盘的剩余寿命,从而使得可以在磁盘故障前主动替换磁盘,这不仅能够增加存储***的可靠性,也能够减少存储***重建所花费的时间,进而可以提高存储***用户的用户体验。
图4图示出了可以用来实施本公开的实施例的示例设备400的示意性框图。根据本公开的实施例,图1中所示出的管理设备124可以被实现为示例设备400。如图所示,设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的计算机程序指令或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序指令,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的例如方法200和方法300的各个过程和处理,可由处理单元401执行。例如,在一些实施例中,方法200和方法300可以被实现为计算机软件程序,其被有形地包含于例如存储单元408的机器可读介质中。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序被加载到RAM 403并由CPU 401执行时,可以执行上文描述的方法200和方法300的一个或多个动作。
本公开的实施例可以涉及方法、设备、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的实施例的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是、但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的作为非穷举的列表的更具体的示例包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、例如通过光纤电缆的光脉冲的通过波导或其他传输媒介传播的电磁波、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开的实施例的操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以例如利用因特网服务提供方来通过因特网连接连接到外部计算机。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的实施例的各个方面。
这里参照根据本公开的实施例的方法、设备/***和计算机程序产品的流程图和/或框图描述了本公开的实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种管理磁盘的方法,包括:
获取用于确定磁盘的剩余寿命的模型,所述模型基于将与一组参考磁盘的故障有关的参数集合作为输入并且将所述一组参考磁盘在获取所述参数集合时的参考剩余寿命作为输出而被训练;
获取与目标磁盘的剩余寿命有关的参数,所述参数指示所述目标磁盘在被使用时的使用信息;以及
将所述参数应用于所述模型,以确定所述目标磁盘的所述剩余寿命。
2.根据权利要求1所述的方法,其中获取所述参数包括获取所述目标磁盘的以下至少一项:可恢复读取错误率,开始停止计数,重新分配扇区计数,寻轨错误率,开机时间,起转时间,报告的无法恢复错误计数,命令超时,气流摄氏温度,负荷周期计数,摄氏温度,当前待决扇区,离线无法校正,磁头飞行时间,总逻辑块地址写入总数,以及总逻辑块地址读取总数。
3.根据权利要求1所述的方法,其中所述模型为随机森林模型或者神经网络模型。
4.根据权利要求1所述的方法,还包括:
获取用于调节所述模型的训练的附加参数;以及
将所述参数集合和所述附加参数作为输入并且将所述参考剩余寿命作为输出,来训练所述模型。
5.根据权利要求4所述的方法,其中所述附加参数包括以下至少一项:
所述参数集合的权重;
所述参数集合被获取的时间点与发生所述故障的时间点之间的时长范围;以及
所述模型包括的树的数目,所述模型为随机森林模型。
6.根据权利要求1所述的方法,还包括:
如果确定所述剩余寿命短于阈值剩余时间,确定需要替换所述目标磁盘。
7.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:
获取用于确定磁盘的剩余寿命的模型,所述模型基于将与一组参考磁盘的故障有关的参数集合作为输入并且将所述一组参考磁盘在获取所述参数集合时的参考剩余寿命作为输出而被训练;
获取与目标磁盘的剩余寿命有关的参数,所述参数指示所述目标磁盘在被使用时的使用信息;以及
将所述参数应用于所述模型,以确定所述目标磁盘的所述剩余寿命。
8.根据权利要求7所述的设备,其中获取所述参数包括获取所述目标磁盘的以下至少一项:可恢复读取错误率,开始停止计数,重新分配扇区计数,寻轨错误率,开机时间,起转时间,报告的无法恢复错误计数,命令超时,气流摄氏温度,负荷周期计数,摄氏温度,当前待决扇区,离线无法校正,磁头飞行时间,总逻辑块地址写入总数,以及总逻辑块地址读取总数。
9.根据权利要求7所述的设备,其中所述模型为随机森林模型或者神经网络模型。
10.根据权利要求7所述的设备,其中所述动作还包括:
获取用于调节所述模型的训练的附加参数;以及
将所述参数集合和所述附加参数作为输入并且将所述参考剩余寿命作为输出,来训练所述模型。
11.根据权利要求10所述的设备,其中所述附加参数包括以下至少一项:
所述参数集合的权重;
所述参数集合被获取的时间点与发生所述故障的时间点之间的时长范围;以及
所述模型包括的树的数目,所述模型为随机森林模型。
12.根据权利要求7所述的设备,其中所述动作还包括:
如果确定所述剩余寿命短于阈值剩余时间,确定需要替换所述目标磁盘。
13.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行使得机器执行根据权利要求1至6中的任一项所述的方法的步骤。
CN202011056677.9A 2020-09-29 2020-09-29 管理磁盘的方法、电子设备和计算机程序产品 Pending CN114327241A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011056677.9A CN114327241A (zh) 2020-09-29 2020-09-29 管理磁盘的方法、电子设备和计算机程序产品
US17/487,489 US20220100389A1 (en) 2020-09-29 2021-09-28 Method, electronic device, and computer program product for managing disk

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011056677.9A CN114327241A (zh) 2020-09-29 2020-09-29 管理磁盘的方法、电子设备和计算机程序产品

Publications (1)

Publication Number Publication Date
CN114327241A true CN114327241A (zh) 2022-04-12

Family

ID=80822687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011056677.9A Pending CN114327241A (zh) 2020-09-29 2020-09-29 管理磁盘的方法、电子设备和计算机程序产品

Country Status (2)

Country Link
US (1) US20220100389A1 (zh)
CN (1) CN114327241A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117008844A (zh) * 2023-09-27 2023-11-07 苏州元脑智能科技有限公司 存储设备的设备控制方法及装置、存储介质及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809716B2 (en) * 2022-01-20 2023-11-07 Dell Products L.P. Prediction and prioritization of solid-state drives replacement
CN116756589B (zh) * 2023-08-16 2023-11-17 北京壁仞科技开发有限公司 匹配算子的方法、计算设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及***
CN107480028A (zh) * 2017-07-21 2017-12-15 东软集团股份有限公司 磁盘可使用的剩余时长的获取方法及装置
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和***
CN110427311A (zh) * 2019-06-26 2019-11-08 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和***
CN111078439A (zh) * 2019-10-31 2020-04-28 苏州浪潮智能科技有限公司 一种固态硬盘寿命预测方法和装置
CN111581072A (zh) * 2020-05-12 2020-08-25 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及***
CN107480028A (zh) * 2017-07-21 2017-12-15 东软集团股份有限公司 磁盘可使用的剩余时长的获取方法及装置
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和***
CN110427311A (zh) * 2019-06-26 2019-11-08 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和***
CN111078439A (zh) * 2019-10-31 2020-04-28 苏州浪潮智能科技有限公司 一种固态硬盘寿命预测方法和装置
CN111581072A (zh) * 2020-05-12 2020-08-25 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117008844A (zh) * 2023-09-27 2023-11-07 苏州元脑智能科技有限公司 存储设备的设备控制方法及装置、存储介质及电子设备
CN117008844B (zh) * 2023-09-27 2024-01-26 苏州元脑智能科技有限公司 存储设备的设备控制方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
US20220100389A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
CN114327241A (zh) 管理磁盘的方法、电子设备和计算机程序产品
Ganguly et al. A practical approach to hard disk failure prediction in cloud platforms: Big data model for failure management in datacenters
US20200034283A1 (en) Variability system and analytics for continuous reliability in cloud-based workflows
US11573848B2 (en) Identification and/or prediction of failures in a microservice architecture for enabling automatically-repairing solutions
US10162326B2 (en) Self-adjusting test time estimation
WO2019097360A1 (en) Machine learning to enhance redundant array of independent disks rebuilds
CN111104051B (zh) 用于管理存储***的方法、设备和计算机程序产品
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
US11973672B2 (en) Method and system for anomaly detection based on time series
CN111813585A (zh) 慢盘的预测和处理
Chen et al. ARF-predictor: Effective prediction of aging-related failure using entropy
US9678824B2 (en) Durability and availability evaluation for distributed storage systems
Amvrosiadis et al. Getting back up: Understanding how enterprise data backups fail
CN113688564B (zh) 一种预测ssd硬盘剩余寿命的方法、装置、终端及存储介质
Duplyakin et al. In datacenter performance, the only constant is change
US11194704B2 (en) System testing infrastructure using combinatorics
US10614903B2 (en) Testing non-volatile memories
US20210286711A1 (en) System testing infrastructure for analyzing and preventing soft failure in active environment
US9507690B2 (en) Method and device for analyzing an execution of a predetermined program flow on a physical computer system
US10776240B2 (en) Non-intrusive performance monitor and service engine
US20230035666A1 (en) Anomaly detection in storage systems
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product
US11436069B2 (en) Method and apparatus for predicting hard drive failure
Bayram et al. Improving reliability with dynamic syndrome allocation in intelligent software defined data centers
US20230179501A1 (en) Health index of a service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination