CN106844166B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN106844166B
CN106844166B CN201611240445.2A CN201611240445A CN106844166B CN 106844166 B CN106844166 B CN 106844166B CN 201611240445 A CN201611240445 A CN 201611240445A CN 106844166 B CN106844166 B CN 106844166B
Authority
CN
China
Prior art keywords
early warning
system function
storage device
determining
warning level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611240445.2A
Other languages
English (en)
Other versions
CN106844166A (zh
Inventor
张兴伟
周志国
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huawei Technologies Co Ltd
Original Assignee
Shanghai Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huawei Technologies Co Ltd filed Critical Shanghai Huawei Technologies Co Ltd
Priority to CN201611240445.2A priority Critical patent/CN106844166B/zh
Publication of CN106844166A publication Critical patent/CN106844166A/zh
Application granted granted Critical
Publication of CN106844166B publication Critical patent/CN106844166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明实施例公开了一种数据处理方法及装置,能够对存储设备使用过程中的信息进行统计、分析,以便对存储设备的失效做出提前预警,提高***的可靠性和可用度。本发明实施例方法包括:获取存储设备的使用信息;根据所述存储设备的使用信息确定目标***功能的预警级别;按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息。

Description

一种数据处理方法及装置
技术领域
本发明涉及存储技术领域,特别涉及一种数据的处理方法及装置。
背景技术
闪存(英文:Flash Memory,简称:Flash)是可在断电情况下仍能保持所存储数据的存储器,可以对存储器单元(块)进行擦写和再编程,且体积小,容量大,成本低,易于嵌入和扩展等特点,所以被广泛应用于通讯、个人消费品和工业等各个领域。
Flash坏块一般包括固有坏块(即出厂坏块)和使用坏块。固有坏块是生产过程中产生的坏块,而使用坏块则是擦写过程中产生的坏块。其中,使用坏块中有些是工艺或物理缺陷导致的永久性坏块,即真的坏块;还有些是总线问题导致的临时性坏块,即假的坏块。对于现有的文件***而言,上述坏块都是不可逆,是不能回收的坏块。
现有技术中通过Flash坏块隔离实现可靠性增强,个别坏块一般不会影响***功能。一般有两种坏块隔离策略,一是略过(Skip)策略,二是替换(Replace)策略。略过策略:用户根据建立的坏块表,在写Flash的时候,一旦遇到坏块,跨过它,写下一个Block。常见***的存储空间是Flash阵列,一般有几个并行通道,每个通道上连接了若干个Flash。替换策略:当某个Flash中的Die上发现坏块,它会被该Die上的某个好块替换。用户在写数据的时候,不是跨过这个Die,而是写到替换块上面去。采用此策略,除正常用户使用的Block,还需额外保留一部分好的Block,用于替换用户空间的坏块。整个Die上Block就划分为两个区域:用户区域和预留区域。
由于上述隔离策略无法避免Flash产生坏块。因此,一旦Flash坏块数量累计到一定程度,会导致Flash失效,直到影响***的某些重要功能后,才上报***各类功能故障和告警。然而,此时已经严重影响***的可靠性和可用度,这对于某些高可靠性要求的***是不能接受的。
发明内容
本申请提供了一种数据的处理方法及装置,能够对存储设备使用过程中的信息进行统计、分析,以便对存储设备的失效做出提前预警,提高***的可靠性和可用度。
本申请第一方面提供了一种数据处理方法,应用于网络设备,该网络设备可以是基站、控制器、传输设备或者核心网设备等。该网络设备可以访问存储设备,以获取存储设备的使用信息。由于存储设备中保存有***重要数据,因此,根据***功能的使用频率和读写该存储设备的数据量大小对***功能分类,该***功能分类后的类别数量包括至少一个,该类别数量中的每一类***功能对应至少一个预警级别。由此,该网络设备可以根据该存储设备的使用信息确定某个目标***功能所对应的预警级别,从而按照***功能的预警级别与预警提示信息的对应关系输出该目标***功能的预警级别所对应的预警提示信息。
因此,通过对存储设备(例如Flash、SSD、EMMC等)使用过程中各类数据进行统计、分析,结合***功能的特点和应用场景,精准预测存储设备是否开始加速失效,以及是否即将影响哪一类***功能,以便对存储设备的失效做出提前预警,通知维护人员更换FRU或避免执行某一类***功能(例如:复位、升级、安装license和保存配置等)或进行数据迁移,从而提高***的可靠性和可用度。
上述存储设备的使用信息可以包括如下至少一种:每个分区读次数、每个分区读错次数、每个分区擦写次数、每个分区擦写失败次数、每个分区坏块个数、每个分区替换块使用个数以及每个分区有用数据占总分区空间的比重。通过对存储设备使用信息的收集,可以统计分析存储设备不可回收空间,可用空间,以及预计坏块个数增长趋势等。相应的,可针对该统计分析结果给出不同的预警方案,例如不可回收空间越大,预警优先级级别越高。
上述预警提示信息包括如下至少一种:提示可用空间不足、提示高危操作以及提示更换现场可更换单元FRU。由此,可针对不同的预警级别,输出相应的预警提示信息。如通讯领域的话务统计数据较少的站点可以不立即通知维护人员更换FRU,但话务统计数据较多的站点建议立即通知维护人员更换FRU。
根据***功能的分类,可以适当的对上述列举的使用信息进行选择性收集或者拆分收集,例如把擦写动作拆分成擦除动作和写动作分别统计。例如将每个分区擦写失败次数细化为每个分区擦除失败次数和每个分区写失败次数。
基于上述***功能分类对应的预警级别,该网络设备根据该存储设备的使用信息确定目标***功能的预警级别具体可参考如下实现方式:
通过统计数据汇总分析模块根据信息收集模块统计的存储设备的使用信息。具体的,由于***功能分类后的类别数量包括至少一个,该类别数量中的每一类***功能对应至少一个预警级别。因此,首先可从***功能分类后的类别数量中确定目标***功能所属的目标类别,然后根据该存储设备的使用信息从确定的该目标类别的***功能所对应的至少一个预警级别中确定目标***功能的预警级别。由此,通过对存储设备的使用信息进行统计、分析,确定具体影响哪一类***功能,以及影响程度达到了哪一个预警级别。
上述根据该存储设备的使用信息从确定的该目标类别的***功能所对应的至少一个预警级别中确定目标***功能的预警级别的具体实现方式可参考如下:
具体的,通过对该存储设备的使用信息的收集,从该存储设备的使用信息中确定该存储设备的使用状态,并建立该存储设备的使用状态与预警级别的对应关系。通过该存储设备的使用信息可以预测该存储设备是否开始加速失效等,该存储设备的使用情况处于哪一种状态(如可用空间是否可满足大量信息的擦写、可用空间是否可满足少量信息的擦写或者坏块个数增长趋势等等)。由于目标类别的***功能对应至少一个预警级别,通过该步骤,可从该存储设备的使用状态与预警级别的对应关系中确定目标类别所对应的预警级别数量。进一步的,可从该目标类别对应的预警级别数量中确定该目标***功能的预警级别。
本申请的第二方面提供了一种数据处理装置,该装置包括获取单元和处理单元。获取单元可用于访问存储设备,以获取存储设备的使用信息。由于存储设备中保存有***重要数据,因此,根据***功能的使用频率和读写该存储设备的数据量大小对***功能分类,该***功能分类后的类别数量包括至少一个,该类别数量中的每一类***功能对应至少一个预警级别。由此,处理单元可用于根据该存储设备的使用信息确定某个目标***功能所对应的预警级别,从而按照***功能的预警级别与预警提示信息的对应关系输出该目标***功能的预警级别所对应的预警提示信息。
因此,通过对存储设备(例如Flash、SSD、EMMC等)使用过程中各类数据进行统计、分析,结合***功能的特点和应用场景,精准预测存储设备是否开始加速失效,以及是否即将影响哪一类***功能,以便对存储设备的失效做出提前预警,通知维护人员更换FRU或避免执行某一类***功能(例如:复位、升级、安装license和保存配置等)或进行数据迁移,从而提高***的可靠性和可用度。
上述存储设备的使用信息可以包括如下至少一种:每个分区读次数、每个分区读错次数、每个分区擦写次数、每个分区擦写失败次数、每个分区坏块个数、每个分区替换块使用个数以及每个分区有用数据占总分区空间的比重。通过对存储设备使用信息的收集,可以统计分析存储设备不可回收空间,可用空间,以及预计坏块个数增长趋势等。相应的,可针对该统计分析结果给出不同的预警方案,例如不可回收空间越大,预警优先级级别越高。
上述预警提示信息包括如下至少一种:提示可用空间不足、提示高危操作以及提示更换现场可更换单元FRU。由此,可针对不同的预警级别,输出相应的预警提示信息。如通讯领域的话务统计数据较少的站点可以不立即通知维护人员更换FRU,但话务统计数据较多的站点建议立即通知维护人员更换FRU。
根据***功能的分类,可以适当的对上述列举的使用信息进行选择性收集或者拆分收集,例如把擦写动作拆分成擦除动作和写动作分别统计。例如将每个分区擦写失败次数细化为每个分区擦除失败次数和每个分区写失败次数。
基于上述***功能分类对应的预警级别,该处理单元用于根据该存储设备的使用信息确定目标***功能的预警级别具体可参考如下实现方式:
该处理单元用于通过统计数据汇总分析模块根据信息收集模块统计的存储设备的使用信息。具体的,由于***功能分类后的类别数量包括至少一个,该类别数量中的每一类***功能对应至少一个预警级别。因此,该处理单元可用于从***功能分类后的类别数量中确定目标***功能所属的目标类别,然后根据该存储设备的使用信息从确定的该目标类别的***功能所对应的至少一个预警级别中确定目标***功能的预警级别。由此,通过该处理单元对存储设备的使用信息进行统计、分析,确定具体影响哪一类***功能,以及影响程度达到了哪一个预警级别。
上述处理单元用于根据该存储设备的使用信息从确定的该目标类别的***功能所对应的至少一个预警级别中确定目标***功能的预警级别的具体实现方式可参考如下:
具体的,该处理单元用于通过对该存储设备的使用信息的收集,从该存储设备的使用信息中确定该存储设备的使用状态,并建立该存储设备的使用状态与预警级别的对应关系。通过该存储设备的使用信息可以预测该存储设备是否开始加速失效等,该存储设备的使用情况处于哪一种状态(如可用空间是否可满足大量信息的擦写、可用空间是否可满足少量信息的擦写或者坏块个数增长趋势等等)。由于目标类别的***功能对应至少一个预警级别,通过该步骤,该处理单元可用于从该存储设备的使用状态与预警级别的对应关系中确定目标类别所对应的预警级别数量。进一步的,该处理单元可用于从该目标类别对应的预警级别数量中确定该目标***功能的预警级别。
本申请第三方面,提供了一种存储介质,该存储介质中存储了程序代码,该程序代码被网络设备运行时,执行第一方面或第一方面的任意一种实现方式提供的数据处理方法。该存储介质包括但不限于快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,HDD)或固态硬盘(英文:solid state drive,SSD)。
附图说明
图1为本申请所提供的通信***的一个结构示意图;
图2为申请所提供的网络设备的一个组织结构示意图;
图3为本申请所提供的数据处理方法的一个流程示意图;
图4为本申请所提供的数据处理装置的一个组织结构示意图。
具体实施方式
本申请的说明书和权利要求书以及上述附图说明的附图中所涉及的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例的一个通信***示意图。由于通讯***中大量网元利用存储设备(如Flash)保存数据,故本发明应用的各通信***中,涉及具体的网络设备102包括但不限于:基站、控制器、传输设备、核心网设备,甚至手机终端。该网络设备102用于对存储设备104进行数据的访问、读写以及信息的统计与分析等。该存储设备104可以是Flash及相关模块(如:SSD(Solid State Drives,固态硬盘)、EMMC(Embedded Multi Media Card,嵌入式多媒体卡))。SSD使用半导体材料Nand Flash作为基本的存储介质。Nand Flash是一种非易失性随机访问存储介质,其特点是断电后数据不消失,因此可以作为外部存储器使用。Nand Flash通常由一个内部寄存器和存储矩阵组成,存储矩阵包括若干块(block),每个block又包含若干页(page),每个page包含若干字节(bytes),其中的某些bytes为专有数据;每种Nand Flash芯片的存储矩阵大小定义不同,例如有一种Nand Flash以8640个bytes组成一个page,256个page组成一个block,2048个block组成一个plane,2个plane组成一个LUN(Logical Unit,逻辑存储单元),再由一个或者若干LUN组成整个闪存(Flash)存储器。在每页中前8192bytes是用于存储数据,后448bytes用于存放纠错码(Error CorrectionCode,ECC)数据校验码,称为带外数据(Out of Bank,OOB)区。
图1中的网络设备可以通过图2中的网络设备200实现,该网络设备200的组织结构示意图如图2所示,包括处理器202、存储器204和收发器206,还可以包括总线208。
其中,处理器202、存储器204和收发器206可以通过总线208实现彼此之间的通信连接,也可以通过无线传输等其他手段实现通信。
存储器204可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid state drive,缩写:SSD);存储器204还可以包括上述种类的存储器的组合。在通过软件来实现本申请提供的技术方案时,用于实现本申请图3提供的数据处理方法的程序代码保存在存储器204中,并由处理器202来执行。
网络设备200通过收发器206与其他设备通信。
处理器202可以为中央处理器(英文:central processing unit,CPU)。
所述处理器202用于:
获取存储设备的使用信息;
根据所述存储设备的使用信息确定目标***功能的预警级别;
按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息。
该处理器202通过获取存储设备的使用信息;并根据所述存储设备的使用信息确定目标***功能所对应的预警级别;从而按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息。因此,本发明通过对存储设备(例如Flash、SSD、EMMC等)使用过程中各类数据进行统计、分析,结合***功能的特点和应用场景,精准预测存储设备是否开始加速失效,以及是否即将影响哪一类***功能,以便对存储设备的失效做出提前预警,通知维护人员更换FRU或避免执行某一类***功能(例如:复位、升级、安装license和保存配置等)或进行数据迁移,从而提高***的可靠性和可用度。
可选的,所述处理器202用于获取存储设备的使用信息之前,所述处理器202还用于:
根据***功能的使用频率和读写所述存储设备的数据量大小对***功能分类,所述***功能分类后的类别数量包括至少一个,所述类别数量中的每一类***功能对应至少一个预警级别。
可选的,所述处理器202用于根据所述存储设备的使用信息确定目标***功能的预警级别包括:
所述处理器202用于从所述***功能分类后的类别数量中确定所述目标***功能所属的目标类别;根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别。
可选的,所述处理器202用于根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别,包括:
所述处理器202用于根据所述存储设备的使用信息确定所述存储设备的使用状态,并建立所述存储设备的使用状态与预警级别的对应关系;从所述存储设备的使用状态与预警级别的对应关系中确定所述目标类别对应的预警级别数量;从所述目标类别对应的预警级别数量中确定所述目标***功能的预警级别。
可选的,所述存储设备的使用信息包括如下至少一种:每个分区读次数、每个分区读错次数、每个分区擦写次数、每个分区擦写失败次数、每个分区坏块个数、每个分区替换块使用个数以及每个分区有用数据占总分区空间的比重。
可选的,所述预警提示信息包括如下至少一种:提示可用空间不足、提示高危操作以及提示更换现场可更换单元FRU。
本申请还提供了一种数据处理方法,可以应用于利用Flash保存数据的任何***中,例如通讯、个人消费品和工业***中常常利用Flash保存BIOS(Basic Input/OutputSystem,基本输入/输出***)数据、配置和用户数据。可以结合***不同的应用场景和功能,分级预测Flash及相关模块(如:SSD、EMMC)失效即将影响***特定功能或***整体功能。以便***维护人员及时替换FRU(Field Replaceable Unit,现场可更换单元)或迁移数据,或避免执行高危操作命令(例如:升级、重要数据保存)。图2中的网络设备200运行时执行该方法,其流程示意图如图3所示。
301、获取存储设备的使用信息。
可选的,所述获取存储设备的使用信息之前,还包括:
根据***功能的使用频率和读写所述存储设备的数据量大小对***功能分类,所述***功能分类后的类别数量包括至少一个,所述类别数量中的每一类***功能对应至少一个预警级别。
需要说明的是,该存储设备包括但不限于Flash、SSD或EMMC。该步骤具体可通过信息收集模块负责,以存储设备为Flash为例,信息收集模块根据Flash实际使用场景和特征,在芯片日常读取、擦除和写数据的过程中,收集如下全部或部分Flash的使用信息(包括但不限于):
1)每个分区读次数;
2)每个分区读BIT错次数;
3)每个分区擦写次数;
4)每个分区擦写失败次数;
5)每个分区坏块个数(Nand);
6)每个分区替换块使用个数(Nor);
7)每个分区有用数据(不能删除)占总分区空间的情况。
根据***自身特点,可以适当的对上述列举的使用信息进行选择性收集或者拆分收集,例如把Flash擦写动作拆分成擦除动作和写动作分别统计。例如:将每个分区擦写失败次数细化为每个分区擦除失败次数和每个分区写失败次数。
根据***自身特点,细分或扩大Flash统计范围,例如不是对Flash分区进行信息收集和统计分析,而是对整个Flash空间进行信息收集和统计分析;或只是对Flash特定划分的区域空间进行信息收集和统计分析。
302、根据所述存储设备的使用信息确定目标***功能所对应的预警级别。
需要说明的是,该步骤具体可通过统计数据汇总分析模块根据信息收集模块统计的存储设备的使用信息,进行汇总,结合存储设备如Flash所在不同单板的不同使用场景,进行大数据分析。
可选的,所述根据所述存储设备的使用信息确定目标***功能的预警级别包括:
从所述***功能分类后的类别数量中确定所述目标***功能所属的目标类别;
根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别。
可选的,所述根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别,包括:
根据所述存储设备的使用信息确定所述存储设备的使用状态,并建立所述存储设备的使用状态与预警级别的对应关系;
从所述存储设备的使用状态与预警级别的对应关系中确定所述目标类别对应的预警级别数量;
从所述目标类别对应的预警级别数量中确定所述目标***功能的预警级别。
根据***自身特点,可将统计数据汇总分析模块拆分为如下几个部分的模块:已收集信息汇总模块、已收集信息上传到某个信息处理中心的模块、已收集信息分析模块、已收集信息绘制Flash失效趋势图模块和已收集信息显示模块。
303、按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息。
需要说明的是,该步骤具体可通过预警判决模块根据统计数据汇总分析模块给出的各个参数趋势,综合判断这些参数趋势对***不同功能的影响,按照***功能的预警级别与预警提示信息的对应关系对各个参数趋势进行预测,最终给出预警。
可选的,所述预警提示信息包括如下至少一种:提示可用空间不足、提示高危操作以及提示更换现场可更换单元FRU。
根据***自身特点,可将预警判决模块拆分为如下几个部分的模块:***功能维护管理模块、告警相关性分析模块、***功能日常巡检模块、***功能亚健康检测模块、***功能智能诊断模块和升级前风险排查模块。
根据***自身特点,以上统计数据汇总分析模块,或与预警判决模块合并;或者直接在一个模块中将信息收集、统计数据汇总分析和预警判决的功能全部实现。
本发明通过获取存储设备的使用信息;并根据所述存储设备的使用信息确定目标***功能所对应的预警级别;从而按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息。因此,本发明通过对存储设备(例如Flash、SSD、EMMC等)使用过程中各类数据进行统计、分析,结合***功能的特点和应用场景,精准预测存储设备是否开始加速失效,以及是否即将影响哪一类***功能,以便对存储设备的失效做出提前预警,通知维护人员更换FRU或避免执行某一类***功能(例如:复位、升级、安装license和保存配置等)或进行数据迁移,从而提高***的可靠性和可用度。
下面以一具体应用场景对本申请提供的数据处理方法进行说明。
以Flash为例,由于Flash中常常保存***重要数据,仅仅通过坏块隔离实现可靠性增强往往达不到高可靠性***的要求。如下4个维度的因素往往导致***部分或整体重要功能异常:
1)每片Flash的固有坏块差异可能比较大;如果零星Flash偶然失效的芯片正好保存的是整个***最关键的数据,会导致***崩溃;
2)应用场景非常复杂,累计的坏块何时会影响***部分或整体重要功能不确定;
3)使用坏块的产生不一定有明显的趋势性,即第一个月使用坏块多的Flash,未必第二个月使用坏块就多;前几年没有使用坏块的Flash,未必下一个月不会整体失效;
4)合理的失效预警方案,最大程度的满足不同***对可靠性要求的同时,又避免大幅缩短产品使用年限。
根据***功能的特点,可将***功能细分为如下表1四类(包括但不限于该四类)
表1***功能分类
Figure BDA0001195059960000121
上表1提到的大量和少量,常用和不常用都是根据***功能的特点确定,是个相对值,并非严格上的定义。定义***功能分类的目的是制定不同的预警方案,最大程度的满足不同***对可靠性要求的同时,又避免大幅缩短产品使用年限。
针对Nand Flash的特点、常见应用场景及其故障模式,本发明可以采用如下的实施方案:收集如下表2所示的信息收集模块收集的信息,统计分析后,给出预警方案。
表2信息收集模块周期性统计数据
Figure BDA0001195059960000131
通过上表2的计算和统计分析,可以得到如下表3的当前Flash使用信息的六种状态:
表3 Flash状态及预警优先级级别
Figure BDA0001195059960000132
一般来说,预警优先级级别为1和2的,可不必预警。预警优先级级别3~6的,可根据“表1***功能分类”逐级进行预警。对于不同的***功能分类的预警策略,可参考如下表4的方案。
表4***功能分类的预警策略
Figure BDA0001195059960000141
Figure BDA0001195059960000151
以上,通过对Flash芯片使用过程中各类数据进行统计、分析,结合***功能的特点和应用场景,精准预测Flash是否开始加速失效,以及是否即将影响哪一类***功能,提前预警,通知维护人员更换FRU、避免执行某一类***功能或进行数据迁移。通过本发明,可以避免升级坏件、避免隐性故障和提高产品可靠性和竞争力。
本申请实施例还提供了数据处理装置400,该装置400可以通过图2所示的网络设备200实现,还可以通过专用集成电路(英文:application-specific integratedcircuit,ASIC)实现,或可编程逻辑器件(英文:programmable logic device,PLD)实现。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,CPLD),FPGA,通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。该数据处理装置400用于实现图3所示的数据处理方法。通过软件实现图3所示的数据处理方法时,该数据处理装置400也可以为软件模块。
数据处理装置400的组织结构示意图如图4所示,包括:获取单元402和处理单元404。获取单元402工作时,执行图3所示的数据处理方法中的步骤301及步骤301中的可选方案;处理单元404工作时,执行图3所示的数据处理方法中的步骤302~303及步骤302~303中的可选方案。应注意,本申请实施例中,获取单元402和处理单元404也可由如图2中所示的处理器202实现。
数据处理装置400通过获取单元402获取存储设备的使用信息;处理单元404根据所述存储设备的使用信息确定目标***功能所对应的预警级别;从而按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息。因此,本发明通过对存储设备(例如Flash、SSD、EMMC等)使用过程中各类数据进行统计、分析,结合***功能的特点和应用场景,精准预测存储设备是否开始加速失效,以及是否即将影响哪一类***功能,以便对存储设备的失效做出提前预警,通知维护人员更换FRU或避免执行某一类***功能(例如:复位、升级、安装license和保存配置等)或进行数据迁移,从而提高***的可靠性和可用度。
上述装置的相关描述可以对应参阅方法实施例部分的相关描述和效果进行理解,本处不做过多赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本发明所必需的。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络设备上。可以根据实际的需要选择其中的部分或者全部设备来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案的全部或部分可以以软件产品的形式体现出来。该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(英文:USB flash disk)、移动硬盘、只读存储器(英文:read-only memory,ROM)、随机存取存储器(英文:random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离权利要求的范围。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
根据***功能的使用频率和读写存储设备的数据量大小对***功能分类,所述***功能分类后的类别数量包括至少一个,所述类别数量中的每一类***功能对应至少一个预警级别;
获取所述存储设备的使用信息,所述存储设备的使用信息包括如下至少一种:每个分区读次数、每个分区读错次数、每个分区擦写次数、每个分区擦写失败次数、每个分区坏块个数、每个分区替换块使用个数以及每个分区有用数据占总分区空间的比重;
根据所述存储设备的使用信息确定目标***功能的预警级别;
按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息;
其中,所述根据所述存储设备的使用信息确定目标***功能的预警级别,包括:根据所述存储设备的使用信息汇总分析各使用信息的参数趋势,确定各使用信息对应的参数趋势对不同***功能的影响,并确定目标***功能的预警级别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述存储设备的使用信息确定目标***功能的预警级别,还通过下述步骤实现:
从所述***功能分类后的类别数量中确定所述目标***功能所属的目标类别;
根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别,包括:
根据所述存储设备的使用信息确定所述存储设备的使用状态,并建立所述存储设备的使用状态与预警级别的对应关系;
从所述存储设备的使用状态与预警级别的对应关系中确定所述目标类别对应的预警级别数量;
从所述目标类别对应的预警级别数量中确定所述目标***功能的预警级别。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述预警提示信息包括如下至少一种:提示可用空间不足、提示高危操作以及提示更换现场可更换单元FRU。
5.一种数据处理装置,其特征在于,包括:
处理单元,用于根据***功能的使用频率和读写存储设备的数据量大小对***功能分类,所述***功能分类后的类别数量包括至少一个,所述类别数量中的每一类***功能对应至少一个预警级别;
获取单元,用于获取所述存储设备的使用信息,所述存储设备的使用信息包括如下至少一种:每个分区读次数、每个分区读错次数、每个分区擦写次数、每个分区擦写失败次数、每个分区坏块个数、每个分区替换块使用个数以及每个分区有用数据占总分区空间的比重;
处理单元,还用于根据所述存储设备的使用信息确定目标***功能的预警级别;按照***功能的预警级别与预警提示信息的对应关系输出所述目标***功能的预警级别所对应的预警提示信息;
其中,所述根据所述存储设备的使用信息确定目标***功能的预警级别,包括:根据所述存储设备的使用信息汇总分析各使用信息的参数趋势,确定各使用信息对应的参数趋势对不同***功能的影响,并确定目标***功能的预警级别。
6.根据权利要求5所述的装置,其特征在于,所述处理单元用于根据所述存储设备的使用信息确定目标***功能的预警级别,还通过下述步骤实现:
所述处理单元,用于从所述***功能分类后的类别数量中确定所述目标***功能所属的目标类别;根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别。
7.根据权利要求6所述的装置,其特征在于,所述处理单元根据所述存储设备的使用信息从所述目标类别对应的至少一个预警级别中确定所述目标***功能的预警级别,包括:
所述处理单元,用于根据所述存储设备的使用信息确定所述存储设备的使用状态,并建立所述存储设备的使用状态与预警级别的对应关系;从所述存储设备的使用状态与预警级别的对应关系中确定所述目标类别对应的预警级别数量;从所述目标类别对应的预警级别数量中确定所述目标***功能的预警级别。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述预警提示信息包括如下至少一种:提示可用空间不足、提示高危操作以及提示更换现场可更换单元FRU。
CN201611240445.2A 2016-12-28 2016-12-28 一种数据处理方法及装置 Active CN106844166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611240445.2A CN106844166B (zh) 2016-12-28 2016-12-28 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611240445.2A CN106844166B (zh) 2016-12-28 2016-12-28 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN106844166A CN106844166A (zh) 2017-06-13
CN106844166B true CN106844166B (zh) 2021-01-29

Family

ID=59113276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611240445.2A Active CN106844166B (zh) 2016-12-28 2016-12-28 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106844166B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544033A (zh) * 2018-12-04 2019-03-29 北京科东电力控制***有限责任公司 一种基于实时监控的在线预警与应急处置方法
CN110473586B (zh) * 2019-07-31 2021-05-14 珠海博雅科技有限公司 一种写失效存储单元的替换方法、装置、设备及存储介质
CN113553220A (zh) * 2021-09-23 2021-10-26 深圳华云时空技术有限公司 一种嵌入式***参数备份方法
CN114415961B (zh) * 2022-01-21 2023-10-27 珠海奔图电子有限公司 Nand flash存储器的坏块处理方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及***
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警***及方法
CN104866411A (zh) * 2015-06-08 2015-08-26 北京奇虎科技有限公司 固态硬盘的监测及分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及***
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警***及方法
CN104866411A (zh) * 2015-06-08 2015-08-26 北京奇虎科技有限公司 固态硬盘的监测及分析方法及装置

Also Published As

Publication number Publication date
CN106844166A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106844166B (zh) 一种数据处理方法及装置
CN107844268B (zh) 一种数据分发方法、数据存储方法、相关装置以及***
CN107025153B (zh) 磁盘的故障预测方法和装置
CN108536548B (zh) 一种磁盘坏道的处理方法、装置及计算机存储介质
CN108959526B (zh) 日志管理方法以及日志管理装置
CN104866411A (zh) 固态硬盘的监测及分析方法及装置
CN107515731B (zh) 一种基于固态盘的进化存储***及其工作方法
CN111045881A (zh) 一种慢盘检测方法及***
CN111324304A (zh) 一种基于ssd硬盘寿命预测的数据保护方法及装置
CN109032901A (zh) 一种远程带外ssd的监控方法、装置及受控终端
CN116343900A (zh) 固态硬盘自动化测试方法、***、设备及可读存储介质
CN115640174A (zh) 内存故障预测方法、***、中央处理单元及计算设备
US10847245B2 (en) Failure indicator predictor (FIP)
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN112905404B (zh) 固态硬盘的状态监控方法和装置
CN113936704A (zh) 基于存储器子***的存储器裸片的温度监测的异常条件检测
CN115658373B (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN112470227B (zh) 一种数据块处理的方法及控制器
CN114003477B (zh) 慢盘诊断信息收集方法、***、终端及存储介质
CN110968456A (zh) 分布式存储***中故障磁盘的处理方法及装置
CN113704029A (zh) 节点可用性管理、控制方法、节点、集群、装置及介质
CN110109786B (zh) Smart信息测试方法、装置、计算机设备及存储介质
CN111190781A (zh) 服务器***的测试自检方法
CN109584943B (zh) 一种评估存储介质的方法及装置
Oakley et al. Examining the impact of critical attributes on hard drive failure times: Multi‐state models for left‐truncated and right‐censored semi‐competing risks data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant