CN112069023A - 一种存储链路监控***及方法 - Google Patents

一种存储链路监控***及方法 Download PDF

Info

Publication number
CN112069023A
CN112069023A CN202010853331.5A CN202010853331A CN112069023A CN 112069023 A CN112069023 A CN 112069023A CN 202010853331 A CN202010853331 A CN 202010853331A CN 112069023 A CN112069023 A CN 112069023A
Authority
CN
China
Prior art keywords
signal
cable
voltage
nth
smaller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010853331.5A
Other languages
English (en)
Other versions
CN112069023B (zh
Inventor
毛心宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010853331.5A priority Critical patent/CN112069023B/zh
Publication of CN112069023A publication Critical patent/CN112069023A/zh
Application granted granted Critical
Publication of CN112069023B publication Critical patent/CN112069023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种存储链路监控***及方法,该***包括:信号监测模块、信号增强模块以及控制模块。该方法包括:采集存储链路采集点的电压信号,根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值;当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。通过本申请,能够有效提高存储链路的故障排查效率,提高对其监控的准确性并提高存储链路运行的稳定性。

Description

一种存储链路监控***及方法
技术领域
本申请涉及服务器存储监控技术领域,特别是涉及一种存储链路监控***及方法。
背景技术
存储子***是服务器中用于数据存储的重要部件,通常存储子***包括:RAID(Redundant Array of Independent Disks,独立冗余磁盘阵列)卡、线缆、背板和硬盘等装置。对整个存储子***进行监控,确保整个存储子***的稳定性,从而避免数据丢失,是个重要的技术问题。
目前对存储子***进行监控的方法,通常是采用标志位检测PCIE(peripheralcomponent interconnect express,一种高速串行计算机扩展总线标准)信号质量。具体地,利用RAID控制器分配不同的标志位,当发生数据存储错误时,进行各种排列组合,进行筛选,最终确定故障部位。
然而,目前对存储子***进行监控的方法中,由于是利用标志位检测PCIE信号质量,当发生故障时需要进行大量的计算和筛选运算,故障排查效率较低。而且利用标志位检测PCIE信号,必然会占用RAID控制器资源,导致RAID控制器性能降低,进一步导致存储子***的运行效率较低。
发明内容
本申请提供了一种存储链路监控***及方法,以解决现有技术中对存储子***故障排查效率较低以及导致存储子***运行效率较低的问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种存储链路监控***,所述存储链路包括:依次连接的RAID卡、多条线缆、背板和硬盘,多条线缆串联连接,根据信号传输方向,从信号输入端到信号输出端多条线缆依次定义为:第一线缆、第二线缆……第N线缆,第N条线缆为最末端线缆,所述***包括:信号监测模块、信号增强模块以及控制模块;
所述信号监测模块,用于采集存储链路采集点的电压信号,所述采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端;
所述信号增强模块,用于根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值;
所述控制模块,用于当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。
可选地,所述信号监测模块为一信号采集电路,所述信号采集电路中包括运算放大器。
可选地,所述信号增强模块包括:中继器使能电路和设置于多条线缆中任一线缆终端的retimer芯片;
所述中继器使能电路,用于当第N线缆的电压值小于设定的电压阈值时,开启相应线缆的retimer芯片;
任一所述retimer芯片,用于增强其所在线缆的信号。
可选地,所述控制模块为一外置控制器,所述外置控制器根据采集点的电压信号,对存储链路分段依次计算链路损耗,根据所述链路损耗确定发生故障的链路。
可选地,所述控制模块中包括:分类器算法单元,用于根据所述采集点的电压信号,利用分类器算法计算存储链路中各部件的使用寿命,所述各部件包括:RAID卡、多条线缆、背板以及硬盘。
可选地,所述***中还包括有显示模块,用于对信号监测模块和控制模块的输出结果进行显示,所述信号监测模块的输出结果包括:信号监测模块采集到的电压信号,所述控制模块的输出结果包括:发生故障的链路。
一种存储链路监控方法,所述存储链路包括:依次连接的RAID卡、多条线缆、背板和硬盘,多条线缆串联连接,根据信号传输方向,从信号输入端到信号输出端多条线缆依次定义为:第一线缆、第二线缆……第N线缆,第N条线缆为最末端线缆,且任一线缆终端设置有retimer芯片,所述方法包括:
采集存储链路采集点的电压信号,所述采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端;
根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值;
当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。
可选地,所述采集存储链路采集点的电压信号的方法,包括:
针对任一采集点,多次采集存储链路中所述任一采集点的电压信号,获取多个电压值;
对多个所述电压值取中位数;
以中位数结果作为所述任一采集点的电压值。
可选地,所述根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值,包括:
根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值;
如果是,开启第N线缆终端的retimer芯片;
再次判断第N线缆的电压值是否小于设定的电压阈值;
如果是,开启第N线缆以及第N-1线缆终端的retimer芯片;
再次判断第N线缆的电压值是否小于设定的电压阈值;
如果是,开启第N线缆、第N-1线缆以及第N-2线缆终端的retimer芯片,直到开启第一线缆终端的retimer芯片。
可选地,所述当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路,包括:
开启第一线缆到第N线缆终端的retimer芯片后,判断第N线缆的电压值是否小于设定的电压阈值;
如果第N线缆的电压值小于设定的电压阈值,根据采集点的电压信号,对存储链路分段依次计算每段链路的电压差,获取多个电压差;
针对任一电压差,判断所述任一电压差是否小于当前链路的参考电压差;
如果是,判定当前链路所对应的部件发生故障。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供一种存储链路监控***,该***主要包括:信号监测模块、信号增强模块和控制模块,通过信号监测模块能够实时采集到存储链路各采集点的电压信号,从而实时获取电压信号质量,便于及时排查故障;通过信号增强模块,能够在线缆电压值小于设定电压阈值时,及时对相应线缆进行信号增强,从而改善信号质量;通过控制模块,能够在信号增强后仍然不符合要求的情况下对采集点的电压信号进行分析,从而确定发生故障的链路,便于故障快速而准确的定位。因此,本实施例中的存储链路监控***能够实现信号质量的实时检测,又能够改善信号质量,从而降低发生链路故障的概率,还能够对故障及时定位,相比于现有技术,该***能够有效提高存储链路的故障排查效率。而且,本实施例采用存储链路之外的装置对其实现监控,并不占用存储链路本身的RAID控制器资源,不会对存储链路或存储***的运行造成影响。
本实施例的控制模块能够对存储链路分段依次计算链路损耗,这种对RAID卡、线缆、背板和硬盘的分段监控,能够大大提高监控结果的准确性,还有利于提高监控效率。
本申请还提供一种存储链路监控方法,该方法首先采集存储链路各采集点的电压信号,然后根据该电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值,最后,当信号增强后第N线缆的电压值仍然不满足要求时,对采集点的电压信号进行分析,根据分析结果确定发生故障的链路。本实施例通过在存储链路上设置多个采集点,能够对存储链路中的RAID卡、线缆、背板和硬盘实现分段监控,有利于提高信号监测结果的准确性。通过实时采集各采集点的电压信号,能够实现对信号的实时监测,有利于提高故障排查的效率。当监测到电压值小于设定电压阈值时,能够对相应线缆进行信号增强,避免信号衰减,从而有效改善信号质量。通过对电压信号进行分析,有利于快速而准确地进行故障定位,从而提高信号监控效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种存储链路监控***的结构示意图;
图2为信号采集电路的电路结构示意图;
图3为中继器使能电路的电路原理示意图;
图4为retimer芯片的工作原理示意图;
图5为外置控制器的电路原理示意图;
图6为显示预警电路的电路原理示意图;
图7为本申请实施例中存储链路监控原理示意图;
图8为本申请实施例所提供的一种存储链路监控方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了更好地理解本申请,下面结合附图来详细解释本申请的实施方式。
实施例一
本实施例中的存储链路包括:依次连接的RAID卡、多条线缆、背板和硬盘,多条线缆串联连接,根据信号传输方向,从信号输入端到信号输出端多条线缆依次定义为:第一线缆、第二线缆……第N线缆,第N条线缆为最末端线缆。存储链路中线缆的数量根据实际的应用场景而定,且多条线缆为均长线缆。
参见图1,图1为本申请实施例所提供的一种存储链路监控***的流程示意图。由图1可知,本实施例中的存储链路监控***,主要包括:信号监测模块、信号增强模块和控制模块三部分。
其中,信号监测模块,用于采集存储链路采集点的电压信号,采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端。信号增强模块,用于根据电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值。控制模块,用于当信号增强后,第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。
本实施例中的电压信号由服务器主板发出,经信号监测模块采集,为高速信号。本实施例中的采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端,这些采集点能够涵盖到存储链路中的所有部件,便于对每个部件实现分别监控,有利于提高对存储链路监控的准确性。
进一步地,信号监测模块可以采用一信号采集电路,且该信号采集电路中包括有运算放大器。本实施例中信号采集电路的电路结构示意图如图2所示。
信号增强模块包括:中继器使能电路和设置于多条线缆中任一线缆终端的retimer芯片,其中,中继器使能电路用于当第N线缆的电压值小于设定的电压阈值时,开启相应线缆的retimer芯片。任一retimer芯片,用于增强其所在线缆的信号。
本实施例中,中继器使能电路的电路原理示意图可以参见图3所示,由图3可知,该中继器使能电路主要由电磁继电器组成,用于开启线缆终端的retimer芯片,从而为高速信号补充能量,提高信号质量,有利于提高存储链路的稳定性和运行效率。retimer芯片的工作原理示意图可以参见图4。
本实施例中的控制模块可以采用一外置控制器,该外置控制器根据采集点的电压信号,对存储链路分段依次计算链路损耗,根据链路损耗确定发生故障的链路。外置控制器可以采用一Arduino328芯片,外置控制器的电路原理示意图可以参见图5。
进一步地,控制模块中还包括:分类器算法单元,用于根据采集点的电压信号,利用分类器算法计算存储链路中各部件的使用寿命,各部件包括:RAID卡、多条线缆、背板以及硬盘。本实施例中分类器算法的原理为现有技术中的分类器算法,在此不再赘述。通过在控制模块中设置分类器算法单元,能够根据采集点所采集到的电压信号,来预测存储链路中各部件的使用寿命,从而达到提前预防部件损坏的目的,有利于提高存储链路故障监控效率,以及提高整个存储链路运行的稳定性。
本实施例的存储链路监控***中还包括显示模块,用于对信号监测模块和控制模块的输出结果进行显示,其中,信号监测模块的输出结果包括:信号监测模块采集到的电压信号,控制模块的输出结果包括:发生故障的链路。
本实施例的显示模块中可以采用显示屏实现,该显示屏中包括显示预警电路,显示预警电路的电路原理示意图如6所示。显示模块的设置,使得用户能够更加直观地获取到高速信号当前的信号状态,例如:信号监测模块采集到的电压信号是否正常,开启线缆终端的retimer芯片时,显示具体开启的是哪一段存储链路的retimer芯片等。
本实施例中存储链路监控***的监控原理示意图,可以参见图7所示。结合图7,以一组高速信号,存储链路中包括三3条线缆,搭配4块硬盘为例,对本实施例中存储链路监控***的工作过程描述如下:
1)服务器主板发出的高速信号,依次进入RAID卡,经线缆1、线缆2、线缆3,传递至硬盘背板,硬盘背板再将信号分配至应硬盘。
2)信号监测模块对高速信号进行采集,信号采集电路的采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端。
其中,背板的信号发射端将与多块硬盘连接,分别为:硬盘1接收端、硬盘2接收端、硬盘3接收端和硬盘4接收端。
采集信号时,可以采用多次采集取中位数的方法,有利于进一步提高信号采集的准确性,从而提高存储链路监控的准确性。
3)当整条存储链路正常工作时,各条线缆中的retimer芯片并不开始工作。此时,信号采集电路实时监测各个采集点的模拟电压值。
4)当监测到线缆3的信号模拟电压值小于设定的电压阈值但未达到警戒值时,开启线缆3中的retimer芯片,并在显示屏中显示开启了哪一段存储链路的retimer芯片。
设定的电压阈值一般为额定值,线缆的模拟电压值即电压值,线缆的警戒值为能够运行的最低电压值,线缆的模拟电压值小于设定的电压阈值且未达到警戒值,表示当前线缆虽然能够运行,但是信号质量已经较差。
5)若此时线缆3的信号模拟电压值回复到正常值,则保持此状态,继续运行。
6)若此时线缆3的信号模拟电压值依然相比于设定的电压阈值较低但未达到警戒值,则需要同时开启线缆2和线缆3的retimer芯片,若此时线缆3的信号模拟电压值回复到正常值,则保持此状态,继续运行。
7)若此时线缆3的信号模拟电压值依然较低但未达到警戒值,则需要同时开启线缆1、线缆2和线缆3的retimer芯片,若此时线缆3的信号模拟电压值回复到正常值,则保持此状态,继续运行。
通过以上步骤4)-7),实现对retimer芯片的分段开启,能够在确保存储链路稳定性的情况下,兼顾整个监控***的性能。
8)若此时线缆3的信号模拟电压值依然较低但未达到警戒值,则需要比较哪一段链路的损耗比较大,同时显示屏要提示此段路径的具有风险。
判断哪一链路损耗较大,可参考一下方法。
81)将采集点RAID卡的信号输出端、线缆1的信号发射端、线缆2的信号发射端、线缆3的信号发射端、背板的信号接收端以及背板的信号发射端分别定义为A、B1、B2、B3、C1和C2。
82)比较(B1-A)、(B2-B1)、(B3-B2)、(C1-B3)、(C2-C1)值大小。
83)若(B1-A)值较小,则线缆1出现问题几率较大,建议更换。
84)若(B2-B1)值较小,则线缆2出现问题几率较大,建议更换。
85)若(B3-B2)值较小,则线缆3出现问题几率较大,建议更换。
86)若(C1-B3)值较小,则线缆3与背板的接插件出现问题几率较大,建议更换。
87)若(C2-C1)值较小,则背板出现问题几率较大,建议更换。
88)若硬盘1接收端、硬盘2接收端、硬盘3接收端、硬盘4接收端的信号质量存在问题,考虑更换硬盘。
实施例二
在图1-图7所示实施例的基础之上参见图8,图8为本申请实施例所提供的一种存储链路监控方法的结构示意图。由图8可知,本实施例中的存储链路监控方法,主要包括:
S1:采集存储链路采集点的电压信号,采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端。
具体地,步骤S1包括:
S11:针对任一采集点,多次采集存储链路中任一采集点的电压信号,获取多个电压值。
S12:对多个电压值取中位数。
S13:以中位数结果作为任一采集点的电压值。
采集到电压信号之后,执行步骤S2:根据电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值。
S21:根据电压信号,判断第N线缆的电压值是否小于设定的电压阈值。
如果第N线缆的电压值小于设定的电压阈值,执行步骤S22:开启第N线缆终端的retimer芯片。
再次执行步骤S21:判断第N线缆的电压值是否小于设定的电压阈值。
如果第N线缆的电压值小于设定的电压阈值,执行步骤S23:开启第N线缆以及第N-1线缆终端的retimer芯片。
再次返回步骤S21:判断第N线缆的电压值是否小于设定的电压阈值;
如果第N线缆的电压值小于设定的电压阈值,执行步骤S24:开启第N线缆、第N-1线缆以及第N-2线缆终端的retimer芯片,直到开启第一线缆终端的retimer芯片。
本实施例中采用分段开启retimer芯片的方法,有利于提高存储链路的稳定性,还有利于提高存储链路监控***的性能。
继续参见图8可知,对相应线缆进行信号增强后,执行步骤S3:当信号增强后,第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。
具体地,步骤S3包括:
S31:开启第一线缆到第N线缆终端的retimer芯片后,判断第N线缆的电压值是否小于设定的电压阈值。
S32:如果第N线缆的电压值小于设定的电压阈值,根据采集点的电压信号,对存储链路分段依次计算每段链路的电压差,获取多个电压差。
S33:针对任一电压差,判断任一电压差是否小于当前链路的参考电压差。
S34:如果是,判定当前链路所对应的部件发生故障。
步骤S31-S34的具体执行方法在图1-图8的实施例中已经详细阐述,两个实施例之间可以互相参照,在此不再赘述。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种存储链路监控***,其特征在于,所述存储链路包括:依次连接的RAID卡、多条线缆、背板和硬盘,多条线缆串联连接,根据信号传输方向,从信号输入端到信号输出端多条线缆依次定义为:第一线缆、第二线缆……第N线缆,第N条线缆为最末端线缆,所述***包括:信号监测模块、信号增强模块以及控制模块;
所述信号监测模块,用于采集存储链路采集点的电压信号,所述采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端;
所述信号增强模块,用于根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值;
所述控制模块,用于当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。
2.根据权利要求1所述的一种存储链路监控***,其特征在于,所述信号监测模块为一信号采集电路,所述信号采集电路中包括运算放大器。
3.根据权利要求1所述的一种存储链路监控***,其特征在于,所述信号增强模块包括:中继器使能电路和设置于多条线缆中任一线缆终端的retimer芯片;
所述中继器使能电路,用于当第N线缆的电压值小于设定的电压阈值时,开启相应线缆的retimer芯片;
任一所述retimer芯片,用于增强其所在线缆的信号。
4.根据权利要求1所述的一种存储链路监控***,其特征在于,所述控制模块为一外置控制器,所述外置控制器根据采集点的电压信号,对存储链路分段依次计算链路损耗,根据所述链路损耗确定发生故障的链路。
5.根据权利要求1所述的一种存储链路监控***,其特征在于,所述控制模块中包括:分类器算法单元,用于根据所述采集点的电压信号,利用分类器算法计算存储链路中各部件的使用寿命,所述各部件包括:RAID卡、多条线缆、背板以及硬盘。
6.根据权利要求1-5中任一所述的一种存储链路监控***,其特征在于,所述***中还包括有显示模块,用于对信号监测模块和控制模块的输出结果进行显示,所述信号监测模块的输出结果包括:信号监测模块采集到的电压信号,所述控制模块的输出结果包括:发生故障的链路。
7.一种存储链路监控方法,其特征在于,所述存储链路包括:依次连接的RAID卡、多条线缆、背板和硬盘,多条线缆串联连接,根据信号传输方向,从信号输入端到信号输出端多条线缆依次定义为:第一线缆、第二线缆……第N线缆,第N条线缆为最末端线缆,且任一线缆终端设置有retimer芯片,所述方法包括:
采集存储链路采集点的电压信号,所述采集点包括:RAID卡的信号输出端、每条线缆的信号发射端、背板的信号接收端以及背板的信号发射端;
根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值;
当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路。
8.根据权利要求7所述的一种存储链路监控方法,其特征在于,所述采集存储链路采集点的电压信号的方法,包括:
针对任一采集点,多次采集存储链路中所述任一采集点的电压信号,获取多个电压值;
对多个所述电压值取中位数;
以中位数结果作为所述任一采集点的电压值。
9.根据权利要求7所述的一种存储链路监控方法,其特征在于,所述根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值,当第N线缆的电压值小于设定的电压阈值时,对相应线缆进行信号增强,使第N线缆的电压值达到设定的电压阈值,包括:
根据所述电压信号,判断第N线缆的电压值是否小于设定的电压阈值;
如果是,开启第N线缆终端的retimer芯片;
再次判断第N线缆的电压值是否小于设定的电压阈值;
如果是,开启第N线缆以及第N-1线缆终端的retimer芯片;
再次判断第N线缆的电压值是否小于设定的电压阈值;
如果是,开启第N线缆、第N-1线缆以及第N-2线缆终端的retimer芯片,直到开启第一线缆终端的retimer芯片。
10.根据权利要求9所述的一种存储链路监控方法,其特征在于,所述当信号增强后,所述第N线缆的电压值小于设定的电压阈值时,对采集点的电压信号进行分析,根据采集点的电压信号确定发生故障的链路,包括:
开启第一线缆到第N线缆终端的retimer芯片后,判断第N线缆的电压值是否小于设定的电压阈值;
如果第N线缆的电压值小于设定的电压阈值,根据采集点的电压信号,对存储链路分段依次计算每段链路的电压差,获取多个电压差;
针对任一电压差,判断所述任一电压差是否小于当前链路的参考电压差;
如果是,判定当前链路所对应的部件发生故障。
CN202010853331.5A 2020-08-23 2020-08-23 一种存储链路监控***及方法 Active CN112069023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010853331.5A CN112069023B (zh) 2020-08-23 2020-08-23 一种存储链路监控***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010853331.5A CN112069023B (zh) 2020-08-23 2020-08-23 一种存储链路监控***及方法

Publications (2)

Publication Number Publication Date
CN112069023A true CN112069023A (zh) 2020-12-11
CN112069023B CN112069023B (zh) 2023-01-06

Family

ID=73659274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010853331.5A Active CN112069023B (zh) 2020-08-23 2020-08-23 一种存储链路监控***及方法

Country Status (1)

Country Link
CN (1) CN112069023B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206683A (zh) * 2021-04-27 2021-08-03 群联电子股份有限公司 电路参数调整***、方法及主机***
CN113204471A (zh) * 2021-05-14 2021-08-03 山东英信计算机技术有限公司 一种服务器防烧主板及其控制方法、相关组件

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108646146A (zh) * 2018-08-20 2018-10-12 国网河北省电力有限公司沧州供电分公司 配电线故障在线监测方法及终端设备
CN109490709A (zh) * 2018-11-19 2019-03-19 国网山东省电力公司潍坊供电公司 一种辅助小电流接地选线的***和方法
CN111563328A (zh) * 2020-04-30 2020-08-21 广东电网有限责任公司东莞供电局 一种含dg的短路电流计算模型的建立方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108646146A (zh) * 2018-08-20 2018-10-12 国网河北省电力有限公司沧州供电分公司 配电线故障在线监测方法及终端设备
CN109490709A (zh) * 2018-11-19 2019-03-19 国网山东省电力公司潍坊供电公司 一种辅助小电流接地选线的***和方法
CN111563328A (zh) * 2020-04-30 2020-08-21 广东电网有限责任公司东莞供电局 一种含dg的短路电流计算模型的建立方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206683A (zh) * 2021-04-27 2021-08-03 群联电子股份有限公司 电路参数调整***、方法及主机***
CN113204471A (zh) * 2021-05-14 2021-08-03 山东英信计算机技术有限公司 一种服务器防烧主板及其控制方法、相关组件

Also Published As

Publication number Publication date
CN112069023B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN101197621B (zh) 一种对网管***故障进行远程诊断定位的方法及其***
CN112069023B (zh) 一种存储链路监控***及方法
CN107066370A (zh) 一种自动监控并收集故障硬盘日志的工具及方法
CN103116531A (zh) 存储***故障预测方法和装置
CN104866411A (zh) 固态硬盘的监测及分析方法及装置
CN109976959A (zh) 一种用于服务器故障检测的便携式设备及方法
CN108984332A (zh) 一种定位服务器宕机故障的装置及方法
CN111414268A (zh) 故障处理方法、装置及服务器
CN115658420A (zh) 数据库监控方法及***
CN115878356A (zh) 磁盘故障预测方法及装置
CN112558461B (zh) 一种多余度无人机飞机管理计算机输出信号表决方法
CN108647124A (zh) 一种存储跳变信号的方法及其装置
CN117271234A (zh) 故障诊断方法、装置、存储介质及电子装置
CN109446002B (zh) 一种用于服务器抓取sata硬盘的治具板、***及方法
CN117194154A (zh) 一种基于微服务的apm全链路监控***及方法
CN115543707A (zh) 硬盘故障的检测方法、***和装置、存储介质及电子装置
CN116501705A (zh) 基于ras的内存信息收集解析方法、***、设备及介质
CN113986618B (zh) 集群脑裂自动修复方法、***、装置及存储介质
CN116074180A (zh) 故障定位方法、故障修复方法、装置及存储介质
CN115729782A (zh) 一种芯片运行状态监控及自愈方法和***
CN108196985A (zh) 一种基于智能预测的存储***故障预测方法与装置
CN111965609A (zh) 雷达可靠度评估方法、装置、电子设备及可读存储介质
CN112134760A (zh) 链路状态监控方法、装置、设备及计算机可读存储介质
CN112131090A (zh) 业务***性能监控方法及装置、设备及介质
CN109982170B (zh) 一种光网络设备的基于link的保护方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant