CN110471814B - 服务器装置的错误报告功能的控制方法 - Google Patents

服务器装置的错误报告功能的控制方法 Download PDF

Info

Publication number
CN110471814B
CN110471814B CN201810446197.XA CN201810446197A CN110471814B CN 110471814 B CN110471814 B CN 110471814B CN 201810446197 A CN201810446197 A CN 201810446197A CN 110471814 B CN110471814 B CN 110471814B
Authority
CN
China
Prior art keywords
error
control unit
hardware
reporting function
hardware element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810446197.XA
Other languages
English (en)
Other versions
CN110471814A (zh
Inventor
黄佳仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitac Computer Shunde Ltd
Mitac Computing Technology Corp
Original Assignee
Mitac Computer Shunde Ltd
Mitac Computing Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitac Computer Shunde Ltd, Mitac Computing Technology Corp filed Critical Mitac Computer Shunde Ltd
Priority to CN201810446197.XA priority Critical patent/CN110471814B/zh
Publication of CN110471814A publication Critical patent/CN110471814A/zh
Application granted granted Critical
Publication of CN110471814B publication Critical patent/CN110471814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种服务器装置的错误报告功能的控制方法,包含:控制单元接收若干个硬件元件中发生若干个可更正的错误的第一硬件元件所发送的若干个第一错误信息、控制单元根据第一错误信息判断第一硬件元件所发生错误的各个错误类型、控制单元判断第一硬件元件所发生的错误的各个错误类型的发生次数在第一预设时间长度内是否达到一预设次数、以及若控制单元判断出第一硬件元件在第一预设时间长度内所发生的第一错误类型的错误的发生次数达到预设次数,控制单元控制第一硬件元件在发送第一错误信息之后停止执行相应于第一错误类型的一错误报告功能。

Description

服务器装置的错误报告功能的控制方法
技术领域
本发明是有关于一种服务器装置的错误报告功能的控制方法,特别是一种能够根据硬件元件发生可更正的错误的类型来选择关闭相应的硬件元件的错误报告功能的服务器装置的错误报告功能的控制方法。
背景技术
在习知的服务器中,服务器的硬件元件在运作时有发生错误的机会。以快捷外设互联标准(PCIE)界面为例,PCIE界面会发生的错误分为两类:可更正的错误(correctableerrors)以及不可更正的错误(uncorrectable errors)。不可更正的错误会造成PCIE界面无法正常运作,而可更正的错误不会造成PCIE界面无法正常运作,但仍会影响PCIE界面的效能。若发生可更正的错误,服务器的硬件可对可更正的错误进行解错而将其更正,并不需要藉由软件触发处理器中断来更正可更正的错误。再者,服务器的BIOS设定选单包含是否记录可更正的错误的设定选项,服务器的管理者可启用前述的设定选项,使服务器记录可更正的错误而致使其硬件进一步根据纪录对这一类可更正的错误进行解错。
然而,虽然可更正的错误可以被服务器的硬件更正,但当发生大量的可更正的错误时,服务器的硬件对大量的可更正的错误进行解错会增加其处理负担,造成服务器的效能低落,严重时甚至会导致服务器当机。再者,若服务器的管理者又进一步启用前述的设定选项,当发生大量的可更正的错误时,服务器更需进一步记录大量发生的错误的信息,更增加服务器的处理负担,大幅增加服务器当机的风险。
发明内容
本发明要解决的技术问题是在于提供一种能够根据硬件元件发生可更正的错误的类型来选择关闭相应的硬件元件的错误报告功能的服务器装置的错误报告功能的控制方法。
为解决上述技术问题,一种服务器装置的错误报告功能的控制方法包含:控制单元接收若干个硬件元件中发生若干个可更正的错误的一第一硬件元件所发送的若干个第一错误信息、控制单元根据第一错误信息判断第一硬件元件所发生错误的各个错误类型、控制单元判断第一硬件元件所发生的错误的各个错误类型的发生次数在一第一预设时间长度内是否达到一预设次数、以及若控制单元判断出第一硬件元件在第一预设时间长度内所发生的一第一错误类型的错误的发生次数达到预设次数,控制单元控制第一硬件元件在发送第一错误信息之后停止执行相应于第一错误类型的一错误报告功能。
相较于现有技术,本发明服务器装置的错误报告功能的控制方法,根据本发明的服务器装置的错误报告功能的控制方法的一实施例,控制单元能根据硬件元件发生可更正的错误的类型来选择关闭相应的硬件元件的错误报告功能,控制单元不需要将所有错误报告功能都关闭,如此可仅避免特定硬件元件发送大量的特定错误类型的错误信息,维持服务器装置的效能,且可保留错误次数未达到预设次数的错误类型所对应的错误报告功能,维持***的稳定性。
【附图说明】
图1为根据本发明的服务器装置的一实施例的方块示意图。
图2为根据本发明的错误报告功能的控制方法的一实施例的流程图。
图3为根据本发明的错误报告功能的控制方法的另一实施例的部分的流程图。
图4为接续图3的另一部分的流程图。
【具体实施方式】
图1为根据本发明的服务器装置的一实施例的方块示意图,图1示例出服务器装置10包含若干个硬件元件11-18及控制单元19,每一硬件元件11-18耦接于控制单元19。在此,图1是以服务器装置10包含八个硬件元件11-18为例,然本发明不以此为限,服务器装置10所包含的硬件元件的数量可为小于八或是大于八。其中,每一硬件元件11-18具有相应于预定义的若干个预设错误类型的一错误报告(error reporting)功能,若硬件元件11-18发生可更正的错误,硬件元件11-18执行相应于可更正的错误的错误报告功能,以根据预定义的若干个预设错误类型发送分别相应于不同预设错误类型的错误信息。举例来说,预定义的预设错误类型的数量可为16,包含第一错误类型、第二错误类型、…、及第十六错误类型,若硬件元件11发生第一错误类型的错误,硬件元件11能发送相应于第一错误类型的错误信息;若硬件元件11发生第二错误类型的错误,硬件元件11则能发送相应于第二错误类型的错误信息;其他错误类型及其他硬件元件12-18则依此类推,于此不再赘述。
控制单元19耦接于硬件元件11-18,控制单元19用以接收并记录来自于硬件元件11-18的错误信息,并根据发送错误信息的硬件元件及错误类型进行相应的除错工作。并且,若控制单元19接收到来自于硬件元件11-18的错误信息,控制单元19会启动一错误数量的侦测机制,以避免硬件元件11-18发送的错误信息过多而造成控制单元19处理负担过重,导致服务器装置10的效能低落甚至是造成服务器装置10当机。
图2为根据本发明的错误报告功能的控制方法的一实施例的流程图,请合并参阅图1及图2,在运作上,在控制单元19接收到来自于硬件元件11-18的错误信息(步骤S11)之后,控制单元19根据前述预定义的若干个预设错误类型判断硬件元件11-18所发生的可更正的错误的各个错误类型(步骤S12)。控制单元19在步骤S12中可比对预设错误类型与错误信息中表示错误类型的位元,以藉由判断前述位元所表示的错误类型是否符合预设错误类型来判断硬件元件11-18所发生的可更正的错误的各个错误类型。接着,控制单元19根据硬件元件11-18所发生的可更正的错误的各个类型判断硬件元件11-18所发生的可更正的错误的各个错误类型的发生次数在一预设时间长度(以下称为第一预设时间长度)内是否达到一预设次数(步骤S13)。
举例来说,以第一预设时间长度为一小时且预设次数为三为例,控制单元19判断每一硬件元件11-18在一小时内所发送的相应于第一错误类型的错误信息的数量是否达到三,接着判断每一硬件元件11-18在一小时内所发送的相应于第二错误类型的错误信息的数量是否达到三,依此类推,控制单元19最后判断在一小时内每一硬件元件11-18所发送的相应于第十六错误类型的错误信息的数量是否达到三。在控制单元19执行步骤S13时,若控制单元19判断出其中的一硬件元件(例如,硬件元件11)于第一预设时间长度内发送的其中一错误类型(例如,第一错误类型)的错误信息的数量达到三(判断结果为「是」),表示硬件元件11在一小时内发生第一错误类型的可更正的错误的发生次数达到三次,此时控制单元19关闭硬件元件11相应于第一错误类型的错误报告功能(步骤S14),也就是控制单元19控制硬件元件11停止执行相应于第一错误类型的错误报告功能,使硬件元件11在其错误报告功能被关闭之后若再次发生第一错误类型的错误,硬件元件11则不发送相应于第一错误类型的错误信息,也就是控制单元19不会再接收到来自于硬件元件11的相应于第一错误类型的错误信息,控制单元19亦不会对第一错误类型的可更正的错误进行解错,进而避免因记录过多相应于第一错误类型的错误信息或是因过于频繁地进行相应于第一错误类型的除错工作而造成其处理负担。
于本实施例中,在步骤S13中,以前述的预设次数为三为例,控制单元19可根据错误信息的接收时间来计算同一错误类型中的第一个错误信息的接收时间以及第三个错误信息的接收时间之间的时间间隔,并判断前述的时间间隔是否小于或等于第一预设时间长度。举例来说,若硬件元件11于10时22分、10时23分、10时25分分别发生一个第五错误类型的错误,则控制单元19于前述的时间接收到硬件元件11所发送的三个错误信息,则控制单元19可计算出硬件元件11发生第一个第五错误类型的可更正的错误与发生第三个第五错误类型的可更正的错误之间的时间间隔是为三分钟而小于为一小时的第一预设时间长度;若硬件元件17于10时31分、10时32分、11时50分分别发生一个第十错误类型的错误,控制单元19能计算出硬件元件17发生第一个第十错误类型的错误与发生第三个第十错误类型的错误之间的时间间隔是为69分钟而大于为一小时的第一预设时间长度。
于是,控制单元19不关闭硬件元件11相应于第一错误类型至第四错误类型的错误报告功能、相应于第六错误类型至第十六错误类型的错误报告功能,且控制单元19不关闭其他硬件元件12-17相应于第一错误类型至第十六错误类型的错误报告功能,控制单元19仅关闭硬件元件11相应于第五错误类型的错误报告功能。若硬件元件11发生第五错误类型的错误,硬件元件11不发送相应于第五错误类型的错误信息,硬件元件11仅将相应于其他错误类型的错误信息至控制单元19,例如第三错误类型、第七错误类型等。
于本实施例中,控制单元19可包含一芯片组191及一中央处理器192。芯片组191分别耦接于硬件元件11-18及中央处理器192。芯片组191用以接收来自于硬件元件11-18的错误信息并对硬件元件11-18进行除错工作。并且,若芯片组191判断出硬件元件11-18发生错误,芯片组191发送一***管理中断(System Management Interrupt;SMI)信号至中央处理器192,以启动中央处理器192的***管理模式(System Management mode;SMM),中央处理器192在SMM模式中执行步骤S12至步骤S13,以进行前述的侦测机制。
再者,硬件元件11-18可为PCIE界面卡。芯片组191具有若干个根埠(root port),若干个根埠是一对一地耦接于硬件元件11-18中的每一者,控制单元19可在接收到的错误信息时扫描每一根埠,以侦测若干个根埠中的哪一者接收到错误信息而判断出是硬件元件11-18中的哪一者发送的错误信息,例如硬件元件11,以自硬件元件11-18中判断出是硬件元件11在第一预设时间长度内所发生的第五错误类型的可更正的错误的发生次数达到预设次数。并且,控制单元19更藉由前述耦接于硬件元件11的根埠单独地控制硬件元件11不发送相应于第五错误类型的错误信息。
进一步,于另一些实施例中,硬件元件11-18亦可为存储器单元,也就是硬件元件11-18中的每一者包含若干个存储器通道,且每一存储器通道包含至少一双线存储器模块(Dual In-line Memory Module;DIMM)。于此,控制单元19在接收到来自于硬件元件11-18的错误信息之后可藉由扫描每一存储器通道的每一双线存储器模块,以判断是哪一双线存储器模块在第一预设时间长度内发生特定错误类型的可更正的错误的次数达到预设次数。并且,控制单元19可单独地控制硬件元件11-18中的任一者的其中一双线存储器模块停止执行特定的预设错误类型的错误报告功能。
于本实施例中,以前述的控制单元19关闭硬件元件11相应于第五错误类型的错误报告功能为例,控制单元19在关闭硬件元件11相应于第五错误类型的错误报告功能之后,控制单元19进一步计算被关闭的相应于第五错误类型的错误报告功能的关闭时间长度(以下称为第一关闭时间长度)(步骤S15)(图式中则将关闭时间长度简称为关闭时长),并判断硬件元件11相应于第五错误类型的错误报告功能的第一关闭时间长度是否达到另一预设时间长度(以下称为第二预设时间长度)(步骤S16),若硬件元件11的错误报告功能的第一关闭时间长度达到第二预设时间长度(判断为「是」),控制单元19则判断是否需重新启动被关闭的错误报告功能,也就是判断是否需控制硬件元件11执行相应于第五错误类型的错误报告功能而在发生第五错误类型的错误时发送相应于第五错误类型的错误信息。
详细而言,控制单元19可藉由判断硬件元件11在其错误报告功能的关闭期间是否再次发生相同错误类型的错误(步骤S17),即第五错误类型的错误,来决定是否需控制硬件元件11再次发送相应于第五错误类型的错误信息。若控制单元19判断为「否」,表示在第五错误类型的错误报告功能的关闭期间,硬件元件11并未再次发生第五错误类型的可更正的错误,此时控制单元19重新启动硬件元件11相应于第五错误类型的错误报告功能(步骤S18),使硬件元件11在尔后的时间点若发生第五错误类型的错误时能执行其错误报告功能而发送相应于第五错误类型的错误信息。另一方面,若控制单元19在执行步骤S17时判断为「是」,表示在第五错误类型的错误报告功能的关闭期间,硬件元件11再次发生相同的第五错误类型的错误,为避免硬件元件11再次在第一预设时间长度内发生第五错误类型的错误的次数达到预设次数,控制单元19不重新启动硬件元件11相应于第五错误类型的错误报告功能。此时,控制单元19可重新计算被关闭的错误报告功能的一关闭时间长度(以下称为第二关闭时间长度)(步骤S19)并回到步骤S16重新判断被关闭的错误报告功能的第二关闭时间长度是否达到第二预设时间长度,以决定是否需重新启动被关闭的错误报告功能。
在实作上,控制单元19是在执行作业***时执行步骤S11~S19。再者,在步骤S15中,控制单元19可记录硬件元件11的相应于第五错误类型的错误报告功能的关闭时间,并实时地根据当前时间(real-time)及前述的关闭时间来计算第五错误类型的错误报告功能的第一关闭时间长度及第二关闭时间长度,并据以在步骤S16中判断第一关闭时间长度及第二关闭时间长度是否达到第二预设时间长度。于本实施例中,前述的第二预设时间长度可为三天。
图3及图4为根据本发明的错误报告功能的控制方法的另一实施例的流程图,请合并参阅图1、图3及图4。于本实施例中,当控制单元19接收到来自于硬件元件11-18的错误信息(步骤S11)时,控制单元19可进一步设定储存于非挥发性存储器(non-volatile memory)中的一旗标信号为第一逻辑位准(步骤S04),以表示硬件元件11-18已发生可更正的错误。再者,当控制单元19在步骤S13中判断出各个错误类型的发生次数在第一预设时间长度内达到预设次数时,控制单元19可进一步对大量发生的可更正的错误进行相应的处置(步骤S05),例如控制单元19在步骤S05中可记录前述的硬件元件11所发送的相应于第五错误类型的错误信息,并产生包含错误信息的纪录档,控制单元19可根据已记录的错误信息进行解错。进一步,控制单元19在对大量发生的可更正的错误进行相应的处置之后,控制单元19可重新设定前述的旗标信号为第二逻辑位准(步骤S06),第二逻辑位准是不同于第一逻辑位准,以藉由旗标信号的不同逻辑位准来表示控制单元19是否已对大量发生的可更正的错误进行相应的处置。在实作上,前述的第一逻辑位准可为「1」,第二逻辑位准可为「0」。
基此,在步骤S05中,以控制单元19是在前述的第一预设时间长度内进行解错为例,控制单元19可在前述的为一小时的第一预设时间长度对硬件元件11所发生的第五错误类型的错误进行解错,而控制单元19在每次执行开机自我检测(Power-on self-test;POST)程序时会根据前述的旗标信号的逻辑位准来判断是否已对大量发生的可更正的错误进行解错,借以判断是否需将第一预设时间长度进行延长。如图3所示,控制单元19在执行开机自我检测程序时可判断储存于前述的非挥发性存储器中的旗标信号是否为第一逻辑位准(步骤S01),若判断为「是」,表示在执行本次的开机自我检测程序之前的服务器装置10的运行期间(以下称为前次运行期间)中,硬件元件11-18中的任一者已发生可更正的错误(例如,前述的硬件元件11),而控制单元19在前次运行期间中还未对已发生的可更正的错误进行处置而未将旗标信号设定为第二逻辑位准。举例来说,服务器装置10在控制单元19将旗标信号设定为第一逻辑位准(步骤S04)之后当机导致控制单元19在将旗标信号设定为第一逻辑位准后来不及对已发生的错误进行处置(步骤S05)。例如:当该硬件元件11在第一预设时间长度发生多次的可更正错误(correctable errors),造成控制单元19处理负担过重,导致服务器装置10当机。换句话说,当执行开机自我检测程序时,若控制单元19判断出该旗标信号为第一逻辑位准,代表着前一次运行期间很可能发生多次的可更正错误而造成当机,因此来不及对已发生的错误进行处置,所以旗标信号在本次开机自我检测时为第一逻辑位准。
于本实施例中,在每次执行开机自我检测程序时,若控制单元19判断出前述的旗标信号为第一逻辑位准,控制单元19则在开机自我检测程序中延长第一预设时间长度(步骤S02),例如控制单元19可根据一预设倍数(以下以二为例)来将第一预设时间长度延长为原来的两倍,并在开机自我检测程序中设定旗标信号为第二逻辑位准(步骤S03),以在后续执行作业***时的步骤S13中根据延长后的第一预设时间长度来判断硬件元件11-18是否发生其中一错误类型的错误的次数达到预设次数,并根据延长后的第一预设时间长度的判断结果决定是否设定旗标信号,使旗标信号由第二逻辑位准改变至第一逻辑位准。再者,倘若服务器装置10在控制单元19根据延长后的第一预设时间长度在步骤S04中设定旗标信号为第一逻辑位准之后又再次当机,控制单元19在服务器装置10第二次当机之后的开机自我检测程序中会再次地由步骤S01开始执行以根据为第一逻辑位准的旗标信号而再次地将第一预设时间长度延长。于此,控制单元19在将第一预设时间长度延长后则在执行作业***时具有较充裕的时间来对硬件元件11-18发生的大量可更正的错误进行相应的处置,若控制单元19在将第一预设时间长度延长之后服务器装置10仍然当机,则控制单元19能藉由步骤S02不断地延长第一预设时间长度来争取更充裕的处置时间直到服务器装置10不再当机为止,进而增加服务器装置的***稳定性。
另一方面,若控制单元19在开机自我检测程序中判断出前述的旗标信号为第二逻辑位准而非为第一逻辑位准(判断为「否」),控制单元19则不延长第一预设时间长度。待服务器装置10完成其开机自我检测程序时,控制单元19再根据来自于硬件元件11-18的错误信息执行其侦测机制。于本实施例中,控制单元19是在执行作业***时执行步骤S04~S06。
举例来说,若服务器装置10因发生多次的可更正错误而当机并在不同时间点先后执行一开机自我检测程序(以下将服务器装置10当机前先执行的开机自我检测程序称为第一开机自我检测程序,并将服务器装置10当机之后执行的开机自我检测程序称为第二开机自我检测程序),在服务器装置10执行第一开机自我检测程序后,若控制单元19在执行作业***时自任一硬件元件11-18接收错误信息,控制单元19会藉由步骤S04设定旗标为第一逻辑位准,以表示任一硬件元件11-18发生可更正的错误;接着,在控制单元19未执行步骤S05、S06之前,若服务器装置10因硬件元件11-18发生大量错误当机而在当机之后执行第二开机自我检测程序,控制单元19则在第二开机自我检测程序中执行步骤S01,并判断出旗标为第一逻辑位准,表示控制单元19在第一开机自我检测程序后执行作业***时未实时地在第一预设时间长度内对大量的可更正的错误进行处置,控制单元19在第二开机自我检测程序中再藉由步骤S02来将前述的第一预设时间长度延长,且在第二开机自我检测程序中藉由步骤S03重新设定旗标为第二逻辑位准。
在实作上,控制单元19是藉由执行BIOS码来执行步骤S01~S06、S12~S19。再者,以前述的硬件元件11-18为PCIE界面卡为例,前述的若干个预设错误类型可为接收器错误状态(Receiver Error Status)、坏资料交易层封包状态(Bad TLP Status)、坏资料连结层封包(Bad DLLP Status)、重送计时器时间终止状态(Replay Timer Timeout Status)、咨询式非致命错误状态(Advisory Non-Fatal Error Status)、标头记录溢位状态(Header LogOverflow Status)等。
综上所述,根据本发明的服务器装置的错误报告功能的控制方法的一实施例,控制单元能根据硬件元件发生可更正的错误的类型来选择关闭相应的硬件元件的错误报告功能,控制单元不需要将所有错误报告功能都关闭,如此可仅避免特定硬件元件发送大量的特定错误类型的错误信息,维持服务器装置的效能,且可保留错误次数未达到预设次数的错误类型所对应的错误报告功能,维持***的稳定性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种服务器装置的错误报告功能的控制方法,其特征在于,包含:
一控制单元接收若干个硬件元件中发生若干个可更正的错误的一第一硬件元件所发送的若干个第一错误信息;
该控制单元根据该些第一错误信息判断该第一硬件元件所发生该些错误的各个错误类型;
该控制单元判断该第一硬件元件所发生的该些错误的各个不同错误类型的各发生次数在一第一预设时间长度内是否分别达到一预设次数;及
若该控制单元判断出该第一硬件元件在各个不同错误类型中的其中一第一错误类型在该第一预设时间长度内发生的该些错误的发生次数达到该预设次数,该控制单元控制该第一硬件元件在发送该些第一错误信息之后停止执行复数错误报告功能中相应于该些第一错误类型的一错误报告功能,以关闭相应于该些第一错误类型的该错误报告功能,
其中,于该控制单元控制该第一硬件元件停止执行相应于该第一错误类型的该错误报告功能之后,服务器装置的错误报告功能的控制方法更包含:
该控制单元计算该第一硬件元件停止执行相应于该第一错误类型的该错误报告功能的一第一关闭时间长度;
该控制单元判断该第一关闭时间长度达到是否达到一第二预设时间长度;及
当该第一关闭时间长度达到该第二预设时间长度时,该控制单元判断是否需控制该第一硬件元件重新启动相应于该些第一错误类型的该错误报告功能,
其中,该控制单元判断是否需控制该第一硬件元件重新启动相应于该些第一错误类型的该错误报告功能的步骤包含:
该控制单元判断该第一硬件元件在该错误报告功能的关闭期间是否发生对应该第一错误类型的另一错误;及
若该控制单元判断为否,该控制单元控制该第一硬件元件重新启动相应于该些第一错误类型的该错误报告功能。
2.根据权利要求1所述的服务器装置的错误报告功能的控制方法,其特征在于,该些硬件元件系为PCIE界面卡,该控制单元系藉由扫描耦接于该些硬件元件的若干个根埠而自该些硬件元件中判断出该第一硬件元件在该第一预设时间长度内所发生的该第一错误类型的该些错误的发生次数达到该预设次数,且该控制单元系藉由该些根埠自该些硬件元件中控制该第一硬件元件停止执行相应于该第一错误类型的该错误报告功能。
3.根据权利要求1所述的服务器装置的错误报告功能的控制方法,其特征在于,该些硬件元件系为存储器单元,每一该硬件元件包含若干个存储器通道,且每一该存储器通道设置有至少一双线存储器模块,该控制单元更扫描每一该存储器通道的每一该双线存储器模块,以判断出系该第一硬件元件中的哪一该双线存储器模块在该第一预设时间长度内发生该第一错误类型的错误的次数达到该预设次数,且该控制单元更控制该第一硬件元件所包含的其中一该双线存储器模块停止执行相应于该第一错误类型的该错误报告功能。
4.根据权利要求1所述的服务器装置的错误报告功能的控制方法,其特征在于,更包含:
若该控制单元判断出该第一硬件元件在该错误报告功能的关闭期间发生对应该第一错误类型的该另一错误,该控制单元于该第一关闭时间长度达到该第二预设时间长度时重新计算被关闭的该错误报告功能的一第二关闭时间长度;及
该控制单元判断该第二关闭时间长度是否达到该第二预设时间长度,以决定是否需控制第一硬件元件重新启动相应于该些第一错误类型的该错误报告功能。
5.根据权利要求1所述的服务器装置的错误报告功能的控制方法,其特征在于,更包含:
当该控制单元在该服务器装置执行一第一开机自我检测程序后执行一作业***时判断出该第一硬件元件在该第一预设时间长度内该第一错误类型的该些错误的发生次数达到该预设次数时,该控制单元在该服务器装置执行晚于该作业***的一第二开机自我检测程序时延长该第一预设时间长度。
6.根据权利要求1所述的服务器装置的错误报告功能的控制方法,于该控制单元判断该第一硬件元件在该第一预设时间长度内该些错误的各个错误类型的发生次数是否达到该预设次数的步骤中,其特征在于,该控制单元是在该第一预设时间长度内对该第一硬件元件所发生的该些错误进行解错。
7.根据权利要求5所述的服务器装置的错误报告功能的控制方法,于该控制单元延长该第一预设时间长度的步骤中,其特征在于,该控制单元是于该第二开机自我检测程序中根据一预设倍数延长该第一预设时间长度。
8.根据权利要求1所述的服务器装置的错误报告功能的控制方法,其特征在于,该控制单元是在该服务器装置在不同时间点先后执行的一第一开机自我检测程序与一第二开机自我检测程序之间执行一作业***时自该第一硬件元件接收该些第一错误信息,且该控制单元系在该第一开机自我检测程序与该第二开机自我检测程序之间执行该作业***时判断该第一硬件元件所发生的该些错误的各个错误类型的发生次数在该第一预设时间长度内是否达到该预设次数,服务器装置的错误报告功能的控制方法更包含:
若该第一硬件元件发生该些可更正的错误,该控制单元在执行该作业***时根据该些第一错误信息设定一旗标为一第一逻辑位准;
若该控制单元在执行该作业***时判断出该第一硬件元件在该第一预设时间长度内该些错误的发生次数达到该预设次数时,该控制单元在执行该作业***时对该些可更正的错误进行相应的处置,并在进行处置后重新设定该旗标为有别于该第一逻辑位准的一第二逻辑位准;
该控制单元在执行该第二开机自我检测程序时判断该旗标信号是否为该第一逻辑位准,以判断在执行该作业***时是否已对该些可更正的错误进行相应的处置;及
当该控制单元在该第二开机自我检测程序中判断出该旗标为该第一逻辑位准时,该控制单元在该第二开机自我检测程序中根据一预设倍数延长该第一预设时间长度并重新设定该旗标为该第二逻辑位准。
CN201810446197.XA 2018-05-11 2018-05-11 服务器装置的错误报告功能的控制方法 Active CN110471814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810446197.XA CN110471814B (zh) 2018-05-11 2018-05-11 服务器装置的错误报告功能的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810446197.XA CN110471814B (zh) 2018-05-11 2018-05-11 服务器装置的错误报告功能的控制方法

Publications (2)

Publication Number Publication Date
CN110471814A CN110471814A (zh) 2019-11-19
CN110471814B true CN110471814B (zh) 2023-11-07

Family

ID=68504686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810446197.XA Active CN110471814B (zh) 2018-05-11 2018-05-11 服务器装置的错误报告功能的控制方法

Country Status (1)

Country Link
CN (1) CN110471814B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306732B (zh) * 2020-11-19 2023-02-28 山东云海国创云计算装备产业创新中心有限公司 一种服务器中的自动纠错控制方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077408A (zh) * 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机***、基板管理控制器和***
CN107122321A (zh) * 2016-02-24 2017-09-01 广达电脑股份有限公司 硬件修复方法、硬件修复***以及计算机可读取存储装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739551B2 (en) * 2007-06-20 2010-06-15 Microsoft Corporation Web page error reporting

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122321A (zh) * 2016-02-24 2017-09-01 广达电脑股份有限公司 硬件修复方法、硬件修复***以及计算机可读取存储装置
CN107077408A (zh) * 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机***、基板管理控制器和***

Also Published As

Publication number Publication date
CN110471814A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
TWI685751B (zh) 伺服器裝置的錯誤報告功能的控制方法
US10430260B2 (en) Troubleshooting method, computer system, baseboard management controller, and system
TWI229796B (en) Method and system to implement a system event log for system manageability
CN104636221B (zh) 一种计算机***故障处理方法和装置
CN111488233A (zh) 一种处理PCIe设备掉带宽问题的方法及***
US10896087B2 (en) System for configurable error handling
US20240103961A1 (en) PCIe Fault Auto-Repair Method, Apparatus and Device, and Readable Storage Medium
US20040003317A1 (en) Method and apparatus for implementing fault detection and correction in a computer system that requires high reliability and system manageability
US20030221141A1 (en) Software-based watchdog method and apparatus
CN115981898A (zh) 一种内存可纠错误处理方法、装置、设备及可读存储介质
CN112732477A (zh) 一种带外自检故障隔离的方法
CN117389790B (zh) 可恢复故障的固件检测***、方法、存储介质及服务器
TW202109298A (zh) 能夠有效率地回報除錯資訊給主機的快閃記憶體控制器及方法
CN110704228B (zh) 一种固态硬盘异常处理方法及***
CN110471814B (zh) 服务器装置的错误报告功能的控制方法
US8839268B2 (en) Method and system of preventing silent data corruption
EP2860633A1 (en) Method for maintaining file system of computer system
WO2018103185A1 (zh) 故障处理的方法、计算机***、基板管理控制器和***
CN106406963B (zh) 一种Linux***的初始化方法和装置
CN114003416B (zh) 内存错误动态处理方法、***、终端及存储介质
JP2013109722A (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
US20210334153A1 (en) Remote error detection method adapted for a remote computer device to detect errors that occur in a service computer device
US9176806B2 (en) Computer and memory inspection method
CN107451035B (zh) 用于计算机装置的错误状态数据提供方法
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant