CN102467440A - 内存错误检测***及方法 - Google Patents

内存错误检测***及方法 Download PDF

Info

Publication number
CN102467440A
CN102467440A CN2010105365140A CN201010536514A CN102467440A CN 102467440 A CN102467440 A CN 102467440A CN 2010105365140 A CN2010105365140 A CN 2010105365140A CN 201010536514 A CN201010536514 A CN 201010536514A CN 102467440 A CN102467440 A CN 102467440A
Authority
CN
China
Prior art keywords
internal
error
memory
server
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105365140A
Other languages
English (en)
Inventor
张玉岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2010105365140A priority Critical patent/CN102467440A/zh
Priority to US12/976,967 priority patent/US8661306B2/en
Publication of CN102467440A publication Critical patent/CN102467440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

一种内存错误检测***,运行于服务器所配置的基板管理控制器中,该服务器的处理器通过PCEI总线与该基板管理控制器相连接。当基板管理控制器的微处理器接收到服务器的处理器因发生内部错误而产生的中断信号时,该***读取该处理器的内部状态寄存器中的数据,并根据该读取的数据,判断该内部错误是否为服务器的内存在数据传输时发生的多位错误。当所述内部错误为服务器的内存在数据传输时发生的多位错误时,该***将该内存的错误信息记录在基板管理控制器的存储介质中。本发明还提供一种内存错误检测方法。

Description

内存错误检测***及方法
技术领域
本发明涉及一种内存错误检测***及方法。
背景技术
一般服务器的内存通过北桥连接至处理器,当内存出现错误时,可通过该服务器的基本输入输出***(Basic Input Output System:BIOS)读取北桥状态的方法来检测该内存所出现的错误。然而,一些高阶服务器所使用的处理器集成了北桥的功能,把内存控制与连接的功能从北桥移到了该处理器的内部,在这一类型的服务器中,若出现内存数据传输的多位错误(Multi-Bit Error),处理器就会因为出现内部错误而停止工作,处理器无法工作也会造成BIOS无法工作。因此,通过BIOS来检测内存错误的方法就行不通了,使得服务器的内存所出现的错误不能得到及时的解决。
发明内容
鉴于以上内容,有必要提供一种内存错误检测***,其可有效的检测到服务器中所出现的内存错误。
还有必要提供一种内存错误检测方法,其可有效的检测到服务器中所出现的内存错误。
所述内存错误检测***,运行于服务器所配置的基板管理控制器中,该服务器的处理器通过PCEI总线与该基板管理控制器相连接。该***包括:错误检测模块,用于当基板管理控制器的微处理器接收到服务器的处理器因发生内部错误而产生的中断信号时,读取该处理器的内部状态寄存器中的数据,并根据该读取的数据,判断该内部错误是否为服务器的内存在数据传输时发生的多位错误;错误记录模块,用于当所述内部错误为服务器的内存在数据传输时发生的多位错误时,将该内存的错误信息记录在基板管理控制器的存储介质中。
所述内存错误检测方法,应用于服务器所配置的基板管理控制器中,该服务器的处理器通过PCEI总线与该基板管理控制器相连接。该方法包括步骤:当基板管理控制器的微处理器接收到服务器的处理器因发生内部错误而产生的中断信号时,读取该处理器的内部状态寄存器中的数据,并根据该读取的数据,判断该内部错误是否为服务器的内存在数据传输时发生的多位错误;当所述内部错误为服务器的内存在数据传输时发生的多位错误时,将该内存的错误信息记录在基板管理控制器的存储介质中。
相较于现有技术,所述内存错误检测***及方法,通过服务器中配置的基板管理控制器与该服务器的处理器相配合,可快速的检测到该服务器的内存所出现的错误,并将该内存的错误信息记录在基板管理控制器的存储区介质中。实施本发明有助于使内存所出现的错误得到及时的解决。
附图说明
图1是本发明内存错误检测***的运行环境架构图。
图2是图1中内存错误检测***的功能模块图。
图3是本发明内存错误检测方法较佳实施例的流程图。
主要元件符号说明
  服务器   1
  处理器   10
  内存   11
  基板管理控制器   2
  内存错误检测***   20
  微处理器   21
  存储介质   22
  频率调整模块   201
  错误检测模块   202
  错误记录模块   203
具体实施方式
如图1所示,是本发明内存错误检测***的运行环境架构图。该内存错误检测***20运行于服务器1所配置的基板管理控制器2中。该服务器1包括一个或一个以上的内存11(图1中仅示出一个内存11)。该服务器1的处理器10通过平台环境式控制接口(PlatformEnvironment Control Interface:PECI)总线与基板管理控制器2相连接。所述处理器10通过一个基本输入输出(General Purpose InputOutput:GPIO)接口连接至基板管理控制器2的微处理器21,当该处理器10出现内部错误时,通过该GPIO接口将该处理器10因该内部错误所产生的中断信号发送至微处理器21,以触发所述内存错误检测***20检测该内部错误是否为服务器1的内存11在数据传输时所发生的多位错误(Multi-Bit Error)。所述多位错误是指内存11在数据传输时发生的两位或两位以上的数据错误。其中,所述GPIO接口在图1中未示出。
如图2所示,是图1中内存错误检测***20的功能模块图。该内存错误检测***20包括频率调整模块201、错误检测模块202以及错误记录模块203。该内存错误检测***20以软体程序或指令的形式嵌入于所述基板管理控制器2的韧体中,该韧体安装在该基板管理控制器2的存储介质22中,并由所述微处理器21所执行。所述存储介质22可以是,但不限于,快闪存储器(Flash)、电可擦除可编程只读存储器(EEPROM)或可编程只读存储器(PROM)等非易失性存储器。下面结合图3对以上各功能模块进行详细介绍。
如图3所示,是本发明内存错误检测方法较佳实施例的流程图。
步骤S01,所述频率调整模块201对所述基板管理控制器2的微处理器21的工作频率进行调整,使得该微处理器21的工作频率达到所述PCEI总线工作频率的要求。
步骤S02,当所述微处理器21接收到服务器1的处理器10因发生内部错误而产生的中断信号时,所述错误检测模块202读取所述处理器10的内部状态寄存器中的数据。
步骤S03,所述错误检测模块202根据上述读取数据,判断所述内部错误是否为所述内存11在数据传输时发生的多位错误,若该内部错误为该内存11在数据传输时发生的多位错误,则执行步骤S04,否则,若该内部错误不是该内存11在数据传输时发生的多位错误,则结束流程。
步骤S04,所述错误记录模块203将所述内存11的错误信息记录在所述存储介质22中。该记录的错误信息包括发生错误的内存11的编号、该内存11所发生错误的类型以及该内存11发生错误的时间等信息。
上述所记录的错误信息可供服务器1的基本输入输出***(BasicInput Output System:BIOS)使用,也可提供给用户在处理内存错误时使用。例如,当所述服务器1因发生内存错误而重新启动时,所述BIOS可通过读取存储介质22中保存的错误信息找到出现了错误的内存11,然后该BIOS可通过设置所述处理器10内部的内存控制器访问内存的控制指令,使该处理器10在运行时不再访问该出现错误的内存11,从而使得该服务器1可使用其它的内存进行启动,可避免服务器1因该内存11出现错误而无法启动的现象发生。其次,用户也可使用远端服务器或计算机通过网络读取所述错误信息,进而快速定位到发生错误的内存11,以便对该发生错误的内存11进行更换,使得服务器1能够正常运行。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种内存错误检测***,运行于服务器所配置的基板管理控制器中,该服务器的处理器通过PCEI总线与该基板管理控制器相连接,其特征在于,该***包括:
错误检测模块,用于当基板管理控制器的微处理器接收到服务器的处理器因发生内部错误而产生的中断信号时,读取该处理器的内部状态寄存器中数据,并根据该读取的数据,判断该内部错误是否为服务器的内存在数据传输时发生的多位错误;及
错误记录模块,用于当所述内部错误为服务器的内存在数据传输时发生的多位错误时,将该内存的错误信息记录在基板管理控制器的存储介质中。
2.如权利要求1所述的内存错误检测***,其特征在于,该***还包括:
频率调整模块,用于对基板管理控制器的微处理器的工作频率进行调整,使得该微处理器的工作频率达到所述PCEI总线工作频率的要求。
3.如权利要求1所述的内存错误检测***,其特征在于,所述存储介质为快闪存储器、电可擦除可编程只读存储器或可编程只读存储器。
4.如权利要求1所述的内存错误检测***,其特征在于,所述错误信息包括发生错误的内存的编号、该内存所发生错误的类型以及该内存发生错误的时间。
5.如权利要求1所述的内存错误检测***,其特征在于,所述服务器的处理器通过一个GPIO接口与基板管理控制器的微处理器连接,当该处理器出现内部错误时,通过该GPIO接口将该处理器因该内部错误所产生的中断信号发送至该微处理器。
6.一种内存错误检测方法,应用于服务器所配置的基板管理控制器中,该服务器的处理器通过PCEI总线与该基板管理控制器相连接,其特征在于,该方法包括步骤:
当基板管理控制器的微处理器接收到服务器的处理器因发生内部错误而产生的中断信号时,读取该处理器的内部状态寄存器中数据,并根据该读取的数据,判断该内部错误是否为服务器的内存在数据传输时发生的多位错误;及
当所述内部错误为服务器的内存在数据传输时发生的多位错误时,将该内存的错误信息记录在基板管理控制器的存储介质中。
7.如权利要求6所述的内存错误检测方法,其特征在于,该方法还包括步骤:
对基板管理控制器的微处理器的工作频率进行调整,使得该微处理器的工作频率达到所述PCEI总线工作频率的要求。
8.如权利要求6所述的内存错误检测方法,其特征在于,所述存储介质为快闪存储器、电可擦除可编程只读存储器或可编程只读存储器。
9.如权利要求6所述的内存错误检测方法,其特征在于,所述错误信息包括发生错误的内存的编号、该内存所发生错误的类型以及该内存发生错误的时间。
10.如权利要求6所述的内存错误检测方法,其特征在于,所述服务器的处理器通过一个GPIO接口与基板管理控制器的微处理器连接,当该处理器出现内部错误时,通过该GPIO接口将该处理器因该内部错误所产生的中断信号发送至该微处理器。
CN2010105365140A 2010-11-09 2010-11-09 内存错误检测***及方法 Pending CN102467440A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010105365140A CN102467440A (zh) 2010-11-09 2010-11-09 内存错误检测***及方法
US12/976,967 US8661306B2 (en) 2010-11-09 2010-12-22 Baseboard management controller and memory error detection method of computing device utilized thereby

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105365140A CN102467440A (zh) 2010-11-09 2010-11-09 内存错误检测***及方法

Publications (1)

Publication Number Publication Date
CN102467440A true CN102467440A (zh) 2012-05-23

Family

ID=46020799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105365140A Pending CN102467440A (zh) 2010-11-09 2010-11-09 内存错误检测***及方法

Country Status (2)

Country Link
US (1) US8661306B2 (zh)
CN (1) CN102467440A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092709A (zh) * 2013-01-22 2013-05-08 浪潮电子信息产业股份有限公司 一种内存错误处理方法
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN103530208A (zh) * 2012-07-04 2014-01-22 鸿富锦精密工业(深圳)有限公司 内存条
WO2015196365A1 (zh) * 2014-06-24 2015-12-30 华为技术有限公司 一种故障处理方法、相关装置及计算机
CN105589789A (zh) * 2015-12-25 2016-05-18 浪潮电子信息产业股份有限公司 一种动态调整内存监控阀值的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN106959917A (zh) * 2017-04-14 2017-07-18 广东浪潮大数据研究有限公司 一种服务器故障监控的方法
CN108491297A (zh) * 2018-03-12 2018-09-04 郑州云海信息技术有限公司 一种服务器监控信息获取方法、装置、设备及存储介质
CN111949430A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 基于gpnv的基本输入输出***错误信息记录方法、***及终端
CN112667483A (zh) * 2021-01-04 2021-04-16 上海兆芯集成电路有限公司 用于服务器主板的内存信息读取装置、方法及服务器
CN113064746A (zh) * 2021-03-12 2021-07-02 山东英信计算机技术有限公司 一种处理内存可恢复错误的***、方法及介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201405303A (zh) * 2012-07-30 2014-02-01 Hon Hai Prec Ind Co Ltd 底板管理控制器監控系統及方法
TW201417536A (zh) * 2012-10-24 2014-05-01 Hon Hai Prec Ind Co Ltd 伺服器自動管理方法及系統
CN104424041A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理***和方法
CN104021050B (zh) * 2014-05-07 2017-02-15 英业达科技有限公司 服务器
US9712382B2 (en) 2014-10-27 2017-07-18 Quanta Computer Inc. Retrieving console messages after device failure
US11086812B2 (en) 2015-12-26 2021-08-10 Intel Corporation Platform environment control interface tunneling via enhanced serial peripheral interface
WO2017127057A1 (en) * 2016-01-19 2017-07-27 Hewlett Packard Enterprise Development Lp Computer system managements
TWI587128B (zh) * 2016-05-11 2017-06-11 神雲科技股份有限公司 用於電腦裝置的錯誤狀態資料自動提供方法
US10152393B2 (en) 2016-08-28 2018-12-11 Microsoft Technology Licensing, Llc Out-of-band data recovery in computing systems
US10846162B2 (en) 2018-11-29 2020-11-24 Oracle International Corporation Secure forking of error telemetry data to independent processing units

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996688A (en) * 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
WO1999005599A1 (en) * 1997-07-28 1999-02-04 Intergraph Corporation Apparatus and method for memory error detection and error reporting
US20050144526A1 (en) * 2003-12-10 2005-06-30 Banko Stephen J. Adaptive log file scanning utility
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267483A1 (en) * 2003-06-26 2004-12-30 Percer Benjamin Thomas Methods and systems for masking faults in a margin testing environment
US7437258B2 (en) * 2003-06-26 2008-10-14 Hewlett-Packard Development Company, L.P. Use of I2C programmable clock generator to enable frequency variation under BMC control
JP2006178557A (ja) * 2004-12-21 2006-07-06 Nec Corp コンピュータシステム及びエラー処理方法
WO2008070813A2 (en) * 2006-12-06 2008-06-12 Fusion Multisystems, Inc. (Dba Fusion-Io) Apparatus, system, and method for a front-end, distributed raid
US7783877B2 (en) * 2007-05-15 2010-08-24 Inventec Corporation Boot-switching apparatus and method for multiprocessor and multi-memory system
CN102331959A (zh) * 2010-07-12 2012-01-25 鸿富锦精密工业(深圳)有限公司 伺服器***
CN102567177B (zh) * 2010-12-25 2014-12-10 鸿富锦精密工业(深圳)有限公司 计算机***错误侦测***及方法
US8892800B2 (en) * 2012-02-09 2014-11-18 Intel Corporation Apparatuses for inter-component communication including slave component initiated transaction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4996688A (en) * 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
WO1999005599A1 (en) * 1997-07-28 1999-02-04 Intergraph Corporation Apparatus and method for memory error detection and error reporting
US20050144526A1 (en) * 2003-12-10 2005-06-30 Banko Stephen J. Adaptive log file scanning utility
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN103530208A (zh) * 2012-07-04 2014-01-22 鸿富锦精密工业(深圳)有限公司 内存条
CN103092709A (zh) * 2013-01-22 2013-05-08 浪潮电子信息产业股份有限公司 一种内存错误处理方法
US10353763B2 (en) 2014-06-24 2019-07-16 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer
WO2015196365A1 (zh) * 2014-06-24 2015-12-30 华为技术有限公司 一种故障处理方法、相关装置及计算机
CN105659215A (zh) * 2014-06-24 2016-06-08 华为技术有限公司 一种故障处理方法、相关装置及计算机
US11360842B2 (en) 2014-06-24 2022-06-14 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer
EP3355197A1 (en) * 2014-06-24 2018-08-01 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer
CN105589789A (zh) * 2015-12-25 2016-05-18 浪潮电子信息产业股份有限公司 一种动态调整内存监控阀值的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN106959917A (zh) * 2017-04-14 2017-07-18 广东浪潮大数据研究有限公司 一种服务器故障监控的方法
CN108491297A (zh) * 2018-03-12 2018-09-04 郑州云海信息技术有限公司 一种服务器监控信息获取方法、装置、设备及存储介质
CN111949430A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 基于gpnv的基本输入输出***错误信息记录方法、***及终端
CN112667483A (zh) * 2021-01-04 2021-04-16 上海兆芯集成电路有限公司 用于服务器主板的内存信息读取装置、方法及服务器
CN113064746A (zh) * 2021-03-12 2021-07-02 山东英信计算机技术有限公司 一种处理内存可恢复错误的***、方法及介质

Also Published As

Publication number Publication date
US8661306B2 (en) 2014-02-25
US20120117429A1 (en) 2012-05-10

Similar Documents

Publication Publication Date Title
CN102467440A (zh) 内存错误检测***及方法
US8671330B2 (en) Storage device, electronic device, and data error correction method
US11977744B2 (en) Memory anomaly processing method and system, electronic device, and storage medium
CN102541676B (zh) 一种nand flash的状态检测及映射方法
US8812910B2 (en) Pilot process method for system boot and associated apparatus
US9519436B1 (en) Memory erasing method, memory controller, and memory storage apparatus
CN107315616B (zh) 一种固件的加载方法、装置及电子设备
CN102968353B (zh) 一种失效地址处理方法及装置
CN101681281A (zh) 检测出现的坏块
CN104424044A (zh) 伺服器***
CN102385533A (zh) 计算机及其内存运行错误时的重启方法
US9552287B2 (en) Data management method, memory controller and embedded memory storage apparatus using the same
US20120271983A1 (en) Computing device and data synchronization method
US8788800B2 (en) OS processing method, system and non-transitory computer readable storage medium thereof
CN103984506A (zh) 闪存存储设备数据写的方法和***
CN107943605B (zh) 一种存储卡处理方法及装置
JP2010067098A (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN101923500A (zh) 一种嵌入式设备中引导程序备份及更新的方法及装置
CN106775847B (zh) 一种板卡软件版本更新方法及装置
CN103488430A (zh) ***事件读取方法及***
CN102750234B (zh) 存储器的控制方法及控制器
US9128898B2 (en) Server and method for managing redundant array of independent disk cards
EP3557422A1 (en) Method for accessing code sram, and electronic device
CN105512571A (zh) 内建掩模型rom的闪存器防写保护装置及方法
CN110647455A (zh) 一种存储设备重启记录方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20161130

C20 Patent right or utility model deemed to be abandoned or is abandoned