TW201417536A - 伺服器自動管理方法及系統 - Google Patents

伺服器自動管理方法及系統 Download PDF

Info

Publication number
TW201417536A
TW201417536A TW101139215A TW101139215A TW201417536A TW 201417536 A TW201417536 A TW 201417536A TW 101139215 A TW101139215 A TW 101139215A TW 101139215 A TW101139215 A TW 101139215A TW 201417536 A TW201417536 A TW 201417536A
Authority
TW
Taiwan
Prior art keywords
hardware
cause
server
crash
module
Prior art date
Application number
TW101139215A
Other languages
English (en)
Inventor
Yu-Chen Huang
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW101139215A priority Critical patent/TW201417536A/zh
Priority to US13/859,578 priority patent/US20140115386A1/en
Publication of TW201417536A publication Critical patent/TW201417536A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種伺服器自動管理方法及系統,該系統用於:根據作業系統傾印的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因;根據預先設定的系統異常因素對照表,分析硬體的具體異常;修改NVRAM的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統自動重置;從主機板上的FRU晶片中獲取發生故障的硬體的相關資訊;將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。本發明可以自動分析與排除伺服器發生的故障,並將異常情況回傳給遠端的監控電腦。

Description

伺服器自動管理方法及系統
本發明涉及一種伺服器自動管理方法及系統,尤其是涉及一種伺服器故障的自動分析與排除方法及系統。
通常情況下,伺服器放置在有門禁管制的機房,甚至是固定在機架上,移動相當不易,因此管理者一般都是利用遠端監控的機制來對伺服器進行系統管理。然而,當伺服器發生當機時,管理者不易發現伺服器已經失能,無法提供服務。即使發現伺服器當機後,也需要經過機房的門禁,在眾多機架裏找到當機的機器,並現場找出當機的原因再進行故障排除。而且當管理者進入機房之前,並不知道系統是哪方面出了問題,因此他無從準備替換的零元件。如此一來,管理者必須先進入機房找出發生故障的零元件,再去準備替換的零元件,所以恢復系統上線的時間必然相當長久。
鑒於以上內容,有必要提供一種伺服器自動管理方法及系統,可以自動分析與排除伺服器發生的故障,並將異常情況回傳給遠端電腦。
所述伺服器自動管理方法包括:導向步驟:當伺服器發生故障而當機時,將作業系統傾印的資料導向到基板管理控制器中;查詢步驟:根據該傾印出來的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因;分析步驟:當造成當機的原因為硬體原因時,根據預先設定的系統異常因素對照表,分析硬體的具體異常;排除步驟:根據分析出的硬體的具體異常,修改伺服器的非易失性隨機訪問儲存器的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統自動重置;獲取步驟:從伺服器的主機板上的現場可更換單元晶片中獲取發生故障的硬體的相關資訊;及傳送步驟:將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。
所述伺服器自動管理系統包括:導向模組,用於當伺服器發生故障而當機時,將作業系統傾印的資料導向到基板管理控制器中;查詢模組,用於根據該傾印出來的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因;分析模組,用於當造成當機的原因為硬體原因時,根據預先設定的系統異常因素對照表,分析硬體的具體異常;排除模組,用於根據分析出的硬體的具體異常,修改伺服器的非易失性隨機訪問儲存器的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統自動重置;獲取模組,用於從伺服器的主機板上的現場可更換單元晶片中獲取發生故障的硬體的相關資訊;及傳送模組,用於將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。
相較於習知技術,本發明所述之伺服器自動管理方法及系統,能夠對硬體故障和軟體故障分別進行分析,並採取相應的措施暫停使用故障硬體或禁止異常軟體執行,自動重置作業系統,然後將異常情況回傳給遠端的監控電腦,使得管理者能夠根據異常情況快速作出反應,保障系統及時上線提供服務。
參閱圖1所示,係為本發明伺服器自動管理系統較佳實施方式之運行環境圖。所述伺服器自動管理系統10運行於伺服器1的BMC(Baseboard Management Controller,基板管理控制器)20中。所述伺服器1中還包括作業系統30及儲存器40。所述伺服器1透過網路(例如網際網路或企業內部局域網)與監控電腦2進行遠端通信。所述監控電腦2用於監控所述伺服器1當前的工作狀態(是否發生故障)。所述儲存器40用於儲存預先設定的常見當機原因列表、系統異常因素對照表等。
參閱圖2所示,係為本發明伺服器自動管理系統較佳實施方式之功能模組圖。
所述伺服器自動管理系統10包括導向模組100、查詢模組200、判斷模組300、分析模組400、排除模組500、獲取模組600及傳送模組700。
所述導向模組100用於當伺服器1發生故障而當機時,將作業系統30傾印的資料導向到BMC 20中。當伺服器1當機時,作業系統30會自動將系統記憶體裏的資料傾印出來。此時導向模組100可以透過KCS介面(伺服器1與BMC 20溝通的介面)將該傾印出來的資料導向到BMC 20中。
所述查詢模組200用於根據該傾印出來的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因。所述常見當機原因例如:CPU溫度過高、記憶體channel A無法讀取、過量的記憶體使用等。
所述判斷模組300用於判斷造成當機的原因屬於硬體原因還是軟體原因。在上述舉例中,CPU溫度過高、記憶體channel A無法讀取為硬體原因;過量的記憶體使用為軟體原因。
所述分析模組400用於當造成當機的原因為硬體原因時,根據預先設定的系統異常因素對照表,分析硬體的具體異常。所述系統異常因素對照表例如:若CPU溫度過高,則判定CPU風扇失效,需要更換新風扇,或是將其他備用風扇大幅拉高轉速;若記憶體channel A無法讀取,則判定記憶體毀損,需要暫時停止使用此記憶體。
所述排除模組500用於根據分析出的硬體的具體異常,修改伺服器1的BIOS(Basic Input Output System,基本輸入輸出系統)的NVRAM(Non-Volatile Random Access Memory,非易失性隨機訪問儲存器)的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統30自動重置。因此作業系統30可以立即排除故障並且快速上線提供服務。
例如,管理者加了一塊網卡到伺服器1上,然而伺服器1因為該網卡故障開不了機,所述排除模組500可以透過修改NVRAM中的設定值,告知BIOS該網卡暫時停止使用。BIOS在作業系統30開機時都會參照NVRAM中的設定值去設定系統的相關設置。
所述獲取模組600用於從伺服器1的主機板上的FRU(Field Replace Unit,現場可更換單元)晶片(圖中未示出)中獲取發生故障的硬體的相關資訊。FRU晶片可以記錄硬體的相關資訊,例如CPU的型號、記憶體的容量大小、型號等,所述獲取模組600讀取此FRU晶片就可獲取發生故障的硬體的相關資訊。
所述傳送模組700用於將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦2。如此一來,管理者可以依據傳送模組700回傳的資料知道異常情況以及發生故障的硬體的型號,從而提前準備好替換的硬體,並可在機房中快速找到該故障硬體的位置。
所述分析模組400還用於當造成當機的原因為軟體原因時,透過作業系統30分析軟體的具體異常。軟體原因的分析原理與防毒軟體相似,例如,當造成當機的原因為過量的記憶體使用時,作業系統30上有taskmgr程式可以得知特定軟體進程使用了多少記憶體空間,或是特定的軟體長期佔用CPU。
所述排除模組500還用於控制作業系統30自動重置,並透過預先設計的程式禁止異常軟體的執行,避免當機的情況再次發生。所述預先設計的程式可以結束特定的軟體進程,達到禁止異常軟體的執行的效果,類似用windows任務管理器的功能強制結束進程。
所述傳送模組700還用於將造成當機的原因及軟體的具體異常透過郵件回傳給監控電腦2。
參閱圖3所示,係為本發明伺服器自動管理方法較佳實施方式之流程圖。
步驟S10,當伺服器1發生故障而當機時,所述導向模組100將作業系統30傾印的資料導向到BMC 20中。
步驟S12,所述查詢模組200根據該傾印出來的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因。
步驟S14,所述判斷模組300判斷造成當機的原因屬於硬體原因還是軟體原因。若造成當機的原因為硬體原因,則執行步驟S16-S22。若造成當機的原因為軟體原因,則執行步驟S24-S28。
步驟S16,所述分析模組400根據預先設定的系統異常因素對照表,分析硬體的具體異常。
步驟S18,所述排除模組500根據分析出的硬體的具體異常,修改伺服器1的BIOS的NVRAM的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統30自動重置。
步驟S20,所述獲取模組600從伺服器1的主機板上的FRU晶片中獲取發生故障的硬體的相關資訊。
步驟S22,所述傳送模組700將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦2。
步驟S24,所述分析模組400透過作業系統30分析軟體的具體異常。
步驟S26,所述排除模組500控制作業系統30自動重置,並透過預先設計的程式禁止異常軟體的執行。
步驟S28,所述傳送模組700將造成當機的原因及軟體的具體異常透過郵件回傳給監控電腦2。
綜上所述,本發明符合發明專利要件,爰依法提出專利申請。惟,以上所述者僅爲本發明之較佳實施方式,本發明之範圍並不以上述實施方式爲限,舉凡熟悉本案技藝之人士援依本發明之精神所作之等效修飾或變化,皆應涵蓋於以下申請專利範圍內。
1...伺服器
2...監控電腦
10...伺服器自動管理系統
20...BMC
30...作業系統
40...儲存器
100...導向模組
200...查詢模組
300...判斷模組
400...分析模組
500...排除模組
600...獲取模組
700...傳送模組
圖1係為本發明伺服器自動管理系統較佳實施方式之運行環境圖。
圖2係為本發明伺服器自動管理系統較佳實施方式之功能模組圖。
圖3係為本發明伺服器自動管理方法較佳實施方式之流程圖。
10...伺服器自動管理系統
100...導向模組
200...查詢模組
300...判斷模組
400...分析模組
500...排除模組
600...獲取模組
700...傳送模組

Claims (4)

  1. 一種伺服器自動管理方法,該方法包括:
    導向步驟:當伺服器發生故障而當機時,將作業系統傾印的資料導向到基板管理控制器中;
    查詢步驟:根據該傾印出來的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因;
    分析步驟:當造成當機的原因為硬體原因時,根據預先設定的系統異常因素對照表,分析硬體的具體異常;
    排除步驟:根據分析出的硬體的具體異常,修改伺服器的非易失性隨機訪問儲存器的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統自動重置;
    獲取步驟:從伺服器的主機板上的現場可更換單元晶片中獲取發生故障的硬體的相關資訊;及
    傳送步驟:將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。
  2. 如申請專利範圍第1項所述之伺服器自動管理方法,其中,該方法在所述查詢步驟之後還包括步驟:
    當造成當機的原因為軟體原因時,透過作業系統分析軟體的具體異常;
    控制作業系統自動重置,並透過預先設計的程式禁止異常軟體的執行;及
    將造成當機的原因及軟體的具體異常透過郵件回傳給監控電腦。
  3. 一種伺服器自動管理系統,該系統包括:
    導向模組,用於當伺服器發生故障而當機時,將作業系統傾印的資料導向到基板管理控制器中;
    查詢模組,用於根據該傾印出來的資料,查詢預先設定的常見當機原因列表,確定造成當機的原因;
    分析模組,用於當造成當機的原因為硬體原因時,根據預先設定的系統異常因素對照表,分析硬體的具體異常;
    排除模組,用於根據分析出的硬體的具體異常,修改伺服器的非易失性隨機訪問儲存器的相關硬體設定值,將發生故障的硬體暫停使用,然後控制作業系統自動重置;
    獲取模組,用於從伺服器的主機板上的現場可更換單元晶片中獲取發生故障的硬體的相關資訊;及
    傳送模組,用於將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。
  4. 如申請專利範圍第3項所述之伺服器自動管理系統,其中,
    所述分析模組還用於當造成當機的原因為軟體原因時,透過作業系統分析軟體的具體異常;
    所述排除模組還用於控制作業系統自動重置,並透過預先設計的程式禁止異常軟體的執行;
    所述傳送模組還用於將造成當機的原因及軟體的具體異常透過郵件回傳給監控電腦。
TW101139215A 2012-10-24 2012-10-24 伺服器自動管理方法及系統 TW201417536A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101139215A TW201417536A (zh) 2012-10-24 2012-10-24 伺服器自動管理方法及系統
US13/859,578 US20140115386A1 (en) 2012-10-24 2013-04-09 Server and method for managing server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101139215A TW201417536A (zh) 2012-10-24 2012-10-24 伺服器自動管理方法及系統

Publications (1)

Publication Number Publication Date
TW201417536A true TW201417536A (zh) 2014-05-01

Family

ID=50486483

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101139215A TW201417536A (zh) 2012-10-24 2012-10-24 伺服器自動管理方法及系統

Country Status (2)

Country Link
US (1) US20140115386A1 (zh)
TW (1) TW201417536A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI611289B (zh) * 2015-10-23 2018-01-11 神雲科技股份有限公司 伺服器及其偵錯方法
TWI635401B (zh) * 2017-09-11 2018-09-11 技嘉科技股份有限公司 Arm架構伺服器及其管理方法
TWI680369B (zh) * 2018-08-13 2019-12-21 廣達電腦股份有限公司 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102210770B1 (ko) * 2014-09-02 2021-02-02 삼성전자주식회사 반도체 장치, 반도체 시스템 및 그 제어 방법
CN106681849B (zh) 2015-11-10 2020-11-24 创新先进技术有限公司 数据处理方法及装置
TWI579691B (zh) * 2015-11-26 2017-04-21 Chunghwa Telecom Co Ltd Method and System of IDC Computer Room Entity and Virtual Host Integration Management
TWI587128B (zh) * 2016-05-11 2017-06-11 神雲科技股份有限公司 用於電腦裝置的錯誤狀態資料自動提供方法
CN110457548A (zh) * 2019-07-24 2019-11-15 深圳壹账通智能科技有限公司 基于经验库的异常前端操作提醒的方法及相关设备
US11243859B2 (en) * 2019-10-09 2022-02-08 Microsoft Technology Licensing, Llc Baseboard management controller that initiates a diagnostic operation to collect host information
CN114816022B (zh) * 2022-04-28 2023-08-04 苏州浪潮智能科技有限公司 一种服务器电源异常监控方法、***及存储介质
CN115048244B (zh) * 2022-06-10 2024-06-07 苏州浪潮智能科技有限公司 一种服务器的硬件修复方法、***、计算机设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US20100306357A1 (en) * 2009-05-27 2010-12-02 Aten International Co., Ltd. Server, computer system, and method for monitoring computer system
CN102331959A (zh) * 2010-07-12 2012-01-25 鸿富锦精密工业(深圳)有限公司 伺服器***
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测***及方法
TWI446161B (zh) * 2010-12-30 2014-07-21 Ibm 處理一多處理器資訊處理系統之一故障處理器的裝置及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI611289B (zh) * 2015-10-23 2018-01-11 神雲科技股份有限公司 伺服器及其偵錯方法
TWI635401B (zh) * 2017-09-11 2018-09-11 技嘉科技股份有限公司 Arm架構伺服器及其管理方法
TWI680369B (zh) * 2018-08-13 2019-12-21 廣達電腦股份有限公司 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US10761926B2 (en) 2018-08-13 2020-09-01 Quanta Computer Inc. Server hardware fault analysis and recovery

Also Published As

Publication number Publication date
US20140115386A1 (en) 2014-04-24

Similar Documents

Publication Publication Date Title
TW201417536A (zh) 伺服器自動管理方法及系統
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
US9513998B2 (en) Management of microcode errors in a storage operation
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
US9021317B2 (en) Reporting and processing computer operation failure alerts
US20100228960A1 (en) Virtual memory over baseboard management controller
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US20120166605A1 (en) Remote Management Systems and Methods for Servers
US9588542B2 (en) Rack server system and method for automatically managing rack configuration information
TWI261748B (en) Policy-based response to system errors occurring during OS runtime
US20150370619A1 (en) Management system for managing computer system and management method thereof
TW201506613A (zh) 固件檢測系統及方法
US11281550B2 (en) Disaster recovery specific configurations, management, and application
JP2004088570A (ja) ネットワーク計算機システムおよび管理装置
TW201516672A (zh) 伺服器監控系統及方法
TWI518680B (zh) 維護電腦系統之檔案系統的方法
TW201516665A (zh) 伺服器之系統錯誤資訊偵測系統及方法
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
CN107046479B (zh) 一种网络设备的验证状态的方法及装置
US20210334153A1 (en) Remote error detection method adapted for a remote computer device to detect errors that occur in a service computer device
TWI494754B (zh) 伺服器監控裝置和其操作方法
CN114138574A (zh) 控制器测试方法、装置、服务器和存储介质