TW201417536A

TW201417536A - 伺服器自動管理方法及系統

Info

Publication number: TW201417536A
Application number: TW101139215A
Authority: TW
Inventors: Yu-Chen Huang
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2014-05-01
Also published as: US20140115386A1

Abstract

一種伺服器自動管理方法及系統，該系統用於：根據作業系統傾印的資料，查詢預先設定的常見當機原因列表，確定造成當機的原因；根據預先設定的系統異常因素對照表，分析硬體的具體異常；修改NVRAM的相關硬體設定值，將發生故障的硬體暫停使用，然後控制作業系統自動重置；從主機板上的FRU晶片中獲取發生故障的硬體的相關資訊；將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。本發明可以自動分析與排除伺服器發生的故障，並將異常情況回傳給遠端的監控電腦。

Description

伺服器自動管理方法及系統

本發明涉及一種伺服器自動管理方法及系統，尤其是涉及一種伺服器故障的自動分析與排除方法及系統。

通常情況下，伺服器放置在有門禁管制的機房，甚至是固定在機架上，移動相當不易，因此管理者一般都是利用遠端監控的機制來對伺服器進行系統管理。然而，當伺服器發生當機時，管理者不易發現伺服器已經失能，無法提供服務。即使發現伺服器當機後，也需要經過機房的門禁，在眾多機架裏找到當機的機器，並現場找出當機的原因再進行故障排除。而且當管理者進入機房之前，並不知道系統是哪方面出了問題，因此他無從準備替換的零元件。如此一來，管理者必須先進入機房找出發生故障的零元件，再去準備替換的零元件，所以恢復系統上線的時間必然相當長久。

鑒於以上內容，有必要提供一種伺服器自動管理方法及系統，可以自動分析與排除伺服器發生的故障，並將異常情況回傳給遠端電腦。

所述伺服器自動管理方法包括：導向步驟：當伺服器發生故障而當機時，將作業系統傾印的資料導向到基板管理控制器中；查詢步驟：根據該傾印出來的資料，查詢預先設定的常見當機原因列表，確定造成當機的原因；分析步驟：當造成當機的原因為硬體原因時，根據預先設定的系統異常因素對照表，分析硬體的具體異常；排除步驟：根據分析出的硬體的具體異常，修改伺服器的非易失性隨機訪問儲存器的相關硬體設定值，將發生故障的硬體暫停使用，然後控制作業系統自動重置；獲取步驟：從伺服器的主機板上的現場可更換單元晶片中獲取發生故障的硬體的相關資訊；及傳送步驟：將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。

所述伺服器自動管理系統包括：導向模組，用於當伺服器發生故障而當機時，將作業系統傾印的資料導向到基板管理控制器中；查詢模組，用於根據該傾印出來的資料，查詢預先設定的常見當機原因列表，確定造成當機的原因；分析模組，用於當造成當機的原因為硬體原因時，根據預先設定的系統異常因素對照表，分析硬體的具體異常；排除模組，用於根據分析出的硬體的具體異常，修改伺服器的非易失性隨機訪問儲存器的相關硬體設定值，將發生故障的硬體暫停使用，然後控制作業系統自動重置；獲取模組，用於從伺服器的主機板上的現場可更換單元晶片中獲取發生故障的硬體的相關資訊；及傳送模組，用於將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦。

相較於習知技術，本發明所述之伺服器自動管理方法及系統，能夠對硬體故障和軟體故障分別進行分析，並採取相應的措施暫停使用故障硬體或禁止異常軟體執行，自動重置作業系統，然後將異常情況回傳給遠端的監控電腦，使得管理者能夠根據異常情況快速作出反應，保障系統及時上線提供服務。

參閱圖1所示，係為本發明伺服器自動管理系統較佳實施方式之運行環境圖。所述伺服器自動管理系統10運行於伺服器1的BMC（Baseboard Management Controller，基板管理控制器）20中。所述伺服器1中還包括作業系統30及儲存器40。所述伺服器1透過網路（例如網際網路或企業內部局域網）與監控電腦2進行遠端通信。所述監控電腦2用於監控所述伺服器1當前的工作狀態（是否發生故障）。所述儲存器40用於儲存預先設定的常見當機原因列表、系統異常因素對照表等。

參閱圖2所示，係為本發明伺服器自動管理系統較佳實施方式之功能模組圖。

所述伺服器自動管理系統10包括導向模組100、查詢模組200、判斷模組300、分析模組400、排除模組500、獲取模組600及傳送模組700。

所述導向模組100用於當伺服器1發生故障而當機時，將作業系統30傾印的資料導向到BMC 20中。當伺服器1當機時，作業系統30會自動將系統記憶體裏的資料傾印出來。此時導向模組100可以透過KCS介面（伺服器1與BMC 20溝通的介面）將該傾印出來的資料導向到BMC 20中。

所述查詢模組200用於根據該傾印出來的資料，查詢預先設定的常見當機原因列表，確定造成當機的原因。所述常見當機原因例如：CPU溫度過高、記憶體channel A無法讀取、過量的記憶體使用等。

所述判斷模組300用於判斷造成當機的原因屬於硬體原因還是軟體原因。在上述舉例中，CPU溫度過高、記憶體channel A無法讀取為硬體原因；過量的記憶體使用為軟體原因。

所述分析模組400用於當造成當機的原因為硬體原因時，根據預先設定的系統異常因素對照表，分析硬體的具體異常。所述系統異常因素對照表例如：若CPU溫度過高，則判定CPU風扇失效，需要更換新風扇，或是將其他備用風扇大幅拉高轉速；若記憶體channel A無法讀取，則判定記憶體毀損，需要暫時停止使用此記憶體。

所述排除模組500用於根據分析出的硬體的具體異常，修改伺服器1的BIOS（Basic Input Output System，基本輸入輸出系統）的NVRAM（Non-Volatile Random Access Memory，非易失性隨機訪問儲存器）的相關硬體設定值，將發生故障的硬體暫停使用，然後控制作業系統30自動重置。因此作業系統30可以立即排除故障並且快速上線提供服務。

例如，管理者加了一塊網卡到伺服器1上，然而伺服器1因為該網卡故障開不了機，所述排除模組500可以透過修改NVRAM中的設定值，告知BIOS該網卡暫時停止使用。BIOS在作業系統30開機時都會參照NVRAM中的設定值去設定系統的相關設置。

所述獲取模組600用於從伺服器1的主機板上的FRU（Field Replace Unit，現場可更換單元）晶片（圖中未示出）中獲取發生故障的硬體的相關資訊。FRU晶片可以記錄硬體的相關資訊，例如CPU的型號、記憶體的容量大小、型號等，所述獲取模組600讀取此FRU晶片就可獲取發生故障的硬體的相關資訊。

所述傳送模組700用於將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦2。如此一來，管理者可以依據傳送模組700回傳的資料知道異常情況以及發生故障的硬體的型號，從而提前準備好替換的硬體，並可在機房中快速找到該故障硬體的位置。

所述分析模組400還用於當造成當機的原因為軟體原因時，透過作業系統30分析軟體的具體異常。軟體原因的分析原理與防毒軟體相似，例如，當造成當機的原因為過量的記憶體使用時，作業系統30上有taskmgr程式可以得知特定軟體進程使用了多少記憶體空間，或是特定的軟體長期佔用CPU。

所述排除模組500還用於控制作業系統30自動重置，並透過預先設計的程式禁止異常軟體的執行，避免當機的情況再次發生。所述預先設計的程式可以結束特定的軟體進程，達到禁止異常軟體的執行的效果，類似用windows任務管理器的功能強制結束進程。

所述傳送模組700還用於將造成當機的原因及軟體的具體異常透過郵件回傳給監控電腦2。

參閱圖3所示，係為本發明伺服器自動管理方法較佳實施方式之流程圖。

步驟S10，當伺服器1發生故障而當機時，所述導向模組100將作業系統30傾印的資料導向到BMC 20中。

步驟S12，所述查詢模組200根據該傾印出來的資料，查詢預先設定的常見當機原因列表，確定造成當機的原因。

步驟S14，所述判斷模組300判斷造成當機的原因屬於硬體原因還是軟體原因。若造成當機的原因為硬體原因，則執行步驟S16-S22。若造成當機的原因為軟體原因，則執行步驟S24-S28。

步驟S16，所述分析模組400根據預先設定的系統異常因素對照表，分析硬體的具體異常。

步驟S18，所述排除模組500根據分析出的硬體的具體異常，修改伺服器1的BIOS的NVRAM的相關硬體設定值，將發生故障的硬體暫停使用，然後控制作業系統30自動重置。

步驟S20，所述獲取模組600從伺服器1的主機板上的FRU晶片中獲取發生故障的硬體的相關資訊。

步驟S22，所述傳送模組700將造成當機的原因、硬體的具體異常及發生故障的硬體的相關資訊透過郵件回傳給監控電腦2。

步驟S24，所述分析模組400透過作業系統30分析軟體的具體異常。

步驟S26，所述排除模組500控制作業系統30自動重置，並透過預先設計的程式禁止異常軟體的執行。

步驟S28，所述傳送模組700將造成當機的原因及軟體的具體異常透過郵件回傳給監控電腦2。

綜上所述，本發明符合發明專利要件，爰依法提出專利申請。惟，以上所述者僅爲本發明之較佳實施方式，本發明之範圍並不以上述實施方式爲限，舉凡熟悉本案技藝之人士援依本發明之精神所作之等效修飾或變化，皆應涵蓋於以下申請專利範圍內。

1．．．伺服器

2．．．監控電腦

10．．．伺服器自動管理系統

20．．．BMC

30．．．作業系統

40．．．儲存器

100．．．導向模組

200．．．查詢模組

300．．．判斷模組

400．．．分析模組

500．．．排除模組

600．．．獲取模組

700．．．傳送模組

圖1係為本發明伺服器自動管理系統較佳實施方式之運行環境圖。

圖2係為本發明伺服器自動管理系統較佳實施方式之功能模組圖。

圖3係為本發明伺服器自動管理方法較佳實施方式之流程圖。