TWI632453B - 監測伺服器的方法、監測裝置及監測系統 - Google Patents

監測伺服器的方法、監測裝置及監測系統 Download PDF

Info

Publication number
TWI632453B
TWI632453B TW104132648A TW104132648A TWI632453B TW I632453 B TWI632453 B TW I632453B TW 104132648 A TW104132648 A TW 104132648A TW 104132648 A TW104132648 A TW 104132648A TW I632453 B TWI632453 B TW I632453B
Authority
TW
Taiwan
Prior art keywords
system information
server
storage unit
recording mode
management controller
Prior art date
Application number
TW104132648A
Other languages
English (en)
Other versions
TW201714085A (zh
Inventor
葉俊傑
吳明昇
Original Assignee
緯穎科技服務股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯穎科技服務股份有限公司 filed Critical 緯穎科技服務股份有限公司
Priority to TW104132648A priority Critical patent/TWI632453B/zh
Priority to CN201510701460.1A priority patent/CN106561018B/zh
Priority to US15/013,977 priority patent/US10698788B2/en
Publication of TW201714085A publication Critical patent/TW201714085A/zh
Application granted granted Critical
Publication of TWI632453B publication Critical patent/TWI632453B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種監測伺服器的方法、監測裝置及監測系統。所述方法包括:設定欲從伺服器監測的系統事件;設定用於記錄伺服器的系統資訊的觸發記錄模式及預定記錄數量;依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊至儲存單元;以及顯示儲存於儲存單元的系統資訊於使用者介面。

Description

監測伺服器的方法、監測裝置及監測系統
本發明是有關於一種監測伺服器的方法、監測裝置及監測系統。
智慧平台管理介面(Intelligent Platform Management Interface,IPMI)是一種英特爾(Intel)建構的用於企業系統週邊設備的工業標準。此外,IPMI亦是一個開放的免費標準,使用者無需支付額外的費用即可使用此標準。IPMI能夠橫跨不同的作業系統、韌體和硬體平台,且可以智慧地監視、控制和自動回報大量伺服器的運作狀況,以降低伺服器系統成本。
一般而言,基板管理控制器(Baseboard Management Controller,BMC)用於管理伺服器的標準就是IPMI。然而,當BMC使用IPMI管理伺服器時却有一個常見但未定義於IPMI中的問題。此問題即是雖然BMC本身可以監視伺服器中硬體的狀況,也可以設定門限值並和系統事件日誌(System Event Log,SEL)或平台事件過濾器(Platform Event Filter,PEF)結合而通知遠方電腦異常狀況發生,但是却缺少一個類似示波器的功能。亦即,一旦有某個異常訊號或狀態發生時,由於目前的BMC未在伺服器運作時如示波器一般持續地將整個系統的狀況持續記錄下來,因此當日後伺服器發生問題時,並無法回溯問題發生時系統當時的狀況。換言之,目前的作法只能得知伺服器在運作時所發生的問題,但卻因未記錄發生問題之前的系統狀態而無法得知是什麼因素導致問題的發生。若能解決此問題的話,將可提升管理人員在除錯上的便利性。
有鑑於此,本發明提供一種監測伺服器的方法、監測裝置以及監測系統,其可擷取伺服器發生問題之前及/或之後時的系統狀況,用以讓管理人員便於回溯問題發生時系統當時的狀況。
本發明提供一種監測伺服器的方法,包括:設定欲從伺服器監測的系統事件;設定用於記錄伺服器的系統資訊的觸發記錄模式及預定記錄數量;依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊至儲存單元;以及顯示儲存於儲存單元的系統資訊於使用者介面。
在本發明之一實施例中,觸發記錄模式包括觸發前記錄模式,且依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊至儲存單元的步驟包括:在伺服器運行時,持續擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元;等待系統事件發生;以及當系統事件發生時,停止擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元,並從暫存單元擷取系統事件發生之前的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
在本發明之一實施例中,觸發記錄模式包括觸發後記錄模式,且依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊至儲存單元的步驟包括:在伺服器運行時,等待系統事件發生;以及當系統事件發生時,從基板管理控制器擷取系統事件發生之後的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
在本發明之一實施例中,觸發記錄模式包括中途記錄模式,預定記錄數量包括第一預定記錄數量及第二預定記錄數量。並且,依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊至儲存單元的步驟包括:在伺服器運行時,持續擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元;等待系統事件發生;當系統事件發生時,持續擷取來自於基板管理控制器的第二預定記錄數量個系統資訊及其時間戳記至暫存單元;以及從暫存單元擷取系統事件發生之前的第一特定系統資訊以及系統事件發生之後的第二特定系統資訊,其中第一特定系統資訊的數量為第一預定記錄數量,且第二特定系統資訊的數量為第二預定記錄數量。
在本發明之一實施例中,系統資訊包括基本輸入輸出系統(Basic Input/Output System,BIOS)的開機自我測試(Power-On Self Test,POST)碼、中央處理單元(Central Processing Unit,CPU)的特定模組暫存器(model-specific register,MSR)、串列埠轉區域網路(Serial Over LAN,SOL;LAN = Local Area Network)、基本輸入輸出系統的除錯終端機(debug console)、伺服器的一般用途輸入/輸出(General Purpose Input/Output,GPIO)狀態、基板管理控制器的感測器、在網際網路協定上的鍵盤/視訊/滑鼠(keyboard/video/mouse over Internet protocol,iKVM)畫面以及風扇轉速的至少其中之一。
本發明提供一種監測裝置,包括儲存單元及處理單元。儲存單元儲存多個模組。處理單元耦接儲存單元,存取並執行所述多個模組。所述多個模組包括系統設定模組、系統資訊擷取模組以及顯示模組。系統設定模組設定欲從伺服器監測的系統事件,以及設定用於記錄伺服器的系統資訊的觸發記錄模式及預定記錄數量。系統資訊擷取模組依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊。顯示模組顯示系統資訊於使用者介面。
在本發明之一實施例中,觸發記錄模式包括觸發前記錄模式,且系統資訊擷取模組經配置以:在伺服器運行時,持續擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元;等待系統事件發生;以及當系統事件發生時,停止擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元,並從暫存單元擷取系統事件發生之前的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
在本發明之一實施例中,觸發記錄模式包括觸發後記錄模式,且系統資訊擷取模組經配置以:在伺服器運行時,等待系統事件發生;以及當系統事件發生時,從基板管理控制器擷取系統事件發生之後的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
在本發明之一實施例中,觸發記錄模式包括中途記錄模式,預定記錄數量包括第一預定記錄數量及第二預定記錄數量,且系統資訊擷取模組經配置以:在伺服器運行時持續擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元;等待系統事件發生;當系統事件發生時,持續擷取來自於基板管理控制器的第二預定記錄數量個系統資訊及其時間戳記至暫存單元;以及從暫存單元擷取系統事件發生之前的第一特定系統資訊以及系統事件發生之後的第二特定系統資訊,其中第一特定系統資訊的數量為第一預定記錄數量,且第二特定系統資訊的數量為第二預定記錄數量。
一種監測系統,包括決定裝置、擷取裝置及顯示裝置。決定裝置設定欲從伺服器監測的系統事件,以及設定用於記錄伺服器的系統資訊的觸發記錄模式及預定記錄數量。擷取裝置耦接決定裝置,依據觸發記錄模式以及預定記錄數量從管理伺服器的基板管理控制器擷取關聯於系統事件的系統資訊至儲存單元。顯示裝置顯示儲存於儲存單元的系統資訊於使用者介面。
在本發明之一實施例中,觸發記錄模式包括觸發前記錄模式,且擷取裝置經配置以:在伺服器運行時,持續擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元;等待系統事件發生;以及當系統事件發生時,停止擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元,並從暫存單元擷取系統事件發生之前的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
在本發明之一實施例中,觸發記錄模式包括觸發後記錄模式,且擷取裝置經配置以:在伺服器運行時,等待系統事件發生;以及當系統事件發生時,從基板管理控制器擷取系統事件發生之後的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
在本發明之一實施例中,觸發記錄模式包括中途記錄模式,預定記錄數量包括第一預定記錄數量及第二預定記錄數量,且擷取裝置經配置以:在伺服器運行時持續擷取來自於基板管理控制器的系統資訊及其時間戳記至暫存單元;等待系統事件發生;當系統事件發生時,持續擷取來自於基板管理控制器的第二預定記錄數量個系統資訊及其時間戳記至暫存單元;以及從暫存單元擷取系統事件發生之前的第一特定系統資訊以及系統事件發生之後的第二特定系統資訊,其中第一特定系統資訊的數量為第一預定記錄數量,且第二特定系統資訊的數量為第二預定記錄數量。
基於上述,本發明實施例提出的監測伺服器的方法、監測裝置以及監測系統可依據所使用的觸發記錄模式來擷取某個系統事件發生之前及/或之後的預定數量個系統資訊。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明之一實施例繪示的監測裝置示意圖。在本實施例中,監測裝置100包括儲存單元110、處理單元120及使用者介面130。儲存單元110例如是記憶體、硬碟或是其他任何可用於儲存資料的元件,而可用以記錄多個程式碼或模組。處理單元120耦接儲存單元110,而可以是一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器(microprocessor)、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路(Application Specific Integrated Circuit,ASIC)、場可程式閘陣列電路(Field Programmable Gate Array,FPGA)、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器(Advanced RISC Machine,ARM)的處理器以及類似品。使用者介面130耦接處理單元120,而可以是液晶顯示器(Liquid-Crystal Display,LCD)、電漿顯示器、真空螢光顯示器、發光二極體(Light-Emitting Diode,LED)顯示器、場發射顯示器(Field Emission Display,FED)及/或其他合適種類的顯示器。
在本實施例中,監測裝置100例如可透過匯流排及各種有線或無線的連接方式連接至用於管理伺服器300的BMC 200。並且,監測裝置100可從BMC 200擷取關聯於發生在伺服器300上的系統事件的系統資訊。如此一來,管理人員即可基於這些系統資訊來進行除錯的工作。以下將進行詳細的說明。
在一實施例中,處理單元120可存取並執行儲存單元110中的系統設定模組110_1、系統資訊擷取模組110_2以及顯示模組110_3以執行本發明提出的監測伺服器的方法。
圖2是依據本發明之一實施例繪示的監測伺服器的方法流程圖。本實施例的方法可由圖1的監測裝置100執行,以下即搭配圖1的元件來說明本方法的詳細步驟。
在步驟S210中,系統設定模組110_1可設定欲從伺服器300監測的系統事件。所述系統事件例如是可導致伺服器300關機、失效或故障的事件,或是管理人員欲監測的其他定義於IPMI標準中的事件。舉例而言,系統事件可以是某個GPIO的狀態(例如,處於低準位或下降邊緣的平台重置腳位(platform reset pin))、BMC除錯控制台的某個字串(例如,「error」)或是特定的某個SEL記錄(例如,「FRB2 watch dog timeout」)等,但本發明的可實施方式不限於此。
接著,在步驟S220中,系統設定模組110_1可設定用於記錄伺服器300的系統資訊的觸發記錄模式及預定記錄數量。在一實施例中,伺服器300的系統資訊例如是定義於IPMI標準中的系統資訊,其可包括BIOS的POST碼、CPU的MSR、SOL、BIOS的除錯終端機、伺服器300的GPIO狀態、BMC 200的感測器、iKVM畫面以及風扇轉速的至少其中之一,但本發明的可實施方式不限於此。在不同的實施例中,所述觸發記錄模式例如包括觸發前(pre)記錄模式、中途(middle)記錄模式及觸發後(post)記錄模式,而預定記錄數量代表所需的系統資訊數量。概略而言,所述三種觸發記錄模式分別用於記錄系統事件發生之前及/或系統事件發生之後的預定記錄數量個系統資訊。舉例而言,假設系統設定模組110_1設定的系統資訊、觸發記錄模式及預定記錄數量分別為BIOS的POST碼、觸發前記錄模式及10,則最後被擷取用於提供管理人員的資訊即是系統事件發生之前的10筆BIOS的POST碼。舉另一例而言,假設系統設定模組110_1設定的系統資訊、觸發記錄模式及預定記錄數量分別為SOL、觸發後記錄模式及20,則最後被擷取用於提供管理人員的資訊即是系統事件發生之後的20筆SOL。
在步驟S220之後,系統資訊擷取模組110_2可在步驟S230依據觸發記錄模式以及預定記錄數量從管理伺服器300的BMC 200擷取關聯於系統事件的系統資訊至儲存單元110。亦即,系統資訊擷取模組110_2可擷取系統事件發生之前及/或系統事件發生之後的多筆相關的系統資訊。並且,在步驟S240中,顯示模組110_3可顯示儲存於儲存單元110的系統資訊於使用者介面130。如此一來,管理人員即可基於所顯示多筆系統資訊回溯系統事件發生時的伺服器300運行狀況,從而提升除錯上的便利性。
如先前所提及的,本發明實施例的觸發記錄模式可包括觸發前記錄模式、中途記錄模式及觸發後記錄模式,以下即透過圖3來說明這三種觸發記錄模式的細節。
圖3是依據圖2繪示的監測伺服器的方法流程圖。本實施例的方法可由圖1的監測裝置100執行,以下即搭配圖1的元件來說明本方法的詳細步驟。
首先,在步驟S310中,系統設定模組110_1可設定欲從伺服器300監測的系統事件。在步驟S320中,系統設定模組110_1可設定用於記錄伺服器300的系統資訊的觸發記錄模式及預定記錄數量。步驟S310及S320的細節可參考圖2的步驟S210及S220的說明,在此不再贅述。
在第一實施例中,若系統設定模組110_1設定的觸發記錄模式為觸發後記錄模式,則系統資訊擷取模組110_2可接續進行步驟S330_1_1以在伺服器300運行時,等待系統事件發生。接著,在步驟S330_1_2中,當系統事件發生時,系統資訊擷取模組110_2可從BMC 200擷取系統事件發生之後的特定系統資訊及其時間戳記(time stamp),其中特定系統資訊的數量為預定記錄數量。為了便於說明,以下將假設欲監測的系統事件以及預定記錄數量分別為SEL記錄中的「FRB2 watch dog timeout」字串及20。此外,欲記錄的系統資訊則假設為伺服器300的BIOS POST碼及伺服器300所有的GPIO狀態。亦即,在上述假設的情況下,系統資訊擷取模組110_2可在系統事件發生之後從BMC 200擷取20筆的BIOS POST碼及其個別的時間戳記。同時,系統資訊擷取模組110_2可在系統事件發生之後對所有的GPIO狀態個別擷取20筆資料及其個別的時間戳記。接著,系統資訊擷取模組110_2可將所擷取到的資料儲存至儲存單元110。之後,在步驟S340中,顯示模組110_3可顯示儲存於儲存單元110的系統資訊於使用者介面130。如此一來,管理人員即可基於所顯示的系統資訊來進行除錯。
在第二實施例中,若系統設定模組110_1設定的觸發記錄模式為觸發前記錄模式,則系統資訊擷取模組110_2可接續進行步驟S330_2_1以在伺服器300運行時,持續擷取來自於BMC 200的系統資訊及其時間戳記至暫存單元。暫存單元例如是雙直列記憶體模組(dual inline memory module,DIMM),但本發明的可實施方式不限於此。之後,在步驟S330_2_2中,系統資訊擷取模組110_2可等待系統事件發生。接著,在步驟S330_2_3中,當系統事件發生時,系統資訊擷取模組110_2可停止擷取來自於BMC 200的系統資訊及其時間戳記至暫存單元,並從暫存單元擷取系統事件發生之前的特定系統資訊,其中特定系統資訊的數量為預定記錄數量。
為了便於說明,以下將假設欲監測的系統事件以及預定記錄數量分別為「CPU溫度超過某門限值」及500。此外,欲記錄的系統資訊則假設為CPU溫度、iKVM畫面以及風扇轉速。亦即,在上述假設的情況下,系統資訊擷取模組110_2可從暫存單元擷取在系統事件發生之前的500筆CPU溫度、iKVM畫面以及風扇轉速及其個別的時間戳記。之後,在步驟S340中,顯示模組110_3可顯示儲存於儲存單元110的系統資訊於使用者介面130。如此一來,管理人員即可基於所顯示的系統資訊來進行除錯。具體而言,管理人員可觀察在發生「CPU溫度超過某門限值」之前的CPU溫度變化。若CPU溫度從某個時間點開始明顯上升,則管理人員可從iKVM畫面中得知當時伺服器300正在執行的程式。此外,管理人員還可從風扇轉速得知是否因某個風扇失效才導致「CPU溫度超過某門限值」發生。
舉另一例而言,假設欲監測的系統事件以及預定記錄數量分別為SEL記錄中新增的「Power Off」字串(即,伺服器300關機)以及100筆。此外,欲記錄的系統資訊則假設為iKVM畫面。亦即,在上述假設的情況下,系統資訊擷取模組110_2可從暫存單元擷取在系統事件發生之前的100筆iKVM畫面及其個別的時間戳記。如此一來,管理人員即可從所擷取的iKVM畫面觀察伺服器300關機之前在執行什麼程式,從而得知伺服器300是***作人員關機還是因程式出現問題而關機。
在第三實施例中,系統設定模組110_1可設定觸發記錄模式為中途記錄模式。在本實施例中,中途記錄模式可視為是觸發前記錄模式及觸發後記錄模式的結合。簡言之,系統資訊擷取模組110_2可擷取系統事件發生之前的第一預定記錄數量個系統資訊,以及系統事件發生之後的第二預定記錄數量個系統資訊來供管理人員參考。具體而言,若系統設定模組110_1設定觸發記錄模式為中途記錄模式,則系統資訊擷取模組110_2可進行步驟S330_3_1以在伺服器300運行時,持續擷取來自於BMC 200的系統資訊及其時間戳記至暫存單元。之後,在步驟S330_3_2中,系統資訊擷取模組110_2可等待系統事件發生。接著,在步驟S330_3_3中,當系統事件發生時,系統資訊擷取模組110_2可持續擷取來自於BMC 200的第二預定記錄數量個系統資訊及其時間戳記至暫存單元。接著,在步驟S330_3_4中,系統資訊擷取模組110_2可從暫存單元擷取系統事件發生之前的第一特定系統資訊以及系統事件發生之後的第二特定系統資訊,其中第一特定系統資訊的數量為第一預定記錄數量,且第二特定系統資訊的數量為第二預定記錄數量。
為了便於說明,以下將假設欲監測的系統事件、第一預定記錄數量及第二預定記錄數量分別為SEL記錄中出現「FRB2 watch dog timeout」的字串、10及20。此外,欲記錄的系統資訊則假設為伺服器300的BIOS POST碼及伺服器300所有的GPIO狀態。亦即,在上述假設的情況下,系統資訊擷取模組110_2可從暫存單元擷取系統事件發生之前的10筆的BIOS POST碼及其個別的時間戳記,以及系統事件發生之後的20筆的BIOS POST碼及其個別的時間戳記。同時,系統資訊擷取模組110_2可對所有的GPIO狀態個別擷取在系統事件發生之前的10筆資料及其個別的時間戳記,以及系統事件發生之後的20筆資料及其個別的時間戳記。接著,系統資訊擷取模組110_2可將所擷取到的資料儲存至儲存單元110。之後,在步驟S340中,顯示模組110_3可顯示儲存於儲存單元110的系統資訊於使用者介面130。如此一來,管理人員即可基於所顯示的系統資訊來進行除錯。
詳細而言,當SEL記錄中出現「FRB2 watch dog timeout」的字串時,即代表伺服器300的BIOS未正常開機。在此情況下,假設管理人員在系統事件發生之後的20筆的BIOS POST碼中未發現新增的BIOS POST碼,此即代表BIOS已經當機。此時,管理人員可從系統事件發生之前的10筆的BIOS POST碼觀察BIOS正執行到哪個階段,再配合系統事件發生之前的關聯於各GPIO狀態的資料來分析造成BIOS當機的可能原因。
另一方面,假設管理人員在系統事件發生之後的20筆的BIOS POST碼中發現新增加的BIOS POST碼,同時還發現出現離開BIOS進入作業系統(Operating System,OS)的POST碼,此即代表伺服器300仍是正常運作,只是在開機的過程中因某個硬體的關係而導致開機時間延長,從而導致「FRB2 watch dog timeout」的系統事件出現。在此情況下,管理人員即可從系統事件發生之前的最後一個BIOS POST碼得知BIOS是因為初始化哪個硬體才導致開機時間延長。
在一實施例中,系統資訊顯示於使用者介面130的方式可依系統資訊的種類而有所不同。舉例而言,BIOS POST碼可採用下表1的方式來呈現。 表1
請參照圖4A及圖4B,其個別是依據本發明之一實施例繪示的呈現系統資訊的示意圖。在圖4A中,各個風扇在各個時間點的轉速可採用折線圖呈現。在圖4B中,iKVM畫面例如可採用媒體播放器來播放,以供管理人員參考。
雖然本發明的方法在前述的實施例中僅監測一種系統事件,但在其他實施例中,本發明的方法可同時監測數種系統事件以及對應的系統資訊。並且,各系統資訊對應的預定記錄數量也可由管理人員依需求調整。
另外,在不同的實施例中,系統資訊擷取模組110_2可基於某個特定的取樣頻率來擷取系統資訊。舉例而言,假設系統資訊擷取模組110_2用於擷取iKVM畫面的取樣頻率為10個/秒,且所需的預定記錄數量為100筆。在此情況下,系統資訊擷取模組110_2可擷取到總共10秒的畫面。舉另一例而言,假設系統資訊擷取模組110_2用於擷取iKVM畫面的取樣頻率為1個/秒,且所需的預定記錄數量為100筆。在此情況下,系統資訊擷取模組110_2可擷取到總共100秒的畫面。另外,當系統資訊擷取模組110_2基於取樣頻率來擷取系統資訊時,可僅儲存其中幾筆系統資訊(例如第一筆系統資訊)的時間戳記即可。具體而言,由於每兩筆連續的系統資訊相隔的時間為取樣頻率的倒數,因此其他系統資訊的時間戳記可輕易地推得。然而,針對POST碼這類產生時間不固定的資料,系統資訊擷取模組110_2可在每次POST碼新增時即記錄其時間戳記。
在一實施例中,監測裝置100中的各個元件還可實現為各個獨立的裝置,從而組成監測BMC的監測系統,如圖5所示。請參照圖5,其是依據本發明之一實施例繪示的監測系統示意圖。在本實施例中,監測系統500包括決定裝置510、擷取裝置520、儲存裝置530以及顯示裝置540。擷取裝置510可包括暫存單元522,而顯示裝置540可包括使用者介面542。決定裝置510、擷取裝置520以及顯示裝置540監測管理伺服器300的BMC 200的運作方式可參照先前實施例中關於系統設定模組110_1、系統資訊擷取模組110_2以及顯示模組110_3的相關說明,在此不再贅述。
綜上所述,本發明實施例提出的監測伺服器的方法、監測裝置以及監測系統可依據所使用的觸發記錄模式來擷取某個系統事件發生之前及/或之後的預定數量個系統資訊。如此一來,管理人員即可基於所擷取的系統資訊來回溯系統事件發生時的狀況,從而提升除錯上的方便性。另外,由於不需持續性地儲存所有系統資訊,而只需儲存系統事件發生之前及/或之後的系統資訊,因此本發明的方法還可降低儲存單元在儲存上的負擔。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100‧‧‧監測裝置
110‧‧‧儲存單元
110_1‧‧‧系統設定模組
110_2‧‧‧系統資訊擷取模組
110_3‧‧‧顯示模組
120‧‧‧處理單元
130‧‧‧使用者介面
200‧‧‧BMC
300‧‧‧伺服器
500‧‧‧監測系統
510‧‧‧決定裝置
520‧‧‧擷取裝置
522‧‧‧暫存單元
530‧‧‧儲存裝置
540‧‧‧顯示裝置
542‧‧‧使用者介面
S210~S240、S310、S320、S330_1_1~S330_1_2、S330_2_1~S330_2_3、S330_3_1~S330_3_4、S340‧‧‧本發明實施例的監測伺服器方法步驟
圖1是依據本發明之一實施例繪示的監測裝置示意圖。 圖2是依據本發明之一實施例繪示的監測伺服器的方法流程圖。 圖3是依據圖2繪示的監測伺服器的方法流程圖。 圖4A及圖4B個別是依據本發明之一實施例繪示的呈現系統資訊的示意圖。 圖5是依據本發明之一實施例繪示的監測系統示意圖。

Claims (15)

  1. 一種監測伺服器的方法,包括:設定欲從一伺服器監測的一系統事件;設定欲記錄的一系統資訊以及用於記錄該伺服器的該系統資訊的一觸發記錄模式及一預定記錄數量;依據該觸發記錄模式以及該預定記錄數量從管理該伺服器的一基板管理控制器擷取關聯於該系統事件的該系統資訊至一儲存單元;以及顯示儲存於該儲存單元的該系統資訊於一使用者介面。
  2. 如申請專利範圍第1項所述的方法,其中該觸發記錄模式包括一觸發前記錄模式,且依據該觸發記錄模式以及該預定記錄數量從管理該伺服器的該基板管理控制器擷取關聯於該系統事件的該系統資訊至該儲存單元的步驟包括:在該伺服器運行時,持續擷取來自於該基板管理控制器的該系統資訊及其時間戳記至一暫存單元;等待該系統事件發生;以及當該系統事件發生時,停止擷取來自於該基板管理控制器的該系統資訊及其時間戳記至該暫存單元,並從該暫存單元擷取該系統事件發生之前的一特定系統資訊,其中該特定系統資訊的數量為該預定記錄數量。
  3. 如申請專利範圍第1項所述的方法,其中該觸發記錄模式包括一觸發後記錄模式,且依據該觸發記錄模式以及該預定記錄數量從管理該伺服器的該基板管理控制器擷取關聯於該系統事件的該系統資訊至該儲存單元的步驟包括:在該伺服器運行時,等待該系統事件發生;以及當該系統事件發生時,從該基板管理控制器擷取該系統事件發生之後的一特定系統資訊及其時間戳記,其中該特定系統資訊的數量為該預定記錄數量。
  4. 如申請專利範圍第1項所述的方法,其中該觸發記錄模式包括一中途記錄模式,該預定記錄數量包括一第一預定記錄數量及一第二預定記錄數量,且依據該觸發記錄模式以及該預定記錄數量從管理該伺服器的該基板管理控制器擷取關聯於該系統事件的該系統資訊至該儲存單元的步驟包括:在該伺服器運行時,持續擷取來自於該基板管理控制器的該系統資訊及其時間戳記至一暫存單元;等待該系統事件發生;當該系統事件發生時,持續擷取來自於該基板管理控制器的該第二預定記錄數量個該系統資訊及其時間戳記至該暫存單元;以及從該暫存單元擷取該系統事件發生之前的一第一特定系統資訊以及該系統事件發生之後的一第二特定系統資訊,其中該第一特定系統資訊的數量為該第一預定記錄數量,且該第二特定系統資訊的數量為該第二預定記錄數量。
  5. 如申請專利範圍第1項所述的方法,其中該系統資訊包括一基本輸入輸出系統的一開機自我測試碼、一中央處理單元的一特定模組暫存器、一串列埠轉區域網路、該基本輸入輸出系統的一除錯終端機、該伺服器的一般用途輸入/輸出狀態、該基板管理控制器的一感測器、一在網際網路協定上的鍵盤/視訊/滑鼠畫面以及一風扇轉速的至少其中之一。
  6. 一種監測裝置,包括:一使用者介面;一儲存單元,儲存多個模組;以及一處理單元,耦接該儲存單元及該使用者介面,存取並執行該些模組,該些模組包括:一系統設定模組,設定欲從一伺服器監測的一系統事件,以及設定欲記錄的一系統資訊以及用於記錄該伺服器的該系統資訊的一觸發記錄模式及一預定記錄數量;一系統資訊擷取模組,依據該觸發記錄模式以及該預定記錄數量從管理該伺服器的一基板管理控制器擷取關聯於該系統事件的該系統資訊;以及一顯示模組,顯示該系統資訊於該使用者介面。
  7. 如申請專利範圍第6項所述的監測裝置,其中該觸發記錄模式包括一觸發前記錄模式,且該系統資訊擷取模組經配置以:在該伺服器運行時,持續擷取來自於該基板管理控制器的該系統資訊及其時間戳記至一暫存單元;等待該系統事件發生;以及當該系統事件發生時,停止擷取來自於該基板管理控制器的該系統資訊及其時間戳記至該暫存單元,並從該暫存單元擷取該系統事件發生之前的一特定系統資訊,其中該特定系統資訊的數量為該預定記錄數量。
  8. 如申請專利範圍第6項所述的監測裝置,其中該觸發記錄模式包括一觸發後記錄模式,且該系統資訊擷取模組經配置以:在該伺服器運行時,等待該系統事件發生;以及當該系統事件發生時,從該基板管理控制器擷取該系統事件發生之後的一特定系統資訊及其時間戳記,其中該特定系統資訊的數量為該預定記錄數量。
  9. 如申請專利範圍第6項所述的監測裝置,其中該觸發記錄模式包括一中途記錄模式,該預定記錄數量包括一第一預定記錄數量及一第二預定記錄數量,且該系統資訊擷取模組經配置以:在該伺服器運行時持續擷取來自於該基板管理控制器的該系統資訊及其時間戳記至一暫存單元;等待該系統事件發生;當該系統事件發生時,持續擷取來自於該基板管理控制器的該第二預定記錄數量個該系統資訊及其時間戳記至該暫存單元;以及從該暫存單元擷取該系統事件發生之前的一第一特定系統資訊以及該系統事件發生之後的一第二特定系統資訊,其中該第一特定系統資訊的數量為該第一預定記錄數量,且該第二特定系統資訊的數量為該第二預定記錄數量。
  10. 如申請專利範圍第6項所述的監測裝置,其中該系統資訊包括一基本輸入輸出系統的一開機自我測試碼、一中央處理單元的一特別模組暫存器、一串列埠轉區域網路、該基本輸入輸出系統的一除錯終端機、該伺服器的一般用途輸入/輸出狀態、該基板管理控制器的一感測器、一在網際網路協定上的鍵盤/視訊/滑鼠畫面以及一風扇轉速的至少其中之一。
  11. 一種監測系統,包括:一決定裝置,設定欲從一伺服器監測的一系統事件,以及設定欲記錄的一系統資訊以及用於記錄該伺服器的該系統資訊的一觸發記錄模式及一預定記錄數量;一擷取裝置,耦接該決定裝置,依據該觸發記錄模式以及該預定記錄數量從管理該伺服器的一基板管理控制器擷取關聯於該系統事件的該系統資訊至一儲存裝置;以及一顯示裝置,顯示儲存於該儲存裝置的該系統資訊於一使用者介面。
  12. 如申請專利範圍第11項所述的監測系統,其中該觸發記錄模式包括一觸發前記錄模式,且該擷取裝置經配置以:在該伺服器運行時,持續擷取來自於該基板管理控制器的該系統資訊及其時間戳記至一暫存單元;等待該系統事件發生;以及當該系統事件發生時,停止擷取來自於該基板管理控制器的該系統資訊及其時間戳記至該暫存單元,並從該暫存單元擷取該系統事件發生之前的一特定系統資訊,其中該特定系統資訊的數量為該預定記錄數量。
  13. 如申請專利範圍第11項所述的監測系統,其中該觸發記錄模式包括一觸發後記錄模式,且該擷取裝置經配置以:在該伺服器運行時,等待該系統事件發生;以及當該系統事件發生時,從該基板管理控制器擷取該系統事件發生之後的一特定系統資訊及其時間戳記,其中該特定系統資訊的數量為該預定記錄數量。
  14. 如申請專利範圍第11項所述的監測系統,其中該觸發記錄模式包括一中途記錄模式,該預定記錄數量包括一第一預定記錄數量及一第二預定記錄數量,且該擷取裝置經配置以:在該伺服器運行時持續擷取來自於該基板管理控制器的該系統資訊及其時間戳記至一暫存單元;等待該系統事件發生;當該系統事件發生時,持續擷取來自於該基板管理控制器的該第二預定記錄數量個該系統資訊及其時間戳記至該暫存單元;以及從該暫存單元擷取該系統事件發生之前的一第一特定系統資訊以及該系統事件發生之後的一第二特定系統資訊,其中該第一特定系統資訊的數量為該第一預定記錄數量,且該第二特定系統資訊的數量為該第二預定記錄數量。
  15. 如申請專利範圍第11項所述的監測系統,其中該系統資訊包括一基本輸入輸出系統的一開機自我測試碼、一中央處理單元的一特定模組暫存器、一串列埠轉區域網路、該基本輸入輸出系統的一除錯終端機、該伺服器的一般用途輸入/輸出狀態、該基板管理控制器的一感測器、一在網際網路協定上的鍵盤/視訊/滑鼠畫面以及一風扇轉速的至少其中之一。
TW104132648A 2015-10-02 2015-10-02 監測伺服器的方法、監測裝置及監測系統 TWI632453B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW104132648A TWI632453B (zh) 2015-10-02 2015-10-02 監測伺服器的方法、監測裝置及監測系統
CN201510701460.1A CN106561018B (zh) 2015-10-02 2015-10-26 监测服务器的方法、监测装置及监测***
US15/013,977 US10698788B2 (en) 2015-10-02 2016-02-02 Method for monitoring server, and monitoring device and monitoring system using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104132648A TWI632453B (zh) 2015-10-02 2015-10-02 監測伺服器的方法、監測裝置及監測系統

Publications (2)

Publication Number Publication Date
TW201714085A TW201714085A (zh) 2017-04-16
TWI632453B true TWI632453B (zh) 2018-08-11

Family

ID=58447877

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104132648A TWI632453B (zh) 2015-10-02 2015-10-02 監測伺服器的方法、監測裝置及監測系統

Country Status (3)

Country Link
US (1) US10698788B2 (zh)
CN (1) CN106561018B (zh)
TW (1) TWI632453B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484305B (zh) * 2015-01-06 2021-02-05 浪潮(北京)电子信息产业有限公司 一种服务器调试分析接口装置
US10176142B2 (en) * 2016-08-19 2019-01-08 American Megatrtends, Inc. Techniques of accessing BMC terminals through serial port
US10489601B2 (en) * 2017-06-08 2019-11-26 American Megatrends International, Llc Encrypted extended system event log
US10291714B2 (en) * 2017-07-13 2019-05-14 American Megatrends, Inc. System and method for using general software to control internet of things (IOT) system
KR102354058B1 (ko) * 2017-08-24 2022-01-20 삼성에스디에스 주식회사 서버 모니터링 방법과 이를 수행하기 위한 장치 및 시스템
CN107623598A (zh) * 2017-09-25 2018-01-23 郑州云海信息技术有限公司 一种服务器待测***自动化部署的方法
CN107741895B (zh) * 2017-11-06 2020-07-10 广州酷狗计算机科技有限公司 服务器管理方法、装置及设备
TWI657337B (zh) * 2017-12-29 2019-04-21 新唐科技股份有限公司 事件記錄控制器與電子裝置
US10846160B2 (en) * 2018-01-12 2020-11-24 Quanta Computer Inc. System and method for remote system recovery
CN108595319B (zh) * 2018-03-30 2020-08-04 阿里巴巴集团控股有限公司 函数选取方法和服务器
TWI679532B (zh) * 2018-10-05 2019-12-11 緯穎科技服務股份有限公司 監測系統與方法
CN111625382B (zh) * 2020-05-21 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN113708986B (zh) * 2020-05-21 2023-02-03 富联精密电子(天津)有限公司 服务器监控装置、方法及计算机可读存储介质
CN111767170B (zh) * 2020-06-28 2024-02-27 百度在线网络技术(北京)有限公司 设备的操作复原方法、装置、设备以及存储介质
CN113110970B (zh) * 2021-04-08 2023-05-26 浪潮商用机器有限公司 服务器工作模式下各部件的监测方法、装置、设备及介质
WO2023028836A1 (zh) * 2021-08-31 2023-03-09 长江存储科技有限责任公司 存储器***的固件的掉电测试

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089624A1 (en) * 2007-10-02 2009-04-02 Christopher Harry Austen Mechanism to report operating system events on an intelligent platform management interface compliant server
US20150143182A1 (en) * 2013-11-18 2015-05-21 International Business Machines Corporation Varying Logging Depth Based On User Defined Policies

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060372A1 (en) * 2003-08-27 2005-03-17 Debettencourt Jason Techniques for filtering data from a data stream of a web services application
US7266726B1 (en) * 2003-11-24 2007-09-04 Time Warner Cable Inc. Methods and apparatus for event logging in an information network
TWI255996B (en) 2004-05-31 2006-06-01 Wellsyn Technology Inc Advanced IPMI system with multi-message processing and configurable performance and method for the same
TWI275933B (en) 2004-08-27 2007-03-11 Inventec Corp Intelligent platform event alarming system and method thereof
US7827447B2 (en) * 2007-01-05 2010-11-02 International Business Machines Corporation Sliding window mechanism for data capture and failure analysis
US7493598B1 (en) * 2008-01-26 2009-02-17 International Business Machines Corporation Method and system for variable trace entry decay
TW200945030A (en) 2008-04-29 2009-11-01 Inventec Corp System and method for monitoring a baseboard management controller
TWI510917B (zh) 2009-11-18 2015-12-01 Insyde Software Corp 伺服器管理系統及其方法
JPWO2012046293A1 (ja) * 2010-10-04 2014-02-24 富士通株式会社 障害監視装置、障害監視方法及びプログラム
US9184991B2 (en) * 2012-01-13 2015-11-10 American Megatrends, Inc. Method and apparatus for developing service processor solutions
JP6048038B2 (ja) * 2012-09-27 2016-12-21 富士通株式会社 情報処理装置,プログラム,情報処理方法
US20140280469A1 (en) * 2013-03-14 2014-09-18 American Megatrends, Inc. Method and apparatus for remote management of computer system using handheld device
JP6015849B2 (ja) * 2013-03-26 2016-10-26 日本電気株式会社 ログ出力制御装置、方法及びプログラム
CN103441861B (zh) 2013-07-16 2017-03-08 杭州华为数字技术有限公司 一种数据记录生成方法及装置
TWI625622B (zh) * 2013-10-31 2018-06-01 聯想企業解決方案(新加坡)有限公司 在多核心處理器系統與運作多核心處理器系統的電腦實施方法
JP6187686B2 (ja) * 2014-05-20 2017-08-30 富士通株式会社 情報処理装置、情報処理システム及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089624A1 (en) * 2007-10-02 2009-04-02 Christopher Harry Austen Mechanism to report operating system events on an intelligent platform management interface compliant server
US20150143182A1 (en) * 2013-11-18 2015-05-21 International Business Machines Corporation Varying Logging Depth Based On User Defined Policies

Also Published As

Publication number Publication date
TW201714085A (zh) 2017-04-16
US10698788B2 (en) 2020-06-30
CN106561018A (zh) 2017-04-12
US20170097880A1 (en) 2017-04-06
CN106561018B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
TWI632453B (zh) 監測伺服器的方法、監測裝置及監測系統
US9954727B2 (en) Automatic debug information collection
WO2015039598A1 (zh) 故障定位方法及装置
TWI229796B (en) Method and system to implement a system event log for system manageability
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US20150106660A1 (en) Controller access to host memory
US8380903B2 (en) Administering the polling of a number of devices for device status
TWI519945B (zh) 伺服器及用於伺服器停機時間計量的方法和設備
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
US9389942B2 (en) Determine when an error log was created
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
TW201415213A (zh) 故障自檢系統及方法
JPWO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
CN109408312B (zh) 一种服务器运行温度测试***及设备
CN112527605A (zh) 一种基于ipmi的服务器管理方法及装置
CN109800124B (zh) Cpu使用率监控方法、装置、电子设备及存储介质
JP5529686B2 (ja) コンピュータ装置の異常検査方法及びそれを用いたコンピュータ装置
CN111858178B (zh) 一种电源启动类型的判断方法、装置、设备及可读介质
CN102541702A (zh) 自动重启主机板及记录除错数据的测试方法及其重启装置
US7356683B2 (en) System and method for monitoring BIOS messages of remote computers by a local server
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
TW201314576A (zh) 開機資訊的存取方法
CN113626278A (zh) 一种硬件拓扑生成方法及其相关设备
JP2015130023A (ja) 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム
US11347505B2 (en) Processor performance monitor that logs reasons for reservation loss