TW201730763A - 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置 - Google Patents

硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置 Download PDF

Info

Publication number
TW201730763A
TW201730763A TW105113043A TW105113043A TW201730763A TW 201730763 A TW201730763 A TW 201730763A TW 105113043 A TW105113043 A TW 105113043A TW 105113043 A TW105113043 A TW 105113043A TW 201730763 A TW201730763 A TW 201730763A
Authority
TW
Taiwan
Prior art keywords
component
hardware
replacement
sleep state
system component
Prior art date
Application number
TW105113043A
Other languages
English (en)
Other versions
TWI588649B (zh
Inventor
周樂生
錢威宇
Original Assignee
廣達電腦股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 廣達電腦股份有限公司 filed Critical 廣達電腦股份有限公司
Application granted granted Critical
Publication of TWI588649B publication Critical patent/TWI588649B/zh
Publication of TW201730763A publication Critical patent/TW201730763A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Power Sources (AREA)
  • Stored Programmes (AREA)

Abstract

本發明提供一種硬體修復方法,步驟包括:偵測對應於系統之硬體錯誤;辨識對應於硬體錯誤之系統元件;透過基板管理控制器產生睡眠狀態請求,睡眠狀態請求用以觸發系統之作業系統以讓系統進入特定睡眠狀態,特定睡眠狀態係根據系統元件之元件類型所決定;以及於系統進入特定睡眠狀態後,產生一指示以指示於不重新啟動系統之作業系統之情況下替換系統元件,其中指示係根據系統所進入對應於系統元件之元件類型之特定睡眠模式之判斷所產生。

Description

硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置
本發明係有關於硬體修復,以及特別係有關於未提供熱插拔之硬體修復機制。
計算機之性能和處理能力於過去幾十年中係大幅且穩定的成長。不出意外地,計算機系統(例如伺服器)係越來越複雜,其所搭載之元件之數量以及類型亦越來越多,例如處理器、記憶體、以及外接卡等。大多數專家認為這將會是未來之趨勢。
然而,隨著硬體元件之數量越來越多以及複雜度越來越高,計算機系統越來越容易遇到裝置故障之問題。事實上,裝置故障係為系統管理員常遇到之問題,尤其是於更大、更複雜之環境以及架構中(例如數據中心以及機架規模架構)。不幸的是,裝置故障可能具有強大之破壞性。舉例來說,裝置故障可能會導致計算機或者網路服務之週期變長,有時甚至可能造成資料之遺失。
為了修復裝置故障,系統管理員通常必須執行手動硬體復原程序。硬體復原程序可包括將系統或者伺服器關機以替換故障之系統元件。整個復原程序之效率極低,且將可能導致服務中斷,並對使用者帶來實質上之影響。除此之外,依賴使用者輸入以完成復原程序之某些步驟更可能會導致系統之復原之延遲,並導致更多之服務中斷。
本發明之其它特徵以及優點將陳述於下列之描述中,並且部分將可從描述中顯而易見,或者可透過本發明之實施而瞭解。本發明之特徵和優點可透過後附之申請範圍中具體指出之元件和組合而實現以及獲得。本發明之這些和其它特徵將根據下列之描述和後附之申請專利範圍中變得更加清楚明白,或者可透過本發明所述之實施例實施而瞭解。
本文所述之方法可用以替換出現故障之未提供熱插拔之系統元件。具體而言,本發明所述之方法可允許於不重新開始或者重新啟動系統或者不需要重新配置替換之系統元件之情況下替換出現故障之系統元件。系統可根據錯誤之類型和/或被替換之元件之類型進入一特定睡眠模式。當元件被替換時特定睡眠模式可允許系統繼續執行以避免必須重新開始或重新啟動系統。此機制可以一有效之方式於儘管元件未提供熱插拔之情況下替換出現故障之元件並最小化或者限制系統之停機時間。
本發明係揭露硬體自動修復之方法、系統以及計 算機可讀取儲存裝置。於一些實施例中,系統可偵測硬體錯誤以及辨識與硬體錯誤有關之系統元件(例如處理器、記憶體、儲存裝置、電源供應器、周邊裝置等)。
系統可接著產生睡眠狀態請求,睡眠狀態請求用以觸發系統之一作業系統以讓系統進入特定睡眠模式。因此,系統可導致作業系統讓系統進入特定睡眠狀態以替換產生硬體錯誤之硬體元件。特定睡眠狀態可根據系統元件之元件類型決定。舉例來說,若系統類型為周邊裝置(例如快捷外設護聯標準(peripheral component interconnect express)),系統可進入深層睡眠狀態以於不重新啟動系統之情況下替換周邊裝置。於另一例子中,若元件類型為一處理器、一記憶體、或者一電源供應器,當替換出現故障之元件時,系統可進入更深層之睡眠狀態以讓系統以最少之資源運作。任何階段之睡眠或者其它之狀態皆可被考慮。
因此,當元件類型為周邊元件時,特定睡眠狀態可為第一睡眠狀態,即可為深層睡眠狀態,以及當元件類型為一處理器、一記憶體、或者一電源供應器時,則可為第二睡眠狀態,即可為最深層之睡眠狀態。
相較於第一睡眠狀態,第二睡眠狀態可導致較低之功率資源消耗和/或較長之恢復延遲。相較於第二睡眠狀態,第一睡眠狀態更可為更身或者相同或者幾乎相同之睡眠狀態。狀態之其它組合亦可被考慮。
於系統進入特定睡眠狀態後,系統可產生一指示以指示系統元件可於系統之作業系統不重新啟動之情況下被 替換。指示可根據系統所進入對應於系統元件之類型之特定睡眠狀態、和/或系統所進入之特定操作狀態(例如與使用資源之減少、服務、功率、元件、操作週期、操作參數等相關之操作狀態)而產生。除此之外,當系統準備替換元件時,可產生指示。換言之,指示可藉由判斷系統是否已進入可於不重新啟動系統和/或作業系統之情況下替換特定元件之狀態而產生。如前所述,可允許於系統不重新開始或重新啟動之特定狀態可根據元件之類型決定(例如周邊裝置、處理器、記憶體、儲存裝置、電源供應器等)。
當系統根據指示進入讀取狀態時,產生錯誤之硬體元件可被替換硬體元件所替換。替換硬體元件於元件類型、技術規格之類型、用以運作或者配置元件之驅動程式、用以運作或配置元件之程式、硬體或者系統需求、配置、品牌、模板、版本等方面可與硬體元件相同。
當系統進入不重新開始或者重新啟動、不重新配置系統元件、不重新啟動相關之應用等之特定睡眠狀態時,可替換替換系統元件。除此之外,系統元件可被替換為替換系統元件。儘管系統、系統元件、和/或替換系統元件未提供熱插或熱插拔技術。於系統元件被替換成替換系統元件後,系統自特定睡眠狀態轉換為一般操作狀態,並繼續執行一般操作。系統可繼續以系統元件發生錯誤前之相同之方法使用替換系統元件。如前所述,當提到「休眠」狀態時,亦可適用任意其它類型之可致能系統元件之替換之狀態。
100‧‧‧系統
102‧‧‧匯流排
104‧‧‧記憶體
106‧‧‧唯讀記憶體
108‧‧‧隨機存取記憶體
110‧‧‧控制器
112‧‧‧儲存裝置
114‧‧‧模組1
116‧‧‧模組2
118‧‧‧模組3
120‧‧‧輸入裝置
122‧‧‧輸入裝置
124‧‧‧通信介面
126‧‧‧感測器
128‧‧‧快取
130‧‧‧處理器
132‧‧‧快閃記憶體
134‧‧‧韌體
136‧‧‧顯示器
150‧‧‧計算機系統
152‧‧‧晶片組
154‧‧‧橋接器
156‧‧‧使用者介面元件
158‧‧‧通信介面
160‧‧‧處理器
162‧‧‧韌體
164‧‧‧輸出裝置
166‧‧‧儲存裝置
168‧‧‧隨機存取記憶體
170‧‧‧虛擬環境
172‧‧‧虛擬機器管理器
174‧‧‧虛擬機器
176‧‧‧虛擬化主機
178‧‧‧資源池
180‧‧‧數據中心
200‧‧‧系統
202‧‧‧硬碟裝置
204‧‧‧周邊裝置
206‧‧‧記憶體
208‧‧‧處理器
210‧‧‧電源供應單元
212‧‧‧睡眠狀態S4
214‧‧‧睡眠狀態S3
216‧‧‧睡眠模式轉換
218‧‧‧喚醒轉換
220‧‧‧工作狀態S0
300‧‧‧睡眠狀態表格
302‧‧‧故障描述
304‧‧‧修復睡眠狀態
306‧‧‧延遲恢復
308‧‧‧處理器
310‧‧‧記憶體
312‧‧‧電源供應
314‧‧‧周邊裝置
316‧‧‧儲存裝置
318‧‧‧風扇
320‧‧‧睡眠狀態S4
322‧‧‧睡眠狀態S3
324‧‧‧睡眠狀態S1
326‧‧‧睡眠狀態S4之延遲
328‧‧‧睡眠狀態S3之延遲
330‧‧‧睡眠狀態S1之延遲
400‧‧‧通信
402‧‧‧作業系統
404‧‧‧硬體元件
410‧‧‧監控硬體健康
412‧‧‧致能具有閥值計數器之RAS特徵
414‧‧‧回報錯誤
416‧‧‧回報錯誤
418‧‧‧回報錯誤
420‧‧‧睡眠狀態請求
422‧‧‧喚醒請求
424‧‧‧交流電源階段
426‧‧‧直流電源階段
428‧‧‧開始開機自我檢測
430‧‧‧待機
432‧‧‧恢復
434‧‧‧硬體介面
436‧‧‧RESTful、IPMI
438‧‧‧RESTful API
500‧‧‧錯誤修復表格
502‧‧‧特徵
504‧‧‧描述
506‧‧‧優先級
508‧‧‧故障偵測
510‧‧‧減緩計畫(例如延長運作時間)
512‧‧‧虛擬機器備份以及還原
514‧‧‧取得錯誤通知、辨識故障嚴重程度、位置以及數量
516‧‧‧自資源池隔離出現故障之資源、重新分配新的資源給虛擬機器、關閉虛擬機器以及轉換至不同之伺服器
518‧‧‧備份虛擬機器資料以避免資料遺失、於伺服器修復後還原虛擬機器資料
520‧‧‧高
522‧‧‧自選
602~612、702~720、802~820、902~918‧‧‧步驟流程
為了描述可得到本發明上述以及其它優點以及特徵之方式,前述簡單描述之原理更具體之描述將透過附圖中所示之具體實施例呈現。必須理解的是,這些圖式僅描繪本發明之示範實施例,但並非用以限制本發明之範圍,本發明之原理將透過附圖描述以及解釋附加之特徵以及細節,其中:第1A圖係顯示根據本發明一實施例所述之第一示範系統;第1B圖係顯示根據本發明一實施例所述之第二示範系統;第1C圖係顯示根據本發明一實施例所述之虛擬環境中之示範系統;第2圖係顯示根據本發明一實施例所述之呈現替換硬體元件之睡眠狀態機制之示範系統之示意圖;第3圖係顯示根據本發明一實施例所述之示範睡眠狀態表格;第4圖係顯示根據本發明一實施例所述之用以執行硬體修復或者替換程序之介於各個元件之間之示範通信之示意圖;第5圖係顯示根據本發明一實施例所述之透過虛擬機器管理器恢復資源以及虛擬機器之示範錯誤修復表格;第6圖係顯示根據本發明一實施例所述之執行硬體修復程序之方法;第7圖係顯示根據本發明一實施例所述之監控以及辨識系統中之硬體錯誤之示範方法之流程圖;第8圖係顯示根據本發明一實施例所述之檢查替換系統元 件之示範方法之流程圖;第9圖係顯示根據本發明一實施例所述之判斷軟體之可恢復性之示範方法之流程圖。
下文係揭露本發明各個實施例,並配合所附圖式,作詳細說明如下。熟悉此技藝之人士可利用這些實施例或其他實施例所描述之細節及其他可利用之元件以及配置,在不離開本發明之精神與範圍之下以實施發明。
有關本發明之其它特徵以及優點將描述於下面之敘述中,並且將部分地從描述中顯而易見,或可以透過實施本發明公開之原理而理解。本發明之特徵以及優點可透過所附之權利要求中特別指出之工具以及組合實現以及取得。以下之描述以及所附之權利要求將充分地呈現本發明這些以及其他特徵,或者可透過實施本發明中所描述之原理而理解。
必須理解的是,為了簡單以及清楚說明,於適當之情況下,標號係於不同之圖式中重複使用以指示對應或者類似之元件。除此之外,大量之細節將被描述以透徹理解本發明所述之實施例。然而,本領域技術人員將可理解於沒有這些特定細節之情況下亦可實施本發明所述之實施例。於其它實施例中,將不詳述方法、程序以及元件以避免模糊欲描述之相關特徵。圖式並不一定是按比例繪製且某些部件之比例可能被放大,以更佳地示出細節以及特徵。該描述並非用以限制本發明所述之實施例之範圍。
術語「耦接」被定義為連接,無論是直接連接或者透過中間元件間接連接,且不一定限於物理連接。術語「實質上」被定義為基本上符合特定元件(例如需求、元件、特性、特徵、狀態等)或者修飾元件之其它詞彙,使得該元件不必是精確的元件。舉例來說,若操作狀態於功能性上係類似於既定睡眠狀態,則操作狀態可實質上等於既定睡眠狀態,但可稍微與既定睡眠狀態不同。
在此所使用之「睡眠狀態」可指計算機裝置之操作狀態,其特徵在於增加之硬體延遲時間、和/或減少之處理週期、電源狀態和/或功率消耗、資源使用和/或分配、活動性、服務、進程、內存分配、計算任務、處理器時脈、匯流排時脈等。舉例來說,「睡眠狀態」可包括休眠狀態、硬體和/或軟體(例如進階組態與電源介面(advanced configuration and power interface,ACPI)、作業系統等)所定義之睡眠狀態(例如狀態S1、S2、S3、以及S4)、中間狀態、或者混合狀態(例如休眠以及睡眠狀態之組合)。除此之外,當計算機系統進入睡眠狀態時,於一些實施例中,計算機裝置可保留至少一部份之計算機裝置記憶體狀態和/或一個或者多個儲存或者內存位置中之操作環境(可為物理和/或虛擬)。
本發明係揭露硬體自動修復之方法、系統以及計算機可讀取儲存裝置。首先將簡要地說明硬體修復系統之示範系統以及配置。硬體修復機制之詳述,包括示範以及變化,將描述於其後。本發明之各個實施例將描述這些變化。請參閱第1A、1B圖。
第1A、1B圖係顯示根據本發明一實施例所述之示範系統。當實施本發明之技術時,對本領域技術人員而言更適當之實施例為顯而易見的。本領域技術人員亦容易理解其它可能之系統實施例。
第1A圖係顯示系統匯流排計算系統架構100,其中系統之元件係透過匯流排102彼此電子通信。示範系統100包括一處理單元(CPU或者處理器)130以及將各個系統元件耦接至處理器130之一系統匯流排102,系統元件包括系統記憶體104,例如唯讀記憶體(read only memory,ROM)106以及隨機存取記憶體(random access memory,RAM)108。系統100可包括直接連接至處理器130、相鄰於處理器130、或者作為處理器130之一部分之高速記憶體之快取。系統100可自記憶體104和/或儲存裝置112複製資料至快取128以供處理器130快速存取。透過上述之方式,快取可使得性能提升以避免處理器130於等待資料時延遲。這些以及其它模組可控制或者被用以控制處理器130以執行各種動作。亦可使用其它系統記憶體104。記憶體104可包括複數具有不同性能特性之不同類型之記憶體。處理器130可包括任何通用處理器以及硬體模組或者軟體模組,例如模組1 114、模組2 116、以及儲存於儲存裝置112中之模組3 118,用以控制處理器130以及軟體指令已被列入實際處理器設計之專門處理器。處理器130實質上可為完全獨立之計算系統,包括複數核心或者處理器、一匯流排、記憶體控制器、快取等。多核心處理器可為對稱或者非對稱的。
為了致能計算系統100之使用者互動,輸入裝置 120可代表任何數目之輸入機構,例如語音麥克風、手勢或者圖形輸入之觸控螢幕、鍵盤、滑鼠、運動輸入、語音等。輸出裝置122可為本領域技術人員所熟知之一個或者多個輸出機構。於一些實施例中,多模組系統可讓使用者提供多種類型之輸入以與計算裝置100溝通。通信介面124通常可支配以及管理使用者輸入以及系統輸出。任何特定硬體配置上之操作並沒有限制,因此當硬體以及韌體發展時,在此所述之基本特徵可輕易地被替換以改善硬體或者韌體配置。
儲存裝置112係為非揮發性記憶體,並可為硬碟或者其它類型之可儲存供電腦存取之資料之計算機可讀取介質,例如卡帶(magnetic cassette)、記憶卡、固態儲存裝置、數位多功能影音光碟、隨機存取記憶體108、唯讀記憶體106、以及上述裝置之組合等。
儲存裝置121可包括軟體模組114、116、118,用以控制處理器110。亦可包括其它硬體或者軟體模組。儲存裝置112可連接至系統匯流排102。於本發明之一方面,執行特定功能之硬體模組可包括儲存於計算機可讀取介質中之軟體元件,計算機可讀取介質係與必要之硬體元件連接,例如處理器130、匯流排102、顯示器136等,以展現其功能。
控制器可為系統100上之專門微處理器或者處理器,例如基板管理控制器(baseboard management controller,BMC)。於一些實施例中,控制器110可為智慧平台管理介面(Intelligent Platform Management Interface,IPMI)。除此之外,於一些實施例中,控制器110可嵌於系統100之主機板或者 主電路板上。控制器110可管理介於系統管理軟體以及平台硬體之介面。控制器亦可與各個系統裝置以及元件(內部和/或外部)進行通信,例如控制器或者周邊元件,下面將作更進一步之描述。
控制器110可產生對應於通知、警告、和/或事件之響應並與遠端裝置或者元件(例如電子郵件訊息、網路訊息等)通信、產生自動化硬體修復程序指令或者命令等。系統管理員亦可與控制器110遠端通信以發起或者致使特定之硬體修復程序或者操作,下面將作更進一步之描述。
系統100上不同類型之感測器(例如感測器126)可回報參數給控制器110,例如冷卻風扇轉速、電源狀態、作業系統狀態、硬體狀態等。控制器110亦可包括系統事件日誌控制器和/或儲存器,用以管理以及保存控制器110所接收之事件、警告、以及通知。舉例來說,控制器110或系統事件日誌控制器可自一個或者多個裝置以及元件接收警告或者通知,並將上述警告或者通知保存於系統事件日誌儲存元件中。
快閃記憶體132可為供系統100儲存和/或傳送資料之電子非揮發性計算機儲存介質或者晶片。快閃記憶體132可被電性抹除和/或重新編程。快閃記憶體132可包括例如可抹除可編程唯讀記憶體(erasable programmable read-only memory,EPROM)、電子可抹除可編程唯讀記憶體(electrically erasable programmable read-only memory,EEPROM)、唯讀記憶體、非揮發性記憶體、或者互補金氧半導體等。快閃記憶體132可儲存當系統100第一次啟動時由系統100所執行之韌體134,以及 韌體134專用之一組配置。快閃記憶體132亦可儲存由韌體134所使用之配置。
韌體134可包括基本輸入/輸出系統或者其接替或者同等之系統,例如可延伸韌體介面(Extensible Firmware Interface,EFI)或者統一可延伸韌體介面(Unified Extensible Firmware Interface,UEFI)。韌體134可於每次系統100啟動時作為順序程序載入以及執行。韌體134可根據一組配置辨識、初始化、以及測試出現於系統100中之硬體。韌體134可於系統100上執行一自我檢測,例如開機自我檢測(Power-on-Self-Test,POST)。上述之自我檢測可測試各個硬體元件(例如硬碟、光學讀取裝置、冷卻裝置、記憶體模組、擴充卡等)之功能。韌體134可定址以及定位記憶體104、唯讀記憶體106、隨機存取記憶體108、和/或儲存裝置112中之一區域以儲存作業系統。韌體134可載入啟動載入器(boot loader)和/或作業系統,並將系統100之控制權交給作業系統。
系統100之韌體134可包括定義韌體134如何控制系統100中之各個硬體元件之韌體配置。韌體配置可判斷系統100中各個硬體元件之啟動順序。韌體134可提供一介面,例如可設定各種不同參數之統一可延伸韌體介面,其中上述參數係不同於韌體默認配置中之參數。舉例來說,使用者(例如系統管理員)可利用韌體134指定時鐘以及匯流排速度、定義連接至系統100之周邊裝置、設定健康之監測(例如風扇速度以及中央處理器之溫度限制)、和/或提供影響系統100之整體效能以及功耗之各種其它參數。
儘管所示之韌體134係被儲存於快閃記憶體132中,但本領域技術人員可輕易地理解韌體134可儲存於其它記憶體元件中,例如記憶體104或唯讀記憶體106。然而,所示之儲存於快閃記憶體132中之韌體134僅作為說明之目的,但並不以此為限。
系統100可包括一個或者多個感測器126。一個或者多個感測器126可包括例如一個或者多個溫度感測器、熱傳感器、氧氣感測器、化學感測器、噪音感測器、電流感測器、電壓偵測器、氣流感測器、流量感測器、紅外線溫度計、熱流傳感器、溫度計、高溫計等。一個或者多個感測器126可透過匯流排102與處理器、快取128、快閃記憶體132、通信介面124、記憶體104、唯讀記憶體106、隨機存取記憶體108、控制器110、以及儲存裝置112進行通信。一個或者多個感測器126亦可透過一個或者多個不同之方式(例如積體電路匯流排(inter-integrated circuit,I2C)、通用型輸出(general purpose output,GPO)等)與其它元件進行通信。
第1B圖係顯示具有可執行前述之方法或者操作之晶片組架構以及產生並顯示人機介面之一示範計算機系統150。計算機系統150可包括用以執行本發明之技術之電腦硬體、軟體、以及韌體。系統150可包括處理器160,代表任何數目之物理和/或邏輯之不同資源,可用於執行軟體、韌體、以及用以執行確定之計算之硬體。處理器160可與可控制處理器160之輸入以及輸出之晶片組152進行通信。於此實施例中,晶片組152輸出資料(例如一顯示)至輸出164,並可讀取以及將 資料寫入至儲存裝置166(可包括例如磁性介質、以及固態介質)。晶片組152亦可自隨機存取記憶體168讀取資料以及寫入資料。與各種使用者介面元件156互連之橋接器154可與晶片組152連接。上述使用者介面元件156可包括鍵盤、麥克風、觸控偵測以及處理電路、指標裝置(例如滑鼠)等。一般而言,系統150之輸入可為任何各種來源、機器生成之輸入和/或使用者生成之輸入。
晶片組152亦可與一個或者多個具有不同物理介面之通信介面158連接。上述之通信介面可包括有線以及無線區域網路介面、寬頻無線網路介面、以及個人區域介面。本發明所述之產生、顯示、以及使用人機介面之方法之應用可包括接收透過物理介面傳輸之有序數據集或者由機器本身之處理器160分析儲存於儲存裝置166或者隨機存取記憶體168中之資料所產生之有序數據集。除此之外,機器可接收使用者透過使用者介面元件156輸入之輸入並執行對應之功能,例如透過處理器160解譯上述輸入並執行瀏覽功能。
除此之外,晶片組152亦可與計算機系統150上電時所執行之韌體162進行通信。韌體162可根據一組韌體配置辨識、初始化、以及測試出現於計算機系統150中之硬體。韌體162可於計算機系統150上執行自我檢測,例如開機自我檢測。自我檢測可測試各個硬體元件152~168之功能。韌體162可於記憶體168中定址以及定位一區域以儲存作業系統。韌體162可載入啟動載入器和/或作業系統,並將計算機系統150之控制權交給作業系統。於一些實施例中,韌體162可與硬體元件152~160 以及164~168進行通信。在此,韌體162可透過晶片組152和/或透過一個或者多個其它元件與硬體元件152~160以及164~168進行通信。於一些實施例中,韌體162可直接與硬體元件152~160以及164~168進行通信。
可以理解的是示範系統100以及示範系統150可具有多於一個之處理器(例如處理器130、160)或者為透過網路連接在一起之計算機裝置群集之一部分,以提供更佳之處理性能。
為了清楚說明,於一些實施例中,本發明之技術之呈現係被表示為包括獨立之功能區塊,功能區塊包括裝置、裝置元件、透過軟體呈現之方法中之步驟或者程序、或者硬體以及軟體之組合。
於一些實施例中,計算機可讀取儲存裝置、介質、以及記憶體可包括包含位元串流之纜線或者無線信號等。然而,當提到非暫態計算機可讀取介質將明確地排除一些介質,例如能量、載波信號、電磁波、以及信號本身。
根據前述實施例之方法可透過利用儲存於計算機可讀取介質中或者以其它方式自計算機可讀取介質中取得之計算機可執行指令實現。上述之指令可包括例如致使或者以其它方式配置通用計算機、專用計算機、或者專用處理裝置以執行特定功能或者一組功能之指令以及資料。部分所使用之計算機資源可透過網路進行存取。計算機可執行指令可為例如二進制、中間格式指令(intermediate format instruction)(例如組合語言、韌體、或者原始碼)。計算機可讀取介質之範例可用 以儲存指令、所使用之資料、和/或於執行本發明實施例所述之方法期間所產生之資訊,計算機可讀取介質可包括磁盤或者光碟、快閃記憶體、具有非揮發性記憶體之通用序列匯流排裝置、網路儲存裝置等。
實施根據本發明實施例所述之方法之裝置可包括硬體、韌體、和/或軟體,並可為任何各種外形。上述外形之代表示例包括筆記型電腦、智慧型手機、小尺寸之個人電腦、個人數位助理、框架安裝裝置(rackmount device)、獨立裝置(standalone device)等。本發明所述之功能可實施於周邊裝置中或者外接卡中。根據其它實施例,上述之功能亦可透過電路板上不同之晶片實施或者透過單一裝置中不同之程序執行。
指令、傳輸上述指令之介質、執行上述指令之計算資源、以及提供上述計算資源之其它架構係為提供本發明所述之功能之方法。
第1C圖係顯示根據本發明一實施例所述之虛擬環境170中之示範系統。虛擬環境170可包括虛擬機器管理器(virtual machine manager,VMM)172,用以管理虛擬機器174。虛擬機器管理器172允許使用者建立、編輯、啟動、以及停止虛擬機器174。虛擬機器管理器172亦可致能其它功能以管理虛擬機器174。舉例來說,虛擬機器管理器172允許使用者或者系統管理員查看以及控制每個虛擬機器174之控制台、查看虛擬機器174之性能以及使用率統計數據、查看所有運作中之虛擬機器174以及主機端176以及其個別之統計數據、辨識虛擬機器之錯誤以及故障、轉移工作量等。
虛擬機器管理器172亦允許使用者配置以及管理虛擬機器174之虛擬化主機176、管理以及配置資源池178以及於網路中或者數據中心180中建立網路。虛擬機器管理器172允許使用者佈署虛擬機器174、轉移虛擬機器或者工作量、以及管理以及配置虛擬機器174、主機端176、資源池178等。
每個主機端176可包括一個或者多個虛擬機器174。除此之外,主機端176可包括個別之虛擬主機管理程式以運作虛擬機器174。主機端176可運作提供主機端176軟體環境之主機作業系統,以及每個虛擬機器可運作提供虛擬機器174軟體環境之客作業系統。
虛擬機器174可使用包括虛擬機器174所使用之硬體資源之資源池178建立之個別之虛擬硬體資源以支援虛擬機器174以及個別之工作量。資源池178可包括各種類型之硬體資源,例如處理器、記憶體、儲存裝置、網路介面、圖形處理單元、輸入裝置、輸出裝置等。硬體資源可為主機端176上之資源。無論如何,硬體資源亦可包括數據中心180中之其它資源。舉例來說,於基於機架規模架構(rack scale architecture)數據中心中,資源池178可包括不一定為主機端176之一部份之資源池以及可包括儘管可與主機端176耦接但不與主機端176電性連接之資源。
資源池178可包括類型相同之多個資源和/或作為冗餘之額外資源。舉例來說,資源池178可包括額外之處理器、記憶體、電源供應、風扇、儲存裝置、周邊裝置等。以此方式,若一特定虛擬機器所使用之資源(例如記憶體)發生一嚴重錯 誤,記憶體可被資源池178中額外之記憶體替換以快速地從錯誤中修復。
第2圖係顯示根據本發明一實施例所述之呈現替換硬體元件之睡眠狀態機制200之示範系統200之示意圖。睡眠狀態機制可基於進階組態與電源介面之電源管理。舉例來說,系統200可使用進階組態與電源介面讓系統200進入一特定睡眠狀態,使得使用者可於不重新開始或者重新啟動系統200之情況下替換出現故障之元件。當使用者替換出現故障之元件後,系統200可無需透過重新啟動、重新配置或者重新佈署一個或者多個應用程式即可自特定睡眠狀態轉換回工作狀態。
舉例來說,硬碟裝置202可運作於工作狀態(S0)220中。工作狀態(S0)220可代表正常操作狀態。若系統200根據偵測到硬體錯誤或者故障判斷必須替換硬體元件,系統200可執行一睡眠模式轉換216以讓系統200進入睡眠狀態。睡眠狀態可取決於一個或者多個因子,例如被替換之元件之類型、錯誤或者故障之嚴重程度等。睡眠狀態可包括睡眠狀態S3(214)以及睡眠狀態S4(212)。
睡眠狀態S3(214)可為深層睡眠狀態,系統係以低功率資源消耗之狀態運作。除此之外,當睡眠狀態S3(214)轉換回工作狀態S0(220)時,其具有較長之喚醒延遲。另一方面,睡眠狀態S4(212)可為最深層之睡眠狀態,系統係以最低之功率消耗之狀態運作。由於睡眠狀態S4(212)為最深層階段之睡眠,因此睡眠狀態S4(212)之喚醒延遲相較於所有睡眠狀態為最長之喚醒延遲。
如前所述,系統200可根據一個或者多個前述之因子自睡眠狀態S3(214)、睡眠狀態S4(212)、或者任何其它睡眠狀態轉換回工作狀態S0(220)。舉例來說,若硬體錯誤或者故障係與周邊裝置204(例如快捷外設互聯標準)有關,系統200可轉換為睡眠狀態S3(214)。當系統200於睡眠狀態S3(214)中時,使用者可將周邊元件204替換為替換之周邊元件。於周邊元件204被替換後,系統200可執行喚醒轉換218,以回到工作狀態S0(220)。
若硬體錯誤或者故障與記憶體206、處理器208、電源供應單元210有關,系統200可轉換為睡眠狀態S4(212),即為最深層之睡眠狀態。當系統200進入睡眠狀態S4(212)時,使用者可將出現故障之記憶體206、處理器208、或者電源供應單元210替換為替換之元件。於記憶體206、處理器208、或者電源供應單元210被替換後,系統200可執行喚醒轉換218,以回到工作狀態S0(220)。值得注意的是,特定睡眠狀態或者其它類型之狀態可變更介於輕度睡眠/其它類型之狀態或者深度睡眠/其它類型之狀態之間。
於一些配置中,替換元件可與被替換之元件相同。舉例來說,替換處理器可與被替換之處理器(例如處理器208)相同(例如相同之模組、品牌等)。如此可避免任何因替換所引起之資源衝突。除此之外,系統200可使用本發明所述之硬體替換機制以於沒有通常使用熱插或者熱插拔硬體修復機制之熱插拔設計電路或者硬體、韌體、和/或驅動程式之情況下替換硬體元件。替換元件亦可為與被替換元件不完全相同 但功能相同之替換元件。於一方面,系統所轉換之狀態之類型可依據替換元件是否為相同或者僅為相容來決定。
本領域技術人員將可理解,硬體替換之睡眠狀態機制可透過相較於第2圖更多或者更少之睡眠狀態實施。事實上,第2圖中之睡眠狀態(S0、S3、S4)僅用以作為清楚說明之目的,但並非以此為限。除此之外,除了第2圖中所示之元件外,亦可根據本發明之原則替換其它元件以及裝置。事實上,第2圖中之特定元件或者裝置(例如周邊元件204、記憶體206、處理器208、以及電源供應單元210)僅用以作為清楚說明之目的,但並非以此為限。
第3圖係顯示根據本發明一實施例所述之示範睡眠狀態表格300。睡眠狀態表格300可包括故障描述302之一欄、執行修復睡眠狀態304之一欄、以及修復睡眠狀態304中所定義之與特定睡眠狀態有關之延遲恢復306。
故障描述302可定義故障或者錯誤之位置或者來源。舉例來說,故障描述302可將位置或者來源定義為:處理器308、記憶體310、電源供應312、周邊裝置314、儲存裝置316、或者風扇318。
修復睡眠狀態304可將特定睡眠狀態與故障描述302中對應之元件匹配。舉例來說,處理器308、記憶體310、以及電源供應312皆可與睡眠狀態S4(320)匹配。周邊裝置314以及儲存裝置316皆可與睡眠狀態S3(322)匹配。風扇318可與睡眠狀態S1(324)匹配。
睡眠狀態S4(320)可具有最低之功率資源消耗, 睡眠狀態S3(322)可具有次低之功率資源消耗,以及睡眠狀態S1(324)可具有最高之功率資源消耗。每個上述睡眠狀態皆可具有個別之恢復至工作狀態或者一般操作狀態之延遲週期。
延遲恢復306可指示從睡眠狀態恢復至工作狀態或者一般操作狀態所對應之延遲。舉例來說睡眠狀態S1(324)可具有長的延遲330,睡眠狀態S3(322)具有更長之延遲328,以及睡眠狀態S4(320)具有最長之延遲326。對應之延遲326~330可至少一部份基於每個睡眠狀態個別之功率資源消耗設定。舉例來說,較低之功率資源消耗通常係導致恢復至工作狀態之延遲較長。
睡眠狀態表格300可包括對應至特定睡眠狀態之各種資源或者故障,以供硬體替換操作時使用。睡眠狀態表格300中之各種資源或者故障、睡眠狀態、以及延遲僅用以作為清楚說明之目的,但並非以此為限。
第4圖係顯示根據本發明一實施例所述之用以執行硬體修復或者替換程序之介於各個元件之間之示範通信400之示意圖。控制器110可監控(410)硬體元件404(例如記憶體104、隨機存取記憶體108、儲存裝置112、輸入裝置120、輸出裝置122、通信介面124、感測器126、處理器130、電源供應單元、風扇等)之健康。舉例來說,控制器110可監測與硬體元件404有關之錯誤或者故障之次數、錯誤或者故障之嚴重程度、錯誤或者故障之類型、錯誤或者故障之可恢復性、錯誤或者故障之起因、錯誤或者故障之性能結果、錯誤或者故障之位 置等。控制器110可於交流電源階段(AC power stage)424期間監測硬體元件404。
系統可自交流電源階段424轉換至直流電源階段426,並且接著開始由系統上之韌體134執行開機自我檢測,參考前述之第1A、1B圖。
於開始執行開機自我檢測428後,韌體134可致能具有一閥值計數器之RAS(可靠性、可用性、以及可維護性)特徵412。RAS特徵412可辨識特定硬體元件之錯誤或者故障,並保存錯誤或者故障之計數。計數可用以判斷硬體元件之替換是否為必要的。舉例來說,元件之錯誤或者故障之閥值數目可觸發替換動作。閥值亦可根據一個或者多個因子進行變更,例如元件之類型、錯誤或者故障之類型(例如永久性的、暫時性的、短暫的、間歇性的、嚴重的、驅動的、衝突的等)、錯誤或者故障之頻率、錯誤或者故障之嚴重程度等。
硬體元件404可回報硬體元件404所遇到之錯誤414給韌體134。硬體元件404可透過一中斷服務程序(interrupt service routine)回報錯誤,例如統一可延伸韌體介面(Unified Extensible Firmware Interface,UEFI)系統管理中斷(system management interrupt,SMI)。韌體134可接著回報416錯誤給控制器110。控制器110可將錯誤儲存於與控制器110相關之系統事件日誌中。控制器亦可將錯誤回報給系統管理員或者伺服器。舉例來說,控制器110可發送頻外(out-of-band,OOB)訊息給系統管理員以回報錯誤。
硬體元件404亦可回報錯誤418給作業系統402。於 一些實施例中,硬體元件404可透過進階組態與電源介面硬體錯誤來源查找表(hardware error source table,HEST)發送錯誤給作業系統402。
控制器110亦可發出睡眠狀態請求420給作業系統402。控制器110可透過基於具象狀態傳輸(representational state transfer,REST)機制之服務發送睡眠狀態請求給作業系統402,例如RESTful API。睡眠狀態請求可指定一特定之睡眠狀態,例如先前第3圖中所述之S3或者S4。特定睡眠狀態可基於錯誤或者故障之特定位置。舉例來說,發生於主要硬體元件(例如處理器、記憶體、電源供應器等)上之錯誤或者故障,特定睡眠狀態可為較深層之睡眠狀態(即具有較低功率資源消耗之睡眠狀態)。另一方面,發生於周邊裝置、外接裝置、或者輔助元件(例如快捷外設互聯標準)上之錯誤或者故障,睡眠狀態可為深層睡眠狀態(即具有低功率資源消耗,但並非為最低之功率資源消耗)。
當作業系統402接收到睡眠狀態請求時,若系統與虛擬環境(例如第1C圖中所述之虛擬環境170)有關,則可通知虛擬機器管理器。作業系統402亦可於進入睡眠狀態前停止一個或者多個應用程式或者驅動程式,例如與錯誤和/或出現故障之元件相關之應用程式或者驅動程式。作業系統可接著根據睡眠狀態請求讓系統進入待機430(即睡眠狀態)。待機狀態可為前述之特定睡眠狀態。
於待機狀態430期間,使用者或者系統管理員可將出現故障之元件替換為替換元件。使用者或者系統管理員可於 不重新開始或者重新啟動作業系統402之情況下替換出現故障之元件。為了避免發生衝突,替換元件可與被替換之出現故障元件相同。
於出現故障之元件被替換後,控制器110可發出喚醒請求422給作業系統402。喚醒請求可觸發喚醒作業系統402自待機狀態430轉換為工作狀態(例如第2圖所述之S0)。舉例來說,控制器110可透過RESTful API發出喚醒請求。
作業系統402可接收喚醒請求並轉換為工作狀態或者一般操作狀態。若系統與虛擬環境(例如第1圖所示之虛擬環境170)有關,則作業系統402亦可通知虛擬機器管理器。除此之外,作業系統402可於自待機狀態恢復後重新啟動任何停止之應用程式或者驅動程式。
介於各種元件之間之通信400可基於服務和/或介面之不同類型。舉例來說,韌體134可透過硬體介面434與硬體元件進行通信,例如可透過快捷外設互聯標準延伸配置空間平面記憶體映射存取機制讀取快捷外設互聯標準暫存器以及可透過CPU MSR指令讀取CPU IA32_MCi狀態之統一可延伸韌體介面基本輸入輸出系統。同樣地,硬體元件404可透過硬體介面134與作業402進行通信。除此之外,控制器110可透過智慧平台管理介面或者基於具象狀態傳輸之服務(例如RESTful)與韌體134進行通信。最後控制器可透過基於具象狀態傳輸架構之服務(例如RESTful API)與作業系統402進行通信。
第5圖係顯示根據本發明一實施例所述之透過虛擬機器管理器172恢復資源以及虛擬機器之示範錯誤修復表格 500。表格500包括特徵欄502、描述欄504、以及優先級欄506。表格500可指定故障偵測特徵508、減緩計畫510、以及虛擬機器備份以及還原功能512。
故障偵測特徵508可包括步驟514,包括自作業系統取得一錯誤通知、以及辨識故障之嚴重程度、位置以及數量。虛擬機器管理器172在此可讀取進階組態與電源介面硬體錯誤來源查找表以辨識特定錯誤和/或錯誤細節。除此之外,錯誤偵測特徵508可被分配一高優先級520。
減緩計畫510可包括步驟516,包括自資源池隔離出現故障之資源、重新分配新的資源給虛擬機器、以及關閉虛擬機器以及轉換至不同之伺服器。減緩計畫510可被分配一高優先級520。
虛擬機器備份以及還原功能512可包括步驟518,包括備份虛擬機器資料以避免資料遺失、於伺服器或者系統恢復健康後(例如修復後)還原虛擬機器資料。虛擬機器備份以及還原功能512可被分配一自選優先級。
表格500中各種字段以及元件僅用以作為清楚說明之目的,但並非以此為限。本發明亦可考慮其它之字段、元件、以及細節。
於揭露一些基本系統元件以及概念後,本發明接著進入第6~9圖所示之示範方法實施例。為了清楚說明,方法係以第1A圖所示之系統實施各個步驟。本發明所列出之步驟僅為示範實施例,可以任何組合實施,包括刪除、增加、或者修改某些步驟。
第6圖係顯示根據本發明一實施例所述之執行硬體修復機制之示範方法600。於步驟602,系統100可偵測與系統100有關之硬體錯誤。系統100可透過控制器110偵測錯誤。舉例來說,控制器100可監控系統100之硬體元件之健康,例如記憶體105、隨機存取記憶體108、儲存裝置112、輸入裝置120、輸出裝置122、通信介面124、處理器130、風扇(未顯示)、電源供應(未顯示)等。
系統100可判斷硬體錯誤之錯誤次數。舉例來說,系統100可判斷發生硬體錯誤情況之數目。系統100亦可判斷錯誤次數是否超過錯誤閥值。錯誤閥值可基於錯誤之預設次數或者計數(例如N次錯誤)、錯誤之發生頻率(例如Y時間週期中發生N次錯誤)、硬體錯誤之修復週期(例如自硬體錯誤修復花費N時間單位)等。除此之外,系統亦可判斷硬體錯誤之嚴重程度。舉例來說,系統100可判斷錯誤是否為嚴重錯誤或者不可修復之錯誤、判斷硬體錯誤是否會導致資料遺失、判斷硬體錯誤是否會導致中斷(例如系統元件、系統100、和/或服務之中斷)等。
於步驟604,系統100可辨識與硬體錯誤相關之系統元件。系統100可辨識硬體錯誤之來源或者位置。舉例來說,系統100可判斷錯誤係來自處理器130。系統元件可為,例如處理器、記憶體、電源供應單元、儲存裝置、風扇、周邊裝置(例如PCI、PCIe等)、外接卡等。
於步驟606,系統100可產生用以觸發系統100之作業系統之請求以讓系統進入特定操作狀態(例如睡眠狀態、休 眠狀態等)。舉例來說,系統100可透過控制器110產生請求。除此之外,控制器110可將請求傳送至作業系統以讓系統100進入特定操作狀態。
請求之產生可基於硬體錯誤之嚴重程度、錯誤次數、或者任何其它關於硬體錯誤之特性或者數量統計。舉例來說,請求之產生可基於判斷硬體錯誤是否為嚴重之錯誤和/或錯誤次數是否超過一錯誤閥值。
特定操作狀態可根據與錯誤相關之系統元件之元件類型決定。舉例來說,特定操作狀態可根據與錯誤相關之系統元件之識別碼決定(例如周邊裝置、處理器、記憶體、電源供應單元、風扇、硬碟等)。
如前所述,特定操作狀態可根據元件類型進行變更。舉例來說,當元件類行為周邊元件時,特定操作狀態可為第一睡眠狀態(例如S3 214),以及當元件類型為處理器、記憶體、或者電源供應單元時,特定操作狀態為第二睡眠狀態(例如S4 212)。於此實施例中,相較於第一睡眠狀態,第二睡眠狀態可具有較低之功率資源消耗和/或較長之恢復延遲。
作業系統可接收請求並讓系統100進入特定操作狀態。作業系統亦可停止任何與系統元件有關之驅動程式和/或應用程式。
於步驟608,於系統100進入特定操作狀態後,系統100可產生(例如透過控制器110)系統元件已被替換之指示。指示係指示系統元件可於不重新啟動系統100之作業系統、不安裝驅動程式或者軟體、重新配置系統元件、關閉系統 100等之情況下替換系統元件。
指示可根據判斷系統100是否進入特定操作狀態產生。如前所述,特定操作狀態可對應至與元件類型有關和/或適合於不關閉或者重新系統100之情況下進行替換之操作狀態。
於步驟610,系統元件被替換為替換系統元件。於步驟612,當系統元件被替換後,系統100可同替換系統元件恢復操作。系統100可根據操作之工作狀態或者一般狀態恢復操作。系統100可以最小或者有限制之中斷利用替換系統元件恢復一般操作。
於一些實施例中,恢復先前之工作或者一般操作狀態,系統100可檢查替換系統元件是否為相容替換系統元件。舉例來說,系統100可蒐集與系統元件以及替換系統元件相關之硬體資訊並比較硬體資訊,以判斷兩個元件之硬體資訊是否匹配或者實質上類似。系統100亦可判斷替換系統元件是否相同於或者實質上類似於系統元件。
除此之外,於判斷替換系統元件是否匹配時,系統100可判斷替換系統元件是否與系統元件為同一類型、具有相同之硬體配置、使用相同之韌體和/或軟體驅動程式、具有相同之資源需求等。系統100可根據相容性判斷結果產生指示。舉例來說,系統100可產生替換系統元件為相容或者不相容之指示。
若替換系統元件為相容,系統100可確定替換以及恢復操作。另外,若替換系統元件為不相容,系統100可拒絕 替換或者發出一警告。
若系統100為虛擬環境之一部份(例如包括虛擬機器等),系統100可恢復或者轉移虛擬機器之工作負載作為一部份之替換機制。舉例來說,系統100可停止虛擬機器之工作負載,並於替換系統元件完成替換以及系統100恢復或者已準備好恢復至一般或者工作操作後恢復虛擬機器之工作負載。
系統100可執行方法600之任何步驟以替換系統元件即使系統100並不具有熱插拔硬體、電路、驅動程式、設定等。舉例來說,本發明所述之系統100可將系統元件替換為替換系統元件即使系統100、系統元件、和/或替換系統元件並未提供熱插拔操作。
第7圖係顯示根據本發明一實施例所述之監控以及辨識系統中之硬體錯誤之示範方法700之流程圖。於步驟702,系統100可辨識以及分析系統100上之硬體錯誤。硬體錯誤可為系統上之系統元件之錯誤或者故障。除此之外,系統100可監控硬體元件以於當硬體元件發生錯誤時偵測到硬體錯誤。除此之外,系統100可判斷錯誤之狀態、錯誤之嚴重程度(例如嚴重的、不嚴重的、破壞性的、永久性的、暫時性的等)、錯誤之位置(例如來源元件或者驅動程式)、錯誤次數(例如錯誤之數目)等。
於步驟704,系統100可判斷錯誤是否超過閥值。若錯誤並未超過閥值,則系統100回到步驟702。另一方面,若錯誤超過閥值,則進入步驟706,系統偵測錯誤之來源。
於步驟708,系統100可判斷錯誤是否來自處理 器、記憶體、或者電源供應。於步驟710,系統100接著可發送睡眠狀態S4請求以讓系統100進入睡眠狀態S4。睡眠狀態S4可為最深層之睡眠狀態,其特徵為具有最低之功率資源消耗。
於步驟712,系統100可判斷錯誤是否來自周邊裝置。當錯誤來自周邊裝置時,進入步驟714,系統100發送睡眠狀態S3請求以讓系統100進入睡眠狀態S3。睡眠狀態S3可為具有低功率資源消耗之深層睡眠狀態。
於步驟716,系統100監控系統100之電源狀態以確認系統100是否如預期地響應步驟710或者714之睡眠狀態請求進入睡眠狀態。
於步驟718,系統判斷系統100是否進入睡眠狀態。若系統並未進入睡眠狀態,則系統100回到步驟716以監控電源狀態。相反地,若系統100已進入睡眠狀態,進入步驟720,系統100接著產生系統100已進入準備好執行與錯誤相關之系統元件之硬體替換之通知。使用者接著可替換系統元件當系統已準備好上述程序。
第8圖係顯示根據本發明一實施例所述之接續於方法700後檢查替換系統元件之示範方法800之流程圖。於步驟802,系統100可取得硬體替換已完成之指示。此時,系統元件已替換為替換系統元件。
於步驟804,系統100檢查恢復狀態以及錯誤來源。若恢復狀態為S3以及錯誤來源為周邊裝置,進入步驟806,系統100接著分析替換元件之硬體元件資訊(例如元件類型、元件版本、元件需求、元件驅動程式、元件識別碼等)。
另一方面,若恢復狀態為S4以及錯誤來源為處理器、記憶體、或者電源供應,進入步驟810,系統100確認直流電源供應為開啟並發起睡眠狀態S4之復原程序。於步驟812,系統100亦分析替換元件之硬體元件資訊。
於步驟806或者812完成分析硬體元件資訊後,於步驟808,系統100檢查硬體元件資訊。舉例來說,控制器110可複查替換系統元件之硬體細節。
於步驟814,系統100判斷替換系統元件是否相容於替換程序。舉例來說,系統100可判斷替換系統元件是否與被替換之系統元件相同。若替換系統元件與被替換之系統元件相同,系統100可判斷替換系統元件為相容的。於一些實施例中,系統100亦可判斷替換系統元件是否與被替換之系統元件具有相同之軟體(例如驅動程式)、配置、和/或系統需求。
於步驟820,若替換系統元件為相容的,系統100可恢復替換操作並允許作業系統完成替換動作。
相反地,若替換系統元件並不相容,且於步驟804系統100檢查恢復狀態為S3以及錯誤來源為周邊裝置,進入步驟816,系統100可拒絕S3復原程序。另一方面,若替換系統元件並不相容,且於步驟804系統100檢查恢復狀態為S4以及錯誤來源為處理器、記憶體、或者電源供應,進入步驟818,系統100關閉直流電源供應並拒絕S4復原程序。
第9圖係顯示根據本發明一實施例所述之判斷軟體之可恢復性之示範方法900之流程圖。於步驟902,系統100可運作RAS(可靠性、可用性、以及可維護性)系統管理中斷 (system management interrupt,SMI)服務程序。系統管理中斷可由統一可延伸韌體介面基本輸入輸出系統發起,以服務任何種類之伺服器硬體錯誤之發生、蒐集資訊、和/或記錄作業系統和/或控制器(例如基板管理控制器)之事件日誌。於步驟904,系統100接著可辨識錯誤來源。
於步驟906,系統100可執行機器檢查狀態。舉例來說,系統100可檢查IA32_Mci狀態。當機器檢查狀態為無效時,進入步驟908,系統100可檢查其它錯誤。於步驟918,系統100接著可發送回報任何錯誤之系統事件日誌。系統100可發送系統事件日誌至控制器110和/或進階組態與電源介面硬體錯誤來源查找表(ACPI HEST)。
若於步驟906之機器檢查狀態有效,進入步驟910,系統100可產生通知。通知可辨識錯誤以及請求修正。舉例來說,通知可指示發生錯誤以及需要軟體修正動作。
於步驟912,系統可建立對應於復原程序之新的系統事件日誌格式。於步驟914,系統100可判斷是否可透過韌體(例如韌體134)執行復原動作。
若無法透過韌體執行復原動作,系統100可移至步驟918,發送系統事件日誌。另一方面,若可透過韌體執行復原動作,進入步驟916,系統100可執行韌體復原(例如統一可延伸韌體介面復原)。於步驟918,系統100接著可發送系統事件日誌(例如透過控制器110和/或進階組態與電源介面硬體錯誤來源查找表)。
為了清楚說明,於一些實施例中,本發明之技術之 呈現係被表示為包括獨立之功能區塊,功能區塊包括裝置、裝置元件、透過軟體呈現之方法中之步驟或者程序、或者硬體以及軟體之組合。
於一些實施例中,計算機可讀取儲存裝置、介質、以及記憶體可包括包含位元串流之纜線或者無線信號等。然而,當提到非暫態計算機可讀取介質將明確地排除一些介質,例如能量、載波信號、電磁波、以及信號本身。
根據前述實施例之方法可透過利用儲存於計算機可讀取介質中或者以其它方式自計算機可讀取介質中取得之計算機可執行指令實現。上述之指令可包括例如致使或者以其它方式配置通用計算機、專用計算機、或者專用處理裝置以執行特定功能或者一組功能之指令以及資料。部分所使用之計算機資源可透過網路進行存取。計算機可執行指令可為例如二進制、中間格式指令(例如組合語言、韌體、或者原始碼)。計算機可讀取介質之範例可用以儲存指令、所使用之資料、和/或於執行本發明實施例所述之方法期間所產生之資訊,計算機可讀取介質可包括磁盤或者光碟、快閃記憶體、具有非揮發性記憶體之通用序列匯流排裝置、網路儲存裝置等。
實施根據本發明實施例所述之方法之裝置可包括硬體、韌體、和/或軟體,並可為任何各種外形。上述外形之代表示例包括筆記型電腦、智慧型手機、小尺寸之個人電腦、個人數位助理、框架安裝裝置(rackmount device)、獨立裝置(standalone device)等。本發明所述之功能可實施於周邊裝置中或者外接卡中。根據其它實施例,上述之功能亦可透過電 路板上不同之晶片實施或者透過單一裝置中不同之程序執行。
指令、傳輸上述指令之介質、執行上述指令之計算資源、以及提供上述計算資源之其它架構係為提供本發明所述之功能之方法。
儘管本發明所揭露之各種實施例以及其它資訊係用以解釋所附申請專利範圍之方面,申請專利範圍並非侷限於上述實施例之特定特徵或者配置,本領域技術人員可利用上述實施例推得出各種實施方案。更進一步地,儘管本發明一些標的係對特定之結構特徵和/或方法步驟之實施例進行描述,但必須理解的是,後附申請專利範圍之標的並不一定限於所述之特徵或動作。舉例來說,上述之功能可於配置於不同之元件或者於與本發明所揭露之元件不同之其它元件上執行。有關本發明所述之特徵以及步驟係可作為後附申請專利範圍中所述之系統以及方法之元件之實施例。
申請專利範圍當提到一組中之「至少一個」其範圍包括該組中之一個構件或該組中之多個構件。有形的計算機可讀取儲存介質、計算機可讀取儲存裝置、或者計算機可讀取記憶體裝置將明確地排除一些介質,例如短暫波(transitory wave)、能量、載波信號、電磁波、以及信號本身。
602~612‧‧‧步驟流程

Claims (10)

  1. 一種硬體修復方法,包括:偵測對應於一系統之一硬體錯誤;辨識對應於上述硬體錯誤之一系統元件;透過一基板管理控制器產生一睡眠狀態請求,上述睡眠狀態請求用以觸發上述系統之一作業系統以讓上述系統進入一特定睡眠狀態,上述特定睡眠狀態係根據上述系統元件之一元件類型所決定,其中上述特定睡眠狀態包括:一第一睡眠狀態,當上述元件類型為一周邊元件時;以及一第二睡眠狀態,當上述元件類型為一處理器、一記憶體、以及一電源供應單元之一者時;以及於上述系統進入上述特定睡眠狀態後,產生一指示以指示於不重新啟動上述系統之上述作業系統之情況下替換上述系統元件,其中上述指示係根據系統所進入對應於上述系統元件之上述元件類型之上述特定睡眠模式之一判斷所產生。
  2. 如申請專利範圍第1項所述之硬體修復方法,更包括:判斷上述硬體錯誤之一嚴重程度、上述硬體錯誤之一錯誤次數、以及上述硬體錯誤之一位置之至少一者,其中當上述嚴重程度指示上述硬體錯誤為不可修復的或者上述錯誤次數超過一閥值時,產生上述睡眠狀態請求,以及其中上述特定睡眠狀態係基於上述硬體錯誤之上述位置;蒐集上述系統之硬體資訊以判斷上述系統元件之一硬體配置; 判斷上述系統元件之上述硬體配置是否符合一替換系統元件之一對應硬體配置;於不重新啟動上述系統之上述作業系統、不重新佈署上述系統元件運作於上述系統中之一應用、或者不重新配置上述系統元件於上述系統中之硬體設定之情況下利用一替換系統元件替換上述系統元件;以及根據由上述系統元件透過一服務中斷所傳輸之一錯誤報告透過來自一系統韌體元件之上述基板管理控制器接收上述硬體錯誤之一通知;其中,上述系統元件包括一周邊元件、一第二處理器、一第二記憶體、或者一第二電源供應單元之一者,以及其中上述周邊元件包括一儲存元件、一外部連結標準元件、一快捷外設互聯標準元件、以及一風扇之一者,其中上述第二睡眠狀態相較於上述第一睡眠狀態係造成一較低之功率資源消耗以及一較長之恢復延遲;以及其中,上述系統並非基於一熱插拔設計,以及其中不使用一熱插或熱拔元件於上述系統中執行替換上述系統元件。
  3. 如申請專利範圍第1項所述之硬體修復方法,更包括:於上述系統元件被一替換元件替換後,判斷上述替換元件是否為一相容替換,判斷是否為上述相容替換之步驟包括:判斷是否與上述系統元件為一相同之系統元件類型;判斷是否與上述系統元件為一相同之硬體配置;判斷是否與上述系統元件為一相同之韌體或者軟體驅動相容性;以及 判斷是否與上述系統元件為一相同之資源需求。
  4. 如申請專利範圍第1項所述之硬體修復方法,更包括:偵測到上述系統元件已被一替換系統元件所替換;以及判斷上述替換系統元件是否相容,判斷之步驟包括:分析硬體元件資訊;以及判斷上述替換系統元件是否與上述系統元件為一相同之元件,其中當上述替換系統元件與上述系統元件為上述相同之元件時,判斷上述替換系統元件為相容,以及當上述替換系統元件與上述系統元件不為上述相同之元件時,判斷上述替換元件為不相容;以及當上述替換系統元件為相容時,致能上述系統元件與上述替換系統元件之一替換動作;以及當上述替換系統元件為不相容時,拒絕上述系統元件與上述替換系統元件之一替換動作。
  5. 如申請專利範圍第1項所述之硬體修復方法,其中上述系統包括虛擬機器管理器,上述方法更包括:判斷上述硬體錯誤是否影響上述虛擬機器管理器之一個或者多個虛擬機器所使用之資源;將上述資源自上述虛擬機器管理器之一資源池隔離出;以及重新分配一新的資源給上述一個或者多個虛擬機器。
  6. 一種硬體修復系統,包括:一處理器;以及一計算機可讀取儲存介質,具有指令儲存於其中,當上述 指令透過上述處理器執行時,上述處理器所執行之操作包括:偵測對應於一系統之一硬體錯誤;辨識對應於上述硬體錯誤之系統元件;透過基板管理控制器產生一睡眠狀態請求,上述睡眠狀態請求用以觸發上述系統之作業系統讓上述系統進入一特定睡眠狀態,上述特定睡眠狀態係根據上述系統元件之一元件類型所決定,其中上述特定睡眠狀態包括:一第一睡眠狀態,當上述元件類型為一周邊元件時;以及一第二睡眠狀態,當上述元件類型為一處理器、一記憶體、或者一電源供應單元之一者時;以及於上述系統進入上述特定睡眠狀態後,產生一指示以指示在不重新啟動上述系統之作業系統之情況下上述系統元件可被替換,其中上述指示係根據系統所進入對應於上述系統元件之上述元件類型之上述特定睡眠模式之一判斷所產生。
  7. 如申請專利範圍第6項所述之硬體修復系統,上述操作更包括:判斷上述硬體錯誤之一嚴重程度、上述硬體錯誤之一錯誤次數、以及上述硬體錯誤之一位置之至少一者,其中當上述嚴重程度指示上述硬體錯誤為不可修復的或者上述錯誤次數超過一閥值時,產生上述睡眠狀態請求,以及其中上述特定睡眠狀態係基於上述硬體錯誤之上述位置;蒐集上述系統之硬體資訊以判斷上述系統元件之一硬體配 置;以及判斷上述系統元件之上述硬體配置是否符合一替換系統元件之一對應硬體配置;於上述系統元件被一替換元件替換後,判斷上述替換元件是否為一相容替換,以及當上述替換元件被判斷為上述相容替換時,致能上述替換元件替換上述系統元件,其中判斷上述替換元件是否為上述相容替換之步驟包括:判斷是否與上述系統元件為一相同之系統元件類型;判斷是否與上述系統元件為一相同之硬體配置;判斷是否與上述系統元件為一相同之韌體或者軟體驅動相容性;以及判斷是否與上述系統元件為一相同之資源需求;其中,上述第二睡眠狀態相較於上述第一睡眠狀態係造成一較低之功率資源消耗以及一較長之恢復延遲。
  8. 如申請專利範圍第6項所述之硬體修復系統,上述操作更包括:偵測到上述系統元件已被一替換系統元件所替換;以及判斷上述替換系統元件是否相容,判斷之步驟包括:分析硬體元件資訊;以及判斷上述替換系統元件是否與上述系統元件為一相同之元件,其中當上述替換系統元件與上述系統元件為上述相同之元件時,判斷上述替換系統元件為相容,以及當上述替換系統元件與上述系統元件不為上述相同之元件時,判斷上述替換元件為不相容;以及 當上述替換系統元件為相容時,致能上述系統元件與上述替換系統元件之一替換動作;以及當上述替換系統元件為不相容時,拒絕上述系統元件與上述替換系統元件之一替換動作。
  9. 一種計算機可讀取儲存裝置,具有指令儲存於其中,當上述指令透過一處理器執行時,上述處理器所執行之操作包括:偵測對應於一系統之一硬體錯誤;辨識對應於上述硬體錯誤之系統元件;透過基板管理控制器產生一睡眠狀態請求,上述睡眠狀態請求用以觸發上述系統之作業系統讓上述系統進入一特定睡眠狀態,上述特定睡眠狀態係根據上述系統元件之一元件類型所決定,其中上述特定睡眠狀態包括:一第一睡眠狀態,當上述元件類型為一周邊元件時;以及一第二睡眠狀態,當上述元件類型為一處理器、一記憶體、或者一電源供應單元之一者時;以及於上述系統進入上述特定睡眠狀態後,產生一指示以指示在不重新啟動上述系統之作業系統之情況下上述系統元件可被替換,其中上述指示係根據系統所進入對應於上述系統元件之上述元件類型之上述特定睡眠模式之一判斷所產生。
  10. 如申請專利範圍第9項所述之計算機可讀取儲存裝置,上述操作更包括:判斷上述硬體錯誤之一嚴重程度、上述硬體錯誤之一錯誤 次數、以及上述硬體錯誤之一位置之至少一者,其中當上述嚴重程度指示上述硬體錯誤為不可修復的或者上述錯誤次數超過一閥值時,產生上述睡眠狀態請求,以及其中上述特定睡眠狀態係基於上述硬體錯誤之上述位置;蒐集上述系統之硬體資訊以判斷上述系統元件之一硬體配置;以及判斷上述系統元件之上述硬體配置是否符合一替換系統元件之一對應硬體配置;其中,上述系統元件包括一周邊元件、一第二處理器、一第二記憶體、或者一第二電源供應單元之一者,以及其中上述周邊元件包括一儲存元件、一外部連結標準元件、一快捷外設互聯標準元件、以及一風扇之一者。
TW105113043A 2016-02-24 2016-04-27 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置 TWI588649B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US15/052,430 US10360114B2 (en) 2016-02-24 2016-02-24 Hardware recovery systems

Publications (2)

Publication Number Publication Date
TWI588649B TWI588649B (zh) 2017-06-21
TW201730763A true TW201730763A (zh) 2017-09-01

Family

ID=58191291

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105113043A TWI588649B (zh) 2016-02-24 2016-04-27 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置

Country Status (5)

Country Link
US (1) US10360114B2 (zh)
EP (1) EP3211532B1 (zh)
JP (1) JP6530774B2 (zh)
CN (1) CN107122321B (zh)
TW (1) TWI588649B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI680369B (zh) * 2018-08-13 2019-12-21 廣達電腦股份有限公司 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US11366710B1 (en) 2021-02-23 2022-06-21 Quanta Computer Inc. Methods and systems for reducing downtime from system management mode in a computer system
TWI781452B (zh) * 2020-02-26 2022-10-21 廣達電腦股份有限公司 監控及復原異質性元件的系統及方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726001B2 (en) * 2017-07-31 2020-07-28 Oracle International Corporation Discovery and management of physical components
US10445201B2 (en) * 2017-10-05 2019-10-15 American Megatrends International, Llc System and method for automated integration and stress testing of hardware and software service in management controller using containerized toolbox
TWI685751B (zh) * 2018-04-10 2020-02-21 神雲科技股份有限公司 伺服器裝置的錯誤報告功能的控制方法
CN110471814B (zh) * 2018-05-11 2023-11-07 佛山市顺德区顺达电脑厂有限公司 服务器装置的错误报告功能的控制方法
CN109117335A (zh) * 2018-08-15 2019-01-01 浪潮电子信息产业股份有限公司 一种硬盘模拟热插拔测试方法、装置、终端及存储介质
CN109086089A (zh) * 2018-08-27 2018-12-25 郑州云海信息技术有限公司 一种硬件配置限定的方法、***及设备
CN111507483A (zh) * 2019-01-30 2020-08-07 鸿富锦精密电子(天津)有限公司 返修板检测装置、方法及计算机可读存储介质
RU2747474C2 (ru) * 2019-03-29 2021-05-05 Акционерное общество "Лаборатория Касперского" Способ асинхронного выбора совместимых продуктов
JP7351129B2 (ja) * 2019-07-26 2023-09-27 富士通株式会社 情報処理装置および情報処理装置の制御プログラム
CN111767181B (zh) * 2020-06-29 2021-11-02 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理***
US11314577B2 (en) * 2020-08-03 2022-04-26 Palo Alto Research Center Incorporated System and method for constructing fault-augmented system model for root cause analysis of faults in manufacturing systems
US11334447B2 (en) * 2020-08-27 2022-05-17 Nuvoton Technology Corporation Integrated circuit facilitating subsequent failure analysis and methods useful in conjunction therewith
CN114265489B (zh) * 2020-09-16 2023-10-27 富联精密电子(天津)有限公司 电源故障监测方法、装置、电子设备及存储介质
TWI766409B (zh) * 2020-10-28 2022-06-01 大陸商上海川源信息科技有限公司 資料存取系統
CN112466386B (zh) * 2020-12-07 2022-06-21 电子科技大学 一种面向故障分类的存储器测试***及方法
US20220191058A1 (en) * 2020-12-14 2022-06-16 Toyota Jidosha Kabushiki Kaisha On-board system, on-board system control method, and non-transitory recording medium
TWI776612B (zh) * 2021-07-28 2022-09-01 宇瞻科技股份有限公司 儲存裝置及其操作方法
US20230102099A1 (en) * 2021-09-22 2023-03-30 Texas Instruments Incorporated Techniques for peripheral utilization metrics collection and reporting
US20230125085A1 (en) * 2021-10-21 2023-04-27 EMC IP Holding Company LLC Data Center Restoration
CN114880266B (zh) * 2022-07-01 2022-09-23 深圳星云智联科技有限公司 故障处理的方法、装置、计算机设备和存储介质
CN116932303B (zh) * 2023-09-14 2023-12-29 合肥康芯威存储技术有限公司 一种存储测试设备及其测试方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4747041A (en) * 1983-06-27 1988-05-24 Unisys Corporation Automatic power control system which automatically activates and deactivates power to selected peripheral devices based upon system requirement
US5560022A (en) * 1994-07-19 1996-09-24 Intel Corporation Power management coordinator system and interface
US7099934B1 (en) * 1996-07-23 2006-08-29 Ewing Carrel W Network-connecting power manager for remote appliances
US6370657B1 (en) * 1998-11-19 2002-04-09 Compaq Computer Corporation Hot processor swap in a multiprocessor personal computer system
US6363452B1 (en) * 1999-03-29 2002-03-26 Sun Microsystems, Inc. Method and apparatus for adding and removing components without powering down computer system
US6584573B1 (en) * 1999-08-30 2003-06-24 Intel Corporation Placing a computer system into a sleeping state
US6571333B1 (en) * 1999-11-05 2003-05-27 Intel Corporation Initializing a memory controller by executing software in second memory to wakeup a system
EP1229430B1 (en) * 2001-01-30 2018-05-30 Hewlett-Packard Development Company, L.P. Power management system and method
TW594021B (en) * 2002-04-30 2004-06-21 Via Tech Inc Main computer board on/off testing device, method and system
US7100062B2 (en) * 2003-01-28 2006-08-29 Hewlett-Packard Development Company, L.P. Power management controller and method
TWI230328B (en) 2003-07-17 2005-04-01 High Tech Comp Corp Method and computer system for reducing occurrence of cold reset
US7155623B2 (en) * 2003-12-03 2006-12-26 International Business Machines Corporation Method and system for power management including local bounding of device group power consumption
US7254016B1 (en) * 2004-05-25 2007-08-07 Emc Corporation Data storage system with improved serviceability features
US7447934B2 (en) * 2005-06-27 2008-11-04 International Business Machines Corporation System and method for using hot plug configuration for PCI error recovery
US7984219B2 (en) * 2005-08-08 2011-07-19 Hewlett-Packard Development Company, L.P. Enhanced CPU RASUM feature in ISS servers
US20070074067A1 (en) * 2005-09-29 2007-03-29 Rothman Michael A Maintaining memory reliability
CN100538618C (zh) * 2006-07-18 2009-09-09 威盛电子股份有限公司 高存取效率的接口电路及方法
US7934121B2 (en) * 2006-11-21 2011-04-26 Microsoft Corporation Transparent replacement of a system processor
US7877358B2 (en) * 2006-11-21 2011-01-25 Microsoft Corporation Replacing system hardware
US8250382B2 (en) * 2007-08-22 2012-08-21 International Business Machines Corporation Power control of servers using advanced configuration and power interface (ACPI) states
US8082454B2 (en) * 2007-11-07 2011-12-20 International Business Machines Corporation Managing power consumption based on historical average
US20090164820A1 (en) * 2007-12-24 2009-06-25 Hewlett-Packard Development Company, L.P. Methods and apparatus for managing power on a computer in the event of a power interruption
US8024609B2 (en) * 2009-06-03 2011-09-20 International Business Machines Corporation Failure analysis based on time-varying failure rates
TW201209577A (en) * 2010-08-20 2012-03-01 Hon Hai Prec Ind Co Ltd Test system and method of restarting the computer
US9423847B2 (en) * 2011-12-20 2016-08-23 Advanced Micro Devices, Inc. Method and apparatus for transitioning a system to an active disconnect state
TWI482059B (zh) * 2012-07-06 2015-04-21 Wistron Corp 具觸控顯示模組的伺服器及其觸控顯示模組
US8990479B2 (en) * 2012-07-30 2015-03-24 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Using persistent memory regions within memory devices to collect serial presence detect and performance data
US9411762B2 (en) * 2013-03-15 2016-08-09 Intel Corporation Method and system for platform management messages across peripheral component interconnect express (PCIe) segments

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI680369B (zh) * 2018-08-13 2019-12-21 廣達電腦股份有限公司 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US10761926B2 (en) 2018-08-13 2020-09-01 Quanta Computer Inc. Server hardware fault analysis and recovery
TWI781452B (zh) * 2020-02-26 2022-10-21 廣達電腦股份有限公司 監控及復原異質性元件的系統及方法
US11366710B1 (en) 2021-02-23 2022-06-21 Quanta Computer Inc. Methods and systems for reducing downtime from system management mode in a computer system
TWI772024B (zh) * 2021-02-23 2022-07-21 廣達電腦股份有限公司 減少停機時間的方法及系統

Also Published As

Publication number Publication date
US10360114B2 (en) 2019-07-23
US20170242758A1 (en) 2017-08-24
EP3211532A1 (en) 2017-08-30
EP3211532B1 (en) 2021-03-31
JP6530774B2 (ja) 2019-06-12
TWI588649B (zh) 2017-06-21
CN107122321A (zh) 2017-09-01
JP2017224272A (ja) 2017-12-21
CN107122321B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
TWI588649B (zh) 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置
US9158628B2 (en) Bios failover update with service processor having direct serial peripheral interface (SPI) access
TWI571736B (zh) 自動除錯資訊收集之方法及系統
US9965367B2 (en) Automatic hardware recovery system
CN107479721B (zh) 远程多计算机切换技术的存储装置、***及方法
US8898517B2 (en) Handling a failed processor of a multiprocessor information handling system
US9329885B2 (en) System and method for providing redundancy for management controller
TW201931117A (zh) 遠端系統復原之方法
US9680712B2 (en) Hardware management and control of computer components through physical layout diagrams
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US9529410B2 (en) Service processor (SP) initiated data transaction with BIOS utilizing power off commands
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
JP6864718B2 (ja) ハイブリッド電源のシステム及び方法
US20190004818A1 (en) Method of UEFI Shell for Supporting Power Saving Mode and Computer System thereof
US11126517B2 (en) Method and system for communication channels to management controller
US10712795B2 (en) Power supply unit fan recovery process
US9697062B2 (en) Information processing device and method for monitoring a boot-up state of operating system
US20160179626A1 (en) Computer system, adaptable hibernation control module and control method thereof
US10782764B2 (en) Techniques of emulating an ACPI controller on a service processor
US20240012651A1 (en) Enhanced service operating system capabilities through embedded controller system health state tracking
KR20140125515A (ko) 내고장성 향상 시스템 및 그 구동 방법
TW201321953A (zh) 電源開機控制方法及其系統