TWI704463B - 伺服器系統與管理方法 - Google Patents

伺服器系統與管理方法 Download PDF

Info

Publication number
TWI704463B
TWI704463B TW108111294A TW108111294A TWI704463B TW I704463 B TWI704463 B TW I704463B TW 108111294 A TW108111294 A TW 108111294A TW 108111294 A TW108111294 A TW 108111294A TW I704463 B TWI704463 B TW I704463B
Authority
TW
Taiwan
Prior art keywords
management controller
nodes
computing
rack management
switch
Prior art date
Application number
TW108111294A
Other languages
English (en)
Other versions
TW202036318A (zh
Inventor
褚方傑
詹鵬
Original Assignee
英業達股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英業達股份有限公司 filed Critical 英業達股份有限公司
Priority to TW108111294A priority Critical patent/TWI704463B/zh
Application granted granted Critical
Publication of TWI704463B publication Critical patent/TWI704463B/zh
Publication of TW202036318A publication Critical patent/TW202036318A/zh

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本發明提供一種伺服器系統,包含下列元件。多個計算節點和多個存儲節點,於被致動後開始運作。一交換器,透過多個第一連接埠各別電性連接該些計算節點,以及透過多個第二連接埠各別電性連接該些存儲節點。一機櫃管理控制器,電性連接該些計算節點、該些存儲節點及該交換器,並於接獲一硬體需求時,根據該硬體需求控制該交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份。

Description

伺服器系統與管理方法
本發明係關於一種伺服器系統與管理方法,特別是一種基於機櫃管理控制器的伺服器系統與管理方法。
隨著大數據時代的來臨,因伺服器具有運算能力強且儲存空間大等特點,並且可透過網際網路對內網或外網提供服務,使得越來越多產業依賴伺服器處理大量的資料。
一般而言,伺服器的運算節點與存儲節點的物理特徵(例如:主板各元件的溫度、電壓與電源供應等)係由基板管理控制器(baseboard management controller,BMC)所監控,並將收集到的數據傳送給機櫃管理控制器(rack management controller,RMC)。此外,部分的伺服器架構亦可直接由機櫃管理控制器透過交換器(switch),直接監控各個運算節點與存儲節點的狀態,以簡化伺服器架構並省下維護基板管理控制器所需的成本。
然而,在前述的伺服器架構中,因受限於元件配置和交換器規格等因素,交換器與機櫃管理控制器、各節點之間往往只有單一連接埠連接。因此,當特定的節點(例如某一運算節點)或連接埠損壞時,伺服器便無法繼續使用對應的節點(例如連接至此運算節點的某一存儲節點),進而影響到正在執行的工作。
因此,目前尚需要一種伺服器系統與管理方法,以改善上述問題。
本發明在於提供一種伺服器系統與管理方法,所述伺服器系統的交換器能以多個連接埠連接機櫃管理控制器與各節點。當特定的連接埠或節點損壞時,機櫃管理控制器能透過其他連接埠控制運作所需的節點,提供更有效的伺服器系統管理方法,以改善先前技術所提及的問題。
本發明提供一種伺服器系統,包含下列元件。多個計算節點和多個存儲節點,於被致動後開始運作。一交換器,透過多個第一連接埠各別電性連接該些計算節點,以及透過多個第二連接埠各別電性連接該些存儲節點。一機櫃管理控制器,電性連接該些計算節點、該些存儲節點及該交換器,並於接獲一硬體需求時,根據該硬體需求控制該交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份。
本發明提供一種伺服器系統的管理方法,包含:以一機櫃管理控制器致動多個計算節點與多個存儲節點,並於該機櫃管理控制器接獲一硬體需求時,以該機櫃管理控制器根據該硬體需求控制該交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份。
本發明在於提供一種伺服器系統與管理方法,所述伺服器系統的交換器能以多個連接埠連接機櫃管理控制器與各節點。當特定的連接埠或節點損壞時,機櫃管理控制器能透過其他連接埠控制運作所需的節點。因此,所述的伺服器系統提供了更有效的伺服器管理方法,並改善先前技術所提及的問題。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理,並且提供本發明之專利申請範圍更進一步之解釋。
以下在實施方式中詳細敘述本發明之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
請參考圖1,圖1為本發明一實施例的伺服器系統的方塊結構圖。所述的伺服器系統包含多個計算節點11、多個存儲節點12、交換器13(switch)與機櫃管理控制器14(rack management controller,RMC)。
為說明計算節點11和存儲節點12,請繼續參考圖1。計算節點11和存儲節點12皆於被致動後開始運作;其中被致動的方式可以系統自動發送指令給節點,亦可由用戶自行輸入指令給節點。計算節點11和存儲節點12在接收指令後,便開始執行對應的運作(例如:計算節點11存取存儲節點12的資料並運算)。具體來說,計算節點11可配置為中央處理器(central processing unit,CPU)或其他具運算功能的元件,存儲節點12則可配置為修正錯誤記憶體(error-correcting code memory,ECC memory)、暫存器記憶體(registered memory,REG memory)或其他具有儲存功能的元件;本發明不以此為限。
為說明交換器13,請繼續參考圖1。交換器13係透過多個連接埠,與機櫃管理控制器14和各節點連接。詳細來說,交換器13係透過多個第一連接埠15各別電性連接上述的計算節點11,以及透過多個第二連接埠16各別電性連接上述的存儲節點12。此外,該些第一連接埠15與該些第二連接埠16可以是硬體規格支援積體電路匯流排(inter-integrated circuit bus,I2C bus)的連接埠。然而,依據不同的伺服器配置,該些第一連接埠15與該些第二連接埠16也可配置為硬體規格支援其他通訊匯流排的連接埠,本實施例不以此為限。於本實施例中,交換器13可以 SAS 交換器晶片實現。此外,於本實施例的一實施樣態中,上述的SAS 交換器晶片型號為PM8056。然而,交換器13的規格與型號亦可依照不同的伺服器配置而改變,本發明不以此為限。
為說明機櫃管理控制器14,請繼續參考圖1。機櫃管理控制器14係電性連接該些計算節點11、該些存儲節點12及交換器13。此外,當伺服器正在執行開機程序或是接收到外部指令時,機櫃管理控制器14會接獲一硬體需求。當機櫃管理控制器14接獲上述的硬體需求時,機櫃管理控制器14便會控制交換器13連接該些計算節點11的至少一部份到該些存儲節點12的至少一部份。舉例來說,硬體需求可包含該次工作所需的數據計算量與資料,機櫃管理控制器14可依據數據計算量判斷所需的計算節點11數量,以及依據上述的資料判斷需要選取的存儲節點12。當機櫃管理控制器14選定所需的計算節點11和存儲節點12時,便進一步控制交換器13將被選取的計算節點11連接到被選取的存儲節點12,以使該些計算節點11能存取該些存儲節點12的資料並執行運算。
承上所述,於實務上,該些計算節點11可包含複雜可程式化邏輯裝置(complex programmable logic device,CPLD)、實時時鐘(real-time clock,RTC)、溫度感測器(temperature sensor)、現場可更換單元(field replace unit,FRU)或其他能和計算節點11搭配運作的元件。值得一提的是,在本發明所揭示的伺服器系統中,機櫃管理控制器14可透過交換器13直接收集各計算節點11的資訊(例如:溫度、電壓和CPLD的韌體版本等),不需另外配置基板管理控制器(baseboard management controller,BMC)。因此,本發明所揭示的伺服器系統不但能簡化伺服器的架構,也能降低維護伺服器所需的成本。
另一方面,當計算節點11配置了複雜可程式化邏輯裝置時,計算節點11的運作情形係由機櫃管理控制器14所監控。一般而言,習知技術所提及「以基板管理控制器監控各計算節點」的伺服器架構,其複雜可程式化邏輯裝置係受控於基板管理控制器,因此複雜可程式化邏輯裝置的韌體於習知架構下係無法支援帶內升級。然而,在本發明的架構下,複雜可程式化邏輯裝置的韌體不僅能支援帶外(out-of-band)升級,且也能支援帶內(in-band)升級。詳細來說,帶外升級係可透過串列SCSI(serial attached SCSI,SAS)的高速拓樸網路,將複雜可程式化邏輯的韌體傳送到交換器13後,開始進行升級。另一方面,帶內升級則透過機櫃管理控制器14的連接埠,將複雜可程式化邏輯的韌體傳送到交換器13後開始進行;其中該連接埠可以硬體規格支援I2C匯流排的連接埠實現。此外,於本實施例的一實施樣態中,上述的串列SCSI係以SAS 3.0實現。然而,依據不同的傳輸速率需求,上述的串列SCSI亦可以其他版本實現,本實施例不以此為限。由上述說明可得知,本發明所揭示的伺服器系統亦提升了複雜可程式化邏輯裝置的韌體升級的便利性,讓用戶能更有彈性地選擇升級方式。
需補充的是,前述的串列SCSI為一種電腦集線的技術,其主要的功能係為電腦週邊零件(例如為硬碟、CD-ROM等)傳輸資料。另一方面,前述的SAS係串列SCSI的一種規格,支援2.5英寸的硬碟並採取直接的點對點(point-to-point)序列式傳輸方式。於前一段落提及的SAS 3.0為第三代SAS,其每一驅動器可提供 12.0 Gbps(12000 Mbps)的傳輸速率。
請參考圖2,圖2為本發明一實施例的伺服器系統的管理方法的流程圖。請參考步驟S0:機櫃管理控制器致動多個計算節點與多個存儲節點。詳細來說,當伺服器的電源被啟動時,機櫃管理控制器會致動該些計算節點與該些存儲節點,使該些計算節點與該些存儲節點進入待機(stand-by)狀態,以供後續的運作使用。當伺服器完成開機程序並產生與運算相關的指令時,請參考步驟S1:機櫃管理控制器根據硬體需求,控制交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份。詳細來說,當伺服器產生與運算相關的指令時,機櫃管理控制器會接獲關聯於該指令的硬體需求,並依據該硬體需求從所有的節點中選取運作所需的計算節點和存儲節點。當機櫃管理控制器完成選取運作所需的計算節點和存儲節點時,能更進一步地控制交換器將被選取的計算節點連接到被選取的存儲節點,以執行相關的運算。
請參考圖3,圖3為本發明一實施例的伺服器系統的管理方法的步驟S1的細部流程圖。承前所述,當機櫃管理控制器接獲硬體需求時,請參考步驟S11:機櫃管理控制器控制交換器連接該些計算節點的其中之一到該些存儲節點的其中之一。具體來說,該些計算節點的其中之一即為被機櫃管理控制器選取的計算節點,該些存儲節點的其中之一則為被機櫃管理控制器選取的存儲節點。當機櫃管理控制器控制交換器連接該些計算節點的其中之一到該些存儲節點的其中之一時,請參考步驟S12:機櫃管理控制器判斷被連接的計算節點是否能提供硬體需求所需的數據計算量;其中被連接的計算節點即為被機櫃管理控制器選取的計算節點。當機櫃管理控制器判斷被連接的計算節點能提供該硬體需求所需的數據計算量時,請參考步驟S13:計算節點根據存儲節點的資料執行運算,計算節點的運作情形則由機櫃管理控制器所監控。
承上所述,當機櫃管理控制器判斷被連接的計算節點不能提供硬體需求所需的數據計算量時,請參考步驟S14:機櫃管理控制器控制交換器連接該些計算節點的另一個到該些存儲節點的其中之一。詳細來說,當機櫃管理控制器當前選取的計算節點無法負荷前述的數據計算量,機櫃管理控制器需要從其他未被選取的計算節點中,再次根據當前的數據計算量選取所需的計算節點,以提供足夠負荷當前的數據計算量的運算效能。由此可知,當伺服器的數據計算量突然增加時(例如:特殊節日導致網路購物量增加,或是線上遊戲舉辦特別活動使網路流量增加等),機櫃管理控制器能即時依據數據計算量的變化,透過交換器靈活地調配計算節點。另一方面,當運轉中的計算節點或使用中的連接埠突然故障時,機櫃管理控制器也能即時透過交換器選擇其他可運作的計算節點或連接埠,使當前的計算工作能持續進行。
綜上所述,本發明在於提供一種伺服器系統與管理方法,所述伺服器系統的交換器能以多個連接埠連接機櫃管理控制器與各節點。當特定的連接埠或節點損壞時,機櫃管理控制器能透過其他連接埠控制運作所需的節點。此外,機櫃管理控制器更能依據數據運算量的變化,即時調整運算節點和存儲節點的運作數量。因此,所述的伺服器系統提供了更靈活的伺服器管理方法,並有效地改善先前技術所提及的問題。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
11:計算節點 12:存儲節點 13:交換器 14:機櫃管理控制器 15:第一連接埠 16:第二連接埠
圖1為本發明一實施例的伺服器系統的方塊結構圖。 圖2為本發明一實施例的伺服器系統的管理方法的流程圖。 圖3為本發明一實施例的伺服器系統的管理方法的細部流程圖。
11:計算節點
12:存儲節點
13:交換器
14:機櫃管理控制器
15:第一連接埠
16:第二連接埠

Claims (10)

  1. 一種伺服器系統,包含: 多個計算節點和多個存儲節點,於被致動後開始運作; 一交換器,透過多個第一連接埠各別電性連接該些計算節點,以及透過多個第二連接埠各別電性連接該些存儲節點;以及 一機櫃管理控制器,電性連接該些計算節點、該些存儲節點及該交換器,並於接獲一硬體需求時,根據該硬體需求控制該交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份。
  2. 如請求項1所述的伺服器系統,其中該機櫃管理控制器係根據該硬體需求,控制該交換器連接該些計算節點的其中之一到該些存儲節點的其中之一,並判斷被連接的該計算節點是否能提供該硬體需求所需的數據計算量;當該機櫃管理控制器判斷被連接的該計算節點能提供該硬體需求所需的數據計算量,以該計算節點根據該存儲節點的資料執行運算;當該機櫃管理控制器判斷被連接的該計算節點不能提供該硬體需求所需的數據計算量,以該機櫃管理控制器控制該交換器連接該些計算節點的另一個到該些存儲節點的其中之一。
  3. 如請求項1所述的伺服器系統,其中該些第一連接埠與該些第二連接埠的硬體規格係支援積體電路匯流排。
  4. 如請求項1所述的伺服器系統,其中該些計算節點包含一複雜可程式化邏輯裝置。
  5. 如請求項1所述的伺服器系統,其中該些計算節點包含一實時時鐘。
  6. 如請求項1所述的伺服器系統,其中該些計算節點包含一溫度感測器。
  7. 如請求項1所述的伺服器系統,其中該些計算節點包含一現場可更換單元。
  8. 一種伺服器系統的管理方法,包含: 以一機櫃管理控制器致動多個計算節點與多個存儲節點;以及 於該機櫃管理控制器接獲一硬體需求時,以該機櫃管理控制器根據該硬體需求控制一交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份。
  9. 如請求項8所述的管理方法,其中於該機櫃管理控制器接獲該硬體需求時,以該機櫃管理控制器根據該硬體需求控制該交換器連接該些計算節點的至少一部份到該些存儲節點的至少一部份,包含: 該機櫃管理控制器控制該交換器連接該些計算節點的其中之一到該些存儲節點的其中之一; 以該機櫃管理控制器判斷被連接的該計算節點是否能提供該硬體需求所需的數據計算量; 當該機櫃管理控制器判斷被連接的該計算節點能提供該硬體需求所需的數據計算量,以該計算節點根據該存儲節點的資料執行運算;以及 當該機櫃管理控制器判斷被連接的該計算節點不能提供該硬體需求所需的數據計算量,以該機櫃管理控制器控制該交換器連接該些計算節點的另一個到該些存儲節點的其中之一。
  10. 如請求項8所述的管理方法,其中該交換器係透過積體電路匯流排連接該些計算節點與該些存儲節點。
TW108111294A 2019-03-29 2019-03-29 伺服器系統與管理方法 TWI704463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108111294A TWI704463B (zh) 2019-03-29 2019-03-29 伺服器系統與管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108111294A TWI704463B (zh) 2019-03-29 2019-03-29 伺服器系統與管理方法

Publications (2)

Publication Number Publication Date
TWI704463B true TWI704463B (zh) 2020-09-11
TW202036318A TW202036318A (zh) 2020-10-01

Family

ID=73644194

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108111294A TWI704463B (zh) 2019-03-29 2019-03-29 伺服器系統與管理方法

Country Status (1)

Country Link
TW (1) TWI704463B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102132255A (zh) * 2008-05-29 2011-07-20 思杰***有限公司 故障切换时使用备份虚拟服务器的指标通过多个虚拟服务器负载平衡的***和方法
US20130010787A1 (en) * 2011-07-08 2013-01-10 Quanta Computer Inc. Rack server system
TW201327144A (zh) * 2011-12-21 2013-07-01 Inventec Corp 雲端伺服系統的管理方法
CN107239346A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种整机柜计算资源池节点及计算资源池化架构
TW201800952A (zh) * 2016-06-16 2018-01-01 廣達電腦股份有限公司 機箱管理系統及機箱管理方法
TW201905727A (zh) * 2017-06-19 2019-02-01 廣達電腦股份有限公司 配置多機箱鏈路的方法與系統及其儲存媒體

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102132255A (zh) * 2008-05-29 2011-07-20 思杰***有限公司 故障切换时使用备份虚拟服务器的指标通过多个虚拟服务器负载平衡的***和方法
US20130010787A1 (en) * 2011-07-08 2013-01-10 Quanta Computer Inc. Rack server system
TW201327144A (zh) * 2011-12-21 2013-07-01 Inventec Corp 雲端伺服系統的管理方法
TW201800952A (zh) * 2016-06-16 2018-01-01 廣達電腦股份有限公司 機箱管理系統及機箱管理方法
CN107239346A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种整机柜计算资源池节点及计算资源池化架构
TW201905727A (zh) * 2017-06-19 2019-02-01 廣達電腦股份有限公司 配置多機箱鏈路的方法與系統及其儲存媒體

Also Published As

Publication number Publication date
TW202036318A (zh) 2020-10-01

Similar Documents

Publication Publication Date Title
US10402207B2 (en) Virtual chassis management controller
US9208047B2 (en) Device hardware agent
US8948000B2 (en) Switch fabric management
US9804937B2 (en) Backup backplane management control in a server rack system
US8880937B2 (en) Reducing impact of a repair action in a switch fabric
US8745437B2 (en) Reducing impact of repair actions following a switch failure in a switch fabric
TWI647993B (zh) 控制伺服器機櫃中氣流之系統及方法
US9329653B2 (en) Server systems having segregated power circuits for high availability applications
US20200314172A1 (en) Server system and management method thereto
US10852792B2 (en) System and method for recovery of sideband interfaces for controllers
US10853204B2 (en) System and method to detect and recover from inoperable device management bus
TWI704463B (zh) 伺服器系統與管理方法
US20240103836A1 (en) Systems and methods for topology aware firmware updates in high-availability systems
TWI611290B (zh) 伺服器機櫃監控方法
US20240103971A1 (en) Systems and methods for error recovery in rebootless firmware updates
KR102495712B1 (ko) 스토리지 시스템 및 스토리지 시스템의 작동 모드를 전환하기 위한 방법
TWI525449B (zh) 伺服器控制方法及機架控制器
US10409940B1 (en) System and method to proxy networking statistics for FPGA cards
US20190197003A1 (en) Systems and methods for managing serial attached small computer system interface (sas) traffic with storage monitoring
US20240103720A1 (en) SYSTEMS AND METHODS FOR SUPPORTING NVMe SSD REBOOTLESS FIRMWARE UPDATES
US20240095020A1 (en) Systems and methods for use of a firmware update proxy
US20240103825A1 (en) Systems and methods for score-based firmware updates
US20240103829A1 (en) Systems and methods for firmware update using multiple remote access controllers
US20240103846A1 (en) Systems and methods for coordinated firmware update using multiple remote access controllers
US20240103832A1 (en) Systems and methods for adaptive firmware updates