TWI540862B - 有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法 - Google Patents

有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法 Download PDF

Info

Publication number
TWI540862B
TWI540862B TW100133390A TW100133390A TWI540862B TW I540862 B TWI540862 B TW I540862B TW 100133390 A TW100133390 A TW 100133390A TW 100133390 A TW100133390 A TW 100133390A TW I540862 B TWI540862 B TW I540862B
Authority
TW
Taiwan
Prior art keywords
organization
server
computing device
switch
node
Prior art date
Application number
TW100133390A
Other languages
English (en)
Other versions
TW201230724A (en
Inventor
馬克B 戴維斯
大衛J 波蘭德
Original Assignee
Iii控股2有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iii控股2有限公司 filed Critical Iii控股2有限公司
Publication of TW201230724A publication Critical patent/TW201230724A/zh
Application granted granted Critical
Publication of TWI540862B publication Critical patent/TWI540862B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/40Constructional details, e.g. power supply, mechanical construction or backplane
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • H04L49/101Packet switching elements characterised by the switching fabric construction using crossbar or matrix

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Small-Scale Networks (AREA)
  • Multi Processors (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法 優先權主張/相關申請案
本申請案依專利法主張2010年6月7日申請之標題名稱為「System and Method for High-Performance,Low-Power Data Center Interconnect Fabric」之美國專利申請案第12/794,996號之優先權,該案之全部內容以引用之方式併入本文中。另外,本專利申請案依專利法主張2010年9月16日申請之標題名稱為「Performance and Power Optimized Computer System Architectures and Methods Leveraging Power Optimized Tree Fabric Interconnect」之美國臨時專利申請案第61/383,585號之權益,該案之全部內容以引用之方式併入本文中。
發明領域
本發明係有關於有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法。
發明背景
第1圖及第2圖圖示如當前熟知的傳統資料中心網路聚合。第1圖圖示典型網路資料中心架構100之簡圖,其中頂層交換器101a-n處於支架102a-n之頂部,支架102a-n裝滿刀鋒型伺服器107a-n,刀鋒型伺服器107a-n散佈有本地端路由器103a-f。105a-b及額外支架單元108a-n含有額外伺服器104e-k及路由器106a-g。第2圖圖示具有佈置於邊緣路由器系統112a-h周圍之周邊伺服器111a-bn之系統的示例性實體視圖110,邊緣路由器系統112a-h置放於中心定位核心交換系統113周圍。通常,此聚合110具有自支架伺服器至該等支架伺服器之架頂式交換器之1-Gb乙太網路,及通常至邊緣及核心路由器之10 Gb乙太網路埠。
依據本發明之一實施例,係特地提出一種計算裝置,該計算裝置包含:多個伺服器節點,其中每一伺服器節點皆包括彼此互連之一處理器、一記憶體、一輸入/輸出電路及一組織交換器;藉由多個組織鏈路將該等多個伺服器節點互連於一起的一組織交換器;以及一或更多乙太網路逸出口,該一或更多乙太網路逸出口來自該組織交換器,該一或更多乙太網路逸出口形成一功率最佳化伺服器組織。
依據本發明之另一實施例,係特地提出一種計算裝置,該計算裝置包含:一儲存裝置,該儲存裝置具有一形狀因子;一伺服器節點,其中該伺服器節點包括一處理器、一記憶體、一輸入/輸出電路、一交換組織及用於該儲存裝置之一或更多SATA介面,該伺服器節點具有與該儲存裝置相同之形狀因子。
依據本發明之又一實施例,係特地提出一種用於產生一高密度計算系統之方法,該方法包含以下步驟:提供一伺服器節點,該伺服器節點具有一處理器、一記憶體、一輸入/輸出電路、一交換組織及一或更多SATA介面;以及將該伺服器節點封裝進一硬碟驅動機之一形狀因子中。
依據本發明之再一實施例,係特地提出一種用於產生一高密度計算系統之方法,該方法包含以下步驟:提供一標準形狀因子碟片驅動機;以及將一伺服器節點整合進該標準形狀因子碟片驅動機中,該伺服器節點具有一處理器、一記憶體、一輸入/輸出電路、一交換組織及一或更多SATA介面,其中在該標準形狀因子碟片驅動機內提供整合式計算能力。
依據本發明之另一實施例,係特地提出一種計算裝置,該計算裝置包含:一電路板;安裝在該電路板上之一或更多動態記憶體晶片;安裝至該電路板的一或更多計算晶片;安裝至該電路板的一或更多快閃記憶體晶片;其中該電路板係垂直安裝,以便該一或更多快閃記憶體晶片處於該一或更多計算晶片下方,且該一或更多動態記憶體晶片處於該一或更多計算晶片上方;該垂直安裝之電路板之一煙囪式冷卻器。
依據本發明之又一實施例,係特地提出一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;一組織交換器,該組織交換器連接至該匯流排組織,該組織交換器將資料自該計算裝置輸出至一或更多埠;以及一或更多路由標頭處理器,其中每一路由標頭處理器用來依路由傳遞一特定傳送串流,以便該組織交換器處理不同傳送串流。
依據本發明之再一實施例,係特地提出一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;一組織交換器,該組織交換器連接至該匯流排組織,該組織交換器將資料自該計算裝置輸出至一或更多埠;連接於該匯流排組織與該交換組織之間的一匯流排協定橋接器;以及一或更多路由標頭處理器,其中每一路由標頭處理器用來依路由傳遞一特定傳送串流,以便該組織交換器處理不同傳送串流。
依據本發明之另一實施例,係特地提出一種用於交換不同傳送串流之方法,該方法包含以下步驟:提供一或更多處理器及連接至該一或更多處理器之一匯流排組織;提供連接至該匯流排組織之一組織交換器,該組織交換器將資料自計算裝置輸出至一或更多埠;以及使用一或更多路由標頭處理器來交換一特定傳送串流,以便該組織交換器處理不同傳送串流。
依據本發明之又一實施例,係特地提出一種使用一交換組織進行負載平衡之方法,該方法包含以下步驟:提供一伺服器節點,該伺服器節點具有一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一組織交換器,該組織交換器將資料自該計算裝置輸出至一或更多埠;以及連接至該組織交換器之一IP虛擬伺服器;接收一進入請求;將該進入請求依路由傳遞至連接至該組織交換器之該IP虛擬伺服器;使用連接至該組織交換器之該IP虛擬伺服器產生針對該組織之一特定節點之一路由標頭;將該進入請求轉發至該特定節點;以及使用該特定節點處理該進入請求以提供負載平衡。
依據本發明之再一實施例,係特地提出一種使用一交換組織進行處理之方法,該方法包含以下步驟:提供一伺服器節點,該伺服器節點具有一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一組織交換器,該組織交換器將資料自計算裝置輸出至一或更多埠;以及連接至該組織交換器之一開放流裝置;接收一進入請求;將該進入請求依路由傳遞至連接至該組織交換器之該開放流裝置;使用該開放流裝置產生針對該組織之一特定節點之一路由標頭;將該進入請求轉發至該特定節點;使用該特定節點處理該進入請求以提供負載平衡;以及將該經處理進入請求送回至該開放流裝置。
依據本發明之另一實施例,係特地提出一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一組織交換器,該組織交換器將資料自該計算裝置輸出至一或更多埠;連接至該匯流排組織之一PCIe介面;以及使用該PCIe介面連接至該計算裝置之一外部處理器。
依據本發明之又一實施例,係特地提出一種計算裝置,該計算裝置包含:一組織交換器,該組織交換器將資料自該計算裝置輸出至一或更多埠;連接至該組織交換器之一乙太網路埠;以及使用一乙太網路介面連接至該計算裝置之一外部處理器。
圖式簡單說明
第1圖及第2圖圖示典型資料中心網路聚合;
第3圖圖示根據一個實施例之使用伺服器之網路聚合;
第4圖圖示根據一個實施例之支架中之資料中心;
第5圖圖示具有交換組織之網路系統之高階拓撲;
第6圖圖示伺服器板,該伺服器板組成多個伺服器節點,該多個伺服器節點與所述點對點互連結構互連;
第6a圖-第6c圖圖示組織拓撲之另一實例;
第7圖圖示被動底板之實例,該被動底板連接至一或更多節點板及兩個聚合板;
第8圖圖示延伸組織越過架子及鏈接架子越過伺服器支架之實例;
第9a圖圖示具有碟片形狀因子之示例性伺服器700;
第9b圖及第9c圖圖示根據一個實施例之碟片-伺服器組合之示例性陣列,該碟片-伺服器組合使用儲存伺服器1節點SATA板;
第9d圖圖示標準3.5吋驅動機;
第9e圖圖示標準3.5吋碟片驅動機形狀因子中之多個伺服器節點之實施;
第10圖圖示與儲存器深入整合之伺服器之實施;
第11圖圖示有效利用現有3.5吋JBOD儲存盒之儲存器與伺服器之緊密堆積的實施;
第12圖圖示在2.5吋驅動機之相同形狀因子中例證之伺服器節點的實施;
第13圖圖示支架煙囪冷卻之實施;
第13a圖圖示用於第13圖中所示之煙囪支架冷卻中之熱對流的示例性說明;
第14圖圖示伺服器節點,該等伺服器節點以相對於彼此成對角之方式置放,以最小化越過伺服器節點之自熱;
第15圖圖示根據一個實施例之示例性16節點系統,其中熱浪自印刷電路板上升;
第16圖圖示具有類似地經佈置以最小化越過節點之自熱之節點的16節點系統之較高密度變體;
第17圖圖示伺服器節點組織交換器之內部架構;
第18圖圖示伺服器節點,該伺服器節點包括PCIe控制器,該PCIe控制器連接至內部CPU匯流排組織;
第18a圖圖示具有使用組織交換器之多個協定橋接器的系統;
第19圖圖示伺服器組織與網路處理器之整合;
第20圖圖示組織交換器及FPGA,該FPGA提供諸如網際網路協定虛擬伺服器(Internet Protocol Virtual Server;IPVS)之服務;
第21圖圖示將開放流(OpenFlow)流程處理構建為Calxeda組織之方法;
第22圖圖示功率最佳化組織交換器經由PCIe整合至現有處理器之一個實例;以及
第23圖圖示功率最佳化組織交換器經由乙太網路整合至現有處理器之一個實例。
較佳實施例之詳細說明
本發明揭示有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法。一個實施例使用瓦片式(tile)構建塊來構建有效利用組織之低功率伺服器叢集,而另一實施例實施儲存解決方案或冷卻解決方案。另一實施例使用組織交換其他事物。
同在申請中之專利申請案第12/794,996號描述功率最佳化伺服器通訊組織之架構,該功率最佳化伺服器通訊組織使用樹狀拓撲或圖形拓撲支援路由,該樹狀拓撲或圖形拓撲在拓撲內每一節點支援多個鏈路,其中每一鏈路係指定為上行鏈路、下行鏈路或橫向鏈路。系統使用分段MAC架構,該分段MAC架構可具有重新目的化用於內部MAC及外部MAC之MAC IP位址,及有效利用通常將為用於MAC之實體信號傳遞以饋送至交換器之機制的方法。Calxeda XAUI系統互連結構減小功率、導線及支架之大小。在個別伺服器上不需要高功率、昂貴的乙太網路交換器及高功率乙太網路實體層(Phy)。此舉顯著減少電纜(電纜複雜性、成本、故障之重要來源)。此舉亦賦能支架內之異質伺服器混合,從而支援使用乙太網路或SATA或PCIe之任何設備。在此架構中,功率節省主要來自兩個架構態樣:1)越過組織之乙太網路實體層之最小化,在節點之間以點對點XAUI互連結構替換該等乙太網路實體層,及2)基於負載動態調整鏈路之XAUI寬度及速度之能力。
第3圖圖示網路聚合200。此網路支援聚合路由器202與三個支架203a-c之間的10-Gb/sec乙太網路通訊201(粗線)。在支架203a中,Calxeda互連結構組織提供支架內之架子上之伺服器206a-d之間的多個高速10 Gb路徑,該等路徑由粗線表示。伺服器206a-d中之嵌式交換器可替換架頂式(top-of-rack)交換器,因此節省大量功率及成本,同時仍提供10 Gb乙太網路埠至聚合路由器。Calxeda交換組織可將傳統乙太網路(1 Gb或10 Gb)整合至Calxeda XAUI組織中,且Calxeda伺服器可充當用於第三方乙太網路連接伺服器之架頂式交換器。
中間支架203b圖示另一情況,其中Calxeda伺服器206e、206f可整合至現有資料中心支架中,該等現有資料中心支架含有架頂式交換器208a。在此狀況下,IT群組可持續使該IT群組之其他伺服器經由1 Gb乙太網路向上連接至現有架頂式交換器。可經由Calxeda 10 Gb XAUI組織連接Calxeda內部伺服器,且可使用1 Gb或10 Gb乙太網路互連結構將該等Calxeda內部伺服器向上整合至現有架頂式交換器。右側之支架203c為以傳統方式佈署資料中心支架之當前方式。細紅線表示1 Gb乙太網路。因此,傳統上,資料中心支架之當前部署為1 Gb乙太網路向上連接至架頂式交換器308b,且然後10 Gb(粗紅線201)自架頂式交換器輸出至聚合路由器。應注意,所有伺服器以未知數量存在,然而在此出於清晰性及簡明性之目的以有限數量來圖示該等伺服器。又,藉由使用加強Calxeda伺服器,不需要額外路由器,因為該等加強Calxeda伺服器操作自己的XAUI交換組織,如下文所述。
第4圖圖示根據一個實施例之示例性「支架中資料中心」400之概觀。支架中資料中心400具有10-Gb乙太網路實體層401a-n及1-Gb專用乙太網路實體層402。大型電腦(功率伺服器)403a-n支援搜尋;資料探勘;索引;Hadoop、Java軟體框架;MapReduce,亦即由Google引入以支援電腦之叢集上之大型資料集上之分散式計算的軟體框架;雲端應用程式等。具有區域快閃記憶體及/或固態碟片(solid-state disk;SSD)之電腦(伺服器)404a-n支援搜尋、MySQL、CDN、軟體即服務(software-as-a-service;SaaS)、雲端應用程式等。單一大型低速風扇405擴充單一大型低速風扇405上方垂直安裝之伺服器之對流冷卻。資料中心400具有例如集束碟片(Just a Bunch of Disks;JBOD)配置中之硬碟,及任擇地碟片形狀因子中之Calxeda伺服器(陣列406及407中之綠框)之陣列406,該等Calxeda伺服器任擇地充當碟片控制器。硬碟伺服器或Calxeda碟片伺服器可用於網路伺服器、使用者應用程式及雲端應用程式等。亦圖示儲存伺服器之陣列407,及具有用於舊有應用程式之標準乙太網路介面之歷史伺服器408a、408b(任何大小、任何供應商)。
第5圖圖示在同在申請中之專利申請案第12/794,996號中描述之網路系統之高階拓撲500,該案說明由交換組織連接之XAUI連接SoC節點。10 Gb乙太網路埠Eth0 501a及Eth1 501b來自樹之頂部。卵形502a-n為Calxeda節點,該等Calxeda節點包含計算處理器及嵌式交換器兩者。節點具有連接至內部交換器之五個XAUI鏈路。交換層將所有五個XAUI鏈路用於交換。層次0葉節點502d、502e(亦即,N0n節點或Nxy,其中x=層次且y=項目號碼)僅使用一個XAUI鏈路以附接至互連結構,從而留下可用作附接至I/O之XAUI、10 Gb以太網路、PCIe、SATA等之四個高速埠。絕大多數樹及粗樹僅具有如葉節點之有效節點,而其他節點為純交換節點。此方法使得路由更加直接。拓撲500具有靈活性以容許每一節點成為組合計算及交換節點,或僅為交換節點。大多數樹類型實施在葉節點上具有I/O,但是拓撲500允許I/O處於任何節點上。通常,將乙太網路置放於樹之頂部可最小化至乙太網路之中繼段之平均數目。
使用瓦片式構建塊來構建功率最佳化伺服器組織板
第6圖圖示伺服器板,該伺服器板組成多個伺服器節點,該多個伺服器節點與所述點對點互連結構互連。伺服器板具有:
●此圖表中之卵形中之每一者皆為獨立伺服器節點,該獨立伺服器節點包括處理器、記憶體、I/O及組織交換器。
●組織交換器具有獨立地動態修改用於每一鏈路之每一路徑之寬度(路徑之數目)及速度的能力。
●14節點板實例圖示出自組織的兩個乙太網路逸出口。將通常使此等乙太網路逸出口路由至標準乙太網路交換器或路由器。此等乙太網路逸出口可為標準1 Gb或10 Gb乙太網路。
●14節點實例拓撲為蝶形粗樹,該蝶形粗樹提供冗餘路徑以允許適應性路由至故障周圍之路線及定位熱點周圍之路線。
●3節點聚合器板允許大型伺服器組織僅由兩個板瓦片組成。
■出於冗餘,添加第二聚合器
■輸入/輸出:
●用於滑石(smooth-stone)組織之PCIe連接器
●任擇乙太網路支援(關閉、1 Gb、2 Gb、5 Gb、10 Gb或20 Gb)
■基於應用程式所需頻寬之乙太網路決策
●聚合器板上之節點可僅為交換節點,或為包括交換之全計算節點。
●板輸入/輸出可為PCIe連接器及/或任擇乙太網路支援(關閉、1 Gb、2 Gb、10 Gb或20 Gb),該PCIe連接器支援兩個x4 XAUI(2個滑石組織鏈路)。
●類似14節點實例之示例性組織拓撲最小化橫跨板之鏈路之數目,以最小化連接器(大小及數目)及關聯成本,同時仍保持乙太網路逸出口及多路徑冗餘。
●當延伸組織時兩個聚合器板可用來達成路徑冗餘。
●使用靜態鏈路配置可達成功率節省
○圖中之下層節點(記為葉節點)可以1 Gb/sec執行。
○圖中之第一層交換節點(記為層1交換器)然後將具有來自葉節點之3 Gb/sec之輸入頻寬。此舉允許層1交換器與層2交換器之間2.5 Gb/sec或5 Gb/sec之靜態鏈路配置。
○然後,延伸離開層2交換層之鏈路可以10 Gb/sec執行。
○ 在此拓撲中,由於大多數節點為葉節點,故大多數鏈路以最慢速率(在此實例中1 Gb/sec)執行,因此最小化網路連接功率消耗。
○ 允許將乙太網路逸出口在組織中之任何節點處拉出,從而允許組織設計者折衷乙太網路逸出口之所需頻寬、由架頂式交換器使用之埠之數目及與乙太網路埠相關聯之成本與功率。
●可經由鏈路利用所驅動之動態鏈路配置進一步最佳化功率節省。在此實例中,每一鏈路及組織交換器之關聯埠含有頻寬計數器,該等頻寬計數器具有可配置臨界值事件,該等可配置臨界值事件允許基於動態鏈路利用重新配置上行鏈路寬度及速度,及下行鏈路寬度及速度。
●由於在許多共用伺服器使用狀況下,乙太網路訊務主要為節點至外部乙太網路而非節點至節點,因此所提出之樹組織結構(且尤其蝶形粗樹實例)最小化越過組織至乙太網路之中繼段的數目,因此最小化潛時。此舉允許建立乙太網路之大型低潛時組織,同時利用具有相對小(在此實例中為5)數目之交換埠的交換器。
●第2圖中之伺服器209a之整合圖示所定義伺服器組織之另一新穎系統使用。在此狀況下,為利用伺服器組織之效能及功率管理,且為最小化架頂式交換器上之埠利用,此圖圖示現有伺服器異質整合至所定義伺服器組織上,以使得來自現有伺服器之乙太網路訊務可經由閘道進入組織中,從而允許與組織內之節點通訊,並使209a乙太網路訊務經由組織載運至上行鏈路乙太網路埠201。
第6a圖-第6c圖圖示組織拓撲之另一實例,該組織拓撲為由連接至系統板中之12個卡組成之四十八節點組織拓撲,其中每一卡含有4個節點。此拓撲提供一些冗餘鏈路,但是沒有重大冗餘。拓撲具有四個乙太網路閘道逸出口且此等乙太網路閘道逸出口中之每一者皆可為1 Gb或10 Gb,但是並非需要使用或連接所有此等乙太網路閘道。在所示實例中,自四節點卡引出八個組織鏈路,且在一個實例中,PCIe x16連接器用來自卡引出4個組織鏈路。
使用瓦片式構建塊來構建功率最佳化伺服器組織板之概述/綜述
1. 伺服器樹組織允許越過伺服器互連結構組織之任意數目之乙太網路逸出口,以最小化所使用乙太網路實體層之數目,以節省與乙太網路實體層相關聯之功率及成本、關聯電纜,及在架頂式乙太網路交換器/路由器上消耗之埠。
2. 交換節點可為藉由斷開計算子系統來節省功率之純交換節點,或該等交換節點可用作包括組織交換之完全計算子系統。參閱第17圖,在一個實施中,多個功率域用來將計算子系統(方塊905)與管理處理器(方塊906)及組織交換器(剩餘方塊)分離。此舉允許將SOC配置為電源關閉計算子系統(方塊905),保持方塊906中之管理處理,且由組織交換器來進行硬體封包交換及路由。
3. 蝶形粗樹拓撲伺服器組織提供板內最少數目之鏈路(節省功率及成本)、橫跨板之最少數目之鏈路(節省功率及成本),同時允許板內及越過板之冗餘鏈路路徑。
4. 所提出之底板及聚合器板允許可擴充故障恢復伺服器組織僅由兩個板構建塊組成。
5. 樹導向伺服器組織及類似示例性蝶形粗樹之變體允許可由該節點之子節點之聚合頻寬決定的靜態鏈路寬度及速度規格,從而允許容易的鏈路配置,同時最小化互連結構功率。
6. 可經由鏈路利用所驅動之動態鏈路配置進一步最佳化功率節省。在此實例中,每一鏈路及組織交換器之關聯埠含有頻寬計數器,該等頻寬計數器具有可配置臨界值事件,該等可配置臨界值事件允許基於動態鏈路利用重新配置上行鏈路寬度及速度,及下行鏈路寬度及速度。
7. 由於在許多共用伺服器使用狀況下,乙太網路訊務主要為節點至外部乙太網路而非節點至節點,故所提出之樹組織結構(且尤其蝶形粗樹實例)最小化越過組織至乙太網路之中繼段的數目,因此最小化潛時。此舉允許建立乙太網路之大型低潛時組織,同時利用具有相對小(在此實例中為5)數目之交換埠的交換器。
8. 允許異質伺服器整合至組織,從而自現有伺服器承載乙太網路訊務進入並穿過所定義伺服器通訊組織。
使用瓦片式構建塊來構建功率最佳化伺服器架子及支架
現可組成此等板「瓦片」,以建構組織連接伺服器節點之架子及支架。第7圖圖示被動底板可如何連接8個14節點板及兩個聚合板以組成由236個伺服器節點構成之架子的實例。每一板可為例如對於6U而言8.7"高+機械高度<10.75",用於密度之交插熱槽及16個板適合19吋寬支架。底板可為簡單/廉價的,具有PCIe連接器及路由,其中路由可為非常簡單而無導線之XAUI信號(藍色及綠色)+功率。乙太網路連接圖示於8板聚合點處。
第8圖圖示延伸組織越過架子、鏈接架子越過伺服器支架之實例。可在組織中之任何節點處拉出乙太網路逸出口,在此實例中,自連接多節點刀鋒之被動互連結構底板拉出該等乙太網路逸出口。
使用瓦片式構建塊來構建功率最佳化伺服器架子及支架之概述/綜述
1. 利用PCIe連接器將乙太網路逸出口及XAUI鏈路引離板以將板與點到點伺服器組織連接於一起,並非利用PCIe信號傳遞,但是將實體連接器用於板之功率及XAUI信號,同時維持用於故障切換及熱點減少之冗餘通訊路徑。
2. 以完全被動底板形成之XAUI點對點伺服器互連結構組織。
3. 越過組織之乙太網路逸出口,該組織橫跨樹之每一層次處而非僅在樹之頂部處之支架。
4. 可動態地賦能並去能越過組織之乙太網路逸出口,以匹配頻寬與最佳化功率使用。
5. 包括系統管理訊務之節點至節點訊務停留於橫跨支架之組織上,而未曾通行穿過架頂式乙太網路交換器。
儲存器
第9a圖圖示根據一個實施例之具有碟片形狀因子之示例性伺服器700,該碟片形狀因子通常諸如具有SCSI或SATA驅動機之標準2.3吋或3.5吋硬碟驅動機(hard disk drive;HDD)。伺服器板701適應與當前碟片支架中之碟片驅動機702相同的基礎結構。伺服器701為全伺服器,該全伺服器具有DDR、伺服器單晶片(server-on-a-chip) SoC、任擇快閃記憶體、本地功率管理、至碟片之SATA連接(受連接器大小限制的1-16……)。伺服器701之輸出可為乙太網路或Calxeda之組織(XAUI),其中兩個XAUI輸出用於故障切換。任擇地,伺服器701可使用PCIe而非ATA(SSD或需要PCIe之其他物),其中1至4節點平衡計算與儲存需求。此伺服器可進行RAID實施及LAMP堆疊伺服器應用程式。在每一碟片上使用Calxeda ServerNodeTM將提供具有4 GB之DDR3之全LAMP堆疊伺服器,及多個SATA介面。任擇地,在需要時可添加用於8 GB之DDR之第二節點。
第9b圖及第9c圖分別圖示根據一個實施例之碟片-伺服器組合700a-n之示例性陣列710及720,碟片-伺服器組合700a-n使用如上文所論述之儲存伺服器1節點SATA板。藉由一些高速網路或互連結構(標準或專屬)之連接消除對大型乙太網路交換器之需要,從而節省功率、成本、熱量及區域。每一板701皆小於碟片之高度及深度。可以交替碟片與板之方式佈置陣列,如第7b圖中所示,或一個板可服務於多個碟片,例如,在碟片-碟片-板-碟片-碟片佈置中,如第7c圖中所示。因此,可以撓性方式使計算功率與碟片比率匹配。板701a-n之連接性可基於每一節點,其中SATA用來鉤住碟片且多個SATA用來鉤住多個碟片。板701a-n之連接性亦可基於節點至節點,其中每一節點中之組織配置中之兩個XAUI(如先前及在申請案第61/256,723號中所述)用於冗餘。節點經由XAUI組織得以連接。此等連接可具有樹或粗樹拓撲,亦即,節點-節點-節點-節點,其中確定性、無關或適應性路由在正確方向上移動資料。或者,可使用全專屬互連結構,轉向其他處理單元。一些埠可轉向乙太網路輸出或任何其他I/O管線。每一節點可直接轉向乙太網路(「框」內),或XAUI轉向XAUI聚合器(交換器),然後轉向實體層,或XAUI轉向實體層。或可使用以上任何組合。在其他狀況下,可使用具有PCIe連接之SSD,以PCIe連接替換SATA連接。一些SSD使用PCIe或SATA進入碟片形狀因子。或可混合PCIe與SATA。可代替XAUI將來自框之乙太網路用於系統互連。在一些狀況下,例如,可使用標準SATA連接器,但是在其他狀況下可製造專屬佈線穿過專屬底板之較高密度連接器。
在另一狀況下,伺服器功能可在碟片驅動機內,從而提供單碟片驅動機形狀因子中之全伺服器加碟片。舉例而言,可將ServerNodeTM安放於碟片內之板上。可用XAUI或乙太網路連接性來實施此方法。在此狀況下,可將發明者已知的伺服器單晶片方法用作碟片控制器加伺服器。第9d圖圖示此概念。在第9d圖中圖示標準3.5吋驅動機(項目9d0)。該3.5吋驅動機具有控制碟片驅動機之積體電路卡9d1。未使用驅動機內之大量空間(由9d2標注),其中可形成Calxeda低功率、小伺服器節點PCB以裝配於碟片驅動機內之此未使用空間內。
第9e圖圖示在標準3.5吋碟片驅動機形狀因子中安放多個伺服器節點之實施。在此狀況下,自伺服器PCB至底板之連接器輸出基於XAUI之伺服器組織互連結構以提供網路及伺服器間通訊組織,及用於連接至鄰接SATA驅動機之4個SATA埠。
第10圖圖示用於深入整合伺服器與儲存器之實施。伺服器節點(101)展示完全低功率伺服器,該完全低功率伺服器整合計算核心、DRAM、整合式I/O及組織交換器。在此實例中,以與標準2.5吋碟片驅動機(102)相同的形狀因子圖示伺服器節點101。(103)圖示以成對一對一方式組合此等伺服器節點與碟片驅動機,其中每一伺服器節點具有該伺服器節點自己的本地儲存器。(104)圖示控制4個碟片驅動機之伺服器節點。系統(105)圖示經由統一伺服器組織組合此等儲存伺服器,且然後在此實例中自組織拉出四個10-Gb/sec的乙太網路逸出口,以連接至乙太網路交換器或路由器。
第11圖圖示藉由說明有效利用現有3.5吋集束碟片(JBOD)儲存盒之使用的儲存器與伺服器之此緊密堆積之具體實現。在此狀況下,不改變包括碟片外殼之JBOD機械物體,但是儲存節點係展示為與未修改JBOD盒內之碟片驅動機一對一成對。此說明伺服器節點為可插模組之概念,該等可插模組***含有組織鏈路之下層主機板中。在此說明中,此標準JBOD盒容納23個3.5吋碟片(在邏輯視圖中圖示為矩形),且此圖圖示在JBOD盒內含有控制23個碟片之31個伺服器節點(在邏輯視圖中圖示為卵形/圓形),且暴露兩個10 Gb/sec之乙太網路鏈路(在邏輯視圖中圖示為暗寬線)。此緊密整合伺服器/儲存器概念僅採用現成儲存器JBOD盒,且然後在經由功率最佳化組織通訊之相同形狀因子中添加31個伺服器節點。此極好地映射至較佳具有本地儲存器之應用程式。
第12圖圖示有效利用可在2.5吋驅動機之相同形狀因子中例證伺服器節點之事實的相關概念。在此狀況下,將伺服器節點整合至具有46個碟片之2.5吋JBOD中。此概念圖示整合於JBOD儲存器之相同形狀因子中之64個伺服器節點。在此實例中,自組織拉出兩個10 Gb乙太網路鏈路,及1 Gb/sec之管理乙太網路鏈路。
儲存器之概述/綜述
1. 利用PCIe連接器將乙太網路逸出口及XAUI鏈路引離板以將板與點到點伺服器組織連接於一起,並非利用PCIe信號傳遞,但是將實體連接器用於板之功率及XAUI信號,同時維持用於故障恢復及負載平衡之冗餘通訊路徑。
2. 藉由使小形狀因子低功率組織賦能伺服器節點與碟片成對,利用所定義伺服器組織來轉換現有JBOD儲存系統,從而提供極高密度的計算伺服器,該等計算伺服器與本地儲存器緊密成對,經由功率及效能最佳化伺服器組織加以整合,以建立新的高效能計算伺服器及儲存伺服器解決方案,而不影響JBOD儲存系統之實體及機械設計。
3. 為用於高密度計算系統中,將完全伺服器封裝於硬碟驅動機之形狀因子中之方法,用於以額外伺服器替換一些驅動機之目的。
4. 如申請專利範圍3中,其中伺服器經由額外交換組織連接至網路。
5. 如申請專利範圍3中,其中以適合於建立至少一個內部交換路徑之底板替換固定驅動機之外殼中之底板。
6. 為用於高密度儲存系統中,將低功率伺服器PCB整合至標準3.5吋碟片驅動機內之空白空間中之方法,提供碟片驅動機內之整合計算能力。
支架整合低功率伺服器之冷卻
驅動至低功率電腦伺服器解決方案之一個態樣為熱量、冷卻及空氣經由支架及越過板之運動的管理。風扇之最小化為降低低功率伺服器之所有權的總成本(total cost of ownership;TCO)之一個態樣。風扇增加成本、複雜性,由於運動部件而減少可靠性,消耗大量功率,且產生大量雜訊。風扇之減少及移除可提供在可靠性、TCO及功率消耗方面之顯著益處。
第13圖圖示支架煙囪冷卻之新穎實施,該新穎實施支援貫穿全部支架或僅支架區段中之煙囪冷卻。重要態樣為煙囪支架概念中之單個風扇,該煙囪支架概念在來自一個風扇之幫助下使用向上自然對流。冷卻全部支架之大型風扇可為低速。可將大型風扇定位於底部處,或定位於支架之垂直安裝對流冷卻子集下方之支架內。當冷空氣進入底部中時,風扇推動冷空氣穿過煙囪並推出頂部。因為所有板為垂直的,所以不存在水平阻隔。儘管在此實例中風扇圖示為在支架之底部,但是風扇可在系統中之任何地方。亦即,系統在排氣孔及風扇之下可具有含「傳統」冷卻之水平阻塞,作為垂直煙囪離開頂部。此垂直底部冷卻方法可在小系統上工作。風扇可為變速且隨溫度而變的。
第13a圖圖示用於煙囪支架概念中之熱對流500之新穎原理的示例性說明。以某一角度對準置放組件使熱流501a-n自印刷電路板502上之散熱雙倍資料速率(Double Data Rate;DDR)記憶體晶片503a-n上升,因此彼等散熱晶片不形成熱備份或相互變熱。在此實例中,與彼此成對角而非垂直堆疊地置放DDR晶片,因為該等DDR晶片易於彼此加熱。又,將DDR晶片置放在大型計算晶片504a(諸如,ASIC、SOC或處理器)上方而非下方,因為該等DDR晶片易於加熱SOC。且將最冷晶片(快閃晶片506)置放於SOC下方。同樣地,節點並非垂直堆疊,如下文所述。第14圖擴展此概念以圖示如何相對於彼此成對角地置放伺服器節點,以最小化越過伺服器節點之自熱。
第15圖圖示根據一個實施例之示例性16節點系統,其中熱浪自印刷電路板上升。對於典型16節點系統而言,佈置個別單元,以便自每一單元上升之熱量不加熱上方之單元。整個外殼將通常較長、不太高且不太密集。又,並非如圖所示成對角地安裝PCB,PCB可成方形對準且為矩形,但是組件可以對角對準之方式置放以最小化相互加熱。不同列中之PCB可具有互補佈局或可交錯,因此減少相互加熱。類似地,第16圖圖示16節點系統之較高密度變體,其中節點以類似方式經佈置以最小化越過節點之自熱。
用於低功率伺服器之支架之額外冷卻概念在於使用氣動式氣壓差來建立向上氣流,而不需要風扇。用於進行此操作之技術在於建立具有用於空氣之延伸垂直排氣管之密封支架。此排氣管必須足夠高(約20-30呎+),以建立充分的氣壓差來產生向上氣流。此舉提供用於低功率伺服器之支架之完全被動空氣運動及冷卻系統。
支架安裝低功率伺服器之冷卻之概述/綜述
1. 為用於高密度計算系統中,將散熱組件置放於垂直置放之安裝板上之方法,其中散熱組件中沒有一個係直接置放於另一散熱組件上方或下方,
2. 如申請專利範圍1中,其中組件係越過安裝板而佈置於實質對角佈置中。
3. 如申請專利範圍1中,其中組件係越過安裝板而佈置於若干實質交叉對角佈置中。
4. 如申請專利範圍1、2及3中,其中安裝板為印刷電路板。
非以太網路封包之伺服器組織交換
如同在申請中之專利申請案第12/794,996號中所述,第17圖圖示伺服器節點組織交換器之內部架構。第17圖圖示根據本文所揭示之系統及方法之一個態樣之示例***換器900之方塊圖。交換器900具有四個相關區域910a-d。區域910a對應於CPU與內部MAC之間的以太網路封包。區域910b對應於內部MAC處乙太網路實體介面處之乙太網路訊框,區域910b含有前序信號、訊框開始及訊框間間隙欄位。區域910c對應於外部MAC處乙太網路實體介面處之乙太網路訊框,區域910c含有前序信號、訊框開始及訊框間間隙欄位。區域910d對應於路由標頭901之處理器與外部MAC 904之間的以太網路封包。此分段MAC架構為非對稱的。內部MAC具有進入路由標頭處理器之乙太網路實體信號傳遞介面,而外部MAC具有進入路由標頭處理器之以太網路封包介面。因此,重新目的化MAC IP以用於內部MAC及外部MAC,且有效利用將通常為用於MAC之實體信號傳遞以饋送至交換器中之機制。MAC配置使得A9核心905之作業系統裝置驅動器管理並控制內部Eth0 MAC 902及內部ETH1 MAC 903。管理處理器906之裝置驅動器管理並控制內部Eth2 MAC 907。外部Eth MAC 904不受裝置驅動器控制。以雜亂模式配置MAC 904,以在沒有用於網路監視之任何篩選之情況下傳遞所有訊框。在MAC之硬體例示與任何其他必要管理處理器初始化之間協調此MAC之初始化。外部Eth MAC 904暫存器對A9 905及管理處理器906位址映射皆可見。外部Eth MAC 904之中斷信號可路由至A9或管理處理器。
關鍵是應注意到,當自前往交換器之MAC接收封包時,路由標頭處理器910d將組織路由標頭添加至封包,且當自前往MAC之交換器接收封包時,路由標頭處理器910d移除組織路由標頭。組織交換器本身僅在節點ID及含於組織路由標頭中之其他資訊上路由,且組織交換器本身不進行原始封包之封包檢驗。
分散式PCIe組織
第18圖圖示伺服器節點,該伺服器節點包括PCIe控制器,該PCIe控制器連接至內部CPU匯流排組織。此允許建立新穎PCIe交換組織,該新穎PCIe交換組織有效利用高效能、功率最佳化伺服器組織,以建立可擴充、高效能、功率最佳化PCIe組織。
技術如下:
●PCIe控制器902連接至多工器(Mux) 902a,多工器902a允許PCIe控制器直接連接至外部PCIe實體層或連接至PCIe路由標頭處理器910c。當多工器902a經配置以將PCIe訊務導向至局部PCIe實體層時,此相當於標準局部PCIe連接。當多工器902a經配置以將PCIe訊務導向至PCIe路由標頭處理器910c時,此賦能新穎PCIe分散式組織交換器機制。
●PCIe路由標頭處理器910c利用封包內之嵌式路由資訊(位址、ID或隱含)來建立組織路由標頭,該組織路由標頭將該PCIe封包路由映射至目的地組織節點PCIe控制器。
●此提供與伺服器組織提供至網路連接之分散式PCIe組織類似之優點。
●源自處理器核心(905)之PCIe異動可路由至局部PCIe實體層(經由多工器旁路或經由交換器),可路由至組織上之任何其他節點,直接路由至內部PCIe控制器(902)或路由至外部PCIe控制器/實體層(904)。
●同樣地,輸入PCIe異動進入外部PCIe控制器(904),由PCIe路由標頭處理器(910)加標記於組織路由標頭,且然後組織將PCIe封包傳送至該PCIe封包之最終目標。
分散式匯流排協定組織
第18a圖圖示額外延伸,該額外延伸展示多個協定橋接器可利用組織交換器在路由標頭上而非直接在下層封包有效負載(例如,層2乙太網路訊框)上路由之事實。在此說明中,圖示3個協定橋接器:乙太網路、PCIe及匯流排協定橋接器。
匯流排協定橋接器之角色為取得處理器或內部SOC組織協定,分封化該處理器或內部SOC組織協定,添加Calxeda組織路由標頭,且然後經由Calxeda組織路由該處理器或內部SOC組織協定。
作為有形實例,考慮SOC內諸如AMBA AXI、HyperTransport或快速路徑互連(QPI)之匯流排協定。
考慮以下資料流:
●內部SOC匯流排組織上之處理器發出記憶體負載(或儲存)請求。
●已將用於記憶體操作之實體位址目標映射至組織上之遠端節點。
●匯流排異動通行穿過匯流排協定橋接器:
○ 分封化匯流排異動。
○ 將用於記憶體異動之實體位址映射至遠端節點,當構建路由標頭時使用該節點ID。
○ 由匯流排協定橋接器構建路由訊框,該匯流排協定橋接器由具有遠端節點ID之路由標頭組成,且有效負載為經分封化之匯流排異動。
●匯流排異動路由訊框通過組織交換器,通行穿過組織,並由目標節點之訊框交換器接收。
●目標節點匯流排協定橋接器解開經分封化之匯流排異動,將匯流排異動發出至目標SOC組織中,完成記憶體負載,並經由相同步驟傳回結果,其中結果流回至發端節點。
網路處理器與伺服器組織整合
第19圖圖示將伺服器組織與網路處理器(911)整合之說明。存在用於伺服器組織與網路處理器整合之若干使用狀況,包括:
● 網路處理器可充當本地處理器(905)及組織上之任何其他處理器之網路封包處理加速器。
● 可為網路處理器中心設計,其中將來自外部乙太網路之輸入封包定標至網路處理器,且將網路處理器及控制面處理卸載至較大處理器核心(905)。
● 伺服器組織可充當網路處理器之間的通訊組織。
為賦能此等新穎使用狀況,為網路處理器指派MAC位址。在第19圖中所示之交換器架構中,不存在附接至埠1-4之路由標頭處理器。因此,直接連接至埠1-4之代理者需要注入封包,該等封包具有前置於有效負載封包之組織交換器標頭。網路處理器藉由以下操作將組織交換器整合添加至該等網路處理器之設計:
● 將來自網路處理器之輸出封包加標記於組織交換器標頭,該組織交換器標頭編碼來自目的地MAC之目的地節點ID。
● 自組織交換器至網路處理器之輸入封包在乙太網路封包處理之前移除組織交換器標頭。
外來裝置與伺服器組織整合
第19圖圖示伺服器組織與任意外來裝置(912)整合之說明。藉由外來裝置,吾人意謂任何處理器、DSP、GPU、I/O或需要裝置間通訊組織之通訊裝置或處理裝置。典型使用狀況將為大型處理系統,該大型處理系統由DSP或GPU處理器組成,該等DSP或GPU處理器在DSP或GPU處理器之間需要互連結構組織。
組織交換器基於組織路由標頭路由封包,且組織交換器不進行封包有效負載之封包檢驗。封包有效負載不具有被格式化為乙太網路訊框之假定,且該封包有效負載被完全視為不透明有效負載。
此允許外來裝置(例如,DSP或GPU處理器)藉由以下操作附接至組織交換器並有效利用可擴充、高效能、功率最佳化通訊組織:
●將含有封包之目的地節點ID之路由訊框標頭添加至發送至訊框交換器之任意封包有效負載。
●當自訊框交換器接收封包時剝離路由訊框標頭。
負載平衡
當慮及諸如第5圖中所示之組織拓撲時,組織中之節點中之每一者皆輸出至少一個MAC位址及IP位址,以經由501a及501b中所示之閘道節點提供外部乙太網路連接性。
暴露此等細化的MAC及IP位址對於使用硬體負載平衡器之大規模網路操作為有利的,因為該暴露為負載平衡器提供MAC/IP位址之平坦列表以對比操作,其中組織之內部結構對負載平衡器不可見。
但是,較小資料中心可潛在地承受高密度低功率伺服器可提供之潛在大量之新MAC/IP位址。有利地能夠提供用於負載平衡之選項,以使外部資料中心基礎結構免於必須分別處理用於諸如網路服務之層之大量IP位址。
考慮第20圖,其中吾人已在組織交換器上採用一個埠且已添加提供諸如IP虛擬伺服器(IPVS)之服務之FPGA。可在包括層4(傳送)及層7(應用)之網路層次範圍內進行此IP虛擬化。在許多狀況下,在用於諸如網路服務之資料中心層之層7處進行負載平衡為有利的,以使得可藉由特定網路伺服器節點局部地維持http通信期狀態。僅將IPVS FPGA附接至閘道節點(第5圖中之節點501a及501b)。
在此實例中,第5圖中所示之組織在使用閘道節點上之IPVS FPGA擴充時可每一閘道節點輸出單個IP位址。然後,IPVS FPGA將進入請求(例如,HTTP請求)負載平衡至組織內之節點。在層4負載平衡之情況下,IPVS FPGA可無狀態地進行,並使用包括越過節點之循環或在使用下一節點之前例證每一節點最大數目之請求的演算法。在層7負載平衡之情況下,IPVS FPGA將需要維持狀態,以使得可將應用通信期定標至特定節點。
所得流程變為:
●進入請求(例如,HTTP請求)進入第20圖中之閘道節點(埠0)。
●組織交換器路由表已經配置以將來自埠0之進入訊務導向至組織交換器上之IPVS FPGA埠。
●IPVS FPGA重寫路由標頭以定標組織內之特定節點,且IPVS FPGA將所得封包轉發至目標節點。
●目標節點處理請求,並將結果正常地發送出閘道節點。
開放流/軟體定義之網路連接賦能組織
開放流為通訊協定,該通訊協定提供經由網路對交換器或路由器之轉發平面之存取。開放流允許網路封包穿過交換器之網路的路徑由在單獨伺服器上執行之軟體決定。此控制與轉發之分離允許比當今使用ACL及路由協定可行之更複雜的訊務管理。將開放流視為軟體定義之網路連接之一般方法的實施。
第21圖圖示將開放流(或更大體而言軟體定義之網路連接(software defined networking;SDF))流程處理構建為Calxeda組織之方法。閘道節點中之每一者將例證閘道節點之組織交換器之埠上的開放流賦能FPGA。開放流FPGA需要至控制面處理器之帶外路徑,此舉可由開放流FPGA上之單獨網路連接埠來進行,或可藉由簡單要求離開組織交換器之另一埠對控制面處理器談話來進行。
所得流程變為:
●進入請求進入第20圖中之閘道節點(埠0)。
●組織交換器路由表已經配置以將來自埠0之進入訊務導向至組織交換器上之開放流/SDF FPGA埠。
●開放流/SDF FPGA實施標準開放流處理,包括在必要時任擇地聯繫控制面處理器。開放流/SDF FPGA重寫路由標頭以定標組織內之特定節點(藉由MAC位址),且開放流/SDF FPGA將所得封包轉發至目標節點。
●目標節點處理請求,且將結果送回至開放流FPGA,在該開放流FPGA中目標節點實施任何輸出流程處理。
功率最佳化組織經由PCIe整合至標準處理器
在第5圖中圖示及先前所述之功率最佳化伺服器組織向現有標準處理器提供令人信服的優點,且該功率最佳化伺服器組織可作為整合式晶片解決方案與現有處理器整合。標準桌上型及伺服器處理器通常直接地或經由整合式晶片組而支援PCIe介面。第22圖圖示功率最佳化組織交換器經由PCIe整合至現有處理器之一個實例。項目22a圖示標準處理器,該標準處理器直接地或經由整合式晶片組而支援一或更多PCIe介面。項目22b圖示具有整合式乙太網路MAC控制器之所揭示之組織交換器,PCIe介面已整合至該等整合式乙太網路MAC控制器。通常可利用PCIe整合式組織交換器之FPGA或ASIC實施將項目22b整合於一起。
在本揭示內容中,在第5圖中所示之節點可為功率最佳化伺服器SOC與整合式組織交換器之異質組合,及PCIe連接標準處理器至PCIe介面模組之此揭示之整合,該PCIe介面模組含有乙太網路MAC及組織交換器。
功率最佳化組織經由乙太網路整合至標準處理器
在第5圖中圖示及先前所述之功率最佳化伺服器組織向現有標準處理器提供令人信服的優點,且該功率最佳化伺服器組織可作為整合式晶片解決方案與現有處理器整合。標準桌上型及伺服器處理器通常經由整合式晶片或潛在地提供於SOC內而支援乙太網路介面。第23圖圖示功率最佳化組織交換器經由乙太網路整合至現有處理器之一個實例。項目23a圖示標準處理器,該標準處理器藉由SOC或經由整合式晶片而支援乙太網路介面。項目23b圖示不具有整合式內部乙太網路MAC控制器之所揭示之組織交換器。通常可利用整合式組織交換器之FPGA或ASIC實施將項目23b整合於一起。
在本揭示內容中,在第5圖中所示之節點可為功率最佳化伺服器SOC與整合式組織交換器之異質組合,及乙太網路連接標準處理器至整合式組織交換器之此揭示之整合,該整合式組織交換器實施於FPGA或ASIC中。
儘管上述內容已參閱本發明之特定實施例,但是熟習此項技術者將瞭解,在不脫離本揭示內容之原理及精神之情況下可對此實施例進行改變,本揭示內容之範疇係由隨附申請專利範圍定義。
9d0,22a-23b...項目
9d1...積體電路卡
9d2...驅動機內之大量空間
100...典型網路資料中心架構
101,104...伺服器節點
101a-n...頂層交換器
102...標準2.5吋碟片驅動機
102a-n,203a-c...支架
103a-f...本地端路由器
104e-k...額外伺服器
105...系統
105a-b...支架單元
106a-g...路由器
107a-n...刀鋒型伺服器
108a-n...額外支架單元
110...示例性實體視圖/聚合
111a-bn...周邊伺服器
112a-h...邊緣路由器系統
113...核心交換系統
200...網路聚合
201...10-Gb/sec乙太網路通訊/粗紅線/上行鏈路乙太網路埠
202...聚合路由器
206a-d、209a...伺服器
208a...架頂式交換器
400...資料中心
401a-n...10-Gb乙太網路實體層
402...1-Gb專用乙太網路實體層
403a-n...大型電腦(功率伺服器)
404a-n...電腦(伺服器)
405...單一大型低速風扇
406,407、710,720...陣列
408a,b...歷史伺服器
500...高階拓撲/拓撲/熱對流
501a-n...熱流
501a...節點/10 Gb乙太網路埠Eth0
501b...節點/10 Gb乙太網路埠Eth1
502...印刷電路板
502a-n...卵形
502d,e...卵形/層次0葉節點
503a-n...散熱雙倍資料速率(DDR)記憶體晶片
504a...大型計算晶片
506...快閃晶片
700...示例性伺服器
701...伺服器板/伺服器/板
701a-n...板
702...碟片驅動機
900...交換器
901...路由標頭
902...內部Eth0 MAC/PCIe控制器/內部PCIe控制器
902a...多工器
903...內部ETH1 MAC
904...外部MAC/外部Eth MAC/MAC/外部PCIe控制器/實體層
905...方塊/A9核心/A9/處理器核心/本地處理器
906...方塊/管理處理器
907...內部Eth2 MAC
910a-d...相關區域
911...網路處理器
912...外來裝置
第1圖及第2圖圖示典型資料中心網路聚合;
第3圖圖示根據一個實施例之使用伺服器之網路聚合;
第4圖圖示根據一個實施例之支架中之資料中心;
第5圖圖示具有交換組織之網路系統之高階拓撲;
第6圖圖示伺服器板,該伺服器板組成多個伺服器節點,該多個伺服器節點與所述點對點互連結構互連;
第6a圖-第6c圖圖示組織拓撲之另一實例;
第7圖圖示被動底板之實例,該被動底板連接至一或更多節點板及兩個聚合板;
第8圖圖示延伸組織越過架子及鏈接架子越過伺服器支架之實例;
第9a圖圖示具有碟片形狀因子之示例性伺服器700;
第9b圖及第9c圖圖示根據一個實施例之碟片-伺服器組合之示例性陣列,該碟片-伺服器組合使用儲存伺服器1節點SATA板;
第9d圖圖示標準3.5吋驅動機;
第9e圖圖示標準3.5吋碟片驅動機形狀因子中之多個伺服器節點之實施;
第10圖圖示與儲存器深入整合之伺服器之實施;
第11圖圖示有效利用現有3.5吋JBOD儲存盒之儲存器與伺服器之緊密堆積的實施;
第12圖圖示在2.5吋驅動機之相同形狀因子中例證之伺服器節點的實施;
第13圖圖示支架煙囪冷卻之實施;
第13a圖圖示用於第13圖中所示之煙囪支架冷卻中之熱對流的示例性說明;
第14圖圖示伺服器節點,該等伺服器節點以相對於彼此成對角之方式置放,以最小化越過伺服器節點之自熱;
第15圖圖示根據一個實施例之示例性16節點系統,其中熱浪自印刷電路板上升;
第16圖圖示具有類似地經佈置以最小化越過節點之自熱之節點的16節點系統之較高密度變體;
第17圖圖示伺服器節點組織交換器之內部架構;
第18圖圖示伺服器節點,該伺服器節點包括PCIe控制器,該PCIe控制器連接至內部CPU匯流排組織;
第18a圖圖示具有使用組織交換器之多個協定橋接器的系統;
第19圖圖示伺服器組織與網路處理器之整合;
第20圖圖示組織交換器及FPGA,該FPGA提供諸如網際網路協定虛擬伺服器(IPVS)之服務;
第21圖圖示將開放流流程處理構建為Calxeda組織之方法;
第22圖圖示功率最佳化組織交換器經由PCIe整合至現有處理器之一個實例;以及
第23圖圖示功率最佳化組織交換器經由乙太網路整合至現有處理器之一個實例。
200...網路聚合
201...10-Gb/sec乙太網路通訊/粗紅線/上行鏈路乙太網路埠
202...聚合路由器
203a-c...支架
206a-d...伺服器
208a...架頂式交換器
209a...伺服器

Claims (46)

  1. 一種計算裝置,該計算裝置包含:由複數個組織鏈路互連之複數個伺服器節點以形成一伺服器組織;及一或更多乙太網路逸出口(escapes),該一或更多乙太網路逸出口來自該伺服器組織,其中該一或更多乙太網路逸出口經組態以將該伺服器組織連接至該伺服器組織外部之一或更多埠;其中每一伺服器節點包括:一處理器;一記憶體;一輸入/輸出電路;及一內部組織交換器,其經組態以將該伺服器節點連接至該伺服器組織及交換在該伺服器組織中之資訊;其中該複數個伺服器節點以某一角度對準定位以加速冷卻。
  2. 如申請專利範圍第1項之計算裝置,該計算裝置進一步包含一伺服器板,其中該複數個伺服器節點為該伺服器板之多個部分。
  3. 如申請專利範圍第1項之計算裝置,該計算裝置進一步包含一組伺服器板之一聚合,其中該等伺服器板之每一者包括該複數個伺服器節點之一或更多伺服器節點,且其中該組伺服器板經互連以形成一伺服器。
  4. 如申請專利範圍第1項之計算裝置,其中該等內部組織 交換器經組態以交換隨附至乙太網路層2封包之路由標頭。
  5. 如申請專利範圍第1項之計算裝置,其中該複數個組織鏈路之每一者之一速度經設定以最佳化功率。
  6. 如申請專利範圍第1項之計算裝置,其中該複數個組織鏈路之每一者之一速度可動態調整,以最佳化電力。
  7. 如申請專利範圍第6項之計算裝置,其中該速度為基於一特定組織鏈路之瞬時利用率及該特定組織鏈路之一平均利用率而可動態調整。
  8. 如申請專利範圍第3項之計算裝置,其中該複數個組織鏈路之一或更多組織鏈路及該一或更多乙太網路逸出口各包含連接至該組伺服器板之一周邊組件互連快捷(PCIe)連接器。
  9. 如申請專利範圍第1項之計算裝置,該計算裝置進一步包含一被動底板,該被動底板包含一點對點伺服器互連結構組織。
  10. 如申請專利範圍第1項之計算裝置,其中該伺服器組織具有一樹之一拓撲,且其中該一或更多乙太網路逸出口安置於該樹之每一層次處。
  11. 如申請專利範圍第1項之計算裝置,其中該一或更多乙太網路逸出口之每一乙太網路逸出口經組態以為經賦能或經去能而與經組態以匹配最佳化功率使用之一頻寬一致。
  12. 如申請專利範圍第1項之計算裝置,其中該複數個伺服器 節點之間的資料經組態以在該伺服器組織中而非該一或更多乙太網路逸出口中路由。
  13. 如申請專利範圍第4項之計算裝置,其中該複數個伺服器節點之每一伺服器節點經組態以使其上之計算組件斷開以回應於功率減少。
  14. 如申請專利範圍第2項之計算裝置,該計算裝置進一步包含複數個伺服器板,該複數個伺服器板經組態以形成一支架及一底板中之一者。
  15. 如申請專利範圍第14項之計算裝置,該計算裝置進一步包含複數個架子,該複數個架子經組態以組成一支架。
  16. 一種計算裝置,該計算裝置包含:一形狀因子(form factor)之一儲存裝置;及與該儲存裝置相同之該形狀因子之一伺服器節點,其中該伺服器節點包括:一處理器;一記憶體;一輸入/輸出電路;一內部組織交換器,其經組態以將該伺服器節點連接至一網路及交換在該網路中之資訊;及經組態以連接至該儲存裝置之一或更多串行進階技術附接(SATA)介面;其中該伺服器節點經組態以控制該儲存裝置,且其中該伺服器節點以某一角度對準定位以加速冷卻。
  17. 如申請專利範圍第16項之計算裝置,該計算裝置進一步 包含一陣列之儲存裝置及一陣列之伺服器節點,其中該陣列之伺服器節點彼此互連。
  18. 如申請專利範圍第16項之計算裝置,其中該伺服器節點安置於該儲存裝置內。
  19. 如申請專利範圍第16項之計算裝置,其中該伺服器節點連接至該儲存裝置,且其中該儲存裝置為用於該伺服器節點之本地儲存器。
  20. 如申請專利範圍第16項之計算裝置,該計算裝置進一步包含複數個儲存裝置,其中該複數個儲存裝置之每一儲存裝置係連接至該一或更多SATA介面中之一者,且其中該伺服器節點進一步經組態以控制該複數個儲存裝置。
  21. 如申請專利範圍第16項之計算裝置,該計算裝置進一步包含複數個伺服器節點及複數個儲存裝置,其中該複數個伺服器節點互連以形成一伺服器組織,且其中該複數個伺服器節點經組態以控制該複數個儲存裝置。
  22. 如申請專利範圍第16項之計算裝置,該計算裝置進一步包含一或更多乙太網路逸出口及一鏈路,其中該一或更多乙太網路逸出口及該鏈路各包含一周邊組件互連快捷(PCIe)連接器。
  23. 一種用於產生一高密度計算系統之方法,該方法包含以下步驟:將一伺服器節點封裝至一碟片驅動機之一形狀因子中及以某一角度對準定位該伺服器節點以加速冷卻,其 中該伺服器節點包括:一處理器;一記憶體;一輸入/輸出電路;一內部組織交換器,其經組態以將該伺服器節點連接至一網路及交換在該網路中之資訊;及連接至該碟片驅動機之一或更多串行進階技術附接(SATA)介面;及藉由該伺服器節點控制該碟片驅動機。
  24. 如申請專利範圍第23項之方法,該方法進一步包含在該碟片驅動機之一背平面上建立至少一個內部交換路徑。
  25. 一種用於產生一高密度計算系統之方法,該方法包含以下步驟:將一伺服器節點整合進一標準形狀因子之一碟片驅動機中及以某一角度對準定位該伺服器節點以加速冷卻,其中該伺服器節點包括:一處理器;一記憶體;一輸入/輸出電路;一內部組織交換器,其經組態以將該伺服器節點連接至一網路及交換在該網路中之資訊;及連接至該碟片驅動機之一或更多串行進階技術附接(SATA)介面;及藉由該伺服器節點控制該碟片驅動機。
  26. 一種計算裝置,該計算裝置包含:一電路板;安裝在該電路板上之一或更多動態記憶體晶片;安裝至該電路板的一或更多計算晶片;安裝至該電路板的一或更多快閃記憶體晶片;及一內部組織交換器,其經組態以將該電路板連接至一網路及交換在該網路中之資訊;其中該電路板係垂直定向,且其中該一或更多快閃記憶體晶片垂直定位於該一或更多計算晶片下方,且該一或更多動態記憶體晶片垂直定位於該一或更多計算晶片上方;及其中該電路板、該一或更多快閃記憶體晶片及該一或更多動態記憶體晶片以某一角度對準以賦能煙囪式冷卻,且其中該煙囪式冷卻配置經組態以冷卻該電路板。
  27. 如申請專利範圍第26項之計算裝置,該計算裝置進一步包含複數個有一角度之電路板,其中該煙囪式冷卻配置經組態以冷卻該複數個有該角度之電路板。
  28. 如申請專利範圍第26項之計算裝置,該計算裝置進一步包含安置於該電路板之一底部處之一風扇。
  29. 如申請專利範圍第26項之計算裝置,該計算裝置進一步包含一氣動式氣源及一排氣管。
  30. 如申請專利範圍第26項之計算裝置,其中該一或更多動態記憶體晶片經組態以偏移(offset)在一水平方向中之該一或更多計算晶片。
  31. 如申請專利範圍第26項之計算裝置,其中該電路板包含一印刷電路板。
  32. 如申請專利範圍第26項之計算裝置,其中該一或更多動態記憶體晶片、一或更多計算晶片及一或更多快閃記憶體晶片成對角安裝在該電路板上。
  33. 一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;一內部組織交換器,該組織交換器連接至該匯流排組織,其中該內部組織交換器經組態以將該計算裝置連接至一網路及將資料自該計算裝置輸出至一或更多埠;及一或更多路由標頭處理器,其中該一或更多路由標頭處理器之每一路由標頭處理器經組態以經由該內部組織交換器路由一特定傳送串流。
  34. 如申請專利範圍第33項之計算裝置,其中該等特定傳送串流包含一伺服器傳送串流、一儲存器傳送串流及一網路連接傳送串流。
  35. 如申請專利範圍第33項之計算裝置,該計算裝置進一步包含一或更多乙太網路MAC控制器,該一或更多乙太網路MAC控制器連接至該匯流排組織,其中該內部組織交換器連接至該一或更多乙太網路MAC控制器,且其中該一或更多路由標頭處理器包含一周邊組件互連快捷(PCIe)標頭處理器,其經組態以經由該內部組織交換器路由PCIe資料。
  36. 如申請專利範圍第33項之計算裝置,該計算裝置進一步包含:連接至該匯流排組織之一PCIe控制器;及連接至該PCIe控制器之一PCIe路由標頭;其中該PCIe控制器及該PCIe路由標頭連接至一PCIe實體層(PHY)。
  37. 如申請專利範圍第33項之計算裝置,該計算裝置進一步包含連接至該內部組織交換器之一網路處理器。
  38. 如申請專利範圍第33項之計算裝置,該計算裝置進一步包含連接到該一或更多埠之至少一個埠之一外來裝置。
  39. 一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;一內部組織交換器,該內部組織交換器連接至該匯流排組織,其中該內部組織交換器經組態以將該計算裝置連接至一網路及將資料自該計算裝置輸出至一或更多埠;連接於該匯流排組織與該內部交換組織之間的一匯流排協定橋接器;及一或更多路由標頭處理器,其中該一或更多路由標頭處理器之每一路由標頭處理器經組態以經由該內部組織交換器路由一特定傳送串流。
  40. 一種用於交換不同傳送串流之方法,該方法包含以下步驟:提供一計算裝置,其中該計算裝置包括: 一或更多處理器;連接至該一或更多處理器之一匯流排組織;及連接至該匯流排組織之一內部組織交換器,其中該內部組織交換器經組態以將該計算裝置連接至一網路及將資料自計算裝置輸出至一或更多埠;及藉由一或更多路由標頭處理器經由該內部組織交換器來交換一特定傳送串流。
  41. 如申請專利範圍第40項之方法,其中該等不同傳送串流包含一伺服器傳送串流、一儲存器傳送串流及一網路連接傳送串流。
  42. 如申請專利範圍第40項之方法,該方法進一步包含經由該內部組織交換器路由周邊組件互連快捷(PCIe)資料。
  43. 一種負載平衡之方法,該方法包含以下步驟:藉由一伺服器節點接收用於負載平衡之一進入請求,其中該伺服器節點包括:一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一內部組織交換器,其中該內部組織交換器經組態以將該伺服器節點連接至多個伺服器節點之一組織及切換在多個伺服器節點之該組織中之資訊;及連接至該內部組織交換器之一IP虛擬伺服器;將該進入請求路由至該IP虛擬伺服器;藉由該IP虛擬伺服器產生定址(addressed)至多個伺服 器點之該組織中之一特定節點之一路由標頭;藉由該內部組織交換器將該進入請求轉發至該特定節點;及藉由該特定節點處理該進入請求以提供負載平衡。
  44. 一種使用交換組織進行處理之方法,該方法包含以下步驟:藉由一伺服器節點接收用於負載平衡之一進入請求,其中該伺服器節點包括:一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一內部組織交換器,其中該內部組織交換器經組態以將該伺服器節點連接至多個伺服器節點之一組織及切換在多個伺服器節點之該組織中之資訊;及連接至該內部組織交換器之一開放流(Open Flow)裝置;將該進入請求路由至該內部組織交換器;藉由該開放流裝置產生定址至多個伺服器節點之該組織中之一特定節點之一路由標頭;藉由該內部組織交換器將該進入請求轉發至該特定節點;藉由該特定節點處理該進入請求以負載平衡;及藉由該特定節點將該經處理進入請求送回至該開放流裝置。
  45. 一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一內部組織交換器,其中該內部組織交換器經組態以將該計算裝置連接至一網路及將資料自該計算裝置輸出至一或更多埠;連接至該內部組織交換器之一周邊組件互連快捷(PCIe)介面;及經由該PCIe介面連接至該計算裝置之一外部處理器,其中該外部處理器經組態以經由該內部組織交換器路由資訊。
  46. 一種計算裝置,該計算裝置包含:一或更多處理器;連接至該一或更多處理器之一匯流排組織;連接至該匯流排組織之一內部組織交換器,其中該內部組織交換器經組態以將該計算裝置連接至一網路及將資料自該計算裝置輸出至一或更多埠;連接至該內部組織交換器之一乙太網路埠;及經由該乙太網路介面連接至該計算裝置之一外部處理器,其中該外部處理器經組態以經由該內部組織交換器路由資訊。
TW100133390A 2010-09-16 2011-09-16 有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法 TWI540862B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US38358510P 2010-09-16 2010-09-16

Publications (2)

Publication Number Publication Date
TW201230724A TW201230724A (en) 2012-07-16
TWI540862B true TWI540862B (zh) 2016-07-01

Family

ID=46934225

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100133390A TWI540862B (zh) 2010-09-16 2011-09-16 有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法

Country Status (2)

Country Link
CN (1) CN105743819B (zh)
TW (1) TWI540862B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347998A (zh) * 2013-08-07 2015-02-11 日本航空电子工业株式会社 连接器

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727631B (zh) * 2019-09-12 2023-08-08 无锡江南计算技术研究所 一种基于双中板正交与非正交异构互连的h型组装方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761738B2 (en) * 2006-09-07 2010-07-20 International Business Machines Corporation Establishing communications across virtual enclosure boundaries
US7752385B2 (en) * 2006-09-07 2010-07-06 International Business Machines Corporation Flexible disk storage enclosure
US20090166065A1 (en) * 2008-01-02 2009-07-02 Clayton James E Thin multi-chip flex module
US20100008038A1 (en) * 2008-05-15 2010-01-14 Giovanni Coglitore Apparatus and Method for Reliable and Efficient Computing Based on Separating Computing Modules From Components With Moving Parts

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347998A (zh) * 2013-08-07 2015-02-11 日本航空电子工业株式会社 连接器

Also Published As

Publication number Publication date
TW201230724A (en) 2012-07-16
CN105743819B (zh) 2020-06-26
CN105743819A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
US9876735B2 (en) Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
WO2012037494A1 (en) Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
Chen et al. The features, hardware, and architectures of data center networks: A survey
KR101516216B1 (ko) 고성능, 저전력 데이터 센터 상호접속 패브릭에 대한 시스템 및 방법
EP3063903B1 (en) Method and system for load balancing at a data network
TWI534629B (zh) 資料傳輸方法及資料傳輸系統
TWI543566B (zh) 基於軟體定義網路的資料中心網路系統及其封包傳送方法、位址解析方法與路由控制器
US9292460B2 (en) Versatile lane configuration using a PCIe PIE-8 interface
US9300574B2 (en) Link aggregation emulation for virtual NICs in a cluster server
US9141171B2 (en) Network routing protocol power saving method for network elements
US9264346B2 (en) Resilient duplicate link aggregation emulation
US8335884B2 (en) Multi-processor architecture implementing a serial switch and method of operating same
US8982734B2 (en) Methods, apparatus, and systems for routing information flows in networks using spanning trees and network switching element resources
JP2014134981A (ja) ストレージ装置
TWI540862B (zh) 有效利用功率最佳化樹組織互連結構之效能與功率最佳化電腦系統架構與方法
WO2020050975A1 (en) Removable i/o expansion device for data center storage rack
CN203241890U (zh) 一种基于atca板卡接口的多单元服务器
US11362904B2 (en) Technologies for network discovery
Qian et al. Alibaba HPN: A Data Center Network for Large Language Model Training
Feng et al. Analysis of internet data center virtualization deployment technology
Fang et al. Network Equipment Selection Scheme of University Informatization Construction
Dobson The Role of PCI Express® in Wired Communications Systems

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees