TWI272502B - System and method for topology-aware job scheduling and backfilling in an HPC environment - Google Patents

System and method for topology-aware job scheduling and backfilling in an HPC environment Download PDF

Info

Publication number
TWI272502B
TWI272502B TW094111486A TW94111486A TWI272502B TW I272502 B TWI272502 B TW I272502B TW 094111486 A TW094111486 A TW 094111486A TW 94111486 A TW94111486 A TW 94111486A TW I272502 B TWI272502 B TW I272502B
Authority
TW
Taiwan
Prior art keywords
hpc
work
subset
node
nodes
Prior art date
Application number
TW094111486A
Other languages
English (en)
Other versions
TW200617694A (en
Inventor
Shannon V Davidson
Anthony N Richoux
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34887808&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=TWI272502(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of TW200617694A publication Critical patent/TW200617694A/zh
Application granted granted Critical
Publication of TWI272502B publication Critical patent/TWI272502B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • General Factory Administration (AREA)
  • Multi Processors (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

1272502 九、發明說明: 【發明所屬之技術領滅;3 發明領域 概略言之,本揭示係有關資料處理領域,特別係有關 5於高效能運算(HPC)環境中,對拓樸結構知曉工作進行排程 及回填之系統及方法。 I:先前技術3 發明背景
高效能運算(HPC)經常係由科學家及工程師使用運算 10糸統對複雜的實體現象或演繹法則現象進行模型化、模 擬、與分析,來加以決定特徵。目前,HPC機器典型係使 用一或多個稱作為節點之處理器組成之大量HPC叢集而設 一-- 計。對大部分大型科學應用及工程應用而言,效能主要係 由f歹彳ϋ务性決定,而非由個別節點之速度決定;因此, 15擴充性經常係此種高效能叢集建置上或購買上的限制因 素。擴充性之考量一般係以下列為基準:丨)硬體;π)記憶體、 輸出入(I/O)裝置、及通訊頻寬;iii)軟體;iv)架構;及4 應用程式。在大部分習知HPC環境中,處理、記憶體、及1/〇 頻寬經常平衡得不夠良好,因而無法充分擴充。許多HPC 20環境不具有〗/〇頻寬來滿足高階資料處理需求,或許多HPC 環境係以安裝有過量不必要之組成元件之刀鋒(blades)建 置,結果導致系統之可靠度大減。如此,多種HPC環境無 法&供可於製造導向環境中有效操作的強勁的叢集管理軟 1272502 【發明内容】 發明概要 本發明提供一種於高效能運算(HPC)環境之工作管理 方法及系統,其包括由多數高效能運算節點決定一個未經 5配置的節點子集,各個未經配置之HPC節點組成一個整合 式組織結構。由一工作佇列選出一HPC工作,且使用至少 部分該未經配置之節點子集執行。 本發明有若干重要技術優勢。例如本發明之一項可能 優勢為,經由至少部分減少、分散、或消除集中式切換功 10能,可提供較大輸入/輸出(I/O)效能,或許可提供高達習知 HPC頻寬之4至8倍頻寬。確實若干具體例中,1/〇效能接近 等於處理器效能。如此平衡良好之辦法對通訊上之額外管 理資料量較不敏感。如此,本發明可提高刀鋒(blade)及整 體系統效能。另一項可能之優勢係縮短互連結構的延遲。 15此外,本發明比較習知刀鋒更容易擴充、更可靠、且具有 更尚錯誤容許度。又另一項優勢係,降低Hpc伺服器製造 上之相關成本,該成本可能轉嫁給大學與工程實驗室,及/ 或降低進行HPC處理上之相關成本。本發明進一步允許管 理軟體至少部分基於平衡架構,因而更強勁且更有效。本 20發明之各具體例不具有此等優勢,具有若干、或具有全部 此等優勢。其它本發明之技術上優勢對熟諳技藝人士顯然 易明。 圖式簡單說明 為求更完整暸解本揭示及其優點,現在參照後文說明 6 1272502 連同附圖說明如後,附圖者: 第1圖顯示根據本揭示之一具體例,一種範例高效能運 算系統; 第2A-D圖顯示於第1圖之系統之格網之各個具體例及 5 其用途; 第3 A - C圖顯示於第1圖之系統之個別節點之各個具體 例; 第4A-B圖顯示根據第1圖之系統,圖形使用者介面之各 個具體例; 10 第5圖顯示根據第1圖之系統,叢集管理軟體之一具體 例; 第6圖為流程圖,顯示根據第1圖之高效能運算系統, 一種提交一批次式工作之方法; 15
第7圖為流程圖,顯示根據第1圖之高效能運算系統, 一種動態回填格網之方法;以及 第8圖為流程圖,顯示根據第1圖之高效能運算系統, 一種動態管理一節點故障之方法。 I:實施方式3 較佳實施例之詳細說明 20 第1圖為方塊圖,顯示使用HPC技術來執行軟體應用程 式及處理程序,例如執行大氣、氣候、或墜毁模擬之高效 能運算(HPC)系統100。系統100對使用者提供於各個運算節 點115間動態配置之HPC功能,I/O效能實質上係類似處理效 能。通常此等節點115由於輸入/輸出(I/O)效能的增高以及 1272502 組織結構延遲的縮短,因此容易擴充。例如於分散式架構 之節點115之擴充性可以女達爾氏法則(Amdahl’s law)之導 數表示: S(N)=1/((EP/N)+FS)*(1-Fc*(1.RR/L)) 5 此處S(N)=N個處理器之加速,Fp=並列節點之分量,
Fs=非並列節點之分量,Fc==用於通訊之處理分量,以及 , RR/L=遠端/近端記憶體頻寬比。因此經由HPC系統1〇〇提供 貫質上專於處理效能或接近處理效能之1/〇效能,Hpc系統 • 1〇0可提高HPC應用用途之總體效率,允許系統之行政管理 10 更為容易。 HPC系統1〇〇為分散式賓/主系統,其允許使用者(例如 科學家及工程師)於HPC伺服器102進行工作15〇之處理。例 如,系統1〇〇可包括hpc伺服器102,其係經由網路1〇6而連 結至一或多個行政工作站或本地客端120。但系統1〇〇可為 、15孤立運算環境或為任何其它適當環境。簡言之,系統⑽為 、 任何HPC運算環境,其包括高度可擴充之節點115,且允許 使用者提交工作150,將可擴充之節點115動態配置於工作 150’以及使用配置之節點115來動態執行工作⑽。工作⑼ 扣可為任何可使用HPC技術處理操作之批次工作或線上工作 且可由任何適當使用者提交之工作。例如工作is〇可為模擬 月求权型、或任何其它高效能要求。工作15〇也可為請求 執行y資料中心應用程式,諸如叢集化資料庫、線上異動 處理系統、或叢集化應用伺服器。如此處使用「動態」— 列通常表示某些處理於回合時間方面,至少部分係基於一 8 1272502 或多項變數而決定。如此處使用,「自動」—詞通常表示適 當處理實質上係經由至少部分Hpc系統1〇〇而進行。須瞭解 「自動」進一步包含任何適當使用者或行政管理者與系統 100之互動,而未悖離本揭示範圍。 5 HPC伺服器102包含可使用多數平衡節點115及叢集管 理引擎130,可操作來處理工作15〇之任何本地電腦或遠端 電腦。通常HPC伺服器1〇2包含分散式電腦諸如刀鋒伺服器 (blade server)或其它分散式伺服器。但就組態結構而言,伺 服為102包括多數節點115。節點115包含任何電腦或處理裝 10置諸如刀鋒、通用個人電腦(ρ〇、麥金塔電腦、工作站、 基於Unix之電腦、或任何其它適當裝置。通常第丨圖僅提供 可用於本揭示之電腦實例。例如,雖然第丨圖顯示可用於本 揭示之伺服器102,但系統1〇〇可使用伺服器以外之電腦以 及伺服器區(server pool)實作。換言之,本揭示涵蓋通用電 15腦以外之電腦、及不含習知操作系統之電腦。如本文件使 用’電細」一同意圖涵蓋個人電腦、工作站、網路電腦、 或任何其它適當處理裝置。HPC伺服器102或組成節點115 適合執行任何操作系統,包括Lirmx、UNIX、Windows伺服 器、或任何其它適當操作系統。根據一具體例,Hpc伺服 20器102也包括遠端網路伺服器或可以通訊方式耦接遠端網 路伺服器。因此伺服器1〇2包含任何具有軟體及/或硬體之 任一種組合之電腦’其適合用於動態配置節點1 1 5來處理 HPC工作 150 〇 於高階,HPC伺服器1〇2包括一管理節點1〇5、包含多 1272502 個節點115之一格網(gdd) 110及叢集管理引擎13〇。特別, 伺服器102可為標準19吋框架,包括多個刀鋒(節點115),且 有部分或全部以下各組成元件:丨)雙重處理器;ii}大型高 頻寬記憶體;iii)雙主機通道配接器(HCA) ; iv)整合式組織 結構交換器;v)FPGA支援;以及vi)冗餘電源輸入或Ν+ι電 源供應器。此等各項組成元件允許讓故障侷限於節點層級 。但須瞭解HPC伺服器1〇2及節點丨15可未包括全部此等組 成元件。
10 15
管理節點105包含專用於管理或輔助行政管理者之至 少-個刀鋒。舉例言之,管理節點1〇5可包含二刀鋒,二刀 鋒之一為冗餘(諸如主動/被動組配結構)。一具體例中,管 理節點105可為與HPCf點115同型刀鋒或運算裝置。但管 理節點1G5可為任何節點,包括任何數目之電路且以任一種 適當方式組配之節點,只要維持可操作來至少部分管靜 網㈣即可。經常管理節•賴5於實體上或邏輯上係與多個 HPC節點115結合表科格網11()。該具體實關中,管理 節點⑽可透過麟軌式_至格則q。鍵路⑽ 可包含可實作任何適當馳蚊之任何通朗路。—直體 鏈路職含管理節謂與格咖間之十億位^或 W十億位元乙太網路通訊。 裕賴W來提高處理功率之—組節點115。_ 7格網竭三維圓環(3DTGnls),但也可為網格、超方 塊狀或任何其郷狀岐態配置1杨離本揭示之範圍 。格網H0之各個節點115間之鏈路可為串列類比鏈 20 1272502 列類比鏈路、數位鏈路、或任何其它型別之可傳輸電氣俨 號或電磁信號之鏈路,諸如光纖或銅纜線。各個節點115組 配有一整合式交換器。如此,允許節點115更容易成為三維 圓環的基本組成,且辅助縮短其它節點115間之又丫2距離。 5此外,如此銅佈線可以高達十億位元之速率用於大型系統 ,若干具體例中,最長纜線係少於5米,簡言之,節點115 通常對最接近之相鄰通訊以及較高1/0頻寬調整為最佳化。 各個節點115包括-個叢集代理器132,其係通訊式耦 接叢集管理引擎130。通常,代理器132接收來自管理節點 10 1〇5及/或叢集管理引擎130之請求或命令。代理器132可包 括任何硬體、軟體、韌體、或其組合,其可操作來決定節 點115之實體狀態,且通訊處理後之資訊例如經由「心搏」 通訊處理後之資訊給管理節點1〇5。另一具體例中,管理節 點105可定期輪詢代理器132來決定相關聯之節點115之狀 15態。代理器132可以任一種適當電腦語言寫成,該等電腦語 a,諸如C語言、C++語言、組合語言、爪哇語言、虛擬基 本浯g、及其它語言、或其任一種組合,只要代理器132維 持與至少部分叢集管理引擎130可相容即可。 叢集管理引擎130可包括任一種硬體、軟體、韌體、或 20其組合’其可操作來動態配置與管理節點115,以及使用節 點115來執行工作15〇。例如叢集管理引擎13〇可以任一種適 當電腦語言書寫或敘述,該等電腦語言包括C語言、C++語 口 爪唾。吾g、虛擬基本語言、組合語言、4GL之任何適 當版本、以及其它語言或其任一種組合。須瞭解雖然叢集 11 1272502 管理引擎13〇於第i圖係以單一多任務型模組來舉例說明, 但由此種引擎所執行之特色及功能可藉多重模組執行,該 等模組例如實體層模組、虛擬層模組、工作排程器、及呈 現引擎(如第5圖顯示其進-步細節)。此外雖然於圖中顯示 5於管理節點105外部,但管理節點1〇5典型執行與叢集管理 _ 引擎130相關聯之一或多項處理程序,且可儲存叢集管理引 擎13〇。此外,叢集管理引擎13〇可為另一軟體模組之子模 組或次模組,而未悖離本揭示之範圍。因此叢集管理引擎 春 130包含可智慧型管理節點115及工作15〇之一或多個軟體 10 模組。 伺服器102包括介面104,來於賓主環境或其它分散式 %境中,透過網路1〇6而與其它電腦系統諸如客端丨2〇通訊 。若干具體例中,伺服器1〇2由網路106接收工作15〇或工作 策略用來儲存於碟片場_ farm) 140。碟片場14〇也可使 • 15肖互連各個節點之相同寬頻介面來直接連結至運算陣列。 _ ^ ’介面1G4包含以適當組合以軟體及/或硬體編碼之邏 輯且可操作來與網路1〇6通訊。特別,介面⑽包含支援 與通訊網路106相關聯之一或多項通訊協定之軟體,或介面 104包含可操作來通訊實體信號之硬體。 2〇山網路106可辅助電腦伺服器1〇2與任何其它電腦諸如客 端^2〇間之無線通訊或有線通訊。確實,雖然網路106於圖 中顯I為駐在飼服器102與客端120間,但網路106也可駐在 各㈣點115間,而未悻離本揭示之範圍。換言之,網路106 ’函盖任何可操作來辅助各個運算組成元件間之通訊之任何 12 1272502 網路、多數網路、或次網路。網路l〇6例如可介於各個網址 間通訊例如網際網路協定(IP)封包、訊框傳送(Frame Rday) 訊框、異步傳輸模型(ATM)單元、語音、視訊、資料及其它 適當資訊。網路106包括一或多個區域網路(1^^)、無線存 5取網路(RAN)、都會區域網路(man)、廣域網路(WAN)、稱 作為網際網路之全球電腦網路之全部或部分、及/或於一或 多個位置之任何其它通訊系統。 通常碟片場140為儲存工作15〇、側繪圖、開機影像、 或其它§fL之任何記憶體、資料庫、或儲存區網路(SAN) 10 。根據所示之具體例,碟片場140包括一或多個儲存客端142 。碟片場140可根據多項通訊協定之任一者,來處理資料封 包及路由資料封包,該等通訊協定例如為無線頻寬(〗B)協定 、十億位元乙太網路(GE)協定、或光纖通道(FC)協定。資 料封包典型係用來於碟片場140内部傳輸資料。一個資料封 15包包括一標頭,該標頭有一來源識別符以及一目的地識別 符。來源識別符例如為來源網址,來源識別符可識別資訊 發送者;目的地識別符例如目的地網址,可識別資訊之接 收者。 客端120為可透過使用者圖形介面(GUI) 126對使用者 20呈現一工作提交晝面,或可操作來進行行政管理之任何裝 置。於咼階’圖示之客端120包括至少GUI 126,以及包含 電子運算裝置,其可操作來接收、發送、處理、以及儲存 任何與系統100相關聯之適當資料。須瞭解可有任何數目之 客端120耦接至伺服器102。此外「客端12〇」及「客端12〇 13 1272502 之使用者」可視情況而互換使用,並未恃離本揭示之範圍 。此外,為求方便舉㈣明,各個客端細由―位使用者 使用來說明。但本揭示涵蓋多數使用者使用同一部電腦來 以相同GUI 126通訊多項工作15〇。 5 ⑹本揭不使用’客端12()意®涵蓋個人電腦、觸控榮幕 終端裝置、工作站、網路電腦、資訊服務站、無線資料璋 、行動電話、個人資料助理⑽叫、轉裝置或其它裝置 内部之-或多種處理器、或任何其它適當處理裝置。例如 各端12G可包含具有輸人裝置之電腦,輸人裝置諸如數字小 1〇鍵盤、觸控式面板、滑鼠、或其它可接收資訊之裝置;以 及客端120包含可傳輸與飼服器1〇2或客端12〇之操作相關 聯之資訊之輸出裝置,該等資訊包括數位資料、視訊資訊 、或GUI 126。輸入裝置及輸出裝置包括固定式儲存媒體或 活動式儲存媒體,諸如電腦磁碟、CD-R〇M、或其它適當 I5媒體來接收來自使用者之輸入;以及經由行政管理顯示器 及工作提交顯示器,亦即GUI126,而提供輸出信號給客端 120使用者。 GUI 126包含圖形使用者介面,該126可操作來允 許1)客端120使用者與系統1〇〇介接,來提交一或多項工作 2〇 I50,及/或n)系統(或網路)行政管理者使用客端120來與系 統1〇〇介接用於任何適當之監督目的。通常GUI 126對客端 120使用者提供,由HPC系統刚所提供的資料的有效且為 使用者友善之呈現。GUI 126可包含多數可客製訊框或視圖 ,其具有可由使用者操作之互動式攔位、下拉表單、及按 14 1272502 鈕。一具體例中,GUI 126呈現工作提交顯示晝面,該顯示 畫面呈現多個工作參數欄位;以及GUI透過輸入裝置之一而 接收來自客端丨2〇使用者之命令。GUI 126另外或組合呈現 喊點115之實體狀態與邏輯狀態給系統行政管理者,如第 5 4A-B圖所示;以及GUI 126接收來自行政管理者之各項命令 。行政管理者之各項命令可包括可使用(不可使用)之標記節 點、維修用之關機節點、再開機節點、或任何其它適當命 令。此外,須瞭解,圖形使用者介面一詞可以單數形使用 或複數形使用,來描述一或多個圖形使用者介面、以及一 10個特定圖形使用者介面之各個顯示晝面。因此,GUI 126 涵蓋任何可於系統100處理資訊,且有效呈現結果給使用者 之任何圖形使用者介面,例如俗稱之網路瀏覽器。伺服器 102可透過網路瀏覽器(例如微軟公司網際網路探索者 (Microsoft Internet Explorer)或網景公司瀏覽器(Netscape 15 Navi§ator))接收資料,以及使用網路106送返適當的HTML 回應或XML回應。
於一操作方面,HPC伺服器102首先經過初始化或開機 。於此過程中,叢集管理引擎130判定格網110中之節點115 之存在、狀態、所在位置及/或其它特性。如前文說明,如 20此,可基於當各個節點初始化時,或由管理節點105輪詢時 ,幾乎為即刻通訊之「心搏」。其次,叢集管理引擎130例 如可基於預定策略而動態配置格網U0之各個部分給一或 多個虛擬叢集220。一具體例中,叢集管理引擎130連續監 視節點115是否可能發生故障;而當判定其中有一節點115 15 1272502 故P羊日寸,使用多種復原技術之任一者來有效管理故障。叢 木笞理引擎130也可對虛擬叢集220之各個配置節點管理且 提供獨特執行環境。執行環境包含主機名稱、ιρ網址、作 業系統、組配之服務、本地檔案系統與共享檔案系統、及 5 一組安裝之應用程式之資料集合。叢集管理引擎130可根據 相關聯之策略,且根據叢集間策略,例如優先順位,而由 虛擬叢集220加減節點。 菖一使用者登入至客端120時,使用者可透過gui 126 而被呈現一工作提交畫面。一旦使用者進入該等工作參數 及所七:父之工作150時,叢集管理引擎13〇處理與工作15〇、 使用者、或使用者群相關聯之工作提交、相關參數、及任 何預定策略。然後,叢集管理引擎13〇至少部分基於此項資 訊來決定適當虛擬叢集220。然後,叢集管理引擎13〇於虛 擬叢集220内部動態配置工作空間230,以及使用hpc技術 15跨所配置之節點來執行工作150。至少部分基於較高I/O 效月b ’ HPC伺服器1〇2可更快速完成工作150的處理。當完 成時,叢集管理引擎將結果160通訊告知使用者。 第2A-D圖顯示於系統10〇之格網21〇之各個具體例及 其使用或其拓樸結構。第2A圖顯示使用多型節點之格網210 2〇 之一種組配結構,亦即三維圓環。舉例言之,所示節點型 別包括外部I/O節點、FS伺服器、Fs母資料伺服器、資料庫 伺服器、及運算節點。第2B圖顯示格網21〇之r摺疊」實例 。摺疊通常允許袼網21〇之一個實體緣連結至相對應之軸向 緣’藉此提供更為強勁或無邊之拓樸結構。本具體例中, 16 1272502 節點215經包裹來提供藉節點鏈路216所連結之接近無接縫 式拓樸結構。節點鏈路216可為實作任何通訊協定來互連二 或二以上節點215之任何適當硬體。例如節點鏈路216可為 實作十億位元乙太網路之銅纜線或光纖纜線。 5 第2C圖顯示具有一虛擬叢集220配置於其内部之格網 210。雖然只以一個虛擬叢集220舉例說明,但於格網21〇可 有任何數目(包括零個)虛擬叢集22〇,而未悖離本揭示之範 圍。虛擬叢集220為處理相關工作15〇之節點215之邏輯組群 。舉例言之,虛擬叢集220可與一研究小組、一部門、一實 10驗室、或任何其它可提交類似工作150之使用者組群相關聯 。虛擬叢集220可為任何形狀,且於格網21〇内部包含任何 數目之節點215。確實,雖然舉例說明之虛擬叢集22〇包括 多數實體上相鄰之節點215,但叢集22〇可為可操作來處理 工作150之邏輯相關節點215的分散式叢集。 15 虛擬叢集220可於任何適當時間配置。例如叢集220可 於系統100初始化時,例如基於起動參數配置;或叢集 可例如基於變化中之伺服器102之需求而動態配置。此外, 虛擬叢集220可隨時間之經過,改變其形狀及大小,來對變 化中之請求、需求、及情況做快速回應。例如虛擬叢集 2〇可響應於第二節點215(先前為叢集22〇之一部分)故障,而自 動改變為含括一個自動配置之第一節點215。若干具體例中 ’叢集220可視處理需求而共享多個節點215。 第2D圖顯示配置於範例虛擬叢集220内部之各個工作 空間230a及230b。通常工作空間23〇係動態配置來完成所接 17 1272502
間230之尺寸可由使帛麵管理者財動輸入 ,或基於工作 參數t略、及/或任何其它適當特性而動態決定。 q八 圖顯不於格網11〇内部之個別節點115之各個具 一、體例中’郎點Η5係以刀鋒(blades) 315表示。 "^315&含任何可操作來處理全部或部分卫作150(諸如 工作執仃緒或1作程序)之於任何導向之運算裝置。舉例言 10之刀鋒315可為標準Xe〇n64TM主機板、標準pci_E邓ress OpteronM主機板或任何其它適當運算卡。 鋒315為整合式組織架構,其跨格網I〗。之多個節點 σ隹而均勻刀散組織結構之交換元件,藉此可減少或消除任 • 何集中式交換功能,提高錯誤忍受度,且允許並列進送訊 :15息。特別’刀鋒315包括-整合式交換器345。交換哭泌包 可為八埠交換器, 維圓環結構。此等 相鄰節點115,兩 • 括任何允許不同拓樸結構之任何數目之璋。例如交換器345 其允許更緊密之三維網格拓樸結構或三
構,例如4D圓環拓樸結構,或其它大於三 或其它大於三維之非傳統拓樸 18 結構。此外,節點115可進一步沿對角軸線互連,因而減小 相當运距離節點115間之通訊躍遷或交換。舉例t之,第 節點115可連結實體上駐在東北轴之數個=维「 —、、、再%遷」遠的 第二節點115。 第3A圖顯示刀鋒315,刀鋒315於高階包括至少-卢里 器320a及320b、本地或遠端記憶體340、及整合式交換= 或組織結構)345。處理器320執行指令,以及操作資料,°來 執行刀鋒315諸如中央處理單元(CPU)之操作。述及處理哭 320於適用時表示包括多數處理器320。一具體例中,處2 器320可包含χ_64或Itanium™處理器、或若干類似之處理 器或其衍生裝置。例如Xeon64處理器可為帶有2mb快取記 憶體以及超執行緒(《^^丁咖(1_)之3.4〇1^晶片。本具體 例中’雙重處理器模組包括可改良效率之當地周邊構件互 連/快速規格(PCI/Express)。如此,處理器320具有有效記憶 體頻寬,典型地具有記憶體控制器内建於處理器晶片。 刀鋒315也包括北橋接器321、南橋接器322、PCI通道 325、HCA 335、及記憶體340。北橋接器321與處理器320 通訊,且控制與記憶體340、PCI匯流排、第二階快取記憶 體、及任何其它相關組成元件之通訊。一具體例中,處理 器320係使用正面匯流排(FSB)而與處理器320通訊。南橋接 裔322管理多項刀鋒315之輸入/輸出(I/O)功能。另一具體例 中,刀鋒315可實作英代爾集線器架構(IHA),其包括圖形 與AGP記憶體控制器集線器(GMCH)及I/O控制器集線器 (ICH)。 1272502 PCI通道325包含設計用來提高整合式組成元件間之通 訊速度之任一種高速低延遲鏈路。如此有助於減少刀鋒315 之匯流排數目,因而減小系統的瓶頸。HCA 335包含可於 伺服|§ 102内部提供基於通道之1/〇之任何組成元件。各個 5 HCA 335可提供總頻寬2·65十億位元組/秒(GB/sec),因而 允《午母個PE至父換态345為1·85 GB/sec以及每個PE至I/O為 800百萬位元組/秒(MB/sec),I/O諸如BIOS(基本輸出入系統 )、乙太網路官理介面等。如此進一步允許交換器345之總 頻寬對13.6十億反轉/秒波尖為3·7 GB/sec,或對每十億反轉 10 ’ 〇·27位元組/反轉I/O速率為50 MB/sec。 記憶體340包括任何記憶體模組或資料庫模組,其可呈 依電性記憶體或非依電性記憶體形式,包括(但非限制性) 磁媒體、光學媒體、快閃記憶體、隨機存取記憶體(RAM) 、唯讀記憶體(ROM)、活動式媒體或任何其它適當之本地 15或遠端記憶體組成元件。所示具體例中,記憶體340包含可 以至少6·4 GB/s操作之8 GB雙重雙倍資料速率(DDR)記憶 體組成元件。記憶體340可包括適當管理與執行HPC工作 !50之資料,而未悖離本揭示之範圍。 第3Β圖顯示一刀鋒315,其包括二處理器320a及320b 20 、記憶體340、超傳輸/周邊構件互連(ΗΤ/PCI)橋接器330a及 330b、及二HCA 335a及335b。 實例刀鋒315包括至少二處理器320。處理器320執行指 令及操作資料來進行刀鋒315,諸如中央處理單元(CPU)之 操作。所示具體例中,處理器320可包含Opteron處理器或 20 1272502 任何其它類似之處理器或衍生裝置。本具體例中,〇pt_ 處理器設計可支援袼網11()之平衡良好之基本組成元素的 發展。但雙重處理器模組可提供4至5個Gigafl〇p有用之效能 ,下一代技術將有助於解決記憶體之頻寬限制。但刀鋒315 5可為多於二處理器320,而未悖離本揭示之範圍。如此處理 器320具有有效記憶體頻寬,典型地具有記憶體控制器内建 於處理器晶片。本具體例中,各個處理器32〇有一或多條超 傳輸(或其它類似之回路型別)鏈路325。 通常’ HT鏈路325包含任何用來設計提高整合式組成 10元件間之通訊速度之咼速低延遲鏈路。如此有助於減少刀 鋒315之匯流排數目,因而減少系統的瓶頸。Ητ鏈路325可 支援處理器至處理器通訊用於快取相干性多重處理器刀鋒 315。使用HT鏈路325,可將多達八個處理器320置於刀鋒 315上。於使用時,超傳輸可提供6.4 GB/sec、12 8 GB/sec 15或以上之頻寬,因而提供透過舊式PCI匯流排之資料流通量 之增加大於40倍。此外超傳輸技術可與舊式1/〇標準如pcI 及其它技術如PCI-X相容。 刀鋒315進一步包括ΗΤ/PCI橋接器330及HCA 335。PCI 橋接器330可設計成遵照PCI本地匯流排規格修訂版2 2或 20 3.04pci快速基本規格l.〇a或其任何導出規格。HCA 335包 含任何可提供於伺服器102内部之基於通道之I/O之組成元 件。一具體例中,HCA 335 包含Infiniband HCA。InfiniBand 通道典型係藉連結主機通道配接器及目標通道配接器形成 «亥寺配接為允a午退端儲存裝置及網路連結成為and 21 1272502 組織結構,進-步細節顯示於第犯圖。超傳輸奶至pci_ 快速橋接器330及HCA 335,可對各處理器32〇形成全錐工2 ㈣咖UO通道。若干频财,如倾供足_寬來支援 於分散式HPC環境1〇〇之處理器-處理器通訊。此夕卜,如此提 5供刀鋒315具有1/0效能接***衡或實質上平衡處理器32〇 之效能。 第3C圖顯示包括擴充卡之刀鋒315之另一具體例。本具 體例中,擴充卡可支援3.2 GB/sec或更高速的快取相干性介 面。擴充卡可操作而包括一或多個攔位可規劃閘陣列 10 (FPGA) 350。例如所示擴充卡包括:FPGA 35〇,分別表示 為350a及350b。通常,;pPGA35〇對刀鋒315提供非標準介面 ,提供處理客端演繹法則的能力、用於信號、影像、或加 密、解密處理應用操作之向量處理器以及高頻寬。例如 FPGA可補充刀鋒315之能力,FPGA可提供通用處理器效能 15之十倍至二十倍加速因數之效能用於特殊功能,諸如低精 度快速傅立葉轉換(FFT)及矩陣算術函數。 前文舉例說明及附圖說明可提供實作各項可擴充節點 115(例如以刀鋒315舉例說明)之範圖。但各圖僅供舉例說明 之用’糸統100涵盍使用各元件之適當組合及配置來實作各 20項擴充體系。雖然已經部分就刀鋒伺服器102舉例說明,但 熟諳技藝人士瞭解本發明之教示可應用於任何叢集HPC伺 服器環境。如此,此等叢集伺服器102係結合此處說明之各 項技術可為本地或為分散,而未丨孛離本揭示之範圍。如此 ’此等伺服器102包括HPC模組(或節點115),該HPC模組結 22 〇可提供高效能運算能力同時減少I/O延遲之各元件之適 句魬合及配置。此外,各項HPC模組也可視情況需要而組 j操作及/或分開操作 。例如格網110包括多個實質上類似 之即點115,或實作不同硬體或組織架構之各個節點115。 第4A-B圖顯示根據系統100之管理圖形使用者介面4〇〇 7各具體例。經常管理GUI 4〇〇係使用GUI ι26而呈現給客 ^ 120。通常,管理GUI 400係呈現多個管理互動式晝面或 、、、示晝面給系統行政管理者,及/或呈現多個工作提交晝面 或工作側繪圖畫面給使用者。此等畫面或顯示幕包含組繹 、為所收集之資訊之各個面相之圖形元件。舉例言之,GUI 400可呈現袼網實體健康顯示畫面(顯示於第4A圖)、或格網 110之節點115之邏輯配置或拓樸結構(顯示於第4B圖)。 第4A圖顯示範例顯示晝面400a。顯示晝面400a包括呈 現給行政官理者用於有效管理節點115之資訊。所示具體例 包括標準網路瀏覽器,具有袼網11〇之邏輯「圖像」或螢幕 快照。舉例s之,本圖像可提供格網11〇其組成節點115之 實體狀態。各個節點115可為多種色彩之任一種,各個色彩 表示各種不同狀態。舉例言之,不合格的節點115為紅色, 已鉍被使用或已經被配置之節點115為黑色,而未經配置之 節點115可加影線。此外,顯示晝面4〇加允許行政管理者移 動指標於節點II5 一者,以及觀視節點⑴之各種實體屬 性。舉例言之,行政管理者可被提供包括下列資訊:「節點 」、「利用性」、「處理器之利用」、「記憶體之利用」、「溫度 」、只體位置」、及「網址」。當然此等僅為資料攔位範例 1272502 ,任何適當實體節點資訊或邏輯節點資訊皆可顯示給行政 管理者。顯示畫面400a也允許行政管理者旋轉格網11〇之觀 視角度,或允許執行任何其它適當功能。 第4B圖顯示範例顯示畫面400b。顯示晝面4〇〇b呈現格 5 網110之邏輯態之一視圖或圖像。該具體例呈現配置於格網 110内部之虛擬叢集220。顯示畫面400b進一步顯示配置於 叢集220内部用來執行一或多項工作150之二範例工作空間 230。顯示晝面400b允許行政管理者移動指標器於圖形虛擬 叢集220上方,來觀視藉各個狀態而分組之多個節點115 ( 10 諸如經配置或未經配置)。此外,行政管理者可移動指標器 於工作空間230之一上方,因而可呈現適當工作資訊。舉例 言之,行政管理者可觀視工作名稱、開始時間、節點數目 、估計結束時間、處理器之使用情況、I/O使用情況等。 須瞭解管理GUI 126 (前文分別以顯示晝面4〇〇a&4〇〇b 15 表示)僅供舉例說明之用,而可包括所示圖形元件以及其它 未顯示之管理元件中之無任一者、部分或全部。 第5圖顯示根據系統100之叢集管理引擎13〇 (此處顯示 為引擎500)之一具體例。本具體例中,叢集管理引擎5〇〇包 括複數個子模組或組成元件:實體管理器5〇5、虛擬管理器 2〇 510、工作排程器515、及本地記憶體或變數52〇。 貫體管理器505為可操作來決定各個節點11 $之實體健 康情況之任何軟體、邏輯、韌體、或其它模組,以及實體 管理器505可基於此等測定之「健康情況」來有效管理節點 1 1 5。貫體管理态可使用此等資料來有效判定節點1 1 5之故 24 1272502 障,與對節點115之故障做回應。一具體例中,實體管理器 505係通訊式耦接至複數個代理器丨32,各個代理器132係駐 在一個節點115。如前文說明,代理器132集合至少實體資 訊且將§亥資§fL通訊給貫體管理器。實體管理器進一 5步可操作來透過網路106通訊警告於客端120之系統行政管 理者。 虛擬管理器51G為可管理虛擬叢集22()及節點115之邏 輯狀態之任何軟體、邏輯、韋刀體、或其它模組。通常虛擬 管理510鏈接表示節點115之邏輯電路與節點出之實體 10狀態。基於此等鏈路,虛擬管理器510可產生虛擬叢集22〇 ’且對虛擬叢集22G處理各項變化,諸如響應料點故障或 (系統或使用者)請求加速HPC處理而做出回應。虛擬管理器 510也可將虛擬叢集220之狀態諸如未經配置之節點ιΐ5通 工作排程裔515,俾便動態回填未經執行的、或仔列等 15候的HPC程序及工作150。虛擬管理器51〇可進一步判定工 作150與特定節點115之相容性,且將此資訊通訊給工作排 程器515。若干具體例中,虛擬管理器51〇可為呈現個別虛 擬叢集220之物件。 叢集管理弓丨擎500也包括工作排程器515。工作排程器 20 515為拓樸知曉模組,其處理系統資源之各個面相,以及處 理處理器及時間配置來決定最佳工作空間230及時間。常被 考慮之因素包括處理器、處理程序、記憶體、互連裝置、 茱片虛擬引擎等。換言之,工作排程器515典型與GUI 126 互動來接收工作150;工作排程器515典型與實體管理器5〇5 25 1272502 動來確保各個節點115的「健康情況」;以及工作排程器 :15與虛擬管理器训互動來動態配置某個虛擬叢集22〇内 P之工作空間23〇。此種動態配置可經由各項演繹法則而達 成忒等硬繹法則常結合格網11 〇以及適當時虛擬叢集2 2 〇 之目别拓樸結構知識。工作排程器515處理串列程式及並列 私式一者之批次式執行與互動式執行。棑程器515也提供實 作工作150所呈現之各項問題的選擇與執行上之策略524之 貫作方式。
叢集官理引擎5 00例如經由工作排程器5丨5可進一步操 1〇作來執行有效檢查點檢查。重新起動的轉存典型包含超過 75%寫至碟片之資料。此種1/〇之進行方式讓處理不會因平 台故障而遺失。基於此點,檔案系統的1/〇可分隔為二部分 :生產性I/O及防禦性1/0。生產性1/〇為使用者呼叫之資料 的寫入,例如虛擬轉存、隨時間之經過之關鍵實體變數之 15軌跡等。防禦性I/O係用來管理經過一段相當時間之大量模 擬回合。如此加大I/O頻寬,將可大為縮短於檢查點檢查時 所涉及之時間與風險。 回頭述及引擎500,本地記憶體520包含系統1〇〇之多項 特色之邏輯描述(或資料結構)。本地記憶體52〇可儲存於任 20何實體或邏輯資料儲存裝置,該資料儲存裝置可操作來由 可相容碼而定義、處理或取還。例如本地記憶體52〇可包含 一或夕個可擴充標§己语g (XML)表格或文件。各個元件可 以SQL陳述或稿本、虛擬儲存存取方法(vsAM)槽案、平土曰 檔案、二元資料檔案、Btrieve檔案、資料庫檔案、或逗點 26 1272502 分開值(CSV)檔案描述。須瞭解各個元件可包含一變數、一 表格、或任何其它適當資料結構。本地記憶體520也包含多 個表格或檔案儲存於一部伺服器102或儲存跨多個伺服器 或節點。此外,雖然於附圖係以駐在叢集管理引擎500内部 5 舉例說明,但若干或全部本地記憶體520可於内部或外部, 而未悖離本揭示之範圍。 10 15 20 舉例說明之本地記憶體520包括實體串列mi、虛擬串 列522、組群檔案523、策略表524、及工作佇列525。雖然 於圖中未顯不,但本地記憶體520可包括其它資料纟士構,包 括工作表及稽核記錄,而未捧離本揭示之範圍。回頭表照 附圖舉例說明之結構,實體串列521可操作來儲存有關節點 us之識別資訊及實體管理資訊。讀串列521可為每個節 點出包括至少-項記錄之多維:雜結構。例如實體記鋒可 包括下列各個欄位’諸如「節點」、「利用性」、「處理 利用率」、「記憶體之率」、「溫度」、「實 D「° ,」、「開機影像」等。須瞭解各個記錄可未 欄位,可包括部分或全部該等範例攔位。—=觀例 虛擬串脚可摔作串列522之外來餘。 虛擬管理資訊。虛擬 項記錄之多維資料結構‘、'母口即點115包括至少-點」、「利用性」、「卫作」、「卢錄可包括諸如「節 μ置」、「相容性」等攔位。須瞭解各項:即點」、「邏 何旄例攔位,或包括全 、°可未包括任 Ρ刀耗例攔位。-具體例中, 27 1272502 虛擬記錄可包括至另-表格例如組群料523之鍵路。 組群棺案523包含可操作來儲存制者組群資訊及安 全性資訊之一或多項表格或記錄,諸如存取控制串列(或 ACL)。例如各個組群記錄可包括使用者可利用之服務、節 5點115、或工作串列。各個邏輯組群可關聯一個業務小組或 業務单几、一個部門、一項計劃、—個安全性組群、或可 提交工作15G或與#理至少部分㈣刚之-❹個使用者 之任何其它集合相關聯。基於此項資訊,叢集管理引擎卿 可判定提交工作150的使用者是否為有效使用者,若是,則 10執行該工作之最佳參數。此外,組群表523可將各個使用者 組群與虛擬叢集220或與一或多個實體節點出,諸如駐在 特定組群領域内部之節點相關聯。如此允許各組群林個 別的處理空間而不會競爭資源。但如前文說明,虛擬叢集 220之形狀及大小可為動態,虛擬叢集22()之形狀及大小可 15依據需求、時間或任何其它參數而改變。 策略表524包括或多項策略。須瞭解策略表似與策 略524可視情況需要而互換使用。策略表似通常係料有 關工作15G及/或虛擬叢集22G之處理f訊及f理資訊。例如 策略表524可包括多項參數或變數之任一者,該等參數或變 2〇數包括問題大小、問題回合時間、時槽、前置占用、使用 者配置之節點115、或虛擬叢集22〇分享等。 工作仔列525表轉候執行之_或多駐作⑼流。通 常工作仔列525包含任何適當資料結構諸如氣泡陣列、 庫表、或指標器陣列來儲存任何數目(包括零個)工作15〇或 28 1272502 芩照工作。可有一佇列525關聯格網110或有多佇列525關聯 格網110 ’各個佇列525係關聯於格網丨1〇内部之獨特虛擬叢 集220之一。 於一操作方面,叢集管理引擎5〇〇接收由Ν項任務組成 5的工作150, Ν項任務可經由執行計算與交換資訊來協力解 決問題。叢集管理引擎5 〇 〇配置Ν個節點i i 5,以及使用任— 種適當技術,分派N項任務之各項任務給一個特定節點ιΐ5 ,因而讓問題可有效解決。例如叢集管理引擎5〇〇可利用由 使用者供給的工作參數,例如工作任務配置方策。雖言如 1〇此,叢集管理引擎5〇〇嘗試探勘伺服器1〇2之架構,其有對 使用者提供更快速的週轉率,且可能改良系統議的整體產 出量。 一具體例中,叢集管理引擎500接著根據下述範例拓樸 結構來選擇與配置節點115 : 15 規定2D(x,y)或3D(x,y,z)-節點115經過配置,任務可於 規定維度排序藉此保有有效的鄰居對鄰居通訊。規定之拓 樸結構官理多項工作150,希望實體通訊拓樸結構可匹配問 題拓樸結構,讓工作150之協力合作之任務可頻繁與鄰居之 任務通訊。舉例言之,於2x2x2維度(2,2,2)請求八項任務將 2〇破配置為方塊。為了達成最佳匹配目的,2D配置可被「摺 成為三維(如第2D圖之討論),同時仍然保有有效鄰居 對鄰居通訊。叢集管理引擎500可以任何取向自由配置規定 之維度形狀。例如2x2x8框可配置於垂直或水平可利用之實 體節點内部。 29 1272502 最佳匹配方塊-叢集管理引擎500於立方體積内部配 N個節點115。此種拓樸結構有效處理工作150,允許麫由^ 短任二節點115間之距離來讓協力工作之任務與任A = 任務交換資訊。 ^可其它 ^最佳匹配球體-叢集管理引擎500於球狀體積配置N個 即點115。例如第一任務被置於球體的中心節點lb,: 2任務被置於環繞該中心節點115之各個節點115。須=
10 其餘各項任務之配置财典型並無特殊限制。此項抬樸^ 構可縮短第—任務與全部其它任務間之距離。如此有效處 理-大類問題’此處任務2至任係與第_任務 其間並未彼此通訊。 一 署1^機二叢集管理弓1擎500以較少考慮節點115之邏輯配 位置或貫體配置位置來配置N個節點115。一具體例中, 此種抬樸結構可謎麗 再j豉勵積極使用格網110用於回填目的,而極 對其它工作150造成衝擊。
、瞭解先4拓樸結構及伴隨之說明僅供舉例說明之用 ’而非闡述實際佶Η 4 i 、”便用之拓樸結構或用於配置此等拓樸結構 之技術。 、 20 灸 擎00可利用配置權值,儲存作為工作15〇 參數或策略524參數。认 , 双於一具體例中,配置權值為0與1間之 修飾值,其表示叢隹乾 欠、 本s理引擎500將如何積極依據所請求之 (曰或权序)之配置方策來安置節點115。本例中,〇值表系 (或維度)為可能時才安置節點115;而1值表系 即刻安置節點115, 〇西士 /、要有足量之自由節點或其它可利用之 30 1272502 朗請求即可。典型地,配_不會凌駕 乏 24,諸如資源保留,以防止大型卫作150缺 貝Λ、,且保有HPC系統100之工作產出量。
10 爾文舉例說明及伴隨之說明提供管理節點115及工作 =〇之邏無系實作用之叢舒則擎獅之_模組圖。 旦圖僅供舉例說明之用,系統100涵蓋使用邏輯元件之任 A種適當Μ及配置來實作此等及其它演繹法則。如此此 等軟體拉組可包括有效管理節點115及JL作15 G之各項元件 之任-種適當組合及配置。此外,若屬適當,可組合及/或 分離各項所示模組之操作。
第6圖為流程圖,顯示根據本揭示之一具體例,動態處 理一工作提交之實例方法600。概略言之,第6圖描述方法 6〇〇,方法600接收一批次式工作提交,基於工作參數及相 關聯之策略5 24來將節點115動態配置於一個工作空間2 3 〇 15 ,以及使用所配置之空間來執行工作150。後文說明之注意 重點集中於執行方法600之叢集管理模組130之操作。但系 統1〇〇涵蓋使用實作部分或全部所述功能之該等邏輯元件 之任一種適當組合及配置,只要其功能維持適當即可。 方法600始於步驟605,HPC伺服器1〇2由使用者接收工 20 作提交150。如前文討論,一具體例中,使用者可使用客端 120提交工作15〇。另一具體例中,使用者可使用hpc伺服 器1〇2直接提交工作15〇。其次於步驟610,叢集管理引擎130 基於使用者選擇組群523。一旦證實使用者,叢集管理引擎 130於步驟615比較該使用者與組群存取控制串列(ACL)。但 31 1272502 須瞭解,叢集管理引擎130可使用任何適當安全性技術來驗 證使用者。基於所測定之組群523,叢集管理引擎13〇判定 使用者是否已經存取該所請求的服務。基於所請求的服務 及主機名稱,叢集管理引擎130於步驟620選擇虛擬叢集220 5 。典型地,虛擬叢集220可於工作150提交之前識別與配置 。但若尚未建立虛擬叢集220,則叢集管理引擎13〇可使用 前述任一項技術來自動配置虛擬叢集220。其次,於步驟625 ,叢集管理引擎130基於工作150的提交來取還策略524。一 具體例中,叢集管理引擎130可判定與使用者、工作15〇、 10或任何其它適當標準相關聯之適當策略524。然後,叢集管 理引擎130於步驟630測定工作15〇之維度,或以其它方= 算工作150之維度。須瞭解適當維度包括長度、寬度、高度 或任何其它適當參數或特性。如前文說明,此等維度用^ 判疋於虛擬叢集22〇内部之適當工作空間23〇(或節點出子 I5集)。於建立初步參數後,叢集管理引擎13〇f試於步驟奶 至步驟665於HPC伺服器102執行工作15〇。 於判定步驟635,叢集管理引和〇使用已經建立的參 數,來判疋疋否有足夠可用之節點來配置期望的工作空間 230。若節點115之數量不足,則於步驟64(),叢集管理㈣ 2〇 決定於虛擬叢集220最容易取得之節點115子隼23〇。妙 後於步驟645,叢集管理弓丨擎130增加工作15〇至工作㈣ 125,直到子集230為可利用為止。然後處理返回決定㈣ 635。-旦有;i夠節點115可資利用,則於步驟㈣,叢隹其 理引擎130動態決定得自可利用之節點115之最佳子隹: 32 1272502 。須瞭解最佳子集230可使用任何適當標準決定,包括最快 速處理時間、最可靠節點115、實體位置或虛擬位置、或第 一可用節點115。於步驟655,叢集管理引擎13〇由所選定之 虛擬叢集220中選出決定之子集23〇。其次於步驟66〇,叢集 5官理引擎130使用所選定之子集230來配置選定之節點115 給工作150。根據一具體例,叢集管理引擎13〇可將虛擬節 點串列522内的節點115狀態由「未經配置」改變成「經配 置」。一旦子集230經過適當配置,於步驟665,叢集管理引 擎130基於工作參數、取還策略524、及任何其它適當參數 10 ,使用所配置的空間來執行工作150。於任何適當時間,叢 集管理引擎130可通訊或以其它方式呈現工作結果16〇給使 用者。例如結果160可經格式化且透過GUI 126來呈現給使 用者。 弟7圖為流程圖顯示根據本揭示之一具體例,動態回填 15於格網110内部之一虛擬叢集220之範例方法7〇〇。於高階, 方法700描述決定於虛擬叢集220之可用空間,決定可與該 空間相容之最佳工作150,以及於可利用空間執行所決定之 工作150。後文說明之重點將集中於執行此項方法之叢集管 理引擎130之操作。但如同先前流程圖,系統100涵蓋使用 2〇 邏輯元體之任一種適當組合及排列來實作部分或全部所述 功能。 方法700始於步驟705,叢集管理引擎130分類工作佇列 525。所示具體例中,叢集管理引擎no係基於儲存於佇列 525之工作150之優先順位,來分類佇列525。但須瞭解叢集 33 l2725〇2 管理引擎130可使用任一種適當特性來分類佇列525,因而 可執行適當工作150或最佳工作150。其次於步驟71〇,叢隼 管理引擎130判定於虛擬叢集220之一之可用節點115的數 目。當然,叢集管理引擎130也可決定於格網110或於虛擬 叢集220之任一者或多者之可用節點115數目。於步驟715,
叢集管理引擎130由分類後之工作佇列525來選出第一工作 150。其次於步驟720,叢集管理引擎13〇動態決定所選定之 工作150之最佳形狀(或其它維度)。一旦已經決定所選定之 10 15
20 工作150之最佳形狀或維度,然後於步驟725至745,叢集管 理引擎13G判定是否可於適當虛擬叢集22()回填卫作15〇。 於判疋步驟725,叢集管理弓丨擎13〇判定是否有足量節 點出可個於所選定之工作⑼。若有足量可之節點 II5則於步驟730,叢集管理引擎13G使用任一種適當技術 對所k疋之工作15G動魏置節點115。例如,叢集管理弓^ 擎130可使用第6圖所述技術。其次於步驟735,叢集管理弓丨 擎130重新計算於虛擬叢集22()可仏節點數目 。於步驟740 ,叢集管理引擎130於所配置之節點115來執行工作150。-旦工作150已經執行(或若對所選定之工作1麻言,節點 115之數目^),則於步_5,叢集㈣丨擎彌擇於 經過分類“作㈣525中之下1H50,以及處理返 130可於任何適當時間初始 所示技術。 化、執行、以及結束於方法7〇0 第8圖為流程圖 择員不根據本揭示之一具體例,動態管 34 !2725〇2 理格網110内部之一節點115故障之實例方法800。於高階, 方法800描述決定節點115故障,自動執行工作復原與工作 管理,且以一個二次節點115來替換該故障的節點115。後 文說明重點將集中於叢集管理引擎130執行此項方法之操 5 作。但如同先前流程圖,系統1〇〇涵蓋使用邏輯元體之任一 種適當組合及排列來實作部分或全部所述功能。 方法800始於步驟805,叢集管理引擎130判定節點115 已經故障。如前文說明,叢集管理引擎130可使用任一種適 當技術來判定節點115已經故障。例如,叢集管理引擎13〇 10 可於不同時間挽出節點115(或代理器132),基於缺乏來自節 點115的回應,判定節點115已經故障。於另一例中,存在 於節點115之代理器132可通訊「心搏」,若無此種「心搏」 則表示節點115已經故障。其次於步驟81〇,叢集管理引擎 130由虛擬叢集220去除已經故障的節點115。一具體例中, 15叢集管理引擎130可將虛擬串列522内部的節點115之狀態 由「經配置」改成「故障」。然後於決定步驟815,叢集管 理引擎130決定工作150是否與故障的節點115相關聯。若無 任何工作150係與郎點115相關聯,則處理結束。如前文說 明,於處理結束前,叢集管理引擎130可將錯誤訊息通知行 2〇政管理者,可自動決定替換節點115,或可自動決定任何其 它適當處理。若有與故障節點115相關聯之工作150,則於 步驟820,叢集管理引擎130決定與工作15〇相關聯之其它節 點115。其次於步驟825,叢集管理引擎130消滅於全部適當 節點115之工作150。舉例言之,叢集管理引擎13〇可執行消 35 1272502 滅工作命令,或叢集管理引擎130可使用任何其它適當技術 來結束工作150。其次於步驟830,叢集管理引擎13〇使用虛 擬串列522來解除節點115之配置。例如,叢集管理引擎130 可將虛擬串列522中之節點115之狀態由「已配置」改成厂 可利用」。一旦已經結束工作,以及全部適當節點115皆已 經解除配置,則於步驟835至步驟850,叢集管理引擎130試 圖使用可用節點115來再度執行工作15〇。 10 15 20 於步驟835,叢集管理引擎13〇取還策略524以及對被消 滅之工作150取還參數。然後於步驟84〇,叢集管理引擎13〇 基於所取還之策略524以及工作參數,來判定於虛擬叢集 220之節點115之最佳子集23〇。—卩已經決定節點ιΐ5之子 集230,則於步称845,叢集管理引擎130動態配置節點115 之子集230。例如,叢集管理引擎13〇可將虛擬串列迎中之 節點115的狀態由「未經配置」改成「已經配置」。須瞭解 此一節點115子集可與曾經執行該項工作15G之原先節點子 集不同。舉例言之,叢集管理引擎13〇可決定不同節點子集 為最佳’在於節點故障而提示從事此項執行。於另一 貝例^ ’叢集官則擎13〇判定二次節點115可操作來替換 故障節點115,新子集230實質上係類似舊工作空間230。一' 旦=定且已經配置經配置之子集230,然後於步侧 叢术s理引擎130執行工作15〇。 先則各個流程圖及隨附之說明舉例說明範 、700及800。簡t之,彡从 ° 糸、洗100涵蓋使用任一種適f 執行此等及其它任菸,田孜術木 各。如此本流程圖之多個步驟可以類似 36 1272502 方式進行及/或以與所示順序不同之順序進行。此外/ 統1〇0使用有額外步驟、較少步驟、及/或不同步驟之方^ 只要該等方法維持適當即可。 / 雖然已經就若干具體例及概略相關方法說明本揭示, 5 =熟諳技藝人士顯然易知可對此等具義及方法做出多項 ·· 敎及修改。如此前文具體實施狀制絕非界限或約束 本揭不。可未悖離本揭示之精髓及範圍而可做出其它變 化、取代、與變更。 _ 【圖式簡單說明】 10 第lw顯示根據本揭示之—具體例…種範例高效能運 算系統; 第2 A - D圖顯示於第!圖之系統之格網之各個具體例及 其用途; 第3A-C圖顯示於第1圖之系統之個別節點之各個具體 . 15 例·’ '· 第4A-B圖顯示根據第1圖之系統,圖形使用者介面之各 Φ 個具體例; 第5圖顯示根據第丨圖之系統,叢集管理軟體之一具體 例; 20 第6圖為流程圖,顯示根據第1圖之高效能運算系統, 一種提交一批次式工作之方法; 第7圖為流程圖,顯示根據第1圖之高效能運算系統, 一種動悲回填格網之方法;以及 第8圖為流程圖,顯示根據第1圖之高效能運算系統, 37 1272502 一種動態管理一節點故障之方法。 【主要元件符號說明】
100…高效能運算(HPC)系統 102…高效能運算伺服器,HPC伺 服器 104···介面 105…管理節點 106…網路 108…鏈路 110…格網 115…運算節點 120…行政管理工作站或本地客端 126···圖形使用者介面,gui 130···叢集管理引擎 132…叢集代理器 140…碟片場 142…儲存客端 150…工作 160...結果 210…格網 215…節點 216.··節點鏈路 220…虛擬叢集 230、230a-b···工作空間 315…刀鋒 320、320a-b···處理器 321…北方橋接器 322···南方橋接器 325…周邊構件互連(PCI)通道,HT 鏈路 330a-b…超傳輸/周邊構件互連 (ΗΤ/PCI)橋接器 335、335a-b···主機通道配接器 (HCA) 340…記憶體 345···整合式交換器 350、350a-b…攔位可規劃閘陣列 (FPGA)
400…管理圖形使用者介面,管理 GUI 400a-b…顯示器 500…叢集管理引擎 505··.實體管理器 38 1272502 510.. .虛擬管理器 515.. .工作排程器 520.. .本地記憶體或變數 521.. .實體串列 522.. .虛擬串列 523…組群槽案 524…策略、策略表 525...工作佇列 600、700、800...方法 605-665、705-745、805-850···步驟
39

Claims (1)

1272502 十、申請專利範圍: 第94111486號申請案申請專利範圍修正本95.07.06. 1. 一種於高效能運算(HPC)環境中進行工作管理之方法, 該方法包含下列步驟: 由複數個高效能運算(HPC)節點決定一未經配置之 子集,該未經配置之HPC節點各自包含一整合式組織結 構;
10 15
20 由一工作佇列中選出一高效能運算(HPC)工作;以 及 使用該等未經配置之節點子集之至少一部分來執 行該經選定之工作。 2·如申請專利範圍第丨項之方法,其中選擇該Hpc工作包 含基於優先順位而由該工作佇列中選出該Hpc工作,被 選出之工作包含之維度係不大於未經配置之子集之拓 樸結構。 3·如申請專利範圍第2項之方法,其中基於優先順伋而 該工作佇列中選出該HPC工作包含: 基於工作優先順位而分類該工作佇列; 由該經過分類之工作佇列中選出一第一Hpc工作 以該未經配置之子集之拓樸結構來決定該第二 HPC工作之維度;以及 配置 〜第 響應於該第一 HPC工作之維度係大於該未緩 之子集之拓樸結構,由該經分類之工作佇列中選出 二HPC工作。 40 1272502
10 15
20 4. 如申請專利範圍第2項之方法,其中該第一 HPC工作之 維度至少部分係基於一或多項工作參數以及相關聯之 策略。 5. 如申請專利範圍第2項之方法,該方法進一步包含: 至少部分基於該HPC工作之維度,而由該未經配置 之子集動態配置一工作空間;以及 其中執行該選定之工作包含使用該經過動態配置 之工作空間來執行該選定之工作。 6. 如申請專利範圍第1項之方法,其中該多數HPC節點組 成一第一多數,以及該方法進一步包含: 決定該選定之工作維度係大於該第一多數之拓樸 結構; 由一第二多數選出一或多個HPC節點,第二HPC節 點各自包含一整合式組織結構;以及 將該選定之第二Η P C節點加至該未經配置之子集 來滿足該經選定之工作之維度。 7. 如申請專利範圍第6項之方法,進一步包含將該第二 HPC節點返回該第二多數。 8. 如申請專利範圍第1項之方法,進一步包含: 決定於該多數Η P C節點中之一第二子集所執行之 第二HPC工作已經不合格; 將該第二子集加至該未經配置之子集;以及 將該不合格之工作加至該工作佇列。 9. 一種儲存有於高效能運算環境中進行工作管理的軟體 41 1272502 之電腦可讀媒體,該軟體可操作以進行下列動作: 由複數個高效能運算(HPC)節點決定一未經配置之 子集,該未經配置之HPC節點各自包含一整合式組織結 構; 5 由一工作佇列中選出一高效能運算(HPC)工作;以 及 使用該等未經配置之節點子集之至少一部分來執 行該經選定之工作。 10. 如申請專利範圍第9項之電腦可讀媒體,其中該可操作 10 來選擇HPC工作之軟體包含可操作來基於優先順位而 由該工作佇列中選出該HPC工作之軟體,該被選出之工 作包含之維度係不大於未經配置之子集之拓樸結構。 11. 如申請專利範圍第10項之電腦可讀媒體,其中該可操作 來基於優先順位而由該工作佇列中選出HPC工作之軟 15 體包含可操作來執行下列動作之軟體: 基於工作優先順位而分類該工作佇列; 由該經過分類之工作佇列中選出一第一 HPC工作; 以該未經配置之子集之拓樸結構來決定該第一 HPC工作之維度;以及 20 響應於該第一 HPC工作之維度係大於該未經配置 之子集之拓樸結構,由該經分類之工作佇列中選出一第 二HPC工作。 12. 如申請專利範圍第10項之電腦可讀媒體,其中該第一 HPC工作之維度至少部分係基於一或多項工作參數以 42 1272502
10 15
20 及相關聯之策略。 13. 如申請專利範圍第10項之電腦可讀媒體,其中該軟體進一 步可操作來: 至少部分基於該HPC工作之維度,而由該未經配置 之子集動態配置一工作空間;以及 其中該可操作來執行所選定之工作之軟體包含可 操作而使用經動態配置之工作空間來執行該選定之工 作之軟體。 14. 如申請專利範圍第9項之電腦可讀媒體,其中該等多數 HPC節點組成一第一多數,以及該軟體進一步可操作: 決定該選定之工作維度係大於該第一多數之拓樸 結構; 由一第二多數選出一或多個HPC節點,第二HPC節 點各自包含一整合式組織結構;以及 將該選定之第二Η P C節點加至該未經配置之子集 來滿足該經選定之工作之維度。 15. 如申請專利範圍第14項之電腦可讀媒體,進一步包含將 該第二HPC節點返回該第二多數。 16. 如申請專利範圍第9項之電腦可讀媒體,該軟體進一步 可操作來進行下列動作: 決定於該多數HPC節點中之一第二子集所執行之 第二HPC工作已經不合格; 將該第二子集加至該未經配置之子集;以及 將該不合格之工作加至該工作佇列。 43 1272502 17. —種於高效能運算環境中進行工作管理之系統,該系統 包含: 多數HPC節點,各個節點包括一整合式組織結構; 以及 5 —管理節點其可操作: 由該等多數HPC節點中決定一未經配置之子集; 由一工作佇列中選出一高效能運算(HPC)工作;以 > 及 使用該等未經配置之節點子集之至少一部分來執 10 行該經選定之工作。 18. 如申請專利範圍第17項之系統,其中該可操作來選擇 HPC工作之管理節點包含管理節點其可操作來基於優 先順位而由該工作佇列中選出該HPC工作,被選出之工 作包含之維度係不大於未經配置之子集之拓樸結構。 ^ 15 19.如申請專利範圍第18項之系統,其中該可操作來基於優 ί 先順位而由該工作佇列中選出HPC工作之管理節點包 含管理節點其可操作: 基於工作優先順位而分類該工作佇列; 由該經過分類之工作佇列中選出一第一 HPC工作; 20 以該未經配置之子集之拓樸結構來決定該第一 HPC工作之維度;以及 響應於該第一 HPC工作之維度係大於該未經配置 之子集之拓樸結構,由該經分類之工作佇列中選出一第 二HPC工作。 44 1272502 20. 如申請專利範圍第18項之系統,其中該第一HPC工作之 維度至少部分係基於一或多項工作參數以及相關聯之 策略。 21. 如申請專利範圍第18項之系統,該管理節點進一步可操 5 作來: 至少部分基於該HPC工作之維度,而由該未經配置 之子集動態配置一工作空間;以及 其中該可操作來執行所選定之工作之管理節點包 含可操作而使用經動態配置之工作空間來執行該選定 10 之工作之管理節點。 22. 如申請專利範圍第17項之系統,其中該等多數HPC節點 組成一第一多數,以及該管理節點進一步可操作: 決定該選定之工作維度係大於該第一多數之拓樸 結構; 15 由一第二多數選出一或多個HPC節點,第二HPC節 點各自包含一整合式組織結構;以及 將該選定之第二HPC節點加至該未經配置之子集 來滿足該經選定之工作之維度。 23. 如申請專利範圍第22項之系統,其中該管理節點進一步 20 可操作來將該第二HPC節點返回該第二多數。 24. 如申請專利範圍第17項之系統,該管理節點進一步可操 作: 決定於該多數HPC節點中之一第二子集所執行之 第二HPC工作已經不合格; 45 1272502 以及 將該第二子集加至該未經配置之子集 將該不合格之工作加至該工作佇列。 46
TW094111486A 2004-04-15 2005-04-12 System and method for topology-aware job scheduling and backfilling in an HPC environment TWI272502B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/825,021 US8336040B2 (en) 2004-04-15 2004-04-15 System and method for topology-aware job scheduling and backfilling in an HPC environment

Publications (2)

Publication Number Publication Date
TW200617694A TW200617694A (en) 2006-06-01
TWI272502B true TWI272502B (en) 2007-02-01

Family

ID=34887808

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094111486A TWI272502B (en) 2004-04-15 2005-04-12 System and method for topology-aware job scheduling and backfilling in an HPC environment

Country Status (10)

Country Link
US (11) US8336040B2 (zh)
EP (2) EP1582981A1 (zh)
JP (1) JP2005310139A (zh)
KR (1) KR20070006906A (zh)
CN (1) CN100562852C (zh)
CA (1) CA2503777C (zh)
IL (1) IL178606A (zh)
MY (1) MY150399A (zh)
TW (1) TWI272502B (zh)
WO (1) WO2005106663A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1297894C (zh) * 2003-09-30 2007-01-31 国际商业机器公司 用于调度作业的方法、调度器以及网络计算机***
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US20050235055A1 (en) * 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US9178784B2 (en) * 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US7596788B1 (en) * 2004-05-11 2009-09-29 Platform Computing Corporation Support of non-trivial scheduling policies along with topological properties
US7788671B2 (en) * 2004-11-01 2010-08-31 International Business Machines Corporation On-demand application resource allocation through dynamic reconfiguration of application cluster size and placement
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7802257B1 (en) * 2005-06-20 2010-09-21 Oracle America, Inc. Mechanism for bridging a thread-oriented computing paradigm and a job-oriented computing paradigm
US20070061813A1 (en) * 2005-08-30 2007-03-15 Mcdata Corporation Distributed embedded software for a switch
US7926057B2 (en) * 2005-12-15 2011-04-12 International Business Machines Corporation Scheduling of computer jobs employing dynamically determined top job party
KR100730279B1 (ko) * 2005-12-16 2007-06-19 삼성전자주식회사 스타 토로스 토폴로지를 이용하여 칩 상의 디바이스를연결한 컴퓨터 칩
ES2325698B1 (es) * 2006-01-20 2010-10-19 Universidad De La Laguna Camara de fase para la medida de distancias y de aberraciones de frente de onda en diversos entornos mediante slice de fourier.
US8429663B2 (en) * 2007-03-02 2013-04-23 Nec Corporation Allocating task groups to processor cores based on number of task allocated per core, tolerable execution time, distance between cores, core coordinates, performance and disposition pattern
US8200738B2 (en) * 2007-09-30 2012-06-12 Oracle America, Inc. Virtual cluster based upon operating system virtualization
US8107466B2 (en) 2008-04-01 2012-01-31 Mitac International Corp. Flexible network switch fabric for clustering system
JP5402226B2 (ja) * 2009-05-13 2014-01-29 富士通株式会社 管理装置、情報処理システム、情報処理システムの制御プログラムおよび情報処理システムの制御方法
US8473959B2 (en) 2010-02-22 2013-06-25 Virtustream, Inc. Methods and apparatus related to migration of customer resources to virtual resources within a data center environment
US9122538B2 (en) * 2010-02-22 2015-09-01 Virtustream, Inc. Methods and apparatus related to management of unit-based virtual resources within a data center environment
US9027017B2 (en) * 2010-02-22 2015-05-05 Virtustream, Inc. Methods and apparatus for movement of virtual resources within a data center environment
JP5035708B2 (ja) 2010-04-21 2012-09-26 日本電気株式会社 並列計算機システム、ジョブサーバ、ジョブスケジューリング方法及びジョブスケジューリングプログラム
US8504526B2 (en) 2010-06-04 2013-08-06 Commvault Systems, Inc. Failover systems and methods for performing backup operations
US11449394B2 (en) 2010-06-04 2022-09-20 Commvault Systems, Inc. Failover systems and methods for performing backup operations, including heterogeneous indexing and load balancing of backup and indexing resources
WO2012020474A1 (ja) * 2010-08-10 2012-02-16 富士通株式会社 ジョブ管理装置及びジョブ管理方法
CN102096655B (zh) * 2011-01-31 2013-02-20 中国科学院计算技术研究所 一种移动hpc***及其实现方法
JP2012243224A (ja) * 2011-05-23 2012-12-10 Fujitsu Ltd プロセス配置装置、プロセス配置方法及びプロセス配置プログラム
US20120324456A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Managing nodes in a high-performance computing system using a node registrar
WO2013029051A2 (en) 2011-08-25 2013-02-28 to fuVIRTUSTREAM, INC. Systems and methods of host-aware resource management involving cluster-based resource pools
US20130067069A1 (en) * 2011-09-13 2013-03-14 International Business Machines Corporation Flow topology of computer transactions
US20140136553A1 (en) * 2012-11-13 2014-05-15 International Business Machines Corporation Appliance for accelerating graph database management and analytics systems
JP6191361B2 (ja) * 2013-09-25 2017-09-06 富士通株式会社 情報処理システム、情報処理システムの制御方法及び制御プログラム
JP6221588B2 (ja) * 2013-09-30 2017-11-01 富士通株式会社 情報処理システム、管理装置制御プログラム及び情報処理システムの制御方法
KR20150083713A (ko) * 2014-01-10 2015-07-20 삼성전자주식회사 자원 관리를 위한 전자 장치 및 방법
JP6364880B2 (ja) * 2014-03-31 2018-08-01 富士通株式会社 並列計算機システム,ジョブ管理装置の制御プログラム,及び並列計算機システムの制御方法
US9563518B2 (en) 2014-04-02 2017-02-07 Commvault Systems, Inc. Information management by a media agent in the absence of communications with a storage manager
JP2016004310A (ja) * 2014-06-13 2016-01-12 富士通株式会社 並列計算機システム、制御方法およびジョブ管理プログラム
JP6369257B2 (ja) * 2014-09-19 2018-08-08 富士通株式会社 情報処理システム、情報処理システムの制御方法、管理装置、及び制御プログラム
JP6446989B2 (ja) * 2014-10-16 2019-01-09 富士通株式会社 計算機システム,処理方法及びジョブ処理プログラム
US9430269B1 (en) 2015-02-09 2016-08-30 International Business Machines Corporation Feedback analysis for virtual machines manager scheduling
JP6428380B2 (ja) * 2015-03-02 2018-11-28 富士通株式会社 並列計算システム、ジョブ管理装置、ジョブ管理プログラム、およびジョブ管理方法
US10042410B2 (en) * 2015-06-11 2018-08-07 International Business Machines Corporation Managing data center power consumption
US20160381120A1 (en) * 2015-06-24 2016-12-29 Intel Corporation System for event dissemination
US10108411B2 (en) * 2015-10-08 2018-10-23 Lightbend, Inc. Systems and methods of constructing a network topology
KR101995056B1 (ko) * 2015-12-30 2019-07-02 한국전자통신연구원 분산 파일 시스템 및 이의 운영방법
US10747630B2 (en) 2016-09-30 2020-08-18 Commvault Systems, Inc. Heartbeat monitoring of virtual machines for initiating failover operations in a data storage management system, including operations by a master monitor node
KR102468686B1 (ko) * 2017-01-17 2022-11-22 한국전자통신연구원 대규모 토러스 네트워크에서의 분산 스토리지 시스템을 위한 ip 자동 할당 방법 및 이를 위한 장치
JP6885193B2 (ja) * 2017-05-12 2021-06-09 富士通株式会社 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム
US10261837B2 (en) 2017-06-30 2019-04-16 Sas Institute Inc. Two-part job scheduling with capacity constraints and preferences
EP3502890A1 (en) * 2017-12-22 2019-06-26 Bull SAS Method for managing resources of a computer cluster by means of historical data
US10310896B1 (en) 2018-03-15 2019-06-04 Sas Institute Inc. Techniques for job flow processing
CN110554912B (zh) * 2018-05-31 2022-05-20 杭州海康威视数字技术股份有限公司 调度设备执行任务的方法和装置
US11200124B2 (en) * 2018-12-06 2021-12-14 Commvault Systems, Inc. Assigning backup resources based on failover of partnered data storage servers in a data storage management system
US11099956B1 (en) 2020-03-26 2021-08-24 Commvault Systems, Inc. Snapshot-based disaster recovery orchestration of virtual machine failover and failback operations
CN112559155A (zh) * 2020-12-23 2021-03-26 平安银行股份有限公司 批量作业处理方法、***、计算机设备及可读存储介质
US11645175B2 (en) 2021-02-12 2023-05-09 Commvault Systems, Inc. Automatic failover of a storage manager
KR20230156416A (ko) * 2021-03-19 2023-11-14 리제너론 파마슈티칼스 인코포레이티드 데이터 파이프라인
US11720348B2 (en) * 2021-04-28 2023-08-08 Red Hat, Inc. Computing node allocation based on build process specifications in continuous integration environments
TR2021022159A2 (tr) * 2021-12-31 2022-01-21 İstanbul Geli̇şi̇m Üni̇versi̇tesi̇ Fpga tabanli hi̇bri̇t sezgi̇sel arama algori̇tmalarina dayali i̇ş siralama ci̇hazi ve algori̇tmasi

Family Cites Families (208)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5969392A (ja) 1982-10-08 1984-04-19 株式会社 彦間製作所 クレ−ン車輌
JPS6224358A (ja) 1985-07-24 1987-02-02 Hitachi Ltd 信号ル−テイングテ−ブル方式
DE8521550U1 (de) 1985-07-26 1985-09-19 Mannesmann Kienzle GmbH, 7730 Villingen-Schwenningen Fahrtschreiber
US4885770A (en) * 1987-09-04 1989-12-05 Digital Equipment Corporation Boot system for distributed digital data processing system
US4868818A (en) * 1987-10-29 1989-09-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault tolerant hypercube computer system architecture
US5020059A (en) * 1989-03-31 1991-05-28 At&T Bell Laboratories Reconfigurable signal processor
AU7499291A (en) 1990-03-05 1991-10-10 Massachusetts Institute Of Technology Switching networks with expansive and/or dispersive logical clusters for message routing
US5396635A (en) * 1990-06-01 1995-03-07 Vadem Corporation Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system
US5301104A (en) * 1990-08-07 1994-04-05 Honeywell Inc. Method for allocating processing elements interconnected in a hypercube topology
US5588152A (en) 1990-11-13 1996-12-24 International Business Machines Corporation Advanced parallel processor including advanced support hardware
US5590345A (en) 1990-11-13 1996-12-31 International Business Machines Corporation Advanced parallel array processor(APAP)
US5495474A (en) 1991-03-29 1996-02-27 International Business Machines Corp. Switch-based microchannel planar apparatus
US5321813A (en) 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
US5280607A (en) * 1991-06-28 1994-01-18 International Business Machines Corporation Method and apparatus for tolerating faults in mesh architectures
JPH05274178A (ja) 1992-03-25 1993-10-22 Fujitsu Ltd 並列計算機デバッグ結果表示処理方式
US5459857A (en) 1992-05-15 1995-10-17 Storage Technology Corporation Fault tolerant disk array data storage subsystem
CA2106280C (en) * 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance
US5781715A (en) * 1992-10-13 1998-07-14 International Business Machines Corporation Fault-tolerant bridge/router with a distributed switch-over mechanism
US5513313A (en) * 1993-01-19 1996-04-30 International Business Machines Corporation Method for generating hierarchical fault-tolerant mesh architectures
US5729752A (en) 1993-02-19 1998-03-17 Hewlett-Packard Company Network connection scheme
JPH07141305A (ja) 1993-11-16 1995-06-02 Hitachi Ltd 並列計算機の実行制御方法
US5450578A (en) * 1993-12-23 1995-09-12 Unisys Corporation Method and apparatus for automatically routing around faults within an interconnect system
JP3541212B2 (ja) 1993-12-28 2004-07-07 富士通株式会社 プロセッサ割当て装置
DE69529856D1 (de) * 1994-03-22 2003-04-10 Hyperchip Inc Massive Paralleldatenverarbeitungsvorrichtung mit photovoltaischen Zellen für die Absorption des Umgebungslichtes
US6408402B1 (en) * 1994-03-22 2002-06-18 Hyperchip Inc. Efficient direct replacement cell fault tolerant architecture
JPH08227356A (ja) 1994-12-21 1996-09-03 Tec Corp データ処理装置
US5682491A (en) * 1994-12-29 1997-10-28 International Business Machines Corporation Selective processing and routing of results among processors controlled by decoding instructions using mask value derived from instruction tag and processor identifier
US5603044A (en) * 1995-02-08 1997-02-11 International Business Machines Corporation Interconnection network for a multi-nodal data processing system which exhibits incremental scalability
US5872928A (en) * 1995-02-24 1999-02-16 Cabletron Systems, Inc. Method and apparatus for defining and enforcing policies for configuration management in communications networks
US5889953A (en) * 1995-05-25 1999-03-30 Cabletron Systems, Inc. Policy management and conflict resolution in computer networks
JPH09496A (ja) 1995-06-23 1997-01-07 Canon Inc 眼底映像装置
US5805785A (en) * 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US6006242A (en) 1996-04-05 1999-12-21 Bankers Systems, Inc. Apparatus and method for dynamically creating a document
US5805786A (en) * 1996-07-23 1998-09-08 International Business Machines Corporation Recovery of a name server managing membership of a domain of processors in a distributed computing environment
US6393581B1 (en) * 1996-08-29 2002-05-21 Cornell Research Foundation, Inc. Reliable time delay-constrained cluster computing
US6009481A (en) 1996-09-30 1999-12-28 Emc Corporation Mass storage system using internal system-level mirroring
JPH10116261A (ja) 1996-10-14 1998-05-06 Hitachi Ltd 並列計算機システムのチェックポイントリスタート方法
KR100207598B1 (ko) 1997-01-27 1999-07-15 윤종용 상호연결망으로서 파이브 채널을 사용한 클러스터시스템
US5933631A (en) * 1997-03-17 1999-08-03 International Business Machines Corporation Dynamic boot filesystem selection
US6029246A (en) * 1997-03-31 2000-02-22 Symantec Corporation Network distributed system for updating locally secured objects in client machines
US5991877A (en) * 1997-04-03 1999-11-23 Lockheed Martin Corporation Object-oriented trusted application framework
US6012092A (en) * 1997-04-30 2000-01-04 International Business Machines Corp. Method and system for managing multi-user data flows in environments having minimal bandwidth and computational resources
US6088330A (en) * 1997-09-09 2000-07-11 Bruck; Joshua Reliable array of distributed computing nodes
US6167502A (en) 1997-10-10 2000-12-26 Billions Of Operations Per Second, Inc. Method and apparatus for manifold array processing
US6230252B1 (en) * 1997-11-17 2001-05-08 Silicon Graphics, Inc. Hybrid hypercube/torus architecture
US6633945B1 (en) * 1997-12-07 2003-10-14 Conexant Systems, Inc. Fully connected cache coherent multiprocessing systems
US6480927B1 (en) * 1997-12-31 2002-11-12 Unisys Corporation High-performance modular memory system with crossbar connections
US5941972A (en) 1997-12-31 1999-08-24 Crossroads Systems, Inc. Storage router and method for providing virtual local storage
US6477663B1 (en) * 1998-04-09 2002-11-05 Compaq Computer Corporation Method and apparatus for providing process pair protection for complex applications
JP3999353B2 (ja) 1998-05-29 2007-10-31 株式会社東芝 コンピュータネットワークにおける通信経路の決定方法ならびにシステム及び同方法がプログラムされ記録される記録媒体
JP3342665B2 (ja) 1998-06-17 2002-11-11 株式会社カスト 表示装置
US6189100B1 (en) * 1998-06-30 2001-02-13 Microsoft Corporation Ensuring the integrity of remote boot client data
US6195760B1 (en) 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6466932B1 (en) * 1998-08-14 2002-10-15 Microsoft Corporation System and method for implementing group policy
JP2000112906A (ja) 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
US6683696B1 (en) * 1998-10-27 2004-01-27 Hewlett-Packard Development Company, L.P. Filter based data imaging method for an image forming device
US6158010A (en) 1998-10-28 2000-12-05 Crosslogix, Inc. System and method for maintaining security in a distributed computer network
US6691165B1 (en) * 1998-11-10 2004-02-10 Rainfinity, Inc. Distributed server cluster for controlling network traffic
US6496941B1 (en) 1998-12-29 2002-12-17 At&T Corp. Network disaster recovery and analysis tool
US6468112B1 (en) 1999-01-11 2002-10-22 Adc Telecommunications, Inc. Vertical cable management system with ribcage structure
US6480972B1 (en) 1999-02-24 2002-11-12 International Business Machines Corporation Data processing system and method for permitting a server to remotely perform diagnostics on a malfunctioning client computer system
US6646984B1 (en) 1999-03-15 2003-11-11 Hewlett-Packard Development Company, L.P. Network topology with asymmetric fabrics
US6453426B1 (en) * 1999-03-26 2002-09-17 Microsoft Corporation Separately storing core boot data and cluster configuration data in a server cluster
US6622233B1 (en) 1999-03-31 2003-09-16 Star Bridge Systems, Inc. Hypercomputer
US6408326B1 (en) * 1999-04-20 2002-06-18 Microsoft Corporation Method and system for applying a policy to binary data
US6792605B1 (en) 1999-06-10 2004-09-14 Bow Street Software, Inc. Method and apparatus for providing web based services using an XML Runtime model to store state session data
KR20010000624U (ko) 1999-06-15 2001-01-15 윤외철 자전거용 절곡형 크랭크
US20040205414A1 (en) 1999-07-26 2004-10-14 Roselli Drew Schaffer Fault-tolerance framework for an extendable computer architecture
US6718486B1 (en) * 2000-01-26 2004-04-06 David E. Lovejoy Fault monitor for restarting failed instances of the fault monitor
US6597956B1 (en) * 1999-08-23 2003-07-22 Terraspring, Inc. Method and apparatus for controlling an extensible computing system
US6415323B1 (en) * 1999-09-03 2002-07-02 Fastforward Networks Proximity-based redirection system for robust and scalable service-node location in an internetwork
US6741983B1 (en) * 1999-09-28 2004-05-25 John D. Birdwell Method of indexed storage and retrieval of multidimensional information
US6571030B1 (en) 1999-11-02 2003-05-27 Xros, Inc. Optical cross-connect switching system
US6629266B1 (en) * 1999-11-17 2003-09-30 International Business Machines Corporation Method and system for transparent symptom-based selective software rejuvenation
US6748437B1 (en) * 2000-01-10 2004-06-08 Sun Microsystems, Inc. Method for creating forwarding lists for cluster networking
US20020103889A1 (en) 2000-02-11 2002-08-01 Thomas Markson Virtual storage layer approach for dynamically associating computer storage with processing hosts
WO2001061930A1 (fr) * 2000-02-21 2001-08-23 Kabushiki Kaisha Toshiba Dispositif de commande de moniteur et procede d'installation d'une voie de communication
US6460149B1 (en) * 2000-03-03 2002-10-01 International Business Machines Corporation Suicide among well-mannered cluster nodes experiencing heartbeat failure
US7299290B2 (en) 2000-03-22 2007-11-20 Yottayotta, Inc. Method and system for providing multimedia information on demand over wide area networks
US6785713B1 (en) 2000-05-08 2004-08-31 Citrix Systems, Inc. Method and apparatus for communicating among a network of servers utilizing a transport mechanism
US6658504B1 (en) 2000-05-16 2003-12-02 Eurologic Systems Storage apparatus
US6865157B1 (en) 2000-05-26 2005-03-08 Emc Corporation Fault tolerant shared system resource with communications passthrough providing high availability communications
US20040034794A1 (en) * 2000-05-28 2004-02-19 Yaron Mayer System and method for comprehensive general generic protection for computers against malicious programs that may steal information and/or cause damages
US6591285B1 (en) 2000-06-16 2003-07-08 Shuo-Yen Robert Li Running-sum adder networks determined by recursive construction of multi-stage networks
US6820171B1 (en) 2000-06-30 2004-11-16 Lsi Logic Corporation Methods and structures for an extensible RAID storage architecture
JP4292693B2 (ja) 2000-07-07 2009-07-08 株式会社日立製作所 計算機資源分割装置および資源分割方法
US6643764B1 (en) 2000-07-20 2003-11-04 Silicon Graphics, Inc. Multiprocessor system utilizing multiple links to improve point to point bandwidth
US6697914B1 (en) 2000-09-11 2004-02-24 Western Digital Ventures, Inc. Switched node comprising a disk controller with integrated multi-port switching circuitry
US6977927B1 (en) 2000-09-18 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system of allocating storage resources in a storage area network
US7061907B1 (en) 2000-09-26 2006-06-13 Dell Products L.P. System and method for field upgradeable switches built from routing components
US7032119B2 (en) * 2000-09-27 2006-04-18 Amphus, Inc. Dynamic power and workload management for multi-server system
JP2002108839A (ja) 2000-09-28 2002-04-12 Mitsubishi Electric Corp 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20010000624A (ko) 2000-10-10 2001-01-05 최은석 고성능 컴퓨터를 이용한 연산기능 제공방법
US7428583B1 (en) * 2000-10-31 2008-09-23 Intel Corporation Network policy distribution
US7055148B2 (en) * 2000-12-07 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for updating firmware
US6792507B2 (en) 2000-12-14 2004-09-14 Maxxan Systems, Inc. Caching system and method for a network storage system
US6735660B1 (en) * 2000-12-21 2004-05-11 International Business Machines Corporation Sideband signal transmission between host and input/output adapter
ATE480822T1 (de) 2001-02-13 2010-09-15 Candera Inc Failover-verarbeitung in einem speicherungssystem
KR100537582B1 (ko) 2001-02-24 2005-12-20 인터내셔널 비지네스 머신즈 코포레이션 신규의 초병렬 수퍼컴퓨터
KR100570145B1 (ko) 2001-02-24 2006-04-12 인터내셔널 비지네스 머신즈 코포레이션 동적 재분할을 통해 수퍼컴퓨터에 장애 허용성을 제공하는방법
US7107337B2 (en) * 2001-06-07 2006-09-12 Emc Corporation Data storage system with integrated switching
US6728736B2 (en) 2001-03-14 2004-04-27 Storage Technology Corporation System and method for synchronizing a data copy using an accumulation remote copy trio
US6952766B2 (en) * 2001-03-15 2005-10-04 International Business Machines Corporation Automated node restart in clustered computer system
US7028228B1 (en) * 2001-03-28 2006-04-11 The Shoregroup, Inc. Method and apparatus for identifying problems in computer networks
US6918051B2 (en) 2001-04-06 2005-07-12 International Business Machines Corporation Node shutdown in clustered computer system
US6820221B2 (en) * 2001-04-13 2004-11-16 Hewlett-Packard Development Company, L.P. System and method for detecting process and network failures in a distributed system
US7231430B2 (en) * 2001-04-20 2007-06-12 Egenera, Inc. Reconfigurable, virtual processing system, cluster, network and method
US7035928B2 (en) 2001-04-25 2006-04-25 Hewlett-Packard Development Company, L.P. Allocating computer resources for efficient use by a program
US7068667B2 (en) 2001-04-27 2006-06-27 The Boeing Company Method and system for path building in a communications network
US6587921B2 (en) 2001-05-07 2003-07-01 International Business Machines Corporation Method and apparatus for cache synchronization in a clustered environment
US6996674B2 (en) 2001-05-07 2006-02-07 International Business Machines Corporation Method and apparatus for a global cache directory in a storage cluster
US6675264B2 (en) * 2001-05-07 2004-01-06 International Business Machines Corporation Method and apparatus for improving write performance in a cluster-based file system
US20030063839A1 (en) 2001-05-11 2003-04-03 Scott Kaminski Fault isolation of individual switch modules using robust switch architecture
US7155512B2 (en) 2001-05-23 2006-12-26 Tekelec Methods and systems for automatically configuring network monitoring system
US6950833B2 (en) * 2001-06-05 2005-09-27 Silicon Graphics, Inc. Clustered filesystem
US8010558B2 (en) * 2001-06-05 2011-08-30 Silicon Graphics International Relocation of metadata server with outstanding DMAPI requests
JP2003009412A (ja) 2001-06-27 2003-01-10 Meidensha Corp 積層型電気二重層キャパシタ用極性反転装置
US6988193B2 (en) * 2001-06-28 2006-01-17 International Business Machines Corporation System and method for creating a definition for a target device based on an architecture configuration of the target device at a boot server
US20030005039A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation End node partitioning using local identifiers
US8032625B2 (en) * 2001-06-29 2011-10-04 International Business Machines Corporation Method and system for a network management framework with redundant failover methodology
SE0102405D0 (sv) 2001-07-04 2001-07-04 Software Run Ab A system and a method for selecting a preconfigured operating system for a server
GB0116310D0 (en) 2001-07-04 2001-08-29 New Transducers Ltd Contact sensitive device
US7139267B2 (en) 2002-03-05 2006-11-21 Industrial Technology Research Institute System and method of stacking network switches
US7065764B1 (en) * 2001-07-20 2006-06-20 Netrendered, Inc. Dynamically allocated cluster system
US6944785B2 (en) 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7016299B2 (en) * 2001-07-27 2006-03-21 International Business Machines Corporation Network node failover using path rerouting by manager component or switch port remapping
AU2002313583A1 (en) 2001-08-01 2003-02-17 Actona Technologies Ltd. Virtual file-sharing network
EP1283464A1 (en) * 2001-08-06 2003-02-12 Hewlett-Packard Company A boot process for a computer, a boot ROM and a computer having a boot ROM
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
JP2003099412A (ja) 2001-09-21 2003-04-04 Hitachi Eng Co Ltd 超並列コンピュータ
US7185062B2 (en) 2001-09-28 2007-02-27 Emc Corporation Switch-based storage services
US7340555B2 (en) 2001-09-28 2008-03-04 Dot Hill Systems Corporation RAID system for performing efficient mirrored posted-write operations
US6976134B1 (en) 2001-09-28 2005-12-13 Emc Corporation Pooling and provisioning storage resources in a storage network
US7073053B1 (en) * 2001-10-11 2006-07-04 Cisco Technology, Inc. Method and apparatus for a boot progression scheme for reliably initializing a system
GB2381713A (en) * 2001-11-01 2003-05-07 3Com Corp Failover mechanism involving blocking of access of a malfunctioning server and continuing monitoring to enable unblocking of access if server recovers
US7127633B1 (en) 2001-11-15 2006-10-24 Xiotech Corporation System and method to failover storage area network targets from one interface to another
US6904482B2 (en) * 2001-11-20 2005-06-07 Intel Corporation Common boot environment for a modular server system
US7055056B2 (en) 2001-11-21 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for ensuring the availability of a storage system
JP2003162515A (ja) 2001-11-22 2003-06-06 Fujitsu Ltd クラスタシステム
US7574496B2 (en) * 2001-11-30 2009-08-11 Surgient, Inc. Virtual server cloud interfacing
EP1318453A1 (en) 2001-12-07 2003-06-11 Hewlett-Packard Company Scheduling system, method and apparatus for a cluster
CA2365729A1 (en) * 2001-12-20 2003-06-20 Platform Computing (Barbados) Inc. Topology aware scheduling for a multiprocessor system
US7046687B1 (en) * 2002-01-16 2006-05-16 Tau Networks Configurable virtual output queues in a scalable switching system
US7093004B2 (en) * 2002-02-04 2006-08-15 Datasynapse, Inc. Using execution statistics to select tasks for redundant assignment in a distributed computing platform
US6918063B2 (en) * 2002-02-04 2005-07-12 International Business Machines Corporation System and method for fault tolerance in multi-node system
US7640547B2 (en) * 2002-02-08 2009-12-29 Jpmorgan Chase & Co. System and method for allocating computing resources of a distributed computing system
US7376693B2 (en) 2002-02-08 2008-05-20 Jp Morgan Chase & Company System architecture for distributed computing and method of using the system
JP2003237423A (ja) 2002-02-19 2003-08-27 Kubota Corp 農用作業車
DE10214067B4 (de) * 2002-03-28 2010-01-21 Advanced Micro Devices, Inc., Sunnyvale Integrierter Schaltkreischip mit Hochgeschwindigkeitsdatenschnittstelle sowie zugehöriges Southbridgebauelement und Verfahren
US7043539B1 (en) * 2002-03-29 2006-05-09 Terraspring, Inc. Generating a description of a configuration for a virtual network system
US7406038B1 (en) 2002-04-05 2008-07-29 Ciphermax, Incorporated System and method for expansion of computer network switching system without disruption thereof
US7139798B2 (en) 2002-05-17 2006-11-21 Groove Networks, Inc. Method and apparatus for connecting a secure peer-to-peer collaboration system to an external system
US20030233427A1 (en) 2002-05-29 2003-12-18 Hitachi, Ltd. System and method for storage network management
US7161904B2 (en) 2002-06-04 2007-01-09 Fortinet, Inc. System and method for hierarchical metering in a virtual router based network switch
JP4250919B2 (ja) 2002-06-21 2009-04-08 株式会社三洋物産 遊技機
JP3932994B2 (ja) 2002-06-25 2007-06-20 株式会社日立製作所 サーバ引継システムおよびその方法
US20040148376A1 (en) 2002-06-28 2004-07-29 Brocade Communications Systems, Inc. Storage area network processing device
DE10234992A1 (de) * 2002-07-31 2004-02-19 Advanced Micro Devices, Inc., Sunnyvale Retry-Mechanismus für blockierende Schnittstellen
US7765299B2 (en) 2002-09-16 2010-07-27 Hewlett-Packard Development Company, L.P. Dynamic adaptive server provisioning for blade architectures
US7127597B2 (en) * 2002-09-24 2006-10-24 Novell, Inc. Mechanism for controlling boot decisions from a network policy directory based on client profile information
JP2004126968A (ja) 2002-10-03 2004-04-22 Fujitsu Ltd 並列計算機のジョブスケジューリング装置
IL152676A0 (en) 2002-11-06 2003-06-24 Teracross Ltd Method and apparatus for high performance single block scheduling in distributed systems
US7219345B2 (en) 2002-12-17 2007-05-15 Hewlett-Packard Development Company, L.P. System and method for terminating processes in a distributed computing system
US7117306B2 (en) 2002-12-19 2006-10-03 Intel Corporation Mitigating access penalty of a semiconductor nonvolatile memory
US7039765B1 (en) 2002-12-19 2006-05-02 Hewlett-Packard Development Company, L.P. Techniques for cache memory management using read and write operations
JP4037257B2 (ja) 2002-12-26 2008-01-23 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、及びプログラム
US7245617B2 (en) 2003-02-07 2007-07-17 Fujitsu Limited Queuing packets written to memory for switching
US6941396B1 (en) 2003-02-19 2005-09-06 Istor Networks, Inc. Storage controller redundancy using bi-directional reflective memory channel
US20040210656A1 (en) * 2003-04-16 2004-10-21 Silicon Graphics, Inc. Failsafe operation of storage area network
US7287179B2 (en) * 2003-05-15 2007-10-23 International Business Machines Corporation Autonomic failover of grid-based services
US7287137B2 (en) 2003-06-06 2007-10-23 Hewlett-Packard Development Company, L.P. Batched, asynchronous data redundancy technique
US7007125B2 (en) 2003-06-24 2006-02-28 International Business Machines Corporation Pass through circuit for reduced memory latency in a multiprocessor system
US7379983B2 (en) * 2003-06-25 2008-05-27 International Business Machines Corporation Merging scalable nodes into single-partition merged system using service processors of nodes
US7299334B2 (en) 2003-07-15 2007-11-20 Xiv Ltd. Storage system configurations
US7644153B2 (en) * 2003-07-31 2010-01-05 Hewlett-Packard Development Company, L.P. Resource allocation management in interactive grid computing systems
US7483374B2 (en) 2003-08-05 2009-01-27 Scalent Systems, Inc. Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing
US7487235B2 (en) 2003-09-24 2009-02-03 Dell Products L.P. Dynamically varying a raid cache policy in order to optimize throughput
EP1678617A4 (en) * 2003-10-08 2008-03-26 Unisys Corp COMPUTER SYSTEM PARAVIRTUALIZATION BY USING A HYPERVISOR IMPLEMENTED IN A PARTITION OF THE HOST SYSTEM
US7207039B2 (en) * 2003-12-24 2007-04-17 Intel Corporation Secure booting and provisioning
US7693991B2 (en) 2004-01-16 2010-04-06 International Business Machines Corporation Virtual clustering and load balancing servers
JP4441286B2 (ja) 2004-02-10 2010-03-31 株式会社日立製作所 ストレージシステム
US7527155B2 (en) 2004-02-11 2009-05-05 International Business Machines Corporation Apparatus and system for vertically storing computing devices
US7685597B1 (en) * 2004-02-20 2010-03-23 Sun Microsystems, Inc. System and method for management of characterized resources
US8484348B2 (en) * 2004-03-05 2013-07-09 Rockstar Consortium Us Lp Method and apparatus for facilitating fulfillment of web-service requests on a communication network
JP4147198B2 (ja) 2004-03-23 2008-09-10 株式会社日立製作所 ストレージシステム
US20050256942A1 (en) * 2004-03-24 2005-11-17 Mccardle William M Cluster management system and method
US20050235055A1 (en) * 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US9178784B2 (en) * 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US7484247B2 (en) 2004-08-07 2009-01-27 Allen F Rozman System and method for protecting a computer system from malicious software
JP2006065697A (ja) 2004-08-27 2006-03-09 Hitachi Ltd 記憶デバイス制御装置
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
JP4457019B2 (ja) 2005-01-05 2010-04-28 富士通株式会社 情報処理システム及び一次ストレージ装置
EP1737253B1 (en) 2005-06-20 2008-04-09 Alcatel Lucent Fault tolerant single plane switch fabric for a telecommunication system
US7386662B1 (en) 2005-06-20 2008-06-10 Symantec Operating Corporation Coordination of caching and I/O management in a multi-layer virtualized storage environment
US20070038749A1 (en) 2005-07-29 2007-02-15 Broadcom Corporation Combined local and network storage interface
JP2007141305A (ja) 2005-11-16 2007-06-07 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置
US7720377B2 (en) 2006-01-23 2010-05-18 Hewlett-Packard Development Company, L.P. Compute clusters employing photonic interconnections for transmitting optical signals between compute cluster nodes
US20070253437A1 (en) 2006-04-28 2007-11-01 Ramesh Radhakrishnan System and method for intelligent information handling system cluster switches
US20080101395A1 (en) 2006-10-30 2008-05-01 Raytheon Company System and Method for Networking Computer Clusters
US8160061B2 (en) 2006-12-29 2012-04-17 Raytheon Company Redundant network shared switch
ATE492846T1 (de) 2007-01-03 2011-01-15 Raytheon Co Computerspeichersystem
JP6224358B2 (ja) 2013-06-14 2017-11-01 株式会社Nttドコモ 無線基地局、ユーザ端末及び無線通信方法

Also Published As

Publication number Publication date
TW200617694A (en) 2006-06-01
US20160132361A1 (en) 2016-05-12
US9594600B2 (en) 2017-03-14
CA2503777A1 (en) 2005-10-15
CN1770109A (zh) 2006-05-10
US20130104138A1 (en) 2013-04-25
KR20070006906A (ko) 2007-01-11
US20130304895A1 (en) 2013-11-14
IL178606A (en) 2012-05-31
US20170177418A1 (en) 2017-06-22
US9189278B2 (en) 2015-11-17
US8910175B2 (en) 2014-12-09
US9928114B2 (en) 2018-03-27
US9189275B2 (en) 2015-11-17
EP1582981A1 (en) 2005-10-05
US9904583B2 (en) 2018-02-27
WO2005106663A1 (en) 2005-11-10
US10621009B2 (en) 2020-04-14
US20140040912A1 (en) 2014-02-06
CN100562852C (zh) 2009-11-25
US20050235286A1 (en) 2005-10-20
US11093298B2 (en) 2021-08-17
US20140047092A1 (en) 2014-02-13
US20180121253A1 (en) 2018-05-03
WO2005106663A8 (en) 2006-02-16
US20140047449A1 (en) 2014-02-13
EP3267309A1 (en) 2018-01-10
US8984525B2 (en) 2015-03-17
US20130311998A1 (en) 2013-11-21
JP2005310139A (ja) 2005-11-04
US8336040B2 (en) 2012-12-18
US20200301749A1 (en) 2020-09-24
CA2503777C (en) 2011-10-04
MY150399A (en) 2014-01-15
IL178606A0 (en) 2007-02-11

Similar Documents

Publication Publication Date Title
TWI272502B (en) System and method for topology-aware job scheduling and backfilling in an HPC environment
US10769088B2 (en) High performance computing (HPC) node having a plurality of switch coupled processors
JP4833965B2 (ja) Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法
JP4986844B2 (ja) Hpcノード障害の検出及び管理を行うシステム及び方法
TWI287195B (en) Method, system and computer-readable medium storing thereon logic instructions for scheduling in a high-performance computing (HPC) system
TWI285818B (en) Method and system and computer-readable medium having encoded therein logic for on-demand instantiation in a high-performance computing (HPC) system
JP2007533034A (ja) Hpcクラスタを管理するためのグラフィカル・ユーザ・インタフェース

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees