KR20230070218A - 분리형 컴퓨터 시스템 - Google Patents

분리형 컴퓨터 시스템 Download PDF

Info

Publication number
KR20230070218A
KR20230070218A KR1020237009636A KR20237009636A KR20230070218A KR 20230070218 A KR20230070218 A KR 20230070218A KR 1020237009636 A KR1020237009636 A KR 1020237009636A KR 20237009636 A KR20237009636 A KR 20237009636A KR 20230070218 A KR20230070218 A KR 20230070218A
Authority
KR
South Korea
Prior art keywords
immersion tank
components
component type
computing resource
component
Prior art date
Application number
KR1020237009636A
Other languages
English (en)
Inventor
후삼 에이 앨리사
아이오아니스 마노우사키스
크리스티안 엘 벨라디
마르쿠스 펠리프 폰토우라
리카르도 지 비안치니
윈스턴 앨런 사운더스
마크 에드워드 쇼
Original Assignee
마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 filed Critical 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Publication of KR20230070218A publication Critical patent/KR20230070218A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/208Liquid cooling with phase change
    • H05K7/20818Liquid cooling with phase change within cabinets for removing heat from server blades
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C8/00Arrangements for selecting an address in a digital store
    • G11C8/12Group selection circuits, e.g. for memory block selection, chip selection, array selection
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20218Modifications to facilitate cooling, ventilating, or heating using a liquid coolant without phase change in electronic enclosures
    • H05K7/20236Modifications to facilitate cooling, ventilating, or heating using a liquid coolant without phase change in electronic enclosures by immersion
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/2029Modifications to facilitate cooling, ventilating, or heating using a liquid coolant with phase change in electronic enclosures
    • H05K7/203Modifications to facilitate cooling, ventilating, or heating using a liquid coolant with phase change in electronic enclosures by immersion
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/2029Modifications to facilitate cooling, ventilating, or heating using a liquid coolant with phase change in electronic enclosures
    • H05K7/20318Condensers
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20763Liquid cooling without phase change
    • H05K7/20781Liquid cooling without phase change within cabinets for removing heat from server blades
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Physics & Mathematics (AREA)
  • Thermal Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)
  • Manufacture And Refinement Of Metals (AREA)
  • Separation Of Suspended Particles By Flocculating Agents (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Emulsifying, Dispersing, Foam-Producing Or Wetting Agents (AREA)

Abstract

본 논의는 분리형 컴퓨팅에 관한 것이다. 일 예는 다수의 2상 액침 탱크를 모니터링할 수 있다. 개별 2상 액침 탱크는 단일 구성요소 유형의 다수의 구성요소를 포함할 수 있다. 이 예는 가상 머신에 대한 요청을 수신하고, 가상 머신 요청을 지원하기 위해 함께 작동하도록 개별 2상 액침 탱크로부터의 구성요소 세트를 할당할 수 있다.

Description

분리형 컴퓨터 시스템
데이터 센터 또는 서버 팜과 같은 대규모 컴퓨팅 시스템은 원하는 기능 또는 워크로드를 달성하기 위해 수백 또는 수천 개의 개별 컴퓨터 또는 장치를 포함하는 경향이 있다. 이러한 시나리오에서, 예상된 워크로드에 대해 장치의 구성요소들이 선택되고 그에 맞춰진다(예컨대, 미래의 요구 사항에 맞도록 개별 장치에 대해 하드웨어 구성요소들이 선택됨). 그러나, 실제로 직면하는 워크로드는 예상된 워크로드와 다를 수 있으며, 이러한 맞지 않는 개별 장치는 충분히 활용되지 않을 수 있다. 또한, 전통적으로 이러한 개별 장치는 개별 장치에 의해 생성된 열 부하를 제거하기에 충분한 공기 흐름을 제공하기 위해 거대한 공기 처리 시스템을 갖춘 광대한 건물에 보관되어 왔다. 본 개념은 이러한 문제 및 기타 문제를 해결할 수 있다.
첨부된 도면은 본 특허에서 전달되는 개념의 구현을 도시한다. 도시된 구현의 특징들은 첨부된 도면과 함께 취해진 다음 설명을 참조함으로써 더 쉽게 이해될 수 있다. 다양한 도면에서 유사한 참조 번호는 가능한 모든 곳에서 유사한 요소를 나타내기 위해 사용된다. 경우에 따라, 유사한 요소를 구별하기 위해 참조 번호 뒤에 괄호가 사용된다. 연관된 괄호 없는 참조 번호의 사용은 그 요소를 통칭하는 것이다. 또한, 각 참조 번호의 가장 왼쪽 숫자는 그 참조 번호가 처음 소개되는 도면 및 관련 논의를 전달한다.
도 1 내지 도 5 및 도 8은 본 개념의 일부 구현에 따른 예시적 분리형 시스템의 투시도를 도시한다.
도 6a 내지 도 7c는 본 개념의 일부 구현에 따른 예시적 시스템의 입면도를 도시한다.
도 9 및 도 10은 일부 구현에 따른, 본 개념 중 일부를 구현할 수 있는 예시적 분리 방법의 흐름도를 도시한다.
본 개념은 데이터 웨어하우스와 같은 대규모 컴퓨팅 시스템에 관한 것이다. 전통적인 컴퓨팅 시스템은 데이터 센터에 있는 수백 또는 수천 개의 개별 컴퓨터 또는 장치를 사용하여 예상 워크로드를 달성할 수 있다. 각각의 개별 장치는 컴퓨팅 기능을 달성하기 위해(예컨대, 예상 워크로드를 수행하기 위해) 하우징에 물리적으로 위치하는 경향이 있는 CPU, GPU, 메모리, 스토리지 등과 같은 다수의 컴퓨팅 구성요소를 수반할 수 있다. 전통적으로, 이러한 위치에는 수천 개의 개별 장치가 사용되며, 주변 공기가 해당 위치를 통해 펌핑되어 개별 장치를 냉각시킨다. 이 구성은 상대적으로 낮은 컴퓨팅 밀도를 초래한다. 또한, 이 모든 공기를 이동시키는 데는 많은 양의 에너지가 필요하고, 이는 데이터 센터의 에너지 사용량에 크게 기여하며, 데이터 센터의 총 에너지 사용량을 컴퓨팅에 실제로 사용되는 에너지로 나눈 비율로서 측정될 때 에너지 효율성을 떨어뜨린다.
언급된 바와 같이, 이러한 전통적인 구성에서, 각각의 개별 장치는 컴퓨팅 기능을 수행하기 위해 프로세서, 메모리, 스토리지 등과 같은 여러 컴퓨팅 구성요소를 포함하는 경향이 있다. 본 개념은 장치 중심 구성에서 풀 구성(pooled configuration)(예컨대, 풀당 단일 구성요소 유형의 물리적으로 그룹화된 구성요소들의 세트 또는 풀)으로 컴퓨팅 구성요소를 분리하는 것을 포함한다. 이러한 경우, 그 특성에 기초하여 다수의 유사한 구성요소가 물리적으로 서로 가까운 위치에 배치되고 함께 관리될 수 있다. 예를 들어, 그 특성에 기초하여, 다수의 중앙 처리 장치(CPU)가 함께 배치되고 관리될 수 있으며, 다수의 메모리가 함께 배치되고 관리될 수 있다. 구성요소들은 통신 허브를 포함하고/하거나 그에 결합되는 고속 네트워크에 의해 상호접속될 수 있다. 이러한 분리형 접근 방식의 한 가지 과제는 높은 컴퓨팅 밀도를 달성하는 것이다. 본 발명의 개념은 개별 장치에 대한 전통적인 주변 공기 냉각보다 더 낮은 에너지 사용량으로 효과적인 냉각을 여전히 제공하면서 더 높은 밀도를 가능하게 하는 냉각 기술을 사용할 수 있다.
본 개념은 각각의 개별 냉각 시스템에서 구성요소들의 특성에 맞춰진 냉각 기술을 제공할 수 있다. 일부 경우에, 본 개념은 다량의 열을 발생시키는 구성요소 풀에 대한 기술로서 액침(liquid immersion)을 사용할 수 있다. 2상(two phase) 액침 냉각은 높은 발열 구성요소에 특히 효과적인 액침 기술이다. 단일 유형의 컴퓨팅 구성요소들을 함께 관리함으로써, 해당 컴퓨팅 구성요소 유형의 특성에 대해 냉각 기술이 선택될 수 있다. 또한, 이러한 풀 구성요소는 개별 컴퓨터로 얻을 수 있는 것보다 더 높은 컴퓨팅 밀도로 배열될 수 있다. 또한, 구성요소들을 유형별로 그룹화하면 전통적인 장치 중심 구성에서는 사용할 수 없는 관리 옵션이 가능하다. 이러한 측면 및 기타 측면이 아래에서 설명된다.
도입부인 도 1은 예시적 분리형 시스템(100A)을 도시한다. 이 경우, 분리형 시스템은 다수의 컴퓨팅 자원 구성요소 유형(이하, "구성요소 유형")(102)을 포함한다. 도시된 구성에서는 4개의 구성요소 유형(102(l)-102(4))이 존재한다. 개별 구성요소 유형(102)은 전용 냉각 시스템(104)과 연관될 수 있다. 이 경우, 냉각 시스템은 액침 탱크(liquid immersion tanks)(106(1)-106(4))를 수반한다. 다른 냉각 시스템 구현은 도 2와 관련하여 아래에서 설명된다.
도 1의 구현에서, 개별 액체(108(1)-108(4))는 액침 탱크(106(1)-106(4))에 배치된다. 개별 구성요소 유형(102)의 다수의 구성요소(110)가 냉각 시스템(104)(예컨대, 이 경우 액체(108))에 포함될 수 있다. 이 구현에서, 액침 탱크는 2상 액침 탱크이다. 2상 액침 탱크에서, 액체(108)는 각각의 구성요소의 특성에 대해 선택된 비등점을 갖는 전기적으로 절연성인 비부식성 액체인 경향이 있다.
개별 액침 탱크(106)를 위한 액체(108)는 개별 액침 탱크(106) 내의 구성요소 유형(102)의 특성에 기초하여 선택될 수 있다. 예를 들어, 구성요소 유형의 지정되거나 설계된 최대 작동 온도 미만과 같은 특정 작동 온도 범위 내에서 비등점을 갖는 액체(108)가 선택될 수 있다. 이와 같이, 구성요소(110)의 정상 작동은 구성요소에 근접한 액체(108)를 끓게 만들 것이다(예컨대, 액체에서 기체로 상을 변경시킴). 따라서, 액침 탱크(106)는 2상 냉각 시스템으로서 기능할 수 있다. 또한, 액체에서 기체로의 상 변경은 기체가 액체를 통해 상승하여 구성요소로부터 멀어짐에 따라 발열 구성요소(110)로부터 멀어지는 열의 열 이동을 수반한다. 따라서, 본 개념은 시스템에서 능동적으로 열을 이동시키기 위해 입력 에너지에만 의존하기보다는 비등과 연관된 열 이동을 활용할 수 있다.
일부 구현에서, 더 많은 열을 발생시키는 구성요소(110)는 상대적으로 더 적은 열을 발생시키는 다른 액침 탱크 내의 액체보다 더 낮은 비등점을 갖는 액체(108)와 쌍을 이룰 수 있다. 비등점이 낮을수록 더 많이 끓을 수 있으므로, 비등 상 변경에 의해 구성요소로부터 더 많은 열을 제거할 수 있다. 따라서, 하나의 관점에서, 본 개념은 주어진 냉각 시스템의 구성요소에 기초하여 맞춤화될 수 있고/있거나 비등과 연관된 열 이동을 활용할 수 있는 냉각 솔루션을 제공할 수 있으므로, 전통적인 강제 대기 데이터 센터(forced ambient air data centers)에 비해 강제 냉각수 이동과 연관된 에너지 사용이 크게 감소한다. 탱크는 탱크 내에서 에너지에 가장 민감한 구성요소에 대해 관리되어야 할 것이므로, 탱크 내의 상이한 유형의 구성요소들은 이러한 동일한 이점을 제공하지 않는다.
전술한 바와 같이, 개별 액침 탱크(106)에는 개별 구성요소 유형(102)의 다수의 구성요소(110)가 배치될 수 있다. (도면 페이지에서의 혼란을 방지하기 위해 각 구성요소의 모든 인스턴스가 구체적으로 지정되는 것은 아니지만, 각 액침 탱크(106)에는 적어도 하나의 구성요소(110)가 라벨링된다). 도시된 구현에서, 각각의 액침 탱크(106)에는 8개의 구성요소가 도시되어 있다. 많은 구현에서, 냉각 시스템(104)당(예컨대, 액침 탱크(106)당) 구성요소의 수는 액침 탱크(106)당 수백 또는 심지어 수천 개와 같이 훨씬 더 클 수 있다. 이러한 예는 도 5와 관련하여 아래에서 더 상세히 논의된다.
도 1의 본 예에서의 설명을 위해, 제1 구성요소 유형(102(1))은 중앙 처리 장치(CPU)로 명시될 수 있고, 제2 구성요소 유형(102(2))은 그래픽 처리 장치(GPU)로 명시될 수 있고, 제3 구성요소 유형(102(3))은 메모리로 명시될 수 있으며, 제4 구성요소 유형(102(4))은 스토리지로 명시될 수 있다. 이는 구성요소 유형(102)의 일 예이고, 다른 예시적 구성요소 유형은 아래에서 설명된다.
구성요소(110)의 작동은 개별 2상 액침 탱크(106) 내의 액체(108)를 끓게 할 수 있다(액체에서 기체로의 상 변경를 겪게함). 뜨거운 기체는 액침 탱크 상단에서 액체를 통해 액체 위의 공간으로 상승한다. 이 지점에서 뜨거운 기체는 응축기(112)를 만날 수 있다. 기체에서 응축기로 열이 전달될 수 있으므로, 기체는 비등점 아래로 다시 냉각되고, 기체는 다시 액체로 변하며, 액체 표면에는 '비'가 내린다. 응축기(112)는 재순환 유체를 포함할 수 있고, 액침 탱크(106)로부터 멀리(예컨대, 분리형 시스템(100A)의 외부로) 열을 운반한 후 액침 탱크(106)로 복귀하여 이 과정을 반복할 수 있는 폐루프에서 작동할 수 있다.
다양한 액체는 2상 액침 탱크에 사용하기에 적합한 특성을 갖는다. 적합한 액체는 전기적으로 절연성이고 비부식성인 경향이 있다. 그러나, 부식 문제를 중재하기 위해 구성요소(110)에는 다양한 코팅 또는 처리가 적용될 수 있다. 플루오로케미칼(Fluorochemicals)은 이러한 특성(예컨대, 전기적으로 절연성이고 비부식성이며 적절한 비등점을 갖는 것)을 가질 수 있는 액체의 예시적 종류를 제공한다. 상업적으로 이용 가능한 예시적 플루오로케미칼은 특히 3M 사에서 제공하는 Novec 브랜드 엔지니어링 유체를 포함한다.
다양한 액침 탱크(106)의 구성요소들(110)은, 구성요소(110)와 통신 허브(116) 사이에서 연장되는 통신 회선(114)(이들 모두가 표시된 것은 아님)으로 표시되는 고속 네트워크에 의해 통신 가능하게 결합될 수 있다. 통신 허브(116) 상에 배치되거나 그에 결합되는 가상 머신(VM) 할당기(118)는 구성요소(110)를 관리할 수 있다. 이러한 측면은 도 5와 관련하여 아래에서 보다 상세히 논의될 것이다.
전술한 바와 같이, 기존의 데이터 센터는 특정 수요를 충족하도록 설계된 구성요소들의 특정 조합을 포함하는 수백 또는 수천 개의 개별 장치로 채워져 있다. 이렇게 지정된 구성요소 조합은 SKU(Stock Keeping Unit) 또는 기타 사양 정의를 준수한다고 할 수 있다. 예를 들어, 데이터 센터(1000) 내에서, 장치들은 SKU에서 정의된 구성요소의 지정된 조합(및 다른 SKU를 준수하는 다른 장치)을 가질 수 있다. 예를 들어, 구성요소는 예상 수요를 충족시키기 위해 'X' 사양의 프로세서와 'Y' 사양의 메모리를 수반할 수 있다.
그 후, 데이터 센터는 워크로드를 달성하기 위해 가상 머신에 대한 요청을 수신할 수 있다. 그러나, 요청된 가상 머신의 구성은 SKU에 의해 정의된 구성과 일치하지 않을 수 있다. 예를 들어, 일 예에서, 요청된 가상 머신은 더 적은 프로세서 용량과 더 많은 메모리 용량을 수반할 수 있다. 이러한 구성에서, 개별 장치별로 충분한 메모리의 부족은, 요청된 가상 머신을 기존의 개별 장치에 일치시키려는 시도가 이루어짐에 따라 데이터 센터에서 장치의 활용률 저하를 유발하거나, 데이터 센터 전반에 걸쳐 단편화를 유발할 수 있다. 요구된 구성을 갖는 추가 장치가 주문될 수 있지만, 이들의 설치 시점에는 수요가 다시 변경되었을 수 있다. 이 문제는 개별 장치 구성의 과잉 프로비저닝으로 인해 낭비되는 미사용 장치를 초래하거나, 개별 구성의 과소 프로비저닝으로 인해 부족이 발생하여 팀이 바쁜 일정에 더 많은 전용 장치를 구매하고 설치하기 위해 분주하게 움직여야 하는 원인이 될 수 있다.
본 극단적 분리 개념은 SKU를 가상화함으로써 단편화의 낭비 및 부족을 감소시키고 잠재적으로는 이를 제거할 수 있다. 가상 SKU는 각각의 냉각 시스템(104)으로부터의 구성요소(110)로부터 달성되어 요청된 가상 머신과 정확하게 일치할 수 있다. 따라서, 각각의 냉각 시스템(104)으로부터의 개별 구성요소(110)는 가상 SKU에서 정의된 대로(예컨대, 요청된 가상 머신에 의해 정의된 대로) 할당될 수 있으며, 다른 구성요소는 다른 SKU를 위해 이용 가능하게 남겨질 수 있다. 예를 들어, 'W' 사양의 CPU 구성요소 1개, 'X' 사양의 GPU 구성요소 1개, 'Y' 사양의 메모리 구성요소 1개, 'Z' 사양의 스토리지 구성요소 2개를 각각이 갖는 2개의 장치(또는 200개 또는 2000개의 장치)에 대한 가상 머신이 요청될 수 있다. VM 할당기(118)에 의해 구현되는 것과 같은 본 개념은 액침 탱크(106(1))로부터 2개의 CPU, 액침 탱크(106(2))로부터 2개의 GPU, 액침 탱크(106(3))로부터 2개의 메모리, 및 액침 탱크(106(4))로부터의 4개의 스토리지를 가상 SKU로서 할당하여 요청된 가상 머신을 충족시킬 수 있다. 따라서, 장치 중심 비율로 인한 '손실된' 구성요소가 존재하지 않는다. 물론, 개별 냉각 시스템(104)에 도시된 구성요소의 수는 선도(line drawings)를 단순화하기 위해 감소되었기 때문에, 이 예에서 언급된 구성요소의 수는 일반적으로 발생하는 것보다 적다.
도 2는 또 다른 예시적 분리형 시스템(100B)을 도시한다. ('A' 및 'B'와 같은 접미사의 사용은 이러한 시스템의 요소들이 동일하거나 다를 수 있다는 것 및/또는 두 시스템에 나타나는 주어진 요소가 시스템들 사이에서 동일하거나 다를 수 있다는 것을 나타내기 위한 것이다.) 이 경우, 예시적 분리형 시스템(100B)은 7개의 냉각 시스템(104(1)-104(7))을 포함한다. 냉각 시스템(104(1)-104(6))은 2상 액침 탱크(106(1)-106(6))를 수반한다. 냉각 시스템(104(7))은 냉각판(202)을 수반한다. 특히 열 밀도 및/또는 최대 구성요소 작동 온도와 같은 포함된 구성요소 유형(102)의 특성에 맞추어진 다른 냉각 시스템이 고려된다. 예를 들어, 일부 구성요소 유형은 단상 액침 냉각 시스템을 사용하여 높은 구성요소 밀도에서 적절하게 냉각될 수 있는 반면, 다른 유형은 2상 냉각을 사용하여 원하는 구성요소 밀도에서만 적절하게 냉각될 수 있다.
설명을 위해, 이 예에서 제1 구성요소 유형(102(1))은 CPU를 수반할 수 있고, 제2 구성요소 유형(102(2))은 메모리를 수반할 수 있고, 제3 구성요소 유형(102(3))은 GPU를 수반할 수 있고, 제4 구성요소 유형(102(3))은 스토리지를 수반할 수 있고, 제5 구성요소 유형(102(5))는 가속기를 수반할 수 있고, 제6 구성요소 유형(102(6))은 플래시 메모리를 수반할 수 있으며, 제7 구성요소 유형(102(7))은 오버클럭된 CPU를 수반할 수 있다. 이 예에서는 사용되지 않았지만, 오버클럭된 GPU 및/또는 기타 오버클럭된 구성요소도 고려된다. 도 1과 관련하여 위에서 설명된 통신 회선(114)은 도면 페이지에서의 혼란을 줄이기 위해 도 2에서는 생략된다.
이 구현에서, 냉각 시스템(104)은 통신 허브(116) 주위에 대략적으로(예컨대, 실질적으로) 동일한 거리(예컨대, +/- 1인치 또는 +/- 10%)로 방사형으로 배치된다. 이러한 구성은 다양한 냉각 시스템(104)의 구성요소(110)와 통신 허브(116) 사이에 유사하게 짧은 통신 회선 경로 길이를 제공하면서 높은 구성요소 밀도를 제공할 수 있다(예컨대, 각 냉각 시스템의 구성요소와 통신 허브 사이의 거리(D)는 대략적으로(예컨대, 실질적으로) 동일하고, 공기 냉각식 구성에 비해 상대적으로 짧을 수 있음). 예를 들어, 일부 구성에서, 통신 회선들은 1피트 미만의 길이일 수 있고 +/- 10% 이내의 길이일 수 있다. 다른 경우에, 통신 회선의 길이는 더 짧을 수 있다(예컨대, 8인치 미만의 길이). 이러한 조밀한 구성에 의해 제공되는 더 짧은 길이는 시스템 내에서 이동하는 신호와 연관된 대기 시간을 줄일 수 있다.
도 3a 및 도 3b는 또 다른 예시적 분리형 시스템(100C)을 집합적으로 도시한다. 이 예시적 시스템은 도 2의 분리형 시스템(100B)과 유사하며, 따라서, 해당 요소들은 다시 소개되지 않는다. 한 가지 예외는 이 경우 모든 냉각 시스템(104)이 액침 탱크(106)로 표시된다는 것이다. 또한, 도시되지는 않았지만, 도면 페이지에서 독자와 마주보는 절단 위치에 제8 냉각 시스템이 포함될 수 있다.
이 경우에, 냉각 시스템(104)은 통신 허브(116)가 중앙 위치를 차지하는 어레이(예컨대, 3×3 그리드 어레이)로 배열된다. 이 구성은 매우 높은 구성요소 밀도를 제공할 수 있다. 예를 들어, 일 예에서, 액침 탱크(106)는 일반적으로 입방체 형상일 수 있다. 예를 들어, 액침 탱크는 한 면이 1피트 미만일 수 있고, 각각의 액침 탱크는 주어진 구성요소 유형의 적어도 100개의 구성요소(110)를 포함할 수 있다. 따라서, 9 입방 피트의 부피는 8개의 상이한 냉각 시스템(104)에서 8개의 상이한 구성요소 유형(102)의 적어도 100개의 구성요소를 수용할 수 있다. 다른 구성에서, 각각의 액침 탱크는 예를 들어 1000개의 구성요소를 수용할 수 있다. 또 다른 도시 구성에서, 액침 탱크는 한 면이 8인치이고 100개 초과의 구성요소를 포함할 수 있다. 따라서, 시스템은 8개의 상이한 냉각 시스템(104)에 8개의 상이한 구성요소 유형(102)의 적어도 100개의 구성요소를 포함하면서 4 입방 피트 미만을 차지할 수 있다. 유사하게, 위에서 언급한 9 입방 피트 시스템에는 1000개의 각 구성요소가 포함될 수 있다.
본 구현에 의해 제공되는 높은 구성요소 밀도는 다양한 구성요소 유형(102)의 구성요소(110)의 조밀한 결합을 용이하게 할 수 있다. 이러한 결합은 높은 대역폭과 낮은 대기 시간을 갖는 고성능 상호접속(예컨대, 도 1의 통신 회선(114))에 의해 구성요소(110)를 통신 허브(116)에 접속함으로써 용이하게 된다. 이 구성을 통해, 구성요소에서 실행되는 소프트웨어는 풀 구성요소들 사이의 유사한 성능(예컨대, 대기 시간) 및 기존의 물리적 전용 하드웨어 전략(예컨대, 개별 장치)을 경험할 수 있다.
신호가 칩을 통과하거나 먼 거리를 이동할 때 일반적으로 대기 시간이 증가한다는 점을 고려하면, 도 2, 도 3a 및 도 3b에 도시된 바와 같이 구성요소(110)가 함께 조밀하게 패킹될 때 대기 시간은 감소될 수 있다. 따라서, 높은 구성요소 밀도 및 짧은 통신 회선 길이는 분리형 시스템(100C)이 상이한 냉각 시스템의 구성요소들 사이 및/또는 구성요소와 통신 허브(116) 사이에서 리드라이버(redrivers) 또는 리타이머(retimer) 없이 작동하도록 허용할 수 있다. 즉, 이러한 물리적 아키텍처는 리드라이버 및 리타이머의 추가적 복잡성 없이 낮은 대기 시간으로 원하는 구성요소 구성의 고밀도를 제공할 수 있다. 리드라이버는 신호를 증폭시키는 요소로 볼 수 있다. 리타이머 역시 신호를 증폭시킬 수 있으며, 신호를 시스템 클록과 재동기화시킬 수 있다.
전술한 바와 같이, 구성요소(110)와 통신 허브(116) 사이의 거리(D)(도 2)와 연관된 통신 회선(114)의 길이는 (예컨대, 서로 다른 냉각 시스템(104)에서) 상이한 구성요소 유형(102)의 구성요소들(110) 사이 및/또는 구성요소와 통신 허브(116) 사이의 대기 시간에 상당한 기여를 할 수 있다. 예를 들어, 전기 신호가 통신 회선을 따라 전달될 때, CPU와 메모리 사이의 거리가 지연 시간에 기여할 수 있으므로, 대기 시간 파라미터를 여전히 충족시킬 수 있는 통신 회선의 최대 길이가 계산될 수 있다. 경우에 따라, 광학 기술은 전기 기술보다 빠른 경향이 있으므로 더 긴 통신 회선의 사용을 허용한다. 무엇보다도, 프로세서와 메모리 간의 원하는 대기 시간은 분리형 시스템에서 통신 경로 길이를 결정할 때 중요한 고려 사항이 될 수 있다. 일부 구현에서는 통신 회선을 제공하기 위해, 공간 광학, CXL/CAPI(coherent accelerator link/compute express link), (Optical vs Electrical)과 같은 기술이 사용될 수 있다.
도 3a 및 도 3b의 도시된 구현은 또한 간단한 구성요소 비율 재정렬에 적합하다. 설명의 용이성을 위해, 각 액침 탱크(106)에서 (다양한 구성요소 유형의) 500개의 구성요소로 예상 수요가 충족될 수 있다고 가정한다. 그러나, 시간이 지남에 따라, 수요는 다른 액침 탱크 내의 다른 구성요소에 비해 액침 탱크(106(2)) 내의 구성 요소 유형(102(2))의 구성요소(110)의 더 많은 수를 지시한다.
도 3b는 변하는 수요를 수용하기 위해 본 개념에 의해 제공된 준비된 적응성의 예를 도시한다. 이 경우에, 분리형 시스템(100C)에는 제8 액침 탱크(106(8))가 추가된다. 이 액침 탱크(106(8))는 액침 탱크(106(2))와 동일한 구성요소 유형(102(2))을 포함할 수 있고, 그에 따라 다른 구성요소 유형의 구성요소에 비해 이 구성요소 유형의 구성요소의 수를 증가시킨다. 또한, (액침 탱크 106(8)에 포함되는) 이러한 추가 구성요소는 임의의 다른 구성요소를 방해하지 않으면서(예컨대, 기존 구성요소를 오프라인 상태로 만들거나 일정 기간 동안 사용할 수 없게 만들지 않으면서) 분리형 시스템(100C)에 추가될 수 있다. 이 경우, 액침 탱크(106(8))의 추가 구성요소는 통신 회선(도 1에 도시됨)을 통해 통신 허브(116)에 간단하게 결합될 수 있다. 추가 구성요소는 VM 할당기(118)에 의해 자동으로 검출될 수 있다. 그런 다음, VM 할당기는 이 구성요소 유형(102(2))의 구성요소의 목록(예컨대, 풀)에 추가 구성요소(110)를 추가할 수 있다. 그런 다음, 이러한 추가 구성요소는 수요를 수용하기 위해 동적으로 할당될 수 있다. 이러한 측면은 도 6과 관련하여 더 상세히 설명된다.
이 예는 변하는 구성요소 수요 비율을 수용하기 위해 용량을 추가하는 것과 관련하여 설명되지만, 구성요소 오류를 수반하는 시나리오 및/또는 구성요소 장애와 연관된 중단을 방지하는 시나리오에도 동일하게 적용할 수 있다. 예를 들어, VM 할당기(118)가 구성요소 장애 및/또는 구성요소 수명에 대한 미리 정의된 임계값을 포함한다고 가정한다. 예를 들어, 단일 액침 탱크(106)에서 10%와 같은 특정 수의 구성요소(110)가 장애 또는 '노후화'(예컨대, 예상 수명 초과)로 인해 미리 정의된 임계값을 초과하는 경우, VM 제어기(118)는 사전 정의된 임계값을 초과하는 해당 구성요소 유형을 포함하는 추가 액침 탱크의 설치를 요청하는 통지를 생성할 수 있다. 다시 말하지만, 이러한 추가 구성요소는 기존의 구성요소를 중단시키지 않으면서 설치될 수 있다.
이전에 도시된 구현은 모든 냉각 시스템(104) 및 통신 허브(116)를 단일 층으로 배열하였다(예컨대, 한 평면 상에 배치됨). 도 3b는 다른 구현이 다층일 수 있음을 도시한다. 예를 들어, 액침 탱크의 또 다른 세트가 액침 탱크(106(8))와 유사한 방식으로 액침 탱크(106(1)-106(7))의 상단에 배치되어 통신 경로 길이를 약간만 증가시키면서 용량을 본질적으로 2배로 증가시킬 수 있다. 추가 구현은, 통신 허브(116)가 중앙 위치를 차지하고 냉각 시스템(104)이 통신 허브 주위에 3차원으로 배치된 단일 구성요소 유형(102)을 포함하는 것과 같이, 루빅 큐브(Rubik's cube)와 유사할 수 있다.
도 4는 다른 예시적 분리형 시스템(100D)의 일부를 도시한다. 설명된 요소의 크기와 세부 사항을 확대하기 위해 2개의 냉각 시스템(104(1) 및 104(2))만 도시되지만, 시스템은 다른 구성요소 유형을 갖는 추가 냉각 시스템을 포함할 수 있다. 설명을 위해, 냉각 시스템(104(1))은 CPU를 수반하는 구성요소 유형(102(1))에 전용되고 냉각 시스템(104(2))은 오버클럭된 CPU를 수반하는 구성요소 유형(102(2))에 전용된다고 가정한다. 이 경우에, 통신 회선(114)은 구성요소(110)를 위한 전력 회선도 포함한다. VM 할당기(118)는 전력 회선을 통해 개별 구성요소에 공급되는 전력 레벨(예컨대, 전류 및/또는 전압)을 제어할 수 있다.
VM 할당기(118)는 임의의 냉각 시스템(104)의 구성요소(110)의 작동을 관리하기 위해 다양한 파라미터를 활용할 수 있다. 파라미터는, 무엇보다도, 구성요소의 수명, 구성요소의 작동 수명, 구성요소의 실제(예컨대, 현재) 작동 온도, 구성요소의 설계된 작동 온도 범위, 액체(108)의 온도, 2차 냉각 시스템의 온도, 액체(108)의 비등점, 액체(108)의 유전 상수, 냉각 시스템의 전체 냉각 용량, 구성요소의 지정된(설계된) 작동 전력, 구성요소의 지정된(예컨대, 설계된) 작동 전압, 구성요소의 지정된(설계된) 작동 전류, 구성요소의 실제 작동(예컨대, 구동) 전력, 구성요소의 실제 작동(예컨대, 구동) 전압 및/또는 구성요소의 실제 작동(예컨대, 구동) 전류에 관련될 수 있다. 지정된 작동 전력, 지정된 작동 전압 및/또는 지정된 작동 전류는, 예를 들어 0.5W와 같은 단일 값이거나 또는 0.4 내지 0.6W와 같은 특정 범위이거나, 특정 전류 및 특정 전압(예컨대, 10V에서 0.1A)일 수 있다.
전술한 바와 같이, 2상 액침 탱크(106)에서, 탱크 내의 구성요소 유형(102)의 작동 온도 범위 내에 있는 비등점을 갖는 액체(108)가 선택될 수 있다. 예를 들어, 구성요소의 작동 범위가 45 내지 55℃인 경우, 이 범위 내의 비등점(예컨대, 50℃)을 가진 액체가 선택될 수 있다. 경우에 따라, 장치 제조업체는 작동 온도 범위의 상한(예컨대, 최대 작동 온도)만을 지정할 수 있다. 이 경우 선택된 액체의 비등점은 최대 작동 온도보다 낮을 수 있다. 액체를 기체로 끓이는 것은 많은 양의 열을 효과적으로 포획하고, 기체가 액체의 표면으로 상승함에 따라 구성요소로부터 멀리 열을 전달한다. 액체의 비등점은 구성요소에 의해 발생된 열의 양과도 관련될 수 있다. 예를 들어, 주어진 CPU는 100℃의 최대 작동 온도를 가질 수 있다. CPU가 지정된 주파수를 달성하기 위해 지정된 전력으로 구동되는 경우, 예를 들어 비등점이 60℃인 액체가 선택될 수 있다. 그러나, 더 높은 주파수를 달성하기 위해 더 높은 전력으로 CPU를 구동하려는 경우, 50℃와 같이 비등점이 더 낮은 액체를 선택함으로써 끓는 양을 증가시켜 열을 제거할 수 있다.
분리형 시스템(100D)은 이러한 파라미터 중 적어도 일부에 대한 값을 감지하도록 구성된 여러 센서를 포함한다. 예를 들어, 시스템(100D)은 특히 온도 센서(402, 404 및/또는 406)를 포함할 수 있다. 이 경우에, 온도 센서(402)는 각각의 냉각 시스템(104)의 구성요소들(110) 중 하나 이상에 배치된다. 온도 센서(402)는 작동 중에 구성요소의 온도를 제공할 수 있다. 이 경우, 온도 센서(402)는 각각의 구성요소에 배치되지만, 도면 페이지의 혼란을 피하기 위해 이러한 모든 온도 센서가 구체적으로 표시되지는 않는다. 온도 센서(404)는 냉각 시스템(104)의 액체(108)를 감지하도록 배치된다. 온도 센서(406)는 분리형 시스템(100D) 내부로부터 시스템 외부로 열을 전달하는 2차 냉각 시스템의 입력 및 출력 온도를 제공할 수 있다. 구체적으로 도시되지 않은 다른 센서는 개별 구성요소가 구동되는 전류 및/또는 전압 및 이들이 구동되는 지속 시간과 관련될 수 있다.
VM 할당기(118)는 다양한 구성요소 유형 및/또는 구성요소 유형 내의 구성요소를 관리할 때 이러한 파라미터의 값을 입력으로 사용할 수 있다. 예를 들어, VM 할당기는 제1 워크로드를 충족시키기 위해(예컨대, 제1 가상 머신 세트를 실행하기 위해) 제1 가상 SKU에 대한 각 구성요소 유형의 구성요소 세트를 선택할 수 있고, 제2 워크로드를 충족시키기 위해(예컨대, 제2 가상 머신 세트를 실행하기 위해) 제2 가상 SKU에 대한 각 구성요소 유형의 상이한 제2 구성요소 세트를 선택할 수 있다. 일부 가상 SKU는 각 구성요소 유형을 포함하지 않을 수 있음에 유의한다. 예를 들어, 개별 가상 SKU는 오버클럭된 GPU를 포함하지 않을 수 있다. 이러한 경우, 선택된 오버클럭된 GPU의 세트는 0이 될 것이고, 오버클럭된 GPU는 다른 가상 SKU에서 계속 사용될 수 있다.
주어진 워크로드에 대한 선택된 구성요소 세트는 VM 할당기(118)에 의해 통신 가능하게 결합될 수 있고, 정의된 파라미터 값에서 구동될 수 있다. 정의된 파라미터 값 및/또는 해당 세트의 다른 구성요소의 파라미터 값으로부터의 이탈이 구성요소 상태의 지표로서 모니터링될 수 있다. 예를 들어, 해당 세트의 다른 CPU보다 갑자기 더 뜨거워지는 CPU 및/또는 더 많은 전류를 끌어당기기 시작하는 CPU는 손상을 나타낼 수 있다. VM 할당기는 해당 세트에서 CPU를 제거하고 이를 동일한 냉각 시스템(104)에서 사용 가능한 다른 CPU로 교체하는 것과 같은 다양한 관리 조치를 취할 수 있다.
VM 할당기(118)는 또한 설계 사양 외부에서 작동되는 CPU 및 GPU와 같은 개별 구성요소 유형(102)의 구성요소(110)를 관리할 수 있다. 오버클럭된 구성요소는 적절하게 관리되지 않으면 특히 조기 장애가 발생할 수 있으며, VM 할당기는 구성요소가 손상되지 않도록 보호하면서 고성능을 달성하도록 오버클럭된 구성요소를 관리할 수 있다. 예를 들어, VM 할당기는 오버클럭된 CPU 및/또는 GPU를 설계 사양보다 더 높은 전력으로 구동하여 설계된 클록 속도보다 높은 작동 속도(예컨대, 오버클럭된 속도)를 달성할 수 있다. 그러나, VM 할당기는 센서(402)로부터의 CPU/GPU 온도를 활용하여, 이들이 설계 사양을 초과하여 작동될 때 정의된 작동 온도를 초과하지 않도록 보장할 수 있다. VM 할당기는 또한 냉각 시스템으로부터 열을 제거하기에 충분한 용량이 존재하는 것을 보장하기 위해 개별 냉각 시스템 내의 오버클럭된 구성요소에 의해 생성된 열을 냉각 시스템의 전체 냉각 용량과 비교할 수 있다. 오버클럭된 구성요소에 의해 생성된 추가 열을 관리하기 위해, 그렇지 않은 경우 선택되는 것보다 더 낮은 비등점을 갖는 액체(108)가 선택될 수 있다. 예를 들어, 제조업체가 제안(예컨대, 설계)한 최대 작동 온도가 80℃인 경우, 정상 작동을 위해 예를 들어 비등점이 60℃인 액체가 선택될 수 있다. 그러나, 오버클럭되어 구동되는 동일한 구성요소에 대해, 예를 들어 비등점이 50℃인 액체를 선택하여 작동 중 비등을 증가시켜 구성요소로부터 더 많은 열을 제거할 수 있다. 따라서, VM 할당기(118)는 구성요소를 관리하는 방법을 결정할 때 액체(108) 및 구성요소(110)의 특성을 파라미터로서 활용할 수 있다.
전술한 바와 같이, VM 할당기(118)는 구성요소(110)를 작동하는 방법을 결정하기 위해 다수의 파라미터를 활용할 수 있다. 예를 들어, 워크로드가 낮거나 오버클럭을 통해 제공되는 속도가 필요하지 않은 경우, VM 할당기는 전력을 제어하고 구성요소 온도를 모니터링함으로써 구성요소가 제조업체의 작동 범위 내에서 유지되게 하는 전력으로 '오버클럭된' 구성요소를 구동할 수 있다. 이 시점에서, 오버클럭된 구성요소는 실제로는 오버클럭되지 않을 수 있다. 워크로드가 증가하거나 더 높은 주파수 처리에 대한 요구가 증가하는 경우, VM 제어기는 구성요소가 제조업체의 사양보다 빠르게 작동하게 하는 전력 레벨에서 구성요소를 구동시킬 수 있다(예컨대, 오버클럭됨). 이러한 전력 레벨은 구성요소를 더 빠르게 실행할 수 있게 한다. 그러나, 전력 레벨로 인해 구성요소 온도는 최대 작동 온도까지 상승할 수 있다. 온도가 최대 작동 온도의 미리 정의된 임계값 버퍼 내에 도달하면, VM 할당기는 구성요소 관리 방식을 변경할 수 있다. 예를 들어, VM 제어기는 구동 전력을 일시적으로 낮출 수 있다.
대안적으로 또는 추가적으로, VM 제어기(118)는 개별 구성요소의 과열이 감소 또는 제거되도록 VM 제어기가 워크로드의 일부 또는 전부를 오프로드할 수 있는 (예컨대, 동일한 냉각 시스템 내의) 동일한 구성요소 유형(102)의 다른 유휴 또는 충분히 활용되지 않는 구성요소(110)를 식별할 수 있다. 본 구현은 전통적인 장치 중심 데이터 센터보다 훨씬 적은 비용으로 다른 사용 가능한 구성요소의 가능성을 제공한다. 본 구현에서, 구성요소는 동일한 유형의 다른 구성요소와 함께 구성요소 풀로서 그룹화되므로, 개별 구성요소는 대체 가능한 단위로 취급되고 서로 쉽게 교체될 수 있다.
VM 제어기(118)는 (예컨대, 동일한 구성요소 유형(102)의) 풀의 구성요소(110)를 동적으로 할당할 수 있다. 예를 들어, VM 제어기(118)는 워크로드 및 다수의 다른 파라미터에 기초하여 구성요소 유형(102)의 구성요소(110)를 관리하는 방법을 결정할 수 있다. 예를 들어, 다양한 파라미터는 사용 가능한 다른 유휴 구성요소가 있는지 여부, 워크로드에 현재 할당된 구성요소의 온도(예컨대, 구성요소가 냉각 시스템 내의 다른 구성요소보다 더 뜨거운지 여부) 등과 관련될 수 있다. 또한, 대체 구성요소는 기본적으로 해당 구성요소와 경로 길이가 같기 때문에(예컨대, 두 구성요소는 워크로드 또는 컴퓨팅 관점에서 동등할 수 있음), 이러한 동적 할당은 어떠한 성능 저하(예컨대, 대기 시간 증가) 없이 달성될 수 있다.
이와 대조적으로, 전통적인 데이터 센터에서, 대체 구성요소 또는 대체 개별 장치는 더 멀리 떨어져 있을 것이고 적어도 대기 시간 증가로 인해 성능 저하를 유발할 것이다. 따라서, VM 제어기(118)는 구성요소 수명 대 워크로드 성능의 균형을 맞추기 위해 다수의 파라미터를 고려할 수 있다. 또한, VM 제어기는, 성능을 저하시키거나 다른 구성요소 유형의 구성요소를 유휴 상태로 만들거나 또는 제대로 활용하지 않는 일 없이, 풀 내에서 유사한 위치에 있는 구성요소의 전체 풀에서 끌어올 수 있다. 이 측면은 도 5와 관련하여 아래에서 더 상세히 논의될 것이다.
도 5는 다른 예시적 분리형 시스템(100E)의 일부를 도시한다. 설명된 요소의 크기와 세부 사항을 확대하기 위해 단일 구성요소 유형(102(1))을 포함하는 하나의 냉각 시스템(104(1))만 도시되지만, 시스템은 다른 구성요소 유형을 갖는 추가 냉각 시스템을 포함할 수 있다. 이 경우에, 각 회로 기판(502) 상에 2개의 구성요소(110)가 배치된다. 회로 기판(502) 및 그에 따른 2개의 구성요소(110)는 스파인(spines)(504)에 물리적으로 및/또는 통신가능하게 결합될 수 있다. 다수의 스파인은 분배기(506)에 물리적으로 및/또는 통신가능하게 결합될 수 있다. 분배기(506)는 그런 다음 통신 허브(116)에 결합되거나 통신 허브의 일부일 수 있다.
이 구현에서는, 구성요소 온도를 감지하기 위해 센서(402)가 구성요소(110) 상에 배치된다. 이 예에서, 각 스파인(504)은 8개의 회로 기판 및 16개의 구성요소와 연관되지만, 다른 수의 회로 기판 및/또는 구성요소가 고려된다. 또한, 도시된 구성은 4개의 스파인(504)을 포함하지만, 다른 구성은 더 적거나 더 많은 스파인을 포함할 수 있다. 예를 들어, 일부 구성에서는 수십 또는 수백 개의 스파인이 냉각 시스템(104)의 분배기(506)에 결합될 수 있다. 또한, 구성요소(110)의 단일 수평 층(예컨대, 회로 기판(502))이 스파인(504)의 단일 수평 배열에 대해 도시되어 있지만, 냉각 시스템(104)(예컨대, 액체(108))에서 구성요소의 밀도를 증가시키기 위해 다수의 유사한 층이 수직으로 적층될 수 있음(예컨대, 회로 기판의 추가 층(들) 및 스파인이 도시된 층의 상단에 배치될 수 있음)에 유의한다.
전술한 바와 같이, VM 할당기(118)는 구성요소(110)를 관리할 수 있다. 설명을 위해, 64개의 도시된 구성요소(110) 중에서, VM 할당기는 30개의 구성요소(예컨대, 구성요소 1 내지 30)를 제1 SKU에 할당하고 30개의 다른 구성요소(예컨대, 구성요소 31 내지 60)를 제2 SKU에 할당하고, 나머지 4개의 구성요소(예컨대, 구성요소 61 내지 64)는 장애 보호를 제공한다고 가정한다. 다른 파라미터 중에서, VM 할당기(118)는 구성요소(110)의 작동 온도 및 작동 수명을 추적할 수 있고 이 정보를 사용하여 구성요소(110)를 관리할 수 있다.
VM 할당기(118)는 구성요소 수명 및/또는 성능을 최적화하기 위해 구성요소(110)를 동적으로 교환할 수 있다. 예를 들어, VM 할당기는 첫 번째 워크로드를 수행할 때 구성요소 1 내지 30을 모니터링할 수 있다. VM 할당기는 (과거의 파라미터 값 및/또는 해당 세트의 다른 구성요소에 대한) 이러한 구성요소 중 하나의 이탈(예컨대, 다른 구성요소보다 높은 작동 온도)을 검출할 경우 조치를 취할 수 있다. 예를 들어, 그러한 조치 중 하나는 이탈하는 구성요소에서 여분의 구성요소(61 내지 64) 중 하나로 워크로드를 동적으로 재할당하는 것일 수 있다. 또한, VM 할당기(118)는 구성요소가 일반적으로 동일하게 노후화되도록 구성요소를 선제적으로 관리할 수 있다. 예를 들어, VM 할당기(118)는 구성요소들(1 내지 30 및 61 내지 64)을 순환시켜, 30개의 구성요소가 임의의 시간에 첫 번째 워크로드를 수행하고 4개가 대기 상태에서 사용 가능하게 할 수 있다. 따라서, 일정 기간, 예컨대 1년 후에, 냉각 시스템(104) 내의 구성요소들(110)은 동일한 물리적 연령일 뿐만 아니라, 그 시간 동안 유사한 작업을 수행한다.
일 측면에서, 시스템(100E)은 구성요소 장애를 커버하기 위해 예비 구성요소(110)를 포함할 수 있지만, 이 구성요소들은 낭비되지 않는다. 또한, VM 할당기(118)는, 예컨대, 물리적 수명, 장애 비율 및/또는 수행된 워크로드에 기초하여, 냉각 시스템(104)의 구성요소가 노후화되는 시기를 추적할 수 있다. 예를 들어, 냉각 시스템의 구성요소가 미리 정의된 물리적 수명 및/또는 작동 수명에 도달하면, VM 할당기는 냉각 시스템을 동일한 구성요소 유형의 다른 냉각 시스템으로 교체하라는 알림을 보낼 수 있다. (이러한 일 예는 도 3b와 관련하여 위에 설명되어 있다). 마찬가지로, 예컨대, 백분율 기준으로, 또는 다수의 예비 구성요소가 정의된 임계값 아래로 떨어지는 것과 같이, 냉각 시스템이 다수의 구성요소 오류를 경험할 경우, VM 할당기는 냉각 시스템을 동일한 구성요소 유형의 다른 냉각 시스템으로 교체하라는 알림을 보낼 수 있다. 단일 냉각 시스템의 구성요소와 관련하여 논의되었지만, VM 할당기는 다양한 구성요소 유형을 포함하는 모든 냉각 시스템에 대해 이러한 관리 기능을 동시에 수행할 수 있다.
도 6a 내지 도 6e는 본 분리 개념이 전통적인 데이터 센터 구성과 어떻게 다른지에 대한 예를 집합적으로 도시한다. 도 6a는 전통적인 데이터 센터의 전통적인 개별 서버 또는 장치(602)를 도시한다. 개별 장치(602)는 예를 들어 SKU 1, 2 및 3에 의해 정의된 구성요소를 갖는다. 이 경우에, SKU 1에 의해 정의된 구성요소를 갖는 3개의 개별 장치(604), SKU 2에 의해 정의된 구성요소를 갖는 3개의 개별 장치(606) 및 SKU 3에 의해 정의된 구성요소를 갖는 3개의 개별 장치(608)가 도시되어 있다. 물론, 임의의 수의 개별 장치가 각 SKU와 관련될 수 있다. 예를 들어 데이터 센터에 있는 총 3,000개의 개별 장치에 대해 1,000개의 개별 장치가 각 SKU와 관련될 수 있다. 이 경우에, 도시된 구성요소는 스토리지(610), 메모리(612) 및 CPU(614)이다. 이 예에서, 각 개별 장치는 각 구성요소를 포함하지만, 그 비율은 서로 다른 SKU들 사이에서 다르다. SKU는 예상 워크로드(예컨대, 하드웨어에서 실행되는 소프트웨어 및 소프트웨어에 의해 수행되는 처리의 유형)에 적합한 개별 장치에 대한 하드웨어 구성요소를 정의한다. 전술한 바와 같이, 개별 장치는 사전에 구축되며, 실제 요청된 워크로드와 일치하거나 일치하지 않을 수 있다. 전술한 바와 같이, 여기에 도시된 것보다 더 많은 구성요소 유형(102)이 있을 수 있고, 모든 SKU가 모든 구성요소 유형을 포함하는 것은 아니다. 도시된 구성은 설명의 목적으로 제공된다.
도 6b는 분리형 컴퓨팅 풀(620)을 도시한다. 예를 들어, 분리형 컴퓨팅 풀(620)은 도 6a와 동일한 구성요소들(각 구성요소의 3,000개)을 포함한다고 가정하지만, 구성요소들은 개별 냉각 시스템에서 구성요소 유형별로 함께 그룹화되거나 풀링된다. 이 측면은 위에서 설명된다. 이 경우, CPU(614)는 CPU 풀(622)로 그룹화되고, 메모리(612)는 메모리 풀(624)로 그룹화되며, 스토리지(610)는 스토리지 풀(626)로 그룹화된다. 구성요소들의 개별 풀들은 냉각 시스템(104)에 포함될 수 있는 구성요소 유형(102)의 예이다. 이 측면은 도 1과 관련하여 위에서 설명된다.
도 6c는 CPU 풀(622)의 CPU, 메모리 풀(624)의 메모리 및 스토리지 풀(626)의 스토리지가 가상 SKU(V-SKU)에 어떻게 할당될 수 있는지를 보여준다. 전술한 바와 같이, 이 할당은 일부 구현에서 VM 할당기(118)에 의해 수행될 수 있다. 이 경우, 각 구성요소 풀(622, 624 및 626)로부터의 구성요소가 V-SKU-1에 할당된다. 구성요소의 비율 또는 비는 도 6a의 SKU-1과 동일할 수 있음에 유의한다. 이 할당은 미리 수행되지 않고 실시간으로(예컨대, 워크로드 요청이 수신될 때) 수행될 수 있으므로, 도 6a의 전통적인 구성에서와 같이 불일치 가능성이 없다는 점에 유의한다.
도 6d는 각 구성요소 풀(622, 624 및 626)로부터의 구성요소가 V-SKU-2에 할당되는 방식을 보여준다. 구성요소의 비율 또는 비는 도 6a의 SKU-2와 동일할 수 있음에 유의한다. 유사하게, 도 6e는 각 구성요소 풀(622, 624 및 626)로부터의 구성요소가 V-SKU-3에 할당되는 방식을 보여준다. 구성요소의 비율 또는 비는 도 6a의 SKU-3과 동일할 수 있음에 유의한다. 그러나, 이 구성에서는, 전체 장치에 전력을 공급할 필요 없이, VM 할당기는 단순히 사용되고 있는 특정 구성요소에 전원를 공급할 수 있다. 이렇게 하면 전통적인 데이터 센터에서 필요로 하는 많은 양의 공기를 능동적으로 이동시킬 필요가 없는 것과 관련하여 위에서 언급한 절전 효과에 추가적인 절전 효과를 더할 수 있다.
도 7a 내지 도 7c는 또 다른 분리형 컴퓨팅 풀(620A)에 대한 본 분리 개념의 또 다른 예를 집합적으로 도시한다. 이 경우, 도 7a는 도 6b 내지 도 6e와 동일한 3개의 구성요소 풀을 도시한다. 이 예에서는, 각 풀의 높이에 의해 표현되는 3개의 개별 풀 내의 구성요소의 주어진 비율이 존재한다. 경우에 따라, 비율 선택은 예상 수요 및/또는 과거 수요에 기초할 수 있다.
도 7b는 3개의 가상 SKU(V-SKU-1, V-SKU-2 및 V-SKU-3)에 대응하는 요청된 워크로드에 할당된 분리형 컴퓨팅 풀(620A)을 보여준다. 이 경우, 요청된 워크로드는 예상 워크로드와 일치하지 않는다는 점에 유의한다. 이는 거의 모든 CPU 풀(622)이 할당되는 반면, 메모리 풀(624) 및 스토리지 풀(626)은 각각 미사용 용량(702 및 704)을 갖는다는 점에서 반영된다.
도 7c는 706에 표시된 바와 같이 추가적인 CPU가 CPU 풀(622)에 어떻게 추가될 수 있는지를 보여준다. 이 측면은 도 3b와 관련하여 위에서 논의되었고, (예컨대, CPU 풀(622) 내의 기존 CPU의 작동을 중단시키지 않고) 즉석에서 수행될 수 있다. 예를 들어, CPU 풀(622) 내의 CPU를 증가시키기 위해 CPU를 포함하는 추가 냉각 시스템이 추가될 수 있다. 따라서, 미사용 메모리 자원과 스토리지 자원이 낭비되거나 손실되지 않도록 추가적인 CPU 용량이 추가될 수 있다(예컨대, 이들은 이제 추가된 CPU 자원을 갖는 새로운 SKU에 할당될 수 있음). 또한, 기존 자원의 기능을 중단시키지 않으면서 추가적인 CPU 용량이 추가될 수 있다.
도 8은 본 개념을 달성할 수 있는 예시적 VM 할당기(118) 구현을 도시한다. 설명을 위해, 도 8은 VM 할당기에 대한 2개의 구현 구성(802)을 도시한다. 간략하게, 구성(802(1))은 운영 체제(OS) 중심 구성을 나타낸다. 구성(802(2))은 시스템 온 칩(SOC) 구성을 나타낸다. 구성(802(1))은 스토리지(810) 및 프로세서(812)와 같은 하드웨어(808)에서 실행되는 하나 이상의 애플리케이션(804) 및 운영 체제(806)로 구성된다. VM 할당기(118)는 애플리케이션으로서, 애플리케이션 부분으로서 및/또는 운영 체제를 통해 작동될 수 있다.
구성(802(2))은 스토리지(810) 및 프로세서(812)와 같은 하나 이상의 공유 자원(814), 전용 자원(816), 및 이들 사이의 인터페이스(818)로 구성된다. VM 할당기(118)는 공유 자원(814) 및/또는 전용 자원(816)을 통해 작동될 수 있다.
VM 할당기(118)는 독립형 방식으로 기능할 수 있다. 대안적으로, VM 할당기는 다른 컴퓨터와 협력하여 작동될 수 있다. 예를 들어, VM 할당기는 냉각 시스템 세트와 연관될 수 있고, 다른 VM 할당기는 다른 냉각 시스템 세트와 연관될 수 있다. 마스터 VM 할당기 또는 기타 엔티티는 다양한 VM 할당기의 기능을 조정하여 다수의 분리형 시스템에 걸쳐 워크로드를 달성할 수 있다. 예를 들어, 통신 허브(116)에 배치된 VM 할당기(118)는 분리형 시스템과 연관된 모든 컴퓨팅 기능을 관리할 수 있다. 대안적으로, 통신 허브 상의 로컬 VM 할당기는 분리형 시스템에 대한 일부 관리 기능을 수행할 수 있고, 다른 관리 기능을 수행한 원격 VM 할당기와 통신할 수 있다.
일부 구현에서, VM 할당기(118)는 프로세서에 의해 실행될 수 있는 컴퓨터 판독가능 저장 매체 상에서 구현될 수 있다. 본 명세서에서 사용될 때, "컴퓨터 판독가능 매체"라는 용어는 신호를 포함할 수 있다. 이와 대조적으로, "컴퓨터 판독가능 저장 매체"라는 용어는 신호를 제외한다. 컴퓨터 판독가능 저장 매체는 "컴퓨터 판독가능 저장 장치"를 포함한다. 컴퓨터 판독 가능 저장 장치의 예는 RAM과 같은 휘발성 저장 매체와, 특히, 하드 드라이브, 광 디스크 및 플래시 메모리와 같은 비휘발성 저장 매체를 포함한다.
도 9는 분리형 컴퓨팅 기술 또는 방법(900)의 예시적 흐름도를 도시한다.
방법은 902에서 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제1의 2상 액침 탱크 및 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제2의 2상 액침 탱크를 모니터링할 수 있다. 적어도 일부 구현에서, 각 2상 액침 탱크는 한 가지 유형의 구성요소만 포함한다. 액체의 특성은 해당 구성요소 유형의 구성요소의 특성 및/또는 해당 구성요소 유형의 구성요소의 예상 작동에 기초하여 선택될 수 있다.
방법은 904에서 제1 가상 머신 요청 및 제2 가상 머신 요청을 수신할 수 있다.
방법은 906에서 제1의 2상 액침 탱크로부터의 제1 구성요소 세트 및 제2의 2상 액침 탱크로부터의 제1 구성요소 세트를 제1 가상 머신 요청에 동적으로 할당할 수 있고, 제1의 2상 액침 탱크로부터의 제2 구성요소 세트 및 제2의 2상 액침 탱크로부터의 제2 구성요소 세트를 제2 가상 머신 요청에 동적으로 할당할 수 있다. 각 탱크는 탱크 내의 액체의 특성, 탱크 내의 구성요소의 특성, 가상 머신 요청 및/또는 특정 시점에서의 가상 머신 요청의 워크로드에 적어도 부분적으로 기초하여 관리될 수 있다. 일부 경우에, 동적으로 할당하는 것은 제2의 2상 액침 탱크에서의 할당을 변경하지 않으면서 제1의 2상 액침 탱크에서 결함이 있는 개별 구성요소를 교체하는 것을 수반할 수 있다.
도 10은 분리형 컴퓨팅 기술 또는 방법(1000)의 예시적 흐름도를 도시한다.
방법은 블록 1002에서 다수의 2상 액침 탱크를 모니터링할 수 있는데, 개별 2상 액침 탱크는 단일 유형인 구성요소 유형의 다수의 구성요소를 포함한다.
이 방법은 블록 1004에서 가상 머신에 대한 요청을 수신할 수 있다.
이 방법은 블록 1006에서 가상 머신 요청을 지원하기 위해 함께 작동하도록 개별 2상 액침 탱크로부터의 구성요소 세트를 할당할 수 있다. 경우에 따라, 할당하는 것은 가상 머신 요청을 충족시키도록 개별 2상 액침 탱크로부터의 구성요소 세트에 전력을 공급하는 것을 포함할 수 있다. 전력으로 인해 구성요소 세트로부터의 열은 구성요소 세트의 개별 구성요소의 최대 작동 온도를 초과하지 않으면서 개별 2상 액침 탱크 내의 액체의 일부를 끓게 만들 수 있다.
설명된 방법은 위에서 및/또는 아래에 설명된 시스템 및/또는 요소에 의해 수행되고/되거나, 다른 장치 및/또는 시스템에 의해 수행될 수 있다.
방법이 설명되는 순서는 제한으로 해석되도록 의도되지 않으며, 임의의 수의 설명된 동작은 방법 또는 대체 방법을 구현하기 위해 임의의 순서로 결합될 수 있다. 또한, 방법은 장치가 방법을 구현할 수 있도록 임의의 적절한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 하나의 경우에, 방법은 프로세서에 의한 실행이 프로세서로 하여금 방법을 수행하게 하는 명령어(예컨대, 컴퓨터 판독가능 명령어 또는 컴퓨터 실행가능 명령어) 세트로서 하나 이상의 컴퓨터 판독가능 저장 매체/매체들에 저장된다.
다양한 예가 위에 설명되어 있다. 추가 예는 아래에서 설명된다. 일 예는 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하고 제2 컴퓨팅 자원 구성요소 유형의 구성요소를 포함하지 않는 제1 액침 탱크 ― 제1 액침 탱크는 제1 컴퓨팅 자원 구성요소 유형의 작동 온도 범위 내의 비등점을 갖는 제1 액체를 포함함 ― 와, 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하고 제1 컴퓨팅 자원 구성요소 유형의 구성요소는 포함하지 않는 제2 액침 탱크 ― 제2 액침 탱크는 제2 컴퓨팅 자원 구성요소 유형의 작동 온도 범위 내의 비등점을 갖는 제2 액체를 포함함 ― 와, 제1 액침 탱크 내의 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소 및 제2 액침 탱크 내의 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소에 통신 가능하게 결합된 통신 허브를 포함하는 시스템을 포함한다.
다른 예는 제1 컴퓨팅 자원 구성요소 유형이 중앙 처리 장치를 포함하고 제2 컴퓨팅 자원 구성요소 유형이 메모리를 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 시스템이 그래픽 처리 장치를 포함하는 제3 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제3 액침 탱크와, 스토리지를 포함하는 제4 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제4 액침 탱크를 더 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 시스템이 가속기를 포함하는 제5 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제5 액침 탱크와, 플래시 메모리를 포함하는 제6 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제6 액침 탱크를 더 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 특정 구성요소 유형을 포함하고 다른 구성요소 유형의 구성요소를 포함하지 않는 2상 액침 탱크를 포함하는 각각의 이러한 액침 탱크를 포함할 수 있다.
다른 예는 시스템이 오버클럭된 프로세서를 포함하는 제7 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제7 액침 탱크를 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 액침 탱크, 제2 액침 탱크, 제3 액침 탱크, 제4 액침 탱크, 제5 액침 탱크, 제6 액침 탱크, 및 제7 액침 탱크가 통신 허브 주위에 방사형으로 배치되는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 액침 탱크, 제2 액침 탱크, 제3 액침 탱크, 제4 액침 탱크, 제5 액침 탱크, 제6 액침 탱크, 및 제7 액침 탱크가 통신 허브로부터 실질적으로 동일한 거리에 배치되는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 액침 탱크, 제2 액침 탱크, 제3 액침 탱크, 제4 액침 탱크, 제5 액침 탱크, 제6 액침 탱크, 및 제7 액침 탱크가 모두 4 입방 피트 부피 내에 있는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 시스템이 제1 액침 탱크 내의 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소와 통신 허브 사이에서 연장되는 제1 통신 회선 ― 제1 통신 회선은 길이가 1피트 미만임 ― 을 더 포함하고, 제2 액침 탱크 내의 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소와 통신 허브 사이에서 연장되는 제2 통신 회선 ― 제2 통신 회선은 길이가 1피트 미만임 ― 을 더 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 통신 허브가 제1 액침 탱크와 제2 액침 탱크 사이의 중앙에 배치된 다른 액침 탱크 내에 배치되는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하고 제2 컴퓨팅 자원 구성요소 유형의 구성요소를 포함하지 않는 제1 액침 탱크와, 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하고 제1 컴퓨팅 자원 구성요소 유형의 구성요소를 포함하지 않는 제2 액침 탱크와, 제1 기능을 달성하기 위해 제1 컴퓨팅 자원 구성요소 유형의 제1 세트를 제2 컴퓨팅 자원 구성요소 유형의 제1 세트와 통신 가능하게 결합시키고, 제2 기능을 달성하기 위해 제1 컴퓨팅 자원 구성요소 유형의 제2 세트를 제2 컴퓨팅 자원 구성요소 유형의 제2 세트와 통신 가능하게 결합시키도록 구성된 가상 머신 할당기를 포함하는 시스템을 포함한다.
다른 예는 가상 머신 할당기가 제1 액침 탱크 및 제2 액침 탱크와 연관된 다수의 파라미터에 기초하여 제1 기능을 달성하기 위해 제1 컴퓨팅 자원 구성요소 유형의 제1 세트를 제2 컴퓨팅 자원 구성요소 유형의 제1 세트와 함께 선택하도록 구성되는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 파라미터가 제1 액침 탱크 및 제2 액침 탱크의 현재 작동 온도와, 제1 기능 및 제2 기능이 수행될 경우에 예상되는 작동 온도를 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 컴퓨팅 자원 구성요소 유형의 제1 세트 및 제1 컴퓨팅 자원 구성요소 유형의 제2 세트가 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소의 임계 수보다 많은 구성요소를 사용할 때, 가상 머신 할당기는 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 또 다른 제2 액침 탱크를 추가하지 않으면서 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 또 다른 제1 액침 탱크로 하여금 가상 머신 할당기에 통신 가능하게 결합되게 하는 신호를 생성할 수 있는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 액침 탱크가 오버클럭된 속도로 작동하는 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 가상 머신 할당기가 제1 기능을 달성하는 동안 제1 컴퓨팅의 지정된 최대 작동 온도를 초과하는 것을 피하는 오버클럭 속도로 제1 컴퓨팅 자원 구성요소 유형의 제1 세트를 제어하도록 구성되는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 가상 머신 할당기가 제1 기능, 클록 속도, 또는 제1 액침 탱크와 연관된 온도에 기여하는 구성요소의 수에 관한 적어도 하나의 파라미터를 조정함으로써 제1 컴퓨팅 자원 구성요소 유형의 제1 세트를 제어하도록 구성되는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제1의 2상 액침 탱크 및 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제2의 2상 액침 탱크를 모니터링하는 단계와, 제1 가상 머신 요청 및 제2 가상 머신 요청을 수신하는 단계와, 제1의 2상 액침 탱크로부터의 제1 구성요소 세트 및 제2의 2상 액침 탱크로부터의 제1 구성요소 세트를 제1 가상 머신 요청에 동적으로 할당하고 제1의 2상 액침 탱크로부터의 제2 구성요소 세트 및 제2의 2상 액침 탱크로부터의 제2 구성요소 세트를 제2 가상 머신 요청에 동적으로 할당하는 단계를 포함하는, 장치에 의해 구현되는 방법을 포함한다.
다른 예는 동적으로 할당하는 단계가 제2의 2상 액침 탱크에서의 할당을 변경하지 않으면서 제1의 2상 액침 탱크에서 결함이 있는 개별 구성요소를 교체하는 단계를 포함하는 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
다른 예는 다수의 2상 액침 탱크 ― 개별 2상 액침 탱크는 단일 구성요소 유형의 다수의 구성요소를 포함함 ― 를 모니터링하고는 단계와, 가상 머신에 대한 요청을 수신하는 단계와, 가상 머신 요청을 지원하기 위해 함께 작동하도록 개별 2상 액침 탱크로부터 구성요소 세트를 할당하는 단계를 포함하는, 장치에 의해 구현되는 방법을 포함한다.
다른 예는 할당하는 단계가 가상 머신 요청을 충족시키기 위해 개별 2상 액침 탱크로부터의 구성요소 세트에 전력을 공급하는 단계를 더 포함하되, 전력은 구성요소 세트로부터의 열로 하여금 구성요소 세트의 개별 구성요소의 최대 작동 온도를 초과하지 않으면서 개별 2상 액침 탱크 내의 액체의 일부를 끓이게 하는, 위 및/또는 아래의 예 중 임의의 것을 포함할 수 있다.
결론
분리형 컴퓨팅에 관한 주제가 구조적 특징 및/또는 방법론적 행위에 특정된 언어로 설명되었지만, 첨부된 청구범위에서 정의된 주제가 반드시 전술된 특정 특징 또는 행위로 제한되지 않는다는 것을 이해해야 한다. 오히려, 전술된 특정 특징 및 행위는 청구범위를 구현하는 예시적 형태로서 개시된다.

Claims (15)

  1. 시스템으로서,
    제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하고 제2 컴퓨팅 자원 구성요소 유형의 구성요소를 포함하지 않는 제1 액침 탱크(liquid immersion tank) ― 상기 제1 액침 탱크는 상기 제1 컴퓨팅 자원 구성요소 유형의 작동 온도 범위 내의 비등점을 갖는 제1 액체를 포함함 ― 와,
    상기 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하고 상기 제1 컴퓨팅 자원 구성요소 유형의 구성요소를 포함하지 않는 제2 액침 탱크 ― 상기 제2 액침 탱크는 상기 제2 컴퓨팅 자원 구성요소 유형의 작동 온도 범위 내에서 비등점을 갖는 제2 액체를 포함함 ― 와,
    상기 제1 액침 탱크 내의 상기 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소 및 상기 제2 액침 탱크 내의 상기 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소에 통신가능하게 결합된 통신 허브를 포함하는,
    시스템.
  2. 제1항에 있어서,
    상기 제1 컴퓨팅 자원 구성요소 유형은 중앙 처리 장치를 포함하고 상기 제2 컴퓨팅 자원 구성요소 유형은 메모리를 포함하는,
    시스템.
  3. 제2항에 있어서,
    그래픽 처리 유닛을 포함하는 제3 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제3 액침 탱크를 더 포함하고, 스토리지를 포함하는 제4 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제4 액침 탱크를 더 포함하는,
    시스템.
  4. 제3항에 있어서,
    가속기를 포함하는 제5 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제5 액침 탱크를 더 포함하고, 플래시 메모리를 포함하는 제6 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제6 액침 탱크를 더 포함하는,
    시스템.
  5. 제4항에 있어서,
    오버클럭된 프로세서를 포함하는 제7 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제7 액침 탱크를 더 포함하는,
    시스템.
  6. 제5항에 있어서,
    상기 제1 액침 탱크, 상기 제2 액침 탱크, 상기 제3 액침 탱크, 상기 제4 액침 탱크, 상기 제5 액침 탱크, 상기 제6 액침 탱크 및 상기 제7 액침 탱크는 상기 통신 허브 주위에 방사형으로 배치되는,
    시스템.
  7. 제5항에 있어서,
    상기 제1 액침 탱크, 상기 제2 액침 탱크, 상기 제3 액침 탱크, 상기 제4 액침 탱크, 상기 제5 액침 탱크, 상기 제6 액침 탱크 및 상기 제7 액침 탱크는 상기 통신 허브로부터 실질적으로 동일한 거리에 배치되는,
    시스템.
  8. 제5항에 있어서,
    상기 제1 액침 탱크, 상기 제2 액침 탱크, 상기 제3 액침 탱크, 상기 제4 액침 탱크, 상기 제5 액침 탱크, 상기 제6 액침 탱크 및 상기 제7 액침 탱크는 모두 4 입방 피트 부피 내에 포함되는,
    시스템.
  9. 제1항에 있어서,
    상기 제1 액침 탱크 내의 상기 제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소와 상기 통신 허브 사이에서 연장되는 제1 통신 회선 ― 상기 제1 통신 회선은 길이가 1피트 미만임 ― 을 더 포함하고, 상기 제2 액침 탱크 내의 상기 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소와 상기 통신 허브 사이에서 연장되는 제2 통신 회선 ― 상기 제2 통신 회선은 길이가 1피트 미만임 ― 을 더 포함하는,
    시스템.
  10. 제1항에 있어서,
    상기 통신 허브는, 상기 제1 액침 탱크와 상기 제2 액침 탱크 사이의 중앙에 배치되는 다른 액침 탱크 내에 배치되는,
    시스템.
  11. 장치에 의해 구현되는 방법으로서,
    제1 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제1의 2상 액침 탱크 및 제2 컴퓨팅 자원 구성요소 유형의 다수의 구성요소를 포함하는 제2의 2상 액침 탱크를 모니터링하는 단계와,
    제1 가상 머신 요청 및 제2 가상 머신 요청을 수신하는 단계와,
    상기 제1의 2상 액침 탱크로부터의 제1 구성요소 세트 및 상기 제2의 2상 액침 탱크로부터의 제1 구성요소 세트를 상기 제1 가상 머신 요청에 동적으로 할당하고, 상기 제1의 2상 액침 탱크로부터의 제2 구성요소 세트 및 상기 제2의 2상 액침 탱크로부터의 제2 구성요소 세트를 상기 제2 가상 머신 요청에 동적으로 할당하는 단계를 포함하는,
    방법.
  12. 제11항에 있어서,
    상기 동적으로 할당하는 단계는 상기 제2의 2상 액침 탱크에서의 할당을 변경하지 않으면서 상기 제1의 2상 액침 탱크에서 결함이 있는 개별 구성요소를 교체하는 단계를 포함하는,
    방법.
  13. 제11항에 있어서,
    상기 동적으로 할당하는 단계는 다수의 파라미터와 관련하여 상기 제1의 2상 액침 탱크 내의 개별 구성요소를 관리하는 단계를 포함하는,
    방법.
  14. 제13항에 있어서,
    상기 제1의 2상 액침 탱크로부터 상기 다수의 파라미터 중 적어도 일부를 감지하는 단계를 더 포함하는,
    방법.
  15. 제13항에 있어서,
    상기 관리하는 단계는 상기 개별 구성요소에 대한 설계 사양보다 더 빠른 속도로 상기 개별 구성요소를 구동하는 단계를 포함하는,
    방법.
KR1020237009636A 2020-09-25 2021-06-10 분리형 컴퓨터 시스템 KR20230070218A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/033,322 2020-09-25
US17/033,322 US11392184B2 (en) 2020-09-25 2020-09-25 Disaggregated computer systems
PCT/US2021/036702 WO2022066249A1 (en) 2020-09-25 2021-06-10 Disaggregated computer systems

Publications (1)

Publication Number Publication Date
KR20230070218A true KR20230070218A (ko) 2023-05-22

Family

ID=76765209

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237009636A KR20230070218A (ko) 2020-09-25 2021-06-10 분리형 컴퓨터 시스템

Country Status (11)

Country Link
US (3) US11392184B2 (ko)
EP (1) EP4218372A1 (ko)
JP (1) JP2023543778A (ko)
KR (1) KR20230070218A (ko)
CN (1) CN116195375A (ko)
AU (1) AU2021346492A1 (ko)
BR (1) BR112023002496A2 (ko)
CA (1) CA3188707A1 (ko)
IL (1) IL301382A (ko)
MX (1) MX2023003415A (ko)
WO (1) WO2022066249A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11606879B2 (en) * 2021-06-23 2023-03-14 Baidu Usa Llc Multi-phase change thermal management systems for servers
US11729949B2 (en) * 2021-06-23 2023-08-15 Baidu Usa Llc Disaggregated system architecture for immersion cooling
US20230362234A1 (en) * 2022-05-04 2023-11-09 Microsoft Technology Licensing, Llc Method and system of managing resources in a cloud computing environment
US20230403821A1 (en) * 2022-06-14 2023-12-14 Microsoft Technology Licensing, Llc Pressure Based Phase Immersion Cooling System
US20240107716A1 (en) * 2022-09-27 2024-03-28 Microsoft Technology Licensing, Llc Systems and methods for adjusting pressure in immersion-cooled datacenters

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092250B1 (en) 2006-10-27 2015-07-28 Hewlett-Packard Development Company, L.P. Selecting one of plural layouts of virtual machines on physical machines
US8953317B2 (en) 2011-10-26 2015-02-10 International Business Machines Corporation Wicking vapor-condenser facilitating immersion-cooling of electronic component(s)
US20140007097A1 (en) 2012-06-29 2014-01-02 Brocade Communications Systems, Inc. Dynamic resource allocation for virtual machines
US9921622B2 (en) 2013-02-01 2018-03-20 Dell Products, L.P. Stand alone immersion tank data center with contained cooling
US9351429B2 (en) 2013-02-01 2016-05-24 Dell Products, L.P. Scalable, multi-vessel distribution system for liquid level control within immersion cooling tanks
RU2646323C2 (ru) 2014-02-27 2018-03-02 Интел Корпорейшн Технологии для выделения конфигурируемых вычислительных ресурсов
US10382279B2 (en) 2014-06-30 2019-08-13 Emc Corporation Dynamically composed compute nodes comprising disaggregated components
US9713290B2 (en) 2014-06-30 2017-07-18 Microsoft Technology Licensing, Llc Datacenter immersed in cooling liquid
US9323567B2 (en) * 2014-09-25 2016-04-26 International Business Machines Corporation Overcommitting virtual machine hosts
US10528096B2 (en) 2015-06-01 2020-01-07 International Business Machines Corporation Optimizing cooling energy
WO2017040217A1 (en) 2015-08-28 2017-03-09 Miyoshi Mark Immersion cooling system with low fluid loss
US20180246550A1 (en) * 2015-08-31 2018-08-30 Exascaler Inc. Cooling system for electronic device
US9959146B2 (en) * 2015-10-20 2018-05-01 Intel Corporation Computing resources workload scheduling
NL2015841B1 (en) * 2015-11-23 2017-06-07 Aecorsis B V A device comprising heat producing components with liquid submersion cooling.
US20170286252A1 (en) * 2016-04-01 2017-10-05 Intel Corporation Workload Behavior Modeling and Prediction for Data Center Adaptation
EP3236727B1 (en) * 2016-04-20 2019-09-18 CGG Services SAS Methods and system for oil immersion cooling
GB2549946A (en) * 2016-05-03 2017-11-08 Bitfury Group Ltd Immersion cooling
JP6278071B2 (ja) * 2016-07-15 2018-02-14 富士通株式会社 電子機器の液浸槽
US10390114B2 (en) 2016-07-22 2019-08-20 Intel Corporation Memory sharing for physical accelerator resources in a data center
US10372498B2 (en) 2016-09-26 2019-08-06 Intel Corporation Dynamic virtual CPU core allocation
US10838482B2 (en) 2016-10-10 2020-11-17 International Business Machines Corporation SLA-based power management in disaggregated computing systems
US10534598B2 (en) 2017-01-04 2020-01-14 International Business Machines Corporation Rolling upgrades in disaggregated systems
US10390458B2 (en) * 2017-09-20 2019-08-20 Liquidcool Solutions, Inc. Liquid submersion cooled electronic systems and devices
US10888031B2 (en) * 2017-09-25 2021-01-05 Hewlett Packard Enterprise Development Lp Memory device with memory modules located within liquid coolant chamber
US10601903B2 (en) 2018-05-17 2020-03-24 International Business Machines Corporation Optimizing dynamical resource allocations based on locality of resources in disaggregated data centers
JP2020043257A (ja) * 2018-09-12 2020-03-19 キオクシア株式会社 メモリシステム及びストレージシステム
US11129298B2 (en) * 2018-09-19 2021-09-21 Tmgcore, Inc. Process for liquid immersion cooling
US10976801B2 (en) * 2018-09-20 2021-04-13 Intel Corporation System, apparatus and method for power budget distribution for a plurality of virtual machines to execute on a processor
US11006547B2 (en) * 2019-03-04 2021-05-11 Baidu Usa Llc Solution for precision cooling and fluid management optimization in immersion cooling
US20200305310A1 (en) 2019-03-22 2020-09-24 Microsoft Technology Licensing, Llc Rack mountable immersion cooling enclosures

Also Published As

Publication number Publication date
WO2022066249A1 (en) 2022-03-31
AU2021346492A1 (en) 2023-05-04
US11392184B2 (en) 2022-07-19
BR112023002496A2 (pt) 2023-04-04
US20230136452A1 (en) 2023-05-04
MX2023003415A (es) 2023-04-14
EP4218372A1 (en) 2023-08-02
US20220308643A1 (en) 2022-09-29
IL301382A (en) 2023-05-01
CN116195375A (zh) 2023-05-30
JP2023543778A (ja) 2023-10-18
AU2021346492A9 (en) 2024-06-13
US11567548B2 (en) 2023-01-31
CA3188707A1 (en) 2022-03-31
US20220100241A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
KR20230070218A (ko) 분리형 컴퓨터 시스템
Rodero et al. Energy-efficient thermal-aware autonomic management of virtualized HPC cloud infrastructure
US20190065281A1 (en) Technologies for auto-migration in accelerated architectures
CN102822801B (zh) 响应于服务水平协议而分配计算***功率水平
US20180027063A1 (en) Techniques to determine and process metric data for physical resources
JP5607175B2 (ja) データ記憶装置及び方法
US7953574B2 (en) Methods and apparatuses for heat management in information systems
US8457806B2 (en) Managing an infrastructure having a 3D package and cooling resource actuators
US10133330B2 (en) Cluster system, controller, method for controlling, and computer-readable recording medium having stored therein controlling program that operate node at the combination of the respective load setting values that satisfy required performance and lowers power consumption
US8560141B2 (en) Management of a 3D package and cooling system
TW201804336A (zh) 分散式儲存及運算系統
US10809779B2 (en) Managing power in a high performance computing system for resiliency and cooling
JP2011186701A (ja) リソース割当装置、リソース割当方法、およびリソース割当プログラム
US20220214917A1 (en) Method and system for optimizing rack server resources
US8151122B1 (en) Power budget managing method and system
US10209749B2 (en) Workload allocation based on downstream thermal impacts
US10853211B2 (en) System and method for chassis-based virtual storage drive configuration
US20140297969A1 (en) Information processing device, method for controlling information processing device, and program for controlling information processing device
WO2016182851A2 (en) Managing power in a high performance cpmputing system for resiliency and cooling
US11809893B2 (en) Systems and methods for collapsing resources used in cloud deployments
Puvvadi et al. Flow Disruptions and Mitigation in Virtualized Water-Cooled Data Centers
CN102520770A (zh) 一种服务器***

Legal Events

Date Code Title Description
A201 Request for examination