CN107122321A - 硬件修复方法、硬件修复***以及计算机可读取存储装置 - Google Patents

硬件修复方法、硬件修复***以及计算机可读取存储装置 Download PDF

Info

Publication number
CN107122321A
CN107122321A CN201610311469.6A CN201610311469A CN107122321A CN 107122321 A CN107122321 A CN 107122321A CN 201610311469 A CN201610311469 A CN 201610311469A CN 107122321 A CN107122321 A CN 107122321A
Authority
CN
China
Prior art keywords
mentioned
hardware
sleep state
replacement
system element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610311469.6A
Other languages
English (en)
Other versions
CN107122321B (zh
Inventor
周乐生
钱威宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN107122321A publication Critical patent/CN107122321A/zh
Application granted granted Critical
Publication of CN107122321B publication Critical patent/CN107122321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

硬件修复方法、硬件修复***以及计算机可读取存储装置。本发明提供一种硬件修复方法,步骤包括:检测对应于***的硬件错误;辨识对应于硬件错误的***元件;通过基板管理控制器产生睡眠状态请求,睡眠状态请求用以触发***的操作***以让***进入特定睡眠状态,特定睡眠状态根据***元件的元件类型决定;以及在***进入特定睡眠状态后,产生一指示以指示在不重新启动***的操作***的情况下替换***元件,其中指示根据***所进入对应于***元件的元件类型的特定睡眠模式的判断产生。

Description

硬件修复方法、硬件修复***以及计算机可读取存储装置
技术领域
本发明涉及硬件修复,以及特别涉及未提供热插拔的硬件修复机制。
背景技术
计算机的性能和处理能力在过去几十年中大幅且稳定的成长。不出意外地,计算机***(例如服务器)越来越复杂,其所搭载的元件的数量以及类型亦越来越多,例如处理器、存储器、以及外接卡等。大多数专家认为这将会是未来的趋势。
然而,随着硬件元件的数量越来越多以及复杂度越来越高,计算机***越来越容易遇到装置故障的问题。事实上,装置故障为***管理员常遇到的问题,尤其是在更大、更复杂的环境以及架构中(例如数据中心以及机架规模架构)。不幸的是,装置故障可能具有强大的破坏性。举例来说,装置故障可能会导致计算机或者网络服务的周期变长,有时甚至可能造成数据的遗失。
为了修复装置故障,***管理员通常必须执行手动硬件复原程序。硬件复原程序可包括将***或者服务器关机以替换故障的***元件。整个复原程序的效率极低,且将可能导致服务中断,并对使用者带来实质上的影响。除此之外,依赖使用者输入以完成复原程序的某些步骤更可能会导致***的复原的延迟,并导致更多的服务中断。
发明内容
本发明的其它特征以及优点将陈述于下列的描述中,并且部分将可从描述中显而易见,或者可通过本发明的实施而了解。本发明的特征和优点可通过后附的申请范围中具体指出的元件和组合而实现以及获得。本发明的这些和其它特征将根据下列的描述和后附的权利要求书中变得更加清楚明白,或者可通过本发明所述的实施例实施而了解。
本文所述的方法可用以替换出现故障的未提供热插拔的***元件。具体而言,本发明所述的方法可允许在不重新开始或者重新启动***或者不需要重新配置替换的***元件的情况下替换出现故障的***元件。***可根据错误的类型和/或被替换的元件的类型进入一特定睡眠模式。当元件被替换时特定睡眠模式可允许***继续执行以避免必须重新开始或重新启动***。此机制可以一有效的方式在尽管元件未提供热插拔的情况下替换出现故障的元件并最小化或者限制***的停机时间。
本发明公开硬件自动修复的方法、***以及计算机可读取存储装置。在一些实施例中,***可检测硬件错误以及辨识与硬件错误有关的***元件(例如处理器、存储器、存储装置、电源供应器、***装置等)。
***可接着产生睡眠状态请求,睡眠状态请求用以触发***之一操作***以让***进入特定睡眠模式。因此,***可导致操作***让***进入特定睡眠状态以替换产生硬件错误的硬件元件。特定睡眠状态可根据***元件的元件类型决定。举例来说,若***类型为***装置(例如快捷外设护联标准(peripheral component interconnect express)),***可进入深层睡眠状态以在不重新启动***的情况下替换***装置。在另一例子中,若元件类型为一处理器、一存储器、或者一电源供应器,当替换出现故障的元件时,***可进入更深层的睡眠状态以让***以最少的资源运作。任何阶段的睡眠或者其它的状态皆可被考虑。
因此,当元件类型为***元件时,特定睡眠状态可为第一睡眠状态,即可为深层睡眠状态,以及当元件类型为一处理器、一存储器、或者一电源供应器时,则可为第二睡眠状态,即可为最深层的睡眠状态。
相较于第一睡眠状态,第二睡眠状态可导致较低的功率资源消耗和/或较长的恢复延迟。相较于第二睡眠状态,第一睡眠状态更可为更身或者相同或者几乎相同的睡眠状态。状态的其它组合也可被考虑。
在***进入特定睡眠状态后,***可产生一指示以指示***元件可在***的操作***不重新启动的情况下被替换。指示可根据***所进入对应于***元件的类型的特定睡眠状态、和/或***所进入的特定操作状态(例如与使用资源的减少、服务、功率、元件、操作周期、操作参数等相关的操作状态)而产生。除此之外,当***准备替换元件时,可产生指示。换句话说,指示可藉由判断***是否已进入可在不重新启动***和/或操作***的情况下替换特定元件的状态而产生。如前所述,可允许在***不重新开始或重新启动的特定状态可根据元件的类型决定(例如***装置、处理器、存储器、存储装置、电源供应器等)。
当***根据指示进入读取状态时,产生错误的硬件元件可被替换硬件元件所替换。替换硬件元件在元件类型、技术规格的类型、用以运作或者配置元件的驱动程序、用以运作或配置元件的程序、硬件或者***需求、配置、品牌、模板、版本等方面可与硬件元件相同。
当***进入不重新开始或者重新启动、不重新配置***元件、不重新启动相关的应用等的特定睡眠状态时,可替换替换***元件。除此之外,***元件可被替换为替换***元件。尽管***、***元件、和/或替换***元件未提供热插或热插拔技术。在***元件被替换成替换***元件后,***自特定睡眠状态转换为一般操作状态,并继续执行一般操作。***可继续以***元件发生错误前的相同的方法使用替换***元件。如前所述,当提到“休眠”状态时,也可适用任意其它类型的可致能***元件的替换的状态。
附图说明
为了描述可得到本发明上述以及其它优点以及特征的方式,前述简单描述的原理更具体的描述将通过附图中所示的具体实施例呈现。必须理解的是,这些附图仅描绘本发明的示范实施例,但并非用以限制本发明的范围,本发明的原理将通过附图描述以及解释附加的特征以及细节,其中:
图1A是显示根据本发明一实施例所述的第一示范***;
图1B是显示根据本发明一实施例所述的第二示范***;
图1C是显示根据本发明一实施例所述的虚拟环境中的示范***;
图2是显示根据本发明一实施例所述的呈现替换硬件元件的睡眠状态机制的示范***的示意图;
图3是显示根据本发明一实施例所述的示范睡眠状态表格;
图4是显示根据本发明一实施例所述的用以执行硬件修复或者替换程序的介于各个元件之间的示范通信的示意图;
图5是显示根据本发明一实施例所述的通过虚拟机器管理器恢复资源以及虚拟机器的示范错误修复表格;
图6是显示根据本发明一实施例所述的执行硬件修复程序的方法;
图7是显示根据本发明一实施例所述的监控以及辨识***中的硬件错误的示范方法的流程图;
图8是显示根据本发明一实施例所述的检查替换***元件的示范方法的流程图;
图9是显示根据本发明一实施例所述的判断软件的可恢复性的示范方法的流程图。
【符号说明】
100~***
102~总线
104~存储器
106~只读存储器
108~随机存取存储器
110~控制器
112~存储装置
114~模块1
116~模块2
118~模块3
120~输入装置
122~输入装置
124~通信接口
126~传感器
128~快取
130~处理器
132~快闪存储器
134~固件
136~显示器
150~计算机***
152~芯片组
154~桥接器
156~使用者接口元件
158~通信接口
160~处理器
162~固件
164~输出装置
166~存储装置
168~随机存取存储器
170~虚拟环境
172~虚拟机器管理器
174~虚拟机器
176~虚拟化主机
178~资源池
180~数据中心
200~***
202~硬盘装置
204~***装置
206~存储器
208~处理器
210~电源供应单元
212~睡眠状态S4
214~睡眠状态S3
216~睡眠模式转换
218~唤醒转换
220~工作状态S0
300~睡眠状态表格
302~故障描述
304~修复睡眠状态
306~延迟恢复
308~处理器
310~存储器
312~电源供应
314~***装置
316~存储装置
318~风扇
320~睡眠状态S4
322~睡眠状态S3
324~睡眠状态S1
326~睡眠状态S4的延迟
328~睡眠状态S3的延迟
330~睡眠状态S1的延迟
400~通信
402~操作***
404~硬件元件
410~监控硬件健康
412~致能具有阈值计数器的RAS特征
414~回报错误
416~回报错误
418~回报错误
420~睡眠状态请求
422~唤醒请求
424~交流电源阶段
426~直流电源阶段
428~开始开机自我检测
430~待机
432~恢复
434~硬件接口
436~RESTful、IPMI
438~RESTful API
500~错误修复表格
502~特征
504~描述
506~优先级
508~故障检测
510~减缓计划(例如延长运作时间)
512~虚拟机器备份以及还原
514~取得错误通知、辨识故障严重程度、位置以及数量
516~自资源池隔离出现故障的资源、重新分配新的资源给虚拟机器、关闭虚拟机器以及转换至不同的服务器
518~备份虚拟机器数据以避免数据遗失、于服务器修复后还原虚拟机器数据
520~高
522~自选
602~612、702~720、802~820、902~918~步骤流程
具体实施方式
下文公开本发明各个实施例,并配合附图,作详细说明如下。本领域技术人员可利用这些实施例或其他实施例所描述的细节及其他可利用的元件以及配置,在不离开本发明的精神与范围之下以实施发明。
有关本发明的其它特征以及优点将描述在下面的叙述中,并且将部分地从描述中显而易见,或可以通过实施本发明公开的原理而理解。本发明的特征以及优点可通过所附的权利要求中特别指出的工具以及组合实现以及取得。以下的描述以及所附的权利要求将充分地呈现本发明这些以及其他特征,或者可通过实施本发明中所描述的原理而理解。
必须理解的是,为了简单以及清楚说明,在适当的情况下,标号在不同的附图中重复使用以指示对应或者类似的元件。除此之外,大量的细节将被描述以透彻理解本发明所述的实施例。然而,本领域技术人员将可理解在没有这些特定细节的情况下也可实施本发明所述的实施例。在其它实施例中,将不详述方法、程序以及元件以避免模糊欲描述的相关特征。附图并不一定是按比例绘制且某些部件的比例可能被放大,以更佳地示出细节以及特征。该描述并非用以限制本发明所述的实施例的范围。
术语“耦接”被定义为连接,无论是直接连接或者通过中间元件间接连接,且不一定限于物理连接。术语“实质上”被定义为基本上符合特定元件(例如需求、元件、特性、特征、状态等)或者修饰元件的其它词汇,使得该元件不必是精确的元件。举例来说,若操作状态在功能性上类似于既定睡眠状态,则操作状态可实质上等于既定睡眠状态,但可稍微与既定睡眠状态不同。
在此所使用的“睡眠状态”可指计算机装置的操作状态,其特征在于增加的硬件延迟时间、和/或减少的处理周期、电源状态和/或功率消耗、资源使用和/或分配、活动性、服务、进程、内存分配、计算任务、处理器时钟、总线时钟等。举例来说,“睡眠状态”可包括休眠状态、硬件和/或软件(例如进阶配置与电源接口(advanced configuration and powerinterface,ACPI)、操作***等)所定义的睡眠状态(例如状态S1、S2、S3、以及S4)、中间状态、或者混合状态(例如休眠以及睡眠状态的组合)。除此之外,当计算机***进入睡眠状态时,在一些实施例中,计算机装置可保留至少一部分的计算机装置存储器状态和/或一个或者多个存储或者内存位置中的操作环境(可为物理和/或虚拟)。
本发明公开硬件自动修复的方法、***以及计算机可读取存储装置。首先将简要地说明硬件修复***的示范***以及配置。硬件修复机制的详述,包括示范以及变化,将描述于其后。本发明的各个实施例将描述这些变化。请参阅图1A、1B。
图1A、图1B是显示根据本发明一实施例所述的示范***。当实施本发明的技术时,对本领域技术人员而言更适当的实施例为显而易见的。本领域技术人员亦容易理解其它可能的***实施例。
图1A是显示***总线计算***架构100,其中***的元件通过总线102彼此电子通信。示范***100包括一处理单元(CPU或者处理器)130以及将各个***元件耦接至处理器130的一***总线102,***元件包括***存储器104,例如只读存储器(read only memory,ROM)106以及随机存取存储器(random access memory,RAM)108。***100可包括直接连接至处理器130、相邻于处理器130、或者作为处理器130的一部分的高速存储器的快取。***100可自存储器104和/或存储装置112复制数据至快取128以供处理器130快速存取。通过上述的方式,快取可使得性能提升以避免处理器130于等待数据时延迟。这些以及其它模块可控制或者被用以控制处理器130以执行各种动作。也可使用其它***存储器104。存储器104可包括多个具有不同性能特性的不同类型的存储器。处理器130可包括任何通用处理器以及硬件模块或者软件模块,例如模块1 114、模块2 116、以及存储于存储装置112中的模块3118,用以控制处理器130以及软件指令已被列入实际处理器设计的专门处理器。处理器130实质上可为完全独立的计算***,包括多个内核或者处理器、一总线、存储器控制器、快取等。多内核处理器可为对称或者非对称的。
为了致能计算***100的使用者互动,输入装置120可代表任何数目的输入机构,例如语音麦克风、手势或者图形输入的触控屏幕、键盘、鼠标、运动输入、语音等。输出装置122可为本领域技术人员所熟知的一个或者多个输出机构。在一些实施例中,多模块***可让使用者提供多种类型的输入以与计算装置100沟通。通信接口124通常可支配以及管理使用者输入以及***输出。任何特定硬件配置上的操作并没有限制,因此当硬件以及固件发展时,在此所述的基本特征可轻易地被替换以改善硬件或者固件配置。
存储装置112为非易失性存储器,并可为硬盘或者其它类型的可存储供计算机存取的数据的计算机可读取介质,例如卡带(magnetic cassette)、存储卡、固态存储装置、数字多功能影音光盘、随机存取存储器108、只读存储器106、以及上述装置的组合等。
存储装置121可包括软件模块114、116、118,用以控制处理器110。也可包括其它硬件或者软件模块。存储装置112可连接至***总线102。在本发明之一方面,执行特定功能的硬件模块可包括存储于计算机可读取介质中的软件元件,计算机可读取介质与必要的硬件元件连接,例如处理器130、总线102、显示器136等,以展现其功能。
控制器可为***100上的专门微处理器或者处理器,例如基板管理控制器(baseboardmanagement controller,BMC)。在一些实施例中,控制器110可为智慧平台管理接口(Intelligent Platform Management Interface,IPMI)。除此之外,在一些实施例中,控制器110可嵌于***100的主机板或者主电路板上。控制器110可管理介于***管理软件以及平台硬件的接口。控制器也可与各个***装置以及元件(内部和/或外部)进行通信,例如控制器或者***元件,下面将作更进一步的描述。
控制器110可产生对应于通知、警告、和/或事件的响应并与远端装置或者元件(例如电子邮件讯息、网络讯息等)通信、产生自动化硬件修复程序指令或者命令等。***管理员也可与控制器110远端通信以发起或者致使特定的硬件修复程序或者操作,下面将作更进一步的描述。
***100上不同类型的传感器(例如传感器126)可回报参数给控制器110,例如冷却风扇转速、电源状态、操作***状态、硬件状态等。控制器110也可包括***事件日志控制器和/或存储器,用以管理以及保存控制器110所接收的事件、警告、以及通知。举例来说,控制器110或***事件日志控制器可自一个或者多个装置以及元件接收警告或者通知,并将上述警告或者通知保存于***事件日志存储元件中。
快闪存储器132可为供***100存储和/或传送数据的电子非易失性计算机存储介质或者芯片。快闪存储器132可被电性抹除和/或重新编程。快闪存储器132可包括例如可抹除可编程只读存储器(erasable programmable read-only memory,EPROM)、电子可抹除可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读存储器、非易失性存储器、或者互补金属氧化物半导体等。快闪存储器132可存储当***100第一次启动时由***100所执行的固件134,以及固件134专用的一组配置。快闪存储器132也可存储由固件134所使用的配置。
固件134可包括基本输入/输出***或者其接替或者同等的***,例如可扩展固件接口(Extensible Firmware Interface,EFI)或者统一可扩展固件接口(Unified ExtensibleFirmware Interface,UEFI)。固件134可在每次***100启动时作为顺序程序载入以及执行。固件134可根据一组配置辨识、初始化、以及测试出现在***100中的硬件。固件134可在***100上执行一自我检测,例如开机自我检测(Power-on-Self-Test,POST)。上述的自我检测可测试各个硬件元件(例如硬盘、光学读取装置、冷却装置、存储器模块、扩充卡等)的功能。固件134可定址以及定位存储器104、只读存储器106、随机存取存储器108、和/或存储装置112中的一区域以存储操作***。固件134可载入启动载入器(boot loader)和/或操作***,并将***100的控制权交给操作***。
***100的固件134可包括定义固件134如何控制***100中的各个硬件元件的固件配置。固件配置可判断***100中各个硬件元件的启动顺序。固件134可提供一接口,例如可设定各种不同参数的统一可扩展固件接口,其中上述参数不同于固件默认配置中的参数。举例来说,使用者(例如***管理员)可利用固件134指定时钟以及总线速度、定义连接至***100的***装置、设定健康的监测(例如风扇速度以及中央处理器的温度限制)、和/或提供影响***100的整体效能以及功耗的各种其它参数。
尽管所示的固件134被存储在快闪存储器132中,但本领域技术人员可轻易地理解固件134可存储在其它存储器元件中,例如存储器104或只读存储器106。然而,所示的存储在快闪存储器132中的固件134仅作为说明的目的,但并不以此为限。
***100可包括一个或者多个传感器126。一个或者多个传感器126可包括例如一个或者多个温度传感器、热传感器、氧气传感器、化学传感器、噪声传感器、电流传感器、电压检测器、气流传感器、流量传感器、红外线温度计、热流传感器、温度计、高温计等。一个或者多个传感器126可通过总线102与处理器、快取128、快闪存储器132、通信接口124、存储器104、只读存储器106、随机存取存储器108、控制器110、以及存储装置112进行通信。一个或者多个传感器126也可通过一个或者多个不同的方式(例如集成电路总线(inter-integratedcircuit,I2C)、通用型输出(general purpose output,GPO)等)与其它元件进行通信。
图1B是显示具有可执行前述的方法或者操作的芯片组架构以及产生并显示人机接口的一示范计算机***150。计算机***150可包括用以执行本发明的技术的计算机硬件、软件、以及固件。***150可包括处理器160,代表任何数目的物理和/或逻辑的不同资源,可用于执行软件、固件、以及用以执行确定的计算的硬件。处理器160可与可控制处理器160的输入以及输出的芯片组152进行通信。在此实施例中,芯片组152输出数据(例如一显示)至输出164,并可读取以及将数据写入至存储装置166(可包括例如磁性介质、以及固态介质)。芯片组152也可自随机存取存储器168读取数据以及写入数据。与各种使用者接口元件156互连的桥接器154可与芯片组152连接。上述使用者接口元件156可包括键盘、麦克风、触控检测以及处理电路、指标装置(例如鼠标)等。一般而言,***150的输入可为任何各种来源、机器生成的输入和/或使用者生成的输入。
芯片组152也可与一个或者多个具有不同物理接口的通信接口158连接。上述的通信接口可包括有线以及无线区域网络接口、宽频无线网络接口、以及个人区域接口。本发明所述的产生、显示、以及使用人机接口的方法的应用可包括接收通过物理接口传输的有序数据集或者由机器本身的处理器160分析存储在存储装置166或者随机存取存储器168中的数据所产生的有序数据集。除此之外,机器可接收使用者通过使用者接口元件156输入的输入并执行对应的功能,例如通过处理器160解译上述输入并执行浏览功能。
除此之外,芯片组152也可与计算机***150上电时所执行的固件162进行通信。固件162可根据一组固件配置辨识、初始化、以及测试出现在计算机***150中的硬件。固件162可在计算机***150上执行自我检测,例如开机自我检测。自我检测可测试各个硬件元件152~168的功能。固件162可在存储器168中定址以及定位一区域以存储操作***。固件162可载入启动载入器和/或操作***,并将计算机***150的控制权交给操作***。在一些实施例中,固件162可与硬件元件152~160以及164~168进行通信。在此,固件162可通过芯片组152和/或通过一个或者多个其它元件与硬件元件152~160以及164~168进行通信。在一些实施例中,固件162可直接与硬件元件152~160以及164~168进行通信。
可以理解的是示范***100以及示范***150可具有多于一个的处理器(例如处理器130、160)或者为通过网络连接在一起的计算机装置群集的一部分,以提供更佳的处理性能。
为了清楚说明,在一些实施例中,本发明的技术的呈现被表示为包括独立的功能区块,功能区块包括装置、装置元件、通过软件呈现的方法中的步骤或者程序、或者硬件以及软件的组合。
在一些实施例中,计算机可读取存储装置、介质、以及存储器可包括包含位串流的缆线或者无线信号等。然而,当提到非暂态计算机可读取介质将明确地排除一些介质,例如能量、载波信号、电磁波、以及信号本身。
根据前述实施例的方法可通过利用存储在计算机可读取介质中或者以其它方式自计算机可读取介质中取得的计算机可执行指令实现。上述的指令可包括例如致使或者以其它方式配置通用计算机、专用计算机、或者专用处理装置以执行特定功能或者一组功能的指令以及数据。部分所使用的计算机资源可通过网络进行存取。计算机可执行指令可为例如二进制、中间格式指令(intermediate format instruction)(例如组合语言、固件、或者原始码)。计算机可读取介质的范例可用以存储指令、所使用的数据、和/或在执行本发明实施例所述的方法期间所产生的信息,计算机可读取介质可包括磁盘或者光盘、快闪存储器、具有非易失性存储器的通用序列总线装置、网络存储装置等。
实施根据本发明实施例所述的方法的装置可包括硬件、固件、和/或软件,并可为任何各种外形。上述外形的代表示例包括笔记型计算机、智能手机、小尺寸的个人计算机、个人数字助理、框架安装装置(rackmount device)、独立装置(standalone device)等。本发明所述的功能可实施于***装置中或者外接卡中。根据其它实施例,上述的功能也可通过电路板上不同的芯片实施或者通过单一装置中不同的程序执行。
指令、传输上述指令的介质、执行上述指令的计算资源、以及提供上述计算资源的其它架构为提供本发明所述的功能的方法。
图1C是显示根据本发明一实施例所述的虚拟环境170中的示范***。虚拟环境170可包括虚拟机器管理器(virtual machine manager,VMM)172,用以管理虚拟机器174。虚拟机器管理器172允许使用者建立、编辑、启动、以及停止虚拟机器174。虚拟机器管理器172也可致能其它功能以管理虚拟机器174。举例来说,虚拟机器管理器172允许使用者或者***管理员查看以及控制每个虚拟机器174的控制台、查看虚拟机器174的性能以及使用率统计数据、查看所有运作中的虚拟机器174以及主机端176以及其个别的统计数据、辨识虚拟机器的错误以及故障、转移工作量等。
虚拟机器管理器172亦允许使用者配置以及管理虚拟机器174的虚拟化主机176、管理以及配置资源池178以及在网络中或者数据中心180中建立网络。虚拟机器管理器172允许使用者布署虚拟机器174、转移虚拟机器或者工作量、以及管理以及配置虚拟机器174、主机端176、资源池178等。
每个主机端176可包括一个或者多个虚拟机器174。除此之外,主机端176可包括个别的虚拟主机管理程序以运作虚拟机器174。主机端176可运作提供主机端176软件环境的主机操作***,以及每个虚拟机器可运作提供虚拟机器174软件环境的客操作***。
虚拟机器174可使用包括虚拟机器174所使用的硬件资源的资源池178建立的个别的虚拟硬件资源以支持虚拟机器174以及个别的工作量。资源池178可包括各种类型的硬件资源,例如处理器、存储器、存储装置、网络接口、图形处理单元、输入装置、输出装置等。硬件资源可为主机端176上的资源。无论如何,硬件资源也可包括数据中心180中的其它资源。举例来说,在基于机架规模架构(rack scale architecture)数据中心中,资源池178可包括不一定为主机端176的一部分的资源池以及可包括尽管可与主机端176耦接但不与主机端176电性连接的资源。
资源池178可包括类型相同的多个资源和/或作为冗余的额外资源。举例来说,资源池178可包括额外的处理器、存储器、电源供应、风扇、存储装置、***装置等。以此方式,若一特定虚拟机器所使用的资源(例如存储器)发生一严重错误,存储器可被资源池178中额外的存储器替换以快速地从错误中修复。
图2是显示根据本发明一实施例所述的呈现替换硬件元件的睡眠状态机制200的示范***200的示意图。睡眠状态机制可基于进阶配置与电源接口的电源管理。举例来说,***200可使用进阶配置与电源接口让***200进入一特定睡眠状态,使得使用者可在不重新开始或者重新启动***200的情况下替换出现故障的元件。当使用者替换出现故障的元件后,***200可无需通过重新启动、重新配置或者重新布署一个或者多个应用程序即可自特定睡眠状态转换回工作状态。
举例来说,硬盘装置202可运作于工作状态(S0)220中。工作状态(S0)220可代表正常操作状态。若***200根据检测到硬件错误或者故障判断必须替换硬件元件,***200可执行一睡眠模式转换216以让***200进入睡眠状态。睡眠状态可取决于一个或者多个因子,例如被替换的元件的类型、错误或者故障的严重程度等。睡眠状态可包括睡眠状态S3(214)以及睡眠状态S4(212)。
睡眠状态S3(214)可为深层睡眠状态,***以低功率资源消耗的状态运作。除此之外,当睡眠状态S3(214)转换回工作状态S0(220)时,其具有较长的唤醒延迟。另一方面,睡眠状态S4(212)可为最深层的睡眠状态,***以最低的功率消耗的状态运作。由于睡眠状态S4(212)为最深层阶段的睡眠,因此睡眠状态S4(212)的唤醒延迟相较于所有睡眠状态为最长的唤醒延迟。
如前所述,***200可根据一个或者多个前述的因子自睡眠状态S3(214)、睡眠状态S4(212)、或者任何其它睡眠状态转换回工作状态S0(220)。举例来说,若硬件错误或者故障与***装置204(例如快捷外设互联标准)有关,***200可转换为睡眠状态S3(214)。当***200在睡眠状态S3(214)中时,使用者可将***元件204替换为替换的***元件。在***元件204被替换后,***200可执行唤醒转换218,以回到工作状态S0(220)。
若硬件错误或者故障与存储器206、处理器208、电源供应单元210有关,***200可转换为睡眠状态S4(212),即为最深层的睡眠状态。当***200进入睡眠状态S4(212)时,使用者可将出现故障的存储器206、处理器208、或者电源供应单元210替换为替换的元件。在存储器206、处理器208、或者电源供应单元210被替换后,***200可执行唤醒转换218,以回到工作状态S0(220)。值得注意的是,特定睡眠状态或者其它类型的状态可变更介于轻度睡眠/其它类型的状态或者深度睡眠/其它类型的状态之间。
在一些配置中,替换元件可与被替换的元件相同。举例来说,替换处理器可与被替换的处理器(例如处理器208)相同(例如相同的模块、品牌等)。如此可避免任何因替换所引起的资源冲突。除此之外,***200可使用本发明所述的硬件替换机制以在没有通常使用热插或者热插拔硬件修复机制的热插拔设计电路或者硬件、固件、和/或驱动程序的情况下替换硬件元件。替换元件也可为与被替换元件不完全相同但功能相同的替换元件。在一方面,***所转换的状态的类型可依据替换元件是否为相同或者仅为相容来决定。
本领域技术人员将可理解,硬件替换的睡眠状态机制可通过相较于图2更多或者更少的睡眠状态实施。事实上,图2中的睡眠状态(S0、S3、S4)仅用以作为清楚说明的目的,但并非以此为限。除此之外,除了图2中所示的元件外,也可根据本发明的原则替换其它元件以及装置。事实上,图2中的特定元件或者装置(例如***元件204、存储器206、处理器208、以及电源供应单元210)仅用以作为清楚说明的目的,但并非以此为限。
图3是显示根据本发明一实施例所述的示范睡眠状态表格300。睡眠状态表格300可包括故障描述302的一栏、执行修复睡眠状态304的一栏、以及修复睡眠状态304中所定义的与特定睡眠状态有关的延迟恢复306。
故障描述302可定义故障或者错误的位置或者来源。举例来说,故障描述302可将位置或者来源定义为:处理器308、存储器310、电源供应312、***装置314、存储装置316、或者风扇318。
修复睡眠状态304可将特定睡眠状态与故障描述302中对应的元件匹配。举例来说,处理器308、存储器310、以及电源供应312皆可与睡眠状态S4(320)匹配。***装置314以及存储装置316皆可与睡眠状态S3(322)匹配。风扇318可与睡眠状态S1(324)匹配。
睡眠状态S4(320)可具有最低的功率资源消耗,睡眠状态S3(322)可具有次低的功率资源消耗,以及睡眠状态S1(324)可具有最高的功率资源消耗。每个上述睡眠状态皆可具有个别的恢复至工作状态或者一般操作状态的延迟周期。
延迟恢复306可指示从睡眠状态恢复至工作状态或者一般操作状态所对应的延迟。举例来说睡眠状态S1(324)可具有长的延迟330,睡眠状态S3(322)具有更长的延迟328,以及睡眠状态S4(320)具有最长的延迟326。对应的延迟326~330可至少一部分基于每个睡眠状态个别的功率资源消耗设定。举例来说,较低的功率资源消耗通常导致恢复至工作状态的延迟较长。
睡眠状态表格300可包括对应至特定睡眠状态的各种资源或者故障,以供硬件替换操作时使用。睡眠状态表格300中的各种资源或者故障、睡眠状态、以及延迟仅用以作为清楚说明的目的,但并非以此为限。
图4是显示根据本发明一实施例所述的用以执行硬件修复或者替换程序的介于各个元件之间的示范通信400的示意图。控制器110可监控(410)硬件元件404(例如存储器104、随机存取存储器108、存储装置112、输入装置120、输出装置122、通信接口124、传感器126、处理器130、电源供应单元、风扇等)的健康。举例来说,控制器110可监测与硬件元件404有关的错误或者故障的次数、错误或者故障的严重程度、错误或者故障的类型、错误或者故障的可恢复性、错误或者故障的起因、错误或者故障的性能结果、错误或者故障的位置等。控制器110可在交流电源阶段(AC power stage)424期间监测硬件元件404。
***可自交流电源阶段424转换至直流电源阶段426,并且接着开始由***上的固件134执行开机自我检测,参考前述的图1A、1B。
在开始执行开机自我检测428后,固件134可致能具有一阈值计数器的RAS(可靠性、可用性、以及可维护性)特征412。RAS特征412可辨识特定硬件元件的错误或者故障,并保存错误或者故障的计数。计数可用以判断硬件元件的替换是否为必要的。举例来说,元件的错误或者故障的阈值数目可触发替换动作。阈值也可根据一个或者多个因子进行变更,例如元件的类型、错误或者故障的类型(例如永久性的、暂时性的、短暂的、间歇性的、严重的、驱动的、冲突的等)、错误或者故障的频率、错误或者故障的严重程度等。
硬件元件404可回报硬件元件404所遇到的错误414给固件134。硬件元件404可通过一中断服务程序(interrupt service routine)回报错误,例如统一可扩展固件接口(Unified Extensible Firmware Interface,UEFI)***管理中断(system managementinterrupt,SMI)。固件134可接着回报416错误给控制器110。控制器110可将错误存储在与控制器110相关的***事件日志中。控制器也可将错误回报给***管理员或者服务器。举例来说,控制器110可发送频外(out-of-band,OOB)讯息给***管理员以回报错误。
硬件元件404也可回报错误418给操作***402。在一些实施例中,硬件元件404可通过进阶配置与电源接口硬件错误来源查找表(hardware error source table,HEST)发送错误给操作***402。
控制器110也可发出睡眠状态请求420给操作***402。控制器110可通过基于具象状态传输(representational state transfer,REST)机制的服务发送睡眠状态请求给操作***402,例如RESTful API。睡眠状态请求可指定一特定的睡眠状态,例如先前图3中所述的S3或者S4。特定睡眠状态可基于错误或者故障的特定位置。举例来说,发生在主要硬件元件(例如处理器、存储器、电源供应器等)上的错误或者故障,特定睡眠状态可为较深层的睡眠状态(即具有较低功率资源消耗的睡眠状态)。另一方面,发生在***装置、外接装置、或者辅助元件(例如快捷外设互联标准)上的错误或者故障,睡眠状态可为深层睡眠状态(即具有低功率资源消耗,但并非为最低的功率资源消耗)。
当操作***402接收到睡眠状态请求时,若***与虚拟环境(例如图1C中所述的虚拟环境170)有关,则可通知虚拟机器管理器。操作***402也可在进入睡眠状态前停止一个或者多个应用程序或者驱动程序,例如与错误和/或出现故障的元件相关的应用程序或者驱动程序。操作***可接着根据睡眠状态请求让***进入待机430(即睡眠状态)。待机状态可为前述的特定睡眠状态。
在待机状态430期间,使用者或者***管理员可将出现故障的元件替换为替换元件。使用者或者***管理员可在不重新开始或者重新启动操作***402的情况下替换出现故障的元件。为了避免发生冲突,替换元件可与被替换的出现故障元件相同。
在出现故障的元件被替换后,控制器110可发出唤醒请求422给操作***402。唤醒请求可触发唤醒操作***402自待机状态430转换为工作状态(例如图2所述的S0)。举例来说,控制器110可通过RESTful API发出唤醒请求。
操作***402可接收唤醒请求并转换为工作状态或者一般操作状态。若***与虚拟环境(例如图1所示的虚拟环境170)有关,则操作***402也可通知虚拟机器管理器。除此之外,操作***402可在自待机状态恢复后重新启动任何停止的应用程序或者驱动程序。
介于各种元件之间的通信400可基于服务和/或接口的不同类型。举例来说,固件134可通过硬件接口434与硬件元件进行通信,例如可通过快捷外设互联标准扩展配置空间平面存储器映射存取机制读取快捷外设互联标准暂存器以及可通过CPU MSR指令读取CPUIA32_MCi状态的统一可扩展固件接口基本输入输出***。同样地,硬件元件404可通过硬件接口134与作业402进行通信。除此之外,控制器110可通过智慧平台管理接口或者基于具象状态传输的服务(例如RESTful)与固件134进行通信。最后控制器可通过基于具象状态传输架构的服务(例如RESTful API)与操作***402进行通信。
图5是显示根据本发明一实施例所述的通过虚拟机器管理器172恢复资源以及虚拟机器的示范错误修复表格500。表格500包括特征栏502、描述栏504、以及优先级栏506。表格500可指定故障检测特征508、减缓计划510、以及虚拟机器备份以及还原功能512。
故障检测特征508可包括步骤514,包括自操作***取得一错误通知、以及辨识故障的严重程度、位置以及数量。虚拟机器管理器172在此可读取进阶配置与电源接口硬件错误来源查找表以辨识特定错误和/或错误细节。除此之外,错误检测特征508可被分配一高优先级520。
减缓计划510可包括步骤516,包括自资源池隔离出现故障的资源、重新分配新的资源给虚拟机器、以及关闭虚拟机器以及转换至不同的服务器。减缓计划510可被分配一高优先级520。
虚拟机器备份以及还原功能512可包括步骤518,包括备份虚拟机器数据以避免数据遗失、在服务器或者***恢复健康后(例如修复后)还原虚拟机器数据。虚拟机器备份以及还原功能512可被分配一自选优先级。
表格500中各种字段以及元件仅用以作为清楚说明的目的,但并非以此为限。本发明也可考虑其它的字段、元件、以及细节。
在公开一些基本***元件以及概念后,本发明接着进入图6~9所示的示范方法实施例。为了清楚说明,方法以图1A所示的***实施各个步骤。本发明所列出的步骤仅为示范实施例,可以任何组合实施,包括删除、增加、或者修改某些步骤。
图6是显示根据本发明一实施例所述的执行硬件修复机制的示范方法600。在步骤602,***100可检测与***100有关的硬件错误。***100可通过控制器110检测错误。举例来说,控制器100可监控***100的硬件元件的健康,例如存储器105、随机存取存储器108、存储装置112、输入装置120、输出装置122、通信接口124、处理器130、风扇(未显示)、电源供应(未显示)等。
***100可判断硬件错误的错误次数。举例来说,***100可判断发生硬件错误情况的数目。***100也可判断错误次数是否超过错误阈值。错误阈值可基于错误的预设次数或者计数(例如N次错误)、错误的发生频率(例如Y时间周期中发生N次错误)、硬件错误的修复周期(例如自硬件错误修复花费N时间单位)等。除此之外,***也可判断硬件错误的严重程度。举例来说,***100可判断错误是否为严重错误或者不可修复的错误、判断硬件错误是否会导致数据遗失、判断硬件错误是否会导致中断(例如***元件、***100、和/或服务之中断)等。
在步骤604,***100可辨识与硬件错误相关的***元件。***100可辨识硬件错误的来源或者位置。举例来说,***100可判断错误来自处理器130。***元件可为,例如处理器、存储器、电源供应单元、存储装置、风扇、***装置(例如PCI、PCIe等)、外接卡等。
在步骤606,***100可产生用以触发***100的操作***的请求以让***进入特定操作状态(例如睡眠状态、休眠状态等)。举例来说,***100可通过控制器110产生请求。除此之外,控制器110可将请求传送至操作***以让***100进入特定操作状态。
请求的产生可基于硬件错误的严重程度、错误次数、或者任何其它关于硬件错误的特性或者数量统计。举例来说,请求的产生可基于判断硬件错误是否为严重的错误和/或错误次数是否超过一错误阈值。
特定操作状态可根据与错误相关的***元件的元件类型决定。举例来说,特定操作状态可根据与错误相关的***元件的识别码决定(例如***装置、处理器、存储器、电源供应单元、风扇、硬盘等)。
如前所述,特定操作状态可根据元件类型进行变更。举例来说,当元件类行为***元件时,特定操作状态可为第一睡眠状态(例如S3 214),以及当元件类型为处理器、存储器、或者电源供应单元时,特定操作状态为第二睡眠状态(例如S4 212)。在此实施例中,相较于第一睡眠状态,第二睡眠状态可具有较低的功率资源消耗和/或较长的恢复延迟。
操作***可接收请求并让***100进入特定操作状态。操作***也可停止任何与***元件有关的驱动程序和/或应用程序。
在步骤608,在***100进入特定操作状态后,***100可产生(例如通过控制器110)***元件已被替换的指示。指示是指示***元件可在不重新启动***100的操作***、不安装驱动程序或者软件、重新配置***元件、关闭***100等的情况下替换***元件。
指示可根据判断***100是否进入特定操作状态产生。如前所述,特定操作状态可对应至与元件类型有关和/或适合于不关闭或者重新***100的情况下进行替换的操作状态。
在步骤610,***元件被替换为替换***元件。在步骤612,当***元件被替换后,***100可同替换***元件恢复操作。***100可根据操作的工作状态或者一般状态恢复操作。***100可以最小或者有限制之中断利用替换***元件恢复一般操作。
在一些实施例中,恢复先前的工作或者一般操作状态,***100可检查替换***元件是否为相容替换***元件。举例来说,***100可搜集与***元件以及替换***元件相关的硬件信息并比较硬件信息,以判断两个元件的硬件信息是否匹配或者实质上类似。***100也可判断替换***元件是否相同于或者实质上类似于***元件。
除此之外,在判断替换***元件是否匹配时,***100可判断替换***元件是否与***元件为同一类型、具有相同的硬件配置、使用相同的固件和/或软件驱动程序、具有相同的资源需求等。***100可根据相容性判断结果产生指示。举例来说,***100可产生替换***元件为相容或者不相容的指示。
若替换***元件为相容,***100可确定替换以及恢复操作。另外,若替换***元件为不相容,***100可拒绝替换或者发出一警告。
若***100为虚拟环境的一部分(例如包括虚拟机器等),***100可恢复或者转移虚拟机器的工作负载作为一部分的替换机制。举例来说,***100可停止虚拟机器的工作负载,并在替换***元件完成替换以及***100恢复或者已准备好恢复至一般或者工作操作后恢复虚拟机器的工作负载。
***100可执行方法600的任何步骤以替换***元件即使***100并不具有热插拔硬件、电路、驱动程序、设定等。举例来说,本发明所述的***100可将***元件替换为替换***元件即使***100、***元件、和/或替换***元件并未提供热插拔操作。
图7是显示根据本发明一实施例所述的监控以及辨识***中的硬件错误的示范方法700的流程图。在步骤702,***100可辨识以及分析***100上的硬件错误。硬件错误可为***上的***元件的错误或者故障。除此之外,***100可监控硬件元件以在当硬件元件发生错误时检测到硬件错误。除此之外,***100可判断错误的状态、错误的严重程度(例如严重的、不严重的、破坏性的、永久性的、暂时性的等)、错误的位置(例如来源元件或者驱动程序)、错误次数(例如错误的数目)等。
在步骤704,***100可判断错误是否超过阈值。若错误并未超过阈值,则***100回到步骤702。另一方面,若错误超过阈值,则进入步骤706,***检测错误的来源。
在步骤708,***100可判断错误是否来自处理器、存储器、或者电源供应。在步骤710,***100接着可发送睡眠状态S4请求以让***100进入睡眠状态S4。睡眠状态S4可为最深层的睡眠状态,其特征为具有最低的功率资源消耗。
在步骤712,***100可判断错误是否来自***装置。当错误来自***装置时,进入步骤714,***100发送睡眠状态S3请求以让***100进入睡眠状态S3。睡眠状态S3可为具有低功率资源消耗的深层睡眠状态。
在步骤716,***100监控***100的电源状态以确认***100是否如预期地响应步骤710或者714的睡眠状态请求进入睡眠状态。
在步骤718,***判断***100是否进入睡眠状态。若***并未进入睡眠状态,则***100回到步骤716以监控电源状态。相反地,若***100已进入睡眠状态,进入步骤720,***100接着产生***100已进入准备好执行与错误相关的***元件的硬件替换的通知。使用者接着可替换***元件当***已准备好上述程序。
图8是显示根据本发明一实施例所述的接续于方法700后检查替换***元件的示范方法800的流程图。在步骤802,***100可取得硬件替换已完成的指示。此时,***元件已替换为替换***元件。
在步骤804,***100检查恢复状态以及错误来源。若恢复状态为S3以及错误来源为***装置,进入步骤806,***100接着分析替换元件的硬件元件信息(例如元件类型、元件版本、元件需求、元件驱动程序、元件识别码等)。
另一方面,若恢复状态为S4以及错误来源为处理器、存储器、或者电源供应,进入步骤810,***100确认直流电源供应为开启并发起睡眠状态S4的复原程序。在步骤812,***100亦分析替换元件的硬件元件信息。
在步骤806或者812完成分析硬件元件信息后,在步骤808,***100检查硬件元件信息。举例来说,控制器110可复查替换***元件的硬件细节。
在步骤814,***100判断替换***元件是否相容于替换程序。举例来说,***100可判断替换***元件是否与被替换的***元件相同。若替换***元件与被替换的***元件相同,***100可判断替换***元件为相容的。在一些实施例中,***100也可判断替换***元件是否与被替换的***元件具有相同的软件(例如驱动程序)、配置、和/或***需求。
在步骤820,若替换***元件为相容的,***100可恢复替换操作并允许操作***完成替换动作。
相反地,若替换***元件并不相容,且在步骤804***100检查恢复状态为S3以及错误来源为***装置,进入步骤816,***100可拒绝S3复原程序。另一方面,若替换***元件并不相容,且在步骤804***100检查恢复状态为S4以及错误来源为处理器、存储器、或者电源供应,进入步骤818,***100关闭直流电源供应并拒绝S4复原程序。
图9是显示根据本发明一实施例所述的判断软件的可恢复性的示范方法900的流程图。在步骤902,***100可运作RAS(可靠性、可用性、以及可维护性)***管理中断(systemmanagement interrupt,SMI)服务程序。***管理中断可由统一可扩展固件接口基本输入输出***发起,以服务任何种类的服务器硬件错误的发生、搜集信息、和/或记录操作***和/或控制器(例如基板管理控制器)的事件日志。在步骤904,***100接着可辨识错误来源。
在步骤906,***100可执行机器检查状态。举例来说,***100可检查IA32_Mci状态。当机器检查状态为无效时,进入步骤908,***100可检查其它错误。在步骤918,***100接着可发送回报任何错误的***事件日志。***100可发送***事件日志至控制器110和/或进阶配置与电源接口硬件错误来源查找表(ACPI HEST)。
若在步骤906的机器检查状态有效,进入步骤910,***100可产生通知。通知可辨识错误以及请求修正。举例来说,通知可指示发生错误以及需要软件修正动作。
在步骤912,***可建立对应于复原程序的新的***事件日志格式。在步骤914,***100可判断是否可通过固件(例如固件134)执行复原动作。
若无法通过固件执行复原动作,***100可移至步骤918,发送***事件日志。另一方面,若可通过固件执行复原动作,进入步骤916,***100可执行固件复原(例如统一可扩展固件接口复原)。在步骤918,***100接着可发送***事件日志(例如通过控制器110和/或进阶配置与电源接口硬件错误来源查找表)。
为了清楚说明,在一些实施例中,本发明的技术的呈现被表示为包括独立的功能区块,功能区块包括装置、装置元件、通过软件呈现的方法中的步骤或者程序、或者硬件以及软件的组合。
在一些实施例中,计算机可读取存储装置、介质、以及存储器可包括包含位串流的缆线或者无线信号等。然而,当提到非暂态计算机可读取介质将明确地排除一些介质,例如能量、载波信号、电磁波、以及信号本身。
根据前述实施例的方法可通过利用存储在计算机可读取介质中或者以其它方式自计算机可读取介质中取得的计算机可执行指令实现。上述的指令可包括例如致使或者以其它方式配置通用计算机、专用计算机、或者专用处理装置以执行特定功能或者一组功能的指令以及数据。部分所使用的计算机资源可通过网络进行存取。计算机可执行指令可为例如二进制、中间格式指令(例如组合语言、固件、或者原始码)。计算机可读取介质的范例可用以存储指令、所使用的数据、和/或在执行本发明实施例所述的方法期间所产生的信息,计算机可读取介质可包括磁盘或者光盘、快闪存储器、具有非易失性存储器的通用序列总线装置、网络存储装置等。
实施根据本发明实施例所述的方法的装置可包括硬件、固件、和/或软件,并可为任何各种外形。上述外形的代表示例包括笔记型计算机、智能手机、小尺寸的个人计算机、个人数字助理、框架安装装置(rackmount device)、独立装置(standalone device)等。本发明所述的功能可实施于***装置中或者外接卡中。根据其它实施例,上述的功能也可通过电路板上不同的芯片实施或者通过单一装置中不同的程序执行。
指令、传输上述指令的介质、执行上述指令的计算资源、以及提供上述计算资源的其它架构为提供本发明所述的功能的方法。
尽管本发明所公开的各种实施例以及其它信息用以解释所附权利要求书的方面,权利要求书并非局限于上述实施例的特定特征或者配置,本领域技术人员可利用上述实施例推得出各种实施方案。更进一步地,尽管本发明一些标的对特定的结构特征和/或方法步骤的实施例进行描述,但必须理解的是,后附权利要求书的标的并不一定限于所述的特征或动作。举例来说,上述的功能可在配置于不同的元件或者在与本发明所公开的元件不同的其它元件上执行。有关本发明所述的特征以及步骤可作为后附权利要求书中所述的***以及方法的元件的实施例。
权利要求书当提到一组中的“至少一个”其范围包括该组中的一个构件或该组中的多个构件。有形的计算机可读取存储介质、计算机可读取存储装置、或者计算机可读取存储器装置将明确地排除一些介质,例如短暂波(transitory wave)、能量、载波信号、电磁波、以及信号本身。

Claims (10)

1.一种硬件修复方法,包括:
检测对应于***的硬件错误;
辨识对应于上述硬件错误的***元件;
通过基板管理控制器产生睡眠状态请求,上述睡眠状态请求用以触发上述***的操作***以让上述***进入特定睡眠状态,上述特定睡眠状态根据上述***元件的元件类型所决定,其中上述特定睡眠状态包括:
第一睡眠状态,当上述元件类型为***元件时;以及
第二睡眠状态,当上述元件类型为处理器、存储器、以及电源供应单元的一个时;以及
在上述***进入上述特定睡眠状态后,产生一指示以指示在不重新启动上述***的上述操作***的情况下替换上述***元件,其中上述指示根据***所进入对应于上述***元件的上述元件类型的上述特定睡眠模式的判断产生。
2.如权利要求1所述的硬件修复方法,还包括:
判断上述硬件错误的严重程度、上述硬件错误的错误次数、以及上述硬件错误的位置的至少一个,其中当上述严重程度指示上述硬件错误为不可修复的或者上述错误次数超过阈值时,产生上述睡眠状态请求,以及其中上述特定睡眠状态基于上述硬件错误的上述位置;
搜集上述***的硬件信息以判断上述***元件的硬件配置;
判断上述***元件的上述硬件配置是否符合替换***元件的对应硬件配置;
在不重新启动上述***的上述操作***、不重新布署上述***元件运作在上述***中的应用、或者不重新配置上述***元件在上述***中的硬件设定的情况下利用替换***元件替换上述***元件;以及
根据由上述***元件通过服务中断所传输的错误报告通过来自***固件元件的上述基板管理控制器接收上述硬件错误的通知;
其中,上述***元件包括***元件、第二处理器、第二存储器、或者第二电源供应单元的一个,以及其中上述***元件包括存储元件、外部连结标准元件、快捷外设互联标准元件、以及风扇的一个,其中上述第二睡眠状态相较于上述第一睡眠状态造成较低的功率资源消耗以及较长的恢复延迟;以及
其中,上述***并非基于热插拔设计,以及其中不使用热插或热拔元件于上述***中执行替换上述***元件。
3.如权利要求1所述的硬件修复方法,还包括:
在上述***元件被替换元件替换后,判断上述替换元件是否为相容替换,判断是否为上述相容替换的步骤包括:
判断是否与上述***元件为相同的***元件类型;
判断是否与上述***元件为相同的硬件配置;
判断是否与上述***元件为相同的固件或者软件驱动相容性;以及
判断是否与上述***元件为相同的资源需求。
4.如权利要求1所述的硬件修复方法,还包括:
检测到上述***元件已被替换***元件所替换;以及
判断上述替换***元件是否相容,判断的步骤包括:
分析硬件元件信息;以及
判断上述替换***元件是否与上述***元件为相同的元件,其中当上述替换***元件与上述***元件为上述相同的元件时,判断上述替换***元件为相容,以及当上述替换***元件与上述***元件不为上述相同的元件时,判断上述替换元件为不相容;以及
当上述替换***元件为相容时,致能上述***元件与上述替换***元件的替换动作;以及
当上述替换***元件为不相容时,拒绝上述***元件与上述替换***元件的替换动作。
5.如权利要求1所述的硬件修复方法,其中上述***包括虚拟机器管理器,上述方法还包括:
判断上述硬件错误是否影响上述虚拟机器管理器的一个或者多个虚拟机器所使用的资源;
将上述资源自上述虚拟机器管理器的资源池隔离出;以及
重新分配新的资源给上述一个或者多个虚拟机器。
6.一种硬件修复***,包括:
处理器;以及
计算机可读取存储介质,具有指令存储于其中,当上述指令通过上述处理器执行时,上述处理器所执行的操作包括:
检测对应于***的硬件错误;
辨识对应于上述硬件错误的***元件;
通过基板管理控制器产生睡眠状态请求,上述睡眠状态请求用以触发上述***的操作***让上述***进入特定睡眠状态,上述特定睡眠状态根据上述***元件的元件类型所决定,其中上述特定睡眠状态包括:
第一睡眠状态,当上述元件类型为***元件时;以及
第二睡眠状态,当上述元件类型为处理器、存储器、或者电源供应单元的一个时;以及
在上述***进入上述特定睡眠状态后,产生一指示以指示在不重新启动上述***的操作***的情况下上述***元件可被替换,其中上述指示根据***所进入对应于上述***元件的上述元件类型的上述特定睡眠模式的判断产生。
7.如权利要求6所述的硬件修复***,上述操作还包括:
判断上述硬件错误的严重程度、上述硬件错误的错误次数、以及上述硬件错误的位置的至少一个,其中当上述严重程度指示上述硬件错误为不可修复的或者上述错误次数超过阈值时,产生上述睡眠状态请求,以及其中上述特定睡眠状态是基于上述硬件错误的上述位置;
搜集上述***的硬件信息以判断上述***元件的硬件配置;以及
判断上述***元件的上述硬件配置是否符合替换***元件之一对应硬件配置;
在上述***元件被替换元件替换后,判断上述替换元件是否为相容替换,以及当上述替换元件被判断为上述相容替换时,致能上述替换元件替换上述***元件,其中判断上述替换元件是否为上述相容替换的步骤包括:
判断是否与上述***元件为相同的***元件类型;
判断是否与上述***元件为相同的硬件配置;
判断是否与上述***元件为相同的固件或者软件驱动相容性;以及
判断是否与上述***元件为相同的资源需求;
其中,上述第二睡眠状态相较于上述第一睡眠状态造成较低的功率资源消耗以及较长的恢复延迟。
8.如权利要求6所述的硬件修复***,上述操作还包括:
检测到上述***元件已被替换***元件替换;以及
判断上述替换***元件是否相容,判断的步骤包括:
分析硬件元件信息;以及
判断上述替换***元件是否与上述***元件为相同的元件,其中当上述替换***元件与上述***元件为上述相同的元件时,判断上述替换***元件为相容,以及当上述替换***元件与上述***元件不为上述相同的元件时,判断上述替换元件为不相容;以及
当上述替换***元件为相容时,致能上述***元件与上述替换***元件的替换动作;以及
当上述替换***元件为不相容时,拒绝上述***元件与上述替换***元件的替换动作。
9.一种计算机可读取存储装置,具有指令存储于其中,当上述指令通过处理器执行时,上述处理器所执行的操作包括:
检测对应于***的硬件错误;
辨识对应于上述硬件错误的***元件;
通过基板管理控制器产生睡眠状态请求,上述睡眠状态请求用以触发上述***的操作***让上述***进入特定睡眠状态,上述特定睡眠状态根据上述***元件的元件类型所决定,其中上述特定睡眠状态包括:
第一睡眠状态,当上述元件类型为***元件时;以及
第二睡眠状态,当上述元件类型为处理器、存储器、或者电源供应单元的一个时;以及
在上述***进入上述特定睡眠状态后,产生指示以指示在不重新启动上述***的操作***的情况下上述***元件可被替换,其中上述指示根据***所进入对应于上述***元件的上述元件类型的上述特定睡眠模式之一判断所产生。
10.如权利要求9所述的计算机可读取存储装置,上述操作还包括:
判断上述硬件错误的严重程度、上述硬件错误的错误次数、以及上述硬件错误的位置的至少一个,其中当上述严重程度指示上述硬件错误为不可修复的或者上述错误次数超过阈值时,产生上述睡眠状态请求,以及其中上述特定睡眠状态是基于上述硬件错误的上述位置;
搜集上述***的硬件信息以判断上述***元件的硬件配置;以及
判断上述***元件的上述硬件配置是否符合替换***元件的对应硬件配置;
其中,上述***元件包括***元件、第二处理器、第二存储器、或者第二电源供应单元的一个,以及其中上述***元件包括存储元件、外部连结标准元件、快捷外设互联标准元件、以及风扇的一个。
CN201610311469.6A 2016-02-24 2016-05-12 硬件修复方法、硬件修复***以及计算机可读取存储装置 Active CN107122321B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/052,430 2016-02-24
US15/052,430 US10360114B2 (en) 2016-02-24 2016-02-24 Hardware recovery systems

Publications (2)

Publication Number Publication Date
CN107122321A true CN107122321A (zh) 2017-09-01
CN107122321B CN107122321B (zh) 2020-08-07

Family

ID=58191291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610311469.6A Active CN107122321B (zh) 2016-02-24 2016-05-12 硬件修复方法、硬件修复***以及计算机可读取存储装置

Country Status (5)

Country Link
US (1) US10360114B2 (zh)
EP (1) EP3211532B1 (zh)
JP (1) JP6530774B2 (zh)
CN (1) CN107122321B (zh)
TW (1) TWI588649B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086089A (zh) * 2018-08-27 2018-12-25 郑州云海信息技术有限公司 一种硬件配置限定的方法、***及设备
CN110471814A (zh) * 2018-05-11 2019-11-19 佛山市顺德区顺达电脑厂有限公司 服务器装置的错误报告功能的控制方法
CN111767181A (zh) * 2020-06-29 2020-10-13 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理***
CN114629731A (zh) * 2020-12-14 2022-06-14 丰田自动车株式会社 车载***、车载***控制方法以及非暂时性记录介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726001B2 (en) * 2017-07-31 2020-07-28 Oracle International Corporation Discovery and management of physical components
US10445201B2 (en) * 2017-10-05 2019-10-15 American Megatrends International, Llc System and method for automated integration and stress testing of hardware and software service in management controller using containerized toolbox
TWI685751B (zh) * 2018-04-10 2020-02-21 神雲科技股份有限公司 伺服器裝置的錯誤報告功能的控制方法
US10761926B2 (en) * 2018-08-13 2020-09-01 Quanta Computer Inc. Server hardware fault analysis and recovery
CN109117335A (zh) * 2018-08-15 2019-01-01 浪潮电子信息产业股份有限公司 一种硬盘模拟热插拔测试方法、装置、终端及存储介质
CN111507483A (zh) * 2019-01-30 2020-08-07 鸿富锦精密电子(天津)有限公司 返修板检测装置、方法及计算机可读存储介质
RU2747474C2 (ru) * 2019-03-29 2021-05-05 Акционерное общество "Лаборатория Касперского" Способ асинхронного выбора совместимых продуктов
JP7351129B2 (ja) * 2019-07-26 2023-09-27 富士通株式会社 情報処理装置および情報処理装置の制御プログラム
US11099838B1 (en) * 2020-02-26 2021-08-24 Quanta Computer Inc. Method and system for recovery for custom integrated circuit
US11314577B2 (en) * 2020-08-03 2022-04-26 Palo Alto Research Center Incorporated System and method for constructing fault-augmented system model for root cause analysis of faults in manufacturing systems
US11334447B2 (en) * 2020-08-27 2022-05-17 Nuvoton Technology Corporation Integrated circuit facilitating subsequent failure analysis and methods useful in conjunction therewith
CN114265489B (zh) * 2020-09-16 2023-10-27 富联精密电子(天津)有限公司 电源故障监测方法、装置、电子设备及存储介质
TWI766409B (zh) * 2020-10-28 2022-06-01 大陸商上海川源信息科技有限公司 資料存取系統
CN112466386B (zh) * 2020-12-07 2022-06-21 电子科技大学 一种面向故障分类的存储器测试***及方法
US11366710B1 (en) 2021-02-23 2022-06-21 Quanta Computer Inc. Methods and systems for reducing downtime from system management mode in a computer system
TWI776612B (zh) * 2021-07-28 2022-09-01 宇瞻科技股份有限公司 儲存裝置及其操作方法
US20230102099A1 (en) * 2021-09-22 2023-03-30 Texas Instruments Incorporated Techniques for peripheral utilization metrics collection and reporting
CN114880266B (zh) * 2022-07-01 2022-09-23 深圳星云智联科技有限公司 故障处理的方法、装置、计算机设备和存储介质
CN116932303B (zh) * 2023-09-14 2023-12-29 合肥康芯威存储技术有限公司 一种存储测试设备及其测试方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200504497A (en) * 2003-07-17 2005-02-01 High Tech Comp Corp Method for reducing the possibility of cold reset and the computer system thereof
US20070011500A1 (en) * 2005-06-27 2007-01-11 International Business Machines Corporation System and method for using hot plug configuration for PCI error recovery
US20070033315A1 (en) * 2005-08-08 2007-02-08 Vincent Nguyen Enhanced CPU RASUM feature in ISS servers
US7254016B1 (en) * 2004-05-25 2007-08-07 Emc Corporation Data storage system with improved serviceability features
US20090055665A1 (en) * 2007-08-22 2009-02-26 International Business Machines Corporation Power Control of Servers Using Advanced Configuration and Power Interface (ACPI) States
US20090119523A1 (en) * 2007-11-07 2009-05-07 International Business Machines Corporation Managing Power Consumption Based on Historical Average
CN100538618C (zh) * 2006-07-18 2009-09-09 威盛电子股份有限公司 高存取效率的接口电路及方法
US20100313072A1 (en) * 2009-06-03 2010-12-09 International Business Machines Corporation Failure Analysis Based on Time-Varying Failure Rates
CN103530219A (zh) * 2012-07-06 2014-01-22 纬创资通股份有限公司 具有触控显示模块的伺服器及其触控显示模块

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4747041A (en) * 1983-06-27 1988-05-24 Unisys Corporation Automatic power control system which automatically activates and deactivates power to selected peripheral devices based upon system requirement
US5560022A (en) * 1994-07-19 1996-09-24 Intel Corporation Power management coordinator system and interface
US7099934B1 (en) * 1996-07-23 2006-08-29 Ewing Carrel W Network-connecting power manager for remote appliances
US6370657B1 (en) * 1998-11-19 2002-04-09 Compaq Computer Corporation Hot processor swap in a multiprocessor personal computer system
US6363452B1 (en) * 1999-03-29 2002-03-26 Sun Microsystems, Inc. Method and apparatus for adding and removing components without powering down computer system
US6584573B1 (en) * 1999-08-30 2003-06-24 Intel Corporation Placing a computer system into a sleeping state
US6571333B1 (en) * 1999-11-05 2003-05-27 Intel Corporation Initializing a memory controller by executing software in second memory to wakeup a system
EP1229430B1 (en) * 2001-01-30 2018-05-30 Hewlett-Packard Development Company, L.P. Power management system and method
TW594021B (en) * 2002-04-30 2004-06-21 Via Tech Inc Main computer board on/off testing device, method and system
US7100062B2 (en) * 2003-01-28 2006-08-29 Hewlett-Packard Development Company, L.P. Power management controller and method
US7155623B2 (en) * 2003-12-03 2006-12-26 International Business Machines Corporation Method and system for power management including local bounding of device group power consumption
US20070074067A1 (en) * 2005-09-29 2007-03-29 Rothman Michael A Maintaining memory reliability
US7877358B2 (en) * 2006-11-21 2011-01-25 Microsoft Corporation Replacing system hardware
US7934121B2 (en) * 2006-11-21 2011-04-26 Microsoft Corporation Transparent replacement of a system processor
US20090164820A1 (en) * 2007-12-24 2009-06-25 Hewlett-Packard Development Company, L.P. Methods and apparatus for managing power on a computer in the event of a power interruption
TW201209577A (en) * 2010-08-20 2012-03-01 Hon Hai Prec Ind Co Ltd Test system and method of restarting the computer
US9423847B2 (en) * 2011-12-20 2016-08-23 Advanced Micro Devices, Inc. Method and apparatus for transitioning a system to an active disconnect state
US8990479B2 (en) * 2012-07-30 2015-03-24 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Using persistent memory regions within memory devices to collect serial presence detect and performance data
US9411762B2 (en) * 2013-03-15 2016-08-09 Intel Corporation Method and system for platform management messages across peripheral component interconnect express (PCIe) segments

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200504497A (en) * 2003-07-17 2005-02-01 High Tech Comp Corp Method for reducing the possibility of cold reset and the computer system thereof
US7254016B1 (en) * 2004-05-25 2007-08-07 Emc Corporation Data storage system with improved serviceability features
US20070011500A1 (en) * 2005-06-27 2007-01-11 International Business Machines Corporation System and method for using hot plug configuration for PCI error recovery
US20070033315A1 (en) * 2005-08-08 2007-02-08 Vincent Nguyen Enhanced CPU RASUM feature in ISS servers
CN100538618C (zh) * 2006-07-18 2009-09-09 威盛电子股份有限公司 高存取效率的接口电路及方法
US20090055665A1 (en) * 2007-08-22 2009-02-26 International Business Machines Corporation Power Control of Servers Using Advanced Configuration and Power Interface (ACPI) States
US20090119523A1 (en) * 2007-11-07 2009-05-07 International Business Machines Corporation Managing Power Consumption Based on Historical Average
US20100313072A1 (en) * 2009-06-03 2010-12-09 International Business Machines Corporation Failure Analysis Based on Time-Varying Failure Rates
CN103530219A (zh) * 2012-07-06 2014-01-22 纬创资通股份有限公司 具有触控显示模块的伺服器及其触控显示模块

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471814A (zh) * 2018-05-11 2019-11-19 佛山市顺德区顺达电脑厂有限公司 服务器装置的错误报告功能的控制方法
CN110471814B (zh) * 2018-05-11 2023-11-07 佛山市顺德区顺达电脑厂有限公司 服务器装置的错误报告功能的控制方法
CN109086089A (zh) * 2018-08-27 2018-12-25 郑州云海信息技术有限公司 一种硬件配置限定的方法、***及设备
CN111767181A (zh) * 2020-06-29 2020-10-13 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理***
CN111767181B (zh) * 2020-06-29 2021-11-02 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理***
CN114629731A (zh) * 2020-12-14 2022-06-14 丰田自动车株式会社 车载***、车载***控制方法以及非暂时性记录介质
CN114629731B (zh) * 2020-12-14 2024-03-26 丰田自动车株式会社 车载***、车载***控制方法以及非暂时性记录介质

Also Published As

Publication number Publication date
CN107122321B (zh) 2020-08-07
US20170242758A1 (en) 2017-08-24
JP6530774B2 (ja) 2019-06-12
TWI588649B (zh) 2017-06-21
JP2017224272A (ja) 2017-12-21
US10360114B2 (en) 2019-07-23
EP3211532B1 (en) 2021-03-31
EP3211532A1 (en) 2017-08-30
TW201730763A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107122321A (zh) 硬件修复方法、硬件修复***以及计算机可读取存储装置
TWI571736B (zh) 自動除錯資訊收集之方法及系統
CN104899055B (zh) 一种基于bios控制的me更新***及其更新方法
CN100517246C (zh) 一种计算机远程控制方法及***
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN101364193A (zh) 自动恢复bios的方法以及使用该方法的电脑与***
KR20060047693A (ko) 스카시 및 사스 하드웨어 검증시스템 및 방법
US9298371B1 (en) System and method of reducing write cycles and increasing longevity of non-volatile memory in baseboard management controller (BMC)
CN101634960A (zh) 一种修改bios参数及重新生成校验和的方法
CN107111595A (zh) 双用途引导寄存器
CN104731678A (zh) Raid储存模式测试***、方法及电子装置
CN110032465A (zh) 一种bmc重启日志记录方法和装置
US10387306B2 (en) Systems and methods for prognosticating likelihood of successful save operation in persistent memory
CN105468390A (zh) Boot在线升级装置及方法
JP6711933B2 (ja) 電源ユニットのファン復旧プロセス
CN103778024A (zh) 服务器***及其讯息处理方法
CN104657232A (zh) Bios自动恢复***及方法
CN107885626A (zh) 片上***可编程器件的***启动自检测的装置及方法
CN105824650B (zh) 计算机***、可适性休眠控制模块及其控制方法
CN103761203B (zh) 一种用于不同硬件设备的通用连接方法
CN107168815B (zh) 一种收集硬件错误信息的方法
CN106909345A (zh) 一种基于台式计算机的uefi固件实现方法
CN110347639A (zh) 片上***及其操作方法
CN102325040A (zh) 一种基于MicroTCA***的电源管理方法
CN110647435A (zh) 服务器、硬盘远程控制方法及控制组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant