CN111858230A

CN111858230A - 用于监控服务器基础设施的健康状况的方法和***

Info

Publication number: CN111858230A
Application number: CN202010363746.4A
Authority: CN
Inventors: 莫尔万·勒戈夫; 拉斐尔·格隆; 西尔万·舍诺; 亚历克西·奥特雷
Original assignee: OVH SAS
Current assignee: OVH SAS
Priority date: 2019-04-30
Filing date: 2020-04-30
Publication date: 2020-10-30
Also published as: US20200379529A1; US11422595B2; EP3734413A1; CA3079717A1

Abstract

本发明提供了一种用于监控服务器基础设施的健康状况的方法和***。可以通过在连续轮询周期中的每一个处从轮询节点向服务器基础设施中的服务器发送测量请求来监控服务器基础设施的健康状况。响应于测量请求，将从服务器接收的测量结果存储在数据库中。使用存储在数据库中的累积测量结果来训练机器学习***，以构建服务器的预测模型。评估从服务器接收的最新测量结果与服务器的预测模型的符合性。如果最新测量结果不符合服务器的预测模型，则采取校正动作。可以对从一组服务器接收的测量结果进行聚合，并且机器学习***可以构建该组服务器的预测模型。可以针对该组服务器来评估与预测模型的符合性。

Description

用于监控服务器基础设施的健康状况的方法和***

技术领域

本技术涉及数据处理***领域。特别地，涉及用于监控服务器基础设施的健康状况的***和方法。

背景技术

数据中心和云基础设施集成了许多服务器以向大量客户端提供相互托管服务。数据中心可以包括数十万的服务器并且为它们的客户端托管数百万个域。服务器被组装在机架中，多个机架被安装在房间中。大型数据中心可能包括多个这样的房间。任何给定的服务器都可以专用于特定客户端，并且可以包括安装在服务器的主板上的也被称为中央处理单元(CPU)的一个或更多个处理器。

来自客户端的服务需求通常会随着时间而变化，并且变化可能有时非常强烈。数据中心的健康状况被监测，以便优化其性能以满足客户端期望的服务质量。可以监测的数据中心的服务器的一个特定参数是其处理器的温度。对服务器的大量需求引起其处理器上的负荷的增加，并且通常导致处理器的温度的增加。可能影响特定处理器的温度的其他因素包括：安装有特定处理器的机架的通常温度；安装机架的房间的环境温度；为安装在机架中的多个处理器提供冷却的冷却***的状况；以及安装该特定处理器的数据中心的通常环境状况。特别是当电源电压超出建议的处理器的电源电压范围时，可能影响特定处理器的温度和寿命的另一因素包括电源电压。可以被监测以维持服务器的性能和寿命的数据中心的服务器的其他参数包括例如安装在主板上的其他部件诸如芯片组、存储装置、网络接口部件和硬件驱动器的温度和/或电压。

大型数据中心通常配备有大容量的空气强制冷却***。法国鲁贝(Roubaix，France)的OVH最近用更高效的水冷却***来代替或补充空气强制冷却***。在某些应用中，处理器物理上安装在水冷却装置上，水冷却装置被馈送有被提供给数据中心的若干机架的水流。

无论是使用空气强制冷却、水冷却还是这二者的结合来控制机架中的处理器的温度，都可能发生处理器的过热。过热可能例如是由冷却***的故障或冷却***的部件之一的故障、鉴于数据中心的实际需求而缺乏冷却能力、至服务器的异常电源电压以及其他原因引起的。向服务器提供异常的电源电压也可能引起服务器的硬件部件的寿命的缩短。当高温阈值被超过时，可以立即采取诸如自动节流或服务器的紧急关闭的行动。当某些软件特征由于节流而暂时被禁用时或者当在没有提前警告的情况下关闭服务器时，预期会给向客户端提供服务带来负面影响。因此，使得能够预测过热和可能不利于服务提供的其他情况的预防措施将是优选的。

由于各种运营、商业和法律方面的考虑，监测数据中心或云基础设施中大量服务器的健康状况变得更加复杂。首先，用于监测服务器的温度和其他操作参数的常规技术可能例如通过向其处理器增加更多要求而影响服务器的性能。其次，数据中心的服务器可能并不完全相同。而是，数据中心可以包括具有不同硬件和/或软件结构的各种各样的服务器。第三，客户端通常希望保持其信息的机密性。因此，在没有被提供对运行在服务器上的操作***的访问的情况下，数据中心的操作者被要求监测服务器的健康状况。最后，操作者必须遵守有关数据保护和隐私的法律要求，例如通用数据保护条例(GDPR)的法律要求。当服务器不再服务于客户端并且被分配给新客户端时，与先前客户端相关的性能监测数据将无法用于新客户端。

即使以上确定的最新发展可以提供益处，但是仍然期望改进。

背景技术章节中讨论的主题不应仅仅因为在背景技术章节中被提及而被认为是现有技术。类似地，在背景技术章节中提及的问题或与背景技术章节的主题相关联的问题不应被认为先前在现有技术中已经被认识到。背景技术章节中的主题仅表示不同的方法。

发明内容

已经基于开发人员对与现有技术相关联的缺点的理解开发了本技术的实施方式。

特别地，这样的缺点可以包括(1)常规监测技术对服务器性能的影响；(2)不完全支持异构服务器架构；以及/或者(3)不完全符合法律考量。

在一个方面中，本技术的各种实现提供了一种用于监控服务器基础设施的健康状况的方法(600)，所述方法包括：

在连续轮询周期中的每一个处从轮询节点(510，515)向服务器基础设施中的服务器(400)发送(605)测量请求；

响应于测量请求，将从服务器(400)接收的测量结果存储(620)在数据库(520)中；

使用存储在数据库(520)中的累积测量结果来训练(625)机器学习***(525)，以构建服务器(400)的预测模型；

评估(660)从服务器(400)接收的最新测量结果与服务器(400)的预测模型的符合性；以及

如果最新测量结果不符合服务器(400)的预测模型，则采取(670)校正动作。

在本技术的一些实现中，方法(600)还包括：从服务器(400)接收(630)新测量结果；将新测量结果存储(635)在数据库(520)中；以及使用新测量结果来更新预测模型。

在本技术的一些实现中，评估(660)从服务器(400)接收的最新测量结果与服务器(400)的预测模型的符合性包括：限定(650)服务器(400)的预测模型的正常变化；以及如果最新测量结果与由服务器(400)的预测模型限定的相应值之间的差小于或等于正常变化，则确定(662)最新测量结果符合服务器(400)的预测模型。

在本技术的一些实现中，方法(600)还包括：接收(652)与服务器(400)相关的辅助参数的当前值；计算(654)和服务器(400)相关的辅助参数的当前值与和服务器(400)相关的辅助参数的先前值之间的差；以及如果与服务器(400)相关的辅助参数的当前值与先前值之间的差超过预定阈值，则增加(656)服务器(400)的预测模型的正常变化的幅度。

在本技术的一些实现中，测量结果是服务器(400)的处理器(410)的温度；校正动作选自：增加服务器(400)的冷却***的热传递速率；降低服务器(400)的处理速度；降低服务器(400)的处理能力；减少定向至服务器(400)的流量负荷；将虚拟机从服务器(400)转移至另一服务器(400)；减少用于存储从服务器(400)接收的测量结果的时段；以及其组合。

在本技术的一些实现中，方法(600)还包括：在连续轮询周期中的每一个处从轮询节点(510，515)向相应的多个服务器(400)发送(605)多个测量请求；将在连续轮询周期中的每一个处从多个服务器(400)中的每一个接收的各个测量结果存储(620)在数据库(520)中；以及使用存储的各个测量结果来训练(625)机器学习***(525)，以构建多个服务器(400)中的每一个的预测模型。

在本技术的一些实现中，方法(600)还包括：合并(615)在每个给定轮询周期从多个服务器(400)的子集接收的各个测量结果，其中，所述子集中的服务器(400)被安装在同一机架上、同一房间或同一数据中心(500)中；对在每个给定轮询周期从多个服务器(400)的子集接收的各个测量结果进行聚合(710)；使用聚合的测量结果来训练(720)机器学习***(525)，以构建多个服务器(400)的子集的预测模型；以及评估(740)最新的聚合的测量结果与多个服务器(400)的子集的预测模型的符合性。

在本技术的一些实现中，方法(600)还包括：限定(730)多个服务器(400)的子集的预测模型的正常变化；以及如果最新的聚合的测量结果与由多个服务器(400)的子集的预测模型限定的相应值之间的差小于或等于正常变化，则确定(742)最新的聚合的测量结果符合多个服务器(400)的子集的预测模型。

在其他方面中，本技术的各种实现提供了一种用于监控服务器基础设施的健康状况的***，所述***包括：

轮询节点(510，515)，其被配置成：在连续轮询周期中的每一个处向服务器基础设施中的一个或更多个服务器(400)发送测量请求；

数据库(520)，其被配置成：

从服务器基础设施中的一个或更多个服务器(400)接收测量结果，其中，响应于测量请求，接收测量结果，以及

存储从一个或更多个服务器(400)接收的测量结果；

机器学习***(525)，其被配置成：

从数据库(520)读取所存储的一个或更多个服务器(400)中的每一个的测量结果，以及

针对每个相应的服务器(400)，基于在连续轮询周期处存储在数据库(520)中的测量结果来针对相应的服务器(400)构建预测模型；以及

评估器(530)，其可操作地连接至数据库(520)、机器学习***(525)和轮询节点(510，515)，评估器(530)被配置成：

从给定服务器(400)接收给定服务器(400)的最新测量结果，

评估给定服务器(400)的最新测量结果与给定服务器(400)的预测模型的符合性，以及

如果最新测量结果不符合给定服务器(400)的预测模型，则针对给定服务器(400)启动校正动作。

在本技术的一些实现中，***还包括操作者控制台(550)，该操作者控制台(550)可操作地连接至评估器(530)，操作者控制台(550)被配置成：如果给定服务器(400)的最新测量结果不符合给定服务器(400)的预测模型，则发出警报。

在本技术的一些实现中，***还包括动作控制器(535)，该动作控制器(535)可操作地连接至评估器(530)，动作控制器(535)被配置成使给定服务器(400)施加选自以下的校正动作：增加给定服务器(400)的冷却***的热传递速率；降低给定服务器(400)的处理速度；降低给定服务器(400)的处理能力；减少定向至给定服务器(400)的流量负荷；将虚拟机从给定服务器(400)转移至另一服务器；以及其组合。

在其他方面中，本技术的各种实现提供了一种数据中心(500)，所述数据中心包括：

多个服务器(400)，每个服务器(400)包括被配置成提供测量结果的传感器(450，460，470，480)；

储存库(505)，其被配置成存储多个服务器(400)中的每一个的标识；

轮询节点(510，515)，其被配置成：

从储存库(505)获取服务器(400)的列表，以及

在连续轮询周期中的每一个处向服务器(400)的列表中的每个服务器(400)发送测量请求；

数据库(520)，其被配置成：

在连续轮询周期中的每一个处从服务器(400)的列表中的每个服务器(400)接收测量结果，以及

存储所接收的测量结果；

机器学习***(525)，其被配置成：

从数据库(520)读取所存储的每个相应的服务器(400)的测量结果，以及

基于所存储的相应的服务器(400)的测量结果来构建每个相应的服务器(400)的预测模型；

评估器(530)，其被配置成：

从给定服务器(400)接收最新测量结果，

从机器学习***(525)取得给定服务器(400)的预测模型，以及

评估最新测量结果与给定服务器(400)的预测模型的符合性；以及

动作控制器(535)，其被配置成：

从评估器(530)接收给定服务器(400)的符合性结果，以及

如果最新测量结果不符合给定服务器(400)的预测模型，则针对给定服务器(400)采取校正动作。

在本技术的一些实现中，轮询节点(510，515)是多个轮询节点(510，515)之一；服务器(400)的列表是服务器(400)的多个列表之一，多个轮询节点(510，515)中的每个轮询节点(510，515)获取多个列表中的相应列表；数据中心(500)还包括分配处理器(540)，分配处理器(540)被配置成：将多个服务器(400)中的每个服务器(400)分配给服务器(400)的多个列表之一。

在本技术的一些实现中，多个服务器(400)中的服务器(400)按组被组装，每组服务器(400)被安装在数据中心(500)的公共机架或公共房间中；数据中心(500)还包括聚合器(545)，聚合器(545)被配置成：对在每个给定轮询周期从给定组中的服务器(400)接收的各个测量结果进行合并和聚合；数据库(520)还被配置成存储聚合的测量结果；机器学习***(525)还被配置成：基于聚合的测量结果来构建给定组中的服务器(400)的预测模型；评估器(530)还被配置成：评估最新的聚合的测量结果与给定组中的服务器(400)的预测模型的符合性。

在本技术的一些实现中，多个服务器(400)中的每个服务器(400)包括处理器(410)以及可操作地连接至处理器(410)和传感器(450，460，470，480)的板管理控制器BMC(430)；由每个服务器(400)的传感器(450，460，470，480)提供的测量结果是服务器(400)的处理器(410)的操作参数的测量结果；在每个服务器(400)上，BMC(430)被配置成：从轮询节点(510，515)接收测量请求，并且响应于从轮询节点(510，515)接收到测量请求，从传感器(450，460，470，480)读取测量结果，并将测量结果发送至轮询节点(510，525)；轮询节点(510，515)还被配置成：将测量结果转发至数据库(520)。

在本说明书的上下文中，除非另有明确规定，否则计算机***可以指代但不限于“电子装置”、“操作***”、“***”、“基于计算机的***”、“控制器单元”、“监测装置”、“控制装置”和/或其适合于手头相关任务的任何组合。

在本说明书的上下文中，除非另有明确规定，否则表述“计算机可读介质”和“存储器”旨在包括任何性质和任何种类的介质，其非限制性示例包括RAM、ROM、磁盘(CD-ROM、DVD、软盘、硬盘驱动器等)、USB密钥、闪存卡、固态驱动器和磁带驱动器。仍然在本说明书的上下文中，“一种”计算机可读介质和“该”计算机可读介质不应被解释为是同一计算机可读介质。相反，在适当的时候，“一种”计算机可读介质和“该”计算机可读介质还可以被解释为第一计算机可读介质和第二计算机可读介质。

在本说明书的上下文中，除非另有明确规定，否则词语“第一”、“第二”、“第三”等被用作形容词，仅出于允许在它们修饰的名词彼此之间进行区分的目的，而不是出于描述这些名词之间的任何特定关系的目的。

本技术的实现均具有上面提及的目的和/或方面中的至少一个，但不一定具有它们全部。应当理解，由于试图获得上面提及的目的而产生的本技术的一些方面可能不满足该目的以及/或者可以满足本文未具体叙述的其他目的。

根据以下描述、附图和所附权利要求书，本技术的实现的附加和/或替选特征、方面和优点将变得明显。

附图说明

为了更好地理解本技术以及本技术的其他方面和另外的特征，参考了以下要结合附图使用的描述，在附图中：

图1是根据本技术的实施方式的用于从数据中心的服务器收集度量的架构的示意性表示；

图2是根据本技术的实施方式的用于从数据中心的服务器收集度量的群集过程的示意性表示；

图3是示出根据本技术的实施方式的用于检测数据中心的服务器中的异常的机器学习过程的流程图；

图4是根据本技术的实施方式的服务器的简化框图；

图5是根据本技术的实施方式的数据中心的框图；

图6a、图6b和图6c包含示出根据本技术的实施方式的用于监控服务器基础设施的健康状况的方法的操作的序列图；

图7a、和图7b包含示出根据本技术的实施方式的用于监控服务器的聚合组的健康状况的方法的操作的序列图；

图8是示出根据本技术的实施方式的服务器的两(2)个处理器的变化的图；

图9是示出根据本技术的实施方式的数据中心的服务器的温度的高斯分布的图；

图10是示出根据本技术的实施方式的由数据中心中的传感器生成的各种信息元素的比例的饼状图；

图11是示出根据本技术的实施方式的安装在数据中心的机架中的一组服务器中的每个服务器的温度随着时间的变化的图；

图12是示出根据本技术的实施方式的安装在数据中心的机架中的所述一组服务器的聚合温度随着时间的变化的图；

图13是示出根据本技术的实施方式的多个数据中心中的过热服务器的数目随着时间的变化的图；

图14是示出根据本技术的实施方式的与预测的温度和正常温度变化相比服务器的温度在短时间尺度上的变化的图；

图15是示出根据本技术的实施方式的与预测的温度和正常温度变化相比包含多个服务器的数据中心的房间的聚合温度在短时间尺度上的变化的图；

图16是示出根据本技术的实施方式的与预测的温度和正常温度变化相比包含多个服务器的数据中心的机架的聚合温度在长时间尺度上的变化的图；以及

图17是示出根据本技术的实施方式的与预测的温度和正常温度变化相比包含多个服务器机架的数据中心的房间的聚合温度在长时间尺度上的变化的图。

还应该注意，除非本文中另有明确说明，否则附图未按比例绘制。

具体实施方式

本文中叙述的示例和条件语言主要旨在帮助读者理解本技术的原理，而不是将本技术的范围限制于这样的具体叙述的示例和条件。将理解的是，本领域技术人员可以设计各种布置，这些布置尽管未在本文中明确地被描述或被示出，但是仍然实施了本技术的原理并且被包括在本技术的范围内。

此外，为了帮助理解，以下描述可以描述本技术的相对简化的实现。如本领域技术人员将理解的，本技术的各种实现可能具有更大的复杂度。

在某些情况下，也可以提出被认为是对本技术的修改有帮助的示例。这样做仅仅是为了帮助理解，再次强调，而不是为了限定本技术的范围或阐述本技术的边界。这些修改并非详尽的列表，并且本领域技术人员可以进行尽管如此仍然在本技术的范围内的其他修改。此外，在尚未阐述修改的示例的情况下，不应被解释为修改不可行以及/或者所描述的是实现本技术的要素的唯一方式。

此外，本文中叙述本技术的原理、方面和实现方式以及其具体示例的所有陈述旨在包括其结构等同物和功能等同物两者，无论它们是当前已知的还是将来开发的。因此，例如，本领域技术人员将理解，本文中的任何框图表示体现本技术的原理的说明性电路的概念视图。类似地，将理解的是，任何流程图表、流程图、状态转移图、伪代码等表示可以基本上在非暂态计算机可读介质中表示并且因此由计算机或处理器执行的各种处理，无论这样的计算机或处理器是否明确地示出。

可以通过使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供附图中示出的各种元件的功能，包括标记为“处理器”的任何功能块。在由处理器提供时，可以由单个专用处理器、由单个共享处理器或由多个单独的处理器(其中一些处理器可以是共享的)来提供该功能。在本技术的一些实施方式中，处理器可以是通用处理器例如中央处理单元(CPU)或专用于特定目的的处理器例如数字信号处理器(DSP)。此外，术语“处理器”的明确使用不应被解释为排他地指能够执行软件的硬件，并且可以隐含地包括但不限于专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储装置。还可以包括常规和/或定制的其他硬件。

软件模块或被暗示为软件的简单模块在本文中可以表示为流程图要素或指示过程步骤的执行的其他要素和/或文本描述的任何组合。这样的模块可以由被明确地或隐含地示出的硬件来执行。此外，应当理解，模块可以包括例如但不限于计算机程序逻辑、计算机程序指令、软件、堆栈、固件、硬件电路或提供所需能力的上述的组合。

在一方面，本技术鉴于检测故障而收集与数据中心中的服务器的操作参数相关的测量结果形式的数据并且在潜在硬件缺陷发生之前对其进行预期，从而防止对提供给托管在服务器上的客户端的服务质量产生潜在影响。大的数据中心可以包括异构的各种服务器，这些服务器包含源自不同制造商的主板。与服务器的健康状况相关的数据可以取决于主板制造商以各种形式呈现。本技术可以周期性地从数据中心的每个服务器或从可以包括分布在全世界的多个数据中心的完整的服务基础设施收集数据。尽管在这些异构服务器的结构中可能存在内部差异，但是可以使用智能平台管理接口(IPMI)协议来收集数据。该收集是使用可扩展的轮询过程来进行的，其中数据中心的服务器被以集群的方式组装并且轮询器被分配成从给定集群的每个服务器收集数据。

例如，可以每分钟一次从每个服务器的传感器收集测量数据。测量数据可以从异构服务器接收，在这种情况下，测量数据可能以不允许直接比较和/或聚合与各种服务器相关的信息的各种格式呈现。因此，可以基于数据中心中存在的服务器的每种类型的分类来合并测量数据或使其标准化。在该合并之后，从第一类型的服务器获得的测量值可以与从第二类型的服务器获得的测量值直接进行比较或聚合。在一些情况下，例如当期望比较或聚合从同构服务器组获得的测量值时，这种合并可能不是必需的。无论如何，测量数据(可能已经合并)然后被存储在度量数据库中。在一方面，度量数据库可以包括具有有限的保留时间例如一周的缓存和能够在较长的时段内保留信息的持久存储装置。

在具有这些基础知识的情况下，现在将考虑一些非限制性示例来说明本技术的各方面的各种实现方式。

图1是根据本技术的实施方式的用于从数据中心的服务器收集度量的架构的示意性表示。在非限制性实施方式中，架构100包括数据中心110，该数据中心110包含多个服务器(在后面的附图上示出)。数据中心110将服务器的列表提供至轮询节点120或多个轮询节点(为了简化图示，示出了仅一个轮询节点)。轮询节点120周期性地将测量请求发送至数据中心110的服务器中的每个服务器。轮询节点120连接至度量平台130，该度量平台130包括实时度量存储装置132和持久度量存储装置134，两者均存储从数据中心110的服务器中的每个服务器接收的对度量请求的响应。实时度量存储装置132用于对来自服务器的测量信息的短期收集，并且用于快速访问测量信息以用于分析目的。实时度量存储装置132可以例如将测量信息保留一周的时段。持久度量存储装置134可以将特定测量信息保留较长的时段。实时度量存储装置132和持久度量存储装置134可以从度量平台130的度量循环脚本功能136获取度量。这些脚本在度量平台130中周期性地执行，以创建存储在实时度量存储装置132和/或持久度量存储装置134中的度量聚合数据系列，度量聚合数据系列可以被提供至分析功能140，该分析功能140执行对测量结果的连续监测142。鉴于启动校正动作，分析和监测可以导致警报的生成144和/或导致异常的检测146。警报144可以以文本或图形形式呈现。

图2是根据本技术的实施方式的用于从数据中心的服务器收集度量的群集过程的示意性表示。群集功能200示出了数据中心110(图1)中包含的服务器(也被称为“主机”)的列表210被提供给集群架构220。集群架构220可以实现用于与多个轮询节点222、224和226(可以定义更多集群)进行通信的智能平台管理接口(IPMI)协议，多个轮询节点中的每个轮询节点与轮询节点120(图1)对应，多个轮询节点各自负责将测量请求发送至服务器230的组232、234和236。在非限制性示例中，每个组(或集群)232、234和236可以包括10000个服务器230。

由于新服务器230投入使用以及其他服务器响应于故障而停止运行、出于维护目的或退役，数据中心110的服务器的列表210可能随时间而变化。集群架构220可以在组232、234和236之间重新分配服务器230中的一些服务器，以平衡各个轮询节点222、224和226的负荷。由服务器230提供的测量结果被存储在图1的描述中引入的度量缓存130中。

图3是示出根据本技术的实施方式的用于检测数据中心的服务器中的异常的机器学习过程的流程图。机器学习过程300将存储在数据库310中的测量信息应用于两(2)个互补处理，包括模型拟合处理320和实时监测处理350。

模型拟合处理320包括对从数据库310获取的累积测量信息312进行分类的第一数据处理功能325。该测量信息312可以包括以相对低的速率(例如，每小时一次)从服务器230报告并且在数据库310中累积较长的时间(例如，一个月)的测量结果。第一数据处理功能325可以例如使用由度量循环脚本功能136(图1)限定的脚本来过滤、分类和/或聚合作为测量信息的一部分的测量结果。然后，在用于机器学习***的训练功能330中，将经处理的测量信息327用作基础事实信息。机器学习***一旦经训练便会构建可以为测量信息提供未来值的原始预测340的预测模型335。在一方面，可以针对数据中心110的每个服务器230或一组服务器230构建预测模型335，例如，针对在数据中心110的同一机架或同一房间中组装的所有服务器构建预测模型335。

实时监测处理350获取从服务器230获得的最新测量结果314，并且可以将最新测量结果314保存在本地缓存352中以用于快速访问。每个服务器230可以以高速率(例如，每分钟一次)提供最新测量结果。第二数据处理功能355计算最新测量结果与由预测模型335提供的原始预测340之间的过去状态和误差357。这些过去状态和误差357用于更新预测模型335。

在实施方式中，以固定间隔(例如，每天、每隔几天、每隔几周等)构建预测模型335。然后通过基于过去评估误差计算移动平均来不时地或连续地更新原始预测340，该过去评估误差是使用原始预测340获得的过去评估与可以存储在本地缓存352中的过去真实测量结果之间的差。替代地或另外地，可以构想的是，诸如季节性自回归整合移动平均(SARIMA)或Holt-Winters的模型可以用于提取拟合自回归、移动平均和整合参数和时间多项式趋势以产生预测模型的状态-空间表示。然后可以将这些参数应用于最新接收的测量结果以获得动态预测。预测模型335被逐渐更新以遵循测量结果随时间的趋势。在同一或另一实施方式中，当发现尽管预测模型335基于最新测量结果来更新但预测模型335始终提供未能预测实际测量结果的评估时，则可以使用最新测量结果对机器学习***进行再训练。

警报阈值362是基于应用于预测值的当前预测和预定的安全裕度来计算的。当服务器230的最新测量结果或服务器230的组的聚合测量结果偏离对应的警报阈值时，异常检测功能365可以发出警报或启动校正动作。

第二数据处理功能355可以动态地检测数据中心110或其服务器230中的一些服务器的状况的改变。第二数据处理功能355还可以动态地检测测量数据收集问题。这些事件可能潜在地影响一个或更多个受影响的服务器230的预测模型的准确性。响应于这些事件，第二数据处理功能355可以发出监测切换信号358，以防止异常检测功能365针对一个或更多个受影响的服务器230进行动作。除非另外说明，第二数据处理功能355可以检测到预测模型不再被依赖并且例如通过将最新测量结果314与固定阈值进行比较来使异常检测功能365恢复为其他异常检测机制，在超过阈值预定时间段(例如，几小时)时检测到异常，或者在针对至少许多服务器230超过阈值时检测到异常。

关于图3，机器学习***不受监控，并且可以检测到大多数真实异常，但也可能检测到虚假异常。机器学习***可以通过收集和后处理检测到的异常来监控，以使用与检测到的异常的实际有效性有关的相关信息来丰富预测模型。

图4是根据本技术的实施方式的服务器的简化框图。服务器400包括处理器或多个协作处理器(为了简单起见，示出了一个处理器410)、一个或更多个存储装置(为了简单起见，示出了一个存储装置420)、板管理控制器(BMC)430、输入/输出(I/O)接口440以及一个或更多个传感器(例如，处理器温度传感器450、电源电压传感器470、功率消耗传感器480和处理器负荷传感器460)。在实施方式中，与处理器负荷传感器460的功能等效的功能可以实现为在处理器410上运行的软件代理。还可以存在其他传感器以提供服务器400尤其是处理器410、存储装置420和/或I/O接口440的各种操作参数的测量。处理器410、存储装置420、BMC 430、I/O接口440以及传感器450、460、470和/或480中的至少一些传感器可以安装在主板(未示出)上。服务器400可以包括另外的部件；为了便于说明，简化了图4。处理器410通常为数据中心的客户端的利益处理托管服务。处理器410可以从存储装置420读取数据和向存储装置420写入数据。输入/输出接口440使得服务器400能够与外部实体进行通信，例如，与客户端的装置(未示出)或与分配给同一客户端的其他服务器进行通信。I/O接口440还允许服务器400与数据中心的各个部件(图5)进行通信。

BMC 430——有时也被称为服务处理器——处理处理器410与服务器400外部的实体之间的通信，并且还可以处理服务器400的常规维护功能和固件更新。BMC 430可以支持IPMI协议。特别地，可以在I/O接口440处接收对来自传感器450、460、470和/或480中的一个或更多个传感器的测量结果的请求。这些请求由BMC 430处理，BMC 430通过处理器410从传感器450、460、470和/或480获取测量结果并且对测量请求进行响应，同时限制施加在处理器410上的附加负荷，而不会导致处理器410上运行的软件或操作***的任何入侵。

图5是根据本技术的实施方式的数据中心的框图。数据中心500包括服务器基础设施以及用于监控服务器基础设施的健康状况的***，服务器基础设施包括多个服务器400。该***包括储存库505、至少一个轮询节点(示出了轮询器A510和轮询器B 515)、数据库520、机器学习***525、评估器530、动作控制器535，并且还可以包括分配处理器540、聚合器545和操作者控制台550。每个服务器400包括提供与服务器400的参数有关的测量结果的至少一个传感器(图5中示出)。储存库505存储服务器400中的每个服务器的标识。轮询节点510从储存库505获取服务器的列表，并且在每个连续轮询周期处将测量请求发送至服务器的列表中的每个服务器400。如在图4的描述中所表达的，每个服务器400包括BMC 430，BMC430提供服务器400的一个或更多个操作参数例如服务器400中的处理器410的操作参数的测量结果。因此，每个服务器400响应于测量请求在每个连续轮询周期处发送测量结果。这些测量结果在轮询节点510处被接收或直接在数据库520处被接收，并且被存储在数据库520中。

可选地，从各个服务器400接收的每个测量结果可以携载在服务器上托管的客户端的标识符。标识符可以与测量结果有关地存储在数据库520中。因此，可以在操作者控制台550上呈现针对客户端的测量信息。在从给定服务器400接收的新测量结果携载新客户端标识符的情况下，数据库520检测到给定服务器400已经被重新分配给新客户端。在这样的情况下，在数据库520中删除托管给定服务器400的先前客户端的标识符与给定服务器400的测量结果之间的关系。给定服务器400的任何先前存储的测量信息不再与先前客户端相关联。

机器学习***525从数据库520读取每个相应服务器400的存储的测量结果，并且基于每个相应服务器400的存储的测量结果构建每个相应服务器400的预测模型。

评估器530然后可以从给定服务器400接收最新测量结果，从机器学习***525获取给定服务器400的预测模型，并且评估最新测量结果与给定服务器的预测模型的符合性。动作控制器535然后可以从评估器530接收给定服务器400的符合性结果，并且在最新测量结果不符合给定服务器400的预测模型的情况下对给定服务器400采取校正动作。

在实施方式中，数据中心500包括两个或更多个轮询节点；应当理解，数据中心500实际上可以包括大量的轮询节点。来自储存库505的服务器的列表由分配处理器540划分为提供给轮询节点510和515中的每个轮询节点的不同的服务器的列表。在非限制性示例中，每个轮询节点可以负责同时轮询多达10000个服务器400。

分配处理器540可以操作为负荷平衡处理器，以将轮询服务器400的任务均等地分配给轮询节点510和515。替选地或另外地，轮询器A 510可以实现第一轮询间隔，并且轮询器B 515可以实现比第一轮询间隔短的第二轮询间隔。当检测到先前已经由轮询器A 510轮询的给定服务器400的不符合性时由控制器535采取的一种可能的校正动作可以是使分配处理器540将给定服务器400移动至由轮询器B 515轮询的服务器的列表。因此，现在将以更快的速率对给定服务器400进行轮询以增强监测。

当检测到给定服务器400的最新测量结果不符合对应的预测模型时动作控制器535可能采取的其他动作包括提供导致以下中的任何一项或更多项的命令：降低给定服务器400的处理速度，降低给定服务器400的处理能力，减少定向至给定服务器400的流量负荷，将虚拟机从给定服务器400转移至另一服务器，和/或增加给定服务器400的冷却***的容量。

在实施方式中，如果来自给定服务器400的最新测量结果不符合对应的预测模型，则评估器530可以使操作者控制台550发出指示给定服务器400的符合性结果的警报。无论最新测量结果是否符合给定服务器400的预测模型，评估器530均可以将测量结果及其评估的各种结果提供至操作控制台500以用于图形表示的目的。

在数据中心500中，服务器400通常被组装在机架(未示出)中，并且多个机架通常被安装在一个或更多个房间(未示出)中。在非限制性示例中，机架可以包含48个至96个服务器。在同一或另一非限制性示例中，取决于数据中心架构和服务器类型，房间可以包含多达200个机架。在同一或另一非限制性示例中，数据中心500可以包含多达10个房间。与缺乏足够的冷却或功率消耗有关的问题(例如，由不合适的电源电压导致的问题)以及其他问题可能影响单个服务器400，影响机架中的所有服务器，影响房间中组装的所有服务器，或影响整个数据中心500。

机架的温度可以被定义为机架中包含的所有服务器400的处理器温度的聚合。同样，房间的温度可以被定义为房间中包含的所有服务器400的处理器温度的聚合。一般而言，机架的温度或房间的温度可能以比单个服务器400的处理器温度低的速率波动，特别是在仅一个或几个服务器400受麻烦的状况影响的情况下。然而，机架整体上或房间整体上的温度的迅速改变可能反映出可能影响大量客户端的服务的质量的特别危险的状况。这可能是例如用于控制机架或房间中的所有服务器400的温度的冷却***发生故障的情况。出于该原因，鉴于监控机架、房间或数据中心500中的所有服务器的健康状况，本技术可以聚合由一组服务器中的服务器提供的测量结果。

因此，聚合器545可以聚合在每个给定轮询周期处从给定组的服务器400接收到的各个测量结果，给定组包括整体上安装在公共机架、公共房间或数据中心500中的所有服务器400。可选地，在聚合在每个给定轮询周期处从给定组的服务器400接收到的各个测量结果之前，聚合器545可以合并从给定组的各个不同的服务器400接收到的测量结果或使其标准化。鉴于允许这些测量结果的直接比较以及鉴于促进其聚合，基于给定组中存在的服务器400的每种类型的分类进行该合并。

替代或除了存储每个服务器400的测量结果之外，数据库520还可以存储所述组的聚合测量结果。同样，替代或除了针对每个服务器400构建预测模型之外，机器学习***525还可以基于聚合测量结果针对给定组的服务器400构建预测模型。类似地，替代或除了评估最新测量结果与每个给定服务器400的对应的预测模型的符合性之外，评估器530还可以评估最新的聚合测量结果与给定组的服务器400的预测模型的符合性。由评估530进行的这种评估可以包括给定组服务器400的预测模型的正常变化的限定，以及在最新的聚合测量结果与由给定组服务器400的预测模型限定的对应的值之间的差小于或等于正常变化的情况下最新的聚合测量结果符合给定组服务器400的预测模型的确定。

评估器530可以将给定组服务器400的级别上的不符合性通知动作控制器535和/或操作者控制台550。可以在给定组服务器400的级别上采取校正动作和/或在同一级别上发出警报。可选地，当整体上针对一组服务器400发出警报或采取校正动作时，动作控制器535可以拒绝针对该组服务器400中的每个服务器400发出单独的警报或校正动作。

用于监控服务器基础设施及其部件——包括储存库505、至少一个轮询节点(示出了轮询器A 510和轮询器B 515)、数据库520、机器学习***525、评估器530、动作控制器535、分配处理器540、聚合器545和操作者控制台550——的健康状况的***在图5中示出并且在上文中被描述为数据中心500的一部分。在实施方式中，用于监控服务器基础设施的***可以被理解为在数据中心500外部并且能够与多个数据中心进行通信以监控数据中心中的每个数据中心中的服务器基础设施的健康状况。这样，储存库505可以包含多个数据中心的每个数据中心的服务器的列表，轮询节点510和515可以将测量请求发送至服务器的每个列表中的服务器，数据库520可以存储从多个数据中心的服务器接收的测量结果等。

图6a、图6b和图6c包含了示出根据本技术的实施方式的用于监控服务器基础设施的健康状况的方法的操作的序列图。关于图6a、图6b和图6c，序列600包括多个操作，所述多个操作中的一些操作可以以可变顺序执行，所述操作中的一些操作可以同时执行，所述操作中的一些操作是可选的。在序列600中，在操作605处，轮询节点510、515中的至少之一在连续轮询周期中的每一个处将测量请求发送至服务器基础设施的至少一个给定服务器400。给定服务器400利用在操作610处接收——在轮询节点510或515处或者直接在数据库620处接收——的测量结果进行响应。在操作615处，可以合并测量结果或使其标准化。然后在操作620处，数据库520存储响应于测量请求从给定服务器400接收的测量结果。在实施方式中，使用IPMI协议在至少一个轮询节点510和/或515、给定服务器400和数据库520之间交换测量请求以及携载测量结果的信号。

在操作625处，使用存储在数据库520中的给定服务器400的累积测量结果来训练机器学***均(ARIMA)、三重指数平滑法(Holt-Winters)、快速傅里叶变换(FFT)分解、当前状态重新定义、多项式组合、线性回归、多层感知机(MLP)、长短期记忆(LSTM)和高斯分布)应用于存储的测量结果来构建预测模型。

在操作630处，从给定服务器400接收新测量结果。在操作635处，将新测量结果存储在数据库520中。在操作640处，使用新测量结果来更新预测模型。操作640可以包括子操作642，在子操作642中使用过去评估误差的移动平均来更新预测模型。

在操作650处，可以限定给定服务器400的预测模型的正常变化。可以使用各种技术来限定该正常变化。一般而言，基于监测的响应性与最小化不必要的不符合性检测的数目的需要之间的折衷来选择正常变化及其计算方法。在实施方式中，根据在当前时间处结束的预定时间帧(例如，最近两(3)天)内存储的测量结果与由给定服务器400的预测模型限定的对应的值之间的差的百分之k来限定给定服务器400的预测模型的正常变化。在这种情况下，百分位的值k为小于100的数字。在另一实施方式中，根据在当前时间处结束的预定时间帧内存储的测量结果与由给定服务器400的预测模型限定的对应的值之间的差的平均的预定n倍来限定给定服务器400的预测模型的正常变化。在非限制性示例中，当变化不超过差的平均的四(4)倍时认为该变化是正常的。

替选地或另外地，操作650可以包括子操作652、654和656。在子操作652处，接收与给定服务器400有关的辅助参数的当前值并将其存储在数据库520中。辅助参数例如可以是给定服务器400的处理器上的负荷、给定服务器400的处理器的功率消耗、给定服务器400的处理器的电源电压、用于冷却给定服务器400的处理器的流体的流量、用于冷却给定服务器400的处理器的流体的温度以及给定服务器400处的环境温度。这些值由给定服务器400的各个传感器提供。在子操作654处，计算与给定服务器400有关的辅助参数的当前值与与给定服务器400有关的辅助参数的先前接收的值之间的差。在子操作656处，如果与给定服务器400有关的辅助参数的当前值与先前值之间的差超过预定阈值，则增加给定服务器400的预测模型的正常变化的幅度。子操作652、654和656的应用示例包括给定服务器400的处理器的温度已经相对稳定了一段时间的情况。因此，预测模型识别相对窄的温度变化范围。因此，给定服务器400的处理器的预测温度的正常变化也相当窄。在子操作652处接收并在子操作654处评估的辅助参数指示给定服务器400的处理器的负荷的突然增加。预期给定服务器400的处理器的温度将迅速升高并且作为响应，在子操作656处，正常变化的幅度也增加。随着时间的流逝，将在操作640处(可选地在子操作642处)使用给定服务器400的处理器的温度的一套新测量结果来更新预测模型，并且将限定新的正常变化。辅助参数的另一示例可以包括给定服务器400的另一部件的温度，如离开用于给定服务器400的处理器的冷却装置的冷却液体的温度。辅助参数的另一示例可以包括给定服务器400上的分组丢失的报告，该报告指示给定服务器400上的服务质量的丢失。

无论如何，在操作660处，评估从给定服务器400接收的最新测量结果与给定服务器400的预测模型的符合性。在实施方式中，操作660可以包括子操作662，在子操作662中，如果最新测量结果与由给定服务器400的预测模型限定的对应的值之间的差小于或等于在操作650处限定的正常变化，则作出最新测量结果符合给定服务器400的预测模型的确定。

在操作670处，如果最新测量结果不符合给定服务器400的预测模型，则采取校正动作。可以采取的校正动作的示例包括以下中的一项或更多项：降低给定服务器400的处理速度，降低给定服务器400的处理能力，减少定向至给定服务器400的流量负荷，将虚拟机从给定服务器400转移至另一服务器，提高给定服务器400的冷却***的热传递速率，和/或减少用于收集和存储从给定服务器400接收的测量结果的时段。

在实施方式中，测量结果由给定服务器400的处理器温度传感器450(图4)来提供。因此，预测模型是对处理器410的温度随时间的预期变化的预测。在该实施方式中，正常变化包括由预测模型限定的当前温度之上的最大增量。正常变化还可以包括由给定服务器400的预测模型限定的当前温度之下的最小增量。替选地，正常变化可以包括由给定服务器400的预测模型限定的当前温度之下的无限增量，认为处理器410的低温是无害的。换言之，对最新测量结果对预测模型的符合性的评估可以可选地忽略低于由预测模型限定的当前温度的任何温度值。在该实施方式中，操作670可以包括子操作672，在子操作672中，如果发现给定服务器400的处理器的温度超出由预测模型和正常变化限定的范围，则增加给定服务器400的冷却***的热传递速率。可以通过增加被提供给给定服务器400的冷却空气的流量和/或增加被提供给操作地连接至给定服务器400的冷却装置的冷却液体的流量来获得冷却***的热传递速率的增加。可以通过打开通风入口、打开通风出口、开启一个或更多个风扇和/或提高风扇速度来获得被提供给给定服务器400的冷却空气的流量的增加。通风入口、通风出口、一个或更多个风扇是给定服务器400的一部分或操作地连接至给定服务器400。

主要在下述上下文中描述了图6a、图6b和图6c的序列600：一个给定服务器400将测量结果提供给数据库520和评估器530，使得机器学习***525针对一个给定服务器400构建预测模型，并且评估器530评估从一个给定服务器400接收的最新测量结果与对应的预测模型的符合性。序列600可以包括将测量请求从一个或更多个轮询节点510和515发送至多个服务器400或服务基础设施的所有服务器400。数据库520因此可以存储在连续轮询周期中的每一个处从多个服务器400中的每个服务器接收的各个测量结果。可以使用各自存储的测量结果来训练机器学习***520，以构建多个服务器400中的每个服务器的预测模型。评估器530可以评估从服务器400中的每个服务器接收的测量结果与对应的预测模型的符合性，并且动作控制器535可以对服务器400中的任何一个服务器采取适当的校正动作。

如前所述，与缺乏足够冷却或电源电压不合适有关的问题以及其他问题可能影响单个服务器400，影响机架中的所有服务器，影响房间中组装的所有服务器，或影响整个数据中心500，并且鉴于监控机架、房间或数据中心500中所有服务器的健康状况，本技术可以聚合由一组服务器中的服务器提供的测量结果。为此，图7a和图7b包含了示出根据本技术的实施方式的用于监控聚合的一组服务器的健康状况的方法的操作的序列图。关于图7a和图7b，序列700包括多个操作，所述多个操作中的一些操作可以以可变顺序执行，所述操作中的一些操作可以同时执行，所述操作中的一些操作是可选的。在序列700中，操作710包括由聚合器545聚合在每个给定的轮询周期处从多个服务器400的子集接收的各个测量结果。在实施方式中，多个服务器400的子集包括安装在同一机架上的所有服务器400。在另一实施方式中，多个服务器400的子集包括安装在同一房间中的所有服务器400。在又一实施方式中，多个服务器400的子集包括安装在数据中心500中的所有服务器400。在又一实施方式中，聚合器545可以根据数据中心500的操作者的需要被配置成支持这些聚合级别中的任何一个或更多个聚合级别。操作710可以包括子操作712，在子操作712中，通过对在每个给定的轮询周期处从多个服务器400的子集接收的各个测量结果进行平均来进行聚合。

数据库520存储从聚合器545接收的聚合测量结果。在实施方式中，数据库520可以存储聚合测量结果以及从服务器400中的每个服务器接收的单独的非聚合测量结果两者。除非另外说明，该实施方式可以支持序列600和序列700两者。

在操作720处，使用聚合测量结果来训练机器学习***525，以构建针对多个服务器400的子集的预测模型。

在操作730处，可以限定多个服务器400的子集的预测模型的正常变化。可以使用各种技术来限定该正常变化。在实施方式中，根据在当前时间处结束的预定时间帧内存储的聚合测量结果与由多个服务器的子集的预测模型限定的对应的值之间的差的百分之j来限定多个服务器400的子集的预测模型的正常变化。在该情况下，百分位的值j为小于100的数字。在另一实施方式中，根据在当前时间处结束的预定时间帧内存储的聚合测量结果与由多个服务器的子集的预测模型限定的对应的值之间的差的平均的预定m倍来限定多个服务器400的子集的预测模型的正常变化。在非限制性示例中，当变化不超过差的平均的三(3)倍时认为变化是正常的。假定多个服务器400的聚合子集的正常变化可以小于子集的任何给定服务器400的正常变化，则由多个服务器400的子集的预测模型限定的正常变化可以可选地使用比针对特定服务器400限定的正常变化窄的范围来限定。

替选地或另外地，操作730可以包括子操作732和734。在子操作732处，可以检测多个服务器400的子集中的服务器的数目的改变。这样的改变可能影响先前聚合测量结果的应用对新聚合测量结果的评估。作为非限制性示例，子集可以包括两(2)个服务器400，并且先前接收的测量结果可以揭示第一服务器400的处理器450始终处于20度，而第二服务器400的处理器450始终处于80度，聚合(平均)值为60度。如果第一服务器400停止服务，则子集现在仅包括第二服务器400，并且对于该子集其温度变为被提供给聚合器545的唯一值，从而产生80度的聚合值。聚合温度值从60度到80度的突然变化对于子集可能被认为是有问题的情况，而实际上，先前聚合测量结果不再为新聚合值的评估提供准确的基础。因此，为了防止可能由服务器400的子集的构成的改变而不是由服务器400的子集内的实际有问题的状况引起的校正动作，子操作734可以包括在子操作732处检测到子集中的服务器400的数目的改变之后增加多个服务器400的子集的预测模型的正常变化的幅度。随着从服务器400的子集接收的连续测量结果继续由聚合器545聚合，机器学习***525将逐渐调整服务器400的子集的预测模型。

尽管未在图7a、图7b上示出，但是与服务器400的子集有关的辅助参数的改变也可能影响操作730处的多个服务器400的子集的预测模型的正常变化的确定。辅助参数例如可以是包括服务器400的子集的机架或房间的功率消耗、该机架或房间的电源电压、传送到该机架或房间的冷却流体的流量、传送到该机架或房间的冷却流体的温度以及该机架或房间中的环境温度。

无论如何，操作740包括由评估器530评估最新聚合测量结果与多个服务器400的子集的预测模型的符合性。操作740可以包括子操作742，在子操作742中，如果最新聚合测量结果与由多个服务器400的子集的预测模型限定的对应的值之间的差小于或等于在操作730处限定的正常变化，则确定最新聚合测量结果符合多个服务器400的子集的预测模型。在操作750处和子操作752处对多个服务器400的子集的最终不符合性的处理类似于或等效于如操作670和672(图6c)所示的对任何特定服务器的不符合性的处理。

返回图5，数据中心500包括用于监控多个服务器400的健康状况的***。该***包括至少数据库520、机器学习***525和评估器530。评估器530又可以包括耦接至一个或更多个存储装置的一个或更多个处理器。一个或更多个存储装置还可以包括非暂态计算机可读介质，该非暂态计算机可读介质用于存储能够由评估器530的一个或更多个处理器执行以执行序列600和/或序列700的一些或全部操作的指令。

示例

可以在操作者控制台550上呈现各种图。例如，图8是示出根据本技术的实施方式的服务器的两(2)个处理器的变化的图。图800示出了同一服务器400的两(2)个处理器450的多个温度随时间的变化。温度以摄氏度表示在纵轴上，并且时间以小时和分钟表示在横轴上，格式为HH:MM。

图9是示出根据本技术的实施方式的数据中心的服务器的温度的高斯分布的图。图900在纵轴上示出了多个服务器400并且在横轴上示出了温度值。图900示出了被关闭的服务器400的第一数目910。在数据库520处没有接收到这些服务器的温度测量结果，因此它们被示为最低能够限定的温度。报告各种温度值的服务器400的数目沿横轴分布，通常服从高斯分布。绝大多数服务器400报告在安全操作范围920内的温度。适度数目的服务器400报告处于过热范围930内的温度。期望图5的评估器530调用动作控制器535来采取校正动作并且/或者调用操作者控制台550来发出警报。

图10是示出根据本技术的实施方式的由数据中心中的离散传感器生成的各种信息元素的比例的饼状图。在非限制性示例中，图1000包括表示数据中心500的多个服务器400的份额的部分1010，BMC 430不为这些服务器400提供任何电源传感器状态。部分1020表示BMC 430肯定地报告其存在电源的服务器400的另一份额。部分1030至部分1040表示BMC430针对其返回错误状态、已经采取校正动作的服务器400的份额。

图11是示出根据本技术的实施方式的安装在数据中心的机架中的服务器组中的每个服务器的温度随时间的变化的图。图12是示出根据本技术的实施方式的安装在数据中心的机架中的服务器组的聚合温度随时间的变化的图。在图11和图12上，纵轴示出以摄氏度为单位的温度并且横轴示出HH:MM格式的时间。在图11上，图1100示出了数据中心500的公共机架中安装的多个服务器400中的温度变化的多个轨迹。在图12上，图1200示出了聚合温度的对应轨迹。考虑图11和图12，过热情况在约14:06小时处影响了机架的基本上所有的服务器400。这种过热情况似乎存在于机架的水平上，并且不限于一个单一服务器400。在约两(2)分钟内克服了该问题。在机架的每个单独服务器400上采取的校正动作可能不如在公共机架的水平上采取的校正动作有效。

图13是示出根据本技术的实施方式的多个数据中心中的过热服务器的数目随时间的变化的图。在图1300上，纵轴示出了过热服务器400的数目并且横轴示出了HH:MM格式的时间。示出了对应多个数据中心500的多条曲线。

图14是示出根据本技术的实施方式的与预测温度和正常温度变化相比服务器的温度在短时间尺度上的变化的图。在图1400上，纵轴示出以摄氏度为单位的服务器400的温度并且横轴示出HH:MM格式的时间。预测曲线1410表示根据服务器400的预测模型的随时间的预期温度。通过在预测曲线1410的预期温度之上添加正常变化来限定上界曲线1420。温度曲线1430基于从服务器400接收的实际温度测量结果。温度曲线1430从点1440开始、基本上在10:20小时处超过上界曲线1420。此时，评估器530应当检测到不符合性并且使动作控制器535启动校正动作并且/或者使操作者控制台550显示警报。尽管可能已经采取了校正动作，但是即时效果在图1400上不可见并且温度曲线1430示出了由服务器400报告的持续增加的温度。

图15是示出根据本技术的实施方式的与预测温度和正常温度变化相比包含多个服务器的数据中心的房间的聚合温度在短时间尺度上的变化的图。图1500基于由包括图14中所表示的服务器400以及安装在房间中的所有其它服务器400的服务器组报告的温度的聚合，提供房间的温度值。图1500并且因此与图1400相关。在图1500上，纵轴示出了房间中的服务器400的以摄氏度为单位的聚合温度并且横轴示出了HH:MM格式的时间。预测曲线1510表示根据房间中存在的服务器组400的预测模型的随时间的预期温度。通过在预测曲线1510的预期温度之上添加正常变化来限定上界曲线1520。温度曲线1530基于从房间中存在的服务器400接收的实际温度测量结果的聚合。温度曲线1530从点1540开始、基本上在09:45小时处超过上界曲线1520。比较图1400和图1500，在服务器400中在10:20小时(点1440)处检测到的高温情况似乎是影响整个房间的问题的结果。尽管可以在09:45小时之后启动校正动作，但是在11:00小时处该校正动作的效果仍然不可见。

图16是示出根据本技术的实施方式的与预测温度和正常温度变化相比包含多个服务器的数据中心的机架的聚合温度在长时间尺度上的变化的图。在图1600上，纵轴示出了机架中的服务器400的以摄氏度为单位的聚合温度并且横轴以月、日、小时和分钟来示出时间，格式为M/DDHH:MM。预测曲线1610表示根据机架中存在的服务器组400的预测模型的随时间的预期温度。通过在预测曲线1610的预期温度之上添加正常变化来限定上界曲线1620。温度曲线1630基于从机架中存在的服务器400接收的实际温度测量结果的聚合。温度曲线1630在点1640处、基本上在3月26日的01:45小时处超过上界曲线1620。在该示例中，评估器530已经检测到不符合性并且动作控制器535已经启动校正动作。校正动作已经被证明是有效的并且机架的聚合温度已经迅速返回到正常值。

图17是示出根据本技术的实施方式的与预测温度和正常温度变化相比包含多个服务器机架的数据中心的房间的聚合温度在长时间尺度上的变化的图。图1700基于由包含房间中存在的所有服务器400的服务器组报告的温度的聚合提供房间的温度值。该房间包含多个机架，该多个机架包括在图1600中表示的特定机架。因此，图1700与图1600相关。在图1700上，纵轴示出了房间中的服务器400的以摄氏度为单位的聚合温度并且横轴示出了M/DD HH:MM格式的时间。预测曲线1710表示根据房间中存在的服务器组400的预测模型的随时间的预期温度。通过在预测曲线1710的预期温度之上添加正常变化来限定上界曲线1720。温度曲线1730基于从房间中存在的服务器400接收的实际温度测量结果的聚合。比较图16和图17，在3月26日的01:45小时处在图16的特定机架中检测到的不符合性未反映在图1700上。因此，在该特定机架中存在不符合性，而在房间中安装的其他机架中不存在不符合性。

可以预期用于表示服务器基础设施的健康状况的其他类型的图信息。例如，各种图可以提供：例如每个机架或每个房间的测量结果的平均值；每个机架、每个房间或每个数据中心的在时间间隔中其测量结果超过阈值的服务器的数目；服务器的测量结果随时间的演变；基于公共硬件平台的多个服务器的测量结果信息；以及以颜色编码的方式呈现机架或房间中的所有服务器的温度的热图。

虽然已经参考以特定顺序执行的特定步骤描述和示出了上述实现方式，但是将理解的是，在不脱离本技术的教示的情况下，这些步骤可以被组合、细分或重新排序。可以并行或串行执行至少一些步骤。因此，步骤的顺序和分组不是对本技术的限制。

应明确地理解，并非本文提及的所有技术效果都需要在本技术的每个实施方式中实现。

这样，根据本技术的一些非限制性实施方式实现的方法、***和数据中心***可以如下表示，以编号的条款呈现。

条款

[条款1]一种用于监控服务器基础设施的健康状况的方法(600)，包括：

在数据库(520)中周期性地存储(620)从所述服务器基础设施的服务器(400)接收的测量结果；

使用所存储的测量结果来训练(625)机器学习***(525)以构建所述服务器(400)的预测模型；

评估(660)从所述服务器(400)接收的最新的测量结果与所述服务器(400)的预测模型的符合性；以及

如果所述最新的测量结果不符合所述服务器(400)的预测模型，则采取校正动作(670)。

[条款2]根据条款1所述的方法(600)，其中，使用存储在所述数据库(520)中的累积测量结果来训练所述机器学习***(525)。

[条款3]根据条款2所述的方法(600)，还包括：

从所述服务器(400)接收新的测量结果；

将所述新的测量结果存储(635)在所述数据库(520)中；以及

使用所述新测量结果来更新所述预测模型。

[条款4]根据条款3所述的方法(600)，还包括使用过去估计的误差的移动平均值来更新(642)所述预测模型。

[条款5]根据条款1至4中任一项所述的方法(600)，还包括基于针对所述服务器的分类合并(615)所述测量结果。

[条款6]根据条款1至5中任一项所述的方法(600)，还包括在连续的轮询周期的每一个处从轮询节点(510，515)向所述服务器(400)发送(605)测量请求，其中，响应于所述测量请求接收所述测量结果。

[条款7]根据条款6所述的方法(600)，其中，使用智能平台管理接口(IPMI)协议在所述轮询节点(510，515)、所述服务器(400)和所述数据库(520)之间交换所述测量请求和携带所述测量结果的接收信号。

[条款8]根据条款1至7中任一项所述的方法(600)，其中，评估(660)从所述服务器(400)接收的最新的测量结果与所述服务器(400)的预测模型的符合性包括：

限定(650)所述服务器(400)的预测模型的正常变化；

如果所述最新的测量结果与由所述服务器(400)的预测模型限定的对应值之间的差小于或等于正常变化，则确定(662)所述最新的测量结果符合所述服务器(400)的预测模型。

[条款9]根据条款8所述的方法(600)，其中：

所述最新的测量结果是所述服务器(400)的处理器(410)的温度；并且

所述正常变化包括由所述服务器(400)的预测模型限定的当前温度以下的最大增量；并且

所述正常变化包括由所述服务器(400)的预测模型限定的当前温度之下的最小增量。

[条款10]根据条款8所述的方法(600)，其中：

所述正常变化包括由所述服务器(400)的预测模型限定的当前温度之上的最大增量；并且

所述正常变化包括由所述服务器(400)的预测模型限定的当前温度之下的无限增量。

[条款11]根据条款9或10所述的方法(600)，还包括：

限定静态温度阈值；以及

如果所述服务器(400)的处理器(410)的温度超过所述静态温度阈值，则采取校正动作。

[条款12]根据条款8至11中任一项所述的方法(600)，还包括根据在当前时间结束的预定时间帧内存储的测量结果与由所述服务器(400)的预测模型限定的对应值之间的差的第k个百分位来限定(650)所述服务器(400)的预测模型的正常变化，其中，k是小于100的数。

[条款13]根据条款8至11中任一项所述的方法(600)，还包括根据在当前时间结束的预定时间帧内存储的测量结果与由所述服务器(400)的预测模型限定的对应值之间的差的平均值的预定倍数来限定(650)所述服务器(400)的预测模型的正常变化。

[条款14]根据条款8至13中任一项所述的方法(600)，还包括：

接收(652)与所述服务器(400)相关的辅助参数的当前值；

计算(654)和所述服务器(400)相关的辅助参数的当前值与和服务器(400)相关的辅助参数的先前值之间的差；以及

如果与所述服务器(400)相关的辅助参数的当前值与先前值之间的差超过预定阈值，则增加(656)所述服务器(400)的预测模型的正常变化的幅度。

[条款15]根据条款14所述的方法(600)，其中，所述辅助参数选自所述服务器(400)的处理器(410)上的负荷、所述服务器(400)的处理器(410)的功率消耗、所述服务器(400)的处理器(410)的电源电压、用于冷却所述服务器(400)的处理器(410)的流体的流量、用于冷却所述服务器(400)的处理器(410)的流体的温度以及所述服务器(400)处的环境温度。

[条款16]根据条款1至15中任一项所述的方法(600)，其中，所述机器学***均(ARIMA)、三指数平滑(Holt-Winters)、快速傅里叶变换(FFT)分解、当前状态重新定义、多项式组合、线性回归、多层感知器(MLP)、长短期存储器(LSTM)、高斯分布及其组合。

[条款17]根据条款1至16中任一项所述的方法(600)，其中，所述测量结果由所述服务器(400)的参数的传感器(450，460，470，480)提供。

[条款18]根据条款17所述的方法(600)，其中，所述服务器(400)的参数是所述服务器(400)的处理器(410)的温度。

[条款19]根据条款18所述的方法(600)，其中，采取(670)所述校正动作包括增加(672)所述服务器(400)的冷却***的热传递速率。

[条款20]根据条款19所述的方法(600)，其中，增加(672)所述服务器(400)的冷却***的热传递速率包括从增加提供给所述服务器(400)的空气冷却的流量、增加提供给所述服务器(400)的液体冷却的流量及其组合中选择的要素。

[条款21]根据条款20所述的方法(600)，其中，增加提供给所述服务器(400)的空气冷却的流量包括从打开通风入口、打开通风出口、启动一个或更多个风扇、增加风扇速度及其组合中选择的要素。

[条款22]根据条款1至21中任一项所述的方法(600)，其中，所述校正动作选自降低所述服务器(400)的处理速度、降低所述服务器(400)的处理能力、减少定向至所述服务器(400)的流量负荷、将虚拟机从所述服务器(400)转移到另一服务器(400)、增加所述服务器(400)的冷却***的热传递速率、减少用于存储从所述服务器(400)接收的测量结果的周期及其组合。

[条款23]根据条款6或7所述的方法(600)，还包括：

在连续的轮询周期的每一个处从所述轮询节点(510，515)向对应的多个服务器(400)发送多个测量请求；

将在所述连续轮询周期的每一个处从所述多个服务器(400)中的每个服务器接收的相应测量结果存储(620)在所述数据库(520)中。

[条款24]根据条款23所述的方法(600)，还包括使用存储的各个测量结果来训练(625)所述机器学习***(525)以构建针对所述多个服务器(400)中的每一个的预测模型。

[条款25]根据条款23或24所述的方法(600，700)，还包括：

聚合(710)在每个给定轮询周期从所述多个服务器(400)的子集接收的各个测量结果；

使用聚合的测量结果来训练(720)所述机器学习***(525)以构建针对所述多个服务器(400)的子集的预测模型；以及

评估(740)最新的聚合的测量结果与所述多个服务器(400)的子集的预测模型的符合性。

[条款26]根据条款25所述的方法(600，700)，其中，所述多个服务器(400)的子集包括安装在同一机架上的服务器(400)。

[条款27]根据条款25所述的方法(600，700)，其中，所述多个服务器(400)的子集包括安装在同一房间中的服务器(400)。

[条款28]根据条款25所述的方法(600，700)，其中，所述多个服务器(400)的子集包括安装在同一数据中心(500)中的服务器(400)。

[条款29]根据条款25至28中任一项所述的方法(600，700)，其中，聚合(710)在每个给定轮询周期从所述多个服务器(400)的子集接收的各个测量结果包括平均(712)在每个给定轮询周期从所述多个服务器(400)的子集中接收的各个测量结果。

[条款30]根据条款25至29中任一项所述的方法(600，700)，还包括：

限定(730)所述多个服务器(400)的子集的预测模型的正常变化；以及

如果所述最新的聚合的测量结果与由所述多个服务器(400)的子集的预测模型限定的对应值之间的差小于或等于所述正常变化，则确定(742)所述最新的聚合的测量结果符合所述多个服务器(400)的子集的预测模型。

[条款31]根据条款30所述的方法(600，700)，还包括：

检测(732)所述多个服务器(400)的子集中的服务器(400)的数目的改变；以及

增加(734)所述多个服务器(400)的子集的预测模型的正常变化的幅度。

[条款32]一种用于监控服务器基础设施的健康状况的***，包括：

数据库(520)，其被配置成：

从所述服务器基础设施的一个或更多个服务器(400)接收测量结果，以及

存储从所述一个或更多个服务器(400)接收的所述测量结果；

机器学习***(525)，其被配置成：

从所述数据库(520)中读取所述测量结果，以及

使用所述测量结果来构建所述一个或更多个服务器(400)中的每一个的预测模型；

处理器，其可操作地连接至所述数据库(520)和所述机器学习***(525)；以及

非暂态计算机可读介质，其上存储有机器可执行指令，所述机器可执行指令用于在由所述处理器执行时执行根据条款1至31中任一项所述的方法(600，700)。

[条款33]一种用于监控服务器基础设施的健康状况的***，包括：

数据库(520)，其被配置成：

存储从所述一个或更多个服务器(400)接收的所述测量结果；

机器学习***(525)，其配置成：

从所述数据库(520)中读取所存储的针对所述一个或更多个服务器(400)中的每一个的测量结果，以及

对于每个相应的服务器(400)，基于在相应服务器(400)的连续轮询周期处存储在所述数据库(520)中的测量结果来构建预测模型；以及

评估器(530)，其可操作地连接至所述数据库(520)和所述机器学习***(525)，所述评估器(530)被配置成：

从给定服务器(400)接收给定服务器(400)的最新的测量结果，

评估所述给定服务器(400)的最新的测量结果与所述给定服务器(400)的预测模型的符合性，以及

如果所述最新的测量结果不符合所述给定服务器(400)的预测模型，则针对所述给定服务器(400)启动校正动作。

[条款34]根据条款33所述的***，还包括轮询节点(510，515)，其配置成在所述连续轮询周期中的每一个处向所述一个或更多个服务器(400)发送测量请求，其中，响应于所述测量请求，在所述数据库(520)处从所述一个或更多个服务器(400)接收测量结果。

[条款35]根据条款33或34所述的***，还包括可操作地连接至所述评估器(530)的操作者控制台(550)，所述操作者控制台(550)被配置成：如果所述给定服务器(400)的最新的测量结果不符合所述给定服务器(400)的预测模型，则发出警报。

[条款36]根据条款33至35中任一项所述的***，还包括可操作性地连接至所述评估器(530)的动作控制器(535)，所述动作控制器(535)被配置成使所述给定服务器(400)应用选自以下的校正动作：降低所述给定服务器(400)的处理速度、降低所述给定服务器(400)的处理能力、减少定向至所述给定服务器(400)的流量负荷、将虚拟机从所述给定服务器(400)转移到另一服务器(400)、增加所述给定服务器(400)的冷却***的热传递速率及其组合。

[条款37]根据条款34所述的***，还包括可操作地连接至所述评估器(530)和所述轮询节点(510，515)的动作控制器(535)，所述动作控制器(535)被配置成减少所述给定服务器(400)的所述连续轮询周期中的每一个的延迟。

[条款38]一种数据中心(500)，包括：

服务器基础设施，其包括多个服务器(400)，每个服务器(400)包括被配置成提供测量结果的传感器(450，460，470，480)；

储存库(505)，其被配置成存储所述多个服务器(400)中的每一个的标识；

轮询节点(510，515)，其被配置成从所述储存库(505)接收所述多个服务器(400)的标识；以及

根据条款32或33所述的***。

[条款39]一种数据中心(500)，包括：

轮询节点(510，515)，其被配置成：

从所述储存库(505)中获取服务器(400)的列表，以及

在连续的轮询周期的每一个处向所述服务器(400)的列表中的每个服务器(400)发送测量请求；

数据库(520)，其被配置成：

在所述连续轮询周期的每一个处从所述服务器(400)的列表中的每个服务器(400)接收测量结果，以及

存储所接收的测量结果；

机器学习***(525)，其被配置成：

从所述数据库(520)读取存储的针对每个相应的服务器(400)的测量结果，以及

基于存储的针对相应服务器(400)的测量结果，构建每个相应的服务器(400)的预测模型；

评估器(530)，其被配置成：

从给定服务器(400)接收最新的测量结果，

从所述机器学习***(525)获取所述给定服务器(400)的预测模型，以及

评估所述最新的测量结果与所述给定服务器(400)的预测模型的符合性；以及

动作控制器(535)，其被配置成：

从所述评估器(530)接收所述给定服务器(400)的符合性结果，以及

如果所述最新的测量结果不符合所述给定服务器(400)的预测模型，则针对所述给定服务器(400)采取校正动作。

[条款40]根据条款39所述的数据中心(500)，其中：

所述轮询器是多个轮询器之一；并且

所述服务器的列表是多个服务器的列表之一，所述多个轮询器中的每个轮询器获取所述多个列表中的对应列表。

[条款41]根据条款40所述的数据中心(500)，还包括分配处理器(540)，所述分配处理器(540)被配置成将所述多个服务器(400)中的每个服务器(400)分配给所述多个服务器(400)的列表之一。

[条款42]根据条款41所述的数据中心(500)，其中，所述分配处理器(540)是负荷平衡处理器。

[条款43]根据条款40所述的数据中心(500)，其中：

所述多个轮询节点(510，515)中的第一轮询节点(510，515)实现第一轮询间隔；

所述多个轮询节点(510，515)中的第二轮询节点(510，515)实现比所述第一轮询间隔短的第二轮询间隔；以及

如果所述最新的测量结果不符合所述给定服务器(400)的预测模型，则所述动作控制器(535)使所述分配处理器(540)将所述给定服务器(400)分配给所述第二轮询节点(510，515)。

[条款44]根据条款39至43中任一项所述的数据中心(500)，还包括操作者控制台(550)，所述操作者控制台(550)可操作地连接至所述评估器(530)并且被配置成，如果所述最新的测量结果不符合所述给定服务器(400)的预测模型，则发出指示所述给定服务器(400)的符合性结果的警报。

[条款45]根据条款39至44中任一项所述的数据中心(500)，其中，所述动作控制器(535)被配置成如果所述最新的测量结果不符合所述给定服务器(400)的预测模型，则向所述给定服务器(400)提供命令，所述命令使所述给定服务器(400)降低所述给定服务器(400)的处理速度、降低所述给定服务器(400)的处理能力、减少定向至所述给定服务器(400)的流量负荷、将虚拟机从所述给定服务器(400)转移至另一服务器(400)、增加所述给定服务器(400)的冷却***的容量及其组合。

[条款46]根据条款39至45中任一项所述的数据中心((500)，其中：

所述多个服务器(400)中的服务器(400)被按组组装，每组服务器(400)被安装在所述数据中心(500)的公共机架中或公共房间中；

所述数据中心(500)还包括聚合器(545)，所述聚合器(545)被配置成聚合在每个给定轮询周期从所述给定组的服务器(400)接收的各个测量结果；

所述数据库(520)还被配置成存储聚合的测量结果；

所述机器学习***(525)还被配置成基于所述聚合的测量结果来构建所述给定组的服务器(400)的预测模型；以及

所述评估器(530)还被配置成评估最新的聚合的测量结果与所述给定组的服务器(400)的预测模型的符合性。

[条款47]根据条款46所述的数据中心(500)，其中，所述评估器(530)还被配置成：

限定所述给定组的服务器(400)的预测模型的正常变化；以及

如果所述最新的聚合的测量结果与由所述给定组的服务器(400)的预测模型限定的对应值之间的差小于或等于所述正常变化，则确定所述最新的聚合的测量结果符合所述给定组的服务器(400)的预测模型。

[条款48]根据条款39至47中任一项所述的数据中心(500)，其中：

所述多个服务器(400)中的每个服务器(400)包括处理器(410)和可操作地连接至所述处理器(410)的板管理控制器BMC(430)；

由每个服务器(400)的传感器(450，460，470，480)提供的测量结果是所述服务器(400)的处理器(410)的操作参数的测量结果；以及

在每个服务器(400)上，所述BMC(430)被配置成从所述轮询节点(510，515)接收所述测量请求，并且响应于从所述轮询节点(510，515)接收到所述测量请求，将所述测量结果从所述传感器(450，460，470，480)发送至所述数据库(520)。

对本技术的上述实现方式的修改和改进对本领域的技术人员而言将变得明显。前述描述旨在是示例性的而非限制性的。因此，旨在仅由所附权利要求书的范围来限定本技术的范围。

Claims

1.一种用于控制服务器基础设施中的服务器的温度的方法，包括：

在连续轮询周期中的每一个处从轮询节点向所述服务器基础设施中的服务器发送温度测量请求；

响应于所述温度测量请求，从所述服务器接收温度测量结果；

响应于所述温度测量请求，将从所述服务器接收的温度测量结果存储在数据库中；

限定所述服务器的预测温度值的预测模型随着时间的正常变化，由已经使用存储在所述数据库中的累积温度测量结果进行训练的机器学习***构建所述预测模型；

在新的温度测量时从所述服务器接收新的温度测量结果；

当所述新的温度测量结果与由所述服务器的预测模型针对所述新的温度测量的时间预测的温度值之间的差小于或等于所述服务器的预测模型的正常变化时，通过确定所述新的温度测量结果符合所述服务器的预测模型来评估从所述服务器接收的所述新的温度测量结果与所述服务器的预测模型的符合性；以及

如果所述新的温度测量结果不符合所述服务器的预测模型，则采取施加于所述服务器的校正动作。

2.根据权利要求1所述的方法，还包括：

将所述新的测量结果存储在所述数据库中；以及

使用所述新的测量结果来更新所述服务器的预测模型。

3.根据权利要求1所述的方法，还包括：

接收与所述服务器相关的辅助参数的第一值，所述辅助参数选自：所述服务器的处理器上的负荷、所述服务器的处理器的功率消耗、至所述服务器的处理器的电源电压、用于冷却所述服务器的处理器的流体的流动、用于冷却所述服务器的处理器的流体的温度以及所述服务器处的环境温度；

在接收到与所述服务器相关的辅助参数的第一值之后，接收与所述服务器相关的辅助参数的第二值；

计算和所述服务器相关的辅助参数的第二值与和所述服务器相关的辅助参数的第一值之间的差；以及

如果和所述服务器相关的辅助参数的第二值与第一值之间的差超过预定阈值，则增加所述服务器的预测模型的正常变化的幅度。

4.根据权利要求1至3中任一项所述的方法，其中：

所述温度测量结果是所述服务器的处理器的温度测量结果；以及

所述校正动作选自：增加所述服务器的冷却***的热传递速率；降低所述服务器的处理速度；降低所述服务器的处理能力；减少定向至所述服务器的流量负荷；将虚拟机从所述服务器转移至另一服务器；减少连续温度测量请求之间的时间；以及其组合。

5.根据权利要求1至4中任一项所述的方法，还包括：

在所述连续轮询周期中的每一个处从所述轮询节点向相应的多个服务器发送多个温度测量请求；

将在所述连续轮询周期中的每一个处从所述多个服务器中的每一个接收的各个温度测量结果存储在所述数据库中；以及

使用所存储的各个温度测量结果进一步训练所述机器学习***，以针对所述多个服务器中的每一个构建预测随着时间的温度值的相应预测模型。

6.根据权利要求5所述的方法，还包括：

合并在每个给定轮询周期从所述多个服务器的子集接收的各个温度测量结果，其中，所述子集中的服务器被安装在同一机架上、同一房间或同一数据中心中；

聚合在每个给定轮询周期从所述多个服务器的子集接收到的各个温度测量结果；

使用所聚合的温度测量结果进一步训练所述机器学习***，以针对所述多个服务器的子集构建预测随着时间的温度值的第二预测模型；以及

限定所述第二预测模型的第二正常变化；

在构建所述第二预测模型之后，在新的温度测量时从所述多个服务器中的每一个接收新的温度测量结果；

聚合来自所述多个服务器中的每一个的新的温度测量结果，以形成新的聚合的温度测量结果；

当所述新的聚合的温度测量结果与由所述第二预测模型针对所述新的温度测量的时间预测的聚合的温度值之间的差小于或等于所述第二正常变化时，通过确定所述新的聚合的温度测量结果符合所述第二预测模型来评估所述新的聚合的温度测量结果与所述第二预测模型的符合性。

7.一种用于控制服务器基础设施中的服务器的温度的***，包括：

轮询节点，其被配置成：在连续轮询周期中的每一个处向所述服务器基础设施中的一个或更多个服务器发送温度测量请求；

数据库，其被配置成：

从所述服务器基础设施中的所述一个或更多个服务器接收温度测量结果，其中，响应于所述温度测量请求而接收所述温度测量结果，以及

存储从所述一个或更多个服务器接收的温度测量结果；

机器学习***，其被配置成：

从所述数据库读取所存储的关于所述一个或更多个服务器中的每一个的温度测量结果，以及

针对每个相应的服务器，基于针对所述相应服务器在连续轮询周期处存储在所述数据库中的温度测量结果来针对所述相应服务器构建预测随着时间的温度值的预测模型；以及

评估器，其能够操作地连接至所述数据库、所述机器学习***和所述轮询节点，所述评估器被配置成：

从给定服务器接收所述给定服务器的新的温度测量结果，

当所述新的温度测量结果与由所述给定服务器的预测模型针对所述新的温度测量结果的时间预测的温度值之间的差小于或等于所述给定服务器的预测模型的正常变化时，通过确定所述新的温度测量结果符合所述给定服务器的预测模型来评估所述给定服务器的所述新的温度测量结果与所述给定服务器的所述预测模型的符合性，以及

如果所述新的温度测量结果不符合所述给定服务器的预测模型，则针对所述给定服务器启动校正动作。

8.根据权利要求7所述的***，还包括操作者控制台，所述操作者控制台能够操作地连接至所述评估器，所述操作者控制台被配置成：如果所述给定服务器的新的温度测量结果不符合所述给定服务器的预测模型，则发出警报。

9.根据权利要求7或8所述的***，还包括动作控制器，所述动作控制器能够操作地连接至所述评估器，所述动作控制器被配置成使所述给定服务器施加选自以下的所述校正动作：增加所述给定服务器的冷却***的热传递速率；降低所述给定服务器的处理速度；降低所述给定服务器的处理能力；减少定向至所述给定服务器的流量负荷；将虚拟机从所述给定服务器转移至另一服务器；以及其组合。

10.一种数据中心，包括：

多个服务器，每个服务器包括被配置成提供温度测量结果的传感器；

储存库，其被配置成存储所述多个服务器中的每一个的标识；

轮询节点，其被配置成：

从所述储存库获取服务器的列表，以及

在连续轮询周期中的每一个处向所述服务器的列表中的每个服务器发送温度测量请求；

数据库，其被配置成：

在所述连续轮询周期中的每一个处从所述服务器的列表中的每个服务器的传感器接收温度测量结果，以及

存储所接收的温度测量结果；

机器学习***，其被配置成：

从所述数据库读取所存储的每个相应服务器的温度测量结果，以及

构建每个相应服务器的预测模型，所述预测模型基于所存储的所述相应服务器的温度测量结果来预测所述相应服务器的随着时间的温度值；

评估器，其被配置成：

从给定服务器接收新的温度测量结果，

从所述机器学习***取得所述给定服务器的预测模型，以及

当所述新的温度测量结果与由所述给定服务器的预测模型针对所述新的温度测量结果的时间预测的温度值之间的差小于或等于所述给定服务器的预测模型的正常变化时，通过确定所述新的温度测量结果符合所述给定服务器的预测模型来评估所述新的温度测量结果与所述给定服务器的预测模型的符合性；以及

动作控制器，其被配置成：

从所述评估器接收所述给定服务器的符合性结果，以及

如果所述新的温度测量结果不符合所述给定服务器的预测模型，则针对所述给定服务器采取校正动作。

11.根据权利要求10所述的数据中心，其中：

所述轮询节点是多个轮询节点之一；

所述服务器的列表是服务器的多个列表之一，所述多个轮询节点中的每个轮询节点获取所述多个列表中的相应列表；以及

所述数据中心还包括分配处理器，所述分配处理器被配置成：将所述多个服务器中的每个服务器分配给服务器的所述多个列表之一。

12.根据权利要求10或11所述的数据中心，其中：

所述多个服务器中的服务器按组被组装，每组服务器被安装在所述数据中心的公共机架或公共房间中；

所述数据中心还包括聚合器，所述聚合器被配置成：合并和聚合在每个给定轮询周期从所述给定组中的服务器接收的各个温度测量结果；

所述数据库还被配置成存储所聚合的温度测量结果；

所述机器学习***还被配置成：基于所聚合的温度测量结果，针对所述给定组中的服务器来构建预测随着时间的温度值的第二预测模型；以及

所述评估器还被配置成：当所述新的聚合的温度测量结果与由所述第二预测模型针对所述新的温度测量结果的时间预测的聚合的温度值之间的差小于或等于所述第二预测模型的第二正常变化时，通过确定所述新的聚合的温度测量结果符合所述第二预测模型来评估新的聚合的温度测量结果与所述第二预测模型的符合性。

13.根据权利要求10至12中任一项所述的数据中心，其中：

所述多个服务器中的每个服务器包括处理器以及能够操作地连接至所述处理器和所述传感器的板管理控制器BMC；

由每个服务器的传感器提供的温度测量结果是所述服务器的处理器的温度的测量结果；

在每个服务器上，所述BMC被配置成：从所述轮询节点接收所述温度测量请求，并且响应于从所述轮询节点接收到所述温度测量请求，读取来自所述传感器的温度测量结果并将所述温度测量结果发送至所述轮询节点；以及

所述轮询节点还被配置成：将所述温度测量结果转发至所述数据库。

14.一种用于监控服务器基础设施的健康状况的方法，包括：

在连续轮询周期中的每一个处从轮询节点向所述服务器基础设施中的服务器发送测量请求；

响应于所述测量请求，将从所述服务器接收的测量结果存储在数据库中；

使用存储在所述数据库中的累积测量结果来训练机器学习***，以构建所述服务器的预测模型；

评估从所述服务器接收的最新测量结果与所述服务器的预测模型的符合性；以及

如果所述最新测量结果不符合所述服务器的预测模型，则采取校正动作。

15.根据权利要求14所述的方法，还包括：

从所述服务器接收新测量结果；

将所述新测量结果存储在所述数据库中；以及

使用所述新测量结果来更新所述预测模型。

16.根据权利要求14或15所述的方法，其中，评估从所述服务器接收的所述最新测量结果与所述服务器的预测模型的符合性包括：

限定所述服务器的预测模型的正常变化；以及

如果所述最新测量结果与由所述服务器的预测模型限定的相应值之间的差小于或等于所述正常变化，则确定所述最新测量结果符合所述服务器的预测模型。

17.根据权利要求16所述的方法，还包括：

接收与所述服务器相关的辅助参数的当前值；

计算和所述服务器相关的辅助参数的当前值与和所述服务器相关的辅助参数的先前值之间的差；以及

如果和所述服务器相关的辅助参数的当前值与先前值之间的差超过预定阈值，则增加所述服务器的预测模型的正常变化的幅度。

18.根据权利要求14至17中任一项所述的方法，其中：

所述测量结果是所述服务器的处理器的温度；以及

所述校正动作选自：增加所述服务器的冷却***的热传递速率；降低所述服务器的处理速度；降低所述服务器的处理能力；减少定向至所述服务器的流量负荷；将虚拟机从所述服务器转移至另一服务器；减少用于存储从所述服务器接收的测量结果的时段；以及其组合。

19.根据权利要求14至18中任一项所述的方法，还包括：

在所述连续轮询周期中的每一个处从所述轮询节点向相应的多个服务器发送多个测量请求；

将在所述连续轮询周期中的每一个处从所述多个服务器中的每一个接收的各个测量结果存储在所述数据库中；以及

使用所存储的各个测量结果来训练所述机器学习***，以构建所述多个服务器中的每一个的预测模型。

20.根据权利要求19所述的方法，还包括：

合并在每个给定轮询周期从所述多个服务器的子集接收的各个测量结果，其中，所述子集中的服务器被安装在同一机架上、同一房间或同一数据中心中；

对在每个给定轮询周期处从所述多个服务器的子集接收的各个测量结果进行聚合；

使用所聚合的测量结果来训练所述机器学习***，以构建所述多个服务器的子集的预测模型；以及

评估最新的聚合的测量结果与所述多个服务器的子集的预测模型的符合性。

21.根据权利要求20所述的方法，还包括：

限定所述多个服务器的子集的预测模型的正常变化；以及

如果所述最新的聚合的测量结果与由所述多个服务器的子集的预测模型限定的相应值之间的差小于或等于所述正常变化，则确定所述最新的聚合的测量结果符合所述多个服务器的子集的预测模型。

22.一种用于监控服务器基础设施的健康状况的***，包括：

轮询节点，其被配置成：在连续轮询周期中的每一个处向所述服务器基础设施中的一个或更多个服务器发送测量请求；

数据库，其被配置成：

从所述服务器基础设施中的所述一个或更多个服务器接收测量结果，其中，响应于所述测量请求而接收所述测量结果，以及

存储从所述一个或更多个服务器接收的测量结果；

机器学习***，其被配置成：

从所述数据库读取所存储的所述一个或更多个服务器中的每一个的测量结果，以及

针对每个相应的服务器，针对所述相应服务器基于在连续轮询周期处存储在所述数据库中的测量结果来构建预测模型；以及

从给定服务器接收所述给定服务器的最新测量结果，

评估所述给定服务器的最新测量结果与所述给定服务器的预测模型的符合性，以及

如果所述最新测量结果不符合所述给定服务器的预测模型，则针对所述给定服务器启动校正动作。

23.根据权利要求22所述的***，还包括操作者控制台，所述操作者控制台能够操作地连接至所述评估器，所述操作者控制台被配置成：如果所述给定服务器的最新测量结果不符合所述给定服务器的预测模型，则发出警报。

24.根据权利要求22或23所述的***，还包括动作控制器，所述动作控制器能够操作地连接至所述评估器，所述动作控制器被配置成使所述给定服务器施加选自以下的所述校正动作：增加所述给定服务器的冷却***的热传递速率；降低所述给定服务器的处理速度；降低所述给定服务器的处理能力；减少定向至所述给定服务器的流量负荷；将虚拟机从所述给定服务器转移至另一服务器；以及其组合。

25.一种数据中心，包括：

多个服务器，每个服务器包括被配置成提供测量结果的传感器；

轮询节点，其被配置成：

从所述储存库获取服务器的列表，以及

在连续轮询周期中的每一个处向所述服务器的列表中的每个服务器发送测量请求；

数据库，其被配置成：

在所述连续轮询周期中的每一个处从所述服务器的列表中的每个服务器接收测量结果，以及

存储所接收的测量结果；机器学习***，其被配置成：

从所述数据库读取所存储的每个相应服务器的测量结果，以及

基于所存储的相应服务器的测量结果来构建每个相应服务器的预测模型；

评估器，其被配置成：

从给定服务器接收最新测量结果，

从所述机器学习***取得所述给定服务器的预测模型，以及

评估所述最新测量结果与所述给定服务器的预测模型的符合性；以及

动作控制器，其被配置成：

从所述评估器接收所述给定服务器的符合性结果，以及

如果所述最新测量结果不符合所述给定服务器的预测模型，则针对所述给定服务器采取校正动作。

26.根据权利要求25所述的数据中心，其中：

所述轮询节点是多个轮询节点之一；

27.根据权利要求25或26所述的数据中心，其中：

所述数据中心还包括聚合器，所述聚合器被配置成：合并和聚合在每个给定轮询周期处从所述给定组中的服务器接收的各个测量结果；

所述数据库还被配置成存储所聚合的测量结果；

所述机器学习***还被配置成：基于所聚合的测量结果来构建所述给定组中的服务器的预测模型；以及

所述评估器还被配置成：评估最新的聚合的测量结果与所述给定组中的服务器的预测模型的符合性。

28.根据权利要求25至27中任一项所述的数据中心，其中：

由每个服务器的传感器提供的测量结果是所述服务器的处理器的操作参数的测量结果；

在每个服务器上，所述BMC被配置成：从所述轮询节点接收所述测量请求，并且响应于从所述轮询节点接收到所述测量请求，读取来自所述传感器的测量结果并将所述测量结果发送至所述轮询节点；以及

所述轮询节点还被配置成：将所述测量结果转发至所述数据库。