CN108139942A

CN108139942A - 数据中心端到端功率效率建模的方法

Info

Publication number: CN108139942A
Application number: CN201680057778.3A
Authority: CN
Inventors: 任大齐; 韦竹林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-09-30
Filing date: 2016-09-19
Publication date: 2018-06-08
Also published as: EP3347817A4; WO2017054659A1; US20170090541A1; EP3347817A1; US10401933B2

Abstract

一种装置包括：接收器，用于从多个功率传感器接收多个功率测量结果；处理器，耦合至所述接收器，用于：通过确定多个功率测量结果的总和来确定数据中心的处理单元使用的功率量；确定指示所述处理单元每单位功率处理的数据量的数据与瓦特比；确定由所述处理单元处理数据量的估计执行时间；确定指示所述处理单元用于处理数据量的能量的估计能量消耗。

Description

数据中心端到端功率效率建模的方法

相关申请案交叉申请

本申请要求2015年9月30日递交的发明名称为“数据中心端到端功率效率建模的方法”的第14/870,856号美国专利申请案的在先申请优先权，其全部内容通过引用并入本文。

背景技术

随着通用数据存储和计算实践向基于云的数据中心集中化方式转变，数据中心执行的计算和处理量，特别是对于大量数据迅速增加。随着计算和处理的增加，功率使用以及成本也增加。因此，随着在数据中心中所执行计算和处理的增加，可能需要开发一种用于估计能量使用和提高效率的有效方式。

发明内容

在一个实施例中，本文包括一种装置，包括：接收器，用于从多个功率传感器接收多个功率测量结果；处理器，耦合至所述接收器，用于：通过确定多个功率测量结果的总和来确定数据中心的处理单元使用的功率量；确定指示所述处理单元每单位功率处理的数据量的数据与瓦特比；确定由所述处理单元处理数据量的估计执行时间；确定指示所述处理单元用于处理数据量的能量的估计能量消耗。

在另一实施例中，本文包括一种用于调整处理数据流的处理单元的性能的方法，包括：控制在处理单元上执行的程序的低层代码的行为；抽象和建模程序的行为，以进行分析和研究；确定所述处理单元在执行计算任务时使用的能量的估计值；确定多处理平台的总体功率模型；确定并行处理设备的计算能力；根据总体功率模型优化编码策略；调整所述处理单元以提高所述处理单元的功率效率水平。

在又一实施例中，本文包括一种用于对处理单元中的能量使用进行建模的方法，包括：对位于数据中心的处理单元的多个组件进行功率测量；根据所述多个功率测量结果确定平均功率使用量；确定所述处理单元对数据流执行至少一个操作的估计执行时间；根据所述平均功率使用量和所述估计执行时间确定能量消耗估计值。

通过以下结合附图和权利要求的详细描述中，将更清楚地理解这些内容和其它特征。

附图说明

为了更透彻地理解本发明，现参阅结合附图和具体实施方式而描述的以下简要说明，其中的相同参考标号表示相同部分。

图1为数据中心的实施例的示意图；

图2为数据流模型的实施例的示意图；

图3为用于确定数据流中性能的方法的实施例的示意图；

图4为用于确定数据流中所使用能量的方法的实施例的示意图；

图5为能量估计建模方法的实施例的流程图；

图6为另一个能量估计方法的实施例的流程图；

图7为示出在K均值聚类操作期间某些中央处理器使用水平的功率测量的图表；

图8为示出在K均值聚类操作期间存储器、主电路板和内存使用水平的功率测量的图表；

图9为示出K均值聚类操作时的数据吞吐量的图表；

图10为数据中心中用于能量建模的网元的实施例的示意图。

具体实施方式

首先应理解，尽管下文提供一项或多项实施例的说明性实施方案，但所公开的***和/或方法可使用任何数目的技术来实施，无论该技术是当前已知还是现有的。本发明决不应限于下文所说明的说明性实施方案、附图和技术，包括本文所说明并描述的示例性设计和实施方案，而是可在所附权利要求书的范围以及其等效物的完整范围内修改。

本文公开了一种用于估计数据中心中能量消耗的方法的实施例。通过对数据中心的计算设备使用的功率进行测量，可以确定平均功率使用量。利用已知的使用功率进行处理的数据量，确定数据中心所使用能量的估计值和每单位功率处理的数据比例。结合确定的数值，在各种实施例中，通过域划分、负载并行化、动态频率缩放和/或工作负载调度来增加数据中心中的效率水平。

图1为数据中心100实施例的示意图。数据中心100包括多个互连的计算资源(如服务器)110，各自包括至少一个计算组件120，至少一个存储组件130，以及至少一个网络组件140。在一个实施例中，计算组件120包括连接到控制器的多个中央处理器，存储组件130包括连接到另一控制器的多个存储模块(例如，动态随机存取存储器模块和/或其他非易失性存储器模块)，网络组件140包括多个网络接口(例如，***组件互连快速接口和/或能够和其它计算资源联网的其他接口)。在一些实施例中，每个计算资源110还可以包括与计算组件120、存储组件130和网络组件140组合或替代计算组件120、存储组件130和网络组件140所需的附加组件。

为确定数据中心100中的多个计算资源110所使用的功率量，在一个实施例中，传感器阵列连接到计算资源110。例如，功率传感器和/或功率计阵列可以连接到计算资源110，使得功率传感器连接到各个计算组件120。功率传感器连接到各个存储组件130，且功率传感器连接到各个计算资源110中的各个网络组件140。在各种实施例中，功率传感器可以互相连接以向需要功率使用信息的设备层、电子电路板层、集成电路层，和/或其它层或分层提供功率使用信息。然后使用功率传感器获得的功率数据来确定数据中心100的总功率使用量。例如，根据通过确定数据中心100所有计算组件120所使用的功率总和，数据中心100所有存储组件130所使用功率的总和，以及数据中心100中联网使用的功率，从而获得测量的以瓦特(W)为单位的总功率使用量，其中P(w)为计算资源110消耗的总功率，N为计算组件120的数量，M为存储组件130的数量。对于给定的设备i，在测量电压为和测量电流为的时间k时，设备i的功率在时间k为P_i ^(k)，从而可以将每个采样周期k的功率结果绘制在一起，以获得计算资源110的功率图，从而显示在计算资源110上执行计算期间的功率使用量。

对于每个计算资源110或其组件(例如，计算组件120、存储组件130和/或网络组件140)，用于确定所使用能量的计算公式为其中T为计算资源110进行计算运行的经过时间，P(t)为时间t时测量的功率，dt表示t的微分。当功率传感器的采样间隔足够小时，采样周期s为dt的近似值。如上所述，在给定的时间点k，功率因此，能量计算采取公式

图2为数据流模型200的实施例的示意图。模型200有助于数据中心的大数据应用和/或架构中的数据流的建模，用于能量消耗的定量分析。在一些实施例中，模型200可称作端到端和/或顶到底模型，并且可以在数据中心(例如，图1所示的数据中心100)中实施，从而对数据流进行建模，用于形成本文的能量估计。为对数据流进行建模，模型200具有数据中心的硬件架构(例如，图1所示的计算资源110的整体硬件架构或其子组件120-140的架构)的感知，以及硬件的具体参数和/或特性。模型200包括多个组件，每个组件对数据流的一部分进行建模。组件210对大数据源的特性进行写入和读取(例如，输入和输出)。当执行大数据操作和分析时，组件220可以对操作和过程进行建模。组件230抽象硬件架构的数据流的具体行为，组件240利用其对硬件架构的感知，确定工作负载的一个或多个特征，硬件架构在该负载下进行操作以处理数据流。组件250确定模型200所要使用的数据流、平台和/或环境中消耗的能量的评估，以及用于预测数据流的功率效率的信息。

图3为用于确定数据流中性能的方法300的实施例的示意图。在一些实施例中，方法300在诸如图1所示的数据中心100之类的数据中心中实施，以确定根据本文中用于形成能量估计的数据流中的性能特性(例如，确定处理数据中消耗的时间)。在一个实施例中，方法300示出了用于处理大数据集，有时称为大数据的方法(例如，映射归约)的一个实现方式。映射归约方法可以在并行的分布式计算环境(例如，计算集群)中实现。一般而言，映射归约方法通过映射步骤执行转换，并通过归约步骤执行聚合。映射归约方法确保根据映射归约方法进行处理的数值正确分组，并且可用于归约步骤，从而实现映射步骤和归约步骤之间有助于实现映射归约方法的其它步骤。通过确定方法300中的完成给定步骤所需的时间量，可以确定数据流所需的性能值。例如，在包括映射归约方法的方法300的实施例中，数据流可以包括映射阶段，其中包括多个离散步骤和包括另外多个离散步骤的归约阶段。例如，映射阶段可以包括输入分割步骤、映射步骤、缓冲步骤、分割和分类步骤以及第一合并步骤。对于映射阶段中的每个步骤，确定时间t，从而进行求和其中i为完成测量映射阶段的步骤，steps为完成映射阶段所使用时间内的数据流特定阶段中的步骤数，其中确定了用于完成映射阶段的时间。类似地，对于归约阶段的每个步骤，确定时间t，从而进行求和其中j为测量的归约阶段的步骤数，steps为数据流的特定阶段中的步数骤，其中确定了用于完成规约阶段的时间。根据方法300处理大数据所消耗的总时间可以通过将确定的映射阶段和归约阶段的总和相加来确定。或者，在一些实施例中，方法300的步骤可以不划分阶段。在这样的实施例中，处理大数据消耗的总时间可以通过将完成方法300的每个步骤所需的时间进行单次求和来确定。

图4为用于确定数据流中所使用能量的方法400的实施例的示意图。在一个实施例中，方法400示出了方法300的映射归约方法，用于确定数据流中性能的其它特性(例如，确定数据处理中消耗的能量)，从而形成本文中的能量估计。通过确定完成数据流中给定步骤所需的时间量，以及用于完成该步骤的功率量，可以确定处理数据流中使用的能量值。能量值可以通过以下方式确定，例如根据功率分析仪的结果确定消耗的功率量，确定消耗的时间，以及根据所消耗的功率和消耗的时间来确定使用的能量值。例如，在图3的方法300中，数据流可以包括映射阶段和归约阶段。映射阶段包括多个离散步骤，归约阶段包括另外多个离散步骤。对于映射阶段中的每个步骤，可以通过确定完成该步骤所花费的时间量t和用于完成该步骤的功率量p来获得完成该步骤所使用的能量，从而进行求和其中i为测量映射阶段的步骤，steps为数据流的特定阶段中的步骤数，确定用于完成映射阶段的能量。类似地，对于归约阶段中的每个步骤，可以通过确定完成该步骤所花费的时间量t和用于完成该步骤的功率量p来获得完成步骤所用的能量，从而进行求和其中j为测量的归约阶段的步骤，steps为数据流的特定阶段中的步骤数，确定用于完成归约阶段的能量。利用确定的所用能量，数据流所使用的能量总量可以通过公式确定，其中k为测量的数据流的阶段，steps为数据流中被测量的阶段数。或者，在一些实施例中，方法400的步骤可以不划分阶段。在这样的实施例中，处理大数据消耗的总时间可以通过将完成方法400的每个步骤所需的时间进行单次求和来确定。

图5为能量估计建模方法500的实施例的流程图。方法500可以实施在，例如，大数据处理之前，以确定大数据处理时数据中心的一个或多个处理单元消耗的能量的估计，从而确定处理大数据所需的成本。在一个实施例中，方法500在数据中心(例如图1所示的数据中心100)中实现，以估计处理单元(例如图2所示的计算资源110之一)对数据中心的数据进行一个或多个操作时所使用的能量。在步骤510中，对处理单元(例如中央处理器(centralprocessing unit，CPU)、硬盘驱动器和/或主电路板和存储器)的每个组件使用的功率进行测量，并将其转换为平均值。例如，功率测量可以由耦合到处理单元的功率传感器和/或功率分析器阵列进行(例如，如图1所示的关于计算资源110的所示和所讨论内容)。在一个实施例中，处理单元包括多个互补金属氧化物半导体(complementary metal-oxidesemiconductor，CMOS)元件。各个CMOS元件的功率使用值可根据公式Power＝DynamicPower+ShortCircuitPower+LeakagePower确定，其中DynamicPower为CMOS元件在实际的数据处理中消耗的功率，ShortCircuitPower为CMOS元件的电源电压和地线之间流动的瞬时功率，LeakagePower为CMOS元件漏电而消耗的能量。DynamicPower，或由CMOS元件处理数据产生的功率可进一步定义为P＝ACV²f，其中A为每个时钟周期的CMOS元件中切换的门电路的有效部位，C为CMOS元件中所有门电路输出驱动的总电容(由此使AC在每时钟周期切换电容)，V为CMOS元件的工作电压，f为时钟的频率。

步骤520中，确定数据与瓦特比，其指示对于给定消耗的功率量，处理单元可处理的数据吞吐量。在一些实施例中，处理单元以流方式(例如，Terasort或K均值聚类)对大数据进行操作。在这样的实施例中，在相同的处理单元硬件组件上进行的每个操作或步骤(例如图3和图4中分别示出的方法300或400中的步骤)会消耗大致相同的功率量。因此，在这些实施例中功率可以近似为常数，从而可以确定数据与瓦特比(例如，给定功率量下，处理单元可以处理多少数据)。为确定数据与瓦特比，可以确定处理单元处理的数据量，处理单元处理数据所消耗的时间，以及处理单元处理数据所使用的功率量。

步骤530中，估计执行时间通过将处理单元计算的总工作负载(例如需要执行操作的数据量)除以处理单元的最大数据吞吐量来确定。例如，对于吞吐量为10千兆字节/秒的处理单元处理的100千兆字节的工作负载，估计执行时间确定为10秒。步骤540中，对数据完成这些操作消耗的估计能量通过将步骤510中确定的平均功率乘以步骤530中确定的估计执行时间来确定。

根据估计执行时间和估计能量，可以确定数据与瓦特比。因为处理单元使用的功率仅取决于在给定时间内执行的操作次数，且处理单元的计算能力也根据在给定时间内执行的操作次数确定，处理单元在处理任何给定数量的数据时将消耗的能量可以根据以上数据处理前使用的方法300、400和500来确定。

方法500中，假设处理单元处理数据时，处理单元的硬件部件不变，数据以恒速通过处理单元，处理数据时，处理单元的资源不共享于任何其它任务，处理单元及其所有组件的操作温度保持在相应组件的规格中确定的可接受的水平。

图6为性能调整方法600的实施例的流程图。在一个实施例中，方法600在数据中心(例如图1所示的数据中心100)中操作的网元(例如下文图10所示的网元1000)上执行，从而为数据中心进行性能调整。例如，方法600可在数据中心实施，从而为包括数据中心中多个(例如10、16、32个等)处理单元(例如节点)的并行处理平台所使用。方法600可以在对大数据执行处理之前和/或同时执行，以根据用于处理大数据的估计能量消耗(例如根据方法500)以及数据中心中的数据流模型(例如根据模型200)和数据中心中处理单元的个性化特征，确定数据中心中处理单元的最佳性能，且可以相应地调整处理单元的性能。步骤610中，在网元上执行应用(例如，包括一个或多个算法)以控制在数据中心中的设备上(例如在计算资源110上)执行的低层代码。例如，映射归约算法可用于控制网元上低层代码执行的行为。步骤620中，对在数据中心中的设备进行操作的程序进行抽象和建模，以允许进行模式和特征分析。例如，根据特定应用和算法，程序行为可以用相同的字符来标识。这些字符模式可以进行研究和分析，以为优化提供潜在途径。

步骤630中，确定数据中心中设备处理数据时将消耗的能量估计值。例如，可以根据图5所示的方法500来确定将要消耗的能量估计值。在步骤640，根据在步骤630针对每个组件确定的能量和/或功率消耗的累加来确定数据中心中所有设备的总体功率模型。例如，在一个实施例中，由于功率仅取决于如前所述执行的操作次数，所以根据步骤630的单个处理单元的能量消耗估计可以与数据中心的处理单元的数量相乘，以提供整个数据中心的能耗估计。步骤650中，根据并行处理设备的微架构，其编程语言以及在该并行处理设备上执行的计算的特性，确定并行处理设备的计算能力。对于数据密集型处理，在一些实施例中，在处理单元上以单指令多数据(single instruction multiple data，SIMD)方式(例如，以流方式)执行数据流。处理单元在同一结构上重复执行相同的指令流操作。如果处理单元的频率和温度不变，则其吞吐量可以近似为常数。因此，可以通过测量吞吐量确定计算能力。步骤660中，根据在步骤640中确定的功率模型来执行优化(例如，通过优化用于在数据中心的设备上执行的处理所用的算法和/或编码策略)。步骤670中，响应于方法600的操作结果和估计，通过执行性能调整操作(例如域划分、负载并行化、动态频率缩放和/或工作负载调度)增加数据中心的功率效率。

在一个实施例中，计算性能和功率效率分析由多个增量步骤组成。将每个步骤的结果与原始设计目标进行比较，然后根据所说明的改进，确定进一步细化，直到达到期望的功率性能和/或效率。

图7为示出在K均值聚类操作期间某些CPU使用水平的功率测量的图表700。在一个实施例中，可以通过图1所示的数据中心100的功率传感器阵列，以及通过实现能量估计方法(例如分别在图5和图6中所示的方法500和/或方法600)获得图表700。图表700示出了CPU在K均值聚类操作的一次迭代以及数据标记和回写期间所使用的功率量，对应于在相同计算周期内的CPU使用量。根据图表700，可以进行确定(例如能量使用和/或数据与瓦特比)，用于创建能量模型(例如根据图5和图6分别所示的方法500和/或600)。

K均值聚类为一种平坦型聚类操作，提供可用于匹配现实用例复杂性的应用。例如，在K均值聚类的一个实现方式中，给定总目标数n，以及聚类数量k，令表示总共K个初始聚类中心(例如质心)。在m-th迭代聚类操作中，聚类质心表示为进一步地，令S_i表示聚类i，S_j表示聚类j，其中i,j∈1,2,.......,k,i≠j。在m-th聚类操作中，令和分别表示聚类中心为和的目标集。时，根据条件每个目标e都在k个聚类中重新分配。i∈1,2,.......,k,时，对新的聚类中心进行计算，其中包括与新的聚类中心的所有目标e的平方距离总和。新聚类由得出。i＝1,2,...,k时，重复K均值聚类步骤，直至K均值聚类操作收敛，操作终止。在K均值聚类的一些实施例中，大量的计算时间消耗在计算定义了一个操作成本O(d)的向量距离上。K均值聚类过程的重新分配步骤计算kn距离，得到整体复杂度O(knd)。在重新计算步骤中，每个向量被添加到质心一次，得到此步骤的复杂性O(nd)。因此，对于固定次数的迭代i，整体的复杂性为O(iknd)。因此，K均值聚类在迭代因子i，聚类数k，向量数n和空间维度d方面是线性的。在大多数情况下，K均值聚类在相对较短的时间段内达到完全收敛或接近收敛的聚类。在后一种情况下，如果计算进一步的迭代，一些数据元素将切换聚类成员资格，但这对聚类整体质量影响很小。如果k和d(维度)是固定的，则可以在时间O(n^dk+1logn)上执行K均值聚类，其中n是要聚类的实体的数量。

在K均值聚类中，利用稀疏度量生产来根据低级处理对矢量距离进行计算。因此，对数据执行运算的计算设备或处理单元遵循SIMD(例如以流方式重复相乘和相加操作)。当处理单元的频率和温度不变时，任何时间单位的执行次数都是固定的，CPU功率被建模为一个恒定值。如果数据中心的每个处理单元具有类似的不变特性，则处理单元的能量消耗将仅取决于操作的次数及其执行操作的数据的大小。用于完成K均值聚类任务的总能量与输入数据大小、采样数、迭代次数和聚类数是线性相关的。当获得上述关系中的线性系数时，可以确定目标分布式平台上的K均值聚类应用的功率成本。

图8为示出在K均值聚类操作期间存储器(例如硬盘驱动器)、主电路板和内存使用水平的功率测量的图表800。在一个实施例中，可以通过图1所示的数据中心100的功率传感器阵列获得图表800。图表800示出了K均值聚类操作的一次迭代以及数据标记和回写期间所使用的功率量。图表800还示出在K均值聚类操作的一次迭代和数据标记和回写过程中用于主电路板和存储器操作的功率。根据图表800可以进行确定(例如能量使用)，用于创建能量模型(例如根据图5和图6分别所示的方法500和/或600)。

图9为示出K均值聚类操作时的数据吞吐量的图表900。图表900演示了在K均值聚类操作期间发生的各种过程的数据与瓦特比。数据与瓦特比指示针对给定消耗的功率量(例如，每瓦特消耗的功率处理的数据的兆字节数)处理的数据量。在一个示例中，对于由处理单元(例如图1所示的计算资源110)执行的给定功能，涉及该处理单元的多个子组件(例如，诸如计算组件120的CPU、包括诸如网络组件140的功能的主板，以及诸如存储组件130的硬盘驱动器)。每个子组件在处理数据中消耗一定量的功率，如图表900所示。通过使用子组件执行对数据的处理来跟踪这些子组件的功率使用，可以确定分别对于子部件的数据与瓦特比，以及子组件所在的处理单元。根据诸如图表900的图表确定数据与瓦特比为根据本文，例如图5所示的方法500的步骤520确定使用的数据与瓦特比的一种方式。

本文中描述的特征/方法中的至少一些可以在图10所示的网元(networkelement，NE)1000中实现。例如，本文的特征/方法可以使用硬件，固件和/或安装在硬件上运行的软件来实现。网元1000可以为任何可以通过网络、***和/或域传输数据的设备(例如接入点、接入点站、路由器、交换机、网关、桥接器、服务器、客户端、用户设备、移动通信设备等)，和/或任何向网络中的其它设备提供服务或执行计算功能的设备。此外，术语网络“元件”、网络“节点”、网络“组件”、网络“模块”和/或类似术语可以互换使用，用来大体描述网络设备，除非另有具体陈述和/或声明，否则在本文中且没有特定或特殊的含义。在一个实施例中，网元1000可以为用于提供如方法500和/或方法600中所描述的能量估计和/或建模的装置。

网元1000可包括耦合到收发器(Tx/Rx)1020的一个或多个下游端口1010，其可以为发射器、接收器或其组合。Tx/Rx 1020可通过下游端口1010从其它网络节点发送和/或接收帧。类似地，网元1000可包括耦合到多个上游端口1040的另一个Tx/Rx 1020，其中Tx/Rx1020可通过上游端口1040从其它节点发送和/或接收帧。下游端口1010和/或上游端口1040可包括电和/或光发送和/或接收组件。在另一实施例中，网元1000可以包括耦合到Tx/Rx1020的一个或多个天线(未示出)。Tx/Rx 1020可以以无线方式通过一个或多个天线从其它网络元件发送和/或接收数据(例如报文)。

处理器1030可以耦合到Tx/Rx 1020，且可以用于为处理帧和/或确定向哪些节点发送(例如传输)报文。在一个实施例中，处理器1030可包括一个或多个多核处理器和/或存储器模块1050，其可以用作数据存储器、缓冲器等。处理器1030可实现为通用处理器或者可以为一个或多个专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)和/或数字信号处理器(digitalsignal processor，DSP)。尽管被示为单个处理器，但是处理器1030并不限于此，可以包括多个处理器。处理器1030可以用于通信和/或处理多目的地帧。

图10还示出了存储模块1050，可以与处理器1030耦合，并可以是用于存储各种类型数据的非瞬时性介质。存储模块1050可以包括存储设备，包括辅助存储器，只读存储器(read-only memory，ROM)和随机存取存储器(random-access memory，RAM)。辅助存储器通常包括一个或多个磁盘驱动器、光驱、固态驱动器(solid-state drive，SSD)和/或磁带驱动器，并且用于数据的非易失性存储，而且如果RAM的容量不足以存储所有工作数据辅助存储器则用作溢流数据存储设备。辅助存储器可用于当加载到RAM中程序被选择执行时存储这类程序。ROM用于存储指令，可能还存储在程序执行期间读取的数据。ROM未非易失性存储器设备，通常具有相对于辅助存储器的大存储容量来说较小的内存容量。RAM用于存储易失性数据，可能还存储指令。访问ROM和RAM通常都快于访问辅助存储器。

存储模块1050可以用于容纳用于执行本发明所述的各种实施例的指令。在一个实施例中，存储器模块1050可包括能力估计模块1060，可在处理器1030上实现，并可用于估计处理单元根据方法500所用的能量值，如上文图5所述。

应理解的是，通过编程可执行指令和/或将可执行指令载入网元1000，处理器1030和/或存储器1050中的至少一个发生变化，将网元1000部分转换成特定机器或装置，例如，具有本发明所述的新颖功能的多核转发架构。加载可执行软件至计算机所实现的功能可以通过现有技术中公知的设计规则转换成硬件实施，这在电力工程和软件工程领域是很基础的。决定使用软件还是硬件来实施一个概念通常取决于对设计稳定性及待生产的单元数量的考虑，而不是从软件领域转换至硬件领域中所涉及的任何问题。通常，仍在经受频繁改变的设计优选可在软件中实施，因为重改硬件实施方案比重改软件设计更为昂贵。通常，稳定及大规模生产的设计更适于在硬件(如ASIC)中实施，因为运行硬件实施的大规模生产比软件实施更为便宜。设计通常可以以软件形式进行开发和测试，之后通过现有技术中公知的设计规则转变成ASIC中等同的硬件实施，该ASIC硬线软件指令。由新ASIC控制的机器是一特定的机器或装置，同样地，编程和/或加载有可执行指令的电脑可视为特定的机器或装置。

本发明的任何处理可以通过使处理器(例如，通用多核处理器)执行计算机程序来实施。在此情况下，可以向计算机或使用任何类型的非暂时性计算机可读媒体的网络设备提供计算机程序产品。计算机程序产品可以存储于计算机或网络设备中的非暂时性计算机可读媒体中。非暂时性计算机可读媒体包含任何类型的有形存储媒体。非瞬时性计算机可读介质的示例包括磁性存储介质(如软盘、磁带、硬盘驱动器等)、光磁性存储介质(如磁光盘)、只读光盘(compact disc read-only memory，CD-ROM)、可录光盘(compact discrecordable，CD-R)，可重写光盘(compact disc rewritable，CD-R/W)、数字多功能光盘(digital versatile disc，DVD)、蓝光(注册商标)光盘(Blu-ray disc，BD)和半导体存储器(如掩模ROM、可编程ROM(programmable ROM，PROM)、可擦PROM、闪存ROM和RAM)。还可以向计算机或使用任何类型的暂时性计算机可读媒体的网络设备提供计算机程序产品。暂时性计算机可读媒体的实例包含电信号、光信号和电磁波。暂时性计算机可读媒体可以经由有线通信线(例如，电线和光纤)或无线通信线向计算机提供程序。

虽然本发明中已提供若干实施例，但应理解，在不脱离本发明的精神或范围的情况下，本发明所公开的***和方法可以以许多其它特定形式来体现。本发明的实例应被视为说明性而非限制性的，且本发明并不限于本文本中所给出的细节。例如，各种元件或组件可以在另一***中组合或整合，或者某些特征可以省略或不实施。

此外，在不脱离本发明的范围的情况下，各种实施例中描述和说明为离散或单独的技术、***、子***和方法可以与其它***、模块、技术或方法进行组合或合并。展示或论述为彼此耦合或直接耦合或通信的其它项也可以采用电方式、机械方式或其它方式经由某一接口、设备或中间组件间接地耦合或通信。其他变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。

Claims

1.一种装置，其特征在于，包括：

接收器，用于从多个功率传感器接收多个功率测量结果；

处理器，耦合至所述接收器，用于：

通过确定多个功率测量结果的总和来确定数据中心的处理单元使用的功率量；

确定指示所述处理单元处理数据量的功率成本的数据与瓦特比；

确定由所述处理单元处理数据量的估计执行时间；

确定指示所述处理单元用于处理数据量的能量的估计能量消耗。

2.根据权利要求1所述的装置，其特征在于，所述多个功率测量结果是从位于所述数据中心的处理设备的设备层的多个功率传感器接收的。

3.根据权利要求1所述的装置，其特征在于，所述多个功率测量结果是从位于所述数据中心的处理设备的电路板层的多个功率传感器接收的。

4.根据权利要求1所述的装置，其特征在于，所述多个功率测量结果是从位于所述数据中心的处理设备的集成电路层的多个功率传感器接收的。

5.根据权利要求1所述的装置，其特征在于，所述数据与瓦特比通过是将所述处理单元在给定时间段内的数据吞吐量除以所述处理单元在所述给定时间段内使用的功率量而确定。

6.根据权利要求1所述的装置，其特征在于，所述估计执行时间是通过将处理单元要处理的数据总量除以处理单元的最大数据吞吐量水平而确定。

7.根据权利要求1所述的装置，其特征在于，所述估计能量消耗是通过将所述估计执行时间乘以根据所述多个功率测量结果的总和确定的所使用的平均功率量而确定。

8.一种用于调整处理数据流的处理单元的性能的方法，其特征在于，包括：

控制在处理单元上执行的程序的低层代码的行为；

抽象和建模程序的行为，以进行分析和研究；

确定所述处理单元在执行计算任务时使用的能量的估计值；

确定多处理平台的总体功率模型；

确定并行处理设备的计算能力；

根据总体功率模型优化编码策略；

调整所述处理单元以提高所述处理单元的功率效率水平。

9.根据权利要求8所述的方法，其特征在于，所述确定所述处理单元在执行计算任务时使用的能量的估计值包括：将用于执行计算任务的估计执行时间乘以预计用于执行计算任务的平均功率量。

10.根据权利要求9所述的方法，其特征在于，所述预计用于执行计算任务的平均功率量是根据所述处理单元在稳态操作时使用的功率量而确定。

11.根据权利要求8所述的方法，其特征在于，所述并行处理设备的计算能力根据所述并行处理设备的微处理器，所述并行处理设备中使用的编程语言，以及在所述并行处理设备上执行的计算的特性而确定。

12.根据权利要求8所述的方法，其特征在于，所述调整所述处理单元以提高功率效率水平包括：域分区、负载并行化、动态频率缩放或工作负载调度中的至少一项。

13.根据权利要求8所述的方法，其特征在于，所述总体功率模型是根据所述处理单元中的各个组件的功率测量结果的累加值而确定。

14.根据权利要求8所述的方法，其特征在于，所述方法在时域和硬件域中执行，其中各组件的频率是变化的，计算能力和功耗随各组件频率的变化而变化，且通过改变各组件的频率以调整所述处理单元，从而满足性能要求。

15.根据权利要求8所述的方法，其特征在于，所述方法有助于预测功率使用量。

16.根据权利要求8所述的方法，其特征在于，所述方法包括基于所述处理单元的工作负载特性的能量模型。

17.一种用于对处理单元中的能量使用进行建模的方法，其特征在于，包括

对位于数据中心的处理单元的多个组件进行功率测量；

根据所述多个功率测量结果确定平均功率使用量；

确定所述处理单元对数据流执行至少一个操作的估计执行时间；

根据所述平均功率使用量和所述估计执行时间确定能量消耗估计值。

18.根据权利要求17所述的方法，其特征在于，所述确定所述平均功率使用量包括：确定在稳态操作时所述处理单元的功率使用量。

19.根据权利要求17所述的方法，其特征在于，所述确定所述估计执行时间包括：将所述处理单元执行所述至少一个操作所需的工作负载除以所述处理单元的最大计算吞吐量值。

20.根据权利要求17所述的方法，其特征在于，所述确定所述能量消耗估计值包括：将所述平均功率使用量乘以所述估计执行时间。