CN117667606B - 基于用户行为的高性能计算集群能耗预测方法及*** - Google Patents
基于用户行为的高性能计算集群能耗预测方法及*** Download PDFInfo
- Publication number
- CN117667606B CN117667606B CN202410146277.9A CN202410146277A CN117667606B CN 117667606 B CN117667606 B CN 117667606B CN 202410146277 A CN202410146277 A CN 202410146277A CN 117667606 B CN117667606 B CN 117667606B
- Authority
- CN
- China
- Prior art keywords
- energy consumption
- data
- sequence
- user
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 167
- 238000005265 energy consumption Methods 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000694 effects Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000003068 static effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004634 pharmacological analysis method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了基于用户行为的高性能计算集群能耗预测方法及***,涉及高性能计算、云计算技术领域,获取实时监视的所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值。本公开考虑用户行为对能耗的影响,从而实现更精准的预测。
Description
技术领域
本公开涉及高性能计算、云计算技术领域,具体涉及基于用户行为的高性能计算集群能耗预测方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
高性能计算(High Performance Computing,HPC)集群可以快速高效地完成复杂的科学计算任务,已经逐渐成为气象、药理分析、人工智能等科研领域不可或缺的基础设施。随着HPC集群性能和规模的快速增长,其能耗问题也日益突出,这些问题不仅会影响服务器的使用寿命、增加运营成本,还制约了集群规模的进一步增长。如何提高HPC集群的能源效率成为了当前面临的主要问题。
能耗预测是提高HPC集群能效水平、实现节能调度的基础,现有的预测方法通常将能耗数据看作一种时间序列数据,并使用(Autoregressive Integrated Moving AverageModel, ARIMA)、长短期记忆神经网络(Long Short Term Memory, LSTM)等经典的时间序列预测模型进行预测,这些方法的核心思想是从时序数据中学习潜在的变化规律,并依据这些规律对未来的数据做出预测。但是将这些方法直接应用于HPC集群的能耗预测存在一些问题,用户的某些行为如提交、终止作业等会对集群能耗产生较大的影响,除非用户的这些行为在时间上存在明显的规律性,否则单纯使用时间序列预测模型无法预测这种突发波动,从而导致预测曲线在这种位置存在明显的滞后,当集群中存在大量运行时间较短的小规模作业时这种现象尤为明显,现有的能耗预测中由于不能精准捕捉用户行为的影响,及时发现这种突发波动,从而影响了集群能源效率。
发明内容
本公开为了解决上述问题,提出了基于用户行为的高性能计算集群能耗预测方法及***,通过建立用户行为预测模型实现对用户行为序列的准确预测;然后将预测获得的用户行为序列作为协变量与集群能耗数据进行合并,使其能够感知到用户行为对能耗的影响,从而实现对集群能耗更加准确的预测。
根据一些实施例,本公开采用如下技术方案:
基于用户行为的高性能计算集群能耗预测方法,包括:
获取实时监视的设定时间窗口内所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;
提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;
将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值。
根据一些实施例,本公开采用如下技术方案:
基于用户行为的高性能计算集群能耗预测***,包括:
数据采集模块,用于获取实时监视的所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;
数据处理模块,用于提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;
用户行为预测模块,用于将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;
能耗预测模块,用于将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值。
与现有技术相比,本公开的有益效果为:
本公开提供了一种基于用户行为的高性能计算集群能耗预测方法,首先通过建立用户行为预测模型对用户未来可能执行的行为序列做出预测,然后将预测获得的行为序列作为协变量与集群能耗数据进行合并,获得包含用户行为信息的高维时序数据;最后将这种高维时序数据输入到能耗预测模型进行处理,并生成对集群各机柜、节点能耗的预测。
本公开通过嵌入层编码用户行为,并使用图学习层和图卷积模块学习用户行为的局部关联,然后通过序列化模块将图卷积模块输出的数据重新组织为序列结构,并与原始数据建立残差连接;最后使用LSTM模块学习用户行为的全局特征,并生成对用户行为序列的预测;相较于现有的能耗预测方法,本发明着重考虑了用户行为对能耗的影响,能耗时序数据中包含的用户行为信息可以让能耗预测模型及时发现可能影响能耗的用户行为,从而实现更精准的预测。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例提供的基于用户行为预测的高性能计算集群能耗预测方法的流程图;
图2为本公开实施例提供的能耗预测方法中用户行为预测模型与能耗预测模型的训练过程示意图;
图3为本公开实施例提供的用户行为预测模型内部结构图;
图4为本公开实施例提供的能耗时序数据与用户行为数据合并以及特征序列扩增的过程示意图;
图5为本公开实施例提供的预测效果评估与模型更新流程示意图;
图6为本公开实施例提供的基于用户行为预测的高性能计算集群能耗预测***的整体架构图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例提供了一种基于用户行为的高性能计算集群能耗预测方法,包括:
步骤一:获取实时监视的所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;
步骤二:提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;
步骤三:将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值。
作为一种实施例,如图1所示,本公开一种基于用户行为的高性能计算集群能耗预测方法中模型的训练方法为:
步骤S101:训练预测模型。所述预测模型包括用户行为预测模型和集群能耗预测模型。
其中用户行为预测模型以用户当前行为序列作为输入,以用户行为预测数据作为输出;集群能耗预测模型以一定时间窗口内的多维能耗时序数据作为输入,以集群内各节点、机柜的能耗预测数据作为输出。
参照图2,用户行为预测模型和集群能耗预测模型基于以下步骤训练:
步骤S201:数据采集与清洗。采集并记录HPC集群中的所有机柜以及计算节点的能耗数据;记录所有用户行为信息并将其组织为会话形式。
所述能耗数据包括:CPU功率、节点功率和机柜功率。
所述用户行为信息包括用户在一次服务器连接中执行的所有操作,包括登录、查看资源、执行命令、提交作业、中止作业、退出等。由于用户提交不同类型的作业对能耗的影响不同,所以提交作业这一行为会根据作业类型被划分为多种不同类型的操作。
步骤S202:生成用户行为数据集。在本实施例中,用户行为数据需要进行分类编码并组织为图数据结构,以便使用图神经网络对其进行处理。其具体处理过程在步骤S301中进行介绍。
步骤S203:训练用户行为预测模型。使用S202中生成的用户行为数据集训练用户行为预测模型。本实施例提供了一个用户行为预测模型的参考实现,模型具体信息在步骤S103中进行介绍。
步骤S204:生成多维能耗数据集。创建能耗数据集需要经过合并用户行为序列与集群能耗序列、为能耗序列扩充协变量序列、划分序列类别等一系列过程。该过程与步骤S104基本相同,但是本步骤中使用的用户行为数据是预先采集到的真实数据,而步骤S104中使用的用户行为数据用户行为数据是由步骤S103获得的预测数据。
步骤S205:训练集群能耗预测模型。使用S204中生成的能耗数据集训练能耗预测模型,本实施例采用TFT(Temporal Fusion Transformer)模型作为能耗预测模型。
请注意,用户行为预测模型和集群能耗预测模型具有多种选择,本实施例仅作为一种实现参考而不应被理解为受限于此阐述的范例;相反,本实施例所描述的特征、结构或特性可以以合适的方式结合在任何实施方式中。
步骤S102:实时数据采集与处理。实时采集并记录一定时间窗口内节点、机柜的能耗数据,实时记录所有处于活跃状态的用户会话数据,这些数据将作为后续预测步骤的输入。
所述能耗数据包括:CPU功率、节点功率和机柜功率。
所述用户行为信息包括用户在一次服务器连接中执行的所有操作,包括登录、查看资源、执行命令、提交作业、中止作业、退出等。
本步骤所采集的数据类型与步骤S201基本相同,但是由于本步骤采集的数据只会用于后续步骤中的单次预测以及可能发生的在线训练,所以只需要记录处于活跃状态的会话数据和有限时间窗口内的能耗数据。
步骤S103:用户行为预测。将用户当前行为数据输入到步骤S101中生成的用户行为预测模型,预测用户接下来一段时间内的操作序列。本实施例中的用户行为预测模型结合使用了图卷积网络和LSTM网络,分别用于学习用户行为的局部关联和全局顺序。
具体参照图3,用户行为预测主要包括以下步骤:
步骤S301:数据预处理。本步骤的主要过程如下所述:
假设用户操作类型的集合为,在整理用户会话数据时需要将会话中的操作按照时间戳进行排序,排序后的行为序列可以表示为,其中的任意元素/>代表用户在会话/>中进行的第/>次操作的类型。
同时,每个会话都可以被组织为一个有向图,在这个有向图中,每个节点代表一种类型的操作/>,每条边/>代表该会话中用户在进行/>操作后进行了/>操作。
此外,为了建模用户连续操作间的停顿时间,需要为有向图的每条边添加一个基于时间的权重,假设停顿时间的集合为/>,为了避免时间分布范围过大对模型产生负面影响,需要对/>进行如下处理:
使用上述步骤依次处理所有会话即可得到用户会话数据集。
步骤S302:图卷积模块。图神经模块处理输入的图数据结构,学习图中相邻节点之间的关系,并为图中的每个节点生成一个潜向量。在本实施例中,图卷积模块用于学习用户操作的局部偏好。
步骤S303:序列化模块。将图卷积模块输出的数据按照用户行为的原始顺序重新组织为线性序列结构,以便于后续模块从全局层次上进一步学习用户行为的顺序特征。
步骤S304:残差连接模块。本步骤在图卷积模块的输出和原始数据间建立残差连接,以加快模型训练速度并获得更好的预测效果。
步骤S305:LSTM模块。本步骤将编码为潜向量的用户操作序列作为LSTM模型的输入数据,用于学习用户行为的全局顺序特征。
步骤S306:数据解码模块。本步骤首先使用一个线性层对LSTM模块输出的潜向量进行线性映射,然后通过归一化指数函数(Softmax)层计算各类行为发生的概率,最后将概率最高的行为作为预测结果输出。
步骤S104:数据序列合并与扩增。本步骤的重点是将S103中预测获得的用户行为序列作为协变量添加到集群能耗数据中,并在此基础上为能耗时序数据扩充更多特征序列,使其称为具有更多特征的多维时序数据。
参照图4,数据序列合并与扩增包含以下步骤:
步骤S401:数据序列合并。首先在能耗数据中添加多个特征列,其中每列对应一类用户行为,然后将步骤S103中预测得到的用户行为按照时间戳进行匹配并添加到相应特征列中。
假设当前输入窗口内的能耗数据对应的时间戳集合为T,则合并数据序列的具体步骤如下所述:
从集合T中提取最近的时间戳t;
遍历步骤S103输出的用户行为序列,从中获取与t对应的操作集合H
遍历集合H,获取其中的每个操作h与受其影响的节点列表N
遍历节点列表N,将h添加到其中所有节点的对应特征列中
重复3、4直到集合H遍历完成
重复1-5直到集合T为空
步骤S402:特征序列扩增。为步骤S401中生成的能耗时序数据扩充更多特征序列,包括所属用户、队列、资源池、工作日、节假日、月份、季节等信息,使其包含更多会对能耗产生影响的因素,成为多维时序数据;
步骤S403:序列分类。按照能耗预测模型的需求对上述步骤生成的多维时序数据进行序列分类,本实施例中将其分为静态变量、过去的动态变量和已知的未来动态变量三种类型。
步骤S105:集群能耗预测。将步骤S104中得到的多维时序数据输入到步骤S101中生成的能耗预测模型,得到对集群各机柜、节点未来一段时间的能耗预测值。
本步骤所述能耗预测模型为Temporal Fusion Transformer(TFT)模型,其要求将输入数据划分为静态变量、过去的动态变量和未来已知的动态变量三种类型。在本实施例中,静态变量包含用户、队列、资源池信息;过去的动态变量包含节点、机柜功率等集群相关的能耗信息;未来已知的动态变量包含用户行为、工作日、节假日、季节等时间信息。
注意,由步骤S103预测获得的用户行为信息被划分为未来已知的动态变量,这是本发明中能耗预测模型能够感知用户行为的关键。
步骤S106:效果评估与模型更新。评估能耗预测效果,如果预测误差超过阈值,则使用最近累积的数据生成新的数据集,对模型进行在线训练,使其适应新数据,提高预测效果。
具体过程如图5所示,主要包含以下步骤:
步骤S501:创建长队列D1、E1与短队列E2。队列E1、E2用于存储模型在不同长度的时间窗口内的预测误差,队列D1用于存储与E1对应的时间窗口内的输入数据。
步骤S502:获取单次预测的输入数据并加入到队列D1。预测模型的每执行一次预测,就将本次预测的输入数据存储到队列D1中。
步骤S503:获取单次预测的误差值并加入到队列E1和E2。预测模型每执行一次预测,就将本次预测的误差值存储到队列E1和E2中。
步骤S504:计算队列E1和E2的JS散度。
首先使用核密度估计法估计队列E1和E2中误差值的概率分布,然后使用JS散度(Jensen-Shannon Divergence,JSD)衡量队列E1和E2中的数据在概率分布上的差异,JS散度计算过程如下:
其中表示KL散度(Kullback–Leibler divergence,KLD),/>、/>分别表示两组误差值的概率分布函数。
步骤S505:判断E1和E2的分布差异是否超过阈值。如果未超过阈值,则回到步骤S502;如果已超过阈值,则认为输入数据的特征已经发生改变,通过执行步骤S506更新模型以适应新数据。
步骤S506:以队列D1中的数据为数据集更新预测模型。更新预测模型的具体过程与步骤S101相同。
实施例2
本公开的一种实施例中提供了一种基于用户行为的高性能计算集群能耗预测***,包括:
数据采集模块,用于获取实时监视的所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;
本实施例中,所述HPC集群机柜以及计算节点的能耗信息通过在计算节点上安装的传感器以及节点操作***中的性能分析工具进行采集,采集指标包括CPU功率、节点功率、机柜功率等;所述用户会话数据通过部署在登录节点上的用户服务***以及部署在管控节点上的Slurm调度***获取,采集内容包括用户执行的所有操作如登录、查看资源、执行命令、提交作业、中止作业、退出以及用户提交的作业信息如工作目录、作业名称、请求的资源规模等数据。
数据处理模块,用于提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;
用户行为预测模块,用于将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;
本实施例中,所述会话为在当前处于活跃状态的用户会话,通过从中提取用户已经执行的操作组成行为序列,并将其组织成模型所需的图形式,即可输入用户行为预测模型进行预测。用户行为预测模型首先通过嵌入层编码用户行为并使用图卷积模块学习用户行为的局部关联,然后通过序列化模块和残差连接层将图结构数据重新转换为序列数据,最后使用LSTM模块生成对用户行为序列的预测并通过归一化指数函数()层输出用户行为的类别信息。
集群能耗预测模块,用于将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值。
本实施例中,能耗预测模块首先将集群能耗数据、集群资源使用信息与用户行为预测模块输出的行为预测信息进行整合;然后引入用户、资源池、节假日、季节等数据作为协变量,将时间序列扩充为拥有更多特征维度的高维时序数据;最后将时序数据输入到能耗预测模型并生成预测结果。因为本实施例中能耗预测模型采用了TFT模型,所以在将数据输入预测模型前需要将序列划分静态变量、过去的动态变量和已知的未来动态变量,其中,用户行为预测模块输出的预测操作序列被归类为已知的未来动态变量,这是能耗预测模型能够感知用户行为的关键所在。
还包括模型训练与评估模块,在能耗预测***上线前利用预先采集的数据训练初始预测模型,在***上线后持续评估预测效果,当预测效果明显下降时重新组织数据集并对模型进行在线训练,使模型适应新的数据,保证预测效果。
本实施例中,模型训练与评估模块通过维护两个长度不同的队列存储预测模型的预测误差,同时累积与短队列相对应的输入数据;两个队列分别用于衡量预测模型长期和短期的误差值分布情况,当两个队列中误差值的概率分布差异过大时,即认为输入数据产生了变化导致模型效果下降,此时使用累积的输入数据生成数据集并在线更新模型。
如图6所示,作为一种实施例,本公开的数据采集模块601、用户行为预测模块602、集群能耗预测模块603和模型训练与评估模块604的具体功能示意如下:
模块600:高性能计算集群。高性能计算集群包括少数登录节点和管控节点以及大量的计算节点。其中登录节点和管控节点配有日志***用于记录用户行为日志和作业调度日志;计算节点安装有传感器用于记录***能耗和资源使用情况。这些数据可被数据采集模块601收集并提取有用数据。
模块601:数据采集模块。负责从高性能集群600中的计算节点采集能耗数据,从登录节点和管控节点提取用户会话数据。
所述能耗数据通过在计算节点上安装的传感器以及节点操作***中的性能分析工具进行采集,采集指标包括CPU功率、节点功率、机柜功率等;
所述用户会话数据通过部署在登录节点上的用户服务***以及部署在管控节点上的Slurm调度***获取,采集内容包括用户执行的所有操作如登录、查看资源、执行命令、提交作业、中止作业、退出以及用户提交的作业信息如工作目录、作业名称、请求的资源规模等数据。
模块602:用户行为预测模块。通过数据采集模块601获取用户会话数据,并给出对用户将来行为序列的预测。
所述会话为在当前处于活跃状态的用户会话,从中提取用户已经执行的操作行为序列并组织成模型所需的图形式,即可输入用户行为预测模型进行预测。预测获得的用户行为序列会被发送到能耗预测模块603做进一步处理。
模块603:能耗预测模块。通过数据采集模块601获取集群能耗数据,通过用户行为预测模块602获取用户未来的行为序列,将上述数据合并为多维时序数据并作为模型输入,最终输出对集群未来能耗情况的预测。
本实施例中能耗预测模型采用了TFT模型,所以在将数据输入预测模型前需要将序列划分静态变量、过去的动态变量和已知的未来动态变量,其中,用户行为预测模块602输出的预测操作序列被归类为已知的未来动态变量,这是能耗预测模型能够感知用户行为的关键所在。
模块604:模型训练与评估模块。该模块的工作内容可以分为两个阶段:
在***上线前,利用数据采集模块601预先采集的数据训练初始预测模型。
在***上线后,通过能耗预测模块603持续获取预测结果并进行评估,在模型效果减弱时对模型进行在线训练与更新。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (8)
1.基于用户行为的高性能计算集群能耗预测方法,其特征在于,包括:
获取实时监视的所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;
提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;
将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至集群能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值;
将所述协变量与能耗数据进行数据合并、扩充特征序列,包括:
为能耗数据添加多个特征序列,其中每个序列对应一类用户行为,在协变量中引入用户、资源池、节假日以及季节数据,再按照时间戳进行匹配并添加到相应的特征序列中,进行数据合并以及特征序列扩充,获取包括多特征序列的高维时序能耗数据;
数据合并的具体步骤包括:
1)从总集合中提取最近的时间戳;
2)遍历获得的用户行为序列,从中获取与时间戳对应的操作集合;
3)遍历与时间戳对应的操作集合,获取其中的每个操作与受其影响的节点列表;
4)遍历节点列表,将每个操作添加到其中所有节点的对应特征列中;
5)重复遍历,直到操作集合遍历完成以及总集合为空。
2.如权利要求1所述的基于用户行为的高性能计算集群能耗预测方法,其特征在于,用户会话包括一个用户从登录到退出期间执行的所有操作,用户会话中包含的所有数据都带有时间戳;能耗数据包括机房中所有机柜和计算节点的功率数据。
3.如权利要求1所述的基于用户行为的高性能计算集群能耗预测方法,其特征在于,对所述用户行为序列进行分类编码,分类的操作类别包括登陆、查看资源、执行命令、提交作用、中止作业以及退出操作,其中,提交作用以及中止作用的行为根据作业的类型划分为多种不同的操作。
4.如权利要求2所述的基于用户行为的高性能计算集群能耗预测方法,其特征在于,所述功率数据包括CPU功率、节点功率和机柜功率。
5.如权利要求1所述的基于用户行为的高性能计算集群能耗预测方法,其特征在于,将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量,包括:首先通过嵌入层编码用户行为,并使用图学习层和图卷积学习用户行为的局部关联,然后通过序列化将图卷积中输出的数据重新组织为序列结构,并与原始输入数据建立残差连接,最后使用LSTM学习用户行为的全局特征,并生成对用户行为序列的预测,通过归一化指数函数转换为原始的类别信息进行输出。
6.如权利要求1所述的基于用户行为的高性能计算集群能耗预测方法,其特征在于,所述集群能耗预测模型为Temporal Fusion Transformer模型,其将输入的高维时序能耗数据划分为静态变量、过去的动态变量和未来已知的动态变量三种类型,所述静态变量包含用户、队列以及资源池信息,过去的动态变量包含节点、机柜功率以及和集群相关的能耗数据,未来已知的动态变量包含工作日、节假日、季节的时间信息。
7.如权利要求1所述的基于用户行为的高性能计算集群能耗预测方法,其特征在于,对预测得到的能耗值进行效果评估,包括:维护两个长度不同的误差值队列,同时累积与短队列相对应的输入数据,两个队列用于比较预测模型长期和短期的误差值分布情况,首先使用核密度估计法从数值序列中估计概率分布,然后使用JS散度衡量两个概率分布间的差异,当两组值的分布差异超过预先设定的阈值时,即认为输入数据产生了变化导致模型效果下降,此时使用累积的输入数据生成数据集并在线更新模型。
8.基于用户行为的高性能计算集群能耗预测***,其特征在于,包括:
数据采集模块,用于获取实时监视的所有处于活跃状态的用户会话以及各节点、机柜的能耗数据;
数据处理模块,用于提取用户会话中的用户行为序列,对所述用户行为序列进行分类编码并转换为图数据结构;
用户行为预测模块,用于将所述图数据结构输入至用户行为预测模型中,预测未来设定时间内的行为序列并作为协变量;
能耗预测模块,用于将所述协变量与能耗数据进行数据合并、扩充特征序列,获取包含用户行为信息的高维时序能耗数据,将所述高维时序能耗数据输入至集群能耗预测模型中,得到对集群各机柜、节点未来设定时间内的能耗预测值;
将所述协变量与能耗数据进行数据合并、扩充特征序列,包括:
为能耗数据添加多个特征序列,其中每个序列对应一类用户行为,在协变量中引入用户、资源池、节假日以及季节数据,再按照时间戳进行匹配并添加到相应的特征序列中,进行数据合并以及特征序列扩充,获取包括多特征序列的高维时序能耗数据;
数据合并的具体步骤包括:
1)从总集合中提取最近的时间戳;
2)遍历获得的用户行为序列,从中获取与时间戳对应的操作集合;
3)遍历与时间戳对应的操作集合,获取其中的每个操作与受其影响的节点列表;
4)遍历节点列表,将每个操作添加到其中所有节点的对应特征列中;
5)重复遍历,直到操作集合遍历完成以及总集合为空。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410146277.9A CN117667606B (zh) | 2024-02-02 | 2024-02-02 | 基于用户行为的高性能计算集群能耗预测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410146277.9A CN117667606B (zh) | 2024-02-02 | 2024-02-02 | 基于用户行为的高性能计算集群能耗预测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117667606A CN117667606A (zh) | 2024-03-08 |
CN117667606B true CN117667606B (zh) | 2024-05-24 |
Family
ID=90073566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410146277.9A Active CN117667606B (zh) | 2024-02-02 | 2024-02-02 | 基于用户行为的高性能计算集群能耗预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117667606B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006331135A (ja) * | 2005-05-26 | 2006-12-07 | Nec Corp | クラスタシステムの性能予測装置、性能予測方法及び性能予測プログラム |
JP2015035883A (ja) * | 2013-08-08 | 2015-02-19 | 株式会社トーク | 消費電力量予測システム、消費電力量予測装置、消費電力量予測方法、及び、プログラム |
JP2020035413A (ja) * | 2018-08-28 | 2020-03-05 | 日鉄エンジニアリング株式会社 | 電力需要予測システム、電力需要予測モデルの構築方法、プログラム、及び営業支援システム |
CN112418482A (zh) * | 2020-10-26 | 2021-02-26 | 南京邮电大学 | 一种基于时间序列聚类的云计算能耗预测方法 |
CN115220900A (zh) * | 2022-09-19 | 2022-10-21 | 山东省计算中心(国家超级计算济南中心) | 一种基于作业功耗预测的节能调度方法及*** |
CN115345355A (zh) * | 2022-08-02 | 2022-11-15 | 北京百度网讯科技有限公司 | 能耗预测模型构建方法、短期能耗预测方法及相关装置 |
WO2023272726A1 (zh) * | 2021-07-02 | 2023-01-05 | 深圳先进技术研究院 | 云服务器集群负载调度方法、***、终端以及存储介质 |
CN115698901A (zh) * | 2020-06-26 | 2023-02-03 | 英特尔公司 | 计算***中动态调度唤醒模式的方法、***、制品和装置 |
CN116069143A (zh) * | 2023-04-06 | 2023-05-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于作业相似性判断功耗预测的节能方法及*** |
CN116737521A (zh) * | 2023-06-21 | 2023-09-12 | 山东省计算中心(国家超级计算济南中心) | 一种基于自监督对比学习的hpc作业功耗预测方法及*** |
CN116894504A (zh) * | 2023-02-16 | 2023-10-17 | 国网河南省电力公司濮阳供电公司 | 一种风电集群功率超短期预测模型建立方法 |
CN117251754A (zh) * | 2023-08-04 | 2023-12-19 | 国网辽宁省电力有限公司经济技术研究院 | 一种计及动态时间包装的cnn-gru能耗预测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10331481B2 (en) * | 2017-03-08 | 2019-06-25 | International Business Machines Corporation | Automatic reconfiguration of high performance computing job schedulers based on user behavior, user feedback, and job performance monitoring |
FR3076005B1 (fr) * | 2017-12-22 | 2019-12-27 | Bull Sas | Commande de la consommation energetique d'une grappe de serveurs |
JP7177350B2 (ja) * | 2019-02-12 | 2022-11-24 | 富士通株式会社 | ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 |
US20220129745A1 (en) * | 2020-10-27 | 2022-04-28 | Sap Se | Prediction and Management of System Loading |
US11875189B2 (en) * | 2022-02-18 | 2024-01-16 | Sas Institute Inc. | System and methods for configuring, deploying and maintaining computing clusters |
-
2024
- 2024-02-02 CN CN202410146277.9A patent/CN117667606B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006331135A (ja) * | 2005-05-26 | 2006-12-07 | Nec Corp | クラスタシステムの性能予測装置、性能予測方法及び性能予測プログラム |
JP2015035883A (ja) * | 2013-08-08 | 2015-02-19 | 株式会社トーク | 消費電力量予測システム、消費電力量予測装置、消費電力量予測方法、及び、プログラム |
JP2020035413A (ja) * | 2018-08-28 | 2020-03-05 | 日鉄エンジニアリング株式会社 | 電力需要予測システム、電力需要予測モデルの構築方法、プログラム、及び営業支援システム |
CN115698901A (zh) * | 2020-06-26 | 2023-02-03 | 英特尔公司 | 计算***中动态调度唤醒模式的方法、***、制品和装置 |
CN112418482A (zh) * | 2020-10-26 | 2021-02-26 | 南京邮电大学 | 一种基于时间序列聚类的云计算能耗预测方法 |
WO2023272726A1 (zh) * | 2021-07-02 | 2023-01-05 | 深圳先进技术研究院 | 云服务器集群负载调度方法、***、终端以及存储介质 |
CN115345355A (zh) * | 2022-08-02 | 2022-11-15 | 北京百度网讯科技有限公司 | 能耗预测模型构建方法、短期能耗预测方法及相关装置 |
CN115220900A (zh) * | 2022-09-19 | 2022-10-21 | 山东省计算中心(国家超级计算济南中心) | 一种基于作业功耗预测的节能调度方法及*** |
CN116894504A (zh) * | 2023-02-16 | 2023-10-17 | 国网河南省电力公司濮阳供电公司 | 一种风电集群功率超短期预测模型建立方法 |
CN116069143A (zh) * | 2023-04-06 | 2023-05-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于作业相似性判断功耗预测的节能方法及*** |
CN116737521A (zh) * | 2023-06-21 | 2023-09-12 | 山东省计算中心(国家超级计算济南中心) | 一种基于自监督对比学习的hpc作业功耗预测方法及*** |
CN117251754A (zh) * | 2023-08-04 | 2023-12-19 | 国网辽宁省电力有限公司经济技术研究院 | 一种计及动态时间包装的cnn-gru能耗预测方法 |
Non-Patent Citations (4)
Title |
---|
A Job-Aware Decision Method for Hybrid HPC Cluster Scenarios;Bai, Y等;2023 8th International Conference on Intelligent Computing and Signal Processing (ICSP);20231006;全文 * |
云服务器的功耗预测和功耗封顶节能技术研究;吴光欣;中国优秀硕士学位论文全文数据库 (基础科学辑);20221015;全文 * |
多指标自趋优的GPU集群能耗控制模型;王海峰;陈庆奎;;计算机研究与发展;20150115(第01期);全文 * |
计算机***能耗估量模型研究;于俊洋;胡志刚;周舟;杨柳;;电子科技大学学报;20150530(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117667606A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karim et al. | BHyPreC: a novel Bi-LSTM based hybrid recurrent neural network model to predict the CPU workload of cloud virtual machine | |
US20200327285A1 (en) | Word Embeddings and Virtual Terms | |
CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
CN114647741A (zh) | 工艺自动决策和推理方法、装置、计算机设备及存储介质 | |
CN110658905B (zh) | 设备运行状态的预警方法、预警***及预警装置 | |
Liu et al. | Integrating artificial bee colony algorithm and BP neural network for software aging prediction in IoT environment | |
CN109636212B (zh) | 作业实际运行时间的预测方法 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及*** | |
CN116502162A (zh) | 边缘算力网络中的异常算力联邦检测方法、***及介质 | |
CN115983497A (zh) | 一种时序数据预测方法和装置、计算机设备、存储介质 | |
CN116047934A (zh) | 一种无人机集群的实时仿真方法、***以及电子设备 | |
CN117667606B (zh) | 基于用户行为的高性能计算集群能耗预测方法及*** | |
CN114818460A (zh) | 基于自动机器学习的实验室设备剩余使用寿命预测方法 | |
CN112667394A (zh) | 一种计算机资源利用率优化方法 | |
CN111353523A (zh) | 一种对铁路客户进行分类的方法 | |
Shuai et al. | Memtv: a research on multi-level edge computing model for traffic video processing | |
Lei et al. | Application of distributed machine learning model in fault diagnosis of air preheater | |
Jing et al. | CBLA_PM: an improved ann-based power consumption prediction algorithm for multi-type jobs on heterogeneous computing server | |
CN117435901B (zh) | 一种工业互联网数据获取方法、***、终端及储存介质 | |
Ge et al. | Hybrid degradation equipment remaining useful life prediction oriented parallel simulation considering model soft switch | |
CN114036823B (zh) | 基于编解码和记忆机制的电力变压器负载控制方法及装置 | |
CN112801372B (zh) | 数据处理方法、装置、电子设备和可读存储介质 | |
Vora et al. | Mining environmental data for prediction of transmission patterns of communicable diseases | |
Xia et al. | A process mining framework based on deep learning feature fusion | |
CN115563225A (zh) | 基于知识图谱关系推理的电网设备故障诊断方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |