CN117453493B

CN117453493B - 大规模多数据中心的gpu算力集群监控方法及***

Info

Publication number: CN117453493B
Application number: CN202311773601.1A
Authority: CN
Inventors: 闫鹏飞; 夏浩; 刘丁洋; 宫文策
Original assignee: Shandong Aite Yunxiang Information Technology Co ltd
Current assignee: Shandong Aite Yunxiang Information Technology Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-05-31
Anticipated expiration: 2043-12-22
Also published as: CN117453493A

Abstract

本发明提供大规模多数据中心的GPU算力集群监控方法及***，其中，方法包括：步骤1：采集大规模的服务器集群中多个数据中心的部署数据；步骤2：将部署数据推送至监控服务器，并存储；步骤3：调取监控数据；步骤4：根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口；步骤5：可视化监控结果，获得可视化结果。本发明的大规模多数据中心的GPU算力集群监控方法及***，将数据中心的部署数据推送至监控服务器并存储。构建Python SDK模块调取监控服务器中的监控数据，监控效率更高；对监控数据进行GPU算力集群监控，确定监控结果。另外，提供了数据获取接口，监控的拓展能力更强。

Description

大规模多数据中心的GPU算力集群监控方法及***

技术领域

本发明涉及电数字数据处理技术领域，特别涉及大规模多数据中心的GPU算力集群监控方法及***。

背景技术

大规模多数据中心是指由多个规模庞大的数据中心组成的复杂网络架构。这些数据中心可能分布在不同的地理位置，并通过高速网络互联，在大规模多数据中心中，负载均衡和容量规划是关键考虑因素。通过动态负载均衡和资源调度，可以实现资源的最优利用，避免单个数据中心过载或资源闲置。

GPU算力集群监控是指对一个由多个GPU节点组成的集群进行实时监测、数据收集和分析的过程，其目的是确保GPU集群的稳定运行、性能优化和资源管理。现有的GPU监控多为面向英伟达品牌的监控，且监控GPU的方法拓展性较差，无法兼容国产GPU的监控。

申请号为：CN202211701367.7的发明专利公开了算力服务器的算力监控方法、装置及存储介质，其中，方法包括：实时计算算力服务器四个维度的算力并生成算力运行历史数据；其中，所述四个维度分别是：整机级、算力板级、计算芯片级和计算单元级；根据所述算力运行历史数据判断所述算力服务器是否出现四个维度中至少一个维度的算力异常，是则查询对应维度的异常处理策略，根据查询到的异常处理策略进行对应维度的告警处理。上述发明的方案能够全方位监控算力服务器的算力，降低算力服务器整机运行异常的风险。

但是，上述算力的监控聚焦于本地及局域网范围内的监控，而在大规模多数据中心场景下存在监控网络互相独立且业务复杂多样的情形，监控拓展能力较差，监控效率也更低。

有鉴于此，亟需大规模多数据中心的GPU算力集群监控方法及***，以至少解决上述不足。

发明内容

本发明目的之一在于提供了大规模多数据中心的GPU算力集群监控方法及***，将采集的大规模的服务器集群中多个数据中心的部署数据推送至监控服务器并基于key/value存储。构建Python SDK模块，调取监控服务器中的监控数据，监控效率更高；对监控数据进行GPU算力集群监控，确定监控结果。另外，提供了监控结果的数据获取接口，提升了算力监控的拓展能力。

本发明实施例提供的大规模多数据中心的GPU算力集群监控方法，包括：

步骤1：采集大规模的服务器集群中多个数据中心的部署数据；

步骤2：将部署数据推送至监控服务器，并基于key/value存储；

步骤3：基于Python SDK模块，调取监控数据；

步骤4：根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口；

步骤5：将监控结果进行可视化，获得可视化结果。

优选的，步骤1：采集大规模的服务器集群中多个数据中心的部署数据，包括：

根据预设的采集程序，确定显卡数据；

基于预设的规范性脚本，根据显卡数据，确定可识别格式数据；

将可识别格式数据推送给预设的监控工具，获得部署数据。

优选的，步骤2：将部署数据推送至监控服务器，并基于key/value存储，包括：

基于key/value，根据部署数据，确定存储数据；

基于时间序列数据存储方法，将存储数据在监控服务器的内存和预写日志中保存。

优选的，步骤3：基于Python SDK模块，调取监控数据，包括：

获取预设的开源监控警报工具集的REST API；

确定Python SDK的所需功能，所需功能包括：查询选择的节点的实时监控数据、查询选择的时间段内的历史监控数据、异步查询和查询失败处理；

根据所需功能和REST API，确定目标API；

根据目标API，确定URL和身份验证参数；

根据URL和身份验证参数，确定目标Python函数；

根据目标Python函数的返回参数，确定目标Python类；

根据目标Python函数和目标Python类，构建Python SDK模块；

获取监控指标；

根据监控指标，确定Python SDK模块的调取接口；

基于调取接口，调取监控数据。

优选的，步骤4：根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口，包括：

对监控数据进行数据汇聚，获得汇聚数据；

对汇聚数据进行数据清洗，获得清洗数据；

对清洗数据进行数据分析，获得监控结果；

获取前端调用需求，并根据前端调用需求封装需求API接口，将需求API接口作为数据获取接口；

其中，对监控数据进行数据汇聚，获得汇聚数据，包括：

基于业务需求，确定选择节点；

根据选择节点，确定监控数据中的待汇聚数据；

解析待汇聚数据，确定每一选择节点的数据项；

获取数据项的时间戳；

基于预设的数据结构，根据数据项和时间戳，确定汇聚数据；

其中，对汇聚数据进行数据清洗，获得清洗数据，包括：

对汇聚数据进行缺失值处理，获得补全数据；

基于预设的异常值处理规则，对补全数据进行异常值处理，获得清洗数据；

其中，异常值处理规则，包括：

计算补全数据的标准差，若标准差大于等于预设的第一阈值，则将对应补全数据作为第一异常值；

基于预设的业务规则，根据补全数据，确定第二异常值；

将第一异常值和第二异常值进行数据去重，并作为目标异常值；

对目标异常值进行异常归因，确定异常原因；

根据异常原因，进行数据修正。

优选的，对清洗数据进行数据分析，获得监控结果，包括：

根据清洗数据的数据指标，对清洗数据进行趋势分析，获得第一监控子结果，第一监控子结果为：未来***需求；

根据清洗数据的来源节点的不同，分析来源节点之间的影响关系，根据影响关系，确定第二监控子结果，第二监控子结果为：资源分配优化方案；

根据清洗数据，进行***性能评估，获得第三监控子结果，第三监控子结果为：性能优化方案；

将第一监控子结果、第二监控子结果以及第三监控子结果共同作为监控结果。

优选的，根据清洗数据的来源节点的不同，分析来源节点之间的影响关系，根据影响关系，确定第二监控子结果，包括：

获取来源节点的节点属性；

根据节点属性，判断来源节点是否可能存在资源抢占冲突；

若可能存在资源抢占冲突，将对应来源节点划分至同一数据集，并作为待分析节点集；

获取同一待分析节点集中每一待分析节点的未来触发任务；

根据未来触发任务，确定待分析节点的未来所需资源，并获取未来所需资源的需求时间点；

将同一待分析节点集对应的所有未来所需资源的需求时间点分别进行时间对齐；

根据需求时间点距离当前时间点从近到远的顺序，依次遍历需求时间点；

每次遍历时，确定正在遍历的需求时间点对应的未来所需资源，并作为未来资源需求情况；

分析未来资源需求情况是否满足资源平衡；

若满足，则继续遍历需求时间点；

若不满足，确定资源分配结果后再继续遍历需求时间点；

当所有需要遍历的需求时间点遍历完成后，将所有资源分配结果共同作为第二监控子结果。

优选的，若不满足，确定资源分配结果后再继续遍历需求时间点，包括：

若不满足，则将当前正在遍历的需求时间点作为目标时间点；

确定目标时间点对应的待分析节点的未来触发任务，并作为目标分析任务；

提取目标分析任务的任务语义集，并与对应目标分析任务进行关联；

将任务语义集中的任务语义和预设的标准语义库中的标准语义进行匹配，确定目标分析任务的重要程度；

获取目标分析任务的发布流程的最高审批方的审批方标识；

根据审批方标识和预设的权重确定库，确定审批方标识对应的目标权重；

赋予重要程度对应目标权重，确定目标分析任务对应的未来所需资源的优先值；

根据优先值和目标时间点对应的未来所需资源，确定资源分配结果；

根据资源分配结果，确定目标时间点对应的待分析节点中的提醒节点；

向提醒节点发送提醒信息，提醒信息包括：需要调整的未来触发任务。

优选的，向提醒节点发送提醒信息，包括：

获取提醒节点对应于目标时间点的未来所需资源，并作为再分配资源；

确定再分配资源的资源种类；

根据资源种类，确定目标时间点之前的资源空隙；

获取资源空隙的第一资源特征值，第一资源特征值包括：可用资源量和可用时间范围；

获取再分配资源的第二资源特征值，第二资源特征值包括：所需资源量和所需时间范围；

将第一资源特征值和第二资源特征值进行资源特征匹配，判断是否满足资源特征匹配条件；

若满足，将匹配符合的第一资源特征值对应的可用时间范围和资源种类信息作为提醒信息，并发送至提醒节点；

其中，资源特征匹配条件，包括：

资源量差值与可用资源量对应可用时间范围的资源空隙中的资源总量之比大于等于预设的第二阈值，且，可用时间范围在所需时间范围之内。

优选的，步骤5：将监控结果进行可视化，获得可视化结果，包括：

获取目标平台的可视化请求；

根据可视化请求，获取实时可视化数据；

基于目标平台的渲染规则渲染实时可视化数据，获得可视化结果。

本发明实施例提供的大规模多数据中心的GPU算力集群监控***，包括：

部署数据采集子***，用于采集大规模的服务器集群中多个数据中心的部署数据；

存储子***，用于将部署数据推送至监控服务器，并基于key/value存储；

监控数据调度子***，用于基于Python SDK模块，调取监控数据；

监控结果确定子***，用于根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口；

可视化子***，用于将监控结果进行可视化，获得可视化结果。

本发明的有益效果为：

本发明将采集的大规模的服务器集群中多个数据中心的部署数据推送至监控服务器并基于key/value存储。构建Python SDK模块，调取监控服务器中的监控数据，监控效率更高；对监控数据进行GPU算力集群监控，确定监控结果。另外，提供了监控结果的数据获取接口，提升了算力监控的拓展能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过本申请文件中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中大规模多数据中心的GPU算力集群监控方法的示意图；

图2为本发明实施例中大规模多数据中心的GPU算力集群监控方法的业务架构示意图；

图3为本发明实施例中大规模多数据中心的GPU算力集群监控方法的可视化结果示意图；

图4为本发明实施例中大规模多数据中心的GPU算力集群监控方法的又一种可视化结果示意图；

图5为本发明实施例中大规模多数据中心的GPU算力集群监控***的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了大规模多数据中心的GPU算力集群监控方法，如图1所示，包括：

步骤1：采集大规模的服务器集群中多个数据中心的部署数据；其中，大规模的服务器集群为：由多个服务器组成的庞大集合，用于处理和存储大量的数据和服务，大规模指的服务器的数量庞大，最低数量由人工设置；数据中心为：分布在不同地理位置的独立数据中心；部署数据为：GPU（Graphics Processing Unit，图形处理单元）的使用率、温度、内存占用和CPU使用率等监控数据；采集时，通过定制的采集程序通过脚本进行显卡的数据过滤，格式化，让其变为能被现有监控工具可识别的格式，推送给现有的监控工具。采集频率可以根据需求进行配置，通常以秒为单位，确保及时获取最新的监控数据。每个数据中心的每个集群内部署有独立网格节点，用于汇聚及存储集群内监控数据；

步骤2：将部署数据推送至监控服务器，并基于key/value存储；其中，监控服务器为：接收和处理监控数据的服务器，用于存储、分析和可视化监控数据；基于key/value存储指的是数据以键值对的形式进行存储和检索；

步骤3：基于Python SDK模块，调取监控数据；其中，Python SDK模块为：用Python语言编写的SDK（Software Development Kit，软件开发工具包）软件开发工具包，用于与监控服务器进行交互，获取监控数据；

步骤4：根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口；其中，根据监控数据进行GPU算力集群监控为：对由多个GPU节点组成的集群进行实时监测、数据收集和分析的过程，以确保集群的稳定运行、性能优化和资源管理；监控结果为：预测的未来***需求、资源分配优化方案以及***性能优化方案；

步骤5：将监控结果进行可视化，获得可视化结果。其中，可视化结果为：根据业务需求所选的实时数据的动态展示结果，图2为本方法中的业务架构示意图。

上述技术方案的工作原理及有益效果为：

本申请将采集的大规模的服务器集群中多个数据中心的部署数据推送至监控服务器并基于key/value存储。构建Python SDK模块，调取监控服务器中的监控数据，监控效率更高；对监控数据进行GPU算力集群监控，确定监控结果。另外，提供了监控结果的数据获取接口，提升了算力监控的拓展能力。

在一个实施例中，步骤1：采集大规模的服务器集群中多个数据中心的部署数据，包括：

根据预设的采集程序，确定显卡数据；其中，预设的采集程序为：显卡接口的对接采集程序；显卡数据为：采集显卡的型号、驱动版本、温度、功耗和使用率；

基于预设的规范性脚本，根据显卡数据，确定可识别格式数据；其中，预设的规范性脚本为：预先定义和编写的脚本，用于根据显卡数据进行处理和解析，以将原始显卡数据转化成可识别格式的数据；

将可识别格式数据推送给预设的监控工具，获得部署数据。其中，预设的监控工具为：node-exporter。

上述技术方案的工作原理及有益效果为：

本申请引入规范性脚本，将采集的显卡数据转换成监控工具能够识别的可识别格式数据，获得部署数据，提高了部署数据获取的及时性。

在一个实施例中，步骤2：将部署数据推送至监控服务器，并基于key/value存储，包括：

基于key/value，根据部署数据，确定存储数据；其中，key/value是一种将数据以键值对形式进行存储的数据存储模型，在这种数据存储模型中，通过使用唯一的键来检索和更新数据，可以快速访问和操作存储的数据；

基于时间序列数据存储方法，将存储数据在监控服务器的内存和预写日志中保存。其中，将key/value转化为时间序列进行存储，并将存储数据同时在内存和预写日志中保存。

上述技术方案的工作原理及有益效果为：

本申请在监控服务器接收到推送过来的数据后，先通过key/value将其存储，然后内部其他组件再从其中每隔一段时间自动获取，每个采样数据仅仅占用3.5byte左右空间，并且通过不经过文件***的写数据方式，同时在内存和预写日志中保存数据，可以保证数据的持久不丢失，因为是从内存中恢复，又可以保证崩溃之后从故障中恢复的时间很短。将key/value转化为时间序列进行存储，使采集到的数据拥有了时间戳，变得更加符合监控需求。

在一个实施例中，步骤3：基于Python SDK模块，调取监控数据，包括：

获取预设的开源监控警报工具集的REST API；其中，预设的开源监控警报工具集为：Prometheus；REST API为：基于HTTP协议的Prometheus的应用程序接口；

根据所需功能和REST API，确定目标API；其中，目标API为：Python SDK模块需要调用的应用程序接口；

根据目标API，确定URL和身份验证参数；其中，URL为目标API的统一资源定位符；身份验证参数为：用于身份验证和授权的参数；

根据URL和身份验证参数，确定目标Python函数；其中，目标Python函数为：根据目标API的资源定位符和身份验证参数构建的调用目标API的Python函数；

根据目标Python函数的返回参数，确定目标Python类；其中，返回参数为：目标API的响应参数；目标Python类为：表示目标API响应数据结构的Python类；

根据目标Python函数和目标Python类，构建Python SDK模块；其中，根据目标Python函数和目标Python类，构建Python SDK模块为：创建一个Python模块，确定构建Python SDK所需的依赖项，封装目标Python类和函数的功能，为Python SDK模块编写文档和测试用例，将Python SDK模块打包为可分发的格式并应用；

获取监控指标；其中，监控指标为：监控需求项；

根据监控指标，确定Python SDK模块的调取接口；其中，调取接口为：能够获取到监控指标所需数据的目标API接口；

基于调取接口，调取监控数据。

上述技术方案的工作原理及有益效果为：

本申请开发Python SDK模块，封装了对数据存储与索引模块的访问接口。该SDK提供了查询各节点GPU使用率、温度、内存占用等指标的函数。SDK内部实现了与数据存储模块的通信，可以将查询请求转化为合适的数据库查询语言，并处理查询结果。通过调用PythonSDK提供的接口，查询各节点的监控指标。开发者只需了解SDK提供的函数及其参数，无需了解底层的数据存储和索引细节。通过SDK提供的接口，业务代码可以根据需要查询实时数据或历史数据，并进行进一步的业务逻辑处理。SDK可以支持异步调用，提高查询效率，避免阻塞业务代码的执行。

在一个实施例中，步骤4：根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口，包括：

对监控数据进行数据汇聚，获得汇聚数据；其中，数据汇聚为：业务代码选择的节点的数据的汇总结果；

对汇聚数据进行数据清洗，获得清洗数据；其中，数据清洗为：对汇聚数据中的缺失值进行填充、异常值进行修正；

对清洗数据进行数据分析，获得监控结果；其中，数据分析为：趋势分析：分析GPU使用率以及温度等随时间的变化趋势，帮助预测未来的***需求；关联分析：分析不同节点之间的关联性，找出可能的相互影响关系，为后续资源分配提供依据；性能评估：根据监控数据评估***性能，确定性能优化方向，进一步优化***配置；

获取前端调用需求，并根据前端调用需求封装需求API接口，将需求API接口作为数据获取接口；其中，前端调用需求为：前端对监控结果的调用请求；需求API接口为：根据前端调用需求而封装的调取监控结果的报表、图表和警报的API接口；

其中，对监控数据进行数据汇聚，获得汇聚数据，包括：

基于业务需求，确定选择节点；其中，业务需求为：监控需求；选择节点为：业务需求中请求监控的数据中心节点；

根据选择节点，确定监控数据中的待汇聚数据；

解析待汇聚数据，确定每一选择节点的数据项；其中，数据项为：GPU使用率和温度等；

获取数据项的时间戳；

基于预设的数据结构，根据数据项和时间戳，确定汇聚数据；其中，预设的数据结构为：数据字典或数据框架；

其中，对汇聚数据进行数据清洗，获得清洗数据，包括：

对汇聚数据进行缺失值处理，获得补全数据；其中，如果某些时间点某个节点的数据缺失，可以选择进行插值处理，或者用数据缺失的时间点的上一个可用数据点的值填充；

其中，异常值处理规则，包括：

计算补全数据的标准差，若标准差大于等于预设的第一阈值，则将对应补全数据作为第一异常值；其中，第一阈值由人工预先设置；

基于预设的业务规则，根据补全数据，确定第二异常值；其中，预设的业务规则为：人工预先设置的根据业务需求或规范定义的补全数据中的异常值的规则；

对目标异常值进行异常归因，确定异常原因；其中，异常归因为：对异常值进行分析和解释，以确定异常的原因；

根据异常原因，进行数据修正。其中，数据修正为：根据异常归因的结果对异常数据进行修复或调整的过程，数据修正包括：删除异常数据、修复数据以及调整数据等操作，以消除异常的影响并恢复数据的准确性。

上述技术方案的工作原理及有益效果为：

本申请对监控数据进行数据汇聚以及数据清洗，获得清洗数据，提高了后续数据分析的合理性。对清洗数据进行数据分析，获得监控结果。根据获取的前端调用需求封装需求API接口，将需求API接口作为数据获取接口供前端调用渲染，监控结果的展示更加人性化，提高了监控的扩展性。

在一个实施例中，对清洗数据进行数据分析，获得监控结果，包括：

根据清洗数据的数据指标，对清洗数据进行趋势分析，获得第一监控子结果，第一监控子结果为：未来***需求；其中，趋势分析为：分析GPU使用率和温度等随时间的变化趋势，帮助预测未来的***需求；

根据清洗数据的来源节点的不同，分析来源节点之间的影响关系，根据影响关系，确定第二监控子结果，第二监控子结果为：资源分配优化方案；其中，分析不同节点之间的关联性，找出可能的相互影响关系，有助于优化资源分配；

根据清洗数据，进行***性能评估，获得第三监控子结果，第三监控子结果为：性能优化方案；其中，根据监控数据评估***性能，找出瓶颈，进一步优化***配置；

上述技术方案的工作原理及有益效果为：

本申请根据清洗数据的数据指标对清洗数据进行趋势分析，获得未来***需求。根据清洗数据的来源节点的不同分析来源节点之间的影响关系，根据影响关系，确定资源分配优化方案。根据清洗数据进行***性能评估，确定性能优化方案，通过分析历史性能数据，可以预测***的发展趋势，为未来的资源规划和扩展提供依据。

在一个实施例中，根据清洗数据的来源节点的不同，分析来源节点之间的影响关系，根据影响关系，确定第二监控子结果，包括：

获取来源节点的节点属性；其中，来源节点为：清洗数据的数据中心节点；节点属性为：节点的标识符、类型、位置和负载情况；

根据节点属性，判断来源节点是否可能存在资源抢占冲突；其中，资源抢占冲突为：***中多个节点竞争同一资源时可能发生的冲突；判断来源节点是会否可能存在资源抢占冲突时，若根据节点属性判断出某些来源节点使用同一资源类型的资源，则使用同一资源类型的来源节点之间可能存在资源抢占冲突；

获取同一待分析节点集中每一待分析节点的未来触发任务；其中，未来触发任务根据读取待分析节点的待执行任务序列的读取结果获取；

根据未来触发任务，确定待分析节点的未来所需资源，并获取未来所需资源的需求时间点；其中，未来所需资源为：待分析节点在未来触发任务执行时所需要的资源，比如：计算资源、存储资源和网络带宽；需求时间点为：未来资源需求发生的时间点；

将同一待分析节点集对应的所有未来所需资源的需求时间点分别进行时间对齐；其中，时间对齐为：所有未来所需资源的需求时间点进行统一的时间对齐操作；

分析未来资源需求情况是否满足资源平衡；其中，资源平衡为：判断正在遍历的需求时间点的资源供给是否足够满足未来资源需求情况；

若满足，则继续遍历需求时间点；

若不满足，确定资源分配结果后再继续遍历需求时间点；其中，资源分配结果为：正在遍历的需求时间点存在资源抢占冲突时的资源分配方案；

上述技术方案的工作原理及有益效果为：

***在算力有限的情况下，下设的数据中心节点并行执行任务时，存在资源抢占冲突的情形，因此，本申请引入来源节点的节点属性，根据节点属性，判断来源节点是否可能存在资源抢占冲突，若存在，将对应来源节点划分至待分析节点集。

获取同一待分析节点集中每一待分析节点的未来触发任务，并确定未来所需资源。根据未来所需资源的需求时间点进行时间对齐，并根据需求时间点距离当前时间点从近到远的顺序，依次遍历需求时间点，将正在遍历的需求时间点对应的未来所需资源作为未来资源需求情况，根据未来资源需求情况，分析未来资源需求情况是否满足资源平衡，当不满足资源平衡时，引入资源分配结果，直至需求时间点遍历完成，确定第二监控子结果，提高了第二监控子结果的准确性和合理性。

在一个实施例中，若不满足，确定资源分配结果后再继续遍历需求时间点，包括：

提取目标分析任务的任务语义集，并与对应目标分析任务进行关联；其中，任务语义集为：基于语义提取技术提取的目标分析任务的语义的集合；

将任务语义集中的任务语义和预设的标准语义库中的标准语义进行匹配，确定目标分析任务的重要程度；其中，预设的标准语义库包括多个标准语义和标准语义对应表征的重要程度的量化值，将任务语义和标准语义进行语义匹配，确定匹配符合的标准语义的量化值的和，并作为重要程度；

获取目标分析任务的发布流程的最高审批方的审批方标识；其中，最高审批方为：发布流程中拥有最高审批权限的审批方的标识符；

根据审批方标识和预设的权重确定库，确定审批方标识对应的目标权重；其中，预设的权重确定库包括多个一一对应的待匹配审批方标识和预设权重，若审批方标识和待匹配审批方标识匹配符合，将对应预设权重作为目标权重；

赋予重要程度对应目标权重，确定目标分析任务对应的未来所需资源的优先值；赋予时，重要程度和目标权重相乘；

根据优先值和目标时间点对应的未来所需资源，确定资源分配结果；其中，资源分配结果为：按照优先值从大到小的顺序将当前资源分配给对应目标时间点的待分析节点，直至分配完成；

根据资源分配结果，确定目标时间点对应的待分析节点中的提醒节点；其中。提醒节点为：目标时间点对应的待分析节点中没有资源分配计划的节点；

上述技术方案的工作原理及有益效果为：

存在资源抢占冲突时，需要确定目标时间点对应资源分配计划，并对可能被挤占资源的节点进行通知协调。因此，本申请引入目标时间点对应的待分析节点的未来触发任务，基于语义提取技术，提取目标分析任务的任务语义集。根据任务语义集和标准语义库中的标准语义，确定目标分析任务的重要程度。引入目标分析任务的发布流程的最高审批方的审批方标识和权重确定库，确定审批方标识对应的目标权重，赋予重要程度对应目标权重，确定目标分析任务对应的未来所需资源的优先值，提升了优先值确定的精准性。按照优先值从大到小的顺序将当前资源分配给对应目标时间点的待分析节点，直至分配完成，并确定提醒节点进行相应提醒，引入未来所需资源预测资源挤占情况并提前提醒相应提醒节点协调调度，提升了资源优化的适宜性。

在一个实施例中，向提醒节点发送提醒信息，包括：

确定再分配资源的资源种类；其中，资源种类为：资源的类型或类别，比如：内存和处理器等；

根据资源种类，确定目标时间点之前的资源空隙；其中，目标时间点之前未被有效利用的资源时间段或空闲资源；

其中，资源特征匹配条件，包括：

资源量差值与可用资源量对应可用时间范围的资源空隙中的资源总量之比大于等于预设的第二阈值，且，可用时间范围在所需时间范围之内。其中，资源量差值为：正在进行资源特征匹配的资源空隙的可用资源量减去所需资源量获得的结果；预设的第二阈值由人工预先设置。

上述技术方案的工作原理及有益效果为：

本申请确定提醒节点的再分配资源，根据资源种类，确定资源空隙。引入资源空隙的第一资源特征值，另外，引入再分配资源的第二资源特征值，将第一资源特征值和第二资源特征值进行资源特征匹配，若资源空隙满足资源量差值与可用资源量对应可用时间范围的资源空隙中的资源总量之比大于等于预设的第二阈值，且，可用时间范围在所需时间范围之内，则将匹配符合的第一资源特征值对应的可用时间范围和资源种类信息作为提醒信息发送至提醒节点，及时分配再分配资源，且，预留预设容量的空闲空间，提高了***的稳定性。

在一个实施例中，步骤5：将监控结果进行可视化，获得可视化结果，包括：

获取目标平台的可视化请求；其中，目标平台为：本地***的前端可视化平台和第三方可视化数据调用平台；可视化请求为：需要进行可视化的监控数据；

根据可视化请求，获取实时可视化数据；其中，实时可视化数据为：通过数据网关提供的接口获取的实时数据；

基于目标平台的渲染规则渲染实时可视化数据，获得可视化结果。其中，渲染规则由目标平台预先规定，图3和图4为可视化结果示意图。

上述技术方案的工作原理及有益效果为：

本申请根据目标平台的可视化请求，获取实时可视化数据，并基于目标平台的渲染规则渲染实时可视化数据，获得可视化结果，将算力监控数据实时动态显示，提升了监控结果的直观性。

本发明实施例提供了大规模多数据中心的GPU算力集群监控***，如图5所示，包括：

部署数据采集子***1，用于采集大规模的服务器集群中多个数据中心的部署数据；

存储子***2，用于将部署数据推送至监控服务器，并基于key/value存储；

监控数据调度子***3，用于基于Python SDK模块，调取监控数据；

监控结果确定子***4，用于根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口；

可视化子***5，用于将监控结果进行可视化，获得可视化结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.大规模多数据中心的GPU算力集群监控方法，其特征在于，包括：

步骤2：将部署数据推送至监控服务器，并基于key/value存储；

步骤3：基于Python SDK模块，调取监控数据；

步骤5：将监控结果进行可视化，获得可视化结果；

步骤4：根据监控数据进行GPU算力集群监控，确定监控结果，同时，提供数据获取接口，包括：

对监控数据进行数据汇聚，获得汇聚数据；

对汇聚数据进行数据清洗，获得清洗数据；

对清洗数据进行数据分析，获得监控结果；

对清洗数据进行数据分析，获得监控结果，包括：

将第一监控子结果、第二监控子结果以及第三监控子结果共同作为监控结果；

根据清洗数据的来源节点的不同，分析来源节点之间的影响关系，根据影响关系，确定第二监控子结果，包括：

获取来源节点的节点属性；

根据节点属性，判断来源节点是否可能存在资源抢占冲突；

获取同一待分析节点集中每一待分析节点的未来触发任务；

分析未来资源需求情况是否满足资源平衡；

若满足，则继续遍历需求时间点；

若不满足，确定资源分配结果后再继续遍历需求时间点；

2.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法，其特征在于，步骤1：采集大规模的服务器集群中多个数据中心的部署数据，包括：

根据预设的采集程序，确定显卡数据；

将可识别格式数据推送给预设的监控工具，获得部署数据。

3.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法，其特征在于，步骤2：将部署数据推送至监控服务器，并基于key/value存储，包括：

基于key/value，根据部署数据，确定存储数据；

4.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法，其特征在于，步骤3：基于Python SDK模块，调取监控数据，包括：

获取预设的开源监控警报工具集的REST API；

根据所需功能和REST API，确定目标API；

根据目标API，确定URL和身份验证参数；

根据URL和身份验证参数，确定目标Python函数；

根据目标Python函数的返回参数，确定目标Python类；

根据目标Python函数和目标Python类，构建Python SDK模块；

获取监控指标；

根据监控指标，确定Python SDK模块的调取接口；

基于调取接口，调取监控数据。

5.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法，其特征在于，若不满足，确定资源分配结果后再继续遍历需求时间点，包括：

获取目标分析任务的发布流程的最高审批方的审批方标识；

6.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法，其特征在于，步骤5：将监控结果进行可视化，获得可视化结果，包括：

获取目标平台的可视化请求；

根据可视化请求，获取实时可视化数据；

7.大规模多数据中心的GPU算力集群监控***，其特征在于，包括：

监控数据调度子***，用于基于Python SDK模块，调取监控数据；

可视化子***，用于将监控结果进行可视化，获得可视化结果；

监控结果确定子***执行如下操作：

对监控数据进行数据汇聚，获得汇聚数据；

对汇聚数据进行数据清洗，获得清洗数据；

对清洗数据进行数据分析，获得监控结果；

对清洗数据进行数据分析，获得监控结果，包括：

获取来源节点的节点属性；

根据节点属性，判断来源节点是否可能存在资源抢占冲突；

获取同一待分析节点集中每一待分析节点的未来触发任务；

分析未来资源需求情况是否满足资源平衡；

若满足，则继续遍历需求时间点；

若不满足，确定资源分配结果后再继续遍历需求时间点；