CN117764203A

CN117764203A - 大规模机器学习性能优化指导装置、方法、设备及介质

Info

Publication number: CN117764203A
Application number: CN202410046348.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Bi Ren Technology Co ltd
Current assignee: Shanghai Bi Ren Technology Co ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-03-26

Abstract

本发明提供一种大规模机器学习性能优化指导装置、方法、设备及介质，涉及机器学习技术领域，该装置包括：基础任务层，用于基于预先选中的多个基础任务组件对原始性能数据进行数据处理，得到基础数据；高级任务层，用于对基础数据进行统计浓缩处理，得到第一多层次数据；业务功能层，用于对第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据；基于第二多层次数据确定性能分析链、优化建议和性能报告；网络服务层，用于响应用户操作，基于多层次数据库和业务数据库确定操作结果，并对操作结果进行可视化展示。本发明通过多维度多层次的整合分析给出性能优化指导，有助于用户往更细粒度的方向分析性能。

Description

大规模机器学习性能优化指导装置、方法、设备及介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种大规模机器学习性能优化指导装置、方法、设备及介质。

背景技术

在机器学习技术领域，性能分析工具主要用于分析软件运行时的各项指标。常见的性能分析工具包括：PyTorch kineto和进一步优化完善张量使用信息和数据带宽信息的PyTorch kineto，PyTorch kineto是一种常见的性能分析工具，虽然PyTorch kineto能够展现性能总览视图、操作人员(operator)视图、时间线(timeline)视图、内存视图和通信性能视图等多种视图，但是展现的颗粒度层次太少，小颗粒的信息过于零散。基于PyTorchkineto进一步优化的性能分析工具，虽然完善了张量使用信息和数据带宽信息，但仅仅是提供了更多的分析数据，完全没有进行多维度多层次的整合分析，不利于用户往更细粒度的方向分析性能。

发明内容

本发明提供一种大规模机器学习性能优化指导装置、方法、设备及介质，用以实现通过多维度多层次的整合分析给出性能优化指导，有助于用户往更细粒度的方向分析性能的目的。

第一方面，本发明提供一种大规模机器学习性能优化指导装置，包括：

基础任务层，用于提供基础任务组件库，基于从所述基础任务组件库中预先选中的多个基础任务组件，对原始数据库中的原始性能数据进行数据处理，得到基础数据，并将所述基础数据存储到基础数据库中；

高级任务层，用于对所述基础数据进行统计浓缩处理，得到第一多层次数据，并将所述第一多层次数据存储到多层次数据库中；

业务功能层，用于对所述第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将所述第二多层次数据存储到所述多层次数据库中；基于所述第二多层次数据确定性能分析链、优化建议和性能报告，并将所述性能分析链、所述优化建议和所述性能报告存储到业务数据库中；

网络服务层，用于响应用户操作，基于所述多层次数据库和所述业务数据库确定操作结果，并对所述操作结果进行可视化展示；所述操作结果包括查询结果和/或自定义分析结果。

根据本发明提供的一种大规模机器学习性能优化指导装置，所述基础任务层具体用于：

提供所述基础任务组件库，所述基础任务组件库中包括若干个细粒度的所述基础任务组件；

基于所述高级任务层的性能优化目标，从所述基础任务组件库中预先选中多个所述基础任务组件；

基于多个所述基础任务组件和所述多个基础任务组件之间的依赖关系，构建至少一个基础任务图；

将所述原始数据库中的所述原始性能数据输入所述至少一个基础任务图中进行数据处理，得到所述基础数据；

将所述基础数据存储到所述基础数据库中。

根据本发明提供的一种大规模机器学习性能优化指导装置，所述高级任务层包括：

性能统计模块，用于对所述基础数据进行空间维度和时间维度的浓缩处理，得到第一浓缩数据；采用至少一个统计指标对所述第一浓缩数据进行性能统计，得到性能统计数据，并将所述性能统计数据存储到所述多层次数据库中；

算子信息统计模块，用于对所述基础数据进行空间维度和时间维度的浓缩处理，得到第二浓缩数据；采用至少一个统计指标对所述第二浓缩数据进行算子信息统计，得到算子信息统计数据，并将所述算子信息统计数据存储到所述多层次数据库中；

显存信息统计模块，用于对所述基础数据进行空间维度和时间维度的浓缩处理，得到第三浓缩数据；采用至少一个统计指标对所述第三浓缩数据进行显存信息统计，得到显存信息统计数据，并将所述显存信息统计数据存储到所述多层次数据库中；

其中，所述第一多层次数据包括所述性能统计数据、所述算子信息统计数据和所述显存信息统计数据。

根据本发明提供的一种大规模机器学习性能优化指导装置，所述业务功能层包括：

交叉整合模块，用于对所述第一多层次数据进行交叉整合，得到所述第一多层次数据之间的关联信息，并将所述关联信息存储到所述多层次数据库中；

性能指标计算模块，用于对所述多层次数据库中的所述第一多层次数据和所述关联信息进行性能指标计算，得到目标指标数据，并将所述目标指标数据存储到所述多层次数据库中；所述目标指标数据包括每张卡的多个指标数据、各所述卡的综合指标数据和各所述卡之间的性能对比结果；

性能异常检测模块，用于对所述多层次数据库中的所述第一多层次数据和所述关联信息进行性能异常检测，得到异常指标数据，并将所述异常指标数据存储到所述多层次数据库中；所述第二多层次数据包括所述关联信息、所述目标指标数据和所述异常指标数据；

调优导图分析模块，用于对所述第二多层次数据进行调优导图分析，得到所述性能分析链和所述优化建议，并将所述性能分析链和所述优化建议存储到所述业务数据库中；

性能报告生成模块，用于基于所述第二多层次数据生成所述性能报告，并将所述性能报告存储到所述业务数据库中。

根据本发明提供的一种大规模机器学习性能优化指导装置，所述业务功能层还包括：

性能模拟器，用于将所述原始性能数据作为输入，模拟大规模机器学习的部分训练过程，得到补充性能报告；所述补充性能报告和所述性能报告互补，将所述补充性能报告存储到所述业务数据库中。

根据本发明提供的一种大规模机器学习性能优化指导装置，所述网络服务层包括：

数据可视化平台，用于基于用户输入的查询条件从所述多层次数据库和所述业务数据库中查询得到所述查询结果；基于所述用户选择的可视化方法在可视化网络界面展示所述查询结果；

自定义分析平台，用于基于所述用户配置的自定义分析方法对所述多层次数据库和所述业务数据库进行性能分析，得到所述自定义分析结果。

根据本发明提供的一种大规模机器学习性能优化指导装置，所述网络服务层还包括：

数据监控平台，用于实时监控所述多层次数据库，得到实时监控结果。

性能分析机器人，用于利用自然语言处理技术引导所述用户完成多轮对话，从而完成针对未覆盖的分析死角的性能分析。

第二方面，本发明还提供一种大规模机器学习性能优化指导方法，包括：

提供基础任务组件库，基于从所述基础任务组件库中预先选中的多个基础任务组件，对原始数据库中的原始性能数据进行数据处理，得到基础数据，并将所述基础数据存储到基础数据库中；

对所述基础数据进行统计浓缩处理，得到第一多层次数据，并将所述第一多层次数据存储到多层次数据库中；

对所述第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将所述第二多层次数据存储到所述多层次数据库中；基于所述第二多层次数据确定性能分析链、优化建议和性能报告，并将所述性能分析链、所述优化建议和所述性能报告存储到业务数据库中；

响应用户操作，基于所述多层次数据库和所述业务数据库确定操作结果，并对所述操作结果进行可视化展示；所述操作结果包括查询结果和/或自定义分析结果。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第二方面所述的大规模机器学习性能优化指导方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第二方面所述的大规模机器学习性能优化指导方法。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第二方面所述的大规模机器学习性能优化指导方法。

本发明提供的大规模机器学习性能优化指导装置、方法、设备及介质，该装置包括：基础任务层、高级任务层、业务功能层和网络服务层；其中，基础任务层，用于提供基础任务组件库，基于从基础任务组件库中预先选中的多个基础任务组件，可以对原始数据库中的海量原始性能数据做初步的浓缩处理，得到基础数据，并将基础数据存储到基础数据库中；高级任务层，用于对基础数据库中的海量基础数据做进一步的统计浓缩处理，得到第一多层次数据，并将第一多层次数据存储到多层次数据库中；业务功能层，用于对第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将第二多层次数据存储到多层次数据库中，可以对第一多层次数据进行多维度多层次的挖掘整合，大大增加了数据的颗粒度层次；基于第二多层次数据可以提炼出性能分析链、优化建议和性能报告，并将性能分析链、优化建议和性能报告存储到业务数据库中；网络服务层，用于响应用户操作，基于多层次数据库和业务数据库确定操作结果，并对操作结果进行可视化展示；操作结果包括查询结果和/或自定义分析结果；可以从性能报告和优化建议出发，通过性能分析链引导用户逐层往更细粒度的方向分析性能。因此，本发明通过多维度多层次的整合分析给出性能优化指导，有助于用户往更细粒度的方向分析性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的大规模机器学习性能优化指导装置的架构示意图；

图2是本发明实施例提供的大规模机器学习性能优化指导装置的数据分层示意图；

图3是本发明实施例提供的基础任务图的示意图；

图4是本发明实施例提供的调优导图分析过程的示意图；

图5是本发明实施例提供的卡间性能对比分析过程的示意图；

图6是本发明实施例提供的大规模机器学习性能优化指导装置的性能优化闭环示意图；

图7是本发明实施例提供的大规模机器学习性能优化指导方法的流程示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在机器学习技术领域，性能分析工具主要用于分析软件运行时的各项指标。PyTorch kineto是一种常见的性能分析工具，PyTorch kineto能够展现性能总览视图、operator视图、timeline视图、内存视图和通信性能视图等多种视图。其中：

性能总览视图可以展示整体性能情况，例如：图形处理器(Graphics ProcessingUnit，GPU)硬件信息、端到端(一个训练周期)耗时、不同类型的内核(Kernel)耗时及比例等。

operator视图可以展示CPU和GPU算子性能明细，例如：耗时汇总、耗时占比、调用次数等。

timeline视图可以展示所有的记录信息，例如：记录的时间位置、时间长度、记录的函数调用栈等，可以用来分析性能的细节。

内存视图可以展示内存状态随着时间的变化曲线，内存状态可以包含已分配使用中的GPU内存、PyTorch管理的GPU总内存、已分配使用中的CPU内存和PyTorch管理的CPU总内存。此外，内存视图还提供了operator的内存使用情况，比如operator在执行过程中的内存使用大小。

通信性能视图是专门针对分布式场景的视图，可以展示一个节点(包含多个GPU)的硬件资源信息、通信算子与其他算子的重叠状态，因为分布式场景下通信耗时很可能成为性能瓶颈，期望能够和其他算子重叠来尽量减少影响。

然而，PyTorch kineto展现的颗粒度层次太少，小颗粒的信息过于零散。而颗粒度较大时的统计规则过于简单不符合实际情况，比如“通信性能视图”无法反映通信与通信、计算与内存之间的重叠情况；“性能总览视图”对operator的分类方法并不够准确，这与具体的模型算子定义有关。

基于PyTorch kineto进一步优化的性能分析工具，虽然完善了张量使用信息和数据带宽信息，但仅仅是提供了更多的分析数据，完全没有进行多维度多层次的整合分析。一方面，这对使用者会是很高的门槛，使用者需要非常熟悉分布式策略，模型结构及算子明细，在这些先验知识基础上，结合丰富的优化经验，才能知道如何进一步筛选细分数据，以此判断模型性能的状态。另一方面，在大规模机器学习的场景下，性能分析(profiling)数据的数据量是非常庞大的，总数据量可能有上百GB，如此庞大的数据量几乎不可能通过人工去分析，因此在分析过程中往往只关注了部分数据，错过了很多优化机会。这样，不利于用户往更细粒度的方向分析性能。

基于此，本发明实施例提供一种大规模机器学习性能优化指导装置、方法、设备及介质，下面进行具体说明。

下面结合图1-图6描述本发明的大规模机器学习性能优化指导装置。

请参照图1，图1是本发明实施例提供的大规模机器学习性能优化指导装置的架构示意图。如图1所示，该装置可以包括：基础任务层1、高级任务层2、业务功能层3和网络服务层4。基础任务层1、高级任务层2和业务功能层3部署在服务器端，网络服务层4部署在客户端，用户通过客户端与网络服务层4进行交互。其中：

基础任务层1，用于提供基础任务组件库，基于从基础任务组件库中预先选中的多个基础任务组件，对原始数据库中的原始性能数据进行数据处理，得到基础数据，并将基础数据存储到基础数据库中。

具体地，基础任务层1提供基础任务组件库，基础任务组件库中包括若干细粒度的基础任务组件，基础任务组件为用于实现基础功能的程序。通过从基础任务组件库中预先选中的多个基础任务组件，可以对原始数据库中的海量原始性能数据做初步的浓缩处理，得到基础数据，并将基础数据存储到基础数据库中。原始数据库中的海量原始性能数据形成图2所示的原始数据层，基础数据库中的基础数据形成图2所示的增强数据层。

在一种实施方式中，基础任务层1具体用于：提供基础任务组件库，基础任务组件库中包括若干个细粒度的基础任务组件；基于高级任务层的性能优化目标，从基础任务组件库中预先选中多个基础任务组件；基于多个基础任务组件和多个基础任务组件之间的依赖关系，构建至少一个基础任务图；将原始数据库中的原始性能数据输入至少一个基础任务图中进行数据处理，得到基础数据；将基础数据存储到基础数据库中。

示例性地，如图3所示，基于高级任务层的性能优化目标，从基础任务组件库中预先选中基础处理组件、信息融合组件、自动标签组件、时间戳校准组件、通信时间计算组件和显存分析组件，本实施例不限于此。其中：

基础处理组件用于进行数据增强、修复等预处理。

信息融合组件用于融合多种记录模式的数据，合成一份既精准又完备的数据，可以兼顾性能准确性和信息完整性。

自动标签组件用于基于性能数据的自身规律，自动推导性能数据的标签值。

可选地，自动标签组件包括单标签推导功能和范围标签推导功能，本实施例不限于此。

1)单标签推导

采用深度神经网络(Deep Neural Networks，DNN)的模型信息和堆栈信息与性能数据的名称进行模糊匹配，可以自动推导出性能数据的单标签值。

2)范围标签推导

通过最长重复子序列提取算法对性能数据中的标签进行处理，为每一个子序列生成新的标签。新标签蕴含了程序结构，可以提供更多的性能分析分类维度。比如生成式预训练Transformer模型(Generative Pre-Trained Transformer，GPT)包含若干Transformer算子，而每个Transformer算子的原始信息都是碎片化的，无法区分Transformer算子之间的边界。通过自动标签便可以将每个Transformer算子的范围标记出来，从而自动推导出性能数据的范围标签。

时间戳校准组件用于利用机器间通信算子的时序特性自动推导时序偏差，从而达到时间戳校准的目的，可以避免由于大规模场景下不同机器的时间戳存在的偏差导致的严重影响卡间时序分析的准确性的问题。其中，卡间时序指的是不同卡之间的时序关系。基于分布式通信的规律进行时序偏差的推导，得到卡间时序。这里的“卡”可以为GPU卡。

通信时间计算组件用于对通信等待时间和真实通信时间进行区分，可以更准确地分析通信带宽和气泡。其中，气泡指的是GPU或CPU上的空闲时间。气泡大小和位置与分布式训练策略有关。比如流水并行策略中是一定存在气泡的，因此需要分析实际和理论的气泡差异，找出不合理的气泡。

显存分析组件用于深入挖掘原始显存数据中的显存瓶颈信息(比如显存的峰值成分)。其中，原始显存数据中记录有每个时间戳的显存使用状态。显存瓶颈信息是影响模型训练所需要的显存上限的关键因素，可以基于挖掘到的显存瓶颈信息降低模型训练所需要的显存上限，从而完成显存优化。

并且，第一基础处理组件、第二基础处理组件分别和信息融合组件之间存在前后依赖关系，信息融合组件分别与自动标签组件、时间戳校准组件和显存分析组件之间存在前后依赖关系，自动标签组件和时间戳校准组件分别与通信时间计算组件存在前后依赖关系。基于这些预先选中的基础任务组件和基础任务组件之间的依赖关系构建基础任务图。

将原始数据库中的原始性能数据“trace data1”输入基础任务图中的第一基础处理组件进行数据增强、修复等预处理，得到第一增强数据。将原始数据库中的原始性能数据“trace data2”输入基础任务图中的第二基础处理组件进行数据增强、修复等预处理，得到第二增强数据。

其中，原始性能数据“trace data1”的信息量少但准确度高，原始性能数据“tracedata2”的信息量多但准确度低。同时使用这两种原始性能数据，可以兼顾精准和完备。

需要说明的是，列举上述两种原始性能数据仅用于教导本领域技术人员如何实施本发明，本发明不限于此，还可以是多种其他类型的原始性能数据。

将第一增强数据和第二增强数据输入信息融合组件中进行信息融合，得到融合数据，可以将零散的第一增强数据和第二增强数据合成一份既精准又完备的数据，可以兼顾性能准确性和信息完整性。

基于自动标签组件、时间戳校准组件、通信时间计算组件和显存分析组件对融合数据进行处理，得到基础数据，并将基础数据存储到基础数据库中。

高级任务层2，用于对基础数据进行统计浓缩处理，得到第一多层次数据，并将第一多层次数据存储到多层次数据库中。

具体地，基础数据库的数据量非常庞大，可能有数百上千GB，高级任务层2对基础数据库中的海量基础数据做进一步的统计浓缩处理，将数据量降低几个数量级，同时也尽量保留关键信息，将相近的数据进行合并，并引入一些统计指标(平均值、最大值、最小值、方差等)来衡量被合并数据内的差异，得到第一多层次数据，第一多层次数据可以直接用来分析，所以存储到多层次数据库中。

在一种实施方式中，高级任务层2包括：性能统计模块、算子信息统计模块和显存信息统计模块；其中：

性能统计模块，用于对基础数据进行空间维度和时间维度的浓缩处理，得到第一浓缩数据；采用至少一个统计指标对第一浓缩数据进行性能统计，得到性能统计数据，并将性能统计数据存储到多层次数据库中。

具体地，基础数据库的数据量非常庞大，可能有数百上千GB，对于带有时间信息的基础数据，对该基础数据进行空间维度和时间维度的浓缩处理。对于不需要时间信息的基础数据，对该基础数据进行空间维度的浓缩处理。采用平均值、最大值、最小值、方差等统计指标对浓缩处理得到的第一浓缩数据进行性能统计，得到性能统计数据。将性能统计数据以性能统计表的形式存储到多层次数据库中。

算子信息统计模块，用于对基础数据进行空间维度和时间维度的浓缩处理，得到第二浓缩数据；采用至少一个统计指标对第二浓缩数据进行算子信息统计，得到算子信息统计数据，并将算子信息统计数据存储到多层次数据库中。

具体地，基础数据库的数据量非常庞大，可能有数百上千GB，对于带有时间信息的基础数据，对该基础数据进行空间维度和时间维度的浓缩处理。对于不需要时间信息的基础数据，对该基础数据进行空间维度的浓缩处理。采用平均值、最大值、最小值、方差等统计指标对浓缩处理得到的第二浓缩数据进行算子信息统计，得到算子信息统计数据。将算子信息统计数据以算子信息统计表的形式存储到多层次数据库中。

显存信息统计模块，用于对基础数据进行空间维度和时间维度的浓缩处理，得到第三浓缩数据；采用至少一个统计指标对第三浓缩数据进行显存信息统计，得到显存信息统计数据，并将显存信息统计数据存储到多层次数据库中。

具体地，基础数据库的数据量非常庞大，可能有数百上千GB，对于带有时间信息的基础数据，对该基础数据进行空间维度和时间维度的浓缩处理。对于不需要时间信息的基础数据，对该基础数据进行空间维度的浓缩处理。采用平均值、最大值、最小值、方差等统计指标对浓缩处理得到的第三浓缩数据进行显存信息统计，得到显存信息统计数据。将显存信息统计数据以显存信息统计表的形式存储到多层次数据库中。

其中，第一多层次数据包括性能统计数据、算子信息统计数据和显存信息统计数据。这样，基础数据库中的海量基础数据经过统计浓缩处理，可以得到性能、算子和显存这三个层次的第一多层次数据。第一多层次数据形成图2所示的基础统计数据层。

业务功能层3，用于对第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将第二多层次数据存储到多层次数据库中；基于第二多层次数据确定性能分析链、优化建议和性能报告，并将性能分析链、优化建议和性能报告存储到业务数据库中。

具体地，由于高级任务层2得到的第一多层次数据的层次不够丰富，且数据量依旧庞大，需要对第一多层次数据进行交叉整合、性能指标计算和性能异常检测等多次加工，得到第二多层次数据，并将第二多层次数据存储到多层次数据库中。这样，可以将复杂多维度的第一多层次数据浓缩到简单的单维度数据，不仅加速了用户的性能瓶颈定位效率，还提高了数据分析的覆盖率。

基于第二多层次数据生成性能分析链、优化建议和性能报告，并将性能分析链、优化建议和性能报告存储到业务数据库中。性能报告是在第二多层次数据的基础上继续浓缩数据得到的，可以将第二多层次数据尽量浓缩到标量的性能指标值，性能指标值可以直接反应模型的性能好坏。通过性能分析链可以自动找出性能的瓶颈问题，并给出若干个可行的优化建议。

在一种实施方式中，业务功能层3包括：交叉整合模块、性能指标计算模块、性能异常检测模块、调优导图分析模块和性能报告生成模块；其中：

交叉整合模块，用于对第一多层次数据进行交叉整合，得到第一多层次数据之间的关联信息，并将关联信息存储到多层次数据库中。

具体地，对第一多层次数据进行交叉整合，挖掘第一多层次数据之间的关联信息，并将关联信息存储到多层次数据库中。第一多层次数据之间的关联信息(多维度交叉信息表)形成图2所示的交叉数据层。

性能指标计算模块，用于对多层次数据库中的第一多层次数据和关联信息进行性能指标计算，得到目标指标数据，并将目标指标数据存储到多层次数据库中；目标指标数据包括每张卡的多个指标数据、各卡的综合指标数据和各卡之间的性能对比结果。

具体地，由于在大规模场景下，第一多层次数据的数据量依旧庞大，每张卡都有各自的数据，直接分析十分低效。对多层次数据库中的第一多层次数据和关联信息进行性能指标计算，可以提炼出每张卡的多个指标数据、各卡的综合指标数据和各卡之间的性能对比结果等目标指标数据，尤其适用于大规模的机器学习集群场景。目标指标数据形成图2所示的指标数据层。

由于分布式训练的性能收益从设计上就是依赖多卡间的性能差异，分布式训练的规模越大，多卡间的性能差异影响就越大，因此需要分析多卡间的性能差异，而相关技术是完全没有考虑这一点。

性能异常检测模块，用于对多层次数据库中的第一多层次数据和关联信息进行性能异常检测，得到异常指标数据，并将异常指标数据存储到多层次数据库中；第二多层次数据包括关联信息、目标指标数据和异常指标数据。

具体地，对多层次数据库中的第一多层次数据和关联信息进行性能异常检测，得到异常指标数据。异常指标数据可以反映出现性能异常的卡、算子、时间区域和异常类型。异常指标数据形成图2所示的异常分析层。

调优导图分析模块，用于对第二多层次数据进行调优导图分析，得到性能分析链和优化建议，并将性能分析链和优化建议存储到业务数据库中。

示例性地，如图4所示，给出设计好的调优导图，从具体的指标出发，比如发现gpu_occupy比例过低，然后沿着调优导图去查看通信占据(occupy)比例、输入/输出(io)的occupy比例是否合理。这些比例都有理论支撑，比如会通过硬件的通信带宽与数据量来计算理论值。接着，在查看通信occupy比例时，如果发现是通信气泡(bubble)比例过大，那么继续分析不同通信组的气泡情况。图4列举了三个通信组(张量并行(Tensor Parallel，tp)、数据并行(Data Parallel，dp)、流水线并行(Pipeline Parallel，pp))，找到耗时异常的通信组，接着继续分析通信耗时异常的原因。

通信耗时异常一般是因为卡间时序差异，可以通过图5的卡间性能对比继续推导分析性能瓶颈来源。

上述调优导图分析的过程保存下来即为性能分析链。沿着分析链进行就能很快定位性能瓶颈，并给出若干个可行的优化建议。将性能分析链和优化建议存储到业务数据库中。

性能报告生成模块，用于基于第二多层次数据生成性能报告，并将性能报告存储到业务数据库中。

具体地，对第二多层次数据进行浓缩处理，尽量浓缩到标量的性能指标值，性能指标值可以直接反应模型的性能好坏，生成性能报告，并将性能报告存储到业务数据库中。性能分析链、优化建议和性能报告形成图2所示的性能报告层。

可选地，业务功能层3还包括：性能模拟器，用于将原始性能数据作为输入，模拟大规模机器学习的部分训练过程，得到补充性能报告；补充性能报告和性能报告互补，将补充性能报告存储到业务数据库中。

具体地，性能模拟器可以将精准的原始性能数据作为输入，这样在没有GPU硬件的情况下也能得到性能数据，可以还原更底层硬件的执行过程。模拟大规模机器学习的部分训练过程，即模拟某些子模块，比如显存管理子模块、显存卸载(offload)策略子模块等，可以推导出原始性能数据中不存在的信息，得到补充性能报告。补充性能报告和性能报告是互补关系，将补充性能报告也存储到业务数据库中。补充性能报告也属于图2所示的性能报告层。

网络服务层4，用于响应用户操作，基于多层次数据库和业务数据库确定操作结果，并对操作结果进行可视化展示；操作结果包括查询结果和/或自定义分析结果。

在一种实施方式中，网络服务层4包括：数据可视化平台和自定义分析平台；其中：

数据可视化平台，用于基于用户输入的查询条件从多层次数据库和业务数据库中查询得到查询结果；基于用户选择的可视化方法在可视化网络界面展示查询结果。

具体地，搭建数据可视化平台，数据可视化平台提供可视化网络界面。用户可以自由在可视化网络界面输入查询条件和选择可视化方法。通过该查询条件可以从多层次数据库和业务数据库中查询得到查询结果。通过该可视化方法可以在可视化网络界面展示查询结果。

自定义分析平台，用于基于用户配置的自定义分析方法对多层次数据库和业务数据库进行性能分析，得到自定义分析结果。

具体地，搭建自定义分析平台，例如：商业智能(Business Intelligence，BI)分析平台，BI分析平台可以用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。用户可以在自定义分析平台上自由配置自定义分析方法，例如：表格处理工具、结构化查询语言(Structured Query Language，SQL)等。采用自定义分析方法对多层次数据库和业务数据库进行性能分析，得到自定义分析结果。

可选地，网络服务层4还包括：数据监控平台，用于实时监控多层次数据库，得到实时监控结果。

需要说明的是，商业智能仪表盘(business intelligence dashboard，BIdashboard)是指包含数据可视化和数据监控功能的平台。因此，可以用商业智能仪表盘来替代数据可视化平台和数据监控平台。

可选地，网络服务层4还包括：性能分析机器人，用于利用自然语言处理技术引导用户完成多轮对话，从而完成针对未覆盖的分析死角的性能分析。

具体地，性能分析是个不断探索的过程，随着模型和框架变化，一定会有未覆盖的分析死角。性能分析机器人可以利用自然语言处理技术自动生成答案和引导提示，通过多轮对话一步步完成针对未覆盖的分析死角的性能分析。

在具体实施中，如图6所示，整个性能分析流程以“大规模机器学习性能优化指导装置”为中心。首先，pytorch profiler输出原始性能数据，经“大规模机器学习性能优化指导装置”处理后生成模拟器调优结果、优化建议、性能分析链和多层次性能数据。接着，可以沿着性能分析链和模拟器调优结果进行分析，性能分析链会自动定位具体的数据位置，结合优化建议指导下一步的调整方案。用户按照调整方案调整模型和框架策略，然后继续通过pytorch profiler来验证。

本发明实施例提供的大规模机器学习性能优化指导装置，包括：基础任务层、高级任务层、业务功能层和网络服务层；其中，基础任务层，用于提供基础任务组件库，基于从基础任务组件库中预先选中的多个基础任务组件，可以对原始数据库中的海量原始性能数据做初步的浓缩处理，得到基础数据，并将基础数据存储到基础数据库中；高级任务层，用于对基础数据库中的海量基础数据做进一步的统计浓缩处理，得到第一多层次数据，并将第一多层次数据存储到多层次数据库中；业务功能层，用于对第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将第二多层次数据存储到多层次数据库中，可以对第一多层次数据进行多维度多层次的挖掘整合，大大增加了数据的颗粒度层次；基于第二多层次数据可以提炼出性能分析链、优化建议和性能报告，并将性能分析链、优化建议和性能报告存储到业务数据库中；网络服务层，用于响应用户操作，基于多层次数据库和业务数据库确定操作结果，并对操作结果进行可视化展示；操作结果包括查询结果和/或自定义分析结果；可以从性能报告和优化建议出发，通过性能分析链引导用户逐层往更细粒度的方向分析性能。因此，本发明实施例通过多维度多层次的整合分析给出性能优化指导，有助于用户往更细粒度的方向分析性能。

下面对本发明提供的大规模机器学习性能优化指导方法进行描述，下文描述的大规模机器学习性能优化指导方法与上文描述的大规模机器学习性能优化指导装置可相互对应参照。

请参照图7，图7是本发明实施例提供的大规模机器学习性能优化指导方法的流程示意图。如图7所示，该方法可以包括以下步骤：

步骤701、提供基础任务组件库，基于从基础任务组件库中预先选中的多个基础任务组件，对原始数据库中的原始性能数据进行数据处理，得到基础数据，并将基础数据存储到基础数据库中；

步骤702、对基础数据进行统计浓缩处理，得到第一多层次数据，并将第一多层次数据存储到多层次数据库中；

步骤703、对第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将第二多层次数据存储到多层次数据库中；基于第二多层次数据确定性能分析链、优化建议和性能报告，并将性能分析链、优化建议和性能报告存储到业务数据库中；

步骤704、响应用户操作，基于多层次数据库和业务数据库确定操作结果，并对操作结果进行可视化展示；操作结果包括查询结果和/或自定义分析结果。

在一种示例实施例中，步骤701可以包括：

提供基础任务组件库，基础任务组件库中包括若干个细粒度的基础任务组件；

基于高级任务层的性能优化目标，从基础任务组件库中预先选中多个基础任务组件；

基于多个基础任务组件和多个基础任务组件之间的依赖关系，构建至少一个基础任务图；

将原始数据库中的原始性能数据输入至少一个基础任务图中进行数据处理，得到基础数据；

将基础数据存储到基础数据库中。

在一种示例实施例中，步骤702可以包括：

对基础数据进行空间维度和时间维度的浓缩处理，得到第一浓缩数据；采用至少一个统计指标对第一浓缩数据进行性能统计，得到性能统计数据，并将性能统计数据存储到多层次数据库中；

对基础数据进行空间维度和时间维度的浓缩处理，得到第二浓缩数据；采用至少一个统计指标对第二浓缩数据进行算子信息统计，得到算子信息统计数据，并将算子信息统计数据存储到多层次数据库中；

对基础数据进行空间维度和时间维度的浓缩处理，得到第三浓缩数据；采用至少一个统计指标对第三浓缩数据进行显存信息统计，得到显存信息统计数据，并将显存信息统计数据存储到多层次数据库中；

其中，第一多层次数据包括性能统计数据、算子信息统计数据和显存信息统计数据。

在一种示例实施例中，步骤703可以包括：

对第一多层次数据进行交叉整合，得到第一多层次数据之间的关联信息，并将关联信息存储到多层次数据库中；

对多层次数据库中的第一多层次数据和关联信息进行性能指标计算，得到目标指标数据，并将目标指标数据存储到多层次数据库中；目标指标数据包括每张卡的多个指标数据、各卡的综合指标数据和各卡之间的性能对比结果；

对多层次数据库中的第一多层次数据和关联信息进行性能异常检测，得到异常指标数据，并将异常指标数据存储到多层次数据库中；第二多层次数据包括关联信息、目标指标数据和异常指标数据；

对第二多层次数据进行调优导图分析，得到性能分析链和优化建议，并将性能分析链和优化建议存储到业务数据库中；

基于第二多层次数据生成性能报告，并将性能报告存储到业务数据库中。

在一种示例实施例中，步骤703还可以包括：

将原始性能数据作为输入，模拟大规模机器学习的部分训练过程，得到补充性能报告；补充性能报告和性能报告互补，将补充性能报告存储到业务数据库中。

在一种示例实施例中，步骤704可以包括：

基于用户输入的查询条件从多层次数据库和业务数据库中查询得到查询结果；基于用户选择的可视化方法在可视化网络界面展示查询结果；

基于用户配置的自定义分析方法对多层次数据库和业务数据库进行性能分析，得到自定义分析结果。

在一种示例实施例中，步骤704还可以包括：实时监控多层次数据库，得到实时监控结果。

在一种示例实施例中，步骤704还可以包括：利用自然语言处理技术引导用户完成多轮对话，从而完成针对未覆盖的分析死角的性能分析。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行大规模机器学习性能优化指导方法，该方法包括：

提供基础任务组件库，基于从基础任务组件库中预先选中的多个基础任务组件，对原始数据库中的原始性能数据进行数据处理，得到基础数据，并将基础数据存储到基础数据库中；

对基础数据进行统计浓缩处理，得到第一多层次数据，并将第一多层次数据存储到多层次数据库中；

对第一多层次数据进行交叉整合、性能指标计算和性能异常检测，得到第二多层次数据，并将第二多层次数据存储到多层次数据库中；基于第二多层次数据确定性能分析链、优化建议和性能报告，并将性能分析链、优化建议和性能报告存储到业务数据库中；

响应用户操作，基于多层次数据库和业务数据库确定操作结果，并对操作结果进行可视化展示；操作结果包括查询结果和/或自定义分析结果。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的大规模机器学习性能优化指导方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的大规模机器学习性能优化指导方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大规模机器学习性能优化指导装置，其特征在于，包括：

2.根据权利要求1所述的大规模机器学习性能优化指导装置，其特征在于，所述基础任务层具体用于：

将所述基础数据存储到所述基础数据库中。

3.根据权利要求1所述的大规模机器学习性能优化指导装置，其特征在于，所述高级任务层包括：

4.根据权利要求1所述的大规模机器学习性能优化指导装置，其特征在于，所述业务功能层包括：

5.根据权利要求4所述的大规模机器学习性能优化指导装置，其特征在于，所述业务功能层还包括：

6.根据权利要求1所述的大规模机器学习性能优化指导装置，其特征在于，所述网络服务层包括：

7.根据权利要求6所述的大规模机器学习性能优化指导装置，其特征在于，所述网络服务层还包括：

8.根据权利要求6所述的大规模机器学习性能优化指导装置，其特征在于，所述网络服务层还包括：

9.一种大规模机器学习性能优化指导方法，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求9所述的大规模机器学习性能优化指导方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求9所述的大规模机器学习性能优化指导方法。