CN109101395A

CN109101395A - 一种基于lstm的高性能计算集群应用监控方法及***

Info

Publication number: CN109101395A
Application number: CN201810841868.2A
Authority: CN
Inventors: 胡辰
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-28

Abstract

本发明提供一种基于LSTM的高性能计算集群应用监控方法及***，所述方法包括：采集各计算节点的数据；将所述数据进行阈值预处理和归一化处理；将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM；将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。本发明能够对当前高性能计算集群应用程序进行辅助监控，有效提升判断高性能计算集群应用运行状态的准确率，明显提高高性能集群应用程序运行可控性和稳定性。

Description

一种基于LSTM的高性能计算集群应用监控方法及***

技术领域

本发明涉及高性能计算技术领域，尤其涉及一种基于LSTM的高性能计算集群应用监控方法及***。

背景技术

高性能计算是计算机科学的一个分支，涉及到并行算法的研究、相关软件的开发以及高性能计算机的研制。随着科学技术的发展，高性能计算已深入到科学研究和国民生活的不同领域，其作用和重要性越来越明显。高性能计算集群通过各种互联技术将多个计算机***连接在一起，提高整体***的运算速度，可以达到每秒万亿次甚至更高的浮点计算能力，高性能计算集群对***的处理器、内存带宽、存储、***I/O等方面有非常高的要求，在气象预报、分子模拟、流体仿真、基因测序、生物制药和深度学习等领域有着广泛的应用。

高性能计算的应用软件众多，但是大多数的高性能计算应用都有对计算***性能要求高和运算时间长等特点，例如气象数值预报业务主要还是依托于高性能计算机完成，需要强大的计算性能，运行时间短则几十分钟，长则数小时甚至更长时间。再例如分子动力学模拟，除了对高性能计算机网络有很高要求外，一次作业任务运行时间甚至长达数天。然而在高性能计算应用长时间的运行过程中，有时会由于某些原因造成程序的异常运行，例如异常退出和运行变慢等，在运行初始阶段，用户很容易就可以根据自己的经验判断程序是否运行正常，而当程序正常启动运行之后，通常用户不会一直关注应用的运行状态，当程序在运行期间出现问题时就很难及时发现，只有当用户临时查看运行进度或者根据以往程序运行时间的经验值去获取结果数据时，才可能发现异常，然而这距离应用出现问题可能已经过去了很长一段时间，极大影响业务的进度，所以有效的监控高性能计算应用运行过程中的问题、及时发现异常状况，能够有效的避免因未及时发现问题而导致的影响。

目前，现有技术对于程序运行中的异常退出，相对容易监控，可以通过接收程序的异常退出码实现对程序的异常退出监控，同时程序异常退出后，承载该程序的作业也将退出，用户可以及时获取到作业日志发现异常信息，作业的退出也意味着该作业使用计算资源的释放，对计算资源不会有产生浪费的情况。

同时对于程序运行中的异常变慢，可能有很多种不同因素导致，例如常见的网络拥塞造成的网络延时增加、其他程序对内存带宽的抢占导致应用可占用的内存带宽变小和CPU温度过高造成的计算能力下降等。对于这些常见的因素，通常的处理办法是设置阈值，在阈值之内的认为当前程序在正常运行，而阈值之外认为当前程序运行异常，在设置阈值时，通常可设置多种不同类型的指标阈值。

然而，对于设置阈值判断程序是否异常的机制存在如下问题：

(1)在设置阈值时需要非常专业的行业领域经验，阈值范围设置的过大，容易遗漏异常运行的程序，阈值范围设置的过小，可能会误判正常运行的程序。

(2)由于在不同时间段，应用程序指标可能会出现不同范围的值，而阈值一般情况下是不变的，很难适应于程序运行时的整个过程。

(3)应用程序的指标参数众多，每个指标都设置阈值工作量非常大，多个指标的内在联系和相互影响也无法简单的通过阈值进行设置。

(4)对于程序运行异常的判断不仅仅来自当前时刻的信息，之前一段时间的信息也可能会对程序运行产生影响，这个通过当前时刻的阈值判断是无法满足的。

发明内容

本发明提供的基于LSTM的高性能计算集群应用监控方法及***，能够对当前高性能计算集群应用程序进行辅助监控，有效提升判断高性能计算集群应用运行状态的准确率，明显提高高性能集群应用程序运行可控性和稳定性。

第一方面，本发明提供一种基于LSTM的高性能计算集群应用监控方法，包括：

采集各计算节点的数据；

将所述数据进行阈值预处理和归一化处理；

将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM；

将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。

可选地，所述采集各计算节点的数据包括：

采集各计算节点的数据；

将所采集的数据通过套接字汇总到管理节点，并由管理节点进行数据的存储。

可选地，所述将所述数据进行阈值预处理和归一化处理包括：

判断按时间序列采集并处理的数据是否在第一阈值范围内，将在第一阈值范围内的数据执行归一化处理；或将超出第一阈值范围的数据作为异常数据；

判断获取的单一数据是否在第二阈值范围内，将在第二阈值范围内的数据执行归一化处理；或将超出第一阈值范围的数据执行应用报警。

可选地，所述将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM包括：

将经阈值预处理和归一化处理后并在第一阈值范围内的数据作为正样本；

增加预先制造程序异常运行情况所形成的负样本建立正负样本集；

将正负样本集训练形成深度网络LSTM。

可选地，在所述将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测之后，所述方法还包括：

当预测到所述高性能计算集群应用异常时，执行应用报警。

第二方面，本发明提供一种基于LSTM的高性能计算集群应用监控***，包括：

采集模块，用于采集各计算节点的数据；

数据处理模块，用于将所述数据进行阈值预处理和归一化处理；

训练模块，用于将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM；

异常预测模块，用于将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测。

可选地，所述采集模块包括：

数据采集单元，用于采集各计算节点的数据；

数据存储单元，用于将所采集的数据通过套接字汇总到管理节点，并由管理节点进行数据的存储。

可选地，所述数据处理模块包括：

阈值预处理单元，用于判断按时间序列采集并处理的数据是否在第一阈值范围内，以及判断获取的单一数据是否在第二阈值范围内；

归一化处理单元，用于将在第一阈值范围内的数据执行归一化处理，以及将在第二阈值范围内的数据执行归一化处理；

数据异常单元，用于将超出第一阈值范围的数据作为异常数据。

可选地，所述训练模块包括：

正样本形成单元，用于将经阈值预处理和归一化处理后并在第一阈值范围内的数据进行整理与标注，形成正样本；

增加单元，用于增加预先制造程序异常运行情况所形成的负样本建立正负样本集；

训练单元，用于将正负样本集训练形成深度网络LSTM。

可选地，所述***还包括：

应用报警模块，用于执行应用报警。

本发明实施例提供的基于LSTM的高性能计算集群应用监控方法及***，所述方法通过将各计算节点的数据进行采集和汇总，不仅可以通过阈值预处理发现较为明显的异常值，同时还可以经过归一化处理，并利用LSTM对经阈值预处理和归一化处理后的数据进行学习训练形成深度网络LSTM，充分挖掘所采集的数据与应用运行状态之间的关系；进而挖掘出一段时间序列内的样本特征，对当前高性能计算集群应用程序进行辅助监控，有效提升判断高性能计算集群应用运行状态的准确率，明显提高高性能集群应用程序运行可控性和稳定性。

附图说明

图1为本发明一实施例基于LSTM的高性能计算集群应用监控方法的流程图；

图2为本发明另一实施例数据采集的架构图；

图3为本发明另一实施例深度网络LSTM数据训练的流程图；

图4为本发明另一实施例基于LSTM的高性能计算集群应用监控方法的流程图；

图5为本发明一实施例基于LSTM的高性能计算集群应用监控***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于LSTM(长短期记忆网络：Long Short-Term Memory)的高性能计算集群应用监控方法，如图1所示，所述方法包括：

S11、采集各计算节点的数据；

S12、将所述数据进行阈值预处理和归一化处理；

可选的，将所述数据先进行阈值预处理，然后再进行归一化处理；或者，将所述数据先进行归一化处理，然后再进行阈值预处理。

S13、将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM；

S14、将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。

本发明实施例提供的基于LSTM的高性能计算集群应用监控方法通过将各计算节点的数据进行采集和汇总，不仅可以通过阈值预处理发现较为明显的异常值，同时还可以经过归一化处理，并利用LSTM对经阈值预处理和归一化处理后的数据进行学习训练形成深度网络LSTM，充分挖掘所采集的数据与应用运行状态之间的关系；进而挖掘出一段时间序列内的样本特征，对当前高性能计算集群应用程序进行辅助监控，有效提升判断高性能计算集群应用运行状态的准确率，明显提高高性能集群应用程序运行可控性和稳定性。

并且，依据实验结果表明通过结合深度学习的方法进行WRF(天气预报模式：TheWeather Research and Forecasting Model)应用程序的异常监控准确率有明显提升。由于高性能应用程序类型复杂众多，实验测试主要针对气象领域较为常见的WRF高性能软件进行异常监控。

可选地，如图2所示，所述采集各计算节点的数据包括：

采集各计算节点的数据；

具体的，由于通常一个高性能计算应用会涉及到多个不同的计算节点，不管哪个计算节点的运行出现异常，都可能会对应用程序产生影响，同时计算节点之间的网络是否满足应用需求也需要考虑在内。因此，根据以上问题，本实施例所述方法通过数据采集工具(例如，利用iostat、sar、top和nvidia-smi等命令)对每个计算节点的数据进行采集，例如，每10s采集一次。然后将采集到的数据通过socket(“套接字”)汇总到管理节点，并由管理节点进行数据的存储以及终端显示；进而实现了对计算集群参数进行统一的采集、收集和存储，便于对所采集的数据进行处理和判断，有利于提高计算集群应用监控的准确性。

可选地，所述各计算节点的数据包括：CPU信息、内存信息、本地硬盘信息、网络信息、共享存储信息和GPU信息中一种或者任意组合。

可选地，如图2所示，所述CPU信息包括矢量化利用率、核心利用率、核心温度和缓存命中率中一种或者任意组合。

或者，所述内存信息包括内存利用率、内存宽带和交换分区利用率中一种或者任意组合。

或者，所述本地硬盘信息包括硬盘读宽带、硬盘写宽带、硬盘读等待和硬盘写等待中一种或者任意组合。

或者，所述网络信息包括以太网接收速率、以太网发送速率、Infiniband接收速率和Infiniband发送速率中一种或者任意组合。

或者，所述共享存储信息包括数据写入速率、数据读出速率、发包速率和读包速率中一种或者任意组合。

或者，所述GPU信息包括GPU利用率、显存利用率和GPU温度中一种或者任意组合。

可选地，如图3和图4所示，所述将所述数据进行阈值预处理、归一化处理包括：

可选地，如图3所示，所述按时间序列采集并处理的数据包括采集数据按时序进行划分、或按时间进行序列处理；其中，所述按时间序列采集并处理的数据需作为训练样本进行LSTM训练。

可选的，所述在第一阈值范围内的数据执行如下处理：

获取硬件参数额定值；

特殊参数处理(例如：CPU的超频)；

归一化处理。

判断获取的单一数据是否在第二阈值范围内，将在第二阈值范围内的数据执行归一化处理；或将超出第一阈值范围的数据执行应用报警；

其中，所述获取的单一数据即需进行异常判断的数据。

可选地，所述第一阈值范围与所述第二阈值范围设置为不同；

或所述第一阈值范围与所述第二阈值范围设置为相同。

具体的，由于采集到各计算节点的数据中可能包括非常明显的异常值，会对后期的处理产生较大影响，因此，本实施例所述方法通过阈值预处理进行了基本异常处理，在阈值范围比较大，避免误判正常运行的程序，在阈值范围内的样本数据执行归一化处理，超过阈值范围的样本数据判定为程序运行异常。

此外，由于一个应用程序可能会使用到不同的计算节点，而每个计算节点所需的硬件资源可能不同，针对这种差异，本实施例所述方法将所有类别的参数对应数据进行统一，包括最大值、最小值和均值等。由于不同参数值会有不同的数量级，比如CPU温度值一般是几十数量级、内存利用率为小于1的数量级等，为了减少数量级之间的影响，将所有参数对应数据进行了归一化处理。

将经阈值预处理和归一化处理后并在第一阈值范围内的数据进行整理与标注，形成正样本；

具体的，本实施例所述方法为了能充分挖掘数据中的信息，对于每个训练样本，分别取前10分钟的数据为该样本的特征数据，在程序运行的前10分钟，默认为程序在进行初始化操作，不作为训练样本参与训练，以当前时刻程序的运行状态为样本的类别进行数据标注形成正样本。

具体的，在程序运行时，人为制造程序异常运行情况，例如强制占用内存带宽、网络带宽、CPU等等，以增加负样本数量，最终与正样本建立正负样本集。

将正负样本集训练形成深度网络LSTM。

具体的，本实施例所述方法为了充分挖掘参数之间的联系、不同时刻的参数对程序运行状态的影响，将正负样本集中的70％作为训练数据，30％作为测试数据，利用LSTM深度网络对训练数据进行训练，通过对测试数据的测试得到最终的准确率。

可选地，如图4所示，在所述将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测之后，所述方法还包括：

当预测到所述高性能计算集群应用异常时，执行应用报警。

综上所述，本实施例所述方法能够把高性能计算集群采集到的信息进行更充分的挖掘，能够对计算集群数据进行统一的采集、收集和存储，通过阈值进行预判断，发现明显的程序运行异常、对于在阈值范围之外的数据进行预处理、数据整理等，最后利用深度网络LSTM挖掘出一段时间序列内的样本特征，进而对当前程序进行辅助监控，有效的提升判断高性能计算集群应用程序是否正常运行的准确率。

本发明实施例还提供一种基于LSTM的高性能计算集群应用监控***，如图5所示，所述***包括：

采集模块11，用于采集各计算节点的数据；

数据处理模块12，用于将所述数据进行阈值预处理和归一化处理；

训练模块13，用于将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM；

异常预测模块14，用于将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测。

本发明实施例提供的基于LSTM的高性能计算集群应用监控***通过采集模块将各计算节点的数据进行采集和汇总，不仅可以通过阈值预处理发现较为明显的异常值，同时还可以由训练模块将经过归一化处理，并利用LSTM对经阈值预处理和归一化处理后的数据进行学习训练形成深度网络LSTM，充分挖掘所采集的数据与应用运行状态之间的关系；进而挖掘出一段时间序列内的样本特征，通过异常预测模块对当前高性能计算集群应用程序进行辅助监控，有效提升判断高性能计算集群应用运行状态的准确率，明显提高高性能集群应用程序运行可控性和稳定性。

可选地，所述采集模块11包括：

数据采集单元，用于采集各计算节点的数据；

可选地，所述数据处理模块12包括：

可选地，所述训练模块13包括：

训练单元，用于将正负样本集训练形成深度网络LSTM。

可选地，所述***还包括：

应用报警模块，用于执行应用报警。

本实施例的***，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于LSTM的高性能计算集群应用监控方法，其特征在于，包括：

采集各计算节点的数据；

将所述数据进行阈值预处理和归一化处理；

2.根据权利要求1所述的方法，其特征在于，所述采集各计算节点的数据包括：

采集各计算节点的数据；

3.根据权利要求1或2所述的方法，其特征在于，所述将所述数据进行阈值预处理和归一化处理包括：

4.根据权利要求1或2所述的方法，其特征在于，所述将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM包括：

将正负样本集训练形成深度网络LSTM。

5.根据权利要求1或2所述的方法，其特征在于，在所述将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测之后，所述方法还包括：

当预测到所述高性能计算集群应用异常时，执行应用报警。

6.一种基于LSTM的高性能计算集群应用监控***，其特征在于，包括：

采集模块，用于采集各计算节点的数据；

7.根据权利要求6所述的***，其特征在于，所述采集模块包括：

数据采集单元，用于采集各计算节点的数据；

8.根据权利要求6或7所述的***，其特征在于，所述数据处理模块包括：

9.根据权利要求6或7所述的***，其特征在于，所述训练模块包括：

训练单元，用于将正负样本集训练形成深度网络LSTM。

10.根据权利要求6或7所述的***，其特征在于，所述***还包括：

应用报警模块，用于执行应用报警。