CN110991659A

CN110991659A - 异常节点识别方法、装置、电子设备及存储介质

Info

Publication number: CN110991659A
Application number: CN201911250256.7A
Authority: CN
Inventors: 屈伟; 董峰
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-10
Anticipated expiration: 2039-12-09
Also published as: CN110991659B

Abstract

本发明实施例提供了一种异常节点识别方法、装置、电子设备及存储介质，上述方法包括：将测试图像的特征数据输入待识别深度学习模型，待识别深度学习模型包括多个节点，在待识别深度学习模型对特征数据进行处理的过程中，监控多个节点中的指定节点的处理时长，指定节点的处理时长为指定节点对所接收的数据进行处理的时长，当指定节点的处理时长大于预设时长阈值时，确定指定节点为异常节点。采用本发明实施例提供的方案，实现了从深度学习模型包含的多个节点中识别出异常节点，并且在识别到异常节点后，可以通过对异常节点做进一步处理，有利于深入进行深度学习模型推理加速性能方法的研究，实现加快深度学习模型的运行速度。

Description

异常节点识别方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种异常节点识别方法、装置、电子设备及存储介质。

背景技术

在机器学习技术领域，深度学习模型发展迅速，得到了广泛应用。目前，在实际应用中，深度学习模型可能存在模型冗余，例如，深度学习模型的参数和结构存在冗余，即模型中存在多余的节点或参数，导致将深度学习模型进行应用时，模型运行时间较长。并且，目前深度学习模型存在部分节点运行时间长的问题，部分节点运行时间长导致深度学习模型的运行速度较低。因而，对深度学习模型中运行时间长的节点进行优化处理有助于提升深度学习模型的运行速度。而对深度学习模型中运行时间长的节点进行优化处理之前，如何从深度学习模型包含的多个节点中识别出运行时间长的节点十分重要。

发明内容

本发明实施例的目的在于提供一种异常节点识别方法，用以实现如何从深度学习模型包含的多个节点中识别出异常节点。具体技术方案如下：

达到上述目的，本发明实施例提供了一种异常节点识别方法，包括：

将测试图像的特征数据输入待识别深度学习模型，所述待识别深度学习模型包括多个节点；

在所述待识别深度学习模型对所述特征数据进行处理的过程中，监控所述多个节点中的指定节点的处理时长，所述指定节点的处理时长为所述指定节点对所接收的数据进行处理的时长；

当所述指定节点的所述处理时长大于预设时长阈值时，确定所述指定节点为异常节点。

进一步的，所述监控所述多个节点中的指定节点的处理时长，包括：

监控所述多个节点中的指定节点接收到需要处理的数据的输入时间点，以及对所接收的数据处理完成的输出时间点；

计算所述输出时间点减去所述输入时间点的差值，作为所述指定节点的处理时长。

监控从将所述特征数据输入所述待识别深度学习模型开始，到所述多个节点中每个节点接收到需要处理的数据的时长，作为到达时长；

计算所述指定节点的下一个节点的到达时长，减去所述指定节点的到达时长的差值，作为所述指定节点的处理时长。

进一步的，所述计算所述指定节点的下一个节点的到达时长，减去所述指定节点的到达时长的差值，包括：

当所述指定节点存在多个下一个节点时，从所述多个下一个节点中选择到达时长最小的下一个节点；

计算所选择的到达时长最小的下一个节点的到达时长，减去所述指定节点的到达时长的差值。

监控从将所述特征数据输入所述待识别深度学习模型开始，到所述多个节点中每个节点对所接收的数据处理完成的时长，作为输出时长；

计算所述指定节点的输出时长，减去所述指定节点的前一个节点输出时长的差值，作为所述指定节点的处理时长。

进一步的，所述计算所述指定节点的输出时长，减去所述指定节点的前一个节点输出时长的差值，包括：

当所述指定节点存在多个前一个节点时，从所述多个前一个节点中选择输出时长最大的前一个节点；

计算所述指定节点的输出时长，减去所选择的输出时长最大的前一个节点的输出时长的差值。

进一步的，所述待识别深度学习模型为基于高性能神经网络推理引擎TensorRT对原始深度学习模型进行优化后得到的模型；或者

所述待识别深度学习模型为基于开放视觉推理及神经网络优化工具OpenVINO对原始深度学习模型进行优化后得到的模型。

为了达到上述目的，本发明实施例还提供了一种异常节点识别装置，包括：

输入模块，用于将测试图像的特征数据输入待识别深度学习模型，所述待识别深度学习模型包括多个节点；

监控模块，用于在所述待识别深度学习模型对所述特征数据进行处理的过程中，监控所述多个节点中的指定节点的处理时长，所述指定节点的处理时长为所述指定节点对所接收的数据进行处理的时长；

确定模块，用于当所述指定节点的所述处理时长大于预设时长阈值时，确定所述指定节点为异常节点。

进一步的，所述监控模块，包括：

监控子模块，用于监控所述多个节点中的指定节点接收到需要处理的数据的输入时间点，以及对所接收的数据处理完成的输出时间点；

计算子模块，用于计算所述输出时间点减去所述输入时间点的差值，作为所述指定节点的处理时长。

进一步的，所述监控模块，包括：

监控子模块，用于监控从将所述特征数据输入所述待识别深度学习模型开始，到所述多个节点中每个节点接收到需要处理的数据的时长，作为到达时长；

计算子模块，用于计算所述指定节点的下一个节点的到达时长，减去所述指定节点的到达时长的差值，作为所述指定节点的处理时长。

进一步的，所述计算子模块，具体用于当所述指定节点存在多个下一个节点时，从所述多个下一个节点中选择到达时长最小的下一个节点；计算所选择的到达时长最小的下一个节点的到达时长，减去所述指定节点的到达时长的差值。

进一步的，所述监控模块，包括：

监控子模块，用于监控从将所述特征数据输入所述待识别深度学习模型开始，到所述多个节点中每个节点对所接收的数据处理完成的时长，作为输出时长；

计算子模块，用于计算所述指定节点的输出时长，减去所述指定节点的前一个节点输出时长的差值，作为所述指定节点的处理时长。

进一步的，所述计算子模块，具体用于当所述指定节点存在多个前一个节点时，从所述多个前一个节点中选择输出时长最大的前一个节点；计算所述指定节点的输出时长，减去所选择的输出时长最大的前一个节点的输出时长的差值。

为了达到上述目的，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述异常节点识别方法步骤。

为了达到上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的异常节点识别方法步骤。

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的异常节点识别方法步骤。

本发明实施例有益效果：

本发明实施例提供的异常节点识别方法，获取深度学习模型的节点，在待识别深度学习模型对测试图像的特征数据进行处理的过程中，监控指定节点对所接收的数据进行处理的时长，确定处理时长大于预设时长阈值的指定节点为异常节点。采用发明实施例提供的方法，通过监控指定节点对所接收的数据进行处理的时长，将处理时长大于预设时长阈值的指定节点作为异常节点，从而实现从深度学习模型包含的多个节点中识别出异常节点。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的异常节点识别方法的第一种流程图；

图2为本发明实施例提供的异常节点识别方法的第二种流程图；

图3为本发明实施例提供的异常节点识别方法的第三种流程图；

图4为本发明实施例提供的异常节点识别装置的第四种流程图；

图5为本发明实施例提供的异常节点识别装置的第一种结构图；

图6为本发明实施例提供的异常节点识别装置的第二种结构图；

图7为本发明实施例提供的电子设备的结构示意图；

图8为本发明实施例提供的深度学习模型的部分节点的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

由于现有的深度学习模型存在部分节点运行时间长导致深度学习模型运行速度较低的问题，为解决这一技术问题，本发明实施例提供了一种异常节点识别方法，如图1所示，包括：

步骤101，将测试图像的特征数据输入待识别深度学习模型，待识别深度学习模型包括多个节点。

步骤102，在待识别深度学习模型对特征数据进行处理的过程中，监控多个节点中的指定节点的处理时长，指定节点的处理时长为指定节点对所接收的数据进行处理的时长。

步骤103，当指定节点的处理时长大于预设时长阈值时，确定指定节点为异常节点。

采用发明实施例提供的方法，通过监控指定节点对所接收的数据进行处理的时长，将处理时长大于预设时长阈值的指定节点作为异常节点，从而实现从深度学习模型包含的多个节点中识别出异常节点。

在深度学习模型的应用中，处理时长大于预设时长阈值的节点可能导致深度学习模型运行速度降低，影响深度学习模型的应用。因此将深度学习模型的节点中处理时长大于预设时长阈值的节点作为异常节点。采用发明实施例提供的方法，可以识别出深度学习模型的异常节点，并且，在识别出深度学习模型的异常节点后，可以对异常节点做进一步处理，有利于深入进行深度学习模型推理加速性能方法的研究，进而优化深度学习模型，加快深度学习模型的运行速度。

下面通过具体实施例对本发明实施例提供的异常节点识别方法及装置进行详细描述。

本发明实施例公开了一种异常节点识别方法，如图2所示，可以包括如下步骤：

步骤201，将测试图像的特征数据输入待识别深度学习模型，待识别深度学习模型包括多个节点。

本发明实施例中，深度学习模型由多个节点之间相互联接构成。每个节点代表一种特定的输出函数，称为激活函数，例如Sigmoid(逻辑回归函数)。每个节点用于从相连接的上一级节点接收待处理数据、处理待处理数据以及向相连接的下一级节点输出处理后的数据。

本发明实施例中，待识别深度学习模型可以为基于TensorRT(高性能神经网络推理引擎)对原始深度学习模型进行优化后得到的模型；或者，待识别深度学习模型也可以为基于OpenVINO(开放视觉推理及神经网络优化工具)对原始深度学习模型进行优化后得到的模型；或者，待识别深度学习模型也可以为未经过任何优化处理的原始深度学习模型。

目前基于TensorRT对原始深度学习模型进行优化后得到的模型，和基于OpenVINO对原始深度学习模型进行优化后得到的模型，都能够在原始深度学习模型上提升模型运行速度。但是现有的优化方式存在优化不合理，优化后的模型速度提升少的局限性。例如在使用OpenVINO对原始深度学习模型进行优化时，由于默认的输入通道为NCHW格式，而TensorFlow(人工智能学习***)使用的默认通道为NHWC，因此优化后的模型需要做转置操作，其中，NCHW格式表示输入数据在内存中的存放顺序为NCHW(batch channels heightwidth，批量通道数高度方向像素数宽度方向像素数)，NHWC格式表示输入数据在内存中的存放顺序为NHWC(batch height width channels，批量高度方向像素数宽度方向像素数通道数)。并且三维卷积的转置时间开销很大，因此转置操作严重影响优化后模型的运行速度。因而，可以将基于原始深度学习模型进行优化后得到的深度学习模型作为待识别深度学习模型，识别异常节点。

本步骤中，还可以获取待识别深度学习模型的多个节点名称，例如，使用OpenVINO对原始深度学习模型进行优化后，可以得到优化后的待识别深度学习模型结构信息，待识别深度学习模型结构信息中包含待识别深度学习模型的所有节点的名称。

步骤202，监控多个节点中的指定节点接收到需要处理的数据的输入时间点，以及对所接收的数据处理完成的输出时间点。

本发明实施例中，针对待识别深度学习模型进行异常节点识别时，可以选择对待识别深度学习模型的全部节点进行异常节点识别，也可以只针对待识别深度学习模型的部分参数层中的节点进行异常节点识别。当针对待识别深度学习模型的部分参数层中的节点进行异常节点识别时，可以将这部分参数层中的节点确定为指定节点，进而，可以从指定节点中识别异常节点。

本步骤中，可以基于待识别深度学习模型的结构信息获取的待识别深度学习模型的多个节点名称，进而，可以从获取的多个节点中选取指定节点，并且选取的指定节点可以是一个指定节点，也可以是多个指定节点，也可以是待识别深度学习模型的所有节点。

本步骤中，指定节点接收到的是表征测试图像特征的数据，指定节点在接收到表征测试图像特征的数据后，可以对接收的数据进行相应的处理，得到处理后的数据，并且指定节点可以将处理后的数据输出至下一指定节点。

针对指定节点，按照表征测试图像特征的数据的处理顺序，依次记录每个指定节点接收到需要处理的数据的输入时间点和对所接收的数据处理完成的输出时间点。其中，可以通过标记表征测试图像特征的数据，判断指定节点是否对所接收的数据处理完成，进而记录指定节点对所接收的数据处理完成的输出时间点，当相较于指定节点接收到需要处理的数据，标记的表征测试图像特征的数据发生改变时，则可以确定指定节点对所接收的数据处理完成，可以记录标记的表征测试图像特征的数据发生改变的时间点为指定节点的输出时间点。例如，在一种可能的实施方式中，指定节点A接收到需要处理的表征测试图像特征的数据为a、b、c、d、e和f，其中f为标记数据，当监控到f改变为f^′时，表示指定节点A对所接收的数据a、b、c、d、e和f处理完成，可以记录数据f改变为f^′的时间点为指定节点A对应的输出时间点。

在一种可能的实施方式中，在将测试图像的特征数据输入待识别深度学习模型后，可以使用待识别深度学习模型中的logging.info(日志信息函数)记录待识别深度学习模型每个节点接收到需要处理的数据的输入时间点和对所接收的数据处理完成的输出时间点。进一步的，可以获取待识别深度学习模型中的指定节点接收到需要处理的数据的输入时间点和对所接收的数据处理完成的输出时间点，实现对待识别深度学习模型中指定节点的监控。

步骤203，计算输出时间点减去输入时间点的差值，作为指定节点的处理时长。

本步骤中，指定节点的输出时间点减去输入时间点的差值表示指定节点对表征测试图像特征的数据的处理过程所耗费的时间长度。

在一种可能的实施方式中，指定节点A接收到需要处理的表征测试图像特征的数据的时间点为t₁，指定节点A对所接收到数据处理完成的时间点为t₂，计算(t₂-t₁)的值，作为指定节点A的处理时长，表示指定节点A对表征测试图像特征的数据的处理过程所耗费的时间长度。

步骤204，当指定节点的处理时长大于预设时长阈值时，确定指定节点为异常节点。

本步骤中，预设时长阈值可以根据待识别深度学习模型的不同以及运行待识别深度学习模型设备的性能不同，具体进行设定，并且，针对不同的指定节点，可以设置不同的预设时长阈值。

在一种可能的实施方式中，可以设定待识别深度学习模型中指定的卷积节点B的处理时长的5倍作为预设时长阈值，针对每个指定节点，判断该指定节点的处理时长是否大于卷积节点B的处理时长的5倍，当该指定节点的处理时长大于卷积节点B的处理时长的5倍时，可以将指定节点确定为异常节点。

采用发明实施例提供的方法，通过监控指定节点接收到需要处理的数据的输入时间点和对所接收的数据处理完成的输出时间点，进而计算输出时间点减去输入时间点的差值，作为指定节点的处理时长，将处理时长大于预设时长阈值的指定节点作为异常节点，从而实现从深度学习模型包含的多个节点中识别出异常节点。并且在识别深度学习模型的异常节点后，可以通过对异常节点做进一步处理，有利于深入进行深度学习模型推理加速性能方法的研究，进而有针对性的优化深度学习模型，实现加快深度学习模型的运行速度，提升模型的优化效率。

在本发明的又一个实施例中，如图3所示，本发明实施例提供的异常节点识别方法，可以包括以下步骤：

步骤301，将测试图像的特征数据输入待识别深度学习模型，待识别深度学习模型包括多个节点。

本步骤与上述步骤201相同，此处不再赘述。

步骤302，监控从将特征数据输入待识别深度学习模型开始，到多个节点中每个节点接收到需要处理的数据的时长，作为到达时长。

本步骤中，待识别深度学习模型的多个节点接收到的是表征测试图像特征的数据，多个节点中的每个节点在接收到表征测试图像特征的数据后，可以对接收的数据进行相应的处理，得到处理后的数据，并且可以将处理后的数据输出至下一节点。

本步骤中，可以将特征数据输入待识别深度学习模型的时间作为初始时间，针对多个节点，按照表征测试图像特征的数据的处理顺序，依次记录每个节点接收到需要处理的数据的时间点，其中，初始时间可以根据具体应用场景进行设定，例如，可以将初始时间设定为零。

在一种可能的实施方式中，在将测试图像的特征数据输入待识别深度学习模型后，可以使用待识别深度学习模型中的logging.info函数记录待识别深度学习模型的指定节点接收到需要处理的数据的时间点。

步骤303，判断指定节点是否只对应一个下一个节点，若判断结果为是，执行步骤304a，若判断结果为否，执行步骤304b。

步骤304a，计算指定节点的下一个节点的到达时长，减去指定节点的到达时长的差值，作为指定节点的处理时长。

本步骤中，当指定节点只对应一个下一个节点时，可以计算指定节点的下一个节点的到达时长，减去指定节点的到达时长的差值，得到的差值表示指定节点对表征测试图像特征的数据的处理过程所耗费的时间长度，可以将得到的差值作为指定节点的处理时长。

在一种可能的实施方式中，指定节点C接收到需要处理的数据的时长为t_C，指定节点C对应的下一个节点只有指定节点D，并且指定节点D接收到需要处理的数据的时长为t_D，可以计算(t_D-t_C)的值，作为指定节点C的处理时长，表示指定节点C对表征测试图像特征的数据的处理过程所耗费的时间长度。

步骤304b，计算多个下一个节点中到达时长最小的下一个节点的到达时长，减去指定节点的到达时长的差值，作为指定节点的处理时长。

本步骤中，当指定节点存在多个下一个节点时，可以从多个下一个节点中选择到达时长最小的下一个节点，计算所选择的到达时长最小的下一个节点的到达时长，减去指定节点的到达时长的差值，作为指定节点的处理时长。

在一种可能的实施方式中，指定节点E接收到需要处理的数据的时长为t_E，指定节点E对应多个下一个节点：指定节点F₁、指定节点F₂、指定节点F₃和指定节点F₄，并且指定节点F₁接收到需要处理的数据的时长为t_F1，指定节点F₂接收到需要处理的数据的时长为t_F2，指定节点F₃接收到需要处理的数据的时长为t_F3，指定节点F₄接收到需要处理的数据的时长为t_F4，比较t_F1、t_F2、t_F3和t_F4的大小，选择其中最小的min{t_F1,t_F2,t_F3,t_F4}，可以计算(min{t_F1,t_F2,t_F3,t_F4}-t_E)的值，作为指定节点E的处理时长，表示指定节点E对表征测试图像特征的数据的处理过程所耗费的时间长度。

步骤305，当指定节点的处理时长大于预设时长阈值时，确定指定节点为异常节点。

本步骤与上述步骤204相同，此处不再赘述。

采用发明实施例提供的方法，通过监控指定节点的到达时长，进而计算指定节点的处理时长，将处理时长大于预设时长阈值的指定节点作为异常节点，从而实现从深度学习模型包含的多个节点中识别出异常节点。并且在识别出深度学习模型的异常节点后，可以通过对异常节点做进一步处理，有利于深入进行深度学习模型推理加速性能方法的研究，进而优化深度学习模型，实现加快深度学习模型的运行速度。

在本发明的又一个实施例中，如图4所示，本发明实施例提供的异常节点识别方法，可以包括以下步骤：

步骤401，将测试图像的特征数据输入待识别深度学习模型，待识别深度学习模型包括多个节点。

本步骤与上述步骤201相同，此处不再赘述。

步骤402，监控从将特征数据输入待识别深度学习模型开始，到多个节点中每个节点对所接收的数据处理完成的时长，作为输出时长。

本步骤中，待识别深度学习模型的多个节点接收到的是表征测试图像特征的数据，多个节点中的每个节点在接收到表征测试图像特征的数据后，可以对接收的数据进行相应的处理，得到处理后的数据，每个节点将处理后的数据输出至下一节点的时长作为对应的输出时长。

本步骤中，可以将特征数据输入待识别深度学习模型的时间作为初始时间，针对多个节点，按照表征测试图像特征的数据的处理顺序，依次记录每个节点对所接收的数据处理完成的时间点，其中，初始时间可以根据具体应用场景进行设定，例如，可以将初始时间设定为零。

在一种可能的实施方式中，在将测试图像的特征数据输入待识别深度学习模型后，可以使用待识别深度学习模型中的logging.info函数记录待识别深度学习模型的指定节点对所接收的数据处理完成的时间点。

步骤403，判断指定节点是否只对应一个前一个节点，若判断结果为是，执行步骤404a，若判断结果为否，执行步骤404b。

步骤404a，计算指定节点的输出时长，减去指定节点的前一个节点输出时长的差值，作为指定节点的处理时长。

本步骤中，当指定节点只对应一个前一个节点时，可以计算指定节点的输出时长，减去指定节点的前一个节点的输出时长的差值，得到的差值表示指定节点对表征测试图像特征的数据的处理过程所耗费的时间长度，可以将得到的差值作为指定节点的处理时长。

在一种可能的实施方式中，指定节点G对所接收的数据处理完成的时长为t_H，指定节点H对应的前一个节点只有指定节点G，并且指定节点G对所接收的数据处理完成的时长为t_G，可以计算(t_H-t_G)的值，作为指定节点H的处理时长，表示指定节点H对表征测试图像特征的数据的处理过程所耗费的时间长度。

步骤404b，计算指定节点的输出时长，减去多个前一个节点中输出时长最大的前一个节点的输出时长的差值，作为指定节点的处理时长。

本步骤中，当指定节点存在多个前一个节点时，可以从多个前一个节点中选择输出时长最大的前一个节点，计算指定节点的输出时长，减去所选择的输出时长最大的前一个节点的输出时长的差值，作为指定节点的处理时长。

在一种可能的实施方式中，指定节点M对所接收的数据处理完成的时长为t_M，指定节点M对应多个前一个节点：指定节点L₁、指定节点L₂、指定节点L₃、指定节点L₄和指定节点L₅，并且指定节点L₁所接收的数据处理完成的时长为t_L1，指定节点L₂所接收的数据处理完成的时长为t_L2，指定节点L₃所接收的数据处理完成的时长为t_L3，指定节点L₄所接收的数据处理完成的时长为t_L4，指定节点L₅所接收的数据处理完成的时长为t_L5，比较t_L1、t_L2、t_L3、t_L4和t_L5的大小，选择其中最大的max{t_L1,t_L2,t_L3,t_L4,t_L5}，可以计算(t_M-max{t_L1,t_L2,t_L3,t_L4,t_L5})的值，作为指定节点M的处理时长，表示指定节点M对表征测试图像特征的数据的处理过程所耗费的时间长度。

步骤405，当指定节点的处理时长大于预设时长阈值时，确定指定节点为异常节点。

本步骤与上述步骤204相同，此处不再赘述。

采用发明实施例提供的方法，通过监控指定节点的输出时长，进而计算指定节点的处理时长，将处理时长大于预设时长阈值的指定节点作为异常节点，从而实现从深度学习模型包含的多个节点中识别出异常节点。并且在识别出深度学习模型的异常节点后，可以通过对异常节点做进一步处理，有利于深入进行深度学习模型推理加速性能方法的研究，进而优化深度学习模型，实现加快深度学习模型的运行速度。

本发明实施例中，在确定出待识别深度学习模型的异常节点之后，可以采用以下方法对识别出的异常节点进行处理：

第一种方式：当识别出的异常节点对于深度学习模型而言是多余节点，可以选择将识别出的异常节点删除。删除异常节点后得到新的深度学习模型，可以将新的深度学习模型应用于适用场景。

第二种方式：当识别出的异常节点对于深度学习模型而言非多余节点，可以选择使用时间消耗少但可执行相同功能的节点代替识别出的异常节点，更改节点后得到新的深度学习模型，可以检测新的深度学习模型运行是否正常，若得到的新的深度学习模型运行正常且运行速度提升，可以将新的深度学习模型应用于适用场景。

本发明实施例提供的方案也可以针对优化后的深度学习模型识别异常节点。例如，使用OpenVINO、TensorRT等开发工具对深度学习模型进行优化，优化后的模型运行速度加快，但是用于目前使用OpenVINO和TensorRT这两种工具对深度学习模型进行优化后，优化后的深度学习模型的部分节点相比优化前运行时间变得更长了。针对这种问题，可以采用本发明实施例提供的方案，将优化后的深度学习模型作为待识别深度学习模型，通过本发明实施例提供的方案识别模型的异常节点，在识别出异常节点后，可以通过对异常节点做进一步处理，深入推进深度学习模型推理加速性能方法的研究。

在一种可能的实施方式中，使用深度学习模型测试398个时长为10秒至20秒的短视频，使用原始深度学习模型进行测试的测试时间为1190秒。由于原始深度学习模型进行训练的默认通道为NHWC，而OpenVINO对原始深度学习模型进行优化时默认的输入通道为NCHW，因而使用OpenVINO工具将原始深度学习模型进行优化时，需要将原始深度学习模型的默认通道NHWC转化为NCHW通道。在将原始深度学习模型的默认通道将NHWC通道转化为NCHW通道时需要引入节点名称为3Dtranspose的节点，原始深度学习模型通过OpenVINO工具的优化，得到第一优化模型，其中，第一优化模型包含节点3Dtranspose(转置节点)，使用第一优化模型进行测试的测试时间为427秒。将第一优化模型作为待识别深度学习模型，使用本发明实施例提供的方案识别异常节点，识别出待识别深度学习模型的节点3Dtranspose的处理时长大于设定的阈值时长。在识别出异常节点3Dtranspose后，可以选择在不引入节点3Dtranspose的前提下，使用OpenVINO工具将原始深度学习模型进行优化时，得到第二优化模型，使用第二优化模型进行测试，测试时间为300秒。

可见，针对优化的深度学习模型，在识别出深度学习模型的异常节点后，可以通过对异常节点做进一步处理，进而深入优化深度学习模型，有利于深入进行深度学习模型推理加速性能方法的研究，进一步加快深度学习模型的运行速度。

本发明实施例中的深度学习模型具体可以是DNN(Deep Neural Network，深度神经网络)，具体可以包括：CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short Term Memory，长短期记忆网络)。

本发明实施例中的深度学习模型具体可以用于：

目标分类：目标分类就是基于分类任务的目标识别问题，即计算机根据给定的数据，找出这些数据中哪些是所需的目标。例如，猫狗分类或者花草分类；

目标检测：目标检测可以从当前图像中确定待检测目标的具***置，目标检测的应用十分广泛，经常应用于电力***检测、医疗影像检测等；

目标分割：目标分割就是将一张图像中的特定目标的区域分割出来，在深度学习领域中，目标分割的研究方向主要分为语义分割和实例分割两类，其中语义分割就是针对图像中的每个像素点进行分类，判断图像中哪些像素属于哪个目标，而实例分割不仅要判断哪些像素属于目标，而且要判断哪些像素属于第一个目标，哪些像素属于第二个目标，目前在医疗影像中的关键就是对人体器官的分割；

语音识别：语音识别的目标是将一段自然语言通过声学信号的形式传给计算机，由计算机理解并且做出回应，语音识别的应用场景可以是：行车导航软件通过语音识别技术为司机指引道路、播报路况；

自动驾驶：在自动驾驶技术中，深度学习模型可以用于识别车辆行驶环境条件。

本发明实施例中，针对深度学习模型的各个节点，可以通过采用DFS(DepthFirstSearch，图的深度优先搜索)和BFS(Breadth First Search，广度优先搜索算法)，识别深度学习模型的各个节点。如图8所示，深度学习模型的部分节点a1-a19,其中节点a1为根节点。

可以先通过广度优先搜索算法，查找出节点a1-a19，广度优先算法可以从根节点开始遍历，依次遍历与前一节点邻接的下一级节点，并且遍历过的节点不需要二次遍历，具体遍历节点的步骤可以是：

可以从根节点a1开始遍历，接着遍历与根节点a1邻接的节点a2，节点，接着依次遍历与节点a2邻接的节点：节点a13、节点a17、节点a19、节点a3；接着遍历与节点a13邻接的节点：节点a10，遍历与节点a17邻接的节点：节点a16,遍历与节点a19邻接的节点：节点a15,遍历与节点a3邻接的节点：节点a4；接着遍历与节点a10邻接的节点：节点a9，遍历与节点a16邻接的节点：节点a14节点a18，遍历与节点a15邻接的节点：节点a8,遍历与节点a4邻接的节点：节点a6；接着遍历与节点a14邻接的节点：节点a12，遍历与节点a18邻接的节点：节点a7接着遍历与节点a12邻接的节点：节点a11。查找到了深度学习模型的节点a1-a19。

针对深度学习模型的任一节点，与该节点邻接的前一级节点为该节点的父节点，与该节点邻接的后一级节点为该节点的子节点，广度优先搜索算法可以查找深度学习模型的节点，并且可以根据节点之间的邻接关系确定深度学习模型子节点的父节点。

深度学习模型节点的节点深度为，从根节点到该节点的路径，即从根节点到该节点所经过的节点数量加2，其中，根节点的深度为1。在查找到深度学习模型的各个节点后，可以对查找的节点按照节点深度进行排序，对深度学习模型的节点进行归纳。如图8所示，节点a1为根节点深度为1，节点a2的最大深度为2，节点a3的最大深度为3，节点a4的最大深度为4，节点a6的最大深度为5，节点a7的最大深度为6，节点a8的最大深度为5，节点a9的最大深度为10，节点a10的最大深度为9，节点a11的最大深度为7，节点a12的最大深度为6，节点a13的最大深度为8，节点a14的最大深度为5，节点a15的最大深度为4，节点a16的最大深度为4，节点a17的最大深度为3，节点a18的最大深度为5，节点a19的最大深度为3。可以对图8中节点a1-a19按照节点深度最大进行排序，得到排序后的节点依次为：节点a1，节点a2，节点a3，节点a17，节点a19，节点a4，节点a16，节点a15，节点a6，节点a14，节点a18，节点a8，节点a7，节点a12，节点a11，节点a13，节点a10，节点a9。

通过先使用BFS后，我们可以明确深度学习模型节点的父节点，进而通过DFS对节点进行归纳，一方面实现识别深度学习模型的节点，另一方面对于每一个节点，该节点和其父节点的时间差就是该节点对应的处理时长，进而可以按照本发明实施例提供的方案，当节点的处理时长大于预设时长阈值，确定该节点为异常节点。

基于同一发明构思，根据本发明上述实施例提供的异常节点识别方法，相应地，本发明另一实施例还提供了一种异常节点识别装置，其结构示意图如图5所示，具体包括：

输入模块501，用于将测试图像的特征数据输入待识别深度学习模型，待识别深度学习模型包括多个节点；

监控模块502，用于在待识别深度学习模型对特征数据进行处理的过程中，监控多个节点中的指定节点的处理时长，指定节点的处理时长为指定节点对所接收的数据进行处理的时长；

确定模块503，用于当指定节点的处理时长大于预设时长阈值时，确定指定节点为异常节点。

可见，采用发明实施例提供的装置，通过监控指定节点对所接收的数据进行处理的时长，将处理时长大于预设时长阈值的指定节点作为异常节点，从而实现从深度学习模型包含的多个节点中识别出异常节点。并且在识别出深度学习模型的异常节点后，可以通过对异常节点做进一步处理，有利于深入进行深度学习模型推理加速性能方法的研究，进而优化深度学习模型，实现加快深度学习模型的运行速度。

进一步的，如图6所示，监控模块502，包括：

监控子模块601，用于监控多个节点中的指定节点接收到需要处理的数据的输入时间点，以及对所接收的数据处理完成的输出时间点；

计算子模块602，用于计算输出时间点减去输入时间点的差值，作为指定节点的处理时长。

进一步的，如图6所示，监控模块502，包括：

监控子模块601，用于监控从将特征数据输入待识别深度学习模型开始，到多个节点中每个节点接收到需要处理的数据的时长，作为到达时长；

计算子模块602，用于计算指定节点的下一个节点的到达时长，减去指定节点的到达时长的差值，作为指定节点的处理时长。

进一步的，如图6所示，计算子模块602，具体用于当指定节点存在多个下一个节点时，从多个下一个节点中选择到达时长最小的下一个节点；计算所选择的到达时长最小的下一个节点的到达时长，减去指定节点的到达时长的差值。

进一步的，如图6所示，监控模块502，包括：

监控子模块601，用于监控从将特征数据输入待识别深度学习模型开始，到多个节点中每个节点对所接收的数据处理完成的时长，作为输出时长；

计算子模块602，用于计算指定节点的输出时长，减去指定节点的前一个节点输出时长的差值，作为指定节点的处理时长。

进一步的，如图6所示，计算子模块602，具体用于当指定节点存在多个前一个节点时，从多个前一个节点中选择输出时长最大的前一个节点；计算指定节点的输出时长，减去所选择的输出时长最大的前一个节点的输出时长的差值。

进一步的，待识别深度学习模型为基于TensorRT对原始深度学习模型进行优化后得到的模型；或者，待识别深度学习模型为基于OpenVINO对原始深度学习模型进行优化后得到的模型。

基于同一发明构思，根据本发明上述实施例提供的异常节点识别方法，相应地，本发明另一实施例还提供了一种电子设备，参见图7，本发明实施例的电子设备包括处理器701，通信接口702，存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一异常节点识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一异常节点识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常节点识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述监控所述多个节点中的指定节点的处理时长，包括：

3.根据权利要求1所述的方法，其特征在于，所述监控所述多个节点中的指定节点的处理时长，包括：

4.根据权利要求3所述的方法，其特征在于，所述计算所述指定节点的下一个节点的到达时长，减去所述指定节点的到达时长的差值，包括：

5.根据权利要求1所述的方法，其特征在于，所述监控所述多个节点中的指定节点的处理时长，包括：

6.根据权利要求5所述的方法，其特征在于，所述计算所述指定节点的输出时长，减去所述指定节点的前一个节点输出时长的差值，包括：

7.根据权利要求1所述的方法，其特征在于，所述待识别深度学习模型为基于高性能神经网络推理引擎TensorRT对原始深度学习模型进行优化后得到的模型；或者，

8.一种异常节点识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述监控模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述监控模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述监控模块，包括：

12.根据权利要求8所述的装置，其特征在于，所述待识别深度学习模型为基于高性能神经网络推理引擎TensorRT对原始深度学习模型进行优化后得到的模型；或者

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。