CN112230926B

CN112230926B - 一种复杂模型的优化方法、装置、设备及可读介质

Info

Publication number: CN112230926B
Application number: CN202010989609.1A
Authority: CN
Inventors: 王鹏飞
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-07-26
Anticipated expiration: 2040-09-18
Also published as: CN112230926A

Abstract

本发明公开了一种复杂模型的优化方法，包括以下步骤：对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；根据标定的不支持算子对复杂模型进行截断，得到基于不支持算子的截断模型和基于支持算子的原生模型；以及将截断模型和原生模型在不同的环境下分别运行，并将结果进行联合推理。本发明还公开了一种复杂模型的优化装置、计算机设备和可读存储介质。本发明通过截断模型的模型优化方法，基于不同类型的算子将模型拆分为两种框架支持，快速实现模型优化，无需手写不支持算子的插件，避免了由此带来的内存泄漏或效率较低等问题，既可以优化性能，又可以保证可移植性、易用性，同时提高推理效率。

Description

一种复杂模型的优化方法、装置、设备及可读介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种复杂模型的优化方法、装置、设备及可读介质。

背景技术

随着深度学习算法的不断发展，以及算力和数据的不断提高及丰富，人工智能AI应用正在各行各业完成实践、落地。当前大多数AI应用都是基于深度学习技术，在数据驱动下建立模型、训练验证、工程部署和推理实现。其中，推理实现过程直接与业务场景连接，成为能否落地使用的关键点。影响推理性能的因素较多，包括硬件配置、工程部署方式、算法和模型复杂度以及推理框架等。算法和模型是影响模型部署及使用的内驱因素，针对算法和模型本身的优化可以称之为模型优化，其余优化均为***优化。模型优化包括量化压缩、裁剪、蒸馏，业界有较多工具及开源实现可以帮助完成，但是因算法及模型不断创新，模型复杂程度不断增加，模型优化工具往往无法将模型所有算子都支持转换优化，比如TensorRT、TVM等工具支持算子都要远少于TesnorFLow或Pytorch这样的深度学习框架。

针对模型中算子无法完全转化到推理引擎的模型，即复杂模型，目前的优化方法有：基于原生框架直接进行推理；基于TensroRT编写插件将不支持的算子实现；基于其它优化推理引擎的模型优化。

基于原生框架直接进行推理，该种方案是指利用某种深度学习框架训练的深度学习模型，训练完成后直接在该模型框架上进行推理使用。该方案实现较简单，但是无法对模型进行优化，且仅仅支持自身框架训练的模型。模型复杂情况下，无法进行有效的优化加速。

基于TensroRT编写插件将不支持的算子实现，该种方案是指利用TensorRT的API和CUDA的并行加速能力定制化实现不支持的算子。该方案可以在少量算子不支持的情况下完成整个模型的转换、优化。

基于其它优化推理引擎的模型优化，业界使用较多的推理优化引擎包括TVM、OpenVINO等。该种方案对于复杂模型依然会有不支持的算子，采用的方案也是定制插件，利用其自身的API完成整个转换过程，并未直接针对GPU架构，效率较低。

现有技术中，基于TensroRT编写插件将不支持的算子实现和基于其它优化推理引擎的模型优化这两种方案仅有少量算子不支持的情况下可以较为高效的进行模型转换优化，但是复杂模型转化时会出现如下问题：稳定性，运行和精度稳定性都无法保障；效率，要基于CUDA-X实现后端其效率无法保障；可移植性，不同型号之间可能带来插件算子的不匹配问题；复杂性，实现一个手写插件需要大量的代码调试和编写，如果模型本身较复杂不支持的算子较多，其带来的工作量相当可观。

发明内容

有鉴于此，本发明实施例的目的在于提出一种复杂模型的优化方法、装置、设备及可读介质，通过截断模型的模型优化方法，基于不同类型的算子将模型拆分为两种框架支持，快速实现模型优化，无需手写不支持算子的插件，避免了由此带来的内存泄漏或效率较低等问题，既可以优化性能，又可以保证可移植性、易用性，同时提高推理效率。

基于上述目的，本发明实施例的一方面提供了一种复杂模型的优化方法，包括以下步骤：对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；根据标定的不支持算子对复杂模型进行截断，得到基于不支持算子的截断模型和基于支持算子的原生模型；以及将截断模型和原生模型在不同的环境下分别运行，并将结果进行联合推理。

在一些实施方式中，对复杂模型进行预转换包括：使用转换工具将复杂模型转换为运行于预设类型模型的预设格式；在转换过程中，将不支持的算子进行筛选和记录。

在一些实施方式中，使用转换工具将复杂模型转换为运行于预设类型模型的预设格式包括：使用trtexec/TFTRT工具将复杂模型转换为运行于TensorRT模型的TensorRT-plan格式。

在一些实施方式中，根据标定的不支持算子对复杂模型进行截断包括：不断增加不支持算子之间的OP数目，测试并记录模型计算性能；根据性能最优原则选择合适的连续OP数目，记录两个中间部分的切分节点作为模型的截断节点，并基于截断节点进行截断。

在一些实施方式中，将截断模型和原生模型在不同的环境下分别运行包括：将基于不支持算子的截断模型放于TensorFlow框架中执行。

在一些实施方式中，将截断模型和原生模型在不同的环境下分别运行包括：将基于支持算子的原生模型转换为TensorRT-plan格式，并放于TensorRT中执行。

在一些实施方式中，将结果进行联合推理包括：将截断的节点转换为常量，并通过节点打印的形式求取常量。

本发明实施例的另一方面，还提供了一种复杂模型的优化装置，包括：筛选模块，配置用于对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；截断模块，配置用于根据标定的不支持算子对复杂模型进行截断，得到基于不支持算子的截断模型和基于支持算子的原生模型；以及耦合模块，配置用于将截断模型和原生模型在不同的环境下分别运行，并将结果进行联合推理。

本发明实施例的再一方面，还提供了一种计算机设备，包括：至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述方法的步骤。

本发明实施例的再一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。

本发明具有以下有益技术效果：通过截断模型的模型优化方法，基于不同类型的算子将模型拆分为两种框架支持，快速实现模型优化，无需手写不支持算子的插件，避免了由此带来的内存泄漏或效率较低等问题，既可以优化性能，又可以保证可移植性、易用性，同时提高推理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的复杂模型的优化方法的实施例的示意图；

图2为本发明提供的复杂模型的优化装置的实施例的示意图；

图3为本发明提供的计算机设备的实施例的示意图；

图4为本发明提供的计算机可读存储介质的实施例的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了复杂模型的优化方法的实施例。图1示出的是本发明提供的复杂模型的优化方法的实施例的示意图。如图1所示，本发明实施例包括如下步骤：

S01、对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；

S02、根据标定的不支持算子对复杂模型进行截断，得到基于不支持算子的截断模型和基于支持算子的原生模型；以及

S03、将截断模型和原生模型在不同的环境下分别运行，并将结果进行联合推理。

在本实施例中，主要针对模型中算子无法完全转化到推理引擎的模型，即复杂模型，提出基于该类模型在TensorRT推理引擎上一种快速的截断式优化方法。TensorRT是英伟达官方提供的一种针对GPU/Jetson计算设备的优化推理引擎。因业界目前主要的推理设备为GPU或Jetson设备，TensorRT成为深度学习模型优化的重要方法。它支持模型的权重量化和算子融合等一系列优化手段，可以为深度学习模型推理加速提供强大支持。业界常用的深度学习框架如Caffe、TensorFlow、Pytorch可以通过不同方法转化为TensorRT-plan，进行推理加速。但是，TensorRT支持的算子有限，其定位于精简、高效，如果遇到中存在较多无法转化的算子的复杂模型必须手动添加插件以实现无法支持的算子。优化方法具体包括：使用转换工具将模型预转换为TensorRT-plan，筛选得到无法支持的算子；在模型结构中标定不支持算子，并使用截断模型方法，将部分模型转换为TensorRT；其余模型使用其深度学习框架本身的runtime进行推理。其中截断模型部分充分利用了原生框架的灵活易用性和TensorRT的高效计算，将模型拆分为两种框架支持既可以带来性能优化，又保证了可移植性、易用性和效率。

在本实施例中，使用人工智能缺陷检测方法对铁路接触网部件进行缺陷定位、检测。本实施例中主要讨论对第一阶段模型R2CNN++，模型使用TensorFlow框架训练得到，按照上述的流程对模型进行了截断式转换优化。使用TFTRT方法寻找模型转换为TensorRT-plan过程中不支持的算子使用为336次，具体包括：Transpose,Fill,Reshape,Range,Minimum,StridedSlice,NonMaxSuppressionV2,Shape,Sub,TopKV2,Cast,FloorDiv,NoOp,DataFormatVecPermute,Placeholder,Switch等。在计算图中将不支持的算子进行定位然后采用截断方法，先最大化的将所有连续大于等于3个OP的计算步骤转换成TensorRT-plan进行性能测试，衡量性能的标准为输入同样的数据得到输出时，模型计算所用的时间，此时每一个TensorRT-plan的节点个数大于等于3个。然后逐步放大连续OP的数量(单个TensorRT-plan中支持的最少节点数)，放大方式为连续OP的数量逐次加1，比如6、7、8……，一直到只能生成一个TensorRT-plan为止。将不符合连续OP数目的部分仍旧保留在源TensorFlow计算图中，在增加连续OP数目过程中测试模型计算性能，根据性能最优原则选择合适的连续OP数目，此时模型被分为2+以上部分，如TF+TRT+TF，记录两个中间部分的切分节点作为模型的截断节点。最后在本例中将模型划分为TF+TRT+TF三个部分联合做推理，第一部分是特征提取网络之前的预处理部分，由于其中存在不支持节点较多且密集将其放于TensorFlow框架中执行；第二部分是特征提取网络，该部分计算密集，且算子可以转换为TensorRT-plan将其放于TensorRT中执行；第三部分是后处理部分，放于TensroFlow框架中执行。需要将其中的Shape节点与Cast节点转换为常量，保证模型正常运行，常量的求取可以采用模型节点打印的形式。最终的优化接效率为：优化前58ms，优化后总时间35ms，其中，TensorRT引擎运行时间11ms，TF模型运行时间24ms。

在本实施例中，截断模型的模型优化方法，可以快速实现模型优化，无需手写不支持算子的插件，避免了由此带来的内存泄露或效率不高问题；可以快速验证TensorRT引擎所带来的模型优化加速效果，为后期方案的落地使用提供参考。

在本发明的一些实施例中，对复杂模型进行预转换包括：使用转换工具将复杂模型转换为运行于预设类型模型的预设格式；在转换过程中，将不支持的算子进行筛选和记录。

在本实施例中，预转换得到不支持的算子列表步骤，是指使用类似trtexec/TFTRT等工具，将模型转换为TensorRT-plan，在转换过程中将不支持的算子进行筛选、记录。

在本发明的一些实施例中，使用转换工具将复杂模型转换为运行于预设类型模型的预设格式包括：使用trtexec/TFTRT工具将复杂模型转换为运行于TensorRT模型的TensorRT-plan格式。

在本发明的一些实施例中，根据标定的不支持算子对复杂模型进行截断包括：不断增加不支持算子之间的OP数目，测试并记录模型计算性能；根据性能最优原则选择合适的连续OP数目，记录两个中间部分的切分节点作为模型的截断节点，并基于截断节点进行截断。

在本实施例中，模型截断步骤是指将模型整体结构图显示，然后将不支持的算子标定，选择两个不支持算子之间的部分截断，然后将其转化为TensorRT-plan，为了避免模型被切分过多，采用以下策略：两个不支持的算子之间至少包含5个以上的OP可以被转换为TensorRT-plan，此时每一个TensorRT-plan的节点个数大于等于5个；需逐步减少转换为TensorRT-plan的部分，对应增加放于深度学习框架运行的部分，以挑选效率较高的阶段方式；将shape求取等操作转换为固定常量保证模型转换后可以正常运行；转换模型后TensorRT-plan的输出为1维向量需要将其转换为源模型框架下的四维张量以供后续使用。

在本发明的一些实施例中，将截断模型和原生模型在不同的环境下分别运行包括：将基于不支持算子的截断模型放于TensorFlow框架中执行。

在本发明的一些实施例中，将截断模型和原生模型在不同的环境下分别运行包括：将基于支持算子的原生模型转换为TensorRT-plan格式，并放于TensorRT中执行。

在本发明的一些实施例中，将结果进行联合推理包括：将截断的节点转换为常量，并通过节点打印的形式求取常量。

在本实施例中，截断模型与原生模型的耦合推理是指，截断模型生成的TensorRT-plan与原生框架的runtime分别运行支持转换的算子和不支持转换的算子，做联合推理。

在本发明的一些实施例中，可以扩展到更多的深度学习框架使用。另外，TensroRT针对于GPU设备是优先选择的推理优化引擎，如果在其它架构，如ARM，下使用其它推理优化引擎，如TVM，该方法仍具复制性。

需要特别指出的是，上述复杂模型的优化方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于复杂模型的优化方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种复杂模型的优化装置。图2示出的是本发明提供的复杂模型的优化装置的实施例的示意图。如图2所示，本发明实施例包括如下模块：筛选模块S11，配置用于对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；截断模块S12，配置用于根据标定的不支持算子对复杂模型进行截断，得到基于不支持算子的截断模型和基于支持算子的原生模型；以及耦合模块S13，配置用于将截断模型和原生模型在不同的环境下分别运行，并将结果进行联合推理。

基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示，本发明实施例包括如下装置：至少一个处理器S21；以及存储器S22，存储器S22存储有可在处理器上运行的计算机指令S23，指令由处理器执行时实现以上方法的步骤。

本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示，计算机可读存储介质存储S31有被处理器执行时执行如上方法的计算机程序S32。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，复杂模型的优化方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种复杂模型的优化方法，其特征在于，包括以下步骤：

对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；

根据标定的所述不支持算子对所述复杂模型进行截断，得到基于所述不支持算子的截断模型和基于支持算子的原生模型；以及

将所述截断模型和所述原生模型在不同的环境下分别运行，并将结果进行联合推理，

所述根据标定的所述不支持算子对所述复杂模型进行截断包括：

不断增加所述不支持算子之间的OP数目，测试并记录模型计算性能；

根据性能最优原则选择合适的连续OP数目，记录两个部分中间的切分节点作为模型的截断节点，并基于所述截断节点进行截断。

2.根据权利要求1所述的复杂模型的优化方法，其特征在于，对复杂模型进行预转换包括：

使用转换工具将复杂模型转换为运行于预设类型模型的预设格式；

在转换过程中，将不支持的算子进行筛选和记录。

3.根据权利要求2所述的复杂模型的优化方法，其特征在于，使用转换工具将复杂模型转换为运行于预设类型模型的预设格式包括：

使用trtexec/TFTRT工具将复杂模型转换为运行于TensorRT模型的TensorRT-plan格式。

4.根据权利要求1所述的复杂模型的优化方法，其特征在于，将所述截断模型和所述原生模型在不同的环境下分别运行包括：

将基于所述不支持算子的截断模型放于TensorFlow框架中执行。

5.根据权利要求1所述的复杂模型的优化方法，其特征在于，将所述截断模型和所述原生模型在不同的环境下分别运行包括：

将基于支持算子的原生模型转换为TensorRT-plan格式，并放于TensorRT中执行。

6.根据权利要求1所述的复杂模型的优化方法，其特征在于，将结果进行联合推理包括：

将截断的节点转换为常量，并通过节点打印的形式求取所述常量。

7.一种复杂模型的优化装置，其特征在于，包括：

筛选模块，配置用于对复杂模型进行预转换并通过结构图显示，筛选并标定不支持算子；

截断模块，配置用于根据标定的所述不支持算子对所述复杂模型进行截断，得到基于所述不支持算子的截断模型和基于支持算子的原生模型；以及

耦合模块，配置用于将所述截断模型和所述原生模型在不同的环境下分别运行，并将结果进行联合推理，

所述截断模块还配置用于：不断增加所述不支持算子之间的OP数目，测试并记录模型计算性能；根据性能最优原则选择合适的连续OP数目，记录两个部分中间的切分节点作为模型的截断节点，并基于所述截断节点进行截断。

8.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现权利要求1-6任意一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任意一项所述方法的步骤。