CN111738419A

CN111738419A - 神经网络模型的量化方法和装置

Info

Publication number: CN111738419A
Application number: CN202010568260.4A
Authority: CN
Inventors: 希滕; 张刚; 温圣召
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-02
Anticipated expiration: 2040-06-19
Also published as: CN111738419B

Abstract

本申请公开了神经网络模型的量化方法和装置，涉及人工智能、深度学习和图像处理技术领域。该方法的一具体实施方式包括：基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数；基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整；响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。该实施方式提升了量化后神经网络模型的精度。

Description

神经网络模型的量化方法和装置

技术领域

本申请的实施例涉及计算机技术领域，具体涉及人工智能、深度学习和图像处理技术领域，尤其涉及一种神经网络模型的量化方法和装置。

背景技术

最近几年，深度学习技术在很多应用领域都取得了巨大的成功，深度学习技术中，神经网络结构的好坏对模型的效果有非常重要的影响。实践中为了获得较高的性能，神经网络的结构复杂度较高，相应地，网络参数的数量庞大。存储神经网络的参数需要消耗较大的内存空间，并且在运行神经网络时，由于参数众多且精度较高，对处理器的要求较高。

为了保证神经网络运算的实时性，减小处理器的运算压力，同时确保神经网络的性能，需要对神经网络模型进行量化。

发明内容

提供了一种神经网络模型的量化方法、量化装置、电子设备以及计算机可读介质。

根据第一方面，提供了一种神经网络模型的量化方法，上述方法包括：基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数；基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整；响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。

根据第二方面，提供了一种神经网络模型的量化装置，该装置包括：性能测试模块，被配置成基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数；参数调整模块，被配置成基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整；目标确定模块，被配置成响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。

根据第三方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

本申请的实施例提供的神经网络模型的量化方法和装置，首先基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能；其次，基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整；最后，响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。由此，在每次迭代过程中，基于当前量化后神经网络模型的性能调整待量化的神经网络模型的参数和当前的量化映射函数的参数，在完成迭代之后，可以在线学习出量化损失最小的目标神经网络模型，通过本申请，可以提升量化后的神经网络模型的精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请神经网络模型的量化方法的一个实施例的流程图；

图2是根据本申请神经网络模型的量化方法的另一个实施例的流程图；

图3是根据本申请神经网络模型的量化方法的第三个实施例的流程图；

图4是根据本申请神经网络模型的量化装置的实施例的结构示意图；

图5是用来实现本申请实施例的神经网络模型的量化方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了根据本申请神经网络模型的量化方法的一个实施例的流程100。上述神经网络模型的量化方法包括以下步骤：

步骤101，基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数。

本实施例中，神经网络模型是基于人工神经网络(Artificial Neural Network，ANN)建立的模型，人工神经网络亦称神经网络，是由大量处理单元(神经元，Neurons)广泛互联而成的网络，是对人脑的抽象、简化和模拟，反映人脑的基本特征。

待量化的神经网络模型可以是经过训练的参数精度较高的模型，例如fp32(双精度32位)参数的模型。

通常，神经网络模型包含较多的参数，在训练过程中参数精度较高的神经网络模型大量的矩阵运算会占用较多的计算资源，导致神经网络模型训练效率低下。在训练完成后，运行神经网络模型也会消耗较多的资源，并且通常有一定的延时，无法满足实时性需求，因此需要对其参数进行量化，降低参数的位宽，提升神经网络模型的运算速度。

模型量化属于模型压缩的范畴，而模型压缩的目的是降低模型的内存大小，加快模型推理速度。本实施例中，对待量化的神经网络模型进行量化主要是压缩待量化的神经网络模型的参数，压缩的过程将待量化的神经网络模型中的浮点数(比如32bit)用占用较少内存空间、更低位的数(比如8bit)表示，从而在不影响待量化的神经网络模型准确率的情况下，使待量化的神经网络模型的内部采用较简单数值类型进行计算，计算速度会提高很多，消耗的计算资源会大大减小。

本实施例中，可以基于量化映射函数将待量化的神经网络模型量化为量化后神经网络模型。量化映射函数为预设的函数，该预设的函数用于表征待量化的神经网络模型的参数与量化后神经网络模型的参数之间的数学变换关系。量化后神经网络模型的参数位宽降低。通过设置量化映射函数可以方便、快捷地将待量化的神经网络模型的参数量化为量化后神经网络模型的参数。

进一步地，预设的函数可以为参数可变的函数，例如，参数基于当前量化后神经网络模型的性能变化而自更新，为了提高量化后神经网络模型的精度，上述神经网络模型的量化方法的执行主体，需要对待量化的神经网络模型的参数进行迭代调整，而将预设的函数设置为参数随当前量化后神经网络模型的性能变化的函数，可以在模型量化过程中对函数的参数进行自学习，从而不断优化量化映射函数的参数，有利于提高待量化的神经网络模型的精度。

本实施例中，上述神经网络模型的量化方法的执行主体在每次迭代操作中，获取当前量化后神经网络模型的性能，在这里，表征当前量化后神经网络模型的性能的指标可以包括以下至少一项：当前量化后神经网络模型运行的处理器(CPU、GPU等)的延时、当前量化后神经网络模型的精度值、当前量化后神经网络模型的大小或计算复杂度，等等。可以将这些指标中至少一项与当前指标对应的预先准备的评测数据(比如，预先准备的处理器延时、预先准备的量化后神经网络的精度值)相比较，确定当前量化后神经网络模型进行量化后的误差。

需要说明的是，待量化的神经网络模型可以是执行图像处理任务的神经网络模型，量化映射函数的基于当前量化后神经网络模型的图像处理性能变化而自更新，而当前量化后神经网络模型的图像处理性能的指标可以包括以下至少一项：当前量化后神经网络模型图像处理延时、当前量化后神经网络模型图像输出的图像的失真度、当前量化后神经网络模型运行的处理器的延时，等等。

步骤102，基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整。

可以在确定当前量化后神经网络模型进行量化后的误差之后，利用该误差通过误差反向传播算法(Erro back propagation，简称BP)和随机并行梯度下降算法(Stochasticparallel gradient descent algorithm，简称SPGD)，调整待量化的神经网络模型的参数和当前的量化映射函数的参数。

本实施例中，待量化的神经网络模型的参数的初始值可以是待量化的神经网络模型进行初始化后的参数值。在执行第一次迭代操作时，可以将待量化的神经网络模型进行初始化后的参数值调整为当前迭代操作的待量化的神经网络模型的参数。而在非第一次迭代操作中，可以将上一次迭代操作后的待量化的神经网络模型的参数调整为当前迭代操作中的待量化的神经网络模型的参数。

本实施例中，量化映射函数的参数的初始值可以是预设的数值，在执行第一次迭代操作时，可以将量化映射函数的参数的初始值调整为当前迭代操作的量化映射函数的参数。而在非第一次迭代操作中，可以基于误差反向传播和梯度下降法在上一次迭代操作后的量化映射函数的参数的基础上进行调整，得到当前迭代操作中的量化映射函数的参数。

在本实施例的一些可选实现方式中，量化映射函数的参数包括：映射变换参数；该映射变换参数包括表征待量化的神经网络模型的参数与量化后神经网络模型的参数之间的数学变换关系的参数。

本可选实现方式中，量化映射函数的参数包括映射变换参数，通过映射变换参数，可以方便、快捷地的实现每次迭代操作时量化映射函数的参数的调整。

举例来说，量化映射函数为f(x)＝ax-x²-b，其中，x表示待量化的神经网络模型的参数，f(x)表示量化后神经网络模型的参数，a与b均为量化映射函数的参数，当a与b可基于当前量化后神经网络模型的性能进行在线学习时，在该量化映射函数中a与b还均为量化映射函数的映射变换参数。

在本实施例一些可选实现方式中，量化映射函数的参数包括：映射变换参数和映射区间阈值。其中，映射变换参数包括表征待量化的神经网络模型的参数与量化后神经网络模型的参数之间的数学变换关系的参数。映射区间阈值表征待量化的神经网络模型的参数所属区间与量化后神经网络模型的参数所属区间之间的映射关系。映射区间阈值可以是待量化的神经网络模型的参数区间的边界值，该区间内的数值在量化后映射至同一参数值。

本可选实现方式中，量化映射函数的参数包括映射变换参数和映射区间阈值，通过映射变换参数和映射区间阈值，可以方便、快捷地的实现每次迭代操作时量化映射函数的参数的调整。

步骤103，响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。

本实施例中，可以判断当前量化后神经网络模型是否满足预设的收敛条件，例如，量化后神经网络模型的输出值在最近的连续几次迭代操作中与预设准备的评测数据的差值是否低于预设的误差值，若是，则可以停止迭代操作，并将当前量化后神经网络模型作为目标神经网络模型。预设的收敛条件为预先设置的可以终止迭代的条件，例如，预设的收敛条件包括：对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值；或者当前量化后神经网络模型的性能达到预设的性能阈值。

可选地，判断当前量化后神经网络模型是否满足预设的收敛条件可以包括：判断对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数是否超过预设的次数阈值；其中，预设的次数阈值可以根据待量化的神经网络模型的结构以及量化映射函数进行设置，比如，预设的次数阈值为10万次。

可选地，判断当前量化后神经网络模型是否满足预设的收敛条件可以包括：判断当前量化后神经网络模型的性能是否达到预设的性能阈值，其中，性能阈值可以根据当前量化后神经网络模型的性能进行设置。

本实施例一些可选实现方式中，预设的收敛条件包括：对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值，且当前量化后神经网络模型的性能达到预设的性能阈值。判断当前量化后神经网络模型是否满足预设的收敛条件还可以包括：判断对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数是否超过预设的次数阈值；且在对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值时，判断当前量化后神经网络模型的性能是否达到预设的性能阈值；本可选实现方式中，在对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值且当前量化后神经网络模型的性能也达到预设的性能阈值，确定当前量化后神经网络模型满足预设的收敛条件。

本实施例一些可选实现方式中，响应于确定对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值且当前量化后神经网络模型的性能未达到预设的性能阈值，基于当前量化后神经网络模型的性能从预设的量化映射函数搜索空间内确定出量化映射函数，以更新当前的量化映射函数。

本实施例中，可以预先针对不同的量化需求构建对应的量化映射函数搜索空间，预设的量化映射函数搜索空间中设置有至少一个量化映射函数，各个量化映射函数对应的量化映射关系不同，量化映射关系包括位宽映射关系，例如，其中一个量化映射函数的位宽映射关系为float32与int8之间的数学变换关系；其中一个量化映射函数的位宽映射关系为float32与float16之间的数学变换关系；当然，量化映射关系不同还可以表征为：量化映射函数搜索空间中的两个量化映射函数的位宽映射关系相同，但是两个量化映射函数的参数不同。

本实施例中，对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值且当前量化后神经网络模型的性能未达到预设的性能阈值，确定当前量化后神经网络模型在经过至少预设的次数阈值的迭代调整之后仍不满足预设的收敛条件，因此需要重新从预设的量化映射函数搜索空间内确定出量化映射函数，更新当前的量化映射函数。这样，不仅可以在模型量化过程中学习量化映射函数的参数，还可以搜索出更适合的量化映射函数，进一步降低量化的精度损失。

本实施例中，目标神经网络模型是神经网络模型的量化方法最终得到模型，可以用于终端设备，以在终端实现：语音识别、语音合成、文本翻译、自然语言理解、图像理解、趋势预测、目标检测与跟踪，等等功能，相对于待量化的神经网络模型，目标神经网络模型在设备终端消耗的计算资源会大大减小。

本实施例提供的神经网络模型的量化方法，首先基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能；其次，基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整；最后，响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。由此，在每次迭代过程中，基于当前量化后神经网络模型的性能调整待量化的神经网络模型的参数和当前的量化映射函数的参数，在完成迭代之后，可以在线学习出量化损失最小的目标神经网络模型，通过在模型量化过程中自动搜索并学习量化映射函数的参数，可以提升量化后的神经网络模型的精度。

上述待量化的神经网络模型可以是执行图像处理任务的神经网络模型，量化映射函数的基于当前量化后神经网络模型的图像处理性能变化而自更新，在每次迭代过程中，基于当前量化后神经网络模型的图像处理性能调整待量化的神经网络模型的参数和当前的量化映射函数的参数，在完成迭代之后，可以在线学习出量化损失最小的目标神经网络模型，该目标神经网络模型的参数位宽降低，运行该目标神经网络模型时占用的存储资源和计算资源减少，能够有效降低图像处理任务的硬件延时，节约硬件资源。

继续参考图2，图2示出了根据本申请神经网络模型的量化方法的另一个实施例的流程200，该神经网络模型的量化方法包括以下步骤：

步骤201，基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数。

步骤202，基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整。

步骤203，响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。

可选地，预设的收敛条件包括：对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值，或者当前量化后神经网络模型的性能达到预设的性能阈值。

本实施例一些可选实现方式中，预设的收敛条件包括：对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值，且当前量化后神经网络模型的性能未达到预设的性能阈值。

步骤204，将目标神经网络模型发送至任务执行端，以在任务执行端侧部署目标神经网络模型并执行对应的媒体数据处理任务。

本实施例中，任务执行端可以为执行任务的执行主体，该执行主体包括：服务器和/或终端设备，当任务执行端包括服务器时，该服务器可以是运行各种服务的服务器，例如运行神经网络结构搜索任务的服务器，或者运行优化和部署模型的服务器；当任务执行端包括终端设备时，该终端设备可以是用户端设备，终端上安装有各种客户端应用，例如，图像处理类应用、信息分析类应用等。

上述执行主体执行的任务包括且不限于：图像处理任务、信息分析任务、语音识别及处理任务、金融安全任务，等等。

本实施例中，任务执行端在部署目标神经网络模型之后，可以通过目标神经网络模型执行对应的媒体数据处理任务，该媒体数据包括：视频、文本、语音等等数据。

本实施例提供的神经网络模型的量化方法，在确定目标神经网络模型之后，将目标神经网络模型发送至任务执行端，任务执行端部署目标神经网络模型并使目标神经网络模型执行对应的媒体数据处理任务，从而提高了执行媒体数据处理任务的流畅性以及可靠性。

继续参考图3，图3示出了根据本申请神经网络模型的量化方法的第三个实施例的流程300，该神经网络模型的量化方法包括以下步骤：

步骤301，基于任务执行端的硬件运行环境信息确定量化位宽，根据量化位宽确定当前的量化映射函数。

本实施例中，任务执行端可以为执行任务的执行主体，该执行主体包括：服务器和/或终端设备；任务执行端的硬件运行环境是指服务器或终端设备中支持开发软件环境的硬件设备，硬件运行环境信息包括且不限于CPU类型、显卡类型、内存大小、显示器分辨率等等。

任务执行端的位宽根据任务执行端的内存或显存一次能传输的数据量来确定，基于任务执行端的硬件运行环境可以确定任务执行端可以适用的位宽，从任务执行端适用的位宽中选择一个位宽作为量化位宽。

可以根据量化位宽与不同的量化映射函数的适用关系来选择适用于任务执行端的量化位宽。本实施例中，根据量化位宽确定当前的量化映射函数，可以通过当前的量化映射函数将待量化的神经网络模型的参数的位宽量化为量化位宽，保证了任务执行端与量化后神经网络模型的位宽的一致性。

步骤302，基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数。

步骤303，基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整。

步骤304，响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。

步骤305，将目标神经网络模型发送至任务执行端，以在任务执行端侧部署目标神经网络模型并执行对应的媒体数据处理任务。

本实施例提供的神经网络模型的量化方法，在基于当前的量化映射函数，对待量化的神经网络模型进行量化之前，基于任务执行端的硬件运行环境信息确定量化位宽，根据量化位宽确定当前的量化映射函数，使量化映射函数的量化位宽与任务执行端对应的位宽保持一致，提高了目标神经网络模型与任务执行端的配合度，进一步，提高了任务执行端执行任务的可靠性。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了神经网络模型的量化装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图4所示，本实施例提供的神经网络模型的量化装置400包括：量化单元401，调整单元402，确定单元403。其中，上述量化单元401，可以被配置成基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，量化映射函数为预设的函数。上述调整单元402，可以被配置成基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整。上述确定单元403，可以被配置成响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。

在本实施例中，神经网络模型的量化装置400中：量化单元401，调整单元402，确定单元403的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102和步骤103的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述量化映射函数的参数包括：映射变换参数，或者上述量化映射函数的参数包括映射变换参数和映射区间阈值；其中，上述映射变换参数包括表征待量化的神经网络模型的参数与量化后神经网络模型的参数之间的数学变换关系的参数，上述映射区间阈值表征待量化的神经网络模型的参数所属区间与量化后神经网络模型的参数所属区间之间的映射关系。

在本实施例的一些可选的实现方式中，神经网络模型的量化装置还包括：发送单元(图中未示出)。上述发送单元，可以被配置成将目标神经网络模型发送至任务执行端，以在任务执行端侧部署目标神经网络模型并执行对应的媒体数据处理任务。

在本实施例的一些可选的实现方式中，神经网络模型的量化装置还包括：位宽确定单元(图中未示出)。上述位宽确定单元，可以被配置成基于任务执行端的硬件运行环境信息确定量化位宽，根据量化位宽确定当前的量化映射函数。

在本实施例的一些可选的实现方式中，神经网络模型的量化装置还包括：更新单元(图中未示出)。上述更新单元，可以被配置成响应于确定对待量化的神经网络模型的参数和当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值且当前量化后神经网络模型的性能未达到预设的性能阈值，基于当前量化后神经网络模型的性能从预设的量化映射函数搜索空间内确定出量化映射函数，以更新当前的量化映射函数。

本申请的实施例提供的神经网络模型的量化装置，首先，量化单元401基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能；其次，调整单元402基于当前量化后神经网络模型的性能对待量化的神经网络模型的参数和当前的量化映射函数的参数进行迭代调整；最后，确定单元403响应于确定当前量化后神经网络模型满足预设的收敛条件，确定当前量化后神经网络模型为目标神经网络模型。由此，在每次迭代过程中，基于当前量化后神经网络模型的性能调整待量化的神经网络模型的参数和当前的量化映射函数的参数，在完成迭代之后，可以在线学习出量化损失最小的目标神经网络模型，通过在模型量化过程自动搜索并学习量化映射函数的参数，可以提升量化后神经网络模型的精度。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的神经网络模型的量化方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的神经网络模型的量化方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的神经网络模型的量化方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的神经网络模型的量化方法对应的程序指令/模块(例如，附图4所示的量化单元401、调整单元402和确定单元403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的神经网络模型的量化方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据神经网络模型的量化方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至神经网络模型的量化方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

神经网络模型的量化方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线505或者其他方式连接，图5中以通过总线505连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与神经网络模型的量化方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种神经网络模型的量化方法，包括：

基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，所述量化映射函数为预设的函数；

基于所述当前量化后神经网络模型的性能对所述待量化的神经网络模型的参数和所述当前的量化映射函数的参数进行迭代调整；

响应于确定当前量化后神经网络模型满足预设的收敛条件，确定所述当前量化后神经网络模型为目标神经网络模型。

2.根据权利要求1所述的方法，其中，所述量化映射函数的参数包括：映射变换参数，或者所述量化映射函数的参数包括映射变换参数和映射区间阈值；

其中，所述映射变换参数包括表征待量化的神经网络模型的参数与量化后神经网络模型的参数之间的数学变换关系的参数，所述映射区间阈值表征待量化的神经网络模型的参数所属区间与量化后神经网络模型的参数所属区间之间的映射关系。

3.根据权利要求1所述的方法，所述方法还包括：

将所述目标神经网络模型发送至任务执行端，以在任务执行端侧部署所述目标神经网络模型并执行对应的媒体数据处理任务。

4.根据权利要求3所述的方法，其中，所述方法还包括：

基于所述任务执行端的硬件运行环境信息确定量化位宽，根据所述量化位宽确定当前的量化映射函数。

5.根据权利要求1-4任一项所述的方法，还包括：

响应于确定对所述待量化的神经网络模型的参数和所述当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值且当前量化后神经网络模型的性能未达到预设的性能阈值，基于所述当前量化后神经网络模型的性能从预设的量化映射函数搜索空间内确定出量化映射函数，以更新所述当前的量化映射函数。

6.一种神经网络模型的量化装置，包括：

量化单元，被配置成基于当前的量化映射函数，对待量化的神经网络模型进行量化并测试基于当前的量化映射函数量化得到的当前量化后神经网络模型的性能，所述量化映射函数为预设的函数；

调整单元，被配置成基于所述当前量化后神经网络模型的性能对所述待量化的神经网络模型的参数和所述当前的量化映射函数的参数进行迭代调整；

确定单元，被配置成响应于确定当前量化后神经网络模型满足预设的收敛条件，确定所述当前量化后神经网络模型为目标神经网络模型。

7.根据权利要求6所述的装置，其中，所述量化映射函数的参数包括：映射变换参数，或者所述量化映射函数的参数包括映射变换参数和映射区间阈值；

8.根据权利要求6所述的装置，还包括：

发送单元，被配置成将所述目标神经网络模型发送至任务执行端，以在任务执行端侧部署所述目标神经网络模型并执行对应的媒体数据处理任务。

9.根据权利要求8所述的装置，还包括：

位宽确定单元，被配置成基于所述任务执行端的硬件运行环境信息确定量化位宽，根据所述量化位宽确定当前的量化映射函数。

10.根据权利要求6-9任一项所述的装置，还包括：

更新单元，被配置成响应于确定对所述待量化的神经网络模型的参数和所述当前的量化映射函数的参数迭代调整的次数超过预设的次数阈值且当前量化后神经网络模型的性能未达到预设的性能阈值，基于所述当前量化后神经网络模型的性能从预设的量化映射函数搜索空间内确定出量化映射函数，以更新所述当前的量化映射函数。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。