CN113269312A

CN113269312A - 一种联合量化与剪枝搜索的模型压缩方法及其***

Info

Publication number: CN113269312A
Application number: CN202110620864.3A
Authority: CN
Inventors: 郭锴凌; 周欣欣; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-17
Anticipated expiration: 2041-06-03
Also published as: CN113269312B

Abstract

本发明公开了一种联合量化与剪枝搜索的模型压缩方法及其***，涉及深度学习领域，针对现有技术中模型压缩精度保持的问题提出本方案。在设定量化和剪枝搜索的对象及范围后，对卷积神经网络模型进行搜索训练，优化卷积神经网络模型的权重和结构参数，最后对优化后的模型进行重新训练。其优点在于，量化和剪枝同时联合工作能够对模型进行有效压缩，提高压缩后模型的精确度，并兼具剪枝和量化两种压缩手段的优点。

Description

一种联合量化与剪枝搜索的模型压缩方法及其***

技术领域

本发明涉及深度学习领域，尤其涉及一种联合量化与剪枝搜索的模型压缩方法及其***。

背景技术

深度学习在许多现实应用中被广泛采用，如自动驾驶、机器人技术和虚拟现实等。在一个受约束的范围(例如延迟、模型大小和能耗)，需要仔细设计网络体系结构的压缩方案，以在目标硬件上实现最佳性能是深度神经网络研究和部署的关键。

网络量化和剪枝手段在资源受限的平台上起着至关重要的作用，经过低比特量化或者通道数量的减少可以大大降低网络的计算量和存储量。但是如何对量化或剪枝的方案进行有效地设计并保持相对较高的模型精度是应用的难点。

发明内容

本发明目的在于提供一种联合量化与剪枝搜索的模型压缩方法及其***，以解决上述现有技术存在的问题。

本发明所述一种联合量化与剪枝搜索的模型压缩方法，包括以下步骤：

S1、输入图像数据和硬件约束；

S2、建立卷积神经网络模型，设定量化和剪枝搜索的对象及范围；

S3、对卷积神经网络模型进行搜索训练，优化卷积神经网络模型的权重和结构参数；量化搜索的对象是卷积层中激活层的权重位宽，剪枝搜索的对象是卷积层的通道数；

S4、选取剪枝搜索范围中最大概率的通道数和量化搜索范围中最大概率的位宽，重新构建轻量化网络；保存搜索时最后一次迭代的模型权重作为初始化信息对优化后的卷积神经网络模型进行重新训练。

步骤S1中对输入的图像数据切割为训练集、验证集和测试集；其中训练集和验证集用于步骤S3中对卷积神经网络模型交替优化。

步骤S3中，在模型搜索时在分类验证损失函数中添加计算成本的损失；

损失函数为L＝l_c+λ_costl_cost；其中l_c是交叉熵损失、l_cost是网络总计算成本、λ_cost是计算成本的权重。

步骤S3同时搜索量化和剪枝的选择空间。

对于量化和剪枝各个选择的权重进行gumbel-softmax归一化，并设置归一化的温度指数衰减，使搜索结束后产生的压缩选择概率矩阵近似one-hot。

权重利用下式进行归一化：

其中

为经过归一化后的选择权重向量、K为选择数量、τ为衰减温度、p为原始选择权重向量、U(0,1)表示0到1之间的均匀分布、o_i为生成的随机数，s.t.表示受限制于后面的公式。步骤S3中量化和剪枝进行联合优化的输出函数为：

其中，f为卷积层、n_c是卷积层中通道可选择的数量、g_ck是通道数的选择权重、n_w是卷积层中激活值位宽可选择的数量、g_wi是卷积层位宽的选择权重、n_a是激活层中激活值位宽可选择的数量、g_aj是激活层位宽的选择权重、α是激活层、t是列向量，长度为最大的通道数N，选择的通道数量为k，则该列向量前端k个长度元素为1，后端N-k个长度元素为0。

本发明所述一种联合量化与剪枝搜索的模型压缩***，利用如上所述模型压缩方法进行卷积神经网络的优化。

本发明所述联合量化与剪枝搜索的模型压缩方法及其***，其优点在于，量化和剪枝同时联合工作能够对模型进行有效压缩，提高压缩后模型的精确度，并兼具剪枝和量化两种压缩手段的优点。

利用神经架构搜索，根据硬件约束，搜索剪枝的通道数和量化位宽，得到一个满足硬件需要的轻量化的卷积神经网络。利用梯度策略，对模型的权重和结构参数进行交替优化，节省大量时间和资源。利用gumbel-softmax手段，并设置合适的温度，使搜索结束后产生的压缩选择概率矩阵近似one-hot，即选择的最大概率接近于1，使按概率选择的搜索结果误差更小。

附图说明

图1是本发明所述模型压缩方法流程示意图。

图2是本发明所述模型压缩方法在通道数量搜索过程的示意图。

图3是本发明所述模型压缩方法在量化位宽搜索过程的示意图。

具体实施方式

量化和剪枝方法能够对模型进行有效压缩，但是单纯顺序地进行压缩会导致无法得到最优解。故本发明采用联合的方式，同时进行剪枝和量化，提高压缩后模型的精确度，并兼具剪枝和量化两种压缩手段的优点。从而实现自动搜索一个满足硬件平台资源需求的轻量化网络，如图1-3所示，本发明所述联合量化与剪枝搜索的模型压缩方法具体步骤如下：

S1、将原始数据集切割为训练集、验证集和测试集，并对数据集中的图像进行填充、裁剪、翻转以及归一化等预处理，在训练集和验证集交替训练模型的权重和模型的结构参数。

S2、建立卷积神经网络模型，量化搜索的对象为卷积层的激活层的权重，剪枝搜索的对象为卷积层的通道数。

S3、通过使用梯度搜索策略的神经架构搜索，对卷积神经网络进行搜索训练，优化网络的权重和结构参数。

具体地：

对于量化和剪枝各个选择的权重进行gumbel-softmax归一化操作，使得每一组搜索范围的概率之和为1，设置温度τ从较大的数衰减到接近0的数，如从10指数衰减至0.01，在搜索结束后得到接近one-hot的矩阵。令原始选择权重向量为p，选择的数量为K，归一化后输出如下：

网络信道修剪的目的是减少网络中每一层的信道数量。令卷积层为f：有n_c个通道数量搜索选择；定义t是列向量，长度为最大的通道数N，选择的通道数量为k，则该列向量前端k个长度元素为1，后端N-k个长度元素为0。通过权重共享，给定输入x，利用gumbel-softmax对不同选择的权重做归一化，通道数的选择权重为g_ck，输出如下：

量化位宽搜索的目的是将原始的32位大小的参数替换为低位宽的参数。同样令卷积层为f：有n_w个激活值位宽选择，令任一激活层设为α，有n_a个激活值位宽选择，给定输入x，利用gumbel-softmax对不同选择的权重做归一化，卷积层位宽的选择权重为g_wi，激活层位宽的选择权重为g_aj，输出如下：

联合式子(1)和式子(2)，量化和剪枝进行联合优化，同时搜索量化和剪枝的选择空间，输出如下：

确定损失函数：由于搜索的模型要适应不同硬件平台的资源约束，因此，在分类验证损失函数中添加计算成本的损失。根据滤波器的浮点运算的数量来描述单个网络的计算成本，再计算所有候选网络成本的加权和即为网络总计算成本l_cost，λ_cost是计算成本的权重。损失函数如下：L＝l_c+λ_costl_cost，其中l_c表示搜索网络结构的交叉熵损失。

S4、在模型搜索结束后，选取剪枝搜索范围中最大概率的通道数和量化搜索范围中最大概率的位宽，重新构建轻量化网络。保存搜索时最后一次迭代的模型权重作为初始化信息，进行重新训练，最终得到满足硬件约束要求的压缩模型。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种联合量化与剪枝搜索的模型压缩方法，其特征在于，包括以下步骤：

S1、输入图像数据和硬件约束；

2.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法，其特征在于，步骤S1中对输入的图像数据切割为训练集、验证集和测试集；其中训练集和验证集用于步骤S3中对卷积神经网络模型交替优化。

3.根据权利要求2所述联合量化与剪枝搜索的模型压缩方法，其特征在于，步骤S3中，在模型搜索时在分类验证损失函数中添加计算成本的损失；

4.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法，其特征在于，步骤S3同时搜索量化和剪枝的选择空间。

5.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法，其特征在于，对于量化和剪枝各个选择的权重进行gumbel-softmax归一化，并设置归一化的温度指数衰减，使搜索结束后产生的压缩选择概率矩阵近似one-hot。

6.根据权利要求5所述联合量化与剪枝搜索的模型压缩方法，其特征在于，选择权重利用下式进行归一化：

其中

为经过归一化后的选择权重向量、K为选择数量、τ为衰减温度、p为原始选择权重向量、U(0,1)表示0到1之间的均匀分布、o_i为生成的随机数，s.t.表示受限制于后面的公式。

7.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法，其特征在于，步骤S3中量化和剪枝进行联合优化的输出函数为：

其中，令卷积层为f、n_c是剪枝时卷积层中通道可选择的数量、g_ck是通道数的选择权重、n_w是卷积层中激活值位宽可选择的数量、g_wi是卷积层位宽的选择权重、n_a是激活层中激活值位宽可选择的数量、g_aj是激活层位宽的选择权重、α是激活层、t是列向量，长度为最大的通道数N，选择的通道数量为k，则该列向量前端k个长度元素为1，后端N-k个长度元素为0。

8.一种联合量化与剪枝搜索的模型压缩***，其特征在于，利用如权利要求1-7任一所述模型压缩方法进行卷积神经网络的优化。