CN113269312A - 一种联合量化与剪枝搜索的模型压缩方法及其*** - Google Patents

一种联合量化与剪枝搜索的模型压缩方法及其*** Download PDF

Info

Publication number
CN113269312A
CN113269312A CN202110620864.3A CN202110620864A CN113269312A CN 113269312 A CN113269312 A CN 113269312A CN 202110620864 A CN202110620864 A CN 202110620864A CN 113269312 A CN113269312 A CN 113269312A
Authority
CN
China
Prior art keywords
pruning
quantization
model
search
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110620864.3A
Other languages
English (en)
Other versions
CN113269312B (zh
Inventor
郭锴凌
周欣欣
徐向民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110620864.3A priority Critical patent/CN113269312B/zh
Publication of CN113269312A publication Critical patent/CN113269312A/zh
Application granted granted Critical
Publication of CN113269312B publication Critical patent/CN113269312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种联合量化与剪枝搜索的模型压缩方法及其***,涉及深度学习领域,针对现有技术中模型压缩精度保持的问题提出本方案。在设定量化和剪枝搜索的对象及范围后,对卷积神经网络模型进行搜索训练,优化卷积神经网络模型的权重和结构参数,最后对优化后的模型进行重新训练。其优点在于,量化和剪枝同时联合工作能够对模型进行有效压缩,提高压缩后模型的精确度,并兼具剪枝和量化两种压缩手段的优点。

Description

一种联合量化与剪枝搜索的模型压缩方法及其***
技术领域
本发明涉及深度学习领域,尤其涉及一种联合量化与剪枝搜索的模型压缩方法及其***。
背景技术
深度学习在许多现实应用中被广泛采用,如自动驾驶、机器人技术和虚拟现实等。在一个受约束的范围(例如延迟、模型大小和能耗),需要仔细设计网络体系结构的压缩方案,以在目标硬件上实现最佳性能是深度神经网络研究和部署的关键。
网络量化和剪枝手段在资源受限的平台上起着至关重要的作用,经过低比特量化或者通道数量的减少可以大大降低网络的计算量和存储量。但是如何对量化或剪枝的方案进行有效地设计并保持相对较高的模型精度是应用的难点。
发明内容
本发明目的在于提供一种联合量化与剪枝搜索的模型压缩方法及其***,以解决上述现有技术存在的问题。
本发明所述一种联合量化与剪枝搜索的模型压缩方法,包括以下步骤:
S1、输入图像数据和硬件约束;
S2、建立卷积神经网络模型,设定量化和剪枝搜索的对象及范围;
S3、对卷积神经网络模型进行搜索训练,优化卷积神经网络模型的权重和结构参数;量化搜索的对象是卷积层中激活层的权重位宽,剪枝搜索的对象是卷积层的通道数;
S4、选取剪枝搜索范围中最大概率的通道数和量化搜索范围中最大概率的位宽,重新构建轻量化网络;保存搜索时最后一次迭代的模型权重作为初始化信息对优化后的卷积神经网络模型进行重新训练。
步骤S1中对输入的图像数据切割为训练集、验证集和测试集;其中训练集和验证集用于步骤S3中对卷积神经网络模型交替优化。
步骤S3中,在模型搜索时在分类验证损失函数中添加计算成本的损失;
损失函数为L=lccostlcost;其中lc是交叉熵损失、lcost是网络总计算成本、λcost是计算成本的权重。
步骤S3同时搜索量化和剪枝的选择空间。
对于量化和剪枝各个选择的权重进行gumbel-softmax归一化,并设置归一化的温度指数衰减,使搜索结束后产生的压缩选择概率矩阵近似one-hot。
权重利用下式进行归一化:
Figure BDA0003099818440000021
其中
Figure BDA0003099818440000022
为经过归一化后的选择权重向量、K为选择数量、τ为衰减温度、p为原始选择权重向量、U(0,1)表示0到1之间的均匀分布、oi为生成的随机数,s.t.表示受限制于后面的公式。步骤S3中量化和剪枝进行联合优化的输出函数为:
Figure BDA0003099818440000023
其中,f为卷积层、nc是卷积层中通道可选择的数量、gck是通道数的选择权重、nw是卷积层中激活值位宽可选择的数量、gwi是卷积层位宽的选择权重、na是激活层中激活值位宽可选择的数量、gaj是激活层位宽的选择权重、α是激活层、t是列向量,长度为最大的通道数N,选择的通道数量为k,则该列向量前端k个长度元素为1,后端N-k个长度元素为0。
本发明所述一种联合量化与剪枝搜索的模型压缩***,利用如上所述模型压缩方法进行卷积神经网络的优化。
本发明所述联合量化与剪枝搜索的模型压缩方法及其***,其优点在于,量化和剪枝同时联合工作能够对模型进行有效压缩,提高压缩后模型的精确度,并兼具剪枝和量化两种压缩手段的优点。
利用神经架构搜索,根据硬件约束,搜索剪枝的通道数和量化位宽,得到一个满足硬件需要的轻量化的卷积神经网络。利用梯度策略,对模型的权重和结构参数进行交替优化,节省大量时间和资源。利用gumbel-softmax手段,并设置合适的温度,使搜索结束后产生的压缩选择概率矩阵近似one-hot,即选择的最大概率接近于1,使按概率选择的搜索结果误差更小。
附图说明
图1是本发明所述模型压缩方法流程示意图。
图2是本发明所述模型压缩方法在通道数量搜索过程的示意图。
图3是本发明所述模型压缩方法在量化位宽搜索过程的示意图。
具体实施方式
量化和剪枝方法能够对模型进行有效压缩,但是单纯顺序地进行压缩会导致无法得到最优解。故本发明采用联合的方式,同时进行剪枝和量化,提高压缩后模型的精确度,并兼具剪枝和量化两种压缩手段的优点。从而实现自动搜索一个满足硬件平台资源需求的轻量化网络,如图1-3所示,本发明所述联合量化与剪枝搜索的模型压缩方法具体步骤如下:
S1、将原始数据集切割为训练集、验证集和测试集,并对数据集中的图像进行填充、裁剪、翻转以及归一化等预处理,在训练集和验证集交替训练模型的权重和模型的结构参数。
S2、建立卷积神经网络模型,量化搜索的对象为卷积层的激活层的权重,剪枝搜索的对象为卷积层的通道数。
S3、通过使用梯度搜索策略的神经架构搜索,对卷积神经网络进行搜索训练,优化网络的权重和结构参数。
具体地:
对于量化和剪枝各个选择的权重进行gumbel-softmax归一化操作,使得每一组搜索范围的概率之和为1,设置温度τ从较大的数衰减到接近0的数,如从10指数衰减至0.01,在搜索结束后得到接近one-hot的矩阵。令原始选择权重向量为p,选择的数量为K,归一化后输出如下:
Figure BDA0003099818440000031
网络信道修剪的目的是减少网络中每一层的信道数量。令卷积层为f:有nc个通道数量搜索选择;定义t是列向量,长度为最大的通道数N,选择的通道数量为k,则该列向量前端k个长度元素为1,后端N-k个长度元素为0。通过权重共享,给定输入x,利用gumbel-softmax对不同选择的权重做归一化,通道数的选择权重为gck,输出如下:
Figure BDA0003099818440000032
量化位宽搜索的目的是将原始的32位大小的参数替换为低位宽的参数。同样令卷积层为f:有nw个激活值位宽选择,令任一激活层设为α,有na个激活值位宽选择,给定输入x,利用gumbel-softmax对不同选择的权重做归一化,卷积层位宽的选择权重为gwi,激活层位宽的选择权重为gaj,输出如下:
Figure BDA0003099818440000033
联合式子(1)和式子(2),量化和剪枝进行联合优化,同时搜索量化和剪枝的选择空间,输出如下:
Figure BDA0003099818440000041
确定损失函数:由于搜索的模型要适应不同硬件平台的资源约束,因此,在分类验证损失函数中添加计算成本的损失。根据滤波器的浮点运算的数量来描述单个网络的计算成本,再计算所有候选网络成本的加权和即为网络总计算成本lcost,λcost是计算成本的权重。损失函数如下:L=lccostlcost,其中lc表示搜索网络结构的交叉熵损失。
S4、在模型搜索结束后,选取剪枝搜索范围中最大概率的通道数和量化搜索范围中最大概率的位宽,重新构建轻量化网络。保存搜索时最后一次迭代的模型权重作为初始化信息,进行重新训练,最终得到满足硬件约束要求的压缩模型。
本发明所述一种联合量化与剪枝搜索的模型压缩***,利用如上所述模型压缩方法进行卷积神经网络的优化。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (8)

1.一种联合量化与剪枝搜索的模型压缩方法,其特征在于,包括以下步骤:
S1、输入图像数据和硬件约束;
S2、建立卷积神经网络模型,设定量化和剪枝搜索的对象及范围;
S3、对卷积神经网络模型进行搜索训练,优化卷积神经网络模型的权重和结构参数;量化搜索的对象是卷积层中激活层的权重位宽,剪枝搜索的对象是卷积层的通道数;
S4、选取剪枝搜索范围中最大概率的通道数和量化搜索范围中最大概率的位宽,重新构建轻量化网络;保存搜索时最后一次迭代的模型权重作为初始化信息对优化后的卷积神经网络模型进行重新训练。
2.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法,其特征在于,步骤S1中对输入的图像数据切割为训练集、验证集和测试集;其中训练集和验证集用于步骤S3中对卷积神经网络模型交替优化。
3.根据权利要求2所述联合量化与剪枝搜索的模型压缩方法,其特征在于,步骤S3中,在模型搜索时在分类验证损失函数中添加计算成本的损失;
损失函数为L=lccostlcost;其中lc是交叉熵损失、lcost是网络总计算成本、λcost是计算成本的权重。
4.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法,其特征在于,步骤S3同时搜索量化和剪枝的选择空间。
5.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法,其特征在于,对于量化和剪枝各个选择的权重进行gumbel-softmax归一化,并设置归一化的温度指数衰减,使搜索结束后产生的压缩选择概率矩阵近似one-hot。
6.根据权利要求5所述联合量化与剪枝搜索的模型压缩方法,其特征在于,选择权重利用下式进行归一化:
Figure FDA0003099818430000011
其中
Figure FDA0003099818430000012
为经过归一化后的选择权重向量、K为选择数量、τ为衰减温度、p为原始选择权重向量、U(0,1)表示0到1之间的均匀分布、oi为生成的随机数,s.t.表示受限制于后面的公式。
7.根据权利要求1所述联合量化与剪枝搜索的模型压缩方法,其特征在于,步骤S3中量化和剪枝进行联合优化的输出函数为:
Figure FDA0003099818430000021
其中,令卷积层为f、nc是剪枝时卷积层中通道可选择的数量、gck是通道数的选择权重、nw是卷积层中激活值位宽可选择的数量、gwi是卷积层位宽的选择权重、na是激活层中激活值位宽可选择的数量、gaj是激活层位宽的选择权重、α是激活层、t是列向量,长度为最大的通道数N,选择的通道数量为k,则该列向量前端k个长度元素为1,后端N-k个长度元素为0。
8.一种联合量化与剪枝搜索的模型压缩***,其特征在于,利用如权利要求1-7任一所述模型压缩方法进行卷积神经网络的优化。
CN202110620864.3A 2021-06-03 2021-06-03 一种联合量化与剪枝搜索的模型压缩方法及其*** Active CN113269312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110620864.3A CN113269312B (zh) 2021-06-03 2021-06-03 一种联合量化与剪枝搜索的模型压缩方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110620864.3A CN113269312B (zh) 2021-06-03 2021-06-03 一种联合量化与剪枝搜索的模型压缩方法及其***

Publications (2)

Publication Number Publication Date
CN113269312A true CN113269312A (zh) 2021-08-17
CN113269312B CN113269312B (zh) 2021-11-09

Family

ID=77234203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110620864.3A Active CN113269312B (zh) 2021-06-03 2021-06-03 一种联合量化与剪枝搜索的模型压缩方法及其***

Country Status (1)

Country Link
CN (1) CN113269312B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947185A (zh) * 2021-09-30 2022-01-18 北京达佳互联信息技术有限公司 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN114418086A (zh) * 2021-12-02 2022-04-29 北京百度网讯科技有限公司 压缩神经网络模型的方法、装置
CN117036911A (zh) * 2023-10-10 2023-11-10 华侨大学 一种基于神经架构搜索的车辆再辨识轻量化方法及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256634A (zh) * 2018-02-08 2018-07-06 杭州电子科技大学 一种基于轻量级深度神经网络的船舶目标检测方法
CN110210618A (zh) * 2019-05-22 2019-09-06 东南大学 动态修剪深度神经网络权重和权重共享的压缩方法
CN110222820A (zh) * 2019-05-28 2019-09-10 东南大学 基于权值剪枝和量化的卷积神经网络压缩方法
CN110378468A (zh) * 2019-07-08 2019-10-25 浙江大学 一种基于结构化剪枝和低比特量化的神经网络加速器
CN111275190A (zh) * 2020-02-25 2020-06-12 北京百度网讯科技有限公司 神经网络模型的压缩方法及装置、图像处理方法及处理器
CN111652366A (zh) * 2020-05-09 2020-09-11 哈尔滨工业大学 一种基于通道剪枝和量化训练的联合神经网络模型压缩方法
CN111667054A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 生成神经网络模型的方法、装置、电子设备以及存储介质
US20200311551A1 (en) * 2019-03-25 2020-10-01 Nokia Technologies Oy Compressing weight updates for decoder-side neural networks
CN111931906A (zh) * 2020-07-14 2020-11-13 北京理工大学 一种基于结构搜索的深度神经网络混合精度量化方法
US20210089922A1 (en) * 2019-09-24 2021-03-25 Qualcomm Incorporated Joint pruning and quantization scheme for deep neural networks
CN112686382A (zh) * 2020-12-30 2021-04-20 中山大学 一种卷积模型轻量化方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256634A (zh) * 2018-02-08 2018-07-06 杭州电子科技大学 一种基于轻量级深度神经网络的船舶目标检测方法
US20200311551A1 (en) * 2019-03-25 2020-10-01 Nokia Technologies Oy Compressing weight updates for decoder-side neural networks
CN110210618A (zh) * 2019-05-22 2019-09-06 东南大学 动态修剪深度神经网络权重和权重共享的压缩方法
CN110222820A (zh) * 2019-05-28 2019-09-10 东南大学 基于权值剪枝和量化的卷积神经网络压缩方法
CN110378468A (zh) * 2019-07-08 2019-10-25 浙江大学 一种基于结构化剪枝和低比特量化的神经网络加速器
US20210089922A1 (en) * 2019-09-24 2021-03-25 Qualcomm Incorporated Joint pruning and quantization scheme for deep neural networks
CN111275190A (zh) * 2020-02-25 2020-06-12 北京百度网讯科技有限公司 神经网络模型的压缩方法及装置、图像处理方法及处理器
CN111652366A (zh) * 2020-05-09 2020-09-11 哈尔滨工业大学 一种基于通道剪枝和量化训练的联合神经网络模型压缩方法
CN111667054A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 生成神经网络模型的方法、装置、电子设备以及存储介质
CN111931906A (zh) * 2020-07-14 2020-11-13 北京理工大学 一种基于结构搜索的深度神经网络混合精度量化方法
CN112686382A (zh) * 2020-12-30 2021-04-20 中山大学 一种卷积模型轻量化方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LINJIE YANG 等: "FracBits: Mixed Precision Quantization via Fractional Bit-Widths", 《ARXIV》 *
LIZETH GONZALEZ-CARABARIN 等: "Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities", 《ARXIV》 *
WENTING TANG 等: "Automated Model Compression by Jointly Applied Pruning and Quantization", 《ARXIV》 *
吴进 等: "模型剪枝与低精度量化融合的DNN模型压缩算法", 《电讯技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947185A (zh) * 2021-09-30 2022-01-18 北京达佳互联信息技术有限公司 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN113947185B (zh) * 2021-09-30 2022-11-18 北京达佳互联信息技术有限公司 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN114418086A (zh) * 2021-12-02 2022-04-29 北京百度网讯科技有限公司 压缩神经网络模型的方法、装置
CN114418086B (zh) * 2021-12-02 2023-02-28 北京百度网讯科技有限公司 压缩神经网络模型的方法、装置
US11861498B2 (en) 2021-12-02 2024-01-02 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for compressing neural network model
CN117036911A (zh) * 2023-10-10 2023-11-10 华侨大学 一种基于神经架构搜索的车辆再辨识轻量化方法及***

Also Published As

Publication number Publication date
CN113269312B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113269312B (zh) 一种联合量化与剪枝搜索的模型压缩方法及其***
Li et al. Towards compact cnns via collaborative compression
CN110378468B (zh) 一种基于结构化剪枝和低比特量化的神经网络加速器
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN107239829B (zh) 一种优化人工神经网络的方法
CN107239825B (zh) 考虑负载均衡的深度神经网络压缩方法
CN110909667B (zh) 面向多角度sar目标识别网络的轻量化设计方法
CN110413255B (zh) 人工神经网络调整方法和装置
Sun et al. Vaqf: Fully automatic software-hardware co-design framework for low-bit vision transformer
CN111507521A (zh) 台区电力负荷预测方法及预测装置
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN113222138A (zh) 一种联合层剪枝和通道剪枝的卷积神经网络压缩方法
CN111723914A (zh) 一种基于卷积核预测的神经网络架构搜索方法
CN111696149A (zh) 针对基于cnn的立体匹配算法的量化方法
CN110020721B (zh) 一种基于参数压缩的目标检测深度学习网络优化方法
CN114970853A (zh) 一种跨范围量化的卷积神经网络压缩方法
CN116363423A (zh) 面向小样本学习的知识蒸馏方法、装置及存储介质
CN113792621A (zh) 一种基于fpga的目标检测加速器设计方法
CN114943335A (zh) 一种三值神经网络逐层优化方法
Qi et al. Learning low resource consumption cnn through pruning and quantization
Wang et al. Structured feature sparsity training for convolutional neural network compression
Guo et al. A high-efficiency fpga-based accelerator for binarized neural network
CN117173449A (zh) 基于多尺度detr的航空发动机叶片缺陷检测方法
Hossain et al. Computational Complexity Reduction Techniques for Deep Neural Networks: A Survey
CN114781639A (zh) 面向边缘设备多层共享码本向量量化的深度模型压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant