CN108985453A - 基于非对称三元权重量化的深度神经网络模型压缩方法 - Google Patents

基于非对称三元权重量化的深度神经网络模型压缩方法 Download PDF

Info

Publication number
CN108985453A
CN108985453A CN201810674698.3A CN201810674698A CN108985453A CN 108985453 A CN108985453 A CN 108985453A CN 201810674698 A CN201810674698 A CN 201810674698A CN 108985453 A CN108985453 A CN 108985453A
Authority
CN
China
Prior art keywords
deep neural
neural network
weight
quantization
ternary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810674698.3A
Other languages
English (en)
Inventor
吴俊敏
丁杰
吴焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Institute for Advanced Study USTC
Original Assignee
Suzhou Institute for Advanced Study USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Institute for Advanced Study USTC filed Critical Suzhou Institute for Advanced Study USTC
Priority to CN201810674698.3A priority Critical patent/CN108985453A/zh
Publication of CN108985453A publication Critical patent/CN108985453A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于非对称三元权重量化的深度神经网络模型压缩方法,包括:在深度神经网络训练时,在每一次前向计算之前,将网络的每一层浮点权重量化为非对称的三元值,参数更新阶段使用原始的浮点型网络权重;对训练完成的深度神经网络进行压缩存储。去除深度神经网络的冗余参数,对网络模型进行压缩,有效地提升了量化方法在大数据集上的识别准确率。

Description

基于非对称三元权重量化的深度神经网络模型压缩方法
技术领域
本发明涉及卷积神经网络的压缩技术领域,具体地涉及一种基于非对称三元权重量化的深度神经网络模型压缩方法。
背景技术
近年来,随着深度学习算法的快速发展,深度神经网络在语音识别、图像分类和自然语言处理等一系列机器学习任务中取得了最先进的成果。然而,典型的深度神经网络通常具有数以百万计的参数,使其很难被部署到只有有限存储与计算资源的嵌入式设备当中,如何实现深度神经网络的模型压缩成为当前深度学习的重要研究方向。
目前,典型的模型压缩方法分为两种,其一是优化网络的结构从而减少网络的参数数目,ICLR2016最佳论文Deep Compression详细的介绍了此种方法,可以实现数十倍的模型压缩比,但是此种方法实现难度较大,步骤较为复杂。其二为通过降低网络精度来降低网络存储,比如目前较为常见的二值化网络(Binary Connect)和对称三值化网络(Ternaryweight networks),上述方法在较小的数据集上取得了不低于浮点型网络的准确率,但是在较大的数据集如ImageNet上的准确率损失较大。
目前最新的三元权重量化方法(Ternary weight networks)会将网络权重量化到{-α,0,+α}三元值当中,其采用的量化方法为:
在量化方法的选择当中,其认为经过训练之后,网络的正负权重满足相同的分布,极大的限制了三元权重网络的表达能力。
发明内容
针对上述存在的技术问题,本发明目的是:提供了一种基于非对称三元权重量化的深度神经网络模型压缩方法,去除深度神经网络的冗余参数,对网络模型进行压缩,有效地提升了量化方法在大数据集上的识别准确率。
本发明的技术方案是:
一种基于非对称三元权重量化的深度神经网络模型压缩方法,包括以下步骤:
S01:在深度神经网络训练时,在每一次前向计算之前,将网络的每一层浮点权重量化为非对称的三元值,参数更新阶段使用原始的浮点型网络权重;
S02:对训练完成的深度神经网络进行压缩存储。
优选的技术方案中,所述三元值为:
其中l代表对应的网络层,是量化过程中采用的阈值,为对应的缩放因子。
优选的技术方案中,通过L2范式最小来降低量化过程所带来的损失,公式如下:
对于任意给定的阈值缩放因子为:
其中并且表示中元素的个数;
阈值因子为:
优选的技术方案中,采用近似计算的方法获取阈值因子的近似值:
其中Ip={i|Wli≥0|i=1,2…n},In={i|Wli<0|i=1,2,…n}。
优选的技术方案中,采用2-bit编码的方式进行压缩存储,在压缩过程中,通过移位操作将16个三元值存储为一个32-bit定点整数。
本发明还公开了一种基于非对称三元权重量化的深度神经网络模型压缩装置,包括:
一非对称三元权重网络训练模块,在深度神经网络训练时,在每一次前向计算之前,将网络的每一层浮点权重量化为非对称的三元值,参数更新阶段使用原始的浮点型网络权重;
一非对称三元权重存储模块,对训练完成的深度神经网络进行压缩存储。
优选的技术方案中,所述三元值为:
其中l代表对应的网络层,是量化过程中采用的阈值,为对应的缩放因子。
优选的技术方案中,通过L2范式最小来降低量化过程所带来的损失,公式如下:
对于任意给定的阈值缩放因子为:
其中并且表示中元素的个数;
阈值因子为:
优选的技术方案中,采用近似计算的方法获取阈值因子的近似值:
其中Ip={i|Wli≥0|i=1,2…n},In={i|Wli<0|i=1,2,…n}。
优选的技术方案中,采用2-bit编码的方式进行压缩存储,在压缩过程中,通过移位操作将16个三元值存储为一个32-bit定点整数。
与现有技术相比,本发明的优点是:
1、针对正负权重进行不同的约束以提高三值化网络的表达能力,并通过L2约束获取正负阈值与对应缩放因子之间的关系,降低量化过程中带来的损失,有效地提升了量化方法在大数据集上的识别准确率。
2、去除深度神经网络的冗余参数,对网络模型进行压缩,降低深度神经网络模型存储,使其能够较容易的移植到嵌入式设备中执行。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明量化网络训练流程图;
图2为本发明权重编码方法示意图;
图3为VGG16量化网络在CIFAR-10数据集上准确率;
图4为AlexNet量化网络在ImageNet上准确率。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例:
深度神经网络通常包含数以百万计的参数使得其很难被应用到只有有限资源的设备当中,但是通常网络的大部分参数都是冗余的,因此本本发明的主要目的就是去除冗余的参数,实现模型压缩。技术的实现主要分为三步:
(一):非对称三元权重量化过程:
非对称三元权重量化方法在网络训练时将传统的浮点型网络权重量化三元值当中,量化方法采用阈值设置的方法,公式如下:
公式当中是量化过程中采用的阈值,任意的浮点数可根据其范围分配到不同的三元值中。为对应的缩放因子,用来减少量化过程带来的损失。在上面设置的阈值方法中,存在四个独立的参数因子。
本发明采用L2范式最小来降低量化过程所带来的损失,公式如下:
将公式(1)带入到(2)中,公式可以转换为:
其中并且表示中元素的个数。是互相独立的阈值因子,是一个与无关的独立常量值。
公式(3)求解可以转换为:
对于任意给定的阈值缩放因子可以计算为:
之后将带入到公式(4)中,阈值因子可以计算为:
上式中均为正值,由于公式(7)(8)没有精确的计算值,所以在实验过程中,假设网络权重Wl经过训练之后其正负值仍然满足基本动态分布,即可采用近似计算的方法获取阈值因子的近似值:
其中Ip={i|Wli≥0|i=1,2…n},In={i|Wli<0|i=1,2,…n},最终结合公式(5)、(6)、(9)、(10)并代入公式(1)当中,即可从原有的浮点型权重当中量化得到对应的三元权重值,实现网络权重的离散化处理。
(二)非对称三元权重网络训练过程
非对称三元权重量化方法将网络的每一层浮点权重都约束到了三元值当中,极大的减少了参数的冗余情况,有效的防止可过拟合的发生,但是对于一个已经训练完成的网络直接采用该量化方法会对网络的准确率产生很大的影响,因此需要将量化方法添加到网络的训练过程中从而减少网络准确率损失。网络的训练方法与传统浮点型网络类似,训练流程如图(1)所示。
图(1)显示了非对称三元权重网络训练的两个关键点:其一是量化方法需要添加在每一次前向计算之前,网络的损失值是由量化后的权重计算得到的,主要目的是获取量化方法对最终结果的影响。其二是参数更新阶段使用的原始的浮点型网络权重而非量化后的三元权重,目的在于获取微小的梯度更新值使得网络始终朝着最优的方向更新。
(三)非对称三元权重存储方法
非对称三元权重网络经过训练之后,每一层网络权重都会量化到当中,其中l代表对应的网络层,但是三元权重仍然是浮点型的表示,为了实现模型存储的压缩,本技术采用了2-bit编码的方式进行压缩存储,具体的编码方式如图(2)所示。2-bit编码可以存储四种数值,本技术中采用了其中三种表示,在压缩过程中,可以通过移位操作将16个三元值存储为一个32-bit定点整数,理论上可以获得16倍左右的模型压缩比。
非对称三元权重网络(Asymmetric Ternary Networks ATNs)在CIFAR-10和ImageNet数据集上的训练过程如图(3)(4)所示,相比于传统的三元权重网络(TernaryWeight Networks TWNs),本发明有效的提升了量化网络在CIFAR-10和ImageNet数据集上的识别准确率,具体的结果如表(1)(2)所示:
表(1)VGG网络在CIFAR-10数据集上准确率
表(2)AlexNet网络在ImageNet数据集上准确率
可以看出ATNs在CIFAR-10数据集上相比于TWNs提升了0.41%的识别准确率,同时比浮点型网络识别率还高了0.33%。在ImageNet数据集上,ATNs相比于TWNs提高了2.25%的准确率,相比于浮点型网络只降低了0.63%,有效地提升了量化方法在大数据集上的识别准确率。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于非对称三元权重量化的深度神经网络模型压缩方法,其特征在于,包括以下步骤:
S01:在深度神经网络训练时,在每一次前向计算之前,将网络的每一层浮点权重量化为非对称的三元值,参数更新阶段使用原始的浮点型网络权重;
S02:对训练完成的深度神经网络进行压缩存储。
2.根据权利要求1所述的基于非对称三元权重量化的深度神经网络模型压缩方法,其特征在于,所述三元值为:
其中l代表对应的网络层,是量化过程中采用的阈值,为对应的缩放因子。
3.根据权利要求2所述的基于非对称三元权重量化的深度神经网络模型压缩方法,其特征在于,通过L2范式最小来降低量化过程所带来的损失,公式如下:
对于任意给定的阈值缩放因子为:
其中并且表示中元素的个数;
阈值因子为:
4.根据权利要求3所述的基于非对称三元权重量化的深度神经网络模型压缩方法,其特征在于,采用近似计算的方法获取阈值因子的近似值:
其中Ip={i|Wli≥0|i=1,2…n},In={i|Wli<0|i=1,2,…n}。
5.根据权利要求1所述的基于非对称三元权重量化的深度神经网络模型压缩方法,其特征在于,采用2-bit编码的方式进行压缩存储,在压缩过程中,通过移位操作将16个三元值存储为一个32-bit定点整数。
6.一种基于非对称三元权重量化的深度神经网络模型压缩装置,其特征在于,包括:
一非对称三元权重网络训练模块,在深度神经网络训练时,在每一次前向计算之前,将网络的每一层浮点权重量化为非对称的三元值,参数更新阶段使用原始的浮点型网络权重;
一非对称三元权重存储模块,对训练完成的深度神经网络进行压缩存储。
7.根据权利要求6所述的基于非对称三元权重量化的深度神经网络模型压缩装置,其特征在于,所述三元值为:
其中l代表对应的网络层,是量化过程中采用的阈值,为对应的缩放因子。
8.根据权利要求7所述的基于非对称三元权重量化的深度神经网络模型压缩装置,其特征在于,通过L2范式最小来降低量化过程所带来的损失,公式如下:
对于任意给定的阈值缩放因子为:
其中并且表示中元素的个数;
阈值因子为:
9.根据权利要求8所述的基于非对称三元权重量化的深度神经网络模型压缩装置,其特征在于,采用近似计算的方法获取阈值因子的近似值:
其中Ip={i|Wli≥0|i=1,2…n},In={i|Wli<0|i=1,2,…n}。
10.根据权利要求6所述的基于非对称三元权重量化的深度神经网络模型压缩装置,其特征在于,采用2-bit编码的方式进行压缩存储,在压缩过程中,通过移位操作将16个三元值存储为一个32-bit定点整数。
CN201810674698.3A 2018-06-27 2018-06-27 基于非对称三元权重量化的深度神经网络模型压缩方法 Pending CN108985453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810674698.3A CN108985453A (zh) 2018-06-27 2018-06-27 基于非对称三元权重量化的深度神经网络模型压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810674698.3A CN108985453A (zh) 2018-06-27 2018-06-27 基于非对称三元权重量化的深度神经网络模型压缩方法

Publications (1)

Publication Number Publication Date
CN108985453A true CN108985453A (zh) 2018-12-11

Family

ID=64538977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810674698.3A Pending CN108985453A (zh) 2018-06-27 2018-06-27 基于非对称三元权重量化的深度神经网络模型压缩方法

Country Status (1)

Country Link
CN (1) CN108985453A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942148A (zh) * 2019-12-11 2020-03-31 北京工业大学 一种自适应的非对称量化的深度神经网络模型压缩方法
CN111353517A (zh) * 2018-12-24 2020-06-30 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN111681263A (zh) * 2020-05-25 2020-09-18 厦门大学 基于三值量化的多尺度对抗性目标跟踪算法
CN112561050A (zh) * 2019-09-25 2021-03-26 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN114492779A (zh) * 2022-02-16 2022-05-13 安谋科技(中国)有限公司 神经网络模型的运行方法、可读介质和电子设备
WO2022148071A1 (zh) * 2021-01-07 2022-07-14 苏州浪潮智能科技有限公司 一种图像特征提取方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751228A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及***
CN107644254A (zh) * 2017-09-09 2018-01-30 复旦大学 一种卷积神经网络权重参数量化训练方法及***
CN107688849A (zh) * 2017-07-28 2018-02-13 北京深鉴科技有限公司 一种动态策略定点化训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751228A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及***
CN107688849A (zh) * 2017-07-28 2018-02-13 北京深鉴科技有限公司 一种动态策略定点化训练方法及装置
CN107644254A (zh) * 2017-09-09 2018-01-30 复旦大学 一种卷积神经网络权重参数量化训练方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIE DING: "Asymmetric Ternary Networks", 《2017 INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353517A (zh) * 2018-12-24 2020-06-30 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN111353517B (zh) * 2018-12-24 2023-09-26 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN112561050A (zh) * 2019-09-25 2021-03-26 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN112561050B (zh) * 2019-09-25 2023-09-05 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN110942148A (zh) * 2019-12-11 2020-03-31 北京工业大学 一种自适应的非对称量化的深度神经网络模型压缩方法
CN111681263A (zh) * 2020-05-25 2020-09-18 厦门大学 基于三值量化的多尺度对抗性目标跟踪算法
CN111681263B (zh) * 2020-05-25 2022-05-03 厦门大学 基于三值量化的多尺度对抗性目标跟踪算法
WO2022148071A1 (zh) * 2021-01-07 2022-07-14 苏州浪潮智能科技有限公司 一种图像特征提取方法、装置、设备及存储介质
CN114492779A (zh) * 2022-02-16 2022-05-13 安谋科技(中国)有限公司 神经网络模型的运行方法、可读介质和电子设备

Similar Documents

Publication Publication Date Title
CN108985453A (zh) 基于非对称三元权重量化的深度神经网络模型压缩方法
WO2020238237A1 (zh) 一种基于幂指数量化的神经网络压缩方法
CN107340993B (zh) 运算装置和方法
CN107644254A (zh) 一种卷积神经网络权重参数量化训练方法及***
CN106845640A (zh) 基于深度卷积神经网络的层内非均匀的等间隔定点量化方法
CN108229681A (zh) 一种神经网络模型压缩方法、***、装置及可读存储介质
WO2021258752A1 (zh) 一种神经网络的4比特量化方法及***
CN108764317A (zh) 一种基于多路特征加权的残差卷积神经网络图像分类方法
CN111079899A (zh) 神经网络模型压缩方法、***、设备及介质
CN108664993B (zh) 一种密集权重连接的卷积神经网络图像分类方法
CN107395211A (zh) 一种基于卷积神经网络模型的数据处理方法及装置
CN111931906A (zh) 一种基于结构搜索的深度神经网络混合精度量化方法
CN110188877A (zh) 一种神经网络压缩方法与装置
CN109409505A (zh) 一种用于分布式深度学习的压缩梯度的方法
CN109325590A (zh) 用于实现计算精度可变的神经网络处理器的装置
CN110942148B (zh) 一种自适应的非对称量化的深度神经网络模型压缩方法
CN110837890A (zh) 一种面向轻量级卷积神经网络的权值数值定点量化方法
CN114707637A (zh) 一种神经网络量化部署方法、***及存储介质
CN107748913A (zh) 一种深度神经网络的通用小型化方法
CN117521763A (zh) 一种融合组正则化剪枝和重要性剪枝的人工智能模型压缩方法
CN110263917A (zh) 一种神经网络压缩方法及装置
WO2020253692A1 (zh) 一种针对深度学习网络参数的量化方法
CN110837885B (zh) 一种基于概率分布的Sigmoid函数拟合方法
CN117009093A (zh) 降低神经网络推理所需内存占用量的重计算方法和***
CN111260049A (zh) 一种基于国产嵌入式***的神经网络实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211