CN113762499A - 一种分通道量化权重的方法 - Google Patents

一种分通道量化权重的方法 Download PDF

Info

Publication number
CN113762499A
CN113762499A CN202010497921.9A CN202010497921A CN113762499A CN 113762499 A CN113762499 A CN 113762499A CN 202010497921 A CN202010497921 A CN 202010497921A CN 113762499 A CN113762499 A CN 113762499A
Authority
CN
China
Prior art keywords
data
channel
model
quantized
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010497921.9A
Other languages
English (en)
Other versions
CN113762499B (zh
Inventor
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ingenic Technology Co ltd
Original Assignee
Hefei Ingenic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ingenic Technology Co ltd filed Critical Hefei Ingenic Technology Co ltd
Priority to CN202010497921.9A priority Critical patent/CN113762499B/zh
Publication of CN113762499A publication Critical patent/CN113762499A/zh
Application granted granted Critical
Publication of CN113762499B publication Critical patent/CN113762499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种分通道量化权重的方法,所述方法是根据模型的输出通道数来量化权重,当卷积神经网络的权重是4维[height,width,input_channel,output_channel]时,根据output_channel分别统计其他3个维度数据的极值,然后再量化为低比特,根据每个通道的分布特性来量化数据。本申请旨在克服现有技术中存在的缺陷,解决现有低比特模型量化时低比特数据利用不充分,集中在少量几个数值,降低了模型的精度的问题。

Description

一种分通道量化权重的方法
技术领域
本发明涉及神经网络加速技术领域,特别涉及一种分通道量化权重的方法。
背景技术
近年来,随着科技的飞速发展,大数据时代已经到来。深度学习以深度神经网络(DNN)作为模型,在许多人工智能的关键领域取得了十分显著的成果,如图像识别、增强学习、语义分析等。卷积神经网络(CNN)作为一种典型的DNN结构,能有效提取出图像的隐层特征,并对图像进行准确分类,在近几年的图像识别和检测领域得到了广泛的应用。
特别地,根据全局极值量化权重:先从权重中获取整个权重的极值然后再根据这该值将权重量化为低比特。
然而,现有技术中对卷积神经网络权重进行量化时,由于是统计权重中整体的极值,完成对权重的量化,没有考虑到各个通道之间的差异,导致有的通道量化后可能只有少数几个值,从而降低了模型的精度。
此外,现有技术中的常用术语如下:
卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络。
量化:量化指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。
低比特:将数据量化为位宽为8bit,4bit或者2bit的数据。
推理:神经网络训练结束后,利用保存的数据进行运算的过程。
发明内容
本申请提出了一种分通道量化权重的方法,旨在克服上述现有技术中存在的缺陷,解决现有低比特模型量化时低比特数据利用不充分,集中在少量几个数值,降低了模型的精度的问题。
具体地,本发明提供一种分通道量化权重的方法,所述方法是根据模型的输出通道数来量化权重,即卷积神经网络的权重是4维的[height,width,input_channel,output_channel],根据output_channel分别统计其他3个维度数据的极值,然后再量化为低比特,根据每个通道的分布特性来量化数据。
所述方法具体包括以下步骤:
S1,卷积神经网络训练:用全精度算法训练模型,得到一个用于目标分类的网络,即获得模型推理过程中的相关参数,所述相关参数包括,卷积的权重,BiasAdd算子的偏置,BatchNormal算子的gamma,beta,均值和方差;
S2,微调量化后的模型:
S2.1,对于从S1得到的模型按照公式1要求对权重进行量化,
公式1:
Figure BDA0002523556050000021
其中,
Figure BDA0002523556050000022
为Wf中某一个通道的数据,
Figure BDA0002523556050000023
为Wq中某一个通道的数据,即对Wf数据中的每一个通道数据分别进行公式1的操作得到Wq,Wf为全精度数据,Wq为量化后的数据,maxw全精度数据的最大值,b为量化后的位宽,c代表输出通道中的某个通道;
S2.2,对于量化后的值需要再除以(2b-1)即
Figure BDA0002523556050000031
其中,Wq为S2.1中对Wf量化得到的数据,W为模型微调阶段送到卷积的权重的数据,便于模型微调的时候能有效的收敛;
S3,feature map的量化:在微调阶段将激活函数设置为Relu6,由Relu6激活函数的特性可知,该激活函数输出结果的数值范围在0到6之间,所以此时feature map的最大值为6,然后再按照公式1对数据进行量化。
所述步骤S3中的所述的relu6激活函数为:
relu6(x)=min(max(x,0),6)∈[0,6];
Figure BDA0002523556050000032
所述步骤S3中在微调阶段将激活函数设置一个比Relu6更小的值。
所述的设置一个比Relu6更小的值为将激活函数的最大值设置为4.0即relu4(x)=min(max(x,0)4)。
由此,本申请的优势在于:
1.对权重采用分通道的方法来量化,可以提高低比特数据的利用率。
2.采用分通道量化权重可以消除某些层中异常通道对整个模型的影响。
3.由于每一层权重低比特数据利用更充分,从而模型在微调的时候可以大大提高模型的收敛速度和最终的精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1是本发明方法的流程示意图。
图2是现有技术中Relu函数及其导函数对应的图像。
图3是本发明方法的中Relu6激活函数和导函数对应的图像。
具体实施方式
为了能够更清楚地理解本发明的技术内容及优点,现结合附图对本发明进行进一步的详细说明。
如图1所示,本发明的一种分通道量化权重的方法具体包括以下步骤:
S1,卷积神经网络训练:用全精度算法训练模型,全精度算法是以Resnet-50为神经网络结构的图像分类算法,得到一个用于目标分类的网络,即获得模型推理过程中的相关参数,所述相关参数包括,卷积的权重,BiasAdd算子的偏置,BatchNormal算子的gamma,beta,均值和方差;
S2,微调量化后的模型:
S2.1,对于从S1得到的模型按照公式1要求对权重进行量化,
公式1:
Figure BDA0002523556050000041
其中,
Figure BDA0002523556050000042
为Wf中某一个通道的数据,
Figure BDA0002523556050000043
为Wq中某一个通道的数据,即对Wf数据中的每一个通道数据分别进行公式1的操作得到Wq,Wf为全精度数据,Wq为量化后的数据,maxw全精度数据的最大值,b为量化后的位宽,c代表输出通道中的某个通道;
S2.2,对于量化后的值需要再除以(2b-1)即
Figure BDA0002523556050000051
其中,wq为S2.1中对Wf量化得到的数据,W为模型微调阶段送到卷积的权重的数据,便于模型微调的时候能有效的收敛;
S3,feature map的量化:在微调阶段将激活函数设置为Relu6,由Relu6激活函数的特性可知,该激活函数输出结果的数值范围在0到6之间,所以此时feature map的最大值为6,然后再按照公式1对数据进行量化。
本申请方法还可以表述为,包括以下步骤:
1)卷积神经网络训练:用全精度算法训练模型,得到一个可以用于目标分类的网络,即获得模型推理过程中的相关参数。
2)微调量化后的模型:对于得到的模型按照公式1要求对权重进行量化,不过对于量化后的值需要再除以(2b-1)即
Figure BDA0002523556050000052
便于模型微调的时候能有效的收敛。
公式1:
Figure BDA0002523556050000053
变量说明:
Figure BDA0002523556050000054
为Wf中某一个通道的数据,
Figure BDA0002523556050000055
为Wq中某一个通道的数据,即对Wf数据中的每一个通道数据分别进行公式1的操作得到Wq,Wf为全精度数据,Wq为量化后的数据,maxw全精度数据的最大值,b为量化后的位宽,c代表输出通道中的某个通道。
3)feature map的量化:由于feature map时模型推理过程中实时计算出来的,所以无法预先知道他的极值,不过由于卷积神经网络现在的激活函数采用的是Relu或者Relu6,所以在微调阶段我们将激活函数设置为Relu6或者更小的一个值,这样feature map的极值就会是已知的了,然后再按照公式1对数据进行量化。
激活函数(Relu函数),神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数),如图2所示,Relu=max(0,x),Relu函数及其导数的图像。
如图3所示,所述的relu6激活函数为:
relu6(x)=nin(max(x,0),6)∈[0,6];
Figure BDA0002523556050000061
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种分通道量化权重的方法,其特征在于,所述方法是根据模型的输出通道数来量化权重,当卷积神经网络的权重是4维[height,width,input_channel,output_channel]时,根据output_channel分别统计其他3个维度数据的极值,然后再量化为低比特,根据每个通道的分布特性来量化数据。
2.根据权利要求1所述的一种分通道量化权重的方法,其特征在于,所述方法具体包括以下步骤:
S1,卷积神经网络训练:用全精度算法训练模型,得到一个用于目标分类的网络,即获得模型推理过程中的相关参数,所述相关参数包括,卷积的权重,BiasAdd算子的偏置,BatchNormal算子的gamma,beta,均值和方差;
S2,微调量化后的模型:
S2.1,对于从S1得到的模型按照公式1要求对权重进行量化,
公式1:
Figure FDA0002523556040000011
其中,
Figure FDA0002523556040000012
为Wf中某一个通道的数据,
Figure FDA0002523556040000013
为Wq中某一个通道的数据,即对Wf数据中的每一个通道数据分别进行公式1的操作得到Wq,Wf为全精度数据,Wq为量化后的数据,maxw全精度数据的最大值,b为量化后的位宽,c代表输出通道中的某个通道;
S2.2,对于量化后的值需要再除以(2b-1)即
Figure FDA0002523556040000021
其中,Wq为S2.1中对Wf量化得到的数据,W为模型微调阶段送到卷积的权重的数据,便于模型微调的时候能有效的收敛;
S3,feature map的量化:在微调阶段将激活函数设置为Relu6,由Relu6激活函数的特性可知,该激活函数输出结果的数值范围在0到6之间,所以此时feature map的最大值为6,然后再按照公式1对数据进行量化。
3.根据权利要求2所述的一种分通道量化权重的方法,其特征在于,所述步骤S3中的所述的relu6激活函数为:
relu6(x)=min(max(x,0),6)∈[0,6];
Figure FDA0002523556040000022
4.根据权利要求2所述的一种分通道量化权重的方法,其特征在于,所述步骤S3中在微调阶段将激活函数设置一个比Relu6更小的值。
5.根据权利要求4所述的一种分通道量化权重的方法,其特征在于,所述的设置一个比Relu6更小的值为将激活函数的最大值设置为4.0即relu4(x)=min(max(x,0)4)。
CN202010497921.9A 2020-06-04 2020-06-04 一种分通道量化权重的方法 Active CN113762499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497921.9A CN113762499B (zh) 2020-06-04 2020-06-04 一种分通道量化权重的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497921.9A CN113762499B (zh) 2020-06-04 2020-06-04 一种分通道量化权重的方法

Publications (2)

Publication Number Publication Date
CN113762499A true CN113762499A (zh) 2021-12-07
CN113762499B CN113762499B (zh) 2024-04-02

Family

ID=78783423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497921.9A Active CN113762499B (zh) 2020-06-04 2020-06-04 一种分通道量化权重的方法

Country Status (1)

Country Link
CN (1) CN113762499B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077740A (zh) * 2023-09-25 2023-11-17 荣耀终端有限公司 模型量化方法和设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042948A1 (en) * 2017-08-04 2019-02-07 Samsung Electronics Co., Ltd. Method and apparatus for generating fixed-point quantized neural network
CN109543821A (zh) * 2018-11-26 2019-03-29 济南浪潮高新科技投资发展有限公司 一种限制权重分布提高量化效果的卷积神经网络训练方法
CN109902745A (zh) * 2019-03-01 2019-06-18 成都康乔电子有限责任公司 一种基于cnn的低精度训练与8位整型量化推理方法
CN110059822A (zh) * 2019-04-24 2019-07-26 苏州浪潮智能科技有限公司 一种基于通道分组低比特神经网络参数压缩量化方法
CN110363281A (zh) * 2019-06-06 2019-10-22 上海交通大学 一种卷积神经网络量化方法、装置、计算机和存储介质
CN110659734A (zh) * 2019-09-27 2020-01-07 中国科学院半导体研究所 深度可分离卷积结构的低比特量化方法
CN110874626A (zh) * 2018-09-03 2020-03-10 华为技术有限公司 一种量化方法及装置
CN111105017A (zh) * 2019-12-24 2020-05-05 北京旷视科技有限公司 神经网络量化方法、装置及电子设备
CN111160523A (zh) * 2019-12-16 2020-05-15 上海交通大学 基于特征值区域的动态量化方法、***及介质
CN111178514A (zh) * 2019-12-31 2020-05-19 翱捷智能科技(上海)有限公司 神经网络的量化方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042948A1 (en) * 2017-08-04 2019-02-07 Samsung Electronics Co., Ltd. Method and apparatus for generating fixed-point quantized neural network
CN110874626A (zh) * 2018-09-03 2020-03-10 华为技术有限公司 一种量化方法及装置
CN109543821A (zh) * 2018-11-26 2019-03-29 济南浪潮高新科技投资发展有限公司 一种限制权重分布提高量化效果的卷积神经网络训练方法
CN109902745A (zh) * 2019-03-01 2019-06-18 成都康乔电子有限责任公司 一种基于cnn的低精度训练与8位整型量化推理方法
CN110059822A (zh) * 2019-04-24 2019-07-26 苏州浪潮智能科技有限公司 一种基于通道分组低比特神经网络参数压缩量化方法
CN110363281A (zh) * 2019-06-06 2019-10-22 上海交通大学 一种卷积神经网络量化方法、装置、计算机和存储介质
CN110659734A (zh) * 2019-09-27 2020-01-07 中国科学院半导体研究所 深度可分离卷积结构的低比特量化方法
CN111160523A (zh) * 2019-12-16 2020-05-15 上海交通大学 基于特征值区域的动态量化方法、***及介质
CN111105017A (zh) * 2019-12-24 2020-05-05 北京旷视科技有限公司 神经网络量化方法、装置及电子设备
CN111178514A (zh) * 2019-12-31 2020-05-19 翱捷智能科技(上海)有限公司 神经网络的量化方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077740A (zh) * 2023-09-25 2023-11-17 荣耀终端有限公司 模型量化方法和设备
CN117077740B (zh) * 2023-09-25 2024-03-12 荣耀终端有限公司 模型量化方法和设备

Also Published As

Publication number Publication date
CN113762499B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN107729999B (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN107679617B (zh) 多次迭代的深度神经网络压缩方法
CN110097187A (zh) 一种基于激活-熵权重剪枝的cnn模型压缩方法
CN108960496B (zh) 一种基于改进学习率的深度学习交通流预测方法
CN110650153B (zh) 一种基于聚焦损失深度神经网络的工控网络入侵检测方法
CN111079899A (zh) 神经网络模型压缩方法、***、设备及介质
CN113159173A (zh) 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法
CN112215353B (zh) 一种基于变分结构优化网络的通道剪枝方法
CN112381205A (zh) 一种神经网络低比特量化方法
CN111191742A (zh) 一种用于多源异构数据流的滑动窗口长度自适应调整方法
CN111832432A (zh) 一种基于小波包分解和深度学习的刀具磨损实时预测方法
CN113762499A (zh) 一种分通道量化权重的方法
CN115048870A (zh) 基于残差网络和注意力机制的目标轨迹识别方法
CN117574776A (zh) 一种面向任务规划的模型自学习优化方法
CN113536939A (zh) 一种基于3d卷积神经网络的视频去重方法
CN110837885B (zh) 一种基于概率分布的Sigmoid函数拟合方法
CN108462481B (zh) 一种μ律函数下基于参数调整的比例LMP滤波方法
CN113762497B (zh) 一种卷积神经网络模型低比特推理优化的方法
Shymyrbay et al. Training-aware low precision quantization in spiking neural networks
US20220164664A1 (en) Method for updating an artificial neural network
CN115438784A (zh) 一种用于混合位宽超网络的充分训练方法
CN115099405A (zh) 一种基于近似乘法的神经网络混合近似及误差补偿方法
CN113762500B (zh) 一种卷积神经网络在量化时提高模型精度的训练方法
CN113516170A (zh) 基于贝叶斯神经网络随机加法饱和结构的图像分类方法
CN113762495A (zh) 一种提高卷积神经网络模型低比特量化模型精度的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant