CN112488291B - 一种神经网络8比特量化压缩方法 - Google Patents
一种神经网络8比特量化压缩方法 Download PDFInfo
- Publication number
- CN112488291B CN112488291B CN202011210713.2A CN202011210713A CN112488291B CN 112488291 B CN112488291 B CN 112488291B CN 202011210713 A CN202011210713 A CN 202011210713A CN 112488291 B CN112488291 B CN 112488291B
- Authority
- CN
- China
- Prior art keywords
- layer
- quantization
- output
- neural network
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 125
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006835 compression Effects 0.000 title claims abstract description 22
- 238000007906 compression Methods 0.000 title claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000007423 decrease Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003062 neural network model Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种神经网络8比特量化压缩方法,压缩方法技术领域,包括权重量化:对于神经网络的每一层,统计其权重,遍历的所有可能取值,根据取值对权重进行量化,计算量化前和量化后的散度,取散度最小时对应的作为其最终量化时采用的值;以及输出量化:选取校准数据集,针对具体任务定义其精度指标,对于网络的每一层,遍历FLo的可能取值,对网络进行定点前向运算,应用所定义的精度指标上表现最优的FLo作为该层的量化参数取值。本发明提供一种神经网络8比特量化压缩方法,将深度学习神经网络量化到8比特的同时保留较高的计算精度,使得神经网络可以在嵌入式设备上进行部署。
Description
技术领域
本发明涉及压缩方法技术领域,具体而言,涉及一种人工智能神经网络8比特量化压缩方法。
背景技术
近年来,深度学习快速发展,在语音、图像和自然语言处理等领域得到了广泛引用,大量基于神经网络模型的技术推陈出新。然而,由于神经网络模型本身层数多、参数量多、计算量大的特点,在将这些技术转换为产品落地时,仍面临着储存空间不足、内存消耗过多、计算资源不足等问题。所以必须对神经网络模型进行8比特量化,采用定点运算来代替浮点运算,以保证其能在嵌入式终端设备上顺利落地。
传统8比特量化压缩方案基本步骤如下:首先,对模型进行权重量化,统计每一个网络层的权重绝对值最大值Wmax,将其最大值映射到127,即根据公式FLw=int(log2(127/Wmax))计算整数FLw。这样,一个层数为N的网络最终会统计出N个FLw。随后,根据公式 得到权重的8比特量化值。接着,选取校准数据集对模型进行输出量化,使用该校准数据集进行神经网络前向运算,与权重量化类似,统计每一层的输出绝对值最大值Omax,根据公式FLo=int(log2(127/Omax))对网络的每一层都计算整数FLo,最后,根据公式/>得到输出的8比特量化值Oq。
传统8比特量化压缩方案得到的结果往往精度不高。对于层数越少的网络,量化权重造成的精度损失越明显,对于层数较多的网络,量化输出造成的精度损失越明显。同时,传统8比特量化压缩方案对于网络中的BatchNorm层仍按照浮点运算,而不对其进行量化,由于大多数网络都带有大量BatchNorm层,故这种不完全量化方式的提速效果也不够全面。
发明内容
针对现有技术中的不足,本发明提供一种神经网络8比特量化压缩方法,将深度学习神经网络量化到8比特的同时保留较高的计算精度,使得神经网络可以在嵌入式设备上进行部署。
为实现上述目的,本发明的技术方案如下:
一种神经网络8比特量化压缩方法,包括权重量化和输出量化,
所述权重量化包括:
根据Caffe神经网络框架中的每一层的权重,计算每一层的权重的第一直方图;
遍历8比特量化参数得到若干个量化后的8比特权重,根据量化后的8比特权重得到若干个对应的第二直方图;
根据第一直方图和若干个第二直方图计算每一层对应的散度,选取散度中最小值对应的8比特量化参数来量化该层权重;
所述输出量化包括:
选取校准数据集,针对设定任务定义其精度指标;
对已量化完权重的Caffe神经网络框架中的每一层,遍历8比特量化参数,对网络进行前向运算,得到量化后的8比特输出;其中,所述输出量化的遍历8比特量化参数的取值范围与所述权重量化的遍历8比特量化参数的取值范围不同;
将所定义的精度指标来评价量化后的8比特输出,选取精度最高的输出对应的8比特量化参数作为该层的输出量化参数。
如上所述的神经网络8比特量化压缩方法,进一步地,在根据Caffe神经网络框架中的每一层的权重,计算每一层的权重的第一直方图前,所述方法还包括:
将Caffe神经网络框架中BatchNorm层转化为Scale层,进一步压缩网络,其中,Caffe神经网络框架中前馈时BatchNorm层的计算公式为等价于/> 转换后的格式同Scale层一致。
如上所述的神经网络8比特量化压缩方法,进一步地,在所述输出量化中,对于Caffe神经网络框架,量化第k层的输出时,需要应用第1层到第k-1层的输出量化参数,此时使用贪心策略进行逐层量化,进一步提高量化结果精度。
如上所述的神经网络8比特量化压缩方法,进一步地,在所述输出量化中,若第k层精度指标值下降超过设定值,则将输出值乘以一个缩放系数,使其在当前8比特量化参数下能保持精度指标值,再对该缩放系数与权重的乘积重新进行量化,以保证量化完的网络为高精度8比特网络。
如上所述的神经网络8比特量化压缩方法,进一步地,在所述权重量化中,
对于Caffe神经网络框架中的每一层权重W,统计其直方图Whist=hist(W);
取8比特量化参数FL=0,1,…,9,分别应用公式Wq=int(W×2FL)/2FL得到量化后的8比特权重W0,W1,…,W9;
统计对应直方图得到Whist_0,Whist_1,…,Whist_9;
根据散度计算公式计算对应散度KLi=Whistln(Whist/Whist_i),i=0,1,...,9,设第r个散度最小,即KLr=min(KLi),i=0,1,...,9,则选取其对应的8比特量化参数FLr来量化该层权重;
设Caffe神经网络框架有N层,则最终可得N个8比特量化参数FLr_1,FLr_2,…,FLr_N,使用量化公式得到神经网络第k层量化后的权重值Wq_k。
如上所述的神经网络8比特量化压缩方法,进一步地,在所述输出量化中,
对于Caffe神经网络框架第k层的输出O,取8比特量化参数FL=0,1,...,12,分别应用公式Oq=int(O×2FL)/2FL得到量化后的8比特输出Oq_0,Oq_1,...,Oq_12;
对于每个输出,使用固定好的判定阈值thsim计算其人脸识别精度评价指标acc0,acc1,...,acc12,设第r个精度最高,即accr=max(acci),i=0,1,...,12;
比较accr和accw,若满足条件accw-accr≤10-3,即满足量化之后精度下降在0.1%以内,则选取其对应的量化参数FLr作为该层的输出量化参数;若发现不满足精度条件,即量化之后精度下降超过0.1%,则向下一层借位。
如上所述的神经网络8比特量化压缩方法,进一步地,量化权重后的神经网络的基本组成模块包括卷积层、激活层、Scale层、全连接层;
将上述网络层配置为公式Ok+1=Ok×Wk+1+bk+1,即第k+1层的输出值等于第k层的输出值乘以第k+1层的权重再加上第k+1层的偏置值;
对于已完成权重量化的网络,该公式配置为Ok+1=Ok×Wq_(k+1)+bq_(k+1),即第k+1层的输出值等于第k层的输出值乘以第k+1层的已量化权重值再加上第k+1层的已量化偏置值;
计算采用上述搜索得到的量化参数FLr时能覆盖到的最大浮点值和量化后的第k层输出最大值Oq_max=max(Oq);
计算采用上述搜索得到的量化参数FLr时能覆盖到的最大浮点值和量化后的第k层输出最大值Oq_max=max(Oq),得到输出量化缩放系数s=Oq_max/Vmax;
对于第k层网络,先将其权重缩小s倍,即第k层的输出由公式Ok=Oq(k-1)×(Wq_k/s)+(bq_k/s)计算,此操作将第k层的输出缩放到了值Vmax的范围内,使其能够使用量化参数FLr进行量化而不损失较大精度;同时,将第k+1层网络的权重放大s倍,即第k+1层的输出由公式Ok+1=Oq_k×(Wq(k+1)×s)+bq_(k+1)计算;
对这两层被改变的权重重新进行权重量化;
对于N层网络的每一层输出进行该步骤,得到N个8比特量化参数FLr_1,FLr_2,...,FLr_N;
使用量化公式得到神经网络第k层量化后的输出值Oq_k。
本发明与现有技术相比,其有益效果在于:本发明可以将深度学习神经网络量化到8比特的同时保留较高的计算精度,在绝大多数情况下精度下降能保证在2%以内;压缩之后的神经网络模型大约缩小4倍,使其得以克服嵌入式设备储存空间不足的问题;权重和输出均为定点,从而解决嵌入式设备在运行神经网络模型时内存消耗过多、计算资源不足的瓶颈,方便各类神经网络模型的部署。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图进行简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的权重量化的流程图;
图2为本发明实施例的输出量化的流程图;
图3为本发明实施例的输出量化借位操作的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例:
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供一种神经网络8比特量化压缩方法,将深度学习神经网络量化到8比特的同时保留较高的计算精度,使得神经网络可以在嵌入式设备上进行部署。
参见图1至图3,图1为本发明实施例的权重量化的流程图;图2为本发明实施例的输出量化的流程图;图3为本发明实施例的输出量化借位操作的流程图。
一种神经网络8比特量化压缩方法,包括权重量化和输出量化,所述权重量化包括:
根据Caffe神经网络框架中的每一层的权重,计算每一层的权重的第一直方图;遍历8比特量化参数得到若干个量化后的8比特权重,根据量化后的8比特权重得到若干个对应的第二直方图;根据第一直方图和若干个第二直方图计算每一层对应的散度,选取散度中最小值对应的8比特量化参数来量化该层权重。
所述输出量化包括:选取校准数据集,针对设定任务定义其精度指标;对已量化完权重的Caffe神经网络框架中的每一层,遍历8比特量化参数,对网络进行前向运算,得到量化后的8比特输出;其中,所述输出量化的遍历8比特量化参数的取值范围与所述权重量化的遍历8比特量化参数的取值范围不同;将所定义的精度指标来评价量化后的8比特输出,选取精度最高的输出对应的8比特量化参数作为该层的输出量化参数。
作为一种可选的实施方式,在某些实施例中,在根据Caffe神经网络框架中的每一层的权重,计算每一层的权重的第一直方图前,所述方法还包括:将Caffe神经网络框架中BatchNorm层转化为Scale层。
作为一种可选的实施方式,在某些实施例中,在所述输出量化中,对于Caffe神经网络框架,量化第k层的输出时,需要应用第1层到第k-1层的输出量化参数,此时使用贪心策略进行逐层量化。
作为一种可选的实施方式,在某些实施例中,在所述输出量化中,若第k层精度指标值下降超过设定值,则将输出值乘以一个缩放系数,使其在当前8比特量化参数下能保持精度指标值,再对该缩放系数与权重的乘积重新进行量化。
具体地,本发明的具体步骤可以包括:步骤一、权重量化:如附图1所示,若待压缩的网络中存在BatchNorm层,由于Caffe神经网络框架中前馈时BatchNorm层的计算公式为 等价于/>转换后的格式同Scale层一致,故用此公式将待压缩网络的所有BatchNorm层转换为Scale层。随后,对于网络的每一层权重W,统计其直方图Whist=hist(W),取8比特量化参数FL=0,1,…,9,分别应用公式Wq=int(W×2FL)/2FL得到量化后的8比特权重W0,W1,…,W9,统计对应直方图得到Whist_0,Whist_1,…,Whist_9,紧接着,根据散度计算公式计算对应散度KLi=Whistln(Whist/Whist_i),i=0,1,…,9,由于散度越小代表信息损失越少,设第r个散度最小,即KLr=min(KLi),i=0,1,...,9,则选取其对应的8比特量化参数FLr来量化该层权重。由此,若网络有N层,则最终可得N个8比特量化参数FLr_1,FLr_2,...,FLr_N,应用这些量化参数,使用量化公式得到神经网络第k层量化后的权重值Wq_k。
步骤二、输出量化:如附图2所示,选取校准数据集,以人脸识别为例,可选取大约5000对人脸样本,以人脸识别精度作为评价指标。首先使用校准数据集对已量化完权重的神经网络进行前向运算,设人脸识别判定阈值为thsim,若一对人脸的相似度超过该阈值,则判定为同个人,否则判定为不同人,以此统计判定准确率,即作为人脸识别精度评价指标。人脸识别判定阈值thsim固定为已量化权重的网络在校准数据集上可以得到最高人脸识别精度accw时的阈值,输出量化评价时均采用该固定阈值。对于一个N层的神经网络,量化第k层的输出时,需要应用第1层到第k-1层的输出量化参数,即使用贪心策略进行逐层量化。在此前提下,对于网络第k层的输出O,取8比特量化参数FL=0,1,…,12,分别应用公式Oq=int(O×2FL)/2FL得到量化后的8比特输出Oq_0,Oq_1,...,Oq_12,对于每个输出,使用固定好的判定阈值thsim计算其人脸识别精度评价指标acc0,acc1,...,acc12,设第r个精度最高,即accr=max(acci),i=0,1,...,12,比较accr和accw,若满足条件accw-accr≤10-3,即满足量化之后精度下降在0.1%以内,则选取其对应的量化参数FLr作为该层的输出量化参数。若发现不满足精度条件,即量化之后精度下降超过0.1%,则向下一层借位。借位过程如附图3所示,由于量化权重后的神经网络的基本组成模块为卷积层、激活层、Scale层、全连接层,而这些网络层的计算都可以写成公式Ok+1=Ok×Wk+1+bk+1,即第k+1层的输出值等于第k层的输出值乘以第k+1层的权重再加上第k+1层的偏置值。对于已完成权重量化的网络,该公式改写为Ok+1=Ok×Wq_(k+1)+bq_(k+1),即第k+1层的输出值等于第k层的输出值乘以第k+1层的已量化权重值再加上第k+1层的已量化偏置值。接下来,计算采用上述搜索得到的量化参数FLr时能覆盖到的最大浮点值和量化后的第k层输出最大值Oq_max=max(Oq),便可以得到输出量化缩放系数s=Oq_max/Vmax。于是对于第k层网络,先将其权重缩小s倍,即第k层的输出由公式Ok=Oq(k-1)×(Wq_k/s)+(bq_k/s)计算,此操作将第k层的输出缩放到了值Vmax的范围内,使其能够使用量化参数FLr进行量化而不损失较大精度。同时,将第k+1层网络的权重放大s倍,即第k+1层的输出由公式Ok+1=Oq_k×(Wq(k+1)×s)+bq_(k+1)计算。此时,由于第k层网络权重缩小了s倍,而第k+1层网络权重放大了s倍,故网络整体输出不会被缩放,但是第k层网络权重和第k+1层网络权重由8比特定点数变成了浮点数,所以需要对这两层被改变的权重重新进行权重量化。对于N层网络的每一层输出进行该步骤,最终可得N个8比特量化参数FLr_1,FLr_2,…,FLr_N,应用这些量化参数,使用量化公式得到神经网络第k层量化后的输出值Oq_k。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (2)
1.一种神经网络8比特量化压缩方法,包括权重量化和输出量化,其特征在于,
所述权重量化包括:
将Caffe神经网络框架中BatchNorm层转化为Scale层,其中,Caffe神经网络框架中前馈时BatchNorm层的计算公式为等价于/> 转换后的格式同Scale层一致;
根据Caffe神经网络框架中的每一层的权重,计算每一层的权重的第一直方图;
遍历8比特量化参数得到若干个量化后的8比特权重,根据量化后的8比特权重得到若干个对应的第二直方图;
根据第一直方图和若干个第二直方图计算每一层对应的散度,选取散度中最小值对应的8比特量化参数来量化该层权重;
所述输出量化包括:
选取校准数据集,针对人脸识别定义其精度指标;
对已量化完权重的Caffe神经网络框架中的每一层,遍历8比特量化参数,对网络进行前向运算,得到量化后的8比特输出;其中,所述输出量化的遍历8比特量化参数的取值范围与所述权重量化的遍历8比特量化参数的取值范围不同;
将所定义的精度指标来评价量化后的8比特输出,选取精度最高的输出对应的8比特量化参数作为该层的输出量化参数;
在所述输出量化中,对于Caffe神经网络框架,量化第k层的输出时,需要应用第1层到第k-1层的输出量化参数,此时使用贪心策略进行逐层量化。
2.根据权利要求1所述的神经网络8比特量化压缩方法,其特征在于,在所述输出量化中,若第k层精度指标值下降超过设定值,则将输出值乘以一个缩放系数,使其在当前8比特量化参数下能保持精度指标值,再对该缩放系数与权重的乘积重新进行量化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011210713.2A CN112488291B (zh) | 2020-11-03 | 2020-11-03 | 一种神经网络8比特量化压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011210713.2A CN112488291B (zh) | 2020-11-03 | 2020-11-03 | 一种神经网络8比特量化压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488291A CN112488291A (zh) | 2021-03-12 |
CN112488291B true CN112488291B (zh) | 2024-06-04 |
Family
ID=74927827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011210713.2A Active CN112488291B (zh) | 2020-11-03 | 2020-11-03 | 一种神经网络8比特量化压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488291B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562231B2 (en) * | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102064A (zh) * | 2018-06-26 | 2018-12-28 | 杭州雄迈集成电路技术有限公司 | 一种高精度的神经网络量化压缩方法 |
CN109934270A (zh) * | 2019-02-25 | 2019-06-25 | 华东师范大学 | 一种基于局部流形判别分析投影网络的分类方法 |
CN110751278A (zh) * | 2019-08-28 | 2020-02-04 | 云知声智能科技股份有限公司 | 一种神经网络比特量化方法和*** |
CA3067776A1 (en) * | 2018-09-28 | 2020-03-28 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN111008701A (zh) * | 2019-12-03 | 2020-04-14 | 杭州嘉楠耘智信息科技有限公司 | 一种基于神经网络的数据量化方法、装置及计算机可读存储介质 |
CN111178508A (zh) * | 2019-12-27 | 2020-05-19 | 珠海亿智电子科技有限公司 | 用于执行卷积神经网络中全连接层的运算装置及方法 |
CN111652366A (zh) * | 2020-05-09 | 2020-09-11 | 哈尔滨工业大学 | 一种基于通道剪枝和量化训练的联合神经网络模型压缩方法 |
CN111882058A (zh) * | 2020-06-24 | 2020-11-03 | 苏州浪潮智能科技有限公司 | 一种神经网络的4比特量化方法及*** |
CN115062777A (zh) * | 2022-08-17 | 2022-09-16 | 珠海亿智电子科技有限公司 | 卷积神经网络的量化方法、神经网络、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12046040B2 (en) * | 2015-07-17 | 2024-07-23 | Origin Research Wireless, Inc. | Method, apparatus, and system for people counting and recognition based on rhythmic motion monitoring |
US11068780B2 (en) * | 2017-04-01 | 2021-07-20 | Intel Corporation | Technologies for scaling deep learning training |
-
2020
- 2020-11-03 CN CN202011210713.2A patent/CN112488291B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102064A (zh) * | 2018-06-26 | 2018-12-28 | 杭州雄迈集成电路技术有限公司 | 一种高精度的神经网络量化压缩方法 |
CA3067776A1 (en) * | 2018-09-28 | 2020-03-28 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN109934270A (zh) * | 2019-02-25 | 2019-06-25 | 华东师范大学 | 一种基于局部流形判别分析投影网络的分类方法 |
CN110751278A (zh) * | 2019-08-28 | 2020-02-04 | 云知声智能科技股份有限公司 | 一种神经网络比特量化方法和*** |
CN111008701A (zh) * | 2019-12-03 | 2020-04-14 | 杭州嘉楠耘智信息科技有限公司 | 一种基于神经网络的数据量化方法、装置及计算机可读存储介质 |
CN111178508A (zh) * | 2019-12-27 | 2020-05-19 | 珠海亿智电子科技有限公司 | 用于执行卷积神经网络中全连接层的运算装置及方法 |
CN111652366A (zh) * | 2020-05-09 | 2020-09-11 | 哈尔滨工业大学 | 一种基于通道剪枝和量化训练的联合神经网络模型压缩方法 |
CN111882058A (zh) * | 2020-06-24 | 2020-11-03 | 苏州浪潮智能科技有限公司 | 一种神经网络的4比特量化方法及*** |
CN115062777A (zh) * | 2022-08-17 | 2022-09-16 | 珠海亿智电子科技有限公司 | 卷积神经网络的量化方法、神经网络、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
Increasing the accuracy of neural network classification using refined training data;Kavzoglu, T;《Environmental Modelling & Software》;20081227;第24卷(第7期);第850-858页 * |
Static Block Floating-Point Quantization for Convolutional Neural Networks on FPGA;H. Fan等;《2019 International Conference on Field-Programmable Technology (ICFPT)》;20200203;第28-35页 * |
基于FPGA的深度学习在图像识别上的优化与加速应用;屈伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215(第12期);I135-287 * |
深度神经网络的指数量化压缩研究;饶川;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第1期);I140-290 * |
Also Published As
Publication number | Publication date |
---|---|
CN112488291A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619385B (zh) | 基于多级剪枝的结构化网络模型压缩加速方法 | |
CN108764471B (zh) | 基于特征冗余分析的神经网络跨层剪枝方法 | |
CN113159173B (zh) | 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法 | |
CN111612144B (zh) | 一种应用于目标检测的剪枝方法及终端 | |
CN111091184B (zh) | 一种深度神经网络的量化方法、装置、电子设备及介质 | |
CN110276451A (zh) | 一种基于权重归一化的深度神经网络压缩方法 | |
CN111105035A (zh) | 基于稀疏学习与遗传算法相结合的神经网络剪枝方法 | |
CN112488313A (zh) | 一种基于显式权重的卷积神经网络模型压缩方法 | |
CN115952832A (zh) | 自适应模型量化方法及装置、存储介质及电子装置 | |
CN112465140A (zh) | 一种基于分组通道融合的卷积神经网络模型压缩方法 | |
CN112488291B (zh) | 一种神经网络8比特量化压缩方法 | |
CN113111889A (zh) | 用于边缘计算端的目标检测网络处理方法 | |
CN112686384A (zh) | 一种自适应比特位宽的神经网络量化方法及其装置 | |
CN112597919A (zh) | 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法 | |
CN114943335A (zh) | 一种三值神经网络逐层优化方法 | |
CN117392406A (zh) | 一种单阶段实时目标检测模型低位宽混合精度量化方法 | |
CN112613604A (zh) | 神经网络的量化方法及装置 | |
Rui et al. | Smart network maintenance in an edge cloud computing environment: An adaptive model compression algorithm based on model pruning and model clustering | |
CN116416161A (zh) | 一种改进生成对抗网络的图像修复方法 | |
CN115936099A (zh) | 一种神经网络的权重压缩和集成标准的剪枝方法 | |
CN114372565A (zh) | 一种用于边缘设备的目标检测网络压缩方法 | |
CN113033804B (zh) | 一种面向遥感图像的卷积神经网络压缩方法 | |
CN115660066A (zh) | 一种基于分布差异的卷积神经网络剪枝方法 | |
CN113157453B (zh) | 一种基于任务复杂度的高能效目标检测任务动态调度方法 | |
CN112200275B (zh) | 人工神经网络的量化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |