CN110097177B

CN110097177B - 一种基于伪孪生网络的网络剪枝方法

Info

Publication number: CN110097177B
Application number: CN201910400920.5A
Authority: CN
Inventors: 闵锐; 蓝海
Original assignee: Electric Coreda Chengdu Technology Co ltd
Current assignee: Aegis Defense Technology Chengdu Co ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2022-11-29
Anticipated expiration: 2039-05-15
Also published as: CN110097177A

Abstract

本发明属于神经网络模型压缩技术领域，具体为一种基于伪孪生网络的网络剪枝方法。本发明在传统的三值神经网络的基础上，提出了一种通用的裁剪大型卷积神经网络中冗余连接的方法，具体为：构造一个与被裁减网络N一样架构的三值网络Ternary‑N，用相同的图片进行每一步的训练，训练过程中采用知识蒸馏算法，训练完成后用Ternary‑N中的权值对N中相对应位置的权重进行裁剪，最后对N进行微调，微调后的网络连接数相比于原网络大大减少。

Description

一种基于伪孪生网络的网络剪枝方法

技术领域

本发明属于神经网络模型压缩技术领域，涉及一种基于伪孪生网络的网络剪枝方法。

背景技术

在人工智能发展迅猛的背景下，神经网络已经成为实现人工智能的关键技术。在众多神经网络中，卷积神经网络因其在图像分类、目标检测中优秀的表现而成为人们研究的热点。但是，因为现代卷积神经网络占用过多内存资源和计算资源，影响了其在资源受限的实时硬件***中的部署。所以，如何压缩卷积神经网络的模型规模和减少其计算量成为了在受限的实时硬件***中的部署人工智能技术的关键。

实现卷积神经网络的压缩需要来自许多学科的联合解决方案，包括但不限于机器学习，优化，计算机体系结构，数据压缩，索引和硬件设计。本文主要的关注在网络结方面的模型压缩方法，回顾近年来科研工作者在这方面所提出的切实可行的方法，我们可以将这些方法分为四类：参数修剪和共享，低秩分解，转移/紧凑型卷积滤波器和知识蒸馏。

非结构化剪枝是压缩卷积神经网络的模型规模和减少其计算量的重要方法，其通过裁剪卷积神经网络中的权重和连接来达到压缩和加速卷积神经网络的目的。

参数共享是通过让网络模型的权重共享相同的一个参数集，以达到模型压缩的目的。其中一种重要的方法是网络量化，其通过减少表示每个权重所需的比特数来压缩原始网络。有工作将k均值标量量化应用于参数值。也有学者表明，参数的8位量化可以导致显着的加速，并且精度损失最小。也有工作在基于随机舍入的CNN训练中使用了16位固定点表示，这显着降低了内存使用和浮点运算，而且分类精度几乎没有损失。在每个权重的1位表示的极端情况下，即二进制权重神经网络，还有许多工作直接训练具有二进制权重的CNN，例如，BinaryConnect，BinaryNet和XNORNetwork。

网络修剪是通过删除网络中不重要的连接或参数来达到压缩的目的。网络修剪早期方法是基于权重值的大小进行裁剪。有学者提出最佳脑损伤和最佳脑外科医生方法，其用基于损失函数Hessian的裁剪法来减少连接数，实验表明这种修剪比基于重量的修剪(例如重量衰减方法)提供更高的准确性。网络修剪的最新趋势一是在预训练的CNN模型中修剪冗余的非信息量权重，二是基于无数据修剪方法来去除冗余神经元。但是现行的剪枝技术在剪枝率和精度保持方面仍具有较大的问题。

发明内容

本发明的目的是针对上述问题，提出一种基于伪孪生网络的网络剪枝方法。

本发明的技术方案是：

1)读取被剪枝网络的网络结构，然后构造一个与被剪枝32bit网络相同的，但是其网络权重都为三值,激活函数为32bit的网络，即该网络的权重参数W∈{-1,0,1}，这个三值网络被称为伪孪生网络。

2)以目标数据集作为网络的输入，以网络输出向量和目标的真实向量交叉熵作为损失函数，采用传统的随机梯度下降法对被剪枝网络参数进行更新。然后孪生网络采用知识蒸馏的方法进行训练。知识蒸馏中，设被剪枝网络的输出为T(i)，孪生网络的输出为S(i)。目标的真实分布为L(i).被剪枝网络网络的代价函数L_t：

孪生网络的代价函数L_s：

图示见附图1；

3)训练算法主要包括以下三个步骤，图示见附图2：

一、对图像进行简单的预处理，包括归一化和调整大小；

循环：

二、将训练图像输入被剪枝网络，用被剪枝网络输出L_t更新教师网络的权重。

三、将步骤b中的相同训练图像放入孪生网络中，以L_s更新孪生网络中的三元权重。

当L_t和L_s都小于0.01的时候循环结束，保存被剪枝网络和孪生网络的权值；

4)以孪生网络为模板，对被剪枝网络进行裁剪，具体做法为将被剪枝网络的卷积核的绝对值和孪生网络中的卷积核相乘得到一个新的卷积核，裁剪这个新的卷积核中权值为0的部分，并用裁剪后的新的卷积核替代被剪枝网络中的卷积核。图示见附图3；

5)对裁剪后的网络进行进一步训练以微调其中的参数。其微调方法分为两种：

一：保留原网络遗留下的参数，微调三值网络的参数。图示见附图4。

二、保留三值网络遗留下的参数，微调原网络的参数。图示见附图5。

微调后的被剪枝网络即为裁剪后的网络。

本发明的有益效果为，被剪枝网络的精度不会明显下降，且剪枝速度快。

附图说明

图1为教师和学生网络代价函数的计算；

图2为教师和学生网络的训练过程；

图3为以学生网络为模板对教师网络进行剪枝过程中一个示例；

图4为微调方式的一个示例；

图5为微调方式的另一个示例。

具体实施方式

以Le-Net网络和MNIST数据集为例：

MNIST数据集由手写数字图像组成，训练集有55000个样本，测试集有10000个样本，同时验证集有5000个样本，每一个样本都有它对应的标注信息，即label。所有数字图像都经过尺寸标准化，并集中在28x 28像素的固定尺寸图像中。在原始数据集中，图像的每个像素由0到255之间的值表示，其中0为黑色，255为白色，介于两者之间的任何内容都是不同的灰色阴影。

Le-Net是1986年提出的一种用于识别手写字符的卷积神经网络，拥有3层卷积层，两层池化层，和一层全连接层和输出层。用我们的方法对其进行裁剪后的结果如下：

表1和表2是微调方式一的结果，表3和表4是微调方式二的结果：

表1

网络层	参数量	剪枝率
			Conv1	150	0.413
Conv2	2400	0.467
			Conv3	48000	0.528
FC1	10080	0.401
			FC2	840	0.407
Total	61470	0.503

表2

模型名	错误率
		LeNet	1.39％
三值值的LeNet	1.97％
		裁剪后的LeNet	1.49％

以下是保持三值网络不变：

表3

网络层	参数量	剪枝率
			Conv1	150	0.405
Conv2	2400	0.201
			Conv3	48000	0.413
FC1	10080	0.436
			FC2	840	0.423
Total	61470	0.408

表4

模型名	错误率
		LeNet	1.39％
三值的LeNet	1.97％
		裁剪后的LeNet	1.37％

从表中可以看出，Le-Net被剪去了约40％的冗余连接，并且错误率还下降了。这证明了本发明方法的可行性。

以AlexNet网络和Cifar-10数据集为例：

Cifar-10数据集共有60000张彩色图像，这些图像是32*32，分为10个类，每类6000张图。这里面有50000张用于训练，构成了5个训练批，每一批10000张图；另外10000用于测试，单独构成一批。测试批的数据里，取自10类中的每一类，每一类随机取1000张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同，总的来看训练批，每一类都有5000张图。

AlexNet网络设计2012提出的一种用于图像识别的网络，拥有5层全卷积层和三层全连接层。用我们的方法对其进行裁剪后的结果如下：

表5和表6是微调方式一的结果，表7和表8是微调方式二的结果：

表5

表6

Model	Error Rate
		AlexNet	0.232
Ternary AlexNet	0.253
		Pruned AlexNet	0.181

表7

Layer	Params	Compression Rate
			Conv1	4800	40.4％
Conv2	153600	39.4％
			Conv3	110592	40.5％
Conv4	147456	41.2％
			Conv5	147456	40.0％
Fc1	4718592	58.0％
			Fc2	16777216	62.6％
Fc3	40960	51.2％
			Total	22100672	62.0％

表8

从表中可以看出，AlexNet被剪去了约62％的冗余连接，并且错误率下降了3.4％，这也证明了我们的方法的可行性。