CN106779075A

CN106779075A - 一种计算机中采用剪枝方法改进的神经网络

Info

Publication number: CN106779075A
Application number: CN201710083101.3A
Authority: CN
Inventors: 黄书剑; 窦子轶; 戴新宇; 陈家骏; 张建兵
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2017-05-31

Abstract

本发明公开了一种计算机中采用剪枝方法改进的神经网络，包括：对于预训练完毕的神经网络，从网络参数中构造出若干项集，根据项集的重要性，利用改进的近似Apriori算法进行频繁项集挖掘得出重要项集的集合，由得到的项集构造出剪枝后的神经网络，最后对剪枝后的神经网络重新训练得到最终的结果。

Description

一种计算机中采用剪枝方法改进的神经网络

技术领域

本发明涉及一种计算机中对神经网络的剪枝方法，特别是一种计算机中采用剪枝方法改进的神经网络。

背景技术

神经网络是近期的机器学习研究热点，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠***的复杂程度，通过调整内部大量结点之间相互连接的关系，从而达到处理信息的目的。其功能之一是可以自动学习原始特征的组合关系。这种组合关系往往会有益于进行分类或预测(如判断当前图像是否为猫，当前语音信号是否为给定单词等)。然而，虽然传统的神经网络功能强大，但是大型的神经网络***会消耗大量的内存以及计算资源。另外，由于参数过多，我们很容易在参数学习中停滞在局部最优解。鉴于此，有学者希望研究如何利用关联分析的方法限制神经网络结构，降低网络中的参数数量，从而减小陷入局部最优解的可能性，达到提高学习效率和性能的目的。研究的内容分为关联分析以及应用分析结果限制神经网络结构。

与之相应的，深度学习的在各种场景中的应用已经越来越广泛，从图像识别领域、语音识别领域到机器翻译领域，深度学习无处不在。然而，为了得到较好的效果，越来越多的人开始使用更复杂的神经网络，所用的参数数量可以达到几百万甚至几十亿，会带来巨大的计算和内存消耗，所以，需要减小参数数量，从而达到提高运行效率的目的。

最常用的对神经网络的剪枝方法为权衰减法以及灵敏度计算方法。其中，权衰减法属于正则化方法，通过在网络目标函数中引入表示结构复杂性的正则化项来达到减低网络结构复杂性的目的。由于正则化项的剪枝特性，训练过程中一些冗余的连接权将衰减到零，从而达到剪枝的目的。灵敏度计算方法是指在网络进行训练时，或在网络训练结束后，计算结点或连接权对网络误差的贡献，删除那些贡献最小的结点或权。另外，还有最简单的、直接将边权重小于一定阈值的边删去的方法，以及在这个基础上继续增加正则化项的方法。

发明内容

为了得到较好的效果，越来越多复杂的神经网络被用于解决文本、图像等领域的问题。网络的参数数量可以达到几百万甚至几十亿。这样虽然可能会得到令人满意的结果，但是同时会带来巨大的计算和内存消耗。当将神经网络迁移到手机等移动设备上时，常常面临移动设备的有限内存和计算资源方面的限制。为此，减小参数数量有可能达到提高运行效率、使神经网络能够运用到移动端设备上的目的。

为了解决上述技术问题，也就是压缩神经网络，本发明公开了一种利用改进的实用频繁项集挖掘的方法解决神经网络剪枝问题的方法，将神经网络的剪枝问题转化为频繁项集挖掘的问题，包括，从现有的网络参数中构造项集，定义一个项集的重要性指标，以改进的Apriori近似算法进行重要项集搜索，并从重要项集集合重新构建神经网络等。

本发明包括如下步骤：

步骤1，用户输入已训练的神经网络的网络结构和网络参数等信息，通过输入的神经网络的结构及其参数构造项集集合；

步骤2，利用步骤1得到的项集集合对神经网络进行剪枝，即删去结点与结点之间冗余的连接，增强网络的稀疏性；

步骤3，对于剪枝后的神经网络进行重新训练，得到输出神经网络的参数，确保能够让输出的神经网络有更好的效果。

其中，步骤1中所述神经网络包括至少两层的两个以上结点，所述层的第一层是输入层，最后一层是输出层，输出层的结点形成用于提供输出数据的输出信道，所述输出数据是处理输入数据的结果，在输入层的结点和输出层的结点之间提供连接，输出层的各结点将从输入层接收的输入数据变换成输出数据。

本发明步骤1包括如下步骤：

步骤1-1，输入已训练好的神经网络的网络结构及其参数，参数包括剪枝的阈值、训练的样本集合、神经网络的层数、层与层之间结点的连接情况、结点与结点的连接权重，以及各层的数据变换函数，层与层之间结点的连接情况用0-1矩阵表示；

步骤1-2，利用神经网络的网络结构及其参数构造出项集集合，以便于进行重要项集挖掘。

本发明步骤1-2包括如下步骤：

步骤1-2-1，计算神经网络中每一层的情况，对于每层的输出结点，取出与其相连的输入结点作为一组，其中每个输入结点从数字1开始赋予数字，作为输入结点的关键字，将关键字集合加入项集集合中。

步骤1-2-2，计算项集集合中的每一个项集的每一项，若是其与输出结点的连接权重小于用户输入的阈值，则删除这一项。

本发明步骤2包括如下步骤：

步骤2-1，对步骤1得到的项集集合利用改进的Apriori算法进行重要项集挖掘；

步骤2-2，通过重要项集集合构造出剪枝后的神经网络，得到输出神经网络的结构。

本发明步骤2-1包括如下步骤：

步骤2-1-1，对项集S的重要性Importance(S)定义进行如下定义：

Importance()＝Suppourt(S)+λ×e^length(S)/n，

其中，Support(S)表示项集S的支持度，length(S)表示项集S的长度，即项集S的元素个数，n表示该层神经网络结点的总个数，λ为输入的超参数，当给定项集集合T后，项集S的支持度Support(S)定义如下：

其中T为项集集合，t为项集集合T中项集，X为项集t中子集，根据上述定义计算步骤1中得到的项集集合中各个项集的重要性；

步骤2-1-2，在步骤1得到的项集上利用贪心算法进行探索，从步骤1中的项集出发，依次探查项集长度比各个项集少一的各个项集的子集，若是其重要性大于原项集，则用该项集替代原项集，直到所有项集长度少一的项集子集的重要性都大于或者等于原项集为止，依次查找得到重要项集集合。

本发明步骤2-2包括如下步骤：

步骤2-2-1，对步骤2-1得到的重要项集集合进行转换，使每个项集变为结点与结点之间的0-1数组，其中当且仅当第i个项集中含有第j个输入节点的关键字j时，连接数组中第i个数组的第j个元素为1；当且仅当第i个项集中不含有第j个输入节点的关键字j时，连接数组中第i个数组的第j个元素为0；

步骤2-2-2，对于步骤2-2-1的若干0-1数组进行拼接组合，使得0-1数组拼接成表示层中输入结点与输出结点的0-1连接矩阵。其中，当且仅当第i个输入节点与第j个输出节点相连时，0-1连接矩阵的第i行第j列的元素为1；当且仅当第i个输入节点与第j个输出节点没有边相连时，0-1连接矩阵中第i行第j列的元素为0。

本发明步骤3包括如下步骤：

步骤3-1，对于用户输入的训练样本集合，利用步骤1输入的参数对剪枝后的神经网络结构及其参数，利用反向传播算法，计算各个参数对于损失函数的导数，反向传播算法为神经网络中的经典算法；

步骤3-2，运用步骤3-1得到的导数对各个参数进行修正，直到每一个参数收敛为止，得到的参数即为输出神经网络的参数。

有益效果：发明的创新点在于将对于神经网络的剪枝问题转化成频繁项集挖掘的问题，对项集定义了重要性表示，并提出了一个Apriori算法的实用近似算法。本发明从整体上达到了对神经网络进行剪枝的目的；仅在一次剪枝后，就可以得到令人满意的压缩率，得到的神经网络具有更强的稀疏性。剪枝后的神经网络所需要的存储空间和计算资源大大降低，更加符合向移动设备上迁移的应用趋势和要求。。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明的流程图。

图2为实施例2的输入。

图3为实施例2输出结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明涉及一种计算机中采用剪枝方法改进的神经网络，特别是一种对深层神经网络的压缩，能够大大的减少神经网络的参数数量，从而能够达到缩减神经网络的存储空间以及计算资源的目的，使其能运用在移动设备上。

如图1所示，本发明公开了一种对神经网络的剪枝方法，特别是一种对深层神经网络的压缩，能够大大的减少神经网络的参数数量，本发明包括如下步骤：

本发明步骤1包括如下步骤：

本发明步骤1-2包括如下步骤：

本发明步骤2包括如下步骤：

本发明步骤2-1包括如下步骤：

步骤2-1-1，对项集S的重要性Importance(S)定义进行如下定义：

Importance(S)＝Suppourt(S)+λ×e^length(S)/n，

其中T为项集集合，t为T中项集，X为t中子集。根据上述定义计算步骤1中得到的项集集合中各个项集的重要性；

本发明步骤2-2包括如下步骤：

本发明步骤3包括如下步骤：

步骤3-1，对于用户给定的训练样本集合，利用用户在步骤1输入的参数对剪枝后的神经网络结构及其参数，利用反向传播算法，计算各个参数对于损失函数的导数，其中反向传播算法为神经网络中的经典算法；

实施例1

本实施例利用重要项集挖掘对神经网络剪枝运行过程如下所示：

1.输入待剪枝的神经网络，神经网络共有两层，输入层有四个结点，第二层有五个结点，输出层有一个结点。

2.对第一层四乘五的网络层进行剪枝，第一层神经网络的输入权重矩阵如下表1：

表1

0.82	-0.13	0.01	0.04	-0.23
					0.31	-0.81	0.24	0.13	0.12
0.23	0.24	0.43	-0.12	-0.12
					0.13	0.41	0.51	0.15	-0.43

3.根据步骤1，首先构造出神经网络的项集，先对权值取绝对值，再对每一层取权值大于阈值0.2的结点，如下表2所示：

表2

1	0	0	0	1
					1	1	1	0	0
1	1	1	0	0
					0	1	1	0	1

4.根据步骤12，构造出项集{1,5},{1,2,3},{1,2,3},{2,3,5}

5.根据步骤21，计算各个项集的重要性，用贪心的算法得出重要性最大的4个项集，在这里，取λ＝0.01。结果为{1},{2,3},{2,3},{2,3}。

6.根据步骤22，得出最后的神经网络，网络的连接矩阵如表3所示：

表3

1	0	0	0	0
					0	1	1	0	0
0	1	1	0	0
					0	1	1	0	0

其中，第i行第j列为1当且仅当第i个输入结点与第j个输出结点相连。

7.根据步骤3，重新训练神经网络，得到最后的权重矩阵如表4所示：

表4

1.02	0	0	0	0
					0	-0.65	0.34	0	0
0	0.36	0.56	0	0
					0	0.79	0.89	0	0

实施例2

本实施例利用重要项集挖掘对运用在自编码网络(Autoencoder)剪枝运行过程如下所示：

1、用户输入给定的自编码网络，其网络结构为784→128→64→128→784及训练样本集MNIST。自编码网络的作用是，将输入样本压缩到隐藏层，再在输出端重建样本。也就是说，自编码网络输出层与输入层存在如下关系：

自编码网络可以看做将数据进行压缩(由原来的“n-维”压缩成“m维”其中m为隐藏层神经元数目)，然后再在需要的时候用损失尽量小的方式将数据恢复出来。

2、对自编码网络进行剪枝，其剪枝的结果如下表5所示：

表5

其中第三行为本方法的结果，前四列为神经网络每层的压缩比率，第五列为神经网络总体的压缩比率，NMSE为度量自编码网络的度量值，第六列为剪枝前的神经网络质量，第七列为剪枝后的神经网络质量。可以看出来，本方法将神经网络缩减至原来的13.34％，并且神经网络的效果也有所提高。

3、对于如图2的输入，查看输出的结果，即图3，可以看出来，本方法可以利用原来13.34％的参数，得到质量较好地自编码网络。

实施例3

本实施利用重要项集挖掘对运用在剪枝手写数字识别运行过程如下所示：

1、用户输入给定的神经网络以及数据集，网络结构为784→300→100→10的全连接神经网络，数据集为手写数字数据集MNIST。用户的任务为识别图像中的数字。

2、对神经网络进行剪枝，其剪枝的结果如下表6：

表6

其中第三行为本方法的结果，前三列为神经网络每层的压缩比率，第四列为神经网络总体的压缩比率，Accuracy为识别的准确率，第五列为剪枝前的准确率，第六列为剪枝后(prune)的准确率。可以看出来，本方法将神经网络缩减至原来的7.76％，并且手写数字识别的准确率也有所提高。

本发明提供了一种计算机中采用剪枝方法改进的神经网络，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种计算机中采用剪枝方法改进的神经网络，其特征在于，包括如下步骤：

步骤1，输入已训练的神经网络的网络结构和参数，构造项集集合；

步骤2，利用项集集合对神经网络进行剪枝，删去结点与结点之间冗余的连接；

步骤3，对于剪枝后的神经网络重新训练，得到输出神经网络的参数。

2.根据权利要求1所述的方法，其特征在于，步骤1中所述神经网络包括至少两层的两个以上结点，所述层的第一层是输入层，最后一层是输出层，输出层的结点形成用于提供输出数据的输出信道，所述输出数据是处理输入数据的结果，在输入层的结点和输出层的结点之间提供连接，输出层的各结点将从输入层接收的输入数据变换成输出数据。

3.根据权利要求2所述的方法，其特征在于，步骤1包括如下步骤：

步骤1-2，利用神经网络的网络结构及其参数构造出项集集合。

4.根据权利要求3所述的方法，其特征在于，步骤1-2包括如下步骤：

步骤1-2-1，计算神经网络中每一层的情况，对于每层的输出结点，取出与其相连的输入结点作为一组，其中每个输入结点从数字1开始赋予数字，作为输入结点的关键字，将关键字集合加入项集集合中；

5.根据权利要求4所述的方法，其特征在于，步骤2包括如下步骤：

步骤2-1，对步骤1得到的项集集合利用改进的Apriori算法进行重要项集挖掘，得到重要项集集合；

6.根据权利要求5所述的方法，其特征在于，步骤2-1包括：

步骤2-1-1，对项集S的重要性Importance(S)定义进行如下定义：

Importance(S)＝Support(S)+λ×e^length(S)/n，

S u p p o r t (S) = \frac{| {t &Element; T; X &SubsetEqual; t} |}{| T |},

7.根据权利要求6所述的方法，其特征在于，步骤2-2包括：

步骤2-2-2，对步骤2-2-1中所述的0-1数组进行拼接组合，使得0-1数组拼接成表示层中输入结点与输出结点的0-1连接矩阵，其中，当且仅当第i个输入节点与第j个输出节点相连时，0-1连接矩阵的第i行第j列的元素为1；当且仅当第i个输入节点与第j个输出节点没有边相连时，0-1连接矩阵中第i行第j列的元素为0。

8.根据权利要求7所述的方法，其特征在于，步骤3包括：

步骤3-1，对于用户输入的训练样本集合，利用步骤1输入的参数对剪枝后的神经网络结构及其参数，利用反向传播算法，计算各个参数对于损失函数的导数；