CN107784361B

CN107784361B - 一种神经网络优化的图像识别方法

Info

Publication number: CN107784361B
Application number: CN201711156691.4A
Authority: CN
Inventors: 林宙辰; 方聪
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2020-06-26
Anticipated expiration: 2037-11-20
Also published as: CN107784361A

Abstract

本发明公布了一种神经网络优化方法，称为提升邻近算子机LPOM，涉及深度学习技术领域。本发明方法不需要使用现有的一阶或者二阶导数信息直接优化神经网络，而是将神经网络转化为新的LPOM优化问题，再通过交替极小化方法求解LPOM优化问题。采用本发明方法，求解过程消除了神经网络的层状结构；可通过交替迭代法进行求解；求解方法可在一定程度上转化为随机算法，使得迭代时保持较小的计算量；对于超过20层的神经网络，采用本发明方法仍能够使得训练误差稳定地下降。

Description

一种神经网络优化的图像识别方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种新的神经网络优化方法，命名为提升邻近算子机(Lifted Proximal Operator Machine，LPOM)。该方法将神经网络的优化问题转化为一个新的优化问题进行求解，该转化成的待求的优化问题的Karush–Kuhn–Tucker(KKT)条件与神经网络前向过程等价。

背景技术

近年来，深度神经网络在人工智能、图像识别、语音识别领域取得了巨大成功。相比于浅层的神经网络，深度的神经网络往往有着更多的模型参数与更大的容量，在数据量较大的情况下能取得更好的效果。然而求解神经网络的优化问题是一个典型的非凸优化问题，随着神经网络层数的增加，训练神经网络也变得更加困难。目前，训练神经网络的方法大致分为三类：

第一类：最主流优化神经网络的方法是一些一阶随机算法，例如，随机梯度下降法(Stochastic Gradient Descent)、文献[1]记载的Adagrad、文献[2]记载的Adadelta、文献[3]记载的RMSprop[3]，以及文献[4]记载的Adam等。该类方法在迭代过程使用一个或者小批量的样本的梯度信息(或者预条件梯度信息)作为下降方向，梯度的计算过程通过反向传播算法计算获得。该类方法主要有如下两个优势：一是该类方法在迭代过程中，每次使用几个样本的梯度来估计整体样本的梯度，减小了每步迭代的计算量(从O(n)减小到O(1))；二是由于在迭代过程中，使用的下降方向带有一定的噪声，这类随机方法往往可以避开一些不好的关键点，文献[5]证明了在一定条件下，随机梯度下降法可以避开一阶鞍点。然而，随着神经网络层数的增加，该类方法也展现出了一些局限性。对于深层的神经网络，该类方法容易出现难收敛或者收敛较慢的现象。例如，当神经网络的激活函数是Sigmoid函数时，梯度在反向传播过程中会出现湮灭现象。故在实际使用这类一阶随机算法时，经常需要使用一些工程技巧来辅助优化，例如：随机权重初始化、文献[6]记载的冲量(momentum)、文献[7]记载的梯度归一化、文献[8]记载的dropout、权重延迟等。

另一类优化神经网络的方法是一些近似的二阶方法，其中比较典型的方法有文献[9]记载的Hessian Free、文献[10]记载的自然梯度法(Nature Gradient)和文献[11]记载的K-FAC。该类方法由于使用了更高阶的信息去优化神经网络，在训练一些特定问题中，训练误差能够低于一阶随机算法。但在实际过程中，这类算法由于使用了更高阶的信息，很难转化为随机算法，所以算法的计算成本较大，收敛速度较慢。

第三类优化神经网络的方法是采用文献[12]～[13]记载的ADMM方法。使用ADMM方法优化神经网络有如下优势：一是算法不需要使用反向传播算法去获得梯度信息，故不会出现梯度***或者湮灭现象；二是ADMM算法很容易大规模并行(分布式)实现。然而，在实践中，ADMM往往只能求解浅层的神经网络(大约4层)。对于深层的神经网络，ADMM方法的收敛速度将十分缓慢。

参考文献：

[1]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for onlinelearning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(Jul):2121-2159.

[2]Zeiler M D.ADADELTA:an adaptive learning rate method[J].arXivpreprint arXiv:1212.5701, 2012.

[3]Dauphin Y,de Vries H,Bengio Y.Equilibrated adaptive learning ratesfor non-convex optimization[C]//Advances in Neural Information ProcessingSystems.2015:1504-1512.

[4]Kingma D,Ba J.Adam:A method for stochastic optimization[J].arXivpreprint arXiv:1412.6980,2014.

[5]Ge R,Huang F,Jin C,et al.Escaping From Saddle Points-OnlineStochastic Gradient for Tensor Decomposition[C]//Conference On LearningTheory.2015:797-842.

[6]Sutskever I,Martens J,Dahl G,et al.On the importance ofinitialization and momentum in deep learning[C]//International conference onmachine learning.2013:1139-1147.

[7]Pascanu R,Mikolov T,Bengio Y.On the difficulty of trainingrecurrent neural networks[C] //International conference on machine learning(3),2013,28:1310-1318.

[8]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A simple way toprevent neural networks from overfitting[J].The Journal of Machine LearningResearch,2014,15(1):1929-1958.

[9]Martens J.Deep learning via Hessian-free optimization[C]//International Conference on Machine Learning.2010:735-742.

[10]Pascanu R,Bengio Y.Revisiting natural gradient for deep networks[J].arXiv preprint arXiv:1301.3584,2013.

[11]Martens J,Grosse R.Optimizing neural networks with Kronecker-factored approximate curvature[C]//International Conference on MachineLearning.2015:2408-2417.

[12]Taylor G,Burmeister R,Xu Z,et al.Training neural networks withoutgradients:A scalable ADMM approach[C]//International Conference on MachineLearning.2016.

[13]Zhang Z,Chen Y,Saligrama V.Supervised hashing with deep neuralnetworks[C]//Computer Vision and Pattern Recognition.2015.

发明内容

为了克服上述现有技术的不足，本发明提供一种新优化神经网络方法，称为提升邻近算子机(LPOM)；该方法不直接使用神经网络的一阶或者二阶导数信息优化神经网络，而是通过临近算子将神经网络的优化问题转化为一个新的优化问题(称为LPOM问题)；针对这个新的LPOM优化问题，采用交替极小化方法优化求解。对于超过20层的神经网络，现有方法(例如随机梯度下降法)收敛十分缓慢；而采用本发明提出的LPOM方法，训练误差能够稳定的下降。

本发明提供的技术方案是：

一种神经网络优化方法，称为提升邻近算子机(LPOM)，不使用现有的一阶或者二阶导数信息直接优化神经网络，而将神经网络转化为一个新的优化问题(LPOM问题)，再通过交替极小化方法优化LPOM问题；包括如下步骤：

1)将神经网络的前向过程转化为一个新的优化问题(LPOM问题)；

文献[14](Parikh N,Boyd S.Proximal algorithms[J].Foundations and

in Optimization,2014,1(3):127-239.)记载的临近算子是一类最小化问题，该类最小化问题的特点是其最优解满足一个等式约束。而神经网络的前向过程实质是一个等式约束；本发明利用临近算子的这个特点将神经网络的前向过程转化为一个最小化问题，即LPOM问题；具体地：

将神经网络的前向过程描述成式1：

s.t.Xⁱ＝φ(W^i-1X^i-1)，i＝2,3,…,n，

其中，

分别为样本的数据和标签,n₁为输入训练样本特征的维度，m为训练样本个数，c为类别数，n为神经网络层数,

为神经网络参数，Xⁱ(i>1) 为神经网络第i层的输出，φ(X)为神经网络激活函数(常用激活函数包括sigmoid函数，tanh 函数，ReLU函数)，L(X,T)为目标损失函数。

LPOM方法的核心是：将式1中的等式约束转化为一个最小化问题。

为方便起见，假设φ(x)是单元函数，φ(X)表示对矩阵X的每个元素做φ(·)的映射。同时，假设φ(x)为单调可导函数(常用的激活函数sigmoid，tanh函数满足该性质)。用φ^-1(x)表示φ(x)的反函数。

文献[14]记载的一维临近算子，表示如式2：

其中，x、y为任意变量；式2中的临近算子恰好可将等式问题转化成为一个优化问题。

例如，要使式5所表示的极小化问题：

解为

则可以定义f(x)为：

f(x)=∫(φ^-1(x)-x)dx。 (式6)

我们利用这个特性，将式5运用到神经网络(即式1)中，同时为了更好的转化问题，同时定义：

g(x)＝∫(φ(x)-x)dx， (式7)

，为了方便，我们用函数g(X)表示矩阵X的每个元素做g(x)的映射。

由于一维临近算子可将等式问题转化成为一个优化问题，可将神经网络的优化问题(式 1)转化为式8表示的LPOM问题：

式8中参数含义同式1，

为神经网络参数，Xⁱ(i>1)为神经网络第i层的输出，L(X,T)为目标损失函数，f(X)，g(X)分别按照式6、式7定义，μ_i是引入的罚因子。

对式8中

求导，可以得出：

μ_i(φ^-1(Xⁱ)-W^i-1X^i-1)+μ_i+1W^iT(φ(WⁱXⁱ)-Wⁱ⁺¹)＝0，2≤i<n (式9)

式9中参数的定义同式1，Xⁱ(i>1)为神经网络第i层的输出，φ(X)为神经网络激活函数。

对比神经网络的前向过程Xⁱ＝φ(W^i-1X^i-1),可发现其前向过程满足式9。

2)求解LPOM；

本发明采用交替极小化

与

求解式8；具体包括：

21)求解

求解

时，首先固定

可将式8改写成式10：

s.t.Xⁱ＝Zⁱ,i=2,3,…,n,

Yⁱ=W^i-1X^i-1,i=2,3,…,n，

在式10中，我们引用了两个中间变量，分别用Zⁱ与Yⁱ(i＝2,3,…,n)，其余符号定义与式 8相同。

式10的增广拉格朗日函数为式11：

其中，μ_i(i＝2,3,…,n)为罚因子,

和

(i＝2,3,…,n)为乘子。

本发明采用文献[15](Lin Z,Liu R,Su Z.Linearized alternating directionmethod with adaptive penalty for low-rank representation[C]//Advances inneural information processing systems.2011:612-620.)记载的ADMM求解式11。首先考虑优化

当i＝n时，有式12：

若选择L(X，T)为简单的平方损失函数，即

则表示为式13：

当2≤i≤n-1,改写式11中

的极小化问题为式14：

所以，Xⁱ的解为式15：

其中，I为对应大小的单位矩阵。矩阵求逆运算可在迭代计算

之前求出，在迭代过程中不需要重复计算。

式11中

的极小化问题表示为式16：

由于该问题不存在闭解，采用梯度下降求解，表示为式17：

其中，L₁为

的利普希茨常数。

对于

的极小化问题，直接有解表示为式18：

最后，更新乘子：

通过上述过程，即完成求解

22)求解

求解

首先固定

的极小化问题表示为式21：

式21符号表示同式11。

我们采用式22的梯度下降法求解：

Wⁱ＝Wⁱ-γ(φ(WⁱXⁱ)-Xⁱ⁺¹)(Xⁱ)^T，i=1,2,3,…,n-1 (式22)

其中，γ为步长。

23)在优化过程中，为了减小每步迭代的计算量，可先选择一小批样本求出

而后对

采用随机梯度下降法进行优化。

通过上述提升邻近算子机(LPOM)的优化神经网络方法，不需要使用神经网络的一阶或者二阶导数信息直接优化神经网络，而将神经网络转化为一个新的优化问题(LPOM问题)，再求解LPOM问题，从而达到优化神经网络的目的。采用本发明LPOM方法，能够使得神经网络的训练误差稳定下降。

与现有技术相比，本发明的有益效果是：

本文提出了一种新的优化神经网络算法：提升邻近算子机(LPOM)，该方法将神经网络的优化问题转化为一个新的优化问题LPOM，在求解LPOM时有如下技术优势：

(一)求解过程消除了神经网络的层状结构，故梯度不存在湮灭问题；

(二)LPOM可以较好的通过交替迭代法进行求解；

(三)求解方法可以在一定程度上转化为随机算法，使得迭代时保持较小的计算量。

LPOM在标准数据集进行了实验，对于超过20层的神经网络，采用传统的优化方法如随机梯度下降法则较慢收敛，而采用本发明提出的LPOM方法，能够使得训练误差稳定地下降，从而提高训练效率。

附图说明

图1为本发明提出的LPOM优化算法的流程框图。

图2为本发明具体实施中ADMM算法求解

的流程框图。

图3为本发明具体实施中使用随机梯度下降求解

的流程框图。

图4为本发明实施例中18个隐层的神经网络训练过程中训练误差相对于算法迭代次数的曲线。

图5为本发明实施例中19个隐层的神经网络训练过程中训练误差相对于算法迭代次数的曲线。

图6为本发明实施例中20个隐层的神经网络训练过程中训练误差相对于算法迭代次数的曲线。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种优化神经网络方法，称为提升邻近算子机(LPOM)，不需要使用现有的一阶或者二阶导数信息直接优化神经网络，而是将神经网络转化为一个新的优化问题。对于超过20层的神经网络，现有方法如随机梯度下降法较慢收敛；而采用本发明LPOM方法，训练误差能够稳定的下降。

图1为本发明LPOM方法的流程框图；包括如下步骤：

(一)在LPOM方法中，神经网络的前向过程可以描述成式1：

s.t.Xⁱ＝φ(W^i-1X^i-1)，i＝2,3,…,n，

其中，

为方便起见，我们假设φ(x)是单元函数，φ(X)表示对矩阵X的每个元素做φ(·)的映射。我们同时假设φ(x)为单调可导函数(常用的激活函数sigmoid，tanh函数满足该性质)。我们用φ^-1(x)表示φ(x)的反函数。

我们考虑一维临近算子(文献[14])：

如前所述，LPOM方法的主要思想是将(1)式中的等式约束转化为一个最小化问题。观察式2，可以发现临近算子恰好可将等式问题转化成为一个优化问题。例如，要使得：

Prox_f(y)＝φ(y)， (式3)

则可以定义f(x)为：

f(x)＝∫(φ^-1(x)-x)dx。 (式4)

类似地，函数f(X)表示矩阵X的每个元素做f(x)的映射。可以发现，对于极小化问题：

的KKT条件满足：

φ^-1(X)＝Y。 (式6)

为了更好的转化我们的问题，我们同时定义

g(x)=∫(φ(x)-x)dx， (式7)

函数g(X)表示矩阵X的每个元素做g(x)的映射。运用这个技巧，可将神经网络的优化问题转化 (式1)转化为如下问题(LPOM)：

其中同式1，

为神经网络参数，Xⁱ(i>1)为神经网络第i层的输出，L(X,T)为目标损失函数，f(X)，g(X)分别按照式6，式7 定义。

对式8中

求导，可以得出：

μ_i(φ^-1(Xⁱ)-W^i-1X^i-1)+μ_i+1W^iT(φ(WⁱXⁱ)-Wⁱ⁺¹)＝0，2≤i<n。 (式9)

(二)求解LPOM：

具体实施中，我们采用交替极小化

与

求解式8，整个算法展示在算法1中。

1.求解

图2为本发明具体实施中ADMM算法求解

的流程框图。求解

时，首先固定

可将式(8)改写成：

s.t.Xⁱ＝Zⁱ,i＝2,3,…,n,

Yⁱ＝W^i-1X^i-1,i＝2,3,…,n。

在式10中，我们引用了两个中间变量，分别用Zⁱ与Yⁱ(i＝2,3,…,n)，其余符号定义与式8相同。

式10的增广拉格朗日函数为：

其中，μ_i(i=2,3,…,n)为罚因子,

和

(i=2,3,…,n)为乘子。

我们采用ADMM求解式11。首先我们考虑优化

当i=n时，我们有：

若L(X，T)选择简单的平方损失函数，即

有：

当2≤i≤n-1,改写式11中

的极小化问题，我们有：

所以Xⁱ的解为：

其中I为对应大小的单位矩阵。矩阵求逆运算可在迭代计算

之前求出，在迭代过程中不需要重复计算。

式11中

的极小化问题为：

由于该问题不存在闭解，我们采用梯度下降求解：

其中L₁为

的利普希茨常数。对于

的极小化问题，我们直接有解：

最后，我们更新乘子：

2.求解

图3为本发明具体实施中使用随机梯度下降求解

的流程框图。

求解

首先固定

的极小化问题为：

式21符号表示同式11。

采用梯度下降法求解：

Wⁱ=Wⁱ-γ(φ(WⁱXⁱ)-Xⁱ⁺¹)(Xⁱ)^T，i＝2,3,…,n， (式22)

其中γ为步长。

3.小批量样本处理。

在实际优化过程中，为了减小每步迭代的计算量，可以首先选择一小批样本求出

而后对

采用随机梯度下降优化。

整个LPOM优化神经网络具体计算过程可见以下算法伪代码：

以下实施例采用文献[16](LeCun Y,Bottou L,Bengio Y,et al.Gradient-basedlearning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.)记载的标准数据集MNIST进行了具体实施。MNIST数据集是一个由10个类的手写数字数据集。该数据集有60000张训练图片，10000张测试图片。每张图片为28×28像素的灰度图像。在实施中，我们使用sigmoid函数

作为神经网络的激活函数。我们将LPOM方法与随机梯度下降方法进行比较。

实施例一：浅层网络

针对一个三层(n＝3)的神经网络，神经网络隐层的单元数为300，采用LPOM算法，我们设置超参数μ_i＝2^i-n，K₁＝600，K₂＝100，m₁＝1000，b=100。

直接对比最终的识别率结果。当我们采用LPOM算法优化神经网络时，最终的识别率为95.6％。而当采用随机梯度下降方法优化问题时，最终的识别结果为95.3％(该结果直接从 MNIST官方网站http://yann.lecun.com/exdb/mnist/上获得)。由此可以看出，LPOM方法在浅层的神经网络上能获得与随机梯度下降方法可比较的识别结果。

实施例二：深层网络

在深层的神经网络上采用本发明方法。我们设置神经网络的结构为

其中n-2为网络隐层个数，我们设置n-2为18，19，和20。对于LPOM算法，使用相同的超参数μ_i=2^i-n，K₁＝600，K₂＝100，m₁＝1000，b=100。对于随机梯度下降方法，我们搜索超参数满足：1)从0.001,0.005,0.01,0.05,0.1,0.5,1中搜索步长参数，2)从0,0.2,0.5, 0.9搜索冲量参数。对于LPOM算法以及SGD算法(随机梯度下降法)，使用文献[17](Glorot X,Bengio Y.Understanding the difficulty of training deepfeedforward neural networks[C]// Artificial Intelligence and Statistics.2010,9:249-256.)记载的初始化方法：参数

从

的均匀分布中获取，其中n_i和n_o为对应层的输入和输出维度。

图4、图5和图6分别表示训练过程中训练误差相对于算法迭代次数的曲线。可以看出对于随机梯度下降法，算法很难收敛，而对于LPOM方法，训练误差能够稳定的下降。

由于随机梯度下降方法不能够收敛，最终的识别率不能超多20％。而对于LPOM方法，识别率仍然分别能够达到82.1％，79.8％，和75.3％。

综上所述，本发明提出了一种新的优化神经网络的方法：提升邻近算子机(LPOM)。该方法将神经网络优化问题使用邻近算子转化为一个新问题。而该问题可以较方便的通过交替迭代法求解。实验证明LPOM优化20个隐层的神经网络时训练误差仍可以稳定的下降。故 LPOM对于优化深层的网络有更好的训练效率。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。