CN107292322A

CN107292322A - 一种图像分类方法、深度学习模型及计算机***

Info

Publication number: CN107292322A
Application number: CN201610200963.5A
Authority: CN
Inventors: 许松岑; 张洪波
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2017-10-24
Anticipated expiration: 2036-03-31
Also published as: CN107292322B

Abstract

本发明实施例提供了一种图像分类方法、深度学习模型及计算机***，该方法包括：利用深度学习模型对训练用图像信息进行预处理，得到输入向量x；将该输入向量x输入投影矩阵S_D之后，将该投影矩阵S_D与参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出z；利用联合迭代优化算法，根据该输出z与期望输出y的差错量更新该投影矩阵S_D与该参数矩阵直到该深度学习模型全连接层的参数收敛，将待分类图像信息输入该深度学习模型，得到该待分类图像的分类结果。通过本发明实施例可以缩短深度学习模型的训练时间并保证准确度。

Description

一种图像分类方法、深度学习模型及计算机***

技术领域

本发明涉及人工智能技术领域，具体涉及一种图像分类方法、深度学习模型及计算机***。

背景技术

近年来，关于人工智能的研究越来越多，而深度学习也快速成为了人工智能领域中的热点之一，它不仅可以模拟人脑进行分析学习，还可以模仿人脑的机制来解释数据，例如图像、语音和文本等。经典的深度学习模型主要包括深度置信网络(Deep Belief Network，DBN)、自动编码器(Auto Encoder，AE)以及卷积神经网络(Convolutional Neural Network，CNN)等。针对图像分类的深度学习方法则一般采用CNN，它是一种有监督的网络模型，全连接层的参数数量在很大程度上决定了全连接层参数的收敛速度，而全连接层参数的收敛则意味着CNN模型的训练完成。然而，在全连接层的规模很大时，深度学习模型完成训练需要花费很长的时间。

稀疏自编码(Sparse Auto Encoding)是一种用于削减全连接层参数数量的技术，其原理在于通过使用惩罚因子将全连接层的某些输入神经元的输出值降为0，则与此输入神经元相关的参数就无需被计算，从而达到削减参数的目的。但是通过使用惩罚因子，将全连接层的某些输入神经元的输出值降为0需要一定的迭代过程，在迭代过程完成之前全连接层的参数并没有被削减，而迭代过程需要耗费一定的时间，缩短深度学习模型的训练时间的效果并不明显；此外，实践中发现，惩罚因子只能将输入神经元的输出降至一个接近于0的较小值，这样会导致全连接层的参数数量并没有被削减，深度学习模型的训练时间也没有减少。可见，如何缩短深度学习模型的训练时间并且能保证准确度已成为亟待解决的问题。

发明内容

本发明实施例提供了一种图像分类方法、深度学习模型及计算机***，可以缩短深度学习模型的训练时间并保证准确度。

本发明实施例第一方面提供了一种图像分类方法，包括：

利用深度学习模型对训练用图像信息进行预处理，得到输入向量x；

将所述输入向量x输入投影矩阵S_D之后，将所述投影矩阵S_D与参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出z；

利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛；

将待分类图像信息输入所述深度学习模型，得到所述待分类图像的分类结果。

可选的，所述利用深度学习模型对训练用图像信息进行预处理，得到输入向量x之后，所述方法还包括：

将所述投影矩阵S_D初始化为大小为M×D的随机矩阵，将所述参数矩阵初始化为大小为D×N的随机矩阵；

其中，M、N和D均为大于或等于1的整数，且

可选的，所述利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛，包括：

将所述输出z与期望输出y做差，得到差错量z-y；

建立以所述投影矩阵S_D与所述参数矩阵为目标的代价函数，利用拉格朗日乘数法得到拉格朗日方程式：

其中，i为迭代的次数，S_D ^opt和分别为所述投影矩阵S_D和所述参数矩阵的最优解，||·||表示计算范数；

设置所述代价函数为：

针对所述代价函数，固定所述投影矩阵S_D对所述参数矩阵求偏导数：并得到所述参数矩阵的更新公式：

针对所述代价函数，固定所述参数矩阵对所述投影矩阵S_D求偏导数：并得到所述投影矩阵S_D的更新公式：

其中，α、β为步长，(·)^T表示转置，δ为定义的敏感度；

利用所述投影矩阵S_D的更新公式和所述参数矩阵的更新公式分别对所述投影矩阵S_D和所述参数矩阵进行更新，直到所述深度学习模型全连接层的参数收敛。

可选的，所述全连接层的数量为多个，

对于最后一层全连接层，

对于非最后一层全连接层，

其中，f′(·)表示求导运算，(ο)表示矩阵点乘运算，和δ_next分别为下一层全连接层的参数矩阵和敏感度。

本发明实施例第二方面提供了一种深度学习模型，包括：

第一处理模块，用于对训练用图像信息进行预处理，得到输入向量x；

第二处理模块，用于将所述输入向量x输入投影矩阵S_D之后，将所述投影矩阵S_D与参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出z；

更新模块，用于利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛；

输出模块，用于输出所述第一处理模块、所述第二处理模块和所述更新模块对输入的待分类图像信息进行处理后得到的分类结果。

可选的，所述模型还包括：

初始化模块，用于将所述投影矩阵S_D初始化为大小为M×D的随机矩阵，将所述参数矩阵初始化为大小为D×N的随机矩阵；

其中，M、N和D均为大于或等于1的整数，且

可选的，所述更新模块利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛的具体方式为：

将所述输出z与期望输出y做差，得到差错量z-y；

设置所述代价函数为：

其中，α、β为步长，(·)^T表示转置，δ为定义的敏感度；

可选的，所述全连接层的数量为多个，

对于最后一层全连接层，

对于非最后一层全连接层，

本发明实施例第三方面提供了一种计算机***，包括图像采集设备和上述的深度学习模型。

本发明实施例通过利用深度学习模型对训练用图像信息进行预处理，得到输入向量x；将该输入向量x输入投影矩阵S_D之后，将该投影矩阵S_D与参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出z；利用联合迭代优化算法，根据该输出z与期望输出y的差错量更新该投影矩阵S_D与该参数矩阵直到该深度学习模型全连接层的参数收敛，将待分类图像信息输入该深度学习模型，得到该待分类图像的分类结果，可以缩短深度学习模型的训练时间并保证准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像分类方法的流程示意图；

图2是现有技术提供的一种深度学习模型全连接层的结构示意图；

图3是本发明实施例提供的一种深度学习模型全连接层的结构示意图；

图4是本发明实施例提供的一种深度学习模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为本发明实施例提供的一种图像分类方法的流程示意图。本实施例中所描述的图像分类方法，包括以下步骤：

S101、利用深度学习模型对训练用图像信息进行预处理，得到输入向量x。

具体的，该深度学习模型可以为CNN模型，包括卷积层、子采样层和全连接层，将该训练用图像信息输入到该卷积层，在该卷积层和该子采样层的处理过程如下：

(a)l-1层的该训练用图像信息与卷积核进行卷积，添加偏置后，通过激活函数f，得到特征图像(Feature Map)

其中，公式(1)中的i为当前层的第j个神经元连接的上一层的神经元数量，M_j为与第j个神经元连接的一系列输入的该训练用图像信息，(*)表示卷积运算，Σ(·)表示求和运算。该激活函数f可以优选sigmoid函数、tanh函数和ReLU函数中的任一种，也可以选择其它类型的激活函数。公式(2)(3)(4)分别介绍了三种常用的激活函数f：

sigmoid函数:

tanh函数:

ReLU函数:f(x)＝max(0，x) (4)

其中，e为自然对数，max(·)表示求最大值运算。

(b)该训练用图像信息通过卷积层运算后，再通过子采样层，得到进入全连接层l+1的第j个神经元的输入值：

其中，down(·)表示子采样运算。该运算会针对图像的一个n×n区域求平均值或者最大值或者最小值。将l+1层所有由公式(5)得到的输入值组合为向量，即可得到进入该深度学习模型全连接层的输入向量x。

S102、将投影矩阵S_D初始化为大小为M×D的随机矩阵，将参数矩阵初始化为大小为D×N的随机矩阵。

其中，图2所示的是现有技术提供的一种深度学习模型全连接层的结构示意图，图3所示的是本发明实施例提供的一种深度学习模型全连接层的结构示意图，本发明实施例通过引入M×D的投影矩阵将包括M×N个全连接层参数的参数矩阵W削减为包括D×N个全连接层参数的低维度参数矩阵

其中，M、N和D均为大于或等于1的整数，且从而削减了全连接层参数的数量。

具体的，该投影矩阵S_D和该参数矩阵均可以初始化为均值为0，方差为1的高斯随机矩阵。

S103、将该输入向量x输入投影矩阵S_D之后，将该投影矩阵S_D与该参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出z。

其中，该偏置量b可以初始化为1×N的均值为0，方差为1的高斯随机向量。

具体的，如图3所示，将该输入向量x输入该投影矩阵S_D，该输入向量x的维度由M降为D，接着将输入该输入向量x后的该投影矩阵S_D与该参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出

需要说明的是，一个深度学习模型一般有多个全连接层，不同深度学习模型全连接层的个数可以不同，每一个全连接层只存在一个投影矩阵。

S104、利用联合迭代优化算法，根据该输出z与期望输出y的差错量更新该投影矩阵S_D与该参数矩阵直到该深度学习模型全连接层的参数收敛。

具体的，图3中的联合迭代优化算法主要步骤可以为：

(a)将该输出z与期望输出y做差，得到差错量z-y(或y-z)。

(b)建立以该投影矩阵S_D与该参数矩阵为目标的代价函数，利用拉格朗日乘数法得到拉格朗日方程式：

其中，i为迭代的次数，S_d ^opt和分别为该投影矩阵S_D和该参数矩阵的最优解，||·||表示计算范数。

(c)设置该代价函数为：

(d)针对该代价函数，固定该投影矩阵S_D对该参数矩阵求偏导数：并采用最小均方(Least Mean Square，LMS)算法得到该参数矩阵的更新公式：

(e)类似地，针对该代价函数，固定该参数矩阵对该投影矩阵S_D求偏导数：并采用LMS算法得到该投影矩阵S_D的更新公式：

其中，α、β为步长，(·)^T表示转置，δ为便于推导该联合迭代优化算法而定义的敏感度。

具体的，(d)和(e)并行执行，即该参数矩阵和该投影矩阵S_D可以同时更新，可以进一步减少该深度学习模型全连接层的执行时间。另外，结合该差错量对该参数矩阵和该投影矩阵S_D进行更新可以保证在全连接层参数被削减的情况下该深度学习模型输出结果的准确度。

在一些可行的实施方式中，对于(d)和(e)也可以采用归一化最小均方(Normalized Least Mean Square，NLMS)算法得到该参数矩阵和该投影矩阵S_D的更新公式：

(f)利用该投影矩阵S_D的更新公式和该参数矩阵的更新公式分别对该投影矩阵S_D和该参数矩阵进行更新，直到该深度学习模型全连接层的参数收敛。

其中，连续的两次或多次得到的该差错量没有变化时，可以确定该深度学习模型全连接层的参数已经收敛，即该深度学习模型训练完成。

需要说明的是，针对不同的全连接层，δ的定义不同，具体为：

对于最后一层全连接层，

对于非最后一层全连接层，

S105、将待分类图像信息输入该深度学习模型，得到该待分类图像的分类结果。

具体的，在该深度学习模型训练完成后即可将待分类图像信息输入该深度学习模型，进而得到该待分类图像的分类结果。

请参阅图4，为本发明实施例提供的一种深度学习模型的结构示意图。本实施例中所描述的深度学习模型，包括：

第一处理模块401，用于对训练用图像信息进行预处理，得到输入向量x。

初始化模块402，用于将所述投影矩阵S_D初始化为大小为M×D的随机矩阵，将所述参数矩阵初始化为大小为D×N的随机矩阵。

第二处理模块403，用于将所述输入向量x输入投影矩阵S_D之后，将所述投影矩阵S_D与参数矩阵相乘，并加入偏置量b，再通过激活函数f得到输出z。

更新模块404，用于利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛。

输出模块405，用于输出所述第一处理模块、所述第二处理模块和所述更新模块对输入的待分类图像信息进行处理后得到的分类结果。

在一些可行的实施方式中，所述激活函数f为sigmoid函数、tanh函数和ReLU函数中的任一种。

在一些可行的实施方式中，所述更新模块404利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛的具体方式可以为：

将所述输出z与期望输出y做差，得到差错量z-y。

其中，i为迭代的次数，S_D ^opt和分别为所述投影矩阵S_D和所述参数矩阵的最优解，||·||表示计算范数。

设置所述代价函数为：

针对所述代价函数，固定所述投影矩阵S_D对所述参数矩阵求偏导数：并采用LMS算法得到所述参数矩阵的更新公式：

针对所述代价函数，固定所述参数矩阵对所述投影矩阵S_D求偏导数：并采用LMS算法得到所述投影矩阵S_D的更新公式：

其中，α、β为步长，(·)^T表示转置，δ为定义的敏感度。

在一些可行的实施方式中，也可以采用NLMS算法得到该参数矩阵和该投影矩阵S_D的更新公式：

其中，所述全连接层的数量为多个，

对于最后一层全连接层，

对于非最后一层全连接层，

其中，f^′(·)表示求导运算，(ο)表示矩阵点乘运算，和δ_next分别为下一层全连接层的参数矩阵和敏感度。

此外，本发明实施例还提供了一种计算机***，包括图像采集设备和上面实施例所述的深度学习模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random Access Memory，RAM)等。

以上对本发明实施例所提供的一种图像分类方法、深度学习模型及计算机***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用深度学习模型对训练用图像信息进行预处理，得到输入向量x之后，所述方法还包括：

其中，M、N和D均为大于或等于1的整数，且

3.根据权利要求1或2所述的方法，其特征在于，

<mrow> <mi>z</mi> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>&times;</mo> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>&times;</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

4.根据权利要求1～3中任一项所述的方法，其特征在于，

所述激活函数f为sigmoid函数、tanh函数和ReLU函数中的任一种。

5.根据权利要求1～4中任一项所述的方法，其特征在于，所述利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛，包括：

将所述输出z与期望输出y做差，得到差错量z-y；

<mrow> <mo>&lsqb;</mo> <msup> <msub> <mi>S</mi> <mi>D</mi> </msub> <mrow> <mi>o</mi> <mi>p</mi> <mi>t</mi> </mrow> </msup> <mo>,</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>o</mi> <mi>p</mi> <mi>t</mi> </mrow> </msup> <mo>&rsqb;</mo> <mo>=</mo> <msub> <mi>min</mi> <mrow> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>,</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msup> <mo>-</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>|</mo> <mo>|</mo> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msup> <msub> <mi>S</mi> <mi>D</mi> </msub> <mi>i</mi> </msup> <mo>-</mo> <msup> <msub> <mi>S</mi> <mi>D</mi> </msub> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>|</mo> <mo>|</mo> </mrow> 1

设置所述代价函数为：

<mrow> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>:</mo> <mo>=</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&alpha;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> </mrow> <mrow> <mo>&part;</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> </mrow> </mfrac> <mo>=</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&alpha;</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>xS</mi> <mi>D</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mi>&delta;</mi> </mrow>

<mrow> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>:</mo> <mo>=</mo> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>-</mo> <mi>&beta;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>J</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>S</mi> <mi>D</mi> </msub> </mrow> </mfrac> <mo>=</mo> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>-</mo> <msup> <mi>&beta;x</mi> <mi>T</mi> </msup> <mi>&delta;</mi> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mi>T</mi> </msup> </mrow>

其中，α、β为步长，(·)^T表示转置，δ为定义的敏感度；

6.根据权利要求5所述的方法，其特征在于，所述全连接层的数量为多个，

对于最后一层全连接层，

对于非最后一层全连接层，

其中，f′(·)表示求导运算，(о)表示矩阵点乘运算，和δ_next分别为下一层全连接层的参数矩阵和敏感度。

7.一种深度学习模型，其特征在于，包括：

8.根据权利要求7所述的模型，其特征在于，所述模型还包括：

其中，M、N和D均为大于或等于1的整数，且

9.根据权利要求7或8所述的模型，其特征在于，

10.根据权利要求7～9中任一项所述的模型，其特征在于，

所述激活函数f为sigmoid函数、tanh函数和ReLU函数中的任一种。

11.根据权利要求7～10中任一项所述的模型，其特征在于，所述更新模块利用联合迭代优化算法，根据所述输出z与期望输出y的差错量更新所述投影矩阵S_D与所述参数矩阵直到所述深度学习模型全连接层的参数收敛的具体方式为：

将所述输出z与期望输出y做差，得到差错量z-y；

<mrow> <mo>&lsqb;</mo> <msup> <msub> <mi>S</mi> <mi>D</mi> </msub> <mrow> <mi>o</mi> <mi>p</mi> <mi>t</mi> </mrow> </msup> <mo>,</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>o</mi> <mi>p</mi> <mi>t</mi> </mrow> </msup> <mo>&rsqb;</mo> <mo>=</mo> <msub> <mi>min</mi> <mrow> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>,</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msup> <mo>-</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>|</mo> <mo>|</mo> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msup> <msub> <mi>S</mi> <mi>D</mi> </msub> <mi>i</mi> </msup> <mo>-</mo> <msup> <msub> <mi>S</mi> <mi>D</mi> </msub> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>|</mo> <mo>|</mo> </mrow>

设置所述代价函数为：

其中，α、β为步长，(·)^T表示转置，δ为定义的敏感度；

12.根据权利要求11所述的模型，其特征在于，所述全连接层的数量为多个，

对于最后一层全连接层，

对于非最后一层全连接层，

13.一种计算机***，其特征在于，包括图像采集设备和如权利要求7～12中任一项所述的深度学习模型。