CN111178520B

CN111178520B - 一种构建神经网络的方法及装置

Info

Publication number: CN111178520B
Application number: CN202010011285.4A
Authority: CN
Inventors: 王乃岩; 黄泽昊
Original assignee: Beijing Tusimple Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2024-06-07
Anticipated expiration: 2037-06-15
Also published as: CN111178520A; WO2018227801A1; CN107247991A

Abstract

本发明公开一种构建神经网络的方法及装置，以解决现有技术构建的神经网络优化难度大、效率低的技术问题。该方法包括：构建初始神经网络，所述初始神经网络中预置的多个特定结构分别设置有对应的稀疏缩放算子，其中稀疏缩放算子用于对相应特定结构的输出进行缩放；采用预置的训练样本数据对所述初始神经网络的权重和特定结构的稀疏缩放算子进行训练，得到中间神经网络；将所述中间神经网络中稀疏缩放算子为零的特定结构删除，得到目标神经网络。采用本发明技术方案构建的神经网络优化简单、易于实现，并且训练效率高。

Description

一种构建神经网络的方法及装置

技术领域

本发明涉及计算机领域，特别涉及一种构建神经网络的方法及装置。

背景技术

近几年来，深度神经网络在诸多领域中取得了巨大的成功，如计算机视觉、自然语言处理等。然而，目前构建深度神经网络的结构主要通过设计人员设计得到，若要设计出一个结构紧凑、运行速度快、效果好的深度神经网络，不仅需要设计人员具有较强的专业知识，而且还需要通过大量的实验来对深度神经网络进行反复的调整，因此，现有的深度神经网络的构建对设计人员的专业技能要求较高而且构建效率低。

为解决现有技术构建神经网络存在的前述问题，目前提出了一些如何构建深度神经网络结构的解决方案：

方案1、Hao Zhou在论文“Less is More:Towards Compact CNNS”中提出通过组稀疏约束来学习神经网络中每层神经元个数的方案，该方案在卷积神经网络的权重中加入组稀疏约束，即每一个神经元的权重为一个组。由于组稀疏约束会将每个组内的权重尽可能地全压缩为0，因此当一个神经元的权重全为0时，即可去掉该神经元，由此即可学习得到神经网络的神经元个数。

方案2、Jose M.Alvarez在论文“Learning the number of neurons in DeepNetworks”中提出的解决方案与方案1基本一致，区别在于，该方案2中每一层神经元用的组稀疏约束不同，即对不同层的神经元其组约束的强度不同。

方案3、Wen Wei在论文“Learning Structured Sparsity in Deep NeuralNetworks”中提出的解决方案为利用组稀疏约束学习例如神经元的个数、神经元的形状、跨层连接网络层的深度等。

前述解决方案，均存在以下技术缺陷：

缺陷1、在权重上加组稀疏约束和权重衰减约束，后续的优化过程较为困难，实现难度大；

缺陷2、需要在一个训练好的模型上进行两次重训练，一次重训练利用组稀疏约束确定不重要的结构，第二次重训练则将确定出的不重要的结构去掉之后再次训练以恢复神经网络的精度，两次重训练耗时较长，效率较低。

发明内容

本发明提供一种构建神经网络的方法及装置，以解决现有技术构建的神经网络训练难度大和效率低的技术问题。

本发明实施例，一方面提供一种构建神经网络的方法，该方法包括：

构建初始神经网络，所述初始神经网络中预置的多个特定结构分别设置有对应的稀疏缩放算子，其中稀疏缩放算子用于对相应特定结构的输出进行缩放；

采用预置的训练样本数据对所述初始神经网络的权重和特定结构的稀疏缩放算子进行训练，得到中间神经网络；

将所述中间神经网络中稀疏缩放算子为零的特定结构删除，得到目标神经网络。

本发明实施例，另一方面提供一种构建神经网络的装置，该装置包括：

第一构建单元，用于构建初始神经网络，所述初始神经网络中预置的多个特定结构分别设置有对应的稀疏缩放算子，其中稀疏缩放算子用于对相应特定结构的输出进行缩放；

训练单元，用于采用预置的训练样本数据对所述初始神经网络的权重和特定结构的稀疏缩放算子进行训练，得到中间神经网络；

第二构建单元，用于将所述中间神经网络中稀疏缩放算子为零的特定结构删除，得到目标神经网络。

本发明实施例提供的构建神经网络的方法，首先，在构建初始神经网络的过程中，预先为初始神经网络中的特定结构设置稀疏缩放算子；其次，在训练过程中，通过训练样本数据对初始神经网络中的权重和稀疏缩放算子一起训练以得到中间神经网络；最后，将中间神经网络中稀疏缩放算子为零的特定结构删除以得到目标神经网络。本发明技术方案，一方面，引入稀疏缩放算子来缩放不同特定结构的输出，不需要在权重上加入新的约束，权重和稀疏缩放算子可进行独立优化，后续的优化过程更加简单，易于实现；另一方面，稀疏缩放算子为零的特定结构对神经网络的输出结果没有贡献，将稀疏缩放算子为零的特定结构删除，并不影响神经网络的精度，而且还能够精简神经网络以提高神经网络运行速度，因此，本发明技术方案只需要采用训练样本数据对初始神经网络进行一次重训练即可得到目标神经网络，无需像现有技术需要进行两次重训练，因此，与现有技术相比，本方案能够提高神经网络训练的效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例中构建神经网络的方法流程图；

图2为本发明实施例中特定结构为模块的示意图；

图3为本发明实施例中特定结构为残差网络中的残差模块的示意图；

图4为本发明实施例中特定结构为模组的示意图；

图5为本发明实施例中特定结构为神经元的示意图；

图6为本发明实施例中构建神经网络的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

参见图1，为本发明实施例中构建神经网络的方法的流程图，该方法包括：

步骤101、构建初始神经网络，所述初始神经网络中预置的多个特定结构分别设置有对应的稀疏缩放算子，其中稀疏缩放算子用于对相应特定结构的输出进行缩放。

步骤102、采用预置的训练样本数据对所述初始神经网络的权重和特定结构的稀疏缩放算子进行训练，得到中间神经网络。

步骤103、将所述中间神经网络中稀疏缩放算子为零的特定结构删除，得到目标神经网络。

优选地，前述步骤101可通过以下步骤A1～步骤A3实现：

步骤A1、选取神经网络模型。

本发明实施例，可从预置的神经网络模型集中选取一个与期望目标神经网络所实现的功能(如计算机视觉处理功能：图像分割、物体检测、人脸识别，或者自然语言处理功能等)对应的神经网络模型，也可以根据期望目标神经网络所实现的功能构建一个对应的神经网络模型。本申请不做严格的限定。

步骤A2、确定所述神经网络模型中需要设置稀疏缩放算子的特定结构。

本发明实施例中，可由设计人员确定神经网络模型中的特定结构，例如：可将神经网络中的某一层或某些网络层的全部或部分神经元确定为特定结构。和/或，将神经网络中具有以下特性的一个或多个模组确定为特定结构：特性1、包含一个以上网络层(例如，该特定结构包含两个以上级联的网络层)；特性2、与其他模组并联或者该模组前后端具有跨层连接。和/或，将神经网络中具有以下特性的一个或多个模块确定为特定结构：特性1、包含一个以上模组的模块(例如，该特定结构包含两个以上并联的模组)；特性2、该模块的前后端具有跨层连接。

步骤A3、对所述神经网络模型中的特定结构设置初始稀疏缩放算子，得到所述初始神经网络。

本发明实施例中，各特定结构的稀疏缩放算子的取值大于等于0。优选地，初始稀疏缩放算子的取值接近1，例如可以直接取值为1。

优选地，本发明实施例中，前述步骤102具体可通过以下步骤B1～步骤B3实现：

步骤B1、构建初始神经网络对应的目标函数，所述目标函数包含损失函数和稀疏正则函数。该目标函数如式(1)所示：

式(1)中，所述W为神经网络的权重，λ为神经网络的稀疏缩放算子向量，N为训练样本数据的数量，为神经网络在样本数据x_i上的损失，/>为稀疏正则函数。

步骤B2、采用所述训练样本数据对所述初始神经网络进行迭代训练。

步骤B3、当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述中间神经网络。

优选地，前述步骤B2具体实现可通过对初始神经网络进行多次以下的迭代训练，以一次非首次迭代和非尾次迭代的迭代过程(以下称为本次迭代训练)为例进行描述，一次迭代训练包括以下步骤C1～步骤C3：

步骤C1、将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量，将所述权重作为所述目标函数的变量，采用第一优化算法对所述目标函数进行优化，得到本次迭代训练的权重；

步骤C2、将本次迭代训练的权重作为所述目标函数的常量，将稀疏缩放算子作为所述目标函数的变量，采用第二优化算法对所述目标函数进行优化，得到本次迭代训练的稀疏缩放算子；

步骤C3、基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。

首次迭代训练过程如下：将初始稀疏缩放算子作为所述目标函数的常量，将所述权重作为所述目标函数的变量，采用第一优化算法对所述目标函数进行优化，得到本次迭代训练的权重；将本次迭代训练的权重作为所述目标函数的常量，将稀疏缩放算子作为所述目标函数的变量，采用第二优化算法对所述目标函数进行优化，得到本次迭代训练的稀疏缩放算子；基于本次迭代训练的权重和稀疏缩放算子进行第二次迭代训练。

尾次迭代训练过程如下：将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量，将所述权重作为所述目标函数的变量，采用第一优化算法对所述目标函数进行优化，得到本次迭代训练的权重；将本次迭代训练的权重作为所述目标函数的常量，将稀疏缩放算子作为所述目标函数的变量，采用第二优化算法对所述目标函数进行优化，得到本次迭代训练的稀疏缩放算子；将包含本次迭代训练得到的稀疏缩放算子和权重的神经网络作为中间神经网络。

优选地，本发明实施例中，所述第一优化算法可以为但不仅限于为以下任意一种算法：随机梯度下降算法、引入动量的变种算法。

优选地，本发明实施例中，所述第二优化算法可以为但不仅限于为以下任意一种算法：加速邻域梯度下降算法、邻域梯度下降算法、交替方向乘子算法。

优选地，在另一个实施例中，本发明实施例中目标函数包含损失函数、权重正则函数和稀疏正则函数，该目标函数如式(2)所示：

式(2)中，所述W为神经网络的权重，λ为神经网络的稀疏缩放算子向量，N为训练样本数据的数量，为神经网络在样本数据x_i上的损失，/>为权重正则函数，为稀疏正则函数。

优选地，本发明实施例中为权重为γ的稀疏正则，即/>当然本领域技术人员还可将/>设置为更复杂的稀疏约束，例如非凸的稀疏约束。

为进一步对本发明实施例中如何求解出目标函数中的W和λ进行详细的描述，下面以目标函数为公式(2)、为例，对一次迭代训练优化目标函数求解得到W和λ进行描述。将/>记为/>记为/>

将λ作为常量，将W作为变量，则目标函数换转为采用随机梯度下降算法即可求解得到W的取值，具体过程不再详细描述。

将W作为常量，将λ作为变量，则目标函数换转为采用加速邻域梯度下降算法求解λ的取值，具体可通过但不仅限于以下几种方式得到：

方式1，采用下式(3)～式(5)得到λ：

其中η_t表示在第t次迭代训练时梯度下降的步长，为软阈值算子，定义如下/>

方式2、由于前述方式1求解λ需要额外的前向后向计算来得到将该算法直接应用到现有深度学习框架有点难度。因此，方式2对前述方式1的公式进行变形，得到式(6)～式(8)，根据式(6)～式(8)计算得到λ：

λ_t＝λ_t-1+v_t 式(8)

方式3、本发明实施例为进一步降低难度，提供更为简单的下式(9)～(11)计算得到λ：

其中λ′_t-1＝λ_t-1+μ_t-1v_t-1，μ为预设的固定值，并采用批量随机梯度下降的形式来更新W和λ。

下面分别以特定结构为模块、模组和神经元进行详细描述。

如图2所示，假设神经网络包含N个模块，每个模块对应一个稀疏缩放算子，且每个模块的前后端具有跨层连接。

以一个具体为例，假设神经网络为残差网络，设置特定结构为残差模块，如上图3所示，该残差模块前后端具有跨层连接，第i个残差模块对应的稀疏缩放算子为λⁱ，则：

若经过训练之后，得到第三个残差模块的稀疏缩放算子λ³＝0时，则将残差网络中第3个残差模块删除。

如图4所示，假设神经网络包含N个模块，每个模块包含M个模组，每个模组包含多个级联的网络层，每个模组对应一个稀疏缩放算子。

如图5所示，假设神经网络包含L个网络层，第l网络层包含k神经元，则该k个神经元分别对应一个稀疏缩放算子。

实施例二

基于前述实施例一提供的构建神经网络方法相同的发明构思，本发明实施例二提供一种构建神经网络的装置，该装置的结构如图6所示，包括：

第一构建单元61，用于构建初始神经网络，所述初始神经网络中预置的多个特定结构分别设置有对应的稀疏缩放算子，其中稀疏缩放算子用于对相应特定结构的输出进行缩放；

训练单元62，用于采用预置的训练样本数据对所述初始神经网络的权重和特定结构的稀疏缩放算子进行训练，得到中间神经网络；

第二构建单元63，用于将所述中间神经网络中稀疏缩放算子为零的特定结构删除，得到目标神经网络。

优选地，所述第一构建单元61，具体包括选取模块、特定结构确定模块和构建模块，其中：

选取模块，用于选取神经网络模型；

本发明实施例，选取模块具体实现可如下：可从预置的神经网络模型集中选取一个与期望目标神经网络所实现的功能(如计算机视觉处理的功能：图像分割、物体检测、人脸识别，或者自然语言处理的功能等)对应的神经网络模型，也可以根据期望目标神经网络所实现的功能构建一个对应的神经网络模型。本申请不做严格的限定。

特定结构确定模块，用于确定所述神经网络模型中需要设置稀疏缩放算子的特定结构；

构建模块，用于对所述神经网络模型中的特定结构设置初始稀疏缩放算子，得到所述初始神经网络。

本发明实施例中，各特定结构的稀疏缩放算子的取值大于等于0且小于等于1。优选地，初始稀疏缩放算子的取值接近1，例如可以直接取值为1。

优选地，所述训练单元62，具体包括目标函数构建模块、训练模块和确定模块，其中：

目标函数构建模块，用于构建初始神经网络对应的目标函数，所述目标函数包含损失函数和稀疏正则函数；

训练模块，用于采用所述训练样本数据对所述初始神经网络进行迭代训练；

确定模块，用于当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述中间神经网络。

优选地，所述训练模块具体用于：对所述初始神经网络进行多次以下的迭代训练(该一次迭代训练为非首次和非尾次迭代训练)：将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量，将所述权重作为所述目标函数的变量，采用第一优化算法对所述目标函数进行优化，得到本次迭代训练的权重；将本次迭代训练的权重作为所述目标函数的常量，将稀疏缩放算子作为所述目标函数的变量，采用第二优化算法对所述目标函数进行优化，得到本次迭代训练的稀疏缩放算子；基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。

优选地，所述第一优化算法可以为但不仅限于为以下任意一种算法：随机梯度下降算法、引入动量的变种算法。

优选地，所述第二优化算法为加速邻域梯度下降算法、邻域梯度下降算法或者交替方向乘子算法。

优选地，所述目标函数为：

所述W为神经网络的权重，λ为神经网络的稀疏缩放算子向量，N为训练样本数据的数量，为神经网络在样本数据x_i上的损失，/>为稀疏正则函数。

优选地，在另一个实施例中，本发明实施例中目标函数包含损失函数、权重正则函数和稀疏正则函数，该目标函数如下：

所述W为神经网络的权重，λ为神经网络的稀疏缩放算子向量，N为训练样本数据的数量，为神经网络在样本数据x_i上的损失，/>为权重正则函数，/>为稀疏正则函数。

优选地，所述特定结构为一个神经元；或者，所述特定结构为包含一个以上网络层的模组(例如，特定结构包含两个以上级联的网络层)，且该模组与其他模组并联；或者，所述特定结构为包含一个以上并联模组的模块(例如，特定结构包含两个以上并联的模组)，且该模块的前后端具有跨层连接。

以上是本发明的核心思想，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像数据处理方法，其特征在于，包括：

获取图像数据；及

使用神经网络对获取到的图像数据进行计算机视觉处理；其中，所述神经网络是通过如下处理获得的目标神经网络：

构建初始神经网络，所述初始神经网络中预置的多个特定结构分别设置有对应的稀疏缩放算子，其中稀疏缩放算子用于对相应特定结构的输出进行缩放，其中，所述特定结构为一个神经元；或者，所述特定结构为包含一个以上网络层的模组，且该模组与其他模组并联；或者，所述特定结构为包含一个以上模组的模块，且该模块的前后端具有跨层连接；

采用图像训练样本数据对所述初始神经网络的权重和特定结构的稀疏缩放算子进行训练，得到中间神经网络，具体包括：

构建所述初始神经网络对应的目标函数，所述目标函数包含损失函数和稀疏正则函数；

采用所述图像训练样本数据对所述初始神经网络进行迭代训练，具体包括：

对所述初始神经网络进行多次以下的迭代训练：

将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量，将所述权重作为所述目标函数的变量，采用第一优化算法对所述目标函数进行优化，得到本次迭代训练的权重；

将本次迭代训练的权重作为所述目标函数的常量，将稀疏缩放算子作为所述目标函数的变量，采用第二优化算法对所述目标函数进行优化，得到本次迭代训练的稀疏缩放算子；及

基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练；及

当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述中间神经网络；及将所述中间神经网络中稀疏缩放算子为零的特定结构删除，得到所述目标神经网络，其中所述第一优化算法为以下任意一种算法：随机梯度下降算法、引入动量的变种算法，其中所述第二优化算法为以下任意一种算法：加速邻域梯度下降算法、邻域梯度下降算法、交替方向乘子算法。

2.根据权利要求1所述的方法，其特征在于，构建初始神经网络，具体包括：

选取神经网络模型；

确定所述神经网络模型中需要设置稀疏缩放算子的特定结构；及

对所述神经网络模型中的特定结构设置初始稀疏缩放算子，得到所述初始神经网络。

3.根据权利要求1所述的方法，其特征在于，所述目标函数为：

所述W为权重，λ为稀疏缩放算子向量，N为样本数据的数量，为神经网络在样本数据x_i上的损失，/>为稀疏正则函数。