CN111210009A

CN111210009A - 一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、***及存储介质

Info

Publication number: CN111210009A
Application number: CN202010039251.6A
Authority: CN
Inventors: 卢光明; 孟繁续; 程昊; 李珂; 孙星; 郭成昊
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-05-29

Abstract

本发明提供了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法，包括依次执行以下步骤：步骤一：每个周期内多个模型权值正常迭代更新；步骤二：计算每一层滤波器的信息熵；步骤三：相邻两个网络自适应的加权平均作为新的权值。本发明的有益效果是：1.该方法能够激活模型中的无效滤波器，从而在不改变模型结构的情况下提高模型的准确率；2.该方法提出使用滤波器的信息熵来评价滤波器的质量，相比使用范数能够更加准确地评价滤波器质量，相比计算输出特征图的信息熵需要更少的计算量；3.该方法提出自适应加权平均函数，针对每一层的特点，动态的调节两个模型中滤波器保留的比例，相比给所有层设置统一的系数更加的灵活。

Description

一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法、装置、***及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法。

背景技术

深度神经网络的发展十分迅速，在计算机视觉，语音识别，自然语言处理等方面变得流行和高效。在计算机视觉领域，大量的滤波器被使用在神经网络中，滤波器可以用来提取前一层特征矩阵的特征，生成下一层的特征矩阵。实验表明，随着深度神经网络参数量的增大，模型的性能也在提升。因此越来越深的模型被提出。然而，最近的研究表明，深度神经网络中包含大量的无效滤波器。这些无效滤波器并没有对最终结果产生积极作用，因此这些滤波器浪费了大量的计算力。

常用的解决无效滤波器问题的方式是滤波器剪枝技术，剪枝技术将无效滤波器裁减掉，只保留好的滤波器。滤波器剪枝技术通常分为训练、剪枝、调整这三个阶段。在训练阶段，为了获得更加稀疏化的模型，需要在损失函数中添加相应的惩罚项进行结构化稀疏。在剪枝阶段，通过一些指标(例如滤波器的范数)来筛选出无效滤波器，并将这些滤波器从模型中减掉。为了恢复裁剪后模型的性能，在调整阶段，需要将裁剪后的模型重新训练。滤波器剪枝技术主要关注在裁剪阶段如何准确地评价滤波器的好坏，从而确定需要裁剪的位置。另外还有一些方法关注如何更好地裁减掉这些无效的滤波器，而不破坏模型的性能，从而省去调整阶段的计算。

深度神经网络通常会“过参数化”，即使用越来越深的网络，越来越多的参数来对数据进行拟合。但是这样过参数化的结果导致，模型中有很多的滤波器没有得到有效利用。现有的解决无效滤波器的方法都是将这些滤波器直接裁掉，这样得到的新的模型结构已经发生了变化，这给模型的部署增加了困难。改变了模型结构后，想要使用预训练模型会比较困难，此外裁掉这些滤波器后，模型精度也可能会下降。

发明内容

本发明提供了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法，包括依次执行以下步骤：

步骤一：每个周期内多个模型权值正常迭代更新；

步骤二：计算每一层滤波器的信息熵；

步骤三：相邻两个网络自适应的加权平均作为新的权值。

作为本发明的进一步改进，假设一共有K个并行训练的模型，每个模型有L层，则模型初始权重

训练需要总的周期数T_max，每个周期内的迭代次数N_T；

在所述步骤1中，还包括执行以下步骤：

第1步骤：在每次迭代时，并行的更新每一个模型、每一层的参数

第2步骤：经过一个周期N_T次迭代后，对于模型K，将其前一个模型每一层的参数

传递给它的每一层。

作为本发明的进一步改进，在所述步骤2中，还包括执行以下步骤：

第3步骤：将模型每一层的权重，离散化为B位，p_b代表每一位出现的频率，则每一层的信息熵为：

第4步骤：使用如下公式比较模型K和模型K-1中无效滤波器数量的相对大小：

其中A和c是固定的超参数，

代表第j个模型的第i层的信息熵。

作为本发明的进一步改进，在所述步骤3中，还包括执行以下步骤：第5步骤：对于任一模型K，使用如下公式自适应的加权平均他和模型K-1的每一层，作为模型K的新的参数：

在所述步骤3后还包括执行以下步骤：

步骤四：进入下一个周期，重新执行上面的步骤1至步骤3，直到模型最终收敛。

本发明公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接装置，包括依次执行以下单元：

单元一：每个周期内多个模型权值正常迭代更新；

单元二：计算每一层滤波器的信息熵；

单元三：相邻两个网络自适应的加权平均作为新的权值。

训练需要总的周期数T_max，每个周期内的迭代次数N_T；

在所述单元一中，还包括执行以下单元：

第1单元：在每次迭代时，并行的更新每一个模型、每一层的参数

第2单元：经过一个周期N_T次迭代后，对于模型K，将其前一个模型每一层的参数

传递给它的每一层。

作为本发明的进一步改进，在所述单元二中，还包括执行以下单元：第3单元：将模型每一层的权重，离散化为B位，p_b代表每一位出现的频率，则每一层的信息熵为：

第4单元：使用如下公式比较模型K和模型K-1中无效滤波器数量的相对大小：

其中A和c是固定的超参数，

代表第j个模型的第i层的信息熵。

作为本发明的进一步改进，在所述单元三中，还包括执行以下单元：第5单元：对于任一模型K，使用如下公式自适应的加权平均他和模型K-1的每一层，作为模型K的新的参数：

在所述单元三后还包括执行以下单元：

单元四：进入下一个周期，重新执行上面的单元一至单元三，直到模型最终收敛。

本发明还公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接***，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。

本发明的有益效果是：1.该方法能够激活模型中的无效滤波器，从而在不改变模型结构的情况下提高模型的准确率；2.该方法提出使用滤波器的信息熵来评价滤波器的质量，相比使用l₁范数能够更加准确地评价滤波器质量，相比计算输出特征图的信息熵需要更少的计算量；3.该方法提出自适应加权平均函数，针对每一层的特点，动态的调节两个模型中滤波器保留的比例，相比给所有层设置统一的系数更加的灵活，相比给每一层设置不同的系数需要更少的超参数。

附图说明

图1是本发明本发明的多模型自适应深度神经网络滤波器嫁接方法和以前方法的区别，浅灰色长方体代表无效滤波器，本发明的多模型自适应深度神经网络滤波器嫁接方法将无效滤波器重新激活，得到一个结构不变的更好的模型；

图2是本发明的多模型并行滤波器嫁接每个模型与其相邻前一个模型进行加权平均，互相激活彼此的无效滤波器；

图3是本发明的多模型自适应深度神经网络滤波器嫁接方法利用两个模型的信息熵自适应的计算加权平均系数的示意图，当两个模型第i层信息熵相同时，加权平均系数为0.5；当模型2相对模型1的信息熵越大，加权平均时模型2的系数就越大；

图4是本发明的多模型自适应深度神经网络滤波器嫁接方法采用滤波器嫁接方法的效果示意图，随着参与嫁接的模型数量越来越多，最终每个模型的信息量也越来越大，模型的准确率也越来越高。

具体实施方式

本发明公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法，包括依次执行以下步骤：

步骤一：每个周期内多个模型权值正常迭代更新；

步骤二：计算每一层滤波器的信息熵；

步骤三：相邻两个网络自适应的加权平均作为新的权值。

假设一共有K个并行训练的模型，每个模型有L层，则模型初始权重

训练需要总的周期数T_max，每个周期内的迭代次数N_T；

在所述步骤1中，还包括执行以下步骤：

传递给它的每一层。

在所述步骤2中，还包括执行以下步骤：

其中A和c是固定的超参数，

代表第j个模型的第i层的信息熵。

在所述步骤3中，还包括执行以下步骤：

第5步骤：对于任一模型K，使用如下公式自适应的加权平均他和模型K-1的每一层，作为模型K的新的参数：

在所述步骤3后还包括执行以下步骤：

本发明公开的一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法，该多模型自适应深度神经网络滤波器嫁接方法并行的训练多个模型，在每个训练周期结束时，使用信息熵来计算多个模型中每一层中无效滤波器数量的相对大小，根据信息熵的相对大小自适应的将每一层中的滤波器进行加权平均，由于多个模型之间具有差异性，每个模型使用自己的好滤波器，激活其他模型的无效滤波器，从而提高神经网络参数的利用率，进而在不改变模型结构的条件下，提高模型的准确率。

本发明公开的是一种基于信息熵的多模型自适应深度神经网络滤波器嫁接方法，其采用的技术如图2中所示。我们并行的训练k个独立的深度神经网络模型，经过周期为T次迭代后，每个模型均获得其前一个模型的全部参数。分别计算两个模型的每一层中的滤波器信息熵，利用两个模型信息熵的相对大小，将每一层中的所有滤波器进行加权平均，然后再进行下一个周期的参数更新。

本发明的多模型自适应深度神经网络滤波器嫁接方法主要为了解决深度神经网络中存在大量无效滤波器的问题，以前解决无效滤波器的方法主要是将无效滤波器直接裁剪掉，本发明的多模型自适应深度神经网络滤波器嫁接方法将无效滤波器重新激活，从而提高模型参数的利用率。本发明的多模型自适应深度神经网络滤波器嫁接方法和以前方法的区别如图1所示，灰色长方体代表无效滤波器，本发明的多模型自适应深度神经网络滤波器嫁接方法将无效滤波器重新激活，得到一个结构不变的更好的模型。

本发明松开的的多模型自适应深度神经网络滤波器嫁接方法如图2所示并行训练多个模型，经过周期为N_T次的迭代后，我们就将每个模型的前一个模型中好的滤波器，嫁接到当前模型中的无效滤波器上，这样每个模型都会得到一个重新激活的新的模型参数。

本发明公开的多模型自适应深度神经网络滤波器嫁接方法根据每个模型与其前一个模型好的滤波器数量相对大小(用模型权重的信息熵表示)，自适应的计算两个模型嫁接的比例，如图3所示，当两个模型中好的滤波器的数量相同时，嫁接系数为0.5，当一个模型相对另一个模型越大，相应系数也越大。

本发明公开的多模型自适应深度神经网络滤波器嫁接方法通过在训练过程中多个模型互相嫁接好的滤波器到无效滤波器上，可以显著提高模型的信息量和准确率。如图4所示，baseline是不使用嫁接方法训练得到的模型，对比2、4、6、8个模型嫁接的模型。可以发现使用嫁接方法得到的模型，包涵了更多的信息，模型的准确率更高。并且，随着模型数量的增加，这一现象更加明显。

本发明还公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接装置，包括依次执行以下单元：

单元一：每个周期内多个模型权值正常迭代更新；

单元二：计算每一层滤波器的信息熵；

单元三：相邻两个网络自适应的加权平均作为新的权值。

训练需要总的周期数T_max，每个周期内的迭代次数N_T；

在所述单元一中，还包括执行以下单元：

传递给它的每一层。

在所述单元二中，还包括执行以下单元：

第3单元：将模型每一层的权重，离散化为B位，p_b代表每一位出现的频率，则每一层的信息熵为：

其中A和c是固定的超参数，

代表第j个模型的第i层的信息熵。

在所述单元三中，还包括执行以下单元：

第5单元：对于任一模型K，使用如下公式自适应的加权平均他和模型K-1的每一层，作为模型K的新的参数：

在所述单元三后还包括执行以下单元：

本发明还公开了一种基于信息熵的多模型自适应深度神经网络滤波器嫁接***，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现该发明所述的多模型自适应深度神经网络滤波器嫁接方法的步骤。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。