CN111797991A

CN111797991A - 一种深度网络模型压缩***、方法及装置

Info

Publication number: CN111797991A
Application number: CN201910275844.XA
Authority: CN
Inventors: 张怀朋; 文剑钧
Original assignee: Shanghai Huairuo Intelligent Technology Co ltd
Current assignee: Shenzhen yingshisheng Information Technology Co.,Ltd.
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2020-10-20

Abstract

本发明属于人工智能技术领域，具体涉及一种基于端到端二值化网络的深度网络模型压缩***、方法及装置。所述***包括：网络结构改造单元，改造深度网络模型结构，生成改造后的深度网络模型结构；网络模型训练单元，训练改造后的深度网络模型结构；预测网络模型改造单元，改造用于预测的深度网络模型结构。降低了操作的难度、加速了二值化过程以及加快了深度网络模型的收敛和预测速度及其测试精度。

Description

一种深度网络模型压缩***、方法及装置

技术领域

本发明属于人工智能技术领域，具体涉及一种基于端到端二值化网络的深度网络模型压缩***、方法及装置。

背景技术

过去的几年深度学习在医疗、娱乐、无人驾驶、金融等诸多领域展现出了杰出的作用，在几乎所有涉足的任务中无论效率还是精度都远超传统方法，其中不乏已超过人类水准的人工智能技术，如AI围棋技术Alpha Go和Machine Translation(机器翻译)等。

然而作为一门新兴科技，深度学习也存在很多待解决的短板：

1.深度网络模型的鲁棒性差。即单个深度网络模型往往只能对某一个窄域下的任务达到高精度和可用。而对于一些相似领域，甚至同领域不同场景下的任务也会在效果上产生断崖式的下滑；

2.深度网络模型可解释性差。即深度网络拥有如此优越的性能，但对这一表现的解释确很匮乏，这方面研究则采取了可视化等手段，而严谨的数学推导目前而言仍踟蹰不前；

3.深度网络模型在精度和速度上难均衡。随着深度学***的同时，网络模型也越来越深、越来越复杂。这一趋势使得模型在保证任务精度的情况下，带来了一些负效应：

(1)模型对处理器内存及计算性能要求越来越高，运营成本也随之增加；

(2)模型运行速度越来越慢，无法保证时效性。

发明内容

有鉴于此，本发明的主要目的在于提供了一种基于端到端二值化网络的深度网络模型压缩***、方法及装置，作为一种压缩技术，旨在解决浮点型参数网络内存占用大、运算速度慢的问题；传统二值化策略对参数初始化要求苛刻的问题；传统二值化策略对网络的前向和后向传播改动较大，不适配通用深度学习框架的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种深度网络模型压缩***，其特征在于，所述***包括：

网络结构改造单元，改造深度网络模型结构，生成改造后的深度网络模型结构；

网络模型训练单元，训练改造后的深度网络模型结构；

预测网络模型改造单元，改造用于预测的深度网络模型结构。

一种深度网络模型压缩方法，所述方法执行以下步骤：

使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构；

使用训练集对改造的深度网络模型进行训练；

改造用于预测的深度网络模型结构。

进一步的，所述使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的方法还执行以下步骤：使用近似函数取代符号函数，为了保证在深度网络模型收敛的同时，能够达到参数不断逼近+1/-1的目的，对经过近似函数转换的参数进行正则约束，如L1正则(||w|-1|),或者使用对数函数获得更强的约束(|log(|w|)|)。

进一步的，所述使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的方法海之行以下步骤：如要将激活值进行二值化，则使用符号函数对每层的激活值做转换。

进一步的，所述使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的方法执行以下步骤：

步骤1：训练数据输入到深度模型网络，进行正向传播；

步骤2：到达每一层的参数经符号函数的近似可微函数转换前，判断参数|w|与1(或α)差值的绝对值是否小于β：若判断结果为是，则将参数w设置为non-trainable(不可训)，即该参数在训练过程中不再更新；若判断结果为否，则不做操作；

步骤3：得到深度网络模型的输出，根据训练数据的真实标签计算模型损失Loss，用于反向梯度传播和参数更新；

步骤4：到达每一层的参数经符号函数的近似可微函数的梯度计算前，判断参数w是否可训：如果判断结果为是，则计算参数w的梯度，并进行参数更新；如果判断结果为否，则不对w进行更新；

步骤5：重复步骤1到步骤4，至满足如下条件：

深度网络模型的所有参数为不可训的状态；

深度网络模型在整个训练集上收敛；

其中所述β为设定的阈值，用于判断参数是否逼近+1/-1。

进一步的，所述改造用于预测的深度网络模型结构的方法执行以下步骤：将深度网络模型中所有经过符号函数的近似可微函数转换的参数由原始值替换为转换后的值，即-1/+1；去除深度网络模型中所有符号函数的近似可微函数转换的操作。

进一步的，所述所述改造用于预测的深度网络模型结构的方法还执行以下步骤：如果在训练中进行了激活值的二值化，则将模型的浮点型运算改为比特级逻辑运算，提升运算速度

一种深度网络模型压缩装置，所述装置包括：一种非暂时性的计算机可读存储介质，该存储介质存储了计算指令，其包括：使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的代码段；使用训练集对改造的深度网络模型进行训练的代码段；改造用于预测的深度网络模型结构的代码段。

本发明的一种深度网络模型压缩***、方法及装置，具有如下有益效果：

1.在深度网络模型二值化的过程中，摒弃一直以来使用的符号函数，转而在正向传播中采用其近似可微的函数，从而达到深度网络模型的正、反向传播一致性。同时为了保证参数向+1/-1逼近，从而达到二值化的目的，我们对添加函数转换的层额外进行正则约束。这一改进的有益效果为，不同于BNN等现有策略，本发明实现了端到端直接可训的过程，无需改变BP(方向传播)策略，从而对现有的深度学习框架无缝适配，大大降低了操作的难度。

2.得益于第一点改进，本发明的二值化策略不在需要很好的参数初始化，故而本发明进一步将二值化过程中一直不可少的预训练环节省去，直接从头训练网络。这一改进的有益效果为，在没有增加深度网络模型的收敛难度和降低压缩率的情况下，大幅减小了算法复杂度，加速了二值化过程。

3.我们还发现，即使不做深度网络模型参数二值化，而直接使用我们用于训练的改造模型进行训练和预测，反而加快了深度网络模型的收敛速度和测试精度。

附图说明

图1为本发明的深度网络模型压缩方法的流程示意图。

图2为本发明的深度网络模型压缩方法的改造用于训练的深度网络模型结构的方法流程示意图。

图3为本发明的深度网络模型压缩方法的训练改造的深度网络模型的方法流程示意图。

图4为本发明的深度网络模型压缩方法的改造用于预测的深度网络模型结构的方法流程示意图。

图5为本发明的深度网络模型压缩***的***结构示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

深度网络模型的压缩技术已经成为当下最热门的AI(人工智能)研究方向之一，其任务描述简单说明即，在模型精度不产生明显下滑的情况下，采用一些手段减少深度网络模型的参数量及其结构复杂度，从而达到模型压缩和加速的目的。

随着研究的深入，压缩技术也越来越多样，目前主流的技术路线大致可分为如下几种：

Network Quantization(网络参数量化)：即通过将参数进行量化(通过聚类等方式)达到减小模型存储量的目的，其中部分量化策略提供加速的功能；

Network Pruning(网络参数剪枝):即将对模型预测不重要的参数进行剪枝以达到减小模型存储，提升模型运算速度的目的；

Channel Pruning(通道剪枝):针对卷积网络，将对模型预测不重要的通道进行剪枝，以达到减小模型存储，提升模型运算速度的目的。

其中在网络参数量化技术中，根据不同的量化策略，也可分为向量聚类和Low-rank(低精度)量化，后者又可以细分为定长的浮点数限制表示、二进制表示和二值化表示等三种量化策略，即本发明所属的一种量化技术。

二值化表示作为压缩率最高的一种量化策略，其思想为，对深度网络模型的参数和激活值进行二值化(即-1/1)，从而将float计算转变为bit级逻辑运算。这样做不仅满足了压缩率，提升了网络的运算速度，并且可以将网络运行在FPGA等特殊的设备中，进一步优化模型运算。

经二值化表示的深度网络模型成为二值网络。

目前以BNN为主导的二值化策略都对网络的训练算法进行了很大的改变，其主要算法步骤为：

1.使用浮点型参数网络训练至收敛；

2.在正向传播中使用符号函数(Sign())进行参数(激活值)二值化；

3.在反向传播中使用符号函数的近似可微函数进行梯度传递和参数更新；

4.在浮点型参数网络模型基础上，进行fine-tune。

1.2.2分析现有同类产品的不足和缺陷(必须提供)

以BNN为代表的二值化策略有如下缺陷：

1.由于网络前向和后向传播路径不一致，其不仅需要对网络结构进行改造，而且也必须修改所使用的深度学习框架(如tensorflow)的BP实现；

2.由于模型训练过程中在正向传播通过符号函数直接对参数做转换，这种策略只能应用于对满足精度的普通参数模型进行fine-tune(微调)，这意味着其参数初始化必须是warm-start(热初始化)，即来源于预训练模型。

如图5所示，一种基于端到端二值化网络的深度网络模型压缩***，其特征在于，所述***包括：

网络模型训练单元，训练改造后的深度网络模型结构；

上述方案的工作原理为：网络结构改造单元通过使用符号函数(Sign)的近似函数对深度网络模型除Normalization(规范化)层外的所有参数进行转换。可选的，如要将激活值进行二值化，则使用符号函数对每层的激活值做转换，这样做会对模型复杂度要求更高。

此外，由于在正向传播中使用近似可微函数取代了符号函数，为了保证在深度网络模型收敛的同时，能够达到参数不断逼近+1/-1的目的，我们对经过近似函数转换的参数进行正则约束，如L1正则(||w|-1|),或者使用对数函数获得更强的约束(|log(|w|)|)。

如图1、图2、图3和图4所示，一种基于基于端到端二值化网络的深度网络模型压缩方法，所述方法执行以下步骤：

使用训练集对改造的深度网络模型进行训练；

改造用于预测的深度网络模型结构。

步骤1：训练数据输入到深度模型网络，进行正向传播；

步骤5：重复步骤1到步骤4，至满足如下条件：

深度网络模型的所有参数为不可训的状态；

深度网络模型在整个训练集上收敛；

其中所述β为设定的阈值，用于判断参数是否逼近+1/-1。

进一步的，所述所述改造用于预测的深度网络模型结构的方法还执行以下步骤：如果在训练中进行了激活值的二值化，则将模型的浮点型运算改为比特级逻辑运算，提升运算速度。

上述技术方案的工作原理为：二值化策略主要分为三步骤完成，改造用于训练的深度网络模型结构、训练改造的深度网络模型、改造用于预测的深度网络模型结构。其中，三个步骤之间顺序进行。

改造用于训练的深度网络模型结构是本发明的创新点，我们在深度网络模型的正向传播中摒弃了符号函数，而直接使用其近似可微函数，是前后向传播一致，从而达到了端到端可训的目的，不仅省去了预训练模型的麻烦，而且为后续模块的进行提供了便利。

训练改造的深度网络模型则是本发明的算法步骤的核心，通过训练经过改造的深度网络模型，能够将参数逼近到-1/+1,从而逐步达到参数二值化的目的，与此同时能够保证深度网络模型的收敛。

改造用于预测的深度网络模型结构则是真正用于生产环境的模型适配环节，通过参数的替换和训练阶段所增加的符号函数的近似可微函数的去除，进一步精简了网络结构。并且在激活值也进行二值化的情况下，还提供了深度网络模型运算的改造。

一种基于基于端到端二值化网络的深度网络模型压缩装置，所述装置包括：一种非暂时性的计算机可读存储介质，该存储介质存储了计算指令，其包括：使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的代码段；使用训练集对改造的深度网络模型进行训练的代码段；改造用于预测的深度网络模型结构的代码段。

综上所述，在深度网络模型二值化的过程中，摒弃一直以来使用的符号函数，转而在正向传播中采用其近似可微的函数，从而达到深度网络模型的正、反向传播一致性。同时为了保证参数向+1/-1逼近，从而达到二值化的目的，我们对添加函数转换的层额外进行正则约束。这一改进的有益效果为，不同于BNN等现有策略，本发明实现了端到端直接可训的过程，无需改变BP(方向传播)策略，从而对现有的深度学习框架无缝适配，大大降低了操作的难度。得益于第一点改进，本发明的二值化策略不在需要很好的参数初始化，故而本发明进一步将二值化过程中一直不可少的预训练环节省去，直接从头训练网络。这一改进的有益效果为，在没有增加深度网络模型的收敛难度和降低压缩率的情况下，大幅减小了算法复杂度，加速了二值化过程。我们还发现，即使不做深度网络模型参数二值化，而直接使用我们用于训练的改造模型进行训练和预测，反而加快了深度网络模型的收敛速度和测试精度。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种深度网络模型压缩***，其特征在于，所述***包括：

网络模型训练单元，训练改造后的深度网络模型结构；

2.一种深度网络模型压缩方法，其特征在于，所述方法执行以下步骤：

使用训练集对改造的深度网络模型进行训练；

改造用于预测的深度网络模型结构。

3.如权利要求2所述的深度网络模型压缩方法，其特征在于，所述使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的方法还执行以下步骤：使用近似函数取代符号函数，为了保证在深度网络模型收敛的同时，能够达到参数不断逼近+1/-1的目的，对经过近似函数转换的参数进行正则约束，如L1正则(||w|-1|),或者使用对数函数获得更强的约束(|log(|w|)|)。

4.如权利要求3所述的深度网络模型压缩方法，其特征在于，所述使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的方法海之行以下步骤：如要将激活值进行二值化，则使用符号函数对每层的激活值做转换。

5.如权利要求2所述的深度网络模型压缩方法，其特征在于，所述使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的方法执行以下步骤：

步骤1：训练数据输入到深度模型网络，进行正向传播；

步骤5：重复步骤1到步骤4，至满足如下条件：

深度网络模型的所有参数为不可训的状态；

深度网络模型在整个训练集上收敛；

其中所述β为设定的阈值，用于判断参数是否逼近+1/-1。

6.如权利要求5所述的深度网络模型压缩方法，其特征在于，所述改造用于预测的深度网络模型结构的方法执行以下步骤：将深度网络模型中所有经过符号函数的近似可微函数转换的参数由原始值替换为转换后的值，即-1/+1；去除深度网络模型中所有符号函数的近似可微函数转换的操作。

7.如权利要求6所述的深度网络模型压缩方法，其特征在于，所述所述改造用于预测的深度网络模型结构的方法还执行以下步骤：如果在训练中进行了激活值的二值化，则将模型的浮点型运算改为比特级逻辑运算，提升运算速度。

8.一种深度网络模型压缩装置，其特征在于，所述装置包括：一种非暂时性的计算机可读存储介质，该存储介质存储了计算指令，其包括：使用符号函数的近似函数对深度网络模型除规范化层外的所有层的所有参数进行转换，生成改造后的深度网络模型结构的代码段；使用训练集对改造的深度网络模型进行训练的代码段；改造用于预测的深度网络模型结构的代码段。