CN112150497A

CN112150497A - 基于二值神经网络的局部激活方法与***

Info

Publication number: CN112150497A
Application number: CN202011097835.5A
Authority: CN
Inventors: 潘赟; 惠思琦; 朱怀宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2020-12-29
Also published as: WO2022077903A8; US20230316738A1; WO2022077903A1

Abstract

一种基于二值神经网络的局部激活方法，前向传播过程中，通过比较中心像素与相邻像素的差值，进而判断局部激活值；前向传播过程中，通过设置合适的局部激活通道数量及激活方向，得到具备不同激活方向的局部激活特征图；前向传播过程中，利用可以学习的权重系数对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图；后向传播过程中，通过采用渐进正弦函数对二值神经网络的权重进行更新。以及提供基于二值神经网络的局部激活***。本发明能够有效减少二值激活过程中的信息损失；可以有效减少二值神经网络后向梯度更新过程中的梯度失配，从而提高二值神经网络的性能表现。

Description

基于二值神经网络的局部激活方法与***

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种基于二值神经网络的局部激活方法与***。

背景技术

深度神经网络是一种深度监督学***台上的应用。

近些年来，深度神经网络的压缩与加速逐渐成为研究热点，其中，二值神经网络通过将深度神经网络的权重与激活量化为{-1，+1},并将卷积运算替换为同或运算，理论上能够压缩32倍存储空间，实现58倍计算加速。

然而，传统的二值神经网络在激活的过程中，由于局部纹理信息的丢失与后向梯度更新的失配，导致二值神经网络的精度较低。

发明内容

为了克服二值神经网络激活过程中存在的缺陷，提高二值神经网络的性能，本发明提出了基于二值神经网络的局部激活方法与***。

本发明解决其技术问题所采用的技术方案是：

一种基于二值神经网络的局部激活方法，所述局部激活方法包括：

前向传播过程中，通过比较输入图像中各个像素与相邻像素的差值，进而判断各个像素的局部激活值；

前向传播过程中，通过设置合适的局部激活通道数量及激活方向，得到具备不同激活方向的局部激活特征图；

前向传播过程中，利用可以学习的权重系数对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图。

后向传播过程中，通过采用渐进正弦函数对二值神经网络的权重进行更新，并得到梯度更新后的二值神经网络。

进一步，所述的局部激活方法的前向过程中，通过比较输入图像中各个像素与相邻像素的差值，进而判断各个像素的局部激活值，所述局部激活值的判断方法为：

其中，LBA_i(x)为所述的特定激活方向上局部激活输出，x表示待激活的中心像素，x_i表示与x相邻的第i个像素，并将中心像素x左上角的像素标记为x₀，其余相邻像素按顺时针方向进行编号，i＝{0,1,2,...,N-1}，N表示用来构成局部激活输出的相邻像素数量，sign为符号函数。

优选的，所述前向激活过程中，设置合适的局部激活通道数量及激活方向，得到具备不同激活方向与通道数量的局部激活特征图，在前向激活过程中，所述特征图局部激活方法为：

其中，F^l表示第l层输入特征图，F^l,b表示第l层的局部激活特征图，b表示二值量化，LBA_i表示特定激活方向上的局部激活函数，N表示所述的局部激活通道数量，N的取值范围为N＝{1,2,3,...,8}。

N＝1,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)，i∈{0,1,2,...,7}；

N＝2,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)，i,j∈{0,1,2,...,7},i≠j；

N＝3,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)，i,j,k∈{0,1,2,...,7},i≠j≠k；

N＝4,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)+LBA_l(F^l)，i,j,k,l∈{0,1,2,...,N-1},i≠j≠k≠l；

N＝5,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)+LBA_l(F^l)+LBA_m(F^l),

i,j,k,l,m∈{0,1,2,...,N-1},i≠j≠k≠l≠m；

N＝6,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)+LBA_l(F^l)+LBA_m(F^l)+LBA_n(F^l),

i,j,k,l,m,n∈{0,1,2,...,N-1},i≠j≠k≠l≠m≠n；

N＝7,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)+LBA_l(F^l)+LBA_m(F^l)+LBA_n(F^l)+LBA_o(F^l),

i,j,k,l,m,n,o∈{0,1,2,...,N-1},i≠j≠k≠l≠m≠n≠o；

N＝8,其局部激活特征图为：

再进一步，利用可以学习的权重系数，对经过局部激活及直接激活的输出特征图进行融合，并得到同时包含纹理特征与轮廓特征的输出特征图，所述融合方法为：

其中，F^l表示第l层的输入特征图，F^l+1表示第l+1层的输入特征图，DBA表示直接激活函数，LBA_i表示特定激活方向上的局部激活输出,W表示直接激活通道的二值化权重，W_i表示第i个局部激活通道的二值化权重，BinConv表示二值化卷积运算，α表示直接激活通道的权重系数，β_i表示局部激活通道的权重系数，其中，α与β_i可以在后向梯度传播过程中得到更新。

更进一步，通过采用渐进正弦函数对二值神经网络的权重进行更新，并得到梯度更新后的二值神经网络。所述渐进正弦函数为：

其中，t为和训练步数正相关的超参数，sin为正弦函数，cos为余弦函数，sign为符号函数，

为分段函数的连接点。

一种基于二值神经网络的局部激活***，所述***包括：

局部激活单元，用于比较输入图像中各个像素与相邻像素的差值，进而判断各个像素的局部激活值；

激活组合单元，用以得到具备不同激活方向的局部激活特征图

融合单元，用以对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图

一种基于二值神经网络的局部激活***，所述***包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在执行时使所述处理器执行以下操作：

前向传播过程中，利用可以学习的权重系数对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图；

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

本发明的有益效果主要表现在：本发明基于二值神经网络的局部激活方法，前向过程中，通过局部激活提取输入图像的纹理特征，并与通过直接激活提取的轮廓特征进行融合，能够有效减少二值激活过程中的信息损失；后向传播过程中，通过采用渐进正弦函数对二值神经网络的权重进行更新，可以减少后向传播过程中的梯度失配，进而提高二值神经网络的性能表现。

附图说明

图1是本发明基于二值神经网络的局部激活方法的流程图；

图2是本发明局部激活算法的示意图；

图3是本发明的渐进正弦函数的示意图；

图4是本发明基于二值神经网络的局部激活***的模块结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于二值神经网络的局部激活方法，前向传播过程中，通过局部激活函数，可以提取输入图像的纹理特征，并利用可学习的权重系数对直接激活通道与局部激活的输出特征图进行融合，可以有效减少前向传播过程中由于二值激活导致的纹理信息损失；后向传播过程中，通过采用渐进正弦函数对二值神经网络的权重进行更新，可以有效减少二值神经网络后向梯度更新过程中的梯度失配，从而提高二值神经网络的识别精度。

为使本发明的上述目的、特征和有点能够更加明显易懂，下面将结合附图和具体实时方式对本发明方法作进一步详细的说明。

如图1所示，本发明基于二值神经网络的局部激活方法包括：

步骤1：前向传播过程中，通过比较输入图像中各个像素与相邻像素的差值，进而判断各个像素的局部激活值，通过比较输入图像中各个像素与0的差值，进而判断各个像素的直接激活值；

步骤2：前向传播过程中，通过设置合适的局部激活通道数量及激活方向，得到具备不同激活方向的局部激活特征图；

步骤3：前向传播过程中，利用可以学习的权重系数对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图；

步骤4：后向传播过程中，通过采用渐进正弦函数对二值神经网络的权重进行更新，并得到梯度更新后的二值神经网络。

在步骤1中，所述局部激活与直接激活的具体步骤如下：

步骤1-1：如图2所示，局部激活函数通过比较输入图像中的中心像素与相邻像素的大小，进而判断输入像素的局部激活值。所述激活函数为：

其中，LBA_j(x)为所述的特定方向上局部激活输出，x表示待激活的中心像素，x_j表示与x相邻的第j像素，j＝{0,1,2,...,N}，N表示用来构成局部激活输出的相邻像素数量，sign为符号函数。

步骤1-2：直接激活函数通过比较输入图像中各个像素点与0的大小，进而判断输入像素的直接激活值。所述直接激活函数为：

其中，DBA(x)为所述的直接激活函数,x表示待激活的中心像素，sign为符号函数。

步骤2中，设置合适的局部激活通道数量及激活方向，得到具备不同激活方向与通道数量的局部激活特征图，具体包括：

设置N＝4，采用的局部激活特征激活函数为：

F^l,b＝LBA₀(F^l)+LBA₃(F^l)+LBA₅(F^l)+LBA₇(F^l)

其中，F^l表示第l层输入特征图，F^l,b表示第l层的局部激活特征图，b表示二值量化，LBA₀，LBA₃(F^l)，LBA₅(F^l)，LBA₇(F^l)表示特定激活方向上的局部激活特征图。

步骤3：利用可以学习的权重系数，对经过局部激活及直接激活的输出特征图进行融合，并得到同时包含纹理特征与轮廓特征的输出特征图，其中，所述融合函数为：

其中，F^l表示第l层的输入特征图，F^l+1表示第l+1层的输入特征图，DBA表示直接激活输出，LBA_j表示特定方向上局部激活输出,W表示直接激活通道的二值化权重，W_j表示第j个局部激活通道的二值化权重，BinConv表示二值化卷积运算，α表示直接激活通道的权重系数，β_j表示局部激活通道的权重系数。

步骤4：采用渐进正弦函数对sign激活函数进行近似，进而减少后向更新的梯度失配问题，所述渐进正弦函数为：

其中，t为超参数，sin为正弦函数，cos为余弦函数，sign为符号函数，

为分段函数的连接点。超参数t的取值方法为：

其中，参数t_min设置为π/3，参数t_max设置为1.5π，T_cur为当前训练步数，T_max为最大训练步数。

优选地，为了保持二值神经网络的精度，所述二值神经网络的第一层和最后一层的模型参数不进行二值化。

基于上述方法，本发明采用ResNet-20模型与四通道局部激活分别在CIFAR-10、CIFAR-100、SVHN标准数据集上进行验证，结果如表1：

表1

基于上述方法，本发明分别采用ResNet-18、ResNet-20、VGG-small模型与四通道局部激活在CIFAR-10数据集上进行验证，结果如表2：

表2

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

此外，本发明还提供一种基于二值神经网络的局部激活***。具体地，如图3所示，本发明基于二值神经网络的局部激活***包括局部激活单元1、激活组合单元2、融合单元3.

所述局部激活单元1，用于比较输入图像中各个像素与相邻像素的差值，进而判断各个像素的局部激活值；所述激活组合单元2，用以得到具备不同激活方向的局部激活特征图；所述融合单元3，用以对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图.

进一步地，本发明还提供一种基于二值神经网络的局部激活***，包括：

处理器；以及

本发明还提供一种计算机可读存储介质、所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

相对于现有技术，本发明基于二值神经网络的局部激活***、计算机可读存储介质与上述二值神经网络的局部激活方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于二值神经网络的局部激活方法，其特征在于，所述局部激活方法包括：

2.如权利要求1所述的基于二值神经网络的局部激活方法，其特征在于，所述的局部激活方法的前向过程中，通过比较输入图像中各个像素与相邻像素的差值，进而判断各个像素的局部激活值，所述局部激活值的判断方法为：

。

3.如权利要求1或2所述的基于二值神经网络的局部激活方法，其特征在于，所述前向激活过程中，设置合适的局部激活通道数量及激活方向，得到具备不同激活方向与通道数量的局部激活特征图，在前向激活过程中，所述特征图局部激活方法为：

N＝1,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)，i∈{0,1,2,...,7}；

N＝2,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)，i,j∈{0,1,2,...,7},i≠j；

N＝3,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)，i,j,k∈{0,1,2,...,7},i≠j≠k；

N＝4,所述局部激活特征图为：

N＝5,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)+LBA_l(F^l)+LBA_m(F^l),

i,j,k,l,m∈{0,1,2,...,N-1},i≠j≠k≠l≠m；

N＝6,所述局部激活特征图为：

F^l,b＝LBA_i(F^l)+LBA_j(F^l)+LBA_k(F^l)+LBA_l(F^l)+LBA_m(F^l)+LBA_n(F^l),

i,j,k,l,m,n∈{0,1,2,...,N-1},i≠j≠k≠l≠m≠n；

N＝7,所述局部激活特征图为：

i,j,k,l,m,n,o∈{0,1,2,...,N-1},i≠j≠k≠l≠m≠n≠o；

N＝8,其局部激活特征图为：

。

4.如权利要求1或2所述的基于二值神经网络的局部激活方法，其特征在于，利用可以学习的权重系数，对经过局部激活及直接激活的输出特征图进行融合，并得到同时包含纹理特征与轮廓特征的输出特征图，所述融合方法为：

5.如权利要求1或2所述的基于二值神经网络的局部激活方法，其特征在于，通过采用渐进正弦函数对二值神经网络的权重进行更新，并得到梯度更新后的二值神经网络。所述渐进正弦函数为：

为分段函数的连接点。

6.一种基于二值神经网络的局部激活***，其特征在于，所述***包括：

融合单元，用以对经过局部激活与直接激活的输出特征图进行通道融合，并得到同时包含纹理特征与轮廓特征的输出特征图。

7.一种基于二值神经网络的局部激活***，其特征在于，所述***包括：

处理器；以及

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：