CN115908896A

CN115908896A - 基于带自注意力机制脉冲神经网络的图片识别***

Info

Publication number: CN115908896A
Application number: CN202211337231.2A
Authority: CN
Inventors: 杨旭; 李煜东; 雷云霖; 陈耀宇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-04-04

Abstract

基于带自注意力机制脉冲神经网络的图片识别***，包括：编码模块、注意力模块、解码模块。编码模块由卷积编码层和位置编码构成，接收输入图片序列生成包含输入图片序列特征信息的脉冲序列。注意力模块由多层自注意力块组成，接收脉冲序列序列，分别经过时间和空间自注意力操作的处理，输出时空特征更丰富的脉冲序列。解码模块接收脉冲序列，通过序列池化压缩提取到最终的特征向量并送入分类头，得到图片识别结果。本发明构建了一种新型的基于脉冲神经网络用于图片识别的架构，并在图片识别任务上达到了在脉冲神经网络中截至目前业界最先进的效果。

Description

基于带自注意力机制脉冲神经网络的图片识别***

技术领域

本发明属于人工智能、脉冲神经网络技术领域，涉及利用人工智能尤其是脉冲神经网络的图像识别技术，特别涉及一种基于带自注意力机制脉冲神经网络的图片识别***。

背景技术

在目前训练脉冲神经网络的网络架构中，主要都在是用传统的卷积神经网络架构。而卷积神经网络因为其局部感受野的特性，需要堆叠很多层才能最后获得一个较大的感受野。而近些年提出来的自注意力模型则是解决了这个问题，因为自注意力操作所带来的全局感受野，自注意力模型在自然语言处理领域带来了极大的影响，已经成为了具有主导地位的方法。因为其在建模长距离联系的强大能力，它也被应用在了视觉领域，并且取得了颇有成效的结果。但由于其缺少卷积神经网络所拥有的归纳偏置，需要大量的数据进行训练，此外其训练时所表现出来的次优化性使其难以训练，上述种种因素导致现如今自注意力模型还并没有被应用在脉冲神经网络领域。

而在图片识别领域，目前所使用的模型大多为基于传统神经网络的卷积神经网络和自注意力模型。但这些模型在实际应用时都面临着功耗和精度之间的权衡，精度高的往往有着不可接受的功耗，而具有相对较低功耗的模型往往不具备足够高的精度。而且即便是相对较低功耗的模型，相对于人脑而言，其功耗也是多出了多个数量级，如何实现用人脑的功耗来实现接近甚至超越人脑图片识别的精度仍是一个难已解决的技术问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于带自注意力机制脉冲神经网络的图片识别***，第一目的在于实现图片的高精度识别，第二目的在于降低识别过程或其所依托硬件资源的功耗。

为了实现上述目的，本发明采用的技术方案是：

基于带自注意力机制脉冲神经网络的图片识别***，包括：

编码模块，经过一层卷积编码层将输入的图片序列转化为脉冲序列，再加入可学习的位置编码，得到带有时空信息的图片脉冲序列；

注意力模块，由若干层多头自注意力块堆叠而成，每层多头自注意力块由层归一化、时间多头注意力机制、空间多头注意力机制和多层感知器四个模块构成；所述层归一化将所述带有时空信息的图片脉冲序列进行归一化处理，稳定网络的学习过程；所述时间多头注意力机制进行时间维度上特征的抽取，所述空间注意力机制对空间维度上特征进行抽取，所述多层感知器为网络增加非线性因素，增强网络的表征能力；

解码模块，接收经过注意力模块处理后的脉冲序列，通过序列池化得到最终的特征向量，最后送入全连接头进行图片识别。

本发明还提供了利用所述基于带自注意力机制脉冲神经网络的图片识别***的图片识别方法，包括如下步骤：

利用摄像机拍摄采集图片，获取任意所需数量的图片；

对所述图片进行归一化处理，并将每张图片复制P次形成图片序列；

将处理后的图片以序列形式送入所述编码模块，经编码和注意力机制，从解码模块输出识别结果；

将所述识别结果展示。

本发明还进一步提供了一种图片识别设备，包括：

图片采集部分，用于采集待识别的图片；

图片预处理部分，用于对采集的图片进行归一化处理和复制P次形成图片序列；

处理与存储部分，存储并运行所述图片识别***，以所述图片预处理部分得到的图片序列为输入，得到识别结果；

显示部分，将识别结果与原始图片同时展现。

与现有技术相比，本发明的有益效果是：

1.本方法使用基于自注意力机制的脉冲神经网络提供了一种低功耗、高精度的图片识别方法。

2.本方法的网络结构相对于常用的卷积神经网络，拥有全局感受野，更强的时空建模能力，能更加有效地运用脉冲神经元固有的时空特性，能够更好地利用有限参数来捕捉图片中的信息，实现高精度的图片识别***。

3.本方法由于脉冲神经元由于自身神经动力学方程决定的漏电特性，在实际进行图片识别时，表现出非常低的激发频率，而在不激发时，网络没有活动，整个网络表现出的稀疏的脉冲激发特性使其只有非常小的一部分在工作，由此实现了低功耗的图片识别。

附图说明

图1为本发明总体概览的示意图。

图2为卷积编码层的示意图。

图3为原始残差网络中残差块的示意图。

图4为注意力块的示意图。

图5为序列池化的示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明提供了一种基于带自注意力机制脉冲神经网络的图片识别***，采用一种新的训练脉冲神经网络的架构，推动脉冲神经网络的发展，同时利用脉冲神经网络低功耗的特点，为图片识别提供一种高精度、低功耗的模型。

如图1所示，本发明的图片识别***，采用卷积编码层处理输入并用自注意力层提取时空信息的结构，其具体包括：

编码模块，接收图片数据对其编码形成脉冲序列。具体地，经过一层卷积编码层将输入图片序列转化为脉冲序列，再加入可学习的位置编码，得到带有时空信息的图片脉冲序列。

注意力模块，由多层多头自注意力块堆叠而成，接收脉冲序列序列，分别经过时间和空间自注意力操作的处理，输出时空特征更丰富的脉冲序列。具体地，每个多头自注意力块由层归一化、时间多头注意力机制、空间多头注意力机制和多层感知器四个模块构成。层归一化将输入的向量进行归一化处理，稳定网络的学习过程，时间多头注意力机制进行时间维度上特征的抽取，空间注意力机制对空间维度上特征进行抽取，多层感知器为网络增加非线性因素，增强网络的表征能力。

解码模块，接收所述脉冲序列，通过序列池化压缩提取得到最终的特征向量，最后送入对应任务所需要的输出处理器，如图片处理需要的全连接头，得到图片识别结果。

在本发明的图片识别***中，由于***中集成了能够捕捉丰富时空信息的时空注意力机制，使得其能够更加有效地运用脉冲神经元固有的时空特性，并利用有限参数捕捉图片中的信息，从而实现高精度的图片识别。同时，由于脉冲神经元的漏电特性，使得整个***的功耗远较常规深度模型要低。

在本发明的实施例中，编码模块包括卷积编码层和位置编码。如图2所示，卷积编码层是一个面向脉冲神经网络设计的卷积神经网络，可以将输入的图片序列转化为脉冲序列，公式化表达如下：

Conv(x)＝SN(BN(Conv2d(x))),

CT_d(x)＝Conv(Conv(x))+Conv(AvgPool(x)),

CT(x)＝Conv(Conv(x))+x

其中输入图片序列被标识为

T代表序列的时间维度，C代表图片的通道数，若是RGB图片则通道数为3，H和W分别代表图片的高和宽。Conv2d代表常规的卷积操作，BN为批量归一化层，SN代表脉冲神经元，AvgPool代表平均池化层，CT_d代表具有下采样的卷积编码层，CT代表无下采样的常规卷积编码层。

位置编码用于在脉冲序列中加入时空的相对次序信息，让网络结构拥有更高的处理时空信息的能力，公式化表达如下：

z_(p,t)＝a_(p,t)+e_(p,t)

其中

D为输入图片序列经过卷积编码层处理之后的通道数，卷积编码层处理后的向量为

D，H′，W′分别为处理后图片特征的通道数、高度和宽度。将处理后向量的高和宽展开成一维，得到

其中N＝H′×W′，而a_(p,t)则代表a在T中第t维和在N第p维的向量表示，

代表对应时空位置上初始化为0的可学习编码。

在本发明的实施例中，卷积编码层和自注意力块中的脉冲神经元均使用膜电位表示状态，使用常微分方程更新状态，方程参数为具有非线性时变特性的神经元内参数，脉冲神经元状态由当前状态和输入突触的影响共同更新，脉冲神经元本身的实时膜电位随时间推移有向静息电位恢复的趋势。

具体地，脉冲神经元对应的状态方程数学式如下：

其中，H[t]和V[t]分别对应脉冲神经元在时间步t＝1,2,...,T接受输入后和触发脉冲后的膜电位，而当t＝0时，神经元状态均初始化为0；

X[t]是时间步t时接受来自上一层网络的输入，经过脉冲神经元处理后转化成脉冲序列，τ是膜时间常数，定义如下式：

C_m表示脉冲神经元的膜电容，g_l为脉冲神经元的膜电导；

触发脉冲的公式如下：

S[t]＝Θ(H[t]-V_th)

S[t]是时间步t时的输出脉冲，Θ(x)是阶跃函数，当x>0时，Θ(x)＝1，否则Θ(x)＝0。V_th是激发脉冲的阈值。对于不同种类的脉冲神经元，传递到下一层的S[t]也不同，例如对于基于脉冲和基于模拟的漏电积分放电模型，传递到下一层的输入分别为S[t]和ReLU(H[t])，其中ReLU为线性整流函数，当输入大于0时返回原输入，当输入小于等于0时返回0。

更新触发脉冲之后的H[t]，得到V[t]的公式为：

V[t]＝H[t](1-S[t])+V_resetS[t]

V_reset是触发脉冲之后的重置电位。

其中，脉冲神经元的激发函数，即阶跃函数，在进行反向传播时因为不可微的特性，因此无法直接进行梯度回传，因此采用模拟梯度函数替换其在计算图中的位置，模拟函数公式为：

求导后导数为：

α为人为指定的超参数，用于控制模拟梯度函数的坡度。用该函数替代反向传播时的阶跃函数即可成功回传梯度，使网络正常使用深度学习框架来进行反向传播。

如图4所示，在本发明的实施例中，时间注意力机制和空间注意力机制均为自注意力操作，区别在于一个是在时间维度上进行操作，一个是在空间维度上进行操作。

其中，空间自注意力机制的操作公式化如下：

时间自注意力机制的操作公式化如下：

l＝1,...,L代表着多头自注意力块的所属层数，h＝1,...,H，代表多头自注意力所属头，p/p′＝1,...,N，代表向量在空间维度所处位置，t/t′＝1,...,T，代表向量在时间维度所处位置，L，H，N，T分别代表多头自注意力块的总层数、多头自注意力块的总头数、多头自注意力块的总空间和时间维数。

为k/q/v在第l层多头自注意力块的第h个头的向量在空间位置p、时间位置t的向量。给定经过位置编码处理后的输出z，可以通过对z进行一次线性变换得到k/q/v，SM(x)是归一化指数函数，用于将给定向量x归一化成和为1的概率分布，D_h＝D/H为每个头的维度，其中D为输入向量的维数。

最后自注意力操作再将每个头拼接起来做一次线性映射便得到了最终的结果：

s为经过时间或空间多头自注意力处理后的具有更加丰富的时空表示的输出向量，Concat(x,...,y)为拼接函数，W_O为线性映射矩阵；

多层感知器由全连接层和脉冲神经元组成，公式化如下：

z^(l)＝FC(SN(FC(s^(l))))

s^(l)为第l层多头自注意力块的输入先后经过时间和空间多头自注意力机制处理后的结果，z^(l)为第l层多头自注意力块的最终的输出，FC代表全连接层，SN代表脉冲神经元。

在本发明的实施例中，解码模块包括序列池化层和全连接分类头。

如图5所示，序列池化层能够主动学习分配不同的权重至不同序列段特征，公式化如下：

o＝SM(FC(z^(L)))^Tz^(L)

其中L表示z^(L)为最后一层多头自注意力块的输出，最后将得到的o送入全连接分类头中得到最后的网络图片识别的结果。

在本发明的一个具体实施例中，详细阐述了本发明图片识别***在接收图片识别数据集ImageNet中的应用。

ImageNet为大型的图片识别数据集，总共有一千个类，分为训练集和验证集，其中训练集中包含一百三十万张图片，验证集中包含五万张图片，每张图片都有对应的标签。

再次参考图1，本实施例采用八层卷积神经网络和七个自注意力块堆砌的结构，包括：

编码模块，对应卷积编码层和位置编码，接受图片格式文件，为了切合脉冲神经元处理时序任务的特性，将一张图片重复多次后模拟成时序输入进卷积编码层将图片输入转化成脉冲序列，多层的卷积神经网络可以让编码层感受野更大，同时卷积头的下采样步骤还可以用于控制计算复杂度，达到精度和效率的平衡；虽然卷积神经网络和脉冲神经元中蕴含了空间和时间位置信息，但是加入位置编码并不会造成负面影响，因此保留原有自注意力模型中的位置编码；参考图2和图3，所使用的卷积神经网络与传统的残差网络中的卷积神经网络不同，当网络权重是使用全零初始化时，原有残差网络对于非脉冲神经元的激活函数可以保持恒等映射，但是由于脉冲神经元的漏电特性，输入到输出会不断衰减，因此达到恒等映射的条件较为苛刻，而更改之后的连接方式，由于侧枝连接的输入不会再经过脉冲神经元处理，因此不会衰减，从而可以达到恒等映射，让网络能够更好地学习。其中卷积神经网络每两层为一个块，每层卷积核的大小均为(3,3)，总共四个块，每个块的维度分别为64，128，256，512，并且每个块都会将输入下采样一次，每次使最终输入自注意力块的编码长度减少四倍。

注意力模块，参考图4，包含层归一化、时间注意力机制、空间注意力机制和多层感知器。层归一化对输入数据进行归一化处理，让网络训练更加稳定，同时减小训练批量数小的影响。此处的时空注意力为分解后的时空注意力，时间注意力计算目标块和不同时间步中相同位置的块的自注意力分数，空间注意力计算同一时间步中不同位置的块的自注意力分数。多层感知器中包含两层全连接网络和一层脉冲神经元，用于给网络增加非线性元素，使网络的表征能力更强。其中每一层的参数均相同，使用8头注意力，多层感知器中间层的放大倍数为3，每层编码的维度为512维。

解码模块，参考图5，使用序列池化将注意力模块处理后的信息压缩并送入全连接分类头，因为ImageNet共有1000个类，因此全连接分类头共有1000个神经元。最后将所得1000维的输出经过归一化指数函数处理得到概率值得到最终的分类结果。在本案例中，输出的1000维向量的各维度对应了本次输入的特征向量识别为该维度的图片的概率，比如(0.95，0,0.01，···，0.04)，该向量中最大的分量0.95的维度对应的图片为ImageNet中的第一类图片，即说明这次输入的特征向量对于***而言最有可能是ImageNet中的第一类图片，因此输出对应的识别结果，例如此时便输出结果：鲤鱼。

在本发明图片识别***的使用，也即图片识别方法中，主要包括如下步骤：

步骤1，利用摄像机等设备，拍摄采集图片，图片的数量根据需要可以为任意值。

步骤2，对采集的图片进行预处理，主要包括归一化处理，以及将每张图片复制P次形成图片序列。在本发明的一个实施例中，归一化处理可以是：将0～255像素值的图片除以255，使其输入值在0～1之间。为与上述的具体实施例匹配，P＝4。

步骤3，将处理后的图片以序列形式送入编码模块，经编码和注意力机制，即可从解码模块输出识别结果。

步骤4，将识别结果以设定的任意形式展示，例如文字、表格等形式。

相应地，可进一步提供一种图片识别设备，包括：

图片采集部分，用于采集待识别的图片。其在硬件上，可以为彩色摄像机或事件摄像机等硬件设备。

图片预处理部分，用于对采集的图片进行归一化处理和复制P次形成图片序列。图片预处理部分可以是一个集成的软件模块。

处理与存储部分，存储并运行本发明的图片识别***，以图片预处理部分得到的图片序列为输入，得到识别结果。

显示部分，将识别结果与原始图片同时展现。示例地，其可以在原始图片上以文字形式标注分类结果的方式展现最终的效果。

其中，图片预处理部分和处理与存储部分可以集成为一体。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，包括：

2.根据权利要求1所述基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，所述编码模块包括卷积编码层和位置编码；

所述卷积编码层是一个面向脉冲神经网络设计的卷积神经网络，用于将输入的图片序列转化为脉冲序列；

所述位置编码用于在所述脉冲序列中加入时空的相对次序信息。

3.根据权利要求1所述基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，所述卷积编码层和注意力模块中的脉冲神经元使用膜电位表示状态，使用常微分方程更新状态，方程参数为具有非线性时变特性的神经元内参数，脉冲神经元状态由当前状态和输入突触的影响共同更新，脉冲神经元本身的实时膜电位随时间推移有向静息电位恢复的趋势。

4.根据权利要求3所述基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，所述脉冲神经元对应的状态方程数学式如下：

其中，H[t]和V[t]分别对应脉冲神经元在时间步t＝1,2,...,T接受输入后和触发脉冲后的膜电位，当t＝0时，神经元状态均初始化为0；

C_m表示脉冲神经元的膜电容，g_l为脉冲神经元的膜电导；

触发脉冲的公式如下：

S[t]＝Θ(H[t]-V_th)

S[t]是时间步t时的输出脉冲，Θ(x)是阶跃函数，当x>0时，Θ(x)＝1，否则Θ(x)＝0，V_th是激发脉冲的阈值；

更新触发脉冲之后的H[t]，得到V[t]的公式为：

V[t]＝H[t](1-S[t])+V_resetS[t]

V_reset是触发脉冲之后的重置电位。

5.根据权利要求4所述基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，采用模拟梯度函数替代反向传播时脉冲神经元的激发函数在计算图中的位置，模拟梯度函数公式为：

求导后导数为：

α为人为指定的超参数，用于控制模拟梯度函数的坡度。

6.根据权利要求1所述基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，所述时间注意力机制和空间注意力机制均为自注意力操作，分别在时间维度和空间维度上进行操作；

所述空间自注意力机制的操作公式化如下：

所述时间自注意力机制的操作公式化如下：

l＝1,...,L，代表多头自注意力块的所属层数，h＝1,...,H，代表多头自注意力所属头，p/p′＝1,...,N，代表向量在空间维度所处位置，t/t′＝1,...,T，代表向量在时间维度所处位置，L，H，N，T分别代表多头自注意力块的总层数、多头自注意力块的总头数、多头自注意力块的总空间和时间维数；

为k/q/v在第l层多头自注意力块的第h个头的向量在空间位置p、时间位置t的向量；给定经过位置编码处理后的输出z，通过对z进行一次线性变换得到k/q/v，SM(x)是归一化指数函数，用于将给定向量x归一化成和为1的概率分布，D_h＝D/H为每个头的维度，其中D为输入向量的维数；

最后自注意力操作再将每个头拼接起来做一次线性映射，得到最终的结果：

所述多层感知器由全连接层和脉冲神经元组成，公式化如下：

z^(l)＝FC(SN(FC(s^(l))))

7.根据权利要求1所述基于带自注意力机制脉冲神经网络的图片识别***，其特征在于，所述解码模块包括序列池化层和全连接分类头；

所述序列池化层主动学习并分配不同的权重至不同序列段特征，公式化如下：

o＝SM(FC(z^(L)))^Tz^(L)

8.利用权利要求1所述基于带自注意力机制脉冲神经网络的图片识别***的图片识别方法，包括如下步骤：

利用摄像机拍摄采集图片，获取任意所需数量的图片；

将所述识别结果展示。

9.图片识别设备，包括：

图片采集部分，用于采集待识别的图片；

处理与存储部分，存储并运行权利要求1所述图片识别***，以所述图片预处理部分得到的图片序列为输入，得到识别结果；

显示部分，将识别结果与原始图片同时展现。

10.根据权利要求9所述图片识别设备，其特征在于，所述图片采集部分为彩色摄像机或事件摄像机；所述显示部分，以在原始图片上以文字形式标注分类结果的方式展现。