CN113537472A

CN113537472A - 一种低计算和存储消耗的双向递归神经网络

Info

Publication number: CN113537472A
Application number: CN202110841564.8A
Authority: CN
Inventors: 任海青; 杨林; 王浩枫
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-22
Anticipated expiration: 2041-07-26
Also published as: CN113537472B

Abstract

本发明涉及一种低计算和存储消耗的双向递归神经网络，属于人工智能技术领域。本发明的正向时序特征识别阶段正向地接收输入的时间序列，并在每个时刻计算相应时刻的输出，生成输出序列；逆向时序特征识别阶段，这个阶段以第一个阶段为基础，逆向地接收输入的时间序列以及第一个阶段的输出序列，并在每个时刻计算相应的结果；最终根据第二个阶段输出的结果进行时间序列的分类。本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小，可应用于多种时间序列处理的任务，对相关算法设计起指导作用，有助于相关算法在端侧低功耗限制的硬件上的实现。

Description

一种低计算和存储消耗的双向递归神经网络

技术领域

本发明属于人工智能技术领域，具体涉及一种低计算和存储消耗的双向递归神经网络。

背景技术

随着人工智能技术的快速发展，深度神经网络在模式识别、人机交互等领域得到了广泛的应用。主流的深度神经网络包括卷积神经网络和递归神经网络两种。其中，递归神经网络是一种专门处理时间序列的神经网络，常被应用于语音识别、文本分析、自然语言处理、手势识别等有时间顺序特征的任务。

递归神经网络一般分为单向递归神经网络和双向递归神经网络两大类。递归神经网络的输入一般是一个时间序列，通过学习序列的时序特征，对序列进行分类或者预测。单向递归神经网络接收正向的输入时间序列，学习正向时间序列中的时序特征，并依据时序特征进行分类。双向递归神经网络一般包括两个单向的递归神经网络，一个单向的递归神经网络接收正向的输入时间序列，学习正向序列的时序特征，另外一个接收逆向的输入时间序列，学习逆向序列的时序特征，最后整合这两种特征，对输入的时间序列进行分类。各个领域大量的实验数据表明，相比于单项递归神经网络，双向递归神经网络往往具有更高的分类和预测的精确度。这说明对于一个输入的时间序列，从它的逆向序列中学习到的特征，能够有效的提升当前时间序列的分类效果。

但是，由于双向递归神经网络要同时计算正向和逆向两个方向的迭代，因而在同样的计算环境下，计算时间要比单向递归神经网络慢很多，尤其在处理较长的序列数据时，计算消耗的问题就更为明显。以手写汉字识别为例，递归神经网络的输入为手写汉字的轨迹坐标序列，给定输入x＝(x₁,x₂,…,x_t,…,x_T)，序列长度为T，单向递归神经网络每一时刻接收手写汉字轨迹中的一个坐标点，共进行T次迭代计算。但是双向递归神经网络需要计算正向和逆向共2T次迭代计算，在隐含层数量以及维度一定时，计算开销是单向神经网络的两倍。此外，双向递归神经网络计算正向序列和逆向序列是两套不同的参数，存储开销比单向递归神经网络也大很多。在一些端侧的设备上，由于功耗和存储的限制，对智能算法模型的大小和计算消耗有着严格的要求，因而探索高精度、低计算消耗、低存储消耗的算法模型对于嵌入式设备智能化发展有着重要的意义。

近年来，研究者们针对递归神经网络模型结构的研究取得了一些列重要的成果，但仍然存在不足之处。本发明主要针对以下两点不足之处，对递归神经网络进行了改进。

(1)单向神经网络无法学习到时间序列中正向和逆向两种时序信息，逆向时序信息的缺失导致网络识别精度不够。

(2)双向递归神经网络需要两个具有不同参数的单向递归神经网络分别学习时间序列中正向和逆向的时序信息，计算、存储开销较大。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种低计算和存储消耗的双向递归神经网络，以解决递归神经网络逆向时序信息的缺失导致网络识别精度不够、计算、存储开销较大等方面的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种低计算和存储消耗的双向递归神经网络，该神经网络包括输入层、特征提取层和输出层，特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层；

输入层用于输入经过预处理之后的时间序列；

正向特征提取层用于基于单向的递归神经网络学习输入时间序列中的正向时序特征信息；

特征处理层用于学习到的正向时序特征与输入时间序列整合到一起，作为下一层递归神经网络的输入；

逆向特征提取层用于接收特征处理层中整合完成的特征，基于单向的递归神经网络学习输入时间序列中的逆向时序信息；

输出层用于输出时序特征。

进一步地，所述正向特征提取层具体包括：对于一个输入的时间序列x＝(x₁,x₂,…,x_t,…,x_T)，递归神经网络在t时刻接收输入x_t，根据前一时刻的输出h_t-1，计算出当前时刻的输出h_t，经过T个时刻的迭代，最终得到正向特征序列h＝(h₁,h₂,…,h_t,…,h_T)。

进一步地，所述正向特征提取层的具体实现方法如下：给定输入时间序列x＝(x₁,x₂,…,x_t,…,x_T)，其中，x_t为列向量，将输入时间序列各个时间时刻的向量x_t送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

h₁＝H(x₁,h₀,θ)

h_t＝H(x_t,h_t-1,θ) (1)

其中，h₀表示隐含层状态向量的初始状态，h₀＝0，h₁表示在时刻1的隐含层状态向量，h_t表示在时刻t的隐含层状态向量，

表示计算隐含层状态的函数，θ表示相应的神经网络的参数；经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态h＝(h₁,h₂,…,h_t,…,h_T)，即为通过单向递归神经网络提取到的正向时序特征。

进一步地，所述特征处理层包括：将输入的时间序列与正向特征序列整合，整合方式为x′＝(Px₁+h₁,Px₂+h₂,…,Px_t+h_t,…Px_T+h_T)＝(x′₁,x′₂,…,x′_t,…,x′_T)，x_t、h_t均列向量，然后再将序列反转为x″＝(x′_T,x′_T-1,…,x′_t,…,x′₁)＝(x″₁,x″₂,…,x″_t,…,x″_T)；其中P为转换矩阵，将输入向量x转化成与特征向量相同的维度，x″即为逆向特征提取层的输入。

进一步地，所述逆向特征提取层包括：对于当前输入时间序列x″＝(x″₁,x″₂,…,x″_t,…,x″_T),递归神经网络在t时刻接收输入x″_t，计算出当前时刻的输出

根据前一时刻的输出

经过T个时刻的迭代，最终得到逆向特征序列

进一步地，所述逆向特征提取层的具体实现方式为：给定输入时间序列x″＝(x″₁,x″₂,…,x″_t,…,x″_T)，其中，x″_t为列向量，将输入时间序列各个时间时刻的向量x″_t送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

其中，

表示隐含层状态向量的初始状态，

表示在时刻1的隐含层状态向量，

表示在时刻t的隐含层状态向量，

表示计算隐含层状态的函数，

表示相应的神经网络的参数。经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态

即为通过单向递归神经网络提取到的逆向时序特征。

进一步地，所述输出层输出时序特征之前，还包括：对特征序列

进行特征处理。

进一步地，所述对特征序列

进行特征处理具体包括：以加和的方式进行特征处理，经过特征处理得到的输入时间序列的时序特征为，

进一步地，所述输出层还用于将学习到的特征送入分类器中进行分类。

进一步地，所述递归神经网络的类型为门控循环单元(Gated Recurrent Unit)类型、长短时记忆(Long Short-Term Memory)类型或相关变种类型。

(三)有益效果

本发明提出一种低计算和存储消耗的双向递归神经网络，本发明的有益效果是：

(1)本发明提出了一种低计算、存储开销的双向递归神经网络模型，相比于单向递归神经网络能够在不增加计算、存储开销的情况下，有效的提取到时间序列中正向和逆向的时序信息，如图3中图(a)和图(b)所示，图(a)是普通双层单向递归神经网络结构，图(b)是本发明所述双层双向递归神经网络，图(a)和图(b)在隐含层状态维度相同、具有相同的网络结构的情况下，网络参数数目一样，存储开销相同，计算开销(2层*T次迭代计算)相同，但是图(b)能有效的提取到时间序列中正向和逆向的时序信息；相比于双向递归神经网络能够有效的节省计算、存储开销，如图3中图(c)和图(d)所示，图(c)是本发明所述双层双向递归神经网络，图(d)是普通双向双层递归神经网络，从图(d)中可以看出普通双向双层递归神经网络在每一层需要计算2*T次迭代，而图(c)本发明所述双层双向递归神经网络在每一层只需要计算T次迭代，计算开销较小；另外在两种神经网络层数和隐含层状态维度相同的情况下，普通双向双层递归神经网络在每一层都要进行正向和逆向的迭代计算，正向和逆向迭代计算使用是两套不同的参数，普通双向双层递归神经网络参数量是本发明所述双层双向递归神经网络的两倍，本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小。

(2)本发明提出的低计算、存储开销的双向递归神经网络模型是基础的网络模型，可应用于语音识别、自然语言处理、文本分析、手写识别等时间序列处理的任务，对相关算法设计起指导作用。

(3)本发明提出的双向递归神经网络模型，可帮助时间序列处理任务实现低计算、存储开销的算法实现，有助于相关算法在端侧低功耗限制的硬件上的实现。

附图说明

图1为本发明网络模型模块设计与总体架构；

图2为本发明网络模型结构及工作流程图；

图3a-图3d为各网络性能对比图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明涉及一种低计算消耗的双向递归神经网络，通过减少递归神经网络每一层迭代的次数降低递归神经网络计算消耗，提升推理和训练的速度，属人工智能技术领域。

针对现有技术中存在的问题，本发明的目的在于提供一种低计算开销、低存储开销、高分类精度的递归神经网络算法。这种算法一方面在一定程度上实现了传统单向神经网络对于时间序列中正向和逆向两种时序信息的学习，提升了分类精度；另一方面避开了双向递归神经网络中计算、存储方面开销大的难点，对递归神经网络结构的发展起了相对重要的作用。本发明面向常见的时间序列分类识别任务，包括但不限于手写汉字识别、语音识别、文本分析等。

本发明解决相关技术问题所用的技术方案是：一种低计算、存储开销的双向递归神经网络模型。该模型涵盖正向时序特征学习和逆向时序特征学习两个阶段。首先是正向时序特征识别阶段，在这个阶段与普通的单向递归神经网络一样，正向地接收输入的时间序列，并在每个时刻计算相应时刻的输出，生成输出序列；第二个阶段是逆向时序特征识别阶段，这个阶段以第一个阶段为基础，逆向地接收输入的时间序列以及第一个阶段的输出序列，并在每个时刻计算相应的结果；最终根据第二个阶段输出的结果进行时间序列的分类。本发明的方法流程为：

1.图1是本发明所述低计算、存储开销的双向递归神经网络模型模块设计与总体架构，基于数据流向给出了网络模型的输入、正向特征提取、逆向特征提取、特征处理、输出几个部分的简要流程及联系。具体流程如下：

(1)输入时间序列；

(2)时间序列正向时序特征提取，主要是基于单向的递归神经网络学习输入时间序列中的正向时序特征信息；

(3)时序特征处理，主要是将学习到的正向时序特征与输入时间序列整合到一起，作为下一层递归神经网络的输入，用于提取逆向的时序特征；

(4)时间序列逆向时序特征提取，接收(3)中整合完成的特征，基于单向的递归神经网络学习输入时间序列中的逆向时序信息。

(5)输出时序特征，并对输入时间序列进行分类。

2.图2是本发明所述低计算、存储开销的双向递归神经网络模型，该神经网络包括输入层、特征提取层和输出层，特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层。

具体表述如下：

(1)输入层：输入层是主要是指经过预处理之后的时间序列

(2)特征提取层：特征提取层主要是包含正向特征提取、特征处理以及逆向特征提取三部分。

①正向特征提取：对于一个输入的时间序列x＝(x₁,x₂,…,x_t,…,x_T)，递归神经网络在t时刻接收输入x_t，根据前一时刻的输出h_t-1，计算出当前时刻的输出h_t，经过T个时刻的迭代，如公式(1)所示，最终得到正向特征序列h＝(h₁,h₂,…,h_t,…,h_T)；

②特征处理：此部分主要是将输入的时间序列与正向特征序列整合，整合方式为x′＝(Px₁+h₁,Px₂+h₂,…,Px_t+h_t,…Px_T+h_T)＝(x′₁,x′₂,…,x′_t,…,x′_T)(假设x_t、h_t均列向量)，然后再将序列反转为x″＝(x′_T,x′_T-1,…,x′_t,…,x′₁)＝(x″₁,x″₂,…,x″_t,…,x″_T)。其中P为转换矩阵，主要是将输入向量x转化成与特征向量相同的维度，例如，x_t为r×1的向量，h_t为w×1的向量，那么P为w×r的矩阵，这样Px_t就和h_t具有相同的维度，这样就能够通过Px_t+h_t将输入的时间序列x和正向特征序列h进行整合。

③逆向特征提取；对于当前输入时间序列x″＝(x″₁,x″₂,…,x″_t,…,x″_T),递归神经网络在t时刻接收输入x″_t，计算出当前时刻的输出

根据前一时刻的输出

经过T个时刻的迭代，如公式(2)所示，最终得到逆向特征序列

(3)输出层：整合

得到输入时间序列的时序特征，并对输入时间序列进行分类。

下面结合附图对本发明作进一步说明。

图2为本发明所述低计算、存储开销的双向递归神经网络模型结构及工作流程图，主要涉及时间序列正向特征提取、时间序列逆向特征提取以及特征处理三个方面的内容，具体实施方式如下：

1.基于递归神经网络的时间序列正向时序特征提取：

给定输入时间序列x＝(x₁,x₂,…,x_t,…,x_T)，其中，x_t为列向量，将输入时间序列各个时间时刻的向量x_t送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

h₁＝H(x₁,h₀,θ)

h_t＝H(x_t,h_t-1,θ) (1)

表示计算隐含层状态的函数，θ表示相应的神经网络的参数。经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态h＝(h₁,h₂,…,h_t,…,h_T)，即为通过单向递归神经网络提取到的正向时序特征。在本发明中，递归神经网络的类型可以是门控循环单元(Gated Recurrent Unit)类型，也可以是长短时记忆(LongShort-Term Memory)类型以及相关变种类型。

2.正向时序特征处理：

在经过正向时序特征提取的过程以后，提取到的特征需要经过特征处理阶段，将正向时序特征与输入时间序列整合到一起，作为逆向时序特征提取网络的输入。具体整合方法如下：

x′＝(Px₁+h₁,Px₂+h₂,…,Px_t+h_t,…Px_T+h_T)＝(x′₁,x′₂,…,x′_t,…,x′_T)

然后对整合后的时间序列在时间顺序上进行反转，

x″＝(x′_T,x′_T-1,…,x′_t,…,x′₁)＝(x″₁,x″₂,…,x″_t,…,x″_T)。

x″即为逆向时序特征提取网络的输入。

3.基于递归神经网络的时间序列逆向时序特征提取：

给定输入时间序列x″＝(x″₁,x″₂,…,x″_t,…,x″_T)，其中，x″_t为列向量，将输入时间序列各个时间时刻的向量x″_t送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

其中，

表示隐含层状态向量的初始状态，

表示在时刻1的隐含层状态向量，

表示在时刻t的隐含层状态向量，

表示计算隐含层状态的函数，

即为通过单向递归神经网络提取到的逆向时序特征。

4.时序特征处理：

在经过正向逆向时序特征提取的过程以后，提取到的特征序列

需要经过特征处理再进行下一步的操作，以分类任务为例，常用的特征处理方法一般为加和的方式，经过特征处理得到的输入时间序列的时序特征为，

最终将学习到的特征送入分类器中进行分类。

本发明提出了一种低计算、存储开销的双向递归神经网络模型，相比于单向递归神经网络能够在不增加计算、存储开销的情况下，有效的提取到时间序列中正向和逆向的时序信息，如图3中图(a)和图(b)所示，图(a)是普通双层单向递归神经网络结构，图(b)是本发明所述双层双向递归神经网络，图(a)和图(b)在隐含层状态维度相同、具有相同的网络结构的情况下，网络参数数目一样，存储开销相同，计算开销(2层*T次迭代计算)相同，但是图(b)能有效的提取到时间序列中正向和逆向的时序信息；相比于双向递归神经网络能够有效的节省计算、存储开销，如图3中图(c)和图(d)所示，图(c)是本发明所述双层双向递归神经网络，图(d)是普通双向双层递归神经网络，从图(d)中可以看出普通双向双层递归神经网络在每一层需要计算2*T次迭代，而图(c)本发明所述双层双向递归神经网络在每一层只需要计算T次迭代，计算开销较小；另外在两种神经网络层数和隐含层状态维度相同的情况下，普通双向双层递归神经网络在每一层都要进行正向和逆向的迭代计算，正向和逆向迭代计算使用是两套不同的参数，普通双向双层递归神经网络参数量是本发明所述双层双向递归神经网络的两倍，本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小。

本发明提出的低计算、存储开销的双向递归神经网络模型是基础的网络模型，可应用于语音识别、自然语言处理、文本分析、手写识别等时间序列处理的任务，对相关算法设计起指导作用。

本发明提出的双向递归神经网络模型，可帮助时间序列处理任务实现低计算、存储开销的算法实现，有助于相关算法在端侧低功耗限制的硬件上的实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种低计算和存储消耗的双向递归神经网络，其特征在于，该神经网络包括输入层、特征提取层和输出层，特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层；

输入层用于输入经过预处理之后的时间序列；

输出层用于输出时序特征。

2.如权利要求1所述的低计算和存储消耗的双向递归神经网络，其特征在于，所述正向特征提取层具体包括：对于一个输入的时间序列x＝(x₁，x₂，…，x_t，…，x_T)，递归神经网络在t时刻接收输入x_t，根据前一时刻的输出h_t-1，计算出当前时刻的输出h_t，经过T个时刻的迭代，最终得到正向特征序列h＝(h₁，h₂，…，h_t，…，h_T)。

3.如权利要求2所述的低计算和存储消耗的双向递归神经网络，其特征在于，所述正向特征提取层的具体实现方法如下：给定输入时间序列x＝(x₁，x₂，…，x_t，…，x_T)，其中，x_t为列向量，将输入时间序列各个时间时刻的向量x_t送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

h₁＝H(x₁，h₀，θ)

h_t＝H(x_t，h_t-1，θ) (1)

表示计算隐含层状态的函数，θ表示相应的神经网络的参数；经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态h＝(h₁，h₂，…，h_t，…，h_T)，即为通过单向递归神经网络提取到的正向时序特征。

4.如权利要求2或3所述的低计算和存储消耗的双向递归神经网络，其特征在于，所述特征处理层包括：将输入的时间序列与正向特征序列整合，整合方式为x′＝(Px₁+h₁，Px₂+h₂，…，Px_t+h_t，…Px_T+h_T)＝(x′₁，x′₂，…，x′_t，…，x′_T)，x_t、h_t均列向量，然后再将序列反转为x″＝(x′_T，x′_T-1，…，x′_t，…，x′₁)＝(x″₁，x″₂，…，x″_t，…，x″_T)；其中P为转换矩阵，将输入向量x转化成与特征向量相同的维度，x″即为逆向特征提取层的输入。

5.如权利要求4所述的低计算和存储消耗的双向递归神经网络，其特征在于，所述逆向特征提取层包括：对于当前输入时间序列x″＝(x″₁，x″₂，…，x″_t，…，x″_T)，递归神经网络在t时刻接收输入x″_t，计算出当前时刻的输出

根据前一时刻的输出

经过T个时刻的迭代，最终得到逆向特征序列

6.如权利要求5所述的低计算和存储消耗的双向递归神经网络，其特征在于，所述逆向特征提取层的具体实现方式为：给定输入时间序列x″＝(x″₁，x″₂，…，x″_t，…，x″_T)，其中，x″_t为列向量，将输入时间序列各个时间时刻的向量x″_t送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：