CN109086864A

CN109086864A - 一种独立化长短期记忆网络模型的构建方法

Info

Publication number: CN109086864A
Application number: CN201810583664.3A
Authority: CN
Inventors: 庄连生; 李厚强; 唐明宇; 杨健
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2018-12-25

Abstract

本公开提供了一种独立化长短期记忆网络模型的构建方法，包括：步骤S101：初始化独立化长短期记忆网络模型的参数；步骤S201：对独立化长短期记忆网络模型进行更新；步骤S301：利用梯度后向传播优化独立化长短期记忆网络模型。

Description

一种独立化长短期记忆网络模型的构建方法

技术领域

本公开涉及属于人工智能领域，尤其涉及一种独立化长短期记忆网络模型的构建方法。

背景技术

在深度学习领域，时序数据分析的关键在于建立不同时刻时序数据之间的联系。现有时序数据分析一般采用循环神经网络(RNN)及其变种(如LSTM)，通过将当前时刻的数据输出作为下一时刻的额外输入，以此建立起不同时刻时序数据之间的联系，进而实现神经网络的记忆功能。然而，现有循环神经网络模型对历史信息的记忆能力严重不足，主要表现在：只能建立短时间内序列数据之间的关联性，无法建立相距较远序列数据之间的关联性。为此，本发明构建了一种新型的循环神经网络结构，实现超长时序数据记忆能力。

与本发明密切相关的神经网络模型是长短期记忆网络模型(LSTM)。该模型通过制定门结构使得时序信息能够在时间上传递得更久，从而实现记忆功能。但是，LSTM仅仅是减缓的梯度的后向传递问题，将原有的梯度矩阵连乘转化为一系列矩阵的加和，但是加和分量中依然包含了大量矩阵的连乘。在应用记忆模块进行数据更新的时候，传统的结构使用了矩阵乘法以确保信息之间的相互影响，但是该做法在处理长序列时容易产生梯度***、梯度消失等问题。

公开内容

(一)要解决的技术问题

为了解决上述问题，本公开提出一种独立化长短期记忆网络模型的构建方法。

(二)技术方案

在本公开的一些实施例中，所述步骤S201包括：子步骤S201a：将时间序列输入独立化长短期记忆网络模型；子步骤S201b：根据时间序列和记忆模块更新输入门；子步骤S201c：根据时间序列和记忆模块更新遗忘门；子步骤S201d：更新记忆模块；子步骤S201e：根据时间序列和记忆模块更新输出门；子步骤S201f：更新输出。

在本公开的一些实施例中，所述更新输入门的表达式为：

其中，i_t表示时间步t的输入门；σ表示饱和的激活函数；表示向量间的元素对应乘法；x_t表示时间序列中的第t个输入向量；c_t-1表示时间步t-1的记忆模块；W_xi表示输入向量与输入门之间的参数矩阵；W_ci表示记忆模块与输入门之间的参数矩阵。

在本公开的一些实施例中，所述更新遗忘门的表达式为：

其中，f_t表示时间步t的遗忘门；W_xf表示输入向量与遗忘门之间的参数矩阵；W_cf表示记忆模块与遗忘门之间的参数矩阵；σ表示饱和的激活函数；表示向量间的元素对应乘法；x_t表示时间序列中的第t个输入向量；c_t-1表示时间步t-1的记忆模块。

在本公开的一些实施例中，所述更新记忆模块的表达式为：

其中，c_t表示时间步t的记忆模块；f_t表示时间步t的遗忘门；表示向量间的元素对应乘法；c_t-1表示时间步t-1的记忆模块；i_t表示时间步t的输入门；W_xc表示输入向量与记忆模块之间的参数矩阵；x_t表示时间序列中的第t个输入向量。

在本公开的一些实施例中，所述更新输出门的表达式为：

o_t＝σ(W_xox_t+W_coc_t)

其中，o_t表示时间步t的输出门；σ表示饱和的激活函数；W_xo表示输入向量与输出门之间的参数矩阵；x_t表示时间序列中的第t个输入向量；W_co表示记忆模块与输出门之间的参数矩阵；c_t表示时间步t的记忆模块。

在本公开的一些实施例中，所述更新输出的表达式为：

其中，h_t表示时间步t的输出向量；o_t表示时间步t的输出门；c_t表示时间步t的记忆模块。

在本公开的一些实施例中，所述步骤S301包括：计算最终的输出向量与期望值的误差，定义一个损失函数，利用梯度后向传播优化参数，直至损失函数足够小，获得独立化长短期记忆网络模型。

(三)有益效果

从上述技术方案可以看出，本公开具有以下有益效果：

本公开的优点在于在保持了长短期记忆网络的基本特性的同时，解耦记忆模块，使得梯度沿时间方向传递时的大规模矩阵连乘转化为数值连乘，从而使得梯度的传递更稳定，优化的有效长度更远。

附图说明

图1是本公实施例独立化长短期记忆网络模型的构建方法的流程图。

图2是本公实施例独立化长短期记忆网络模型的构建方法的示意图。

图3为本公实施例独立化长短期记忆网络模型的构建方法在长度为2000和5000的加和问题上的优化结果。

具体实施方式

具有长时依赖关系的时间序列分类和预测问题可以描述为：给定一个超长时间序列数据，构建一个包含可优化参数的循环神经网络结构，捕获不同时刻序列数据之间的相关性，实现对时序数据的分类和预测。

本公开提供了一种利用一种构建处理时序问题的循环神经网络结构——独立化长短期记忆网络模型的方法。该模型在结构上与长短期记忆网络较为相似，通过解耦部分参数，使得网络能够实现超长记忆能力。通过解耦LSTM循环层，将梯度传递过程中的矩阵连乘转化为更为稳定的一维数值计算，实现了在理论上可优化长度无限的循环神经网络。

下面将结合实施例和实施例中的附图，对本公开实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开一实施例提供了一种独立化长短期记忆网络模型的构建方法，如图1和图2所示，包括以下步骤：

步骤S101：初始化独立化长短期记忆网络模型的参数。

独立化长短期记忆网络模型包括：用于表征记忆模块的向量c和输出向量h，这两个向量的维度相同。该步骤对独立化长短期记忆网络模型的参数进行初始化，该初始化例如包括：设置记忆模块向量c和输出向量h的维度，通常可以人工自主定制。

步骤S201：对独立化长短期记忆网络模型进行更新。

该步骤包括：

子步骤S201a：将时间序列输入独立化长短期记忆网络模型。

将时间序列中的输入向量依照时间顺序依次输入独立化长短期记忆网络模型中。时间序列其中，之后用下标t表示时序序列中的时间步，T为时间序列总的时间步，是一个给定值，1≤t≤T，d为在每个时间步该时间序列的输入向量的维度。

子步骤S201b：根据时间序列和记忆模块更新输入门。

该步骤更新输入门i，根据时间序列和记忆模块，产生一个取值0-1的向量，用于筛选时间序列以更新记忆模块。更新输入门的表达式为：

其中，i_t表示时间步t的输入门；σ表示饱和的激活函数，例如sigmoid、tanh；表示向量间的元素对应乘法(hadamard product)；x_t表示时间序列中的第t个输入向量；c_t-1表示时间步t-1的记忆模块；W_xi表示输入向量与输入门之间的参数矩阵；W_ci表示记忆模块与输入门之间的参数矩阵。W_xi和x_t之间为矩阵乘法。

子步骤S201c：根据时间序列和记忆模块更新遗忘门。

该步骤更新遗忘门f，根据时间序列和记忆模块，产生一个取值0-1的向量，用于筛选上一时间步计算得到的记忆模块。更新遗忘门的表达式为：

其中，f_t表示时间步t的遗忘门；W_xf表示输入向量与遗忘门之间的参数矩阵；W_cf表示记忆模块与遗忘门之间的参数矩阵；σ表示饱和的激活函数，例如sigmoid、tanh；表示向量间的元素对应乘法(hadamard product)；x_t表示时间序列中的第t个输入向量；c_t-1表示时间步t-1的记忆模块。

首先，本公开希望当前的输入向量和记忆模块能够决定输入的哪些部分将会作用在记忆模块上，以及记忆模块应该“遗忘”哪些部分。对于输入的部分，本申请和现有的方式相同，采用了全连接的线性变化模式，从而获取输入向量在记忆模块的各个位置都能产生作用，同时起到维度转化的作用。对于记忆模块，则采用了元素对应乘法。因为梯度沿时间传导时涉及的矩阵连乘主项为可以使原来的一般矩阵连乘化为数值连乘，或者更直观的是对角矩阵连乘。这样的操作使得优化过程变得更为稳定。

子步骤S201d：更新记忆模块。

更新记忆模块的表达式为：

其中，c_t表示时间步t的记忆模块；f_t表示时间步t的遗忘门；c_t-1表示时间步t-1的记忆模块；i_t表示时间步t的输入门；W_xc表示输入向量与记忆模块之间的参数矩阵；x_t表示时间序列中的第t个输入向量。

子步骤S201e：根据时间序列和记忆模块更新输出门。

该步骤更新输出门o，根据时间序列和记忆模块，产生一个取值0-1的向量，用于筛选记忆模块并用于输出。更新输出门的表达式为：

o_t＝σ(W_xox_t+W_coc_t)

其中，o_t表示时间步t的输出门；σ表示饱和的激活函数，例如sigmoid、tanh；W_xo表示输入向量与输出门之间的参数矩阵；x_t表示时间序列中的第t个输入向量；W_co表示记忆模块与输出门之间的参数矩阵；c_t表示时间步t的记忆模块。

在更新输出门时，记忆模块虽然参与运算，但是在进行求导优化参数时并不会涉及沿时间对记忆模块反复求导，因此不需要解耦操作，这样可以在最大程度上保持网络的表现力。

子步骤S201f：更新输出。

该步骤更新输出h，根据记忆模块和输出门，得到最终的输出向量h。更新输出的表达式为：

对时间序列中的每一个输入向量x_t，都进行子步骤S201b至子步骤S201f。当时间步t＝T时，即已经到达时间序列的终点，此时得到的是最终输出向量h。否则，当时间步t未达到T时，即未到达时间序列的终点，将c_t作为c_t-1并返回子步骤S201b开始执行，接受新的输入向量x_t+1，直至得到输出向量h。

步骤S301：利用梯度后向传播优化独立化长短期记忆网络模型。

在该步骤中，首先计算最终的输出向量h与期望值的误差，再定义一个损失函数，然后利用梯度后向传播优化参数矩阵W，该参数矩阵W包括：输入向量与输入门之间的参数矩阵W_xi、记忆模块与输入门之间的参数矩阵W_ci、输入向量与遗忘门之间的参数矩阵W_xf、记忆模块与遗忘门之间的参数矩阵W_cf、输入向量与记忆模块之间的参数矩阵W_xc、输入向量与输出门之间的参数矩阵W_xo、记忆模块与输出门之间的参数矩阵W_co，直至损失函数足够小，最终获得独立化长短期记忆网络模型。

由图3可见，加和问题可以表述为：输入为一个长度给定的二维数组，第一维为随机数，第二维是01序列，且仅有两个1。输出为两个1所在位置的随机数的和。现有的绝大多数循环神经网络都无法在这样长度的问题下优化收敛。

至此，已经结合附图对本公开进行了详细描述。依据以上描述，本领域技术人员应当对本公开有了清楚的认识。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换，例如：

(1)实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围；

(2)上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种独立化长短期记忆网络模型的构建方法，包括：

步骤S101：初始化独立化长短期记忆网络模型的参数；

步骤S201：对独立化长短期记忆网络模型进行更新；

2.如权利要求1所述的构建方法，所述步骤S201包括：

子步骤S201a：将时间序列输入独立化长短期记忆网络模型；

子步骤S201b：根据时间序列和记忆模块更新输入门；

子步骤S201c：根据时间序列和记忆模块更新遗忘门；

子步骤S201d：更新记忆模块；

子步骤S201e：根据时间序列和记忆模块更新输出门；

子步骤S201f：更新输出。

3.如权利要求1所述的构建方法，所述更新输入门的表达式为：

4.如权利要求1所述的构建方法，所述更新遗忘门的表达式为：

5.如权利要求1所述的构建方法，所述更新记忆模块的表达式为：

6.如权利要求1所述的构建方法，所述更新输出门的表达式为：

o_t＝σ(W_xox_t+W_coc_t)

7.如权利要求1所述的构建方法，所述更新输出的表达式为：

8.如权利要求1所述的构建方法，所述步骤S301包括：

计算最终的输出向量与期望值的误差，定义一个损失函数，利用梯度后向传播优化参数，直至损失函数足够小，获得独立化长短期记忆网络模型。