CN109086864A - 一种独立化长短期记忆网络模型的构建方法 - Google Patents

一种独立化长短期记忆网络模型的构建方法 Download PDF

Info

Publication number
CN109086864A
CN109086864A CN201810583664.3A CN201810583664A CN109086864A CN 109086864 A CN109086864 A CN 109086864A CN 201810583664 A CN201810583664 A CN 201810583664A CN 109086864 A CN109086864 A CN 109086864A
Authority
CN
China
Prior art keywords
indicate
memory module
long term
network model
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810583664.3A
Other languages
English (en)
Inventor
庄连生
李厚强
唐明宇
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810583664.3A priority Critical patent/CN109086864A/zh
Publication of CN109086864A publication Critical patent/CN109086864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种独立化长短期记忆网络模型的构建方法,包括:步骤S101:初始化独立化长短期记忆网络模型的参数;步骤S201:对独立化长短期记忆网络模型进行更新;步骤S301:利用梯度后向传播优化独立化长短期记忆网络模型。

Description

一种独立化长短期记忆网络模型的构建方法
技术领域
本公开涉及属于人工智能领域,尤其涉及一种独立化长短期记忆网络模型的构建方法。
背景技术
在深度学习领域,时序数据分析的关键在于建立不同时刻时序数据之间的联系。现有时序数据分析一般采用循环神经网络(RNN)及其变种(如LSTM),通过将当前时刻的数据输出作为下一时刻的额外输入,以此建立起不同时刻时序数据之间的联系,进而实现神经网络的记忆功能。然而,现有循环神经网络模型对历史信息的记忆能力严重不足,主要表现在:只能建立短时间内序列数据之间的关联性,无法建立相距较远序列数据之间的关联性。为此,本发明构建了一种新型的循环神经网络结构,实现超长时序数据记忆能力。
与本发明密切相关的神经网络模型是长短期记忆网络模型(LSTM)。该模型通过制定门结构使得时序信息能够在时间上传递得更久,从而实现记忆功能。但是,LSTM仅仅是减缓的梯度的后向传递问题,将原有的梯度矩阵连乘转化为一系列矩阵的加和,但是加和分量中依然包含了大量矩阵的连乘。在应用记忆模块进行数据更新的时候,传统的结构使用了矩阵乘法以确保信息之间的相互影响,但是该做法在处理长序列时容易产生梯度***、梯度消失等问题。
公开内容
(一)要解决的技术问题
为了解决上述问题,本公开提出一种独立化长短期记忆网络模型的构建方法。
(二)技术方案
本公开提供了一种独立化长短期记忆网络模型的构建方法,包括:步骤S101:初始化独立化长短期记忆网络模型的参数;步骤S201:对独立化长短期记忆网络模型进行更新;步骤S301:利用梯度后向传播优化独立化长短期记忆网络模型。
在本公开的一些实施例中,所述步骤S201包括:子步骤S201a:将时间序列输入独立化长短期记忆网络模型;子步骤S201b:根据时间序列和记忆模块更新输入门;子步骤S201c:根据时间序列和记忆模块更新遗忘门;子步骤S201d:更新记忆模块;子步骤S201e:根据时间序列和记忆模块更新输出门;子步骤S201f:更新输出。
在本公开的一些实施例中,所述更新输入门的表达式为:
其中,it表示时间步t的输入门;σ表示饱和的激活函数;表示向量间的元素对应乘法;xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块;Wxi表示输入向量与输入门之间的参数矩阵;Wci表示记忆模块与输入门之间的参数矩阵。
在本公开的一些实施例中,所述更新遗忘门的表达式为:
其中,ft表示时间步t的遗忘门;Wxf表示输入向量与遗忘门之间的参数矩阵;Wcf表示记忆模块与遗忘门之间的参数矩阵;σ表示饱和的激活函数;表示向量间的元素对应乘法;xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块。
在本公开的一些实施例中,所述更新记忆模块的表达式为:
其中,ct表示时间步t的记忆模块;ft表示时间步t的遗忘门;表示向量间的元素对应乘法;ct-1表示时间步t-1的记忆模块;it表示时间步t的输入门;Wxc表示输入向量与记忆模块之间的参数矩阵;xt表示时间序列中的第t个输入向量。
在本公开的一些实施例中,所述更新输出门的表达式为:
ot=σ(Wxoxt+Wcoct)
其中,ot表示时间步t的输出门;σ表示饱和的激活函数;Wxo表示输入向量与输出门之间的参数矩阵;xt表示时间序列中的第t个输入向量;Wco表示记忆模块与输出门之间的参数矩阵;ct表示时间步t的记忆模块。
在本公开的一些实施例中,所述更新输出的表达式为:
其中,ht表示时间步t的输出向量;ot表示时间步t的输出门;ct表示时间步t的记忆模块。
在本公开的一些实施例中,所述步骤S301包括:计算最终的输出向量与期望值的误差,定义一个损失函数,利用梯度后向传播优化参数,直至损失函数足够小,获得独立化长短期记忆网络模型。
(三)有益效果
从上述技术方案可以看出,本公开具有以下有益效果:
本公开的优点在于在保持了长短期记忆网络的基本特性的同时,解耦记忆模块,使得梯度沿时间方向传递时的大规模矩阵连乘转化为数值连乘,从而使得梯度的传递更稳定,优化的有效长度更远。
附图说明
图1是本公实施例独立化长短期记忆网络模型的构建方法的流程图。
图2是本公实施例独立化长短期记忆网络模型的构建方法的示意图。
图3为本公实施例独立化长短期记忆网络模型的构建方法在长度为2000和5000的加和问题上的优化结果。
具体实施方式
具有长时依赖关系的时间序列分类和预测问题可以描述为:给定一个超长时间序列数据,构建一个包含可优化参数的循环神经网络结构,捕获不同时刻序列数据之间的相关性,实现对时序数据的分类和预测。
本公开提供了一种利用一种构建处理时序问题的循环神经网络结构——独立化长短期记忆网络模型的方法。该模型在结构上与长短期记忆网络较为相似,通过解耦部分参数,使得网络能够实现超长记忆能力。通过解耦LSTM循环层,将梯度传递过程中的矩阵连乘转化为更为稳定的一维数值计算,实现了在理论上可优化长度无限的循环神经网络。
下面将结合实施例和实施例中的附图,对本公开实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开一实施例提供了一种独立化长短期记忆网络模型的构建方法,如图1和图2所示,包括以下步骤:
步骤S101:初始化独立化长短期记忆网络模型的参数。
独立化长短期记忆网络模型包括:用于表征记忆模块的向量c和输出向量h,这两个向量的维度相同。该步骤对独立化长短期记忆网络模型的参数进行初始化,该初始化例如包括:设置记忆模块向量c和输出向量h的维度,通常可以人工自主定制。
步骤S201:对独立化长短期记忆网络模型进行更新。
该步骤包括:
子步骤S201a:将时间序列输入独立化长短期记忆网络模型。
将时间序列中的输入向量依照时间顺序依次输入独立化长短期记忆网络模型中。时间序列其中,之后用下标t表示时序序列中的时间步,T为时间序列总的时间步,是一个给定值,1≤t≤T,d为在每个时间步该时间序列的输入向量的维度。
子步骤S201b:根据时间序列和记忆模块更新输入门。
该步骤更新输入门i,根据时间序列和记忆模块,产生一个取值0-1的向量,用于筛选时间序列以更新记忆模块。更新输入门的表达式为:
其中,it表示时间步t的输入门;σ表示饱和的激活函数,例如sigmoid、tanh;表示向量间的元素对应乘法(hadamard product);xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块;Wxi表示输入向量与输入门之间的参数矩阵;Wci表示记忆模块与输入门之间的参数矩阵。Wxi和xt之间为矩阵乘法。
子步骤S201c:根据时间序列和记忆模块更新遗忘门。
该步骤更新遗忘门f,根据时间序列和记忆模块,产生一个取值0-1的向量,用于筛选上一时间步计算得到的记忆模块。更新遗忘门的表达式为:
其中,ft表示时间步t的遗忘门;Wxf表示输入向量与遗忘门之间的参数矩阵;Wcf表示记忆模块与遗忘门之间的参数矩阵;σ表示饱和的激活函数,例如sigmoid、tanh;表示向量间的元素对应乘法(hadamard product);xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块。
首先,本公开希望当前的输入向量和记忆模块能够决定输入的哪些部分将会作用在记忆模块上,以及记忆模块应该“遗忘”哪些部分。对于输入的部分,本申请和现有的方式相同,采用了全连接的线性变化模式,从而获取输入向量在记忆模块的各个位置都能产生作用,同时起到维度转化的作用。对于记忆模块,则采用了元素对应乘法。因为梯度沿时间传导时涉及的矩阵连乘主项为可以使原来的一般矩阵连乘化为数值连乘,或者更直观的是对角矩阵连乘。这样的操作使得优化过程变得更为稳定。
子步骤S201d:更新记忆模块。
更新记忆模块的表达式为:
其中,ct表示时间步t的记忆模块;ft表示时间步t的遗忘门;ct-1表示时间步t-1的记忆模块;it表示时间步t的输入门;Wxc表示输入向量与记忆模块之间的参数矩阵;xt表示时间序列中的第t个输入向量。
子步骤S201e:根据时间序列和记忆模块更新输出门。
该步骤更新输出门o,根据时间序列和记忆模块,产生一个取值0-1的向量,用于筛选记忆模块并用于输出。更新输出门的表达式为:
ot=σ(Wxoxt+Wcoct)
其中,ot表示时间步t的输出门;σ表示饱和的激活函数,例如sigmoid、tanh;Wxo表示输入向量与输出门之间的参数矩阵;xt表示时间序列中的第t个输入向量;Wco表示记忆模块与输出门之间的参数矩阵;ct表示时间步t的记忆模块。
在更新输出门时,记忆模块虽然参与运算,但是在进行求导优化参数时并不会涉及沿时间对记忆模块反复求导,因此不需要解耦操作,这样可以在最大程度上保持网络的表现力。
子步骤S201f:更新输出。
该步骤更新输出h,根据记忆模块和输出门,得到最终的输出向量h。更新输出的表达式为:
其中,ht表示时间步t的输出向量;ot表示时间步t的输出门;ct表示时间步t的记忆模块。
对时间序列中的每一个输入向量xt,都进行子步骤S201b至子步骤S201f。当时间步t=T时,即已经到达时间序列的终点,此时得到的是最终输出向量h。否则,当时间步t未达到T时,即未到达时间序列的终点,将ct作为ct-1并返回子步骤S201b开始执行,接受新的输入向量xt+1,直至得到输出向量h。
步骤S301:利用梯度后向传播优化独立化长短期记忆网络模型。
在该步骤中,首先计算最终的输出向量h与期望值的误差,再定义一个损失函数,然后利用梯度后向传播优化参数矩阵W,该参数矩阵W包括:输入向量与输入门之间的参数矩阵Wxi、记忆模块与输入门之间的参数矩阵Wci、输入向量与遗忘门之间的参数矩阵Wxf、记忆模块与遗忘门之间的参数矩阵Wcf、输入向量与记忆模块之间的参数矩阵Wxc、输入向量与输出门之间的参数矩阵Wxo、记忆模块与输出门之间的参数矩阵Wco,直至损失函数足够小,最终获得独立化长短期记忆网络模型。
由图3可见,加和问题可以表述为:输入为一个长度给定的二维数组,第一维为随机数,第二维是01序列,且仅有两个1。输出为两个1所在位置的随机数的和。现有的绝大多数循环神经网络都无法在这样长度的问题下优化收敛。
至此,已经结合附图对本公开进行了详细描述。依据以上描述,本领域技术人员应当对本公开有了清楚的认识。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换,例如:
(1)实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本公开的保护范围;
(2)上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种独立化长短期记忆网络模型的构建方法,包括:
步骤S101:初始化独立化长短期记忆网络模型的参数;
步骤S201:对独立化长短期记忆网络模型进行更新;
步骤S301:利用梯度后向传播优化独立化长短期记忆网络模型。
2.如权利要求1所述的构建方法,所述步骤S201包括:
子步骤S201a:将时间序列输入独立化长短期记忆网络模型;
子步骤S201b:根据时间序列和记忆模块更新输入门;
子步骤S201c:根据时间序列和记忆模块更新遗忘门;
子步骤S201d:更新记忆模块;
子步骤S201e:根据时间序列和记忆模块更新输出门;
子步骤S201f:更新输出。
3.如权利要求1所述的构建方法,所述更新输入门的表达式为:
其中,it表示时间步t的输入门;σ表示饱和的激活函数;表示向量间的元素对应乘法;xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块;Wxi表示输入向量与输入门之间的参数矩阵;Wci表示记忆模块与输入门之间的参数矩阵。
4.如权利要求1所述的构建方法,所述更新遗忘门的表达式为:
其中,ft表示时间步t的遗忘门;Wxf表示输入向量与遗忘门之间的参数矩阵;Wcf表示记忆模块与遗忘门之间的参数矩阵;σ表示饱和的激活函数;表示向量间的元素对应乘法;xt表示时间序列中的第t个输入向量;ct-1表示时间步t-1的记忆模块。
5.如权利要求1所述的构建方法,所述更新记忆模块的表达式为:
其中,ct表示时间步t的记忆模块;ft表示时间步t的遗忘门;表示向量间的元素对应乘法;ct-1表示时间步t-1的记忆模块;it表示时间步t的输入门;Wxc表示输入向量与记忆模块之间的参数矩阵;xt表示时间序列中的第t个输入向量。
6.如权利要求1所述的构建方法,所述更新输出门的表达式为:
ot=σ(Wxoxt+Wcoct)
其中,ot表示时间步t的输出门;σ表示饱和的激活函数;Wxo表示输入向量与输出门之间的参数矩阵;xt表示时间序列中的第t个输入向量;Wco表示记忆模块与输出门之间的参数矩阵;ct表示时间步t的记忆模块。
7.如权利要求1所述的构建方法,所述更新输出的表达式为:
其中,ht表示时间步t的输出向量;ot表示时间步t的输出门;ct表示时间步t的记忆模块。
8.如权利要求1所述的构建方法,所述步骤S301包括:
计算最终的输出向量与期望值的误差,定义一个损失函数,利用梯度后向传播优化参数,直至损失函数足够小,获得独立化长短期记忆网络模型。
CN201810583664.3A 2018-06-07 2018-06-07 一种独立化长短期记忆网络模型的构建方法 Pending CN109086864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810583664.3A CN109086864A (zh) 2018-06-07 2018-06-07 一种独立化长短期记忆网络模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810583664.3A CN109086864A (zh) 2018-06-07 2018-06-07 一种独立化长短期记忆网络模型的构建方法

Publications (1)

Publication Number Publication Date
CN109086864A true CN109086864A (zh) 2018-12-25

Family

ID=64839777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810583664.3A Pending CN109086864A (zh) 2018-06-07 2018-06-07 一种独立化长短期记忆网络模型的构建方法

Country Status (1)

Country Link
CN (1) CN109086864A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN107423756A (zh) * 2017-07-05 2017-12-01 武汉科恩斯医疗科技有限公司 基于深度卷积神经网络结合长短期记忆模型的核磁共振图像序列分类方法
CN107563417A (zh) * 2017-08-18 2018-01-09 北京天元创新科技有限公司 一种深度学习人工智能模型建立方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN107423756A (zh) * 2017-07-05 2017-12-01 武汉科恩斯医疗科技有限公司 基于深度卷积神经网络结合长短期记忆模型的核磁共振图像序列分类方法
CN107563417A (zh) * 2017-08-18 2018-01-09 北京天元创新科技有限公司 一种深度学习人工智能模型建立方法及***

Similar Documents

Publication Publication Date Title
US11741362B2 (en) Training neural networks using mixed precision computations
CN111222054B (zh) 一种基于上下文邻居关系建模的会话社交推荐方法
CN109767301B (zh) 推荐方法及***、计算机装置、计算机可读存储介质
CN108734276A (zh) 一种基于对抗生成网络的模仿学习对话生成方法
CN108052512A (zh) 一种基于深度注意力机制的图像描述生成方法
Tuba et al. Hybrid seeker optimization algorithm for global optimization
CN113168563A (zh) 用于神经网络的残差量化
CN107995428A (zh) 图像处理方法、装置及存储介质和移动终端
CN109063820A (zh) 利用时频联合长时循环神经网络的数据处理方法
CN112529166A (zh) 融合神经元模型、神经网络结构及训练、推理方法、存储介质和设备
CN112685657B (zh) 一种基于多模态交叉融合图网络的会话社交推荐方法
CN112528165A (zh) 一种基于动态路由图网络的会话社交推荐方法
CN106960256A (zh) 基于时间空间上下文的循环神经网络预测位置的方法
CN113516133A (zh) 一种多模态图像分类方法及***
CN108604312A (zh) 信息处理装置、时间序列数据的信息处理方法以及程序
CN113868451B (zh) 基于上下文级联感知的社交网络跨模态对话方法及装置
CN108470212A (zh) 一种能利用事件持续时间的高效lstm设计方法
CN109086864A (zh) 一种独立化长短期记忆网络模型的构建方法
Wu et al. A kind of BP neural network algorithm based on grey interval
CN108304913A (zh) 一种利用脉冲神经元阵列来实现卷积功能的方法
CN114444659A (zh) 一种基于图计算的联邦学习方法和***
CN113313381A (zh) 一种用户交互敏感的动态图序列推荐***
Singhal et al. What's the score? Automated Denoising Score Matching for Nonlinear Diffusions
CN112488248A (zh) 一种基于卷积神经网络的代理模型的构建方法
CN112633500A (zh) 一种基于分解思想的卷积神经网络代理模型的多目标优化进化计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181225

RJ01 Rejection of invention patent application after publication