CN110288081A - 一种基于fw机制及lstm的递归网络模型及学习方法 - Google Patents
一种基于fw机制及lstm的递归网络模型及学习方法 Download PDFInfo
- Publication number
- CN110288081A CN110288081A CN201910476156.XA CN201910476156A CN110288081A CN 110288081 A CN110288081 A CN 110288081A CN 201910476156 A CN201910476156 A CN 201910476156A CN 110288081 A CN110288081 A CN 110288081A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- unit
- recursive networks
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于FW机制及LSTM的递归网络模型及学习方法,属于递归神经网络以及自然语言处理技术领域。包括基于FW机制及LSTM的递归网络模型及依托的学习方法;前者包括数据导入模块、数据生成模块、加载与迭代模块、参数设定模块、模型定义模块、递归网络训练、评估以及测试模块;学习方法包括:1导入数据;2将导入数据进行拆分得到训练数据、评估数据和测试数据;3根据导入数据,获取预先设定好的配置参数;4完成权重参数的初始化;5将训练、评估和测试数据送入LSTM单元计算输出向量;6计算loss函数,对网络参数进行优化,输出复杂度。所述网络模型及学习方法进一步提升了LSTM模型处理的准确度及收敛速度。
Description
技术领域
本发明涉及一种基于FW机制及LSTM的递归网络模型及学习方法,属于递归神经网络以及自然语言处理技术领域。
背景技术
自然语言处理模型通常采用递归神经网络(Recurrent Neural Network,RNN)结构。RNN由隐藏层状态以及权重这两种时间规模的变量组成。隐藏层状态在每个时间步进都会更新一次;而权重则在序列所有信息全部输入网络之后再进行更新。因此,代表着网络中各层间连接关系的权重往往对应着网络的“长期记忆”。但是,实际网络各层关系变化与递进,往往与输入序列长度相关,可能是3,5个时间步进,也可能是30,50个时间步进需要更新。
基于LSTM单元的语言模型是RNN应用较为广泛的改进网络之一,该模型通过对文本数据的训练,根据输入的文本预测该段文本中即将出现的下一个单词。网络参数初始状态用零向量进行初始化,并在读取每个单词后得到更新。模型在处理输入数据时使用反向传播法进行网络参数的优化。把输入数据,即若干句子组成的段落划分为固定长度的输入块,每个输入块还有固定长度个单词,每当处理完一个输入块后执行反向传播对网络参数进行更新。
Jimmy Ba等人提出了快速权重(Fast Weights,FW)机制,即引入更新周期处于隐藏层状态以及权重这两种时间规模之间的新变量来存储快速更新的隐藏层状态,对于序列到序列模型的学习已被证明十分有效。出于上述考虑,在保留现有隐藏层状态和标准权重的同时引入新的变量,这种变量的更新周期要比隐藏层更新周期更长,但是比标准权重更新周期更短,也称为快速权重。
在神经网络训练方面,一般需经过复杂而耗时的处理,才能获得较好的学习性能,即需要较高的时间和计算成本。因此,研究者们为降低此时间及计算成本,往往选择批量处理。
其中,批量正则化为其中的一个很典型的技术,然而其在递归神经网络的作用并不明显。因此,G.Hinton等人提出了层正则化(layer normalization,LN),具体实现为计算递归神经网络中某一个训练样本中在一个隐藏层上所有隐藏单元的状态的均值和标准差。LN用于解决快速权重机制中随着训练变多,解决隐藏层更新值期间的溢出问题。
衡量语言模型性能的评价指标参数是复杂度perplexity和loss。其中,perplexity表示语言模型在学***均可选数量。例如,一个序列是由A、B、C、D、E五个字母无规律随机组成,那么预测下一个字母时,有5个等概率的选项,那么复杂度的值即为5。因此,若一个语言模型的复杂度为K,就说明语言模型在预测即将出现的单词时,平均有K个单词拥有相同的概率作为合理预测的选择。其中,K为整数,为目标单词的总数。以PTB模型为例,评价PTB模型性能指标的复杂度perplexity值的计算公式为(1):
其中,Ptargeti表示第i个目标单词,ln为对数函数;
另一衡量语言模型性能的评价指标参数loss定义为目标单词出现概率的平均负对数,表达式如(2):
perplexity值与loss的关系为(3):
perplexity=eloss (3)
当语言模型学习句子中单词与单词之间相互关联的逻辑关系时,模型的学习能力越强,根据之前出现的单词预测下一个单词时,备选的单词数量就越少,相应的复杂度perplexity就越低。所以复杂度perplexity能够很好地反映网络的学习性能。复杂度perplexity越低,代表网络预测句子中下一个单词的能力越强,效果也就越好。
发明内容
本发明的目的在于进一步提升现有基于LSTM递归神经网络在处理时间关联度强的自然语言时存在复杂度性能有待进一步提升的技术现状提出了一种基于FW机制及LSTM的递归网络模型及学习方法。
所述基于FW机制及LSTM的递归网络模型及学习方法包括基于FW机制及LSTM的递归网络模型以及所依托的学习方法;
其中,所述基于FW机制及LSTM的递归网络模型包括数据导入模块、数据生成模块、加载与迭代模块、参数设定模块、模型定义模块、递归网络训练模块、递归网络评估模块以及递归网络测试模块;
其中,数据生成模块又包括数据拆分单元;加载与迭代模块包括数据加载单元和迭代单元;
数据拆分单元包括训练数据生成单元、评估数据生成单元以及测试数据生成单元;
递归网络训练模块包括dropout单元、更新单元和结果储存单元;递归网络评估模块以及递归网络测试模块仅包括更新单元和结果储存单元;
其中,更新单元包括长短时记忆单元和快速权重单元;
所述基于FW机制及LSTM的递归网络模型中各模块的连接关系如下:
数据导入模块与数据生成模块相连,数据生成模块和加载与迭代模块相连,参数设定模块和加载与迭代模块以及模型定义模块相连,递归网络训练模块和加载与迭代模块、递归网络评估模块以及模型定义模块相连,递归网络评估模块与加载与迭代模块、递归网络训练模块、递归网络测试模块以及模型定义模块相连;递归网络测试模块与加载与迭代模块、递归网络评估模块和模型定义模块相连;
数据生成模块中各单元的连接关系如下:数据拆分单元中训练数据、评估数据和测试数据分别与训练标签生成单元、评估标签生成单元以及测试标签生成单元相连;
加载与迭代模块中各单元的连接关系如下:数据加载单元和迭代单元相连;
所述基于FW机制及LSTM的递归网络模型中各模块的信号产生及输出关系如下:
数据导入模块的输出接入数据生成模块;数据生成模块处理后接入加载与迭代模块;参数设定模块为加载与迭代模块和模型定义模块提供输入参数及FW模型参数;加载与迭代模块分别为递归网络训练模块、递归网络评估模块和递归网络测试模块提供训练数据和训练标签、评估数据和评估标签以及测试数据和测试标签;模型定义模块将FW模型参数分别输入递归网络训练模块、递归网络评估模块以及递归网络测试模块;递归网络训练模块将训练好的网络参数送入递归网络评估模块;递归网络评估模块将评估后的网络参数送入递归网络测试模块;
递归网络训练模块、评估模块以及测试模块中的各单元连接关系如下:
dropout单元接收数据并与长短时记忆单元相连,长短时记忆单元与数据输入和快速权重单元相连,结果储存单元与快速权重单元和结果相连。
所述基于FW机制及LSTM的递归网络模型以及所依托的学习方法,包括如下步骤:
步骤一、待训练和测试的数据经数据导入模块导入,具体为:
通过读取文本路径,获取文本数据;
步骤二、数据生成模块对经数据导入模块导入的数据经数据拆分单元进行拆分,分别得到训练数据、评估数据和测试数据;
其中,拆分具体为:将步骤一导入的文本数据按照每j个字符为一句话进行拆分;
其中,j的取值范围为5到50;
步骤三、训练数据生成单元随机选取x%比例经数据拆分单元拆分后的数据生成训练集;评估数据生成单元随机选取y%比例经数据拆分单元拆分后的数据生成评估集;测试数据生成单元随机选取z%比例经数据拆分单元拆分后的数据生成测试集;
其中,x%+y%+z%=1;
步骤四、训练标签生成单元将训练数据生成单元生成的训练集中每一个数据后移一位得到训练标签;评估标签生成单元将评估数据生成单元生成的评估集中每一个数据后移一位得到评估标签;测试标签生成单元将测试集中每一个数据后移一位得到测试标签;
步骤五、参数设定模块根据数据导入模块导入文本的模型规模,获取配置参数,,再将获取的配置参数输入参数设定模块;
其中,配置参数包括初始规模、学习率、最大梯度正则值、层数、步数、隐藏层大小、最大epoch数、极大epoch值、dropout率、衰减率、批大小以及vocab大小;
步骤六、加载与迭代模块中的数据加载单元按照参数设定模块中获取的配置参数加载训练集、评估集以及测试集中的数据,并设定初始化数据序号i为1;
步骤七、模型定义模块根据参数设定模块中的配置参数,使用伪随机函数在配置范围内生成随机值作为权重矩阵参数,完成权重参数的初始化;
步骤八、加载与迭代模块中迭代模块判断当前数据集中的数据是否发送完毕,并依据判断结果进行操作,具体为:
若当前数据集中的数据没发送完,则发送第i组数据,判断进行训练、评估还是测试,并跳至步骤九,跳至步骤八;否则停止迭代;
步骤九、判断当前数据是否是训练数据,若是则依据dropout率对输入数据进行抽取,抽取后数据,跳至步骤十;否则,跳至步骤十;
步骤十、将步骤九输入的数据送入更新单元中的长短时记忆单元以及快速权重单元计算得到输出向量,同时利用梯度下降法对网络进行优化,具体为:
步骤10.1更新单元基于输入层权重Wx、标准权重Wh计算起始隐藏层状态,通过公式(4)计算当前t时刻的初始隐藏状态:
h0 t=f(LN(Wx*xt+Wh*ht-1)) (4)
其中,输入层权重记为Wx、标准权重记为Wh;h0为起始隐藏层状态,LN为层正则化函数;f为激活函数;xt为当前t时刻的输入层数据;ht-1为当前时刻的前一时刻,即t-1时刻,隐藏层状态对应的数据,简称隐藏层状态;
优选的,激活函数f为SeLU函数、Leaky Relu函数以及Swish函数中的一种;
标准权重Wh是RNN网络中隐藏层向下一个时间步进传播的权重;输入层权重Wx是输入层到隐藏层传播的权重;
步骤10.2、快速权重单元计算快速权重,具体通过公式(5)计算:
WA(t)=λWA(t-1)+ηht-1hT t-1 (5)
其中,WA(t)是第t时刻的快速权重,是仅作用在隐藏层每个时间步进内的权重;一个时间步进更新的总次数,记为s+1次;λ是衰减率、η是学习率、ht-1为t-1时刻对应的隐藏层状态;hT t-1是ht-1即t-1时刻对应隐藏层状态的转置;
其中,时间步进更新的总次数s+1中的s即步数;
其中,衰减率的取值范围为0.9到0.995,学习率的取值范围为0.3到0.8;
步骤10.3、快速权重单元计算隐藏层状态并更新s次隐藏层状态;
步骤10.4、慢速权重单元计算归一化输出;
其中,网络的归一化输出通过Softmax或sigmoid函数两者之一实现;
步骤10.5、结果存储单元计算基于步骤10.4计算出的归一化输出计算损失loss和复杂度perplexity;
步骤10.6、慢速权重单元判断是否达到最后一个Epoch,如果没有达到,则更新单元则更新隐藏层状态以及训练参数或测试参数,将当前i加1,跳至步骤八。
有益效果
本发明一种基于FW机制及LSTM的递归网络模型及学习方法,与现有技术相比,具有如下有益效果:
1.所述递归网络模型引入快速权重以及LSTM机制,通过衰减系数及学习率的参数优化,使得以储存短期记忆信息的网络模型的学习准确度得到了大幅度提高;
2.本发明所述方法与现有LSTM模型以及引入快速权重的RNN模型相比,模型的训练所述方法采用LSTM结合SeLU激活函数以及层正则化使得训练、评估及测试的收敛速度大大提高。
附图说明
图1是本发明基于FW机制及LSTM的递归网络模型的组成及各模块的连接示意图;
图2是本发明基于FW机制及LSTM的递归网络模型中数据生成模块的组成及连接示意图;
图3是本发明基于FW机制及LSTM的递归网络模型中加载与迭代模块的组成示意图以及与数据生成模块、参数设定模块、模型定义模块、递归网络训练模块、递归网络评估模块和递归网络测试模块的连接关系;
图4是本发明基于FW机制及LSTM的递归网络模型中递归网络训练模块、递归网络评估模块以及递归网络测试模块三者的关系与组成示意图;
图5是本发明基于FW机制及LSTM的递归网络模型中长短时记忆单元和快速权重单元的组成示意图;
图6是本发明基于FW机制及LSTM的递归网络模型依托的方法处理关联度大的短句文本数据集不同batch size的学习效果对比;
图7是本发明基于FW机制及LSTM的递归网络模型依托的方法处理关联度大的短句文本数据集不同模型的log(perplexity)对比。
具体实施方式
下面结合附图和实施例对本发明基于FW机制及LSTM的递归网络模型及学习方法做进一步说明和详细描述。
实施例1
本实施例阐述了基于本发明所述的基于FW机制及LSTM的递归网络模型的组成及工作流程。
具体实施时,语料采用流行应用于自然语言处理的NLTK文本语料库中的富有代表性的短句库——欧盟国家会议语料europarl_raw进行试验。
europarl_raw语料库文本数据来源于会议对话,句子大多数为中短句,长度大约为十个单词左右,句式较为简单,大多为主谓宾结构。具体到本实施例,采用图1中各模块对该数据集进行处理。
图1示意了基于FW机制及LSTM的递归网络模型的组成及各模块的连接,从图1中可以看出,数据导入模块导入的数据送入数据生成模块中;数据生成模块生成训练数据、评估数据以及测试数据及其标签,输入加载与迭代模块中;加载与迭代模块与模型定义模块接收参数设定模块的参数,并分别连入递归网络训练模块、评估模块以及测试模块,进行训练、评估及测试。
。首先通过数据导入模块通过读取文本路径将文本数据导入;导入后输出至数据生成模块,数据生成模块进一步将原始数据拆分成训练数据、评估数据和测试数据,再经过训练标签生成单元、评估标签生成单元以及测试标签生成单元生成各数据集的标签,其结构如图2中数据生成模块的连接示意图所示。
其中,参数设定模块中预先设置的配置参数有如下表1中所述的4种:
表1各配置具体参数设置
参数设定模块依据数据导入模块导入的文本的模型规模,获取由表1所示的合适配置参数,将其输入参数设定模块,尔后送往模型定义模块和加载与迭代模块。模型定义模块根据参数设定模块中的配置参数,使用伪随机函数在配置范围内生成随机值作为权重矩阵参数,完成权重参数的初始化。
加载与迭代模块中的数据加载单元按照参数设定模块中获取的配置参数加载训练集、评估集以及测试集中的数据;迭代模块判断当前数据集中的数据是否发送完毕,并依据判断结果进行操作。若当前数据集为训练数据,则输出至递归网络训练模块;若为评估数据,则输出至递归网络评估模块;若为测试数据,则输出至递归网络测试模块。由图3可看出加载与迭代模块的工作示意图以及与数据生成模块、参数设定模块、模型定义模块、递归网络训练模块、递归网络评估模块和递归网络测试模块的连接关系。
图4示意了基于FW机制及LSTM的递归网络模型中递归网络训练模块、递归网络评估模块以及递归网络测试模块三者的关系与组成。递归网络评估模块以及递归网络测试模块与递归网络训练模块差异是不包括dropout单元而仅包含更新单元和结果储存单元。递归网络训练模块将训练好的网络参数送入递归网络评估模块;递归网络评估模块将评估后的网络参数送入递归网络测试模块。
从图4可以看出,更新单元包括长短时记忆单元和快速权重单元;图4可以看出,递归网络评估模块以及递归网络测试模块与递归网络训练模块差异是不包括dropout单元;仅包含更新单元和结果储存单元。
图5示意了本模型中长短时记忆单元和快速权重单元的组成。图5中,Xt对应t时刻的输入层数据;C(t-1)以及C’(t)分别对应LSTM在t时刻记忆单元C的输入和输出;C’(t)再经过快速权重进行更新,生成C(t);作为下一时刻LSTM记忆单元C的输入;ht-1以及ht分别为t-1时刻以及t时刻的LSTMcell的输出。图5中的σ为激活函数sigmoid;tanh为tanh激活函数。
图5中,C’(t)=h0(t)以及C(t)hs(t)分别对应初始快速权重更新前的t时刻记忆单元的输入,以及更新后t时刻记忆单元的输入。
实施例2
本实例阐述了基于本发明递归网络模型所依托的方法,处理关联度大的断句文本数据集的学习效果对比。
我们将目光转移到对由句子之间关联性较强,且句子长度较短的文本数据的处理,由于句子较短,更加注重短期内输入单词与单词之间的联系。我们使用流行应用于自然语言处理的NLTK文本语料库中的富有代表性的短句库——欧盟国家会议语料europarl_raw进行试验。
在使用europarl_raw语料库时,将num_steps统一设置为10,代表网络按照每输入十个单词为一句完整的句子处理。
首先需确定合适的更新次数s。
当快速权重在当前的时刻得到更新后,将对隐藏状态进行循环s次的更新,相比于toy game场景的样本数据,文本数据的前后单词关联性较为复杂,我们需要加快更新频率,即加大s的数值以更大的发挥快速权重处理短期记忆的功能。我们调整一个时间步骤内隐藏状态的更新次数,固定隐藏单元数为50,batch_size为20,改变S=5,6,7,8,记录模型训练效果,如下表2所示:
表2不同更新次数下模型分别在训练到第5,10,13个epoch时的复杂度对比
更新次数s | 复杂度-5 | 复杂度-10 | 复杂度-13 |
5 | 189.380 | 108.083 | 105.231 |
6 | 145.939 | 73.875 | 71.331 |
7 | 138.889 | 68.323 | 65.946 |
8 | 139.400 | 70.049 | 67.642 |
如表2所示,当更新次数s=7时,快速权重模型在训练到第5个epoch时复杂度为138.889,第10个epoch下降为68.323,第13个epoch时收敛于65.946。
此后我们将确定合适的batch size。
合适的batch size对于一个网络的学习性能至关重要,batch size过大,会导致模型在进行梯度下降法寻找最优解时找到的是局部最小值而不是全局最小值,而batchsize过小则会导致收敛速度慢,模型学习效果差。所以为了提升引入了快速权重的新模型的性能,我们固定隐藏单元数量为50,更新次数s设置为前文中验证过的最优值7,组成句子的单词数num_steps=10,改变batch size等于10,20,30,50,记录模型训练效果,如下表3所示:
表3不同batch size下模型在第10个epoch时的复杂度对比
从表3可以看到,batch_size=20时模型收敛后的复杂度最低,在训练到第10个epoch时复杂度为45.139,在训练到第13个epoch时复杂度低至43.344,batch size等于10和30时,模型训练到第13个epoch的复杂度约为51。为了更直观的表示出不同batch size下复杂度的差异,我们对复杂度取以10为底的对数log(perplexity),对比不同batch size下快速权重模型的log(perplexity)差异,如图6所示。
图6中,横坐标为训练epoch数,纵坐标为以10为底,复杂度的对数log(perplexity)。可以看到以每20个epoch为一批数据进行训练时模型的复杂度最低,学习效果最佳,并进行语言模型的对比。
固定隐藏单元数量为50,组成句子的单词数num_steps=10,使用SeLU函数作为激活函数。对比LSTM模型,RNN模型,快速权重与LSTM网络结合的模型和快速权重与RNN结合的模型共四个模型的训练效果。模型训练复杂度如表4所示:
表4:不同模型基于europarl_raw数据库的训练复杂度对比
模型名称 | 复杂度-5 | 复杂度-10 | 复杂度-15 | 复杂度-20 |
LSTM | 267.602 | 178.175 | 174.935 | 174.824 |
LSTM+FW | 90.945 | 45.139 | 43.280 | 43.208 |
RNN | 1037.719 | 421.531 | 412.841 | 412.510 |
RNN+FW | 533.806 | 378.564 | 369.842 | 369.474 |
从表4能够看到,引入快速权重的LSTM模型在训练到第5个epoch时复杂度为90.945,在第10个epoch时进一步降低至45.139.训练到第15个epoch时模型复杂度为43.280,模型达到收敛。同样训练到第15个epoch时,LSTM模型的复杂度收敛至174.824,比引入快速权重的LSTM模型高出131,其次是引入快速权重的RNN网络,复杂度收敛于369.474,效果最差的是RNN模型,复杂度收敛于412.510。
为了更直观的表示不同模型的复杂度差异,将复杂度取以10为底的对数,对比不同模型的log(perplexity)差异,如图7所示。
从图7能够看出,引入了快速权重的LSTM模型收敛后的复杂度最低,模型学习效果最好,且与未引入快速权重的LSTM模型差异很大,说明在LSTM网络中引入快速权重,模型训练效果提升明显。RNN模型收敛后的复杂度最高,加入快速权重后的RNN模型训练效果略有提升,但效果不明显。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (9)
1.基于FW机制及LSTM的递归网络模型,其特征在于:包括数据导入模块、数据生成模块、加载与迭代模块、参数设定模块、模型定义模块、递归网络训练模块、递归网络评估模块以及递归网络测试模块;
其中,数据生成模块又包括数据拆分单元;加载与迭代模块包括数据加载单元和迭代单元;
数据拆分单元包括训练数据生成单元、评估数据生成单元以及测试数据生成单元;
递归网络训练模块包括dropout单元、更新单元和结果储存单元;递归网络评估模块以及递归网络测试模块仅包括更新单元和结果储存单元;
其中,更新单元包括长短时记忆单元和快速权重单元;
所述基于FW机制及LSTM的递归网络模型中各模块的连接关系如下:
数据导入模块与数据生成模块相连,数据生成模块和加载与迭代模块相连,参数设定模块和加载与迭代模块以及模型定义模块相连,递归网络训练模块和加载与迭代模块、递归网络评估模块以及模型定义模块相连,递归网络评估模块与加载与迭代模块、递归网络训练模块、递归网络测试模块以及模型定义模块相连;递归网络测试模块与加载与迭代模块、递归网络评估模块和模型定义模块相连;
数据生成模块中各单元的连接关系如下:数据拆分单元中训练数据、评估数据和测试数据分别与训练标签生成单元、评估标签生成单元以及测试标签生成单元相连;
加载与迭代模块中各单元的连接关系如下:数据加载单元和迭代单元相连;
所述基于FW机制及LSTM的递归网络模型中各模块的信号产生及输出关系如下:
数据导入模块的输出接入数据生成模块;数据生成模块处理后接入加载与迭代模块;参数设定模块为加载与迭代模块和模型定义模块提供输入参数及FW模型参数;加载与迭代模块分别为递归网络训练模块、递归网络评估模块和递归网络测试模块提供训练数据和训练标签、评估数据和评估标签以及测试数据和测试标签;模型定义模块将FW模型参数分别输入递归网络训练模块、递归网络评估模块以及递归网络测试模块;递归网络训练模块将训练好的网络参数送入递归网络评估模块;递归网络评估模块将评估后的网络参数送入递归网络测试模块;
递归网络训练模块、评估模块以及测试模块中的各单元连接关系如下:
dropout单元接收数据并与长短时记忆单元相连,长短时记忆单元与数据输入和快速权重单元相连,结果储存单元与快速权重单元和结果相连。
2.如权利要求1所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:包括如下步骤:
步骤一、待训练和测试的数据经数据导入模块导入,具体为:
步骤二、数据生成模块对经数据导入模块导入的数据经数据拆分单元进行拆分,分别得到训练数据、评估数据和测试数据;
步骤三、训练数据生成单元随机选取x%比例经数据拆分单元拆分后的数据生成训练集;评估数据生成单元随机选取y%比例经数据拆分单元拆分后的数据生成评估集;测试数据生成单元随机选取z%比例经数据拆分单元拆分后的数据生成测试集;
步骤四、训练标签生成单元将训练数据生成单元生成的训练集中每一个数据后移一位得到训练标签;评估标签生成单元将评估数据生成单元生成的评估集中每一个数据后移一位得到评估标签;测试标签生成单元将测试集中每一个数据后移一位得到测试标签;
步骤五、参数设定模块根据数据导入模块导入文本的模型规模,获取配置参数,再将获取的配置参数输入参数设定模块;
其中,配置参数包括初始规模、学习率、最大梯度正则值、层数、步数、隐藏层大小、最大epoch数、极大epoch值、dropout率、衰减率、批大小以及vocab大小;
步骤六、加载与迭代模块中的数据加载单元按照参数设定模块中获取的配置参数加载训练集、评估集以及测试集中的数据,并设定初始化数据序号i为1;
步骤七、模型定义模块根据参数设定模块中的配置参数,使用伪随机函数在配置范围内生成随机值作为权重矩阵参数,完成权重参数的初始化;
步骤八、加载与迭代模块中迭代模块判断当前数据集中的数据是否发送完毕,并依据判断结果进行操作,具体为:
若当前数据集中的数据没发送完,则发送第i组数据,判断进行训练、评估还是测试,并跳至步骤九,跳至步骤八;否则停止迭代;
步骤九、判断当前数据是否是训练数据,若是则依据dropout率对输入数据进行抽取,抽取后数据,跳至步骤十;否则,跳至步骤十;
步骤十、将步骤九输入的数据送入更新单元中的长短时记忆单元以及快速权重单元计算得到输出向量,同时利用梯度下降法对网络进行优化,具体为:
步骤10.1更新单元基于输入层权重Wx、标准权重Wh计算起始隐藏层状态,通过公式(4)计算当前t时刻的初始隐藏状态:
h0 t=f(LN(Wx*xt+ Wh*ht-1)) (4)
其中,输入层权重记为Wx、标准权重记为Wh;h0为起始隐藏层状态,LN为层正则化函数;f为激活函数;xt为当前t时刻的输入层数据;ht-1为当前时刻的前一时刻,即t-1时刻,隐藏层状态对应的数据,简称隐藏层状态;
标准权重Wh是RNN网络中隐藏层向下一个时间步进传播的权重;输入层权重Wx是输入层到隐藏层传播的权重;
步骤10.2、快速权重单元计算快速权重,具体通过公式(5)计算:
WA(t)=λWA(t-1)+ηht-1hT t-1 (5)
其中,WA(t)是第t时刻的快速权重,是仅作用在隐藏层每个时间步进内的权重;一个时间步进更新的总次数,记为s+1次;λ是衰减率、η是学习率、ht-1为t-1时刻对应的隐藏层状态;hT t-1是ht-1即t-1时刻对应隐藏层状态的转置;
其中,时间步进更新的总次数s+1中的s即步数;
步骤10.3、快速权重单元计算隐藏层状态并更新s次隐藏层状态;
步骤10.4、慢速权重单元计算归一化输出;
其中,网络的归一化输出通过Softmax或sigmoid函数两者之一实现;
步骤10.5、结果存储单元计算基于步骤10.4计算出的归一化输出计算损失loss和复杂度perplexity;
步骤10.6、慢速权重单元判断是否达到最后一个Epoch,如果没有达到,则更新单元则更新隐藏层状态以及训练参数或测试参数,将当前i加1,跳至步骤八。
3.如权利要求2所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:步骤一通过读取文本路径,获取文本数据。
4.如权利要求2所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:步骤二中,拆分具体为:将步骤一导入的文本数据按照每j个字符为一句话进行拆分。
5.如权利要求4所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:j的取值范围为5到50。
6.如权利要求2所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:步骤三中,x%+y%+z%=1。
7.如权利要求2所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:步骤10.1中激活函数f为SeLU函数、Leaky Relu函数以及Swish函数中的一种。
8.如权利要求2所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:步骤10.2中,衰减率的取值范围为0.9到0.995。
9.如权利要求2所述的基于FW机制及LSTM的递归网络模型依托的学习方法,其特征在于:步骤10.2中,学习率的取值范围为0.3到0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910476156.XA CN110288081A (zh) | 2019-06-03 | 2019-06-03 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910476156.XA CN110288081A (zh) | 2019-06-03 | 2019-06-03 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110288081A true CN110288081A (zh) | 2019-09-27 |
Family
ID=68003232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910476156.XA Pending CN110288081A (zh) | 2019-06-03 | 2019-06-03 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110288081A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018151125A1 (ja) * | 2017-02-15 | 2018-08-23 | 日本電信電話株式会社 | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム |
CN109214452A (zh) * | 2018-08-29 | 2019-01-15 | 杭州电子科技大学 | 基于注意深度双向循环神经网络的hrrp目标识别方法 |
US20190087709A1 (en) * | 2016-04-29 | 2019-03-21 | Cambricon Technologies Corporation Limited | Apparatus and method for executing recurrent neural network and lstm computations |
CN109508377A (zh) * | 2018-11-26 | 2019-03-22 | 南京云思创智信息科技有限公司 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
US20190114544A1 (en) * | 2017-10-16 | 2019-04-18 | Illumina, Inc. | Semi-Supervised Learning for Training an Ensemble of Deep Convolutional Neural Networks |
-
2019
- 2019-06-03 CN CN201910476156.XA patent/CN110288081A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190087709A1 (en) * | 2016-04-29 | 2019-03-21 | Cambricon Technologies Corporation Limited | Apparatus and method for executing recurrent neural network and lstm computations |
WO2018151125A1 (ja) * | 2017-02-15 | 2018-08-23 | 日本電信電話株式会社 | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム |
US20190114544A1 (en) * | 2017-10-16 | 2019-04-18 | Illumina, Inc. | Semi-Supervised Learning for Training an Ensemble of Deep Convolutional Neural Networks |
CN109214452A (zh) * | 2018-08-29 | 2019-01-15 | 杭州电子科技大学 | 基于注意深度双向循环神经网络的hrrp目标识别方法 |
CN109508377A (zh) * | 2018-11-26 | 2019-03-22 | 南京云思创智信息科技有限公司 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
Non-Patent Citations (1)
Title |
---|
T. ANDERSON KELLER ET AL.: "FAST WEIGHT LONG SHORT-TERM MEMORY", 《ICLR 2018》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858945B (zh) | 基于深度学习的评论文本方面级情感分类方法及*** | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
US11531824B2 (en) | Cross-lingual information retrieval and information extraction | |
Dong et al. | A commodity review sentiment analysis based on BERT-CNN model | |
CN104598611B (zh) | 对搜索条目进行排序的方法及*** | |
US11107250B2 (en) | Computer architecture for artificial image generation using auto-encoder | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
WO2020140073A1 (en) | Neural architecture search through a graph search space | |
CN108879732B (zh) | 电力***暂态稳定评估方法及装置 | |
CN111144552A (zh) | 一种粮食品质多指标预测方法及装置 | |
CN111695024A (zh) | 对象评估值的预测方法及***、推荐方法及*** | |
Krantsevich et al. | Stochastic tree ensembles for estimating heterogeneous effects | |
CN112529684A (zh) | 一种基于fwa_dbn的客户信用评估方法及*** | |
US11195053B2 (en) | Computer architecture for artificial image generation | |
CN116822593A (zh) | 一种基于硬件感知的大规模预训练语言模型压缩方法 | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
CN112651499A (zh) | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 | |
CN110288081A (zh) | 一种基于fw机制及lstm的递归网络模型及学习方法 | |
CN114997155A (zh) | 一种基于表格检索和实体图推理的事实验证方法与装置 | |
Zhu et al. | Application of improved deep belief network based on intelligent algorithm in stock Price prediction | |
US20240028931A1 (en) | Directed Acyclic Graph of Recommendation Dimensions | |
CN108846778B (zh) | 一种基于知识库的产品概念新颖性评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190927 |
|
WD01 | Invention patent application deemed withdrawn after publication |