CN108427665A

CN108427665A - 一种基于lstm型rnn模型的文本自动生成方法

Info

Publication number: CN108427665A
Application number: CN201810212265.6A
Authority: CN
Inventors: 朱静; 邝景胴; 黄颖杰; 黄文恺
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-08-21

Abstract

本发明公开了一种基于LSTM型RNN模型的文本自动生成方法，包括以下步骤：收集多组目标特征文本数据；对收集到的文本数据进行预处理来构造训练数据，将训练数据输入LSTM型RNN模型进行训练，获取样本数据，并调整样本参数；通过构造和测试样本数据微调训练获取LSTM型RNN模型参数，不断训练样本数据、修正模型参数来提高模型精度；将修正后的LSTM型RNN模型作为预生成文档模型，加载模型并设置主要输出参数，调整模型，最终模型输出，得到特征类型文本。该方法采用LSRM型RNN模型的特征类型文本生成方法，对于特征性和重复性强的文本，如新闻类的短讯稿，不必采用人工进行书写，节约了人力物力资源，所生成的文本具有较强的逻辑性。

Description

一种基于LSTM型RNN模型的文本自动生成方法

技术领域

本发明涉及文本自动生成技术，具体为基于LSTM型RNN模型的文本自动生成方法。

背景技术

经典的网络之循环神经网络(RNN)，是时序数据的首选网络。当涉及某些顺序机器学习任务时，RNN可以达到很高的精度，没有其他算法可以与之一较高下。这是由于传统的神经网络只是具有一种短期记忆，而RNN具有有限的短期记忆的优势。

在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种传统的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。

LSTM(Long Short-Term Memory，长短期记忆网络)为神经网络的一个延伸扩展，是一种时间递归神经网络，常用于处理序列中间隔和延迟相对较长的事件。基于LSTM的***可以学习翻译语言、控制机器人(如聊天机器人)、图像分析、文档摘要、语音识别、图像识别、手写识别、预测疾病、点击率和股票、合成音乐等。在2015年，谷歌通过基于CTC训练的LSTM程序大幅提升了安卓手机和其他设备中语音识别的能力。百度也使用了CTC；而苹果的iPhone在QucikType和Siri中使用了LSTM；微软不仅将LSTM用于语音识别，还将这一技术用于虚拟对话形象生成和编写程序代码等等。亚马逊Alexa通过双向LSTM在家中与你交流；而谷歌使用LSTM的范围更加广泛，它可以生成图像字幕，自动回复电子邮件，它包含在新的智能助手Allo中，也显著地提高了谷歌翻译的质量。

自然语言处理的一个应用领域为文本自动生成。现有利用RNN(循环神经网络)模型来生成文本的技术中，常见的为应用关键词提取、同义词识别等技术手段来实现。即根据所输入的关键词，从预先建立好的语料库中选择与给定关键词相同或相似度大于阈值的语句集合，若候选语句量满足要求则输出所自动生成的文本；若不满足要求则根据同义词词库，进一步对语句进行同义词、模板复写等拓展，以最终完成文本的自动生成及输出。在已有的文本自动生成方法中，主要是基于语料库，根据现有的短句词组的整合，需要更多地使用先验知识，对于文本的处理更多地包含语义的成分分析及处理，所生成的文本并不具有较强的逻辑性，其文本自动生成的效率及准确率均有很大的局限性。

发明内容

为了解决现有文本自动生成方法所存在的问题，本发明提供一种基于LSTM型RNN模型的文本自动生成方法，该方法根据相关文本特征采集文本数据，对文本数据进行预处理来构造训练数据，将训练数据作为LSTM型RNN的输入进行模型的训练；通过训练样本数据得到预先训练的LSTM型RNN模型，然后通过构造的验证和测试样本数据微调训练得到LSTM型RNN模型参数，通过不断训练样本数据、修正模型参数来提高模型精度，将该修正后的LSTM型RNN模型作为预生成文档模型，加载模型并设置主要输出参数以调整模型，最终模型输出，得到特征类型文本。

本发明采用如下技术方案来实现：一种基于LSTM型RNN模型的文本自动生成方法，包括以下步骤：

步骤S1：收集多组目标特征文本数据；

步骤S2：对收集到的文本数据进行预处理来构造训练数据，将训练数据输入LSTM型RNN模型进行训练，获取样本数据，并调整样本参数；

步骤S3：通过构造和测试样本数据微调训练获取LSTM型RNN模型参数，不断训练样本数据、修正模型参数来提高模型精度；

步骤S4：将修正后的LSTM型RNN模型作为预生成文档模型，加载模型并设置主要输出参数，调整模型，最终模型输出，得到特征类型文本。

优选地，步骤2对收集到的文本数据进行预处理来构造待训练数据，在待处理文本数据中得到字符与行号对应的索引字典，将字符数据集映射成为索引数据集，在索引数据集中得到字符-数字的映射和数字-字符的映射。

优选地，步骤2还建立LSTM型RNN模型的输入特征向量，并判断数据库是否存在此特征模型，如存在，从数据库中读取目标文本的特征向量并存入当前特征向量，如不存在，建立新的特征模型并存入相关特征向量。

优选地，步骤S3通过测试样本数据微调训练得到LSTM型RNN模型参数，其中参数包括：梯度***值和梯度弥散值；并通过build_Optimizer函数的gradient clippling的方式来防止梯度***，即通过设置一个阈值，当gradients超过这个阈值时，就将它重置为阈值大小。

所述防止梯度***的过程为：每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，完成后再对整个网络进行微调；在使用无监督训练时，首先训练第一层，将第一层预训练号的隐节点视为第二层的输入节点，对第二层进行预训练；各层预训练完成后，再利用BP算法对整个网络进行训练，控制过拟合，并降低网络对初始化权重不敏感，把梯度保持下去。

与现有技术相比，本发明的有益效果包括如下几点：

1、本发明利用深度学习算法，采用LSRM型RNN模型的特征类型文本生成方法，对于特征性和重复性强的文本，如新闻类的短讯稿，不必采用人工进行书写，节约了人力物力资源。

2、同时，本发明使用LSTM单元堆叠，加强了对特征文本数据的充分利用，极大的提高了特征文本文档生成流畅度、准确率，具有极大的实用价值。

3、所采用的RNN模型由于不是原始RNN模型，而是使用了LSTM和word2vec的功能，能根据短讯这类文本所具有的特征和规律，来建立和训练模型，针对文本训练的丢失、梯度***等问题均进行了相应的处理，所自动生成的文本具有较强的逻辑性。

4、利用LSTM模型解决了梯度反传过程由于逐步缩减而产生的VanishingGradient问题，非常适合用于处理与时间序列高度相关的问题，而且程序添加了权值优化，训练调整参数，使得所生成的文本更加准确。

附图说明

图1为本发明实施例中文本自动生成算法的主要流程图；

图2为本发明实施例中LSTM型RNN的基本原理示意图；

图3为数据在记忆单元中流动以及单元中的门控制数据流动示意图。

具体实施方式

下面将结合附图和具体实施方式对本发明作进一步地说明，但本发明的实施方式不限于此。

如图1所示，本发明提供了一种基于LSTM型RNN模型的文本自动生成方法，其包括如下步骤：

步骤S1：收集多组目标特征文本数据。

在本实施例中，步骤S1收集多组目标特征文本数据时，要求文本类型风格相似，使用编码方式相同，语言一致。

步骤S2：对收集到的文本数据进行预处理来构造训练数据，将训练数据输入LSTM型RNN模型进行训练，获取样本数据，并调整样本参数。

在本实施例中，步骤S2对收集到的文本数据进行预处理来构造待训练数据，在待处理文本数据中得到字符与行号对应的索引字典，将字符数据集映射成为索引数据集，在索引数据集中得到字符-数字的映射和数字-字符的映射；建立LSTM型RNN模型的输入特征向量，判断数据库是否存在此特征模型，如存在，从数据库中读取目标文本的特征向量并存入当前特征向量，如不存在，建立新的特征模型并存入相关特征向量。

LSTM型RNN模型的基本原理如图2所示，图3示意了数据在记忆单元中流动以及单元中的门控制数据流动，在本实施例中，步骤S2中LSTM型RNN模型具体如下：

ft＝σ(Wfxt+Ufht-1)

it＝σ(Wixt+Uiht-1)

ot＝σ(Woxt+Uoht-1)

c～t＝tanh(Wcxt+Ucht-1)

ct＝ft°ct-1+it°c～t

ht＝ot°tanh(ct)

其中，it为输入门，控制有多少信息可以流入memory cell。ft为遗忘门，控制有多少上一时刻的memory cell中的信息可以累积到当前时刻的memory cell中。ot为输出门，控制有多少当前时刻的memory cell中的信息可以流入当前隐藏状态ht中。c为单位激活向量，it为t时刻输入，w为权重矩阵，u为隐层层数，σ为逻辑sigmoid函数，h为隐藏层单元。LSTM靠3个gates将信息的积累建立在线性自连接的memory cell之上，并靠其作为中间物来计算当前ht。

结合上式：h_t＝o_t⊙tanh(f_t⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c))。

其中，b为偏置矩阵。

步骤S3：通过构造和测试样本数据微调训练获取LSTM型RNN模型参数，不断训练样本数据、修正模型参数来提高模型精度。

在本实施例中，步骤S3通过测试样本数据微调训练得到LSTM型RNN模型参数，其中参数包括：梯度***值(gradients exploding)和梯度弥散值(gradients disappearing)；并通过build_Optimizer函数的gradient clippling的方式来防止梯度***，即通过设置一个阈值，当gradients超过这个阈值时，就将它重置为阈值大小。

防止梯度***的过程为：每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，完成后再对整个网络进行微调(fine-tunning)；在使用无监督训练时，首先训练第一层，将第一层预训练号的隐节点视为第二层的输入节点，对第二层进行预训练；各层预训练完成后，再利用BP算法对整个网络进行训练，控制过拟合，并降低网络对初始化权重不敏感，把梯度保持下去。

在本实施例中，步骤S3通过构造和测试样本数据微调训练中在使用tf.nn.rnn_cell.MultiRNNCell函数对模型中的RNNCell进行堆叠。每调用一次tf.nn.rnn_cell.MultiRNNCell函数就返回一个BasicRNNCell，并且用tf.nn.rnn_cell MultiRNNCell创建3层RNN，使用对应的call函数，通过zero_state得到一个全0的初始状态，得到RNNCell的子类从而堆叠多层RNNcell。

在本实施例中，修正后的LSTM型RNN模型包括输入层、隐藏层、输出层和LSTM层，其中LSTM层、隐藏层与隐层结点个数均由输入参数决定。输入层只起到输入信号的扇出作用，在计算网络的层数时不被记入，输入层负责接收来自网络外部的信息；输出层负责输出网络的计算结果；隐藏层不直接接受外界的信号，也不直接向外界发送信号，主要解决一个线性不可分问题；LSTM层内嵌套输入层、输出层和隐藏层。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于LSTM型RNN模型的文本自动生成方法，其特征在于，包括以下步骤：

步骤S1：收集多组目标特征文本数据；

2.根据权利要求1所述的基于LSTM型RNN模型的文本自动生成方法，其特征在于，步骤2对收集到的文本数据进行预处理来构造待训练数据，在待处理文本数据中得到字符与行号对应的索引字典，将字符数据集映射成为索引数据集，在索引数据集中得到字符-数字的映射和数字-字符的映射。

3.根据权利要求1所述的基于LSTM型RNN模型的文本自动生成方法，其特征在于，步骤2还建立LSTM型RNN模型的输入特征向量，并判断数据库是否存在此特征模型，如存在，从数据库中读取目标文本的特征向量并存入当前特征向量，如不存在，建立新的特征模型并存入相关特征向量。

4.根据权利要求1所述的基于LSTM型RNN模型的文本自动生成方法，其特征在于，步骤S3通过测试样本数据微调训练得到LSTM型RNN模型参数，其中参数包括：梯度***值和梯度弥散值；并通过build_Optimizer函数的gradient clippling的方式来防止梯度***，即通过设置一个阈值，当gradients超过这个阈值时，就将它重置为阈值大小。

5.根据权利要求4所述的基于LSTM型RNN模型的文本自动生成方法，其特征在于，所述防止梯度***的过程为：每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，完成后再对整个网络进行微调；在使用无监督训练时，首先训练第一层，将第一层预训练号的隐节点视为第二层的输入节点，对第二层进行预训练；各层预训练完成后，再利用BP算法对整个网络进行训练，控制过拟合，并降低网络对初始化权重不敏感，把梯度保持下去。

6.根据权利要求1所述的基于LSTM型RNN模型的文本自动生成方法，其特征在于，步骤S4中修正后的LSTM型RNN模型包括输入层、隐藏层、输出层和LSTM层，其中LSTM层、隐藏层与隐层结点个数均由输入参数决定，LSTM层内嵌套输入层、输出层和隐藏层。

7.根据权利要求1所述的基于LSTM型RNN模型的文本自动生成方法，其特征在于，步骤S1收集多组目标特征文本数据时，要求文本类型风格相似，使用编码方式相同，语言一致。