CN113743087A

CN113743087A - 一种基于神经网络词汇扩展段落的文本生成方法及***

Info

Publication number: CN113743087A
Application number: CN202111044245.0A
Authority: CN
Inventors: 陈海林; 张蓬; 赵绪龙
Original assignee: Trueland Information Technology Shanghai Co ltd
Current assignee: Trueland Information Technology Shanghai Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07
Also published as: CN113743087B

Abstract

本发明公开了一种基于神经网络词汇扩展段落的文本生成方法及***，属于文本处理技术领域，包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器；所述数据采集模块用于采集文章数据，并将采集到的文章数据发送到文章数据库进行保存，文章数据库对保存的文章数据进行分段，并对分段数据进行数据预处理，提取分段数据中的核心词，将分段数据和对应的核心词整合标记为训练集数据，将训练集数据发送到储存模块进行储存；通过建模模块建立预测模型，并将预测模型发送至文本生成模块；通过按段落生成的方式，更好的控制文章生成的字数要求，使用户使用文本生成的体验感更好。

Description

一种基于神经网络词汇扩展段落的文本生成方法及***

技术领域

本发明属于文本处理技术领域，具体是一种基于神经网络词汇扩展段落的文本生成方法及***。

背景技术

文本生成是自然语言处理中非常重要的研究方向，应用场景非常广泛，主要是应用到格式化数据文本的生成，或者生成资讯类的内容，解释类文本的生成等。目前非格式化的文本生成任务的常见的方向大致有：摘要生成、文本复述等。文本复述生成，需要大量的素材做支撑，才能形成复述生成的效果，且训练复述模型所需的平行语料需要足够充足且规整；而在现实中却很难获得大规模的此类平行语料。诗歌生成及小说生成，不细究生成效果，可有一定的研究价值，但大多数情况为研究者实施，实验性意义更大，而不是为应用层面考虑。

采用神经网络词汇扩展段落的文本生成，可在一定范围内的语料中进行训练，即可得出较为良好的扩充生成文章的效果。在已经积累的用户特征数据、用户偏好数据、文章素材数据，以及通过关系抽取、实体识别所增加的标签特征数据的基础上，进行深度学习网络训练的语句/文章生成方式，可大大扩充生成文章的多样性、原创性。

发明内容

为了解决上述方案存在的问题，本发明提供了一种基于神经网络词汇扩展段落的文本生成方法及***。

本发明的目的可以通过以下技术方案实现：

一种基于神经网络词汇扩展段落的文本生成***，包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器；

所述数据采集模块用于采集文章数据，并将采集到的文章数据发送到文章数据库进行保存，文章数据库对保存的文章数据进行分段，并对分段数据进行数据预处理，提取分段数据中的核心词，将分段数据和对应的核心词整合标记为训练集数据，将训练集数据发送到储存模块进行储存；通过建模模块建立预测模型，并将预测模型发送至文本生成模块；

用户通过输入模块输入预测参数，输入模块根据输入的预测参数获得预测输入数据，将预测输入数据发送到文本生成模块，文本生成模块根据获取的数据生成文本，并将文本发送给用户。

进一步地，文章数据库在保存文章数据前，对接收的文章数据进行校核，当接收的文章数据为重复文章数据时，保存发文日最近的文章数据，删除另一个文章数据。

进一步地，当文章数据中没有发文日时，以最新获取的文章数据的时间为发文日，并将发文日进行标记。

进一步地，建模模块建立预测模型的方法包括：

编写seq2seq模型，seq2seq模型采取encode端和decode端各用xlnet模型结构，从储存模块中获取训练集数据，使用训练集数据对seq2seq模型进行训练，将训练后的seq2seq模型标记为预测模型。

进一步地，输入模块的工作方法包括：

设置检索单元和关键词库，选择所属行业领域，根据所属行业领域向用户推荐关键词，用户从推荐的关键词中进行选择，当推荐的关键词中没有用户需要的关键词时，通过检索单元进行检索，获得关键词；设置生成文章篇数和每个段落字数范围；

将关键词输入到文章数据库中进行匹配，获得匹配句子，获取用户需求字数范围和匹配句子的字数，筛选出符合用户要求的匹配句子，进行数据预处理，将数据预处理后的句子标记为基础句子，提取基础句子中的核心词；将核心词标记为预测输入数据。

进一步地，根据所属行业领域向用户推荐关键词的方法包括：

获取所属行业领域，根据所属行业领域在关键词库中进行匹配，获得同领域关键词，标记为待选关键词，获取待选关键词的使用次数，根据待选关键词的使用次数对待选关键词进行排序，选取排序前N个待选关键词推荐给用户。

进一步地，文本生成模块根据获取的数据生成文本的方法包括：

获取预测输入数据和预测模型，将预测输入数据输入到预测模型中，获得句子，标记为输出句子，生成句子的规则是beam search，对输出句子依据启发式规则进行排序，形成文本数据。

一种基于神经网络词汇扩展段落的文本生成方法，具体方法包括：

步骤一：建立预测模型；

步骤二：获取用户输入的预测参数，并根据预测参数设置预测输入数据；

步骤三：将预测输入数据输入到预测模型中，获得输出句子，对输出句子依据启发式规则进行排序，形成文本数据；

步骤四：向用户展示文本数据。

与现有技术相比，本发明的有益效果是：解决了一般文本生成所使用的bert等常见的自编码的模型生成文本质量不高，语句不通顺的问题；通过按段落生成的方式，更好的控制文章生成的字数要求，使用户使用文本生成的体验感更好；通过从句子提取核心词，以句子作为训练语料，可以使模型更好的收敛，增加文本生成的严谨性，多样性，生成文本的质量更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明***原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种基于神经网络词汇扩展段落的文本生成***，包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器；

所述数据采集模块用于采集文章数据，并将采集到的文章数据发送到文章数据库进行保存，文章数据库对接收的文章数据进行校核，当接收的文章数据为重复文章数据时，保存发文日最近的文章数据，删除另一个文章数据；因为每篇公开的文章基本都有发文日，当文章数据中没有发文日时，以最新获取的文章数据的时间为发文日，并将发文日进行标记；文章数据库对保存的文章数据进行分段，产生分段数据，分段数据即为文章数据中的句子，相当于一句话，可以根据段落和句号进行分段；对分段数据进行数据预处理，数据预处理包括数据的清洗和提取，提取分段数据中的核心词，此处提及的分段数据为经过数据预处理的数据；提取关键词为常规技术，不是本发明的改进点，因此不进行详细叙述了，可以使用神经网络模型进行训练；将分段数据和对应的核心词整合标记为训练集数据，将训练集数据发送到储存模块进行储存；通过建模模块建立预测模型，并将预测模型发送至文本生成模块；

数据采集模块采集文章数据的方法包括：

制定文章数据采集领域，根据文章数据采集领域从互联网中进行文章数据采集。

建模模块建立预测模型的方法包括：

所述输入模块用于用户输入预测参数，并根据预测参数设置预测输入数据，预测参数包括所属行业领域、关键词、生成文章篇数和每个段落字数范围；所属行业领域指的是目标文章所述的行业领域，具体方法包括：

设置检索单元和关键词库，检索单元用于检索关键词，关键词库用于储存关键词，可以根据训练集数据中的关键词进行储存；选择所属行业领域，根据所属行业领域向用户推荐关键词，用户从推荐的关键词中进行选择，当推荐的关键词中没有用户需要的关键词时，通过检索单元进行检索，获得关键词；设置生成文章篇数和每个段落字数范围；

将关键词输入到文章数据库中进行匹配，获得匹配句子，即为包含关键词的句子，获取用户需求字数范围和匹配句子的字数，筛选出符合用户要求的匹配句子，进行数据预处理，数据预处理包括数据的清洗和提取，处理对象就是筛选出的匹配句子，将数据预处理后的句子标记为基础句子，提取基础句子中的核心词；将核心词标记为预测输入数据；

根据所属行业领域向用户推荐关键词的方法包括：

获取所属行业领域，根据所属行业领域在关键词库中进行匹配，获得同领域关键词，标记为待选关键词，获取待选关键词的使用次数，根据待选关键词的使用次数对待选关键词进行排序，选取排序前N个待选关键词推荐给用户，其中N为比例系数，且50≥N≥10；

所述文本生成模块用于根据获取的数据生成文本，具体方法包括：

获取预测输入数据和预测模型，将预测输入数据输入到预测模型中，获得句子，标记为输出句子，生成新的句子的规则是beam search，对输出句子依据启发式规则进行排序，形成文本数据；启发式规则为本领域公知常识，因此不进行详细叙述。

示例性的，用户选择的行业领域：机械及行业设备/农业机械；推荐的关键词为：耙齿、微纳米供氧机、刮粪机、石磨、混合机、装载机、碎枝机等，用户选择：微纳米供氧机，选择的文章篇数为一，输出结果为：

微纳米供氧机：

微纳米气泡快速发生置，把气体(如：空气、氧气、臭氧等)用高速旋回切割方式溶入水中，快速地制取纳米气泡水，提高气体的溶解效率，满足对水体进行处理的要求，因此可以广泛应用于工业、农业以及生活用水的处理中。

产品特点：

1、气泡直径100nm-10μm；

2、上升速度慢；

3、自身增压溶解；

4、比表面积大；

5、表面带电荷；

6、微纳米气泡发生装置便于和现有设备结合；

7、不同种类气液可自由组合，不同气源(空气、氧气、臭氧、二氧化碳等)。

应用领域：

农业生产：营养液增氧与消毒、增氧灌溉；

水产与畜牧养殖：水质净化与消毒、水体增氧；

污水治理：水质净化、消毒、增氧；

医疗养生：消毒、洗浴保健；

食品加工：果蔬清洗、消毒、保鲜。

步骤一：建立预测模型；

采集文章数据，对采集的文章数据进行校核，当接收的文章数据为重复文章数据时，保存发文日最近的文章数据，删除另一个文章数据；当文章数据中没有发文日时，以最新获取的文章数据的时间为发文日，并将发文日进行标记；对文章数据进行分段，产生分段数据，对分段数据进行数据预处理，数据预处理包括数据的清洗和提取，提取分段数据中的核心词，将分段数据和对应的核心词整合标记为训练集数据，编写seq2seq模型，seq2seq模型采取encode端和decode端各用xlnet模型结构，从储存模块中获取训练集数据，使用训练集数据对seq2seq模型进行训练，将训练后的seq2seq模型标记为预测模型。

将关键词输入到文章数据库中进行匹配，获得匹配句子，获取用户需求字数范围和匹配句子的字数，筛选出符合用户要求的匹配句子，进行数据预处理，数据预处理包括数据的清洗和提取，将数据预处理后的句子标记为基础句子，提取基础句子中的核心词；将核心词标记为预测输入数据；

当获得的文本数据不满足用户需求时，返回步骤二，由用户添加新的关键词；

步骤四：向用户展示文本数据。

在本发明所提供的实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基于神经网络词汇扩展段落的文本生成***，其特征在于，包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器；

用户通过输入模块输入预测参数，预测参数包括所属行业领域、关键词、生成文章篇数和每个段落字数范围；输入模块根据输入的预测参数获得预测输入数据，将预测输入数据发送到文本生成模块，文本生成模块根据获取的数据生成文本，并将文本发送给用户。

2.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***，其特征在于，文章数据库在保存文章数据前，对接收的文章数据进行校核，当接收的文章数据为重复文章数据时，保存发文日最近的文章数据，删除另一个文章数据。

3.根据权利要求2所述的一种基于神经网络词汇扩展段落的文本生成***，其特征在于，当文章数据中没有发文日时，以最新获取的文章数据的时间为发文日，并将发文日进行标记。

4.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***，其特征在于，建模模块建立预测模型的方法包括：

5.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***，其特征在于，输入模块的工作方法包括：

6.根据权利要求5所述的一种基于神经网络词汇扩展段落的文本生成***，其特征在于，根据所属行业领域向用户推荐关键词的方法包括：

7.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***，其特征在于，文本生成模块根据获取的数据生成文本的方法包括：

8.根据权利要求1-7任一项所述的一种基于神经网络词汇扩展段落的文本生成***的生成方法，其特征在于，具体方法包括：

步骤一：建立预测模型；

步骤四：向用户展示文本数据。