CN113743087A - 一种基于神经网络词汇扩展段落的文本生成方法及*** - Google Patents
一种基于神经网络词汇扩展段落的文本生成方法及*** Download PDFInfo
- Publication number
- CN113743087A CN113743087A CN202111044245.0A CN202111044245A CN113743087A CN 113743087 A CN113743087 A CN 113743087A CN 202111044245 A CN202111044245 A CN 202111044245A CN 113743087 A CN113743087 A CN 113743087A
- Authority
- CN
- China
- Prior art keywords
- data
- article
- keywords
- text
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000003860 storage Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 3
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 5
- 229910052760 oxygen Inorganic materials 0.000 description 5
- 239000001301 oxygen Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000007789 gas Substances 0.000 description 4
- 239000002101 nanobubble Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 230000000249 desinfective effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001706 oxygenating effect Effects 0.000 description 2
- 238000006213 oxygenation reaction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001954 sterilising effect Effects 0.000 description 2
- 238000012271 agricultural production Methods 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经网络词汇扩展段落的文本生成方法及***,属于文本处理技术领域,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对保存的文章数据进行分段,并对分段数据进行数据预处理,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;通过按段落生成的方式,更好的控制文章生成的字数要求,使用户使用文本生成的体验感更好。
Description
技术领域
本发明属于文本处理技术领域,具体是一种基于神经网络词汇扩展段落的文本生成方法及***。
背景技术
文本生成是自然语言处理中非常重要的研究方向,应用场景非常广泛,主要是应用到格式化数据文本的生成,或者生成资讯类的内容,解释类文本的生成等。目前非格式化的文本生成任务的常见的方向大致有:摘要生成、文本复述等。文本复述生成,需要大量的素材做支撑,才能形成复述生成的效果,且训练复述模型所需的平行语料需要足够充足且规整;而在现实中却很难获得大规模的此类平行语料。诗歌生成及小说生成,不细究生成效果,可有一定的研究价值,但大多数情况为研究者实施,实验性意义更大,而不是为应用层面考虑。
采用神经网络词汇扩展段落的文本生成,可在一定范围内的语料中进行训练,即可得出较为良好的扩充生成文章的效果。在已经积累的用户特征数据、用户偏好数据、文章素材数据,以及通过关系抽取、实体识别所增加的标签特征数据的基础上,进行深度学习网络训练的语句/文章生成方式,可大大扩充生成文章的多样性、原创性。
发明内容
为了解决上述方案存在的问题,本发明提供了一种基于神经网络词汇扩展段落的文本生成方法及***。
本发明的目的可以通过以下技术方案实现:
一种基于神经网络词汇扩展段落的文本生成***,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;
所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对保存的文章数据进行分段,并对分段数据进行数据预处理,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;
用户通过输入模块输入预测参数,输入模块根据输入的预测参数获得预测输入数据,将预测输入数据发送到文本生成模块,文本生成模块根据获取的数据生成文本,并将文本发送给用户。
进一步地,文章数据库在保存文章数据前,对接收的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据。
进一步地,当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记。
进一步地,建模模块建立预测模型的方法包括:
编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
进一步地,输入模块的工作方法包括:
设置检索单元和关键词库,选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据。
进一步地,根据所属行业领域向用户推荐关键词的方法包括:
获取所属行业领域,根据所属行业领域在关键词库中进行匹配,获得同领域关键词,标记为待选关键词,获取待选关键词的使用次数,根据待选关键词的使用次数对待选关键词进行排序,选取排序前N个待选关键词推荐给用户。
进一步地,文本生成模块根据获取的数据生成文本的方法包括:
获取预测输入数据和预测模型,将预测输入数据输入到预测模型中,获得句子,标记为输出句子,生成句子的规则是beam search,对输出句子依据启发式规则进行排序,形成文本数据。
一种基于神经网络词汇扩展段落的文本生成方法,具体方法包括:
步骤一:建立预测模型;
步骤二:获取用户输入的预测参数,并根据预测参数设置预测输入数据;
步骤三:将预测输入数据输入到预测模型中,获得输出句子,对输出句子依据启发式规则进行排序,形成文本数据;
步骤四:向用户展示文本数据。
与现有技术相比,本发明的有益效果是:解决了一般文本生成所使用的bert等常见的自编码的模型生成文本质量不高,语句不通顺的问题;通过按段落生成的方式,更好的控制文章生成的字数要求,使用户使用文本生成的体验感更好;通过从句子提取核心词,以句子作为训练语料,可以使模型更好的收敛,增加文本生成的严谨性,多样性,生成文本的质量更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明***原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于神经网络词汇扩展段落的文本生成***,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;
所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对接收的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据;因为每篇公开的文章基本都有发文日,当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记;文章数据库对保存的文章数据进行分段,产生分段数据,分段数据即为文章数据中的句子,相当于一句话,可以根据段落和句号进行分段;对分段数据进行数据预处理,数据预处理包括数据的清洗和提取,提取分段数据中的核心词,此处提及的分段数据为经过数据预处理的数据;提取关键词为常规技术,不是本发明的改进点,因此不进行详细叙述了,可以使用神经网络模型进行训练;将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;
用户通过输入模块输入预测参数,输入模块根据输入的预测参数获得预测输入数据,将预测输入数据发送到文本生成模块,文本生成模块根据获取的数据生成文本,并将文本发送给用户。
数据采集模块采集文章数据的方法包括:
制定文章数据采集领域,根据文章数据采集领域从互联网中进行文章数据采集。
建模模块建立预测模型的方法包括:
编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
所述输入模块用于用户输入预测参数,并根据预测参数设置预测输入数据,预测参数包括所属行业领域、关键词、生成文章篇数和每个段落字数范围;所属行业领域指的是目标文章所述的行业领域,具体方法包括:
设置检索单元和关键词库,检索单元用于检索关键词,关键词库用于储存关键词,可以根据训练集数据中的关键词进行储存;选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,即为包含关键词的句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,数据预处理包括数据的清洗和提取,处理对象就是筛选出的匹配句子,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据;
根据所属行业领域向用户推荐关键词的方法包括:
获取所属行业领域,根据所属行业领域在关键词库中进行匹配,获得同领域关键词,标记为待选关键词,获取待选关键词的使用次数,根据待选关键词的使用次数对待选关键词进行排序,选取排序前N个待选关键词推荐给用户,其中N为比例系数,且50≥N≥10;
所述文本生成模块用于根据获取的数据生成文本,具体方法包括:
获取预测输入数据和预测模型,将预测输入数据输入到预测模型中,获得句子,标记为输出句子,生成新的句子的规则是beam search,对输出句子依据启发式规则进行排序,形成文本数据;启发式规则为本领域公知常识,因此不进行详细叙述。
示例性的,用户选择的行业领域:机械及行业设备/农业机械;推荐的关键词为:耙齿、微纳米供氧机、刮粪机、石磨、混合机、装载机、碎枝机等,用户选择:微纳米供氧机,选择的文章篇数为一,输出结果为:
微纳米供氧机:
微纳米气泡快速发生置,把气体(如:空气、氧气、臭氧等)用高速旋回切割方式溶入水中,快速地制取纳米气泡水,提高气体的溶解效率,满足对水体进行处理的要求,因此可以广泛应用于工业、农业以及生活用水的处理中。
产品特点:
1、气泡直径100nm-10μm;
2、上升速度慢;
3、自身增压溶解;
4、比表面积大;
5、表面带电荷;
6、微纳米气泡发生装置便于和现有设备结合;
7、不同种类气液可自由组合,不同气源(空气、氧气、臭氧、二氧化碳等)。
应用领域:
农业生产:营养液增氧与消毒、增氧灌溉;
水产与畜牧养殖:水质净化与消毒、水体增氧;
污水治理:水质净化、消毒、增氧;
医疗养生:消毒、洗浴保健;
食品加工:果蔬清洗、消毒、保鲜。
一种基于神经网络词汇扩展段落的文本生成方法,具体方法包括:
步骤一:建立预测模型;
采集文章数据,对采集的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据;当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记;对文章数据进行分段,产生分段数据,对分段数据进行数据预处理,数据预处理包括数据的清洗和提取,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
步骤二:获取用户输入的预测参数,并根据预测参数设置预测输入数据;
设置检索单元和关键词库,检索单元用于检索关键词,关键词库用于储存关键词,可以根据训练集数据中的关键词进行储存;选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,数据预处理包括数据的清洗和提取,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据;
步骤三:将预测输入数据输入到预测模型中,获得输出句子,对输出句子依据启发式规则进行排序,形成文本数据;
当获得的文本数据不满足用户需求时,返回步骤二,由用户添加新的关键词;
步骤四:向用户展示文本数据。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (8)
1.一种基于神经网络词汇扩展段落的文本生成***,其特征在于,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;
所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对保存的文章数据进行分段,并对分段数据进行数据预处理,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;
用户通过输入模块输入预测参数,预测参数包括所属行业领域、关键词、生成文章篇数和每个段落字数范围;输入模块根据输入的预测参数获得预测输入数据,将预测输入数据发送到文本生成模块,文本生成模块根据获取的数据生成文本,并将文本发送给用户。
2.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***,其特征在于,文章数据库在保存文章数据前,对接收的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据。
3.根据权利要求2所述的一种基于神经网络词汇扩展段落的文本生成***,其特征在于,当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记。
4.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***,其特征在于,建模模块建立预测模型的方法包括:
编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
5.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***,其特征在于,输入模块的工作方法包括:
设置检索单元和关键词库,选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据。
6.根据权利要求5所述的一种基于神经网络词汇扩展段落的文本生成***,其特征在于,根据所属行业领域向用户推荐关键词的方法包括:
获取所属行业领域,根据所属行业领域在关键词库中进行匹配,获得同领域关键词,标记为待选关键词,获取待选关键词的使用次数,根据待选关键词的使用次数对待选关键词进行排序,选取排序前N个待选关键词推荐给用户。
7.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成***,其特征在于,文本生成模块根据获取的数据生成文本的方法包括:
获取预测输入数据和预测模型,将预测输入数据输入到预测模型中,获得句子,标记为输出句子,生成句子的规则是beam search,对输出句子依据启发式规则进行排序,形成文本数据。
8.根据权利要求1-7任一项所述的一种基于神经网络词汇扩展段落的文本生成***的生成方法,其特征在于,具体方法包括:
步骤一:建立预测模型;
步骤二:获取用户输入的预测参数,并根据预测参数设置预测输入数据;
步骤三:将预测输入数据输入到预测模型中,获得输出句子,对输出句子依据启发式规则进行排序,形成文本数据;
步骤四:向用户展示文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044245.0A CN113743087B (zh) | 2021-09-07 | 2021-09-07 | 一种基于神经网络词汇扩展段落的文本生成方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044245.0A CN113743087B (zh) | 2021-09-07 | 2021-09-07 | 一种基于神经网络词汇扩展段落的文本生成方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743087A true CN113743087A (zh) | 2021-12-03 |
CN113743087B CN113743087B (zh) | 2024-04-26 |
Family
ID=78736558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111044245.0A Active CN113743087B (zh) | 2021-09-07 | 2021-09-07 | 一种基于神经网络词汇扩展段落的文本生成方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743087B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301140A (ja) * | 2008-06-10 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN109582933A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种确定文本新颖度的方法及相关装置 |
CN110888991A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN111274776A (zh) * | 2020-01-21 | 2020-06-12 | 中国搜索信息科技股份有限公司 | 一种基于关键词的文章生成方法 |
CN111639486A (zh) * | 2020-04-30 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 段落搜索方法、装置、电子设备及存储介质 |
CN111881307A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 一种演示文稿生成方法、装置、计算机设备及存储介质 |
CN111914062A (zh) * | 2020-07-13 | 2020-11-10 | 上海乐言信息科技有限公司 | 一种基于关键词的长文本问答对生成*** |
-
2021
- 2021-09-07 CN CN202111044245.0A patent/CN113743087B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301140A (ja) * | 2008-06-10 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN109582933A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种确定文本新颖度的方法及相关装置 |
CN110888991A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN111274776A (zh) * | 2020-01-21 | 2020-06-12 | 中国搜索信息科技股份有限公司 | 一种基于关键词的文章生成方法 |
CN111639486A (zh) * | 2020-04-30 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 段落搜索方法、装置、电子设备及存储介质 |
CN111914062A (zh) * | 2020-07-13 | 2020-11-10 | 上海乐言信息科技有限公司 | 一种基于关键词的长文本问答对生成*** |
CN111881307A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 一种演示文稿生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
彭争;唐东明;: "基于文本分类的农业种植信息集成推荐方法研究", 西南民族大学学报(自然科学版), no. 01, 25 January 2018 (2018-01-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN113743087B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105069124B (zh) | 一种自动化的国际疾病分类编码方法及*** | |
CN108108449A (zh) | 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法 | |
CN111708874A (zh) | 基于复杂意图智能识别的人机交互问答方法与*** | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN107423290A (zh) | 一种基于层次结构的神经网络机器翻译模型 | |
CN108647226A (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN111966820B (zh) | 一种生成式摘要模型构建、提取生成式摘要方法及*** | |
CN101261690A (zh) | 一种问题自动生成的***及其方法 | |
Jafariakinabad et al. | Style-aware neural model with application in authorship attribution | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别*** | |
CN109215798B (zh) | 一种面向中医古文的知识库构建方法 | |
CN108563635A (zh) | 一种基于情感轮模型的情感词典快速构建方法 | |
Larsson et al. | Text mining for improved exposure assessment | |
Misra | News headlines dataset for sarcasm detection | |
Liu et al. | Simulated annealing for optimization of graphs and sequences | |
Whitney | Bootstrapping via graph propagation | |
CN108960772A (zh) | 基于深度学习的企业评审辅助方法及*** | |
An et al. | Exploring pre-trained language models to build knowledge graph for metal-organic frameworks (mofs) | |
CN113743087A (zh) | 一种基于神经网络词汇扩展段落的文本生成方法及*** | |
Yang et al. | Application of question answering systems for intelligent agriculture production and sustainable management: A review | |
CN107895012B (zh) | 一种基于Topic Model的本体构建方法 | |
Dębowski | Maximal repetitions in written texts: Finite energy hypothesis vs. strong Hilberg conjecture | |
CN115422884A (zh) | 一种标讯数据处理方法、***、设备及存储介质 | |
Jiang et al. | Fine-tuning BERT-based models for plant health bulletin classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |