CN108170657A - 一种自然语言长文本生成方法 - Google Patents
一种自然语言长文本生成方法 Download PDFInfo
- Publication number
- CN108170657A CN108170657A CN201810006935.9A CN201810006935A CN108170657A CN 108170657 A CN108170657 A CN 108170657A CN 201810006935 A CN201810006935 A CN 201810006935A CN 108170657 A CN108170657 A CN 108170657A
- Authority
- CN
- China
- Prior art keywords
- text
- natural language
- algorithm
- long text
- generation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种自然语言长文本生成方法,包括如下步骤:首先,将语言看做一种数据,对文本内容作自然语言处理建立大数据体系;其次,运用文本摘要模型,通过算法解决文本主题归纳问题;通过分布式爬虫实时更新语料,并传递给算法,实现长文本生成。本发明解决使用RNN模型下的文本漂移问题,摆脱了之前文本复述领域对训练数据的极高要求,更加贴近人类复述能力,通过分布式爬虫实时更新语料,并传递给算法,实现了秒级的长文本生成能力,并且我们的模块化处理成本更低效果也令人满意。
Description
技术领域
本发明涉及一种方法,具体是一种自然语言长文本生成方法。
背景技术
现有的自然语言长文本生成方法,在使用RNN模型下存在文本漂移问题,从char-rnn及其衍生的word-rnn运行文本生成的效果发现,由于rnn只关注了输入之间的概率关系,缺乏对文本主题的建模。这个情况到seq2seq模型仍然存在,即算法无法像人类那样关注整体的同时也关注细节。
发明内容
本发明的目的在于提供一种自然语言长文本生成方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种自然语言长文本生成方法,包括如下步骤:首先,将语言看做一种数据,对文本内容作自然语言处理建立大数据体系;其次,运用文本摘要模型,通过算法解决文本主题归纳问题;通过分布式爬虫实时更新语料,并传递给算法,实现长文本生成;引入注意力机制,包括:第一步打分score,通过非线性函数tanh扭曲ht和hs;第二步是做score的softmax将值域压缩为权重at;第三步是将权重at分配给hs'形成context即ct;第四步是将ct和ht作非线性变换生成ht~。
作为本发明进一步的方案:所述分布式爬虫用于抓取即时的上市公司财务报告,并且设定了定时运行功能,在全自动全天候实现自动下载财经信息到本地服务器。
作为本发明进一步的方案:还包括使用mongo数据库进行实时的***,更新与查询。
作为本发明再进一步的方案:还包括在所述注意力机制中引入文风修饰模块和文本摘要算法,使长文本生成的内容更加个性化,以及具有文本的再加工能力。
与现有技术相比,本发明的有益效果是:本发明解决使用RNN模型下的文本漂移问题,摆脱了之前文本复述领域对训练数据的极高要求,更加贴近人类复述能力,通过分布式爬虫实时更新语料,并传递给算法,实现了秒级的长文本生成能力,并且我们的模块化处理成本更低效果也令人满意。
附图说明
图1为自然语言长文本生成方法的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中,一种自然语言长文本生成方法,包括如下步骤:首先,将语言看做一种数据,对文本内容作自然语言处理建立大数据体系;其次,运用文本摘要模型,通过算法解决文本主题归纳问题;通过分布式爬虫实时更新语料,并传递给算法,实现长文本生成;引入注意力机制,包括:第一步打分score,通过非线性函数tanh扭曲ht和hs;第二步是做score的softmax将值域压缩为权重at;第三步是将权重at分配给hs'形成context即ct;第四步是将ct和ht作非线性变换生成ht~。
所述分布式爬虫用于抓取即时的上市公司财务报告,并且设定了定时运行功能,在全自动全天候实现自动下载财经信息到本地服务器。
还包括使用mongo数据库进行实时的***,更新与查询。
还包括在所述注意力机制中引入文风修饰模块和文本摘要算法,使长文本生成的内容更加个性化,以及具有文本的再加工能力。
自然语言长文本生成模型:
本发明的贡献在于设计了一种长文本生成机制,解决使用RNN模型下的文本漂移问题。首先,将语言看做一种数据,对文本内容作自然语言处理建立大数据体系。其次,运用自主开发的文本摘要模型,可以通过算法解决文本主题归纳问题;运用自我研发的文本修饰模型,摆脱了之前文本复述领域对训练数据的极高要求,更加贴近人类复述能力。我们通过分布式爬虫实时更新语料,并传递给算法,实现了秒级的长文本生成能力。并且我们的模块化处理成本更低效果也令人满意。
从char-rnn及其衍生的word-rnn运行文本生成的效果发现,由于rnn只关注了输入之间的概率关系,缺乏对文本主题的建模。这个情况到seq2seq模型仍然存在,即算法无法像人类那样关注整体的同时也关注细节。因此我们认为先在固定主题模板的基础上进行长文本生成在现有技术上是可行的,也获得了实验成功,今后将会在此模板基础上不断拓展算法。模板来源于自建的数据库语料(超过一万篇股票研究报告),通过代码阅读金融文档并提取有效文本入库。
爬虫技术:
爬虫是能够自动获取网页内容并可以按照指定规则提取相应内容的程序。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足***的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到***的某一条件时停止。另外,所有被爬虫抓取的网页将会被***存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;所以一个完整的爬虫一般会包含如下三个模块:网络请求模块、爬取流程控制模块、内容分析提取模块。
我们自主开发的爬虫主要用于抓取即时的上市公司财务报告,并且设定了定时运行功能,即在全自动全天候实现自动下载财经信息到本地服务器的效果。
自然语意理解技术:
(主体是序列到序列算法)
循环神经网络(RNN)通过隐状态保留了大多数信息,长短期记忆模型在基线RNN上引入核心元素Cell,在RNN的单一控制层上增加新的控制层,用四个门开关来选择增加或者删除信息。第一步是忘记门,该门会读取ht-1和xt,输出一个在0到1之间的数值给每个在细胞状态ct中的数字。1表示“完全保留”,0表示“完全舍弃”。第二步是输入门,决定将要更新的值,并通过一个tanh函数创建新的候选值向量加入到状态中。第三步进行cell更新,将ct-1与ft相乘,再加上得到新的候选值ct。第四步是输出门,通过sigmoid函数来确定细胞状态的哪个部分将输出出去,再通过tanh非线性将cell状态挤压到-1到1,然后和sigmoid门的输出相乘,最后得到确定输出的部分。
尽管LSTM有效解决了RNN模型中的长短期记忆问题,但是从仍然存在提升空间,即平均分支系数PPX还可以继续下降。从实际效果来看,注意力(Attention)机制可以更好地优化LSTM语言模型,这是因为Attention机制和人脑类似的工作原理,给予输入信息不同的权重比例加以区分,并且减少了反向传播的计算路径长度。Attention的实现主要分成四步。第一步是打分score,通过非线性函数tanh扭曲ht和hs;第二步是做score的softmax将值域压缩为权重at;第三步是将权重at分配给hs'形成context即ct;第四步是将ct和ht作非线性变换生成ht~。生成的ht~就包含了经过注意力机制快速传递的输入信息。Attention的at可以用输入的全局权重,也可以用局部权重,本发明使用的是更高效的全局权重。
在解码阶段的任意时间步t,两种方法均首先把位于长短期记忆模型顶层的隐藏态ht作为输入,其目的是得到能够捕捉相关端源信息的语境向量ct,这将有助于预测当前的目标词yt;
全局注意力模型-在每个时间步t,模型根据当前的目标状态ht和所有源状态hs推导出一个对齐的权重向量at。再根据at将所有的源状态作加权平均,得到全局的语境向量ct。
以全局注意力模型为例,在获取语境向量ct时,这一模型考虑编码器所有的隐藏态。向量at由当前目标态ht和每个源状态hs分别比较得到,其大小等于源端的时间步长数。
全局注意力模型包括四个主要部分:
第一,考虑三种不同的情况,计算基于内容的分数函数:
然后根据目标状态ht计算对齐分数,将得到的对齐分数向量作为权重向量,将所有的源状态hs作加权平均得到语境向量ct。
at=softmax(Waht)locntion
特别的,给定目标状态ht和端源语境向量ct,用一个简单的串联层联合来自这两个向量的信息,从而产生一个注意力隐藏态。
数据库技术:
使用mongo数据库,MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种。我们选择mongodb数据库而不是其他数据库,是因为mongodb更加开放,提供的接口更加便于管理。并且mongo和深度学习最通用的python语言相互的支持非常好,因此我们目前在自然语言处理的技术中首选mongodb数据库。Mongo非常适合实时的***,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。由于性能很高,Mongo也适合作为信息基础设施的缓存层。
文本摘要算法:
我们在序列到序列模型基础上,引入文风修饰模块和文本摘要算法,使得长文本生成的内容更加个性化,以及具有文本的再加工能力。文本摘要有很多方式,我们采用Abstractive摘要算法,用LSTM RNN作为encoder-decoder框架的模型,并且使用了attention模型来生成文章的标题。encoder使用文章内容作为输入,一个时间点表示一个单词,每个单词先通过embedding层将词转换为一个分布式向量(word embedding)。每个词向量都由前一个词向量生成,第一个词定义为0向量。decoder将encoder中最后一个词向量作为输入,decoder本质是一个rnnlm,使用softmax和attention mechanism来生成每个词。
注意力机制可以用来帮助神经网络更好地理解输入数据,尤其是一些专有名词和数字。attention在decoder阶段起作用,通过将输出与所有输入的词建立一个权重关系来让decoder决定当前输出的词与哪个输入词的关系更大(即应该将注意力放到哪个词上)。
在此基础上,我们研发了一种“文风修饰算法”,通过隐藏层输出文本的位置信息,通过中文文风模块调整写作文风,达到个性化长文本生成的效果。
股票研究报告文本数据:
我们获得了超过10000篇上市公司的股票研究报告,通过自己编写的文字处理技术将其整理成文本大数据,存入数据库调用。我们之所以选择股票研究报告作为大数据来源,是因为这些报告是较高级的文本内容,不仅语言精炼,行文规范,而且文本内容以分析和专业知识为主,比一般的新闻文本更具有研究价值。
上市公司财务报告数据:
通过爬虫技术,我们可以第一时间获得上市公司发布的财务报告,从而应用自然语言长文本生成模型,在短短几分钟内(不超过5分钟)生成股票研究报告。实际上,模型的文本生成时间只在几秒钟,最后取决于网络速度,以邮件形式发送到阅读终端的时间在分钟级水平。随着网络宽带建设的加快发展,预计今后这一技术的实现速度将进一步提升。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种自然语言长文本生成方法,其特征在于,包括如下步骤:首先,将语言看做一种数据,对文本内容作自然语言处理建立大数据体系;其次,运用文本摘要模型,通过算法解决文本主题归纳问题;通过分布式爬虫实时更新语料,并传递给算法,实现长文本生成;引入注意力机制,包括:第一步打分score,通过非线性函数tanh扭曲和;第二步是做score的softmax将值域压缩为权重;第三步是将权重分配给'形成context即;第四步是将和作非线性变换生成。
2.根据权利要求1所述的自然语言长文本生成方法,其特征在于,所述分布式爬虫用于抓取即时的上市公司财务报告,并且设定了定时运行功能,在全自动全天候实现自动下载财经信息到本地服务器。
3.根据权利要求1所述的自然语言长文本生成方法,其特征在于,还包括使用mongo数据库进行实时的***,更新与查询。
4.根据权利要求1所述的自然语言长文本生成方法,其特征在于,还包括在所述注意力机制中引入文风修饰模块和文本摘要算法,使长文本生成的内容更加个性化,以及具有文本的再加工能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810006935.9A CN108170657A (zh) | 2018-01-04 | 2018-01-04 | 一种自然语言长文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810006935.9A CN108170657A (zh) | 2018-01-04 | 2018-01-04 | 一种自然语言长文本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108170657A true CN108170657A (zh) | 2018-06-15 |
Family
ID=62517442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810006935.9A Pending CN108170657A (zh) | 2018-01-04 | 2018-01-04 | 一种自然语言长文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170657A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及*** |
CN117521628A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243659A (zh) * | 2011-07-18 | 2011-11-16 | 南京邮电大学 | 基于动态贝叶斯模型的网页垃圾检测方法 |
CN102254011A (zh) * | 2011-07-18 | 2011-11-23 | 哈尔滨工业大学 | 一种动态多文档文摘建模方法 |
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成***及方法 |
CN106055542A (zh) * | 2016-08-17 | 2016-10-26 | 山东大学 | 一种基于时间知识抽取的文本摘要自动生成方法及*** |
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN107368506A (zh) * | 2015-05-11 | 2017-11-21 | 斯图飞腾公司 | 非结构化数据分析***和方法 |
US9830315B1 (en) * | 2016-07-13 | 2017-11-28 | Xerox Corporation | Sequence-based structured prediction for semantic parsing |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
-
2018
- 2018-01-04 CN CN201810006935.9A patent/CN108170657A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243659A (zh) * | 2011-07-18 | 2011-11-16 | 南京邮电大学 | 基于动态贝叶斯模型的网页垃圾检测方法 |
CN102254011A (zh) * | 2011-07-18 | 2011-11-23 | 哈尔滨工业大学 | 一种动态多文档文摘建模方法 |
CN107368506A (zh) * | 2015-05-11 | 2017-11-21 | 斯图飞腾公司 | 非结构化数据分析***和方法 |
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成***及方法 |
US9830315B1 (en) * | 2016-07-13 | 2017-11-28 | Xerox Corporation | Sequence-based structured prediction for semantic parsing |
CN106055542A (zh) * | 2016-08-17 | 2016-10-26 | 山东大学 | 一种基于时间知识抽取的文本摘要自动生成方法及*** |
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
Non-Patent Citations (3)
Title |
---|
HOU L. 等: "Abstractive Document Summarization via Neural Model with Joint Attention", 《NATIONAL CCF CONFERENCE ON NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 * |
KIM SAM 等: "TL;DR: Improving Abstractive Summarization Using LSTMs", 《SEMANTIC SCHOLAR》 * |
王麒: "基于领域本体的Web文档自动摘要关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及*** |
CN117521628A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
CN117521628B (zh) * | 2023-11-20 | 2024-05-28 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | A comprehensive survey on pretrained foundation models: A history from bert to chatgpt | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110110122A (zh) | 基于多层语义深度哈希算法的图像-文本跨模态检索 | |
Guo et al. | LD-MAN: Layout-driven multimodal attention network for online news sentiment recognition | |
Hao et al. | Integrating both visual and audio cues for enhanced video caption | |
Yang et al. | Rits: Real-time interactive text steganography based on automatic dialogue model | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN114372414B (zh) | 多模态模型构建方法、装置和计算机设备 | |
CN110688834A (zh) | 基于深度学习模型进行智能文稿风格改写的方法和设备 | |
CN110851797A (zh) | 基于区块链的作品创作方法及装置、电子设备 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN112699218A (zh) | 模型建立方法及***及段落标签获得方法及介质 | |
CN115115049A (zh) | 神经网络模型的训练方法、装置、设备、介质及程序产品 | |
CN108170657A (zh) | 一种自然语言长文本生成方法 | |
Wu et al. | Sentimental visual captioning using multimodal transformer | |
CN113011126B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
Su et al. | Low‐Rank Deep Convolutional Neural Network for Multitask Learning | |
CN113127604A (zh) | 基于评论文本的细粒度物品推荐方法及*** | |
Bin et al. | Non-autoregressive sentence ordering | |
Qian et al. | Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning | |
Heidari et al. | Diverse and styled image captioning using singular value decomposition‐based mixture of recurrent experts | |
Yi et al. | Weakly supervised cross-platform teenager detection with adversarial bert |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |