CN110956021A - 一种原创文章的生成方法、装置、***及服务器 - Google Patents
一种原创文章的生成方法、装置、***及服务器 Download PDFInfo
- Publication number
- CN110956021A CN110956021A CN201911112545.0A CN201911112545A CN110956021A CN 110956021 A CN110956021 A CN 110956021A CN 201911112545 A CN201911112545 A CN 201911112545A CN 110956021 A CN110956021 A CN 110956021A
- Authority
- CN
- China
- Prior art keywords
- event
- hot
- theme
- news
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims description 10
- 230000000699 topical effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 2
- 238000012549 training Methods 0.000 description 17
- 230000000875 corresponding effect Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 241000239290 Araneae Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 241000272194 Ciconiiformes Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及互联网技术领域,公开了一种原创文章的生成方法、装置、***及服务器,所述原创文章的生成方法,包括:获取热门事件;通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;根据所述与预设主题相关的热门事件,获取与所述热门事件相关的新闻集合;根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。通过基于新闻集合,生成事件摘要,本发明能够精准概括该热门事件的事件摘要,并且,基于预先生成的主题知识库,获取主题短文,结合事件摘要,生成原创文章,能够提高文章的上下文连贯性。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种原创文章的生成方法、装置、***及服务器。
背景技术
随着互联网技术的发展,文本生成技术也随之出现,相比图像生成技术取得的突破性进展,文本生成技术仍然面临很多挑战。近年来,市面上涌现出许多文章生成器,根据其所使用的技术,主要分为基于模板和基于深度学习模型两类。
但是,基于模板的文本生成技术方案生成的文章结构单一,而基于深度学习模型的文本生成技术,难以保证上下文逻辑连贯。
基于此,现有技术亟待改进。
发明内容
本发明实施例的一个目的旨在提供一种原创文章的生成方法、装置、***及服务器,其能够提高文章的上下文连贯性。
在第一方面,本发明实施例提供一种原创文章的生成方法,包括:
获取热门事件;
通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;
根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;
根据所述新闻集合,生成所述热门事件的事件摘要;
基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。
在一些实施例中,所述确定与预设主题相关的热门事件,包括:
生成主题种类标签,通过所述主题种类标签对所述热门事件进行标识。
在一些实施例中,所述根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要,包括:
基于预先训练的多文档摘要抽取模型,从所述新闻集合中抽取所述新闻事件相关的原始摘要,生成候选摘要集合;
根据所述候选摘要集合,生成所述热门事件的事件摘要。
在一些实施例中,所述根据所述候选摘要集合,生成所述与预设主题相关的热门事件的事件摘要,包括:
从所述候选摘要集合中确定待改写摘要;
基于预先训练的同义句改写模型,对所述待改写摘要进行改写,生成所述与预设主题相关的热门事件的事件摘要。
在一些实施例中,所述基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章,包括:
根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文;
自动拼接所述事件摘要和所述主题短文,生成所述原创文章。
在一些实施例中,所述根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文之后,所述方法还包括:
从获取到的至少两篇主题短文中筛选出唯一的最优短文;
基于预先训练的同义句改写模型,对所述最优短文进行改写,生成所述热门事件的事件短文。
在一些实施例中,所述自动拼接所述事件摘要和所述主题短文,生成所述原创文章,包括:
自动拼接所述事件摘要和所述事件短文,生成所述原创文章。
在一些实施例中,所述预设主题包括保险主题,所述主题知识库包括保险知识库。
在第二方面,本发明实施例提供一种原创文章的生成装置,包括:
热门事件获取单元,用于获取热门事件;
热门事件确定单元,用于通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;
新闻集合获取单元,用于根据所述热门事件,获取与所述热门事件相关的新闻集合;
事件摘要生成单元,用于根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;
原创文章生成单元,基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。
在一些实施例中,所述热门事件确定单元,具体用于:
生成主题种类标签,通过所述主题种类标签对所述热门事件进行标识。
在一些实施例中,所述事件摘要生成单元,包括:
候选摘要集合模块,用于基于预先训练的多文档摘要抽取模型,从所述新闻集合中抽取所述新闻事件相关的原始摘要,生成候选摘要集合;
事件摘要生成模块,用于根据所述候选摘要集合,生成所述热门事件的事件摘要。
在一些实施例中,所述事件摘要生成模块,具体用于:
从所述候选摘要集合中确定待改写摘要;
基于预先训练的同义句改写模型,对所述待改写摘要进行改写,生成所述热门事件的事件摘要。
在一些实施例中,所述原创文章生成单元,包括:
主题短文获取模块,用于根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文;
原创文章生成模块,用于自动拼接所述事件摘要和所述主题短文,生成所述原创文章。
在一些实施例中,所述原创文章生成单元,还包括:
最优短文生成模块,用于从获取到的至少两篇主题短文中筛选出唯一的最优短文;
事件短文生成模块,用于基于预先训练的同义句改写模型,对所述最优短文进行改写,生成所述热门事件的事件短文。
在一些实施例中,所述原创文章生成模块,具体用于:
自动拼接所述事件摘要和所述事件短文,生成所述原创文章。
在一些实施例中,所述预设主题包括保险主题,所述主题知识库包括保险知识库。
在第三方面,本发明实施例提供一种服务器,包括:
至少一个处理器;和
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的原创文章的生成方法。
在第四方面,本发明实施例提供一种原创文章的生成***,包括:
上述的服务器;
第三方新闻平台,通信连接所述服务器,所述第三方新闻平台包括第三方新闻库,用于保存热门新闻资讯,以使所述服务器获取所述热门新闻资讯;
文章发布平台,通信连接所述服务器,用于发布所述服务器生成的原创文章。
在第四方面,本发明实施例提供一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使服务器执行上述的原创文章的生成方法。
在本发明各个实施例提供的原创文章的生成方法中,首先,获取热门事件;通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。一方面,由于通过预先训练的主题分析模型对热门新闻资讯进行筛选,确定与预设主题相关的热门事件,另一方面,通过获取与热门事件相关的新闻集合,并基于新闻集合,生成事件摘要,因此,其能够精准概括该热门事件的事件摘要,并且,还基于预先生成的主题知识库,结合事件摘要,生成原创文章,能够提高文章的上下文连贯性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例提供的一种原创文章的生成***的结构示意图;
图2是本发明实施例提供的一种原创文章的生成方法的流程图;
图3是本发明实施例提供的一种基于BERT预训练模型的主题分析模型的示意图;
图4是图2中的步骤S40的细化流程图;
图5是图4中的步骤S42的细化流程图;
图6是图2中的步骤S50的细化流程图;
图7是本发明实施例提供的一种Pointer-Generator Networks网络结构的示意图;
图8是本发明实施例提供的一种原创文章的生成方法的另一流程图;
图9是本发明实施例提供的一种原创文章的生成***的交互示意图;
图10是本发明实施例提供的一种原创文章的生成装置的结构示意图;
图11是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
相比图像生成技术取得的突破性进展,文本生成技术仍然面临很多挑战。近年来,市面上涌现出许多文章生成器,根据其所使用的技术,主要分为基于模板和基于深度学习模型两类。
基于模板的文本生成技术方案,主要适用于文章结构单一,结构化数据丰富的领域,比如天气预报、财经新闻、体育新闻等,生成的文章可读性强。具体原理是,针对某一领域的文章,通过机器挖掘或者人工的方式,事先整理出一系列的文章模板,文章生成过程则是将结构化数据填充到模板中。
基于深度学习模型的文本生成技术,通过设计精良的神经网络结构,网络参数通常多达百万甚至百亿级别,需要大规模的语料来训练模型,广泛应用于图片标题生成、语音转文字、聊天机器人、同义句改写、文章摘要、翻译等场景。基于深度学习的方法,除了需要有大规模的训练样本以及强大的计算资源之外,模型效果不可控,尤其是在段落及篇章等长文本场景,难以保证上下文逻辑连贯。
基于模板的方法,生成的文章结构单一,不适合用于保险科普文章,而基于深度学习则是采用完全端到端的方法,难以保证句子之间衔接连贯。
针对上述问题,本发明提出一种全新的文章生成方案。
对本发明进行详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)摘要,指的是一个压缩一段文章到一个包含原始文本主要信息的较短的描述。
2)未登录词(Out of Vocabulary,OOV),是指没有在词表中出现过的词。
3)注意力机制,又称为Attention机制,是指在编解码器框架内,通过在编码段加入Attention模型,对源数据序列进行数据加权变换,或者在解码端引入Attention模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的***表现,其打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。
请参阅图1,图1是本发明实施例提供的一种原创文章的生成***的结构示意图。如图1所示,该原创文章的生成***100,包括:服务器11、第三方新闻平台12以及文章发布平台13。
服务器11与第三方新闻平台12以及文章发布平台13通信连接,以完成车险业务的测试,例如:第三方新闻平台12对接服务器11,所述服务器11向所述第三方新闻平台12发送新闻请求,用于获取第三方新闻,所述第三方新闻平台12处理所述新闻请求,并向所述服务器11发送所述新闻请求对应的新闻。
在一些实施例中,第三方新闻平台12的数量可以为一个,亦可以为多个,第三方新闻平台12可以采用计算机终端、服务器、移动终端等设备,所述第三方新闻平台包括第三方新闻库,用于保存热门新闻资讯,以使所述服务器获取所述热门新闻资讯。优选地,所述第三方新闻平台为新闻类网站,所述新闻类网站包括新闻库,用于保存热门新闻资讯。
服务器12的数量为多个,多个服务器12可构成服务器集群,例如:该服务器集群包括:第一服务器、第二服务器,…,第N服务器,或者,该服务器集群可以是一个云计算服务中心,该云计算服务中心包括若干台服务器,服务器作为保险公司服务器,用于对接保险公司的业务人员或开发人员。
在一些实施例中,服务器11可被预先配置有多层软件架构,例如,服务器11的软件架构包括:业务层、测试层以及接口层,其中,业务层用于确定业务合作模式,测试层用于确认测试点,并生成相应的数据,接口层用于对接第三方新闻平台或文章发布平台的服务器。
请参阅图2,图2是本发明实施例提供的一种原创文章的生成方法的流程图;
如图2所示,该原创文章的生成方法,包括:
步骤S10:获取热门事件;
具体的,搜索引擎借助网络爬虫定时抓取百度、微博、头条等热门搜索榜单,自动从新闻网站、娱乐网站等网站的网页中获取热门事件,例如:热门新闻资讯,并根据所述热门新闻资讯,生成热门事件列表,或者,根据所述新闻网站、娱乐网站等网站的网页中包括的热门事件列表,获取所述热门事件列表,并基于所述热门事件列表,获取所述热门事件列表中的热门新闻资讯,例如:头条新闻、娱乐大事、体育新闻、国家大事、国际新闻等热门新闻资讯。
在本发明实施例中,所述获取热门新闻资讯,包括如下步骤:
(1)抓取新闻网站、娱乐网站等网站的网页;
具体的,搜索引擎借助网络爬虫定时抓取百度、微博、头条等热门搜索榜单,自动从所述百度、微博、头条等新闻网站或娱乐网站的网页中获取热门事件,并集合所述热门事件,生成热门事件列表,首先选取一部分的种子URL,将这些URL放入待抓取URL队列;取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
(2)数据存储;
具体的,搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
(3)预处理;
具体的,搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理,例如:提取文字、中文分词、消除噪音(比如版权声明文字、导航条、广告等)、索引处理、链接关系计算、特殊文件处理等处理。
(4)提供检索服务、网站排名;
具体的,搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。同时会根据页面的PageRank值(链接的访问量排名)来进行网站排名。
在本发明实施例中,通过网络爬虫的方式自动获取热门新闻资讯,能够提高热门新闻资讯的获取速度,并且,能够大量获取热门新闻资讯,保证能够为后续获取与所述热门事件相关的新闻集合提供数据支持。
步骤S20:通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;
具体的,所述预设主题包括保险主题,所述主题分析模型包括保险主题分析模型,通过离线预训练生成的保险主题分析模型,对所述获取到的热门新闻资讯进行筛选,确定与所述预设主题相关的热门事件,例如:对所述获取到的热门新闻资讯进行筛选,确定与所述保险主题相关的热门事件,例如:获取到的热门事件为:著名诗人某某某去世、某工人因没买社保而不享受住院补贴等等热门事件。其中,所述预先训练的主题分析模型,通过判断所述热门事件与保险的相关性,对所述获取到的热门新闻资讯进行筛选,从而确定与保险相关的热门事件,例如:著名诗人某某某去世、某工人因没买社保而不享受住院补贴等等热门事件。
在本发明实施例中,所述确定与预设主题相关的热门事件,包括:
生成主题种类标签,通过所述主题种类标签对所述热门事件进行标识。
具体的,在对所述获取到的热门新闻资讯进行筛选,确定与预设主题相关的热门事件之后,针对所述热门事件,确定与所述热门事件对应的主题种类,并生成主题种类标签,通过所述主题种类标签对所述热门事件进行标识,例如:所述热门事件相关保险,则确定所述热门事件为保险相关事件,此时根据所述保险相关事件对应的主题种类,对所述保险相关事件标识与所述主题种类对应的险种标签,例如:对所述保险相关事件以保险险种标签进行标记,例如:对“著名诗人某某某打上寿险标签”。
下面以预设主题为保险主题,主题分析模型为保险主题分析模型为例对预先训练的主题分析模型进行说明:
其中,该主题分析模型为基于BERT预训练模型的主题分析模型,BERT模型属于是词向量的预训练模型,其是基于双向Transformer构建的语音模型。BERT模型在英文数据集上提供了两种大小的模型,Base和Large。Uncased是意味着输入的词都会转变成小写,cased是意味着输入的词会保存其大写(在命名实体识别等项目上需要)。
请参阅图3,图3是本发明实施例提供的一种基于BERT预训练模型的主题分析模型的示意图;
如图3所示,通过输入句子(Single Sentence),训练短文本分类器(Classifier),而让BERT模型在训练过程中有尽可能小的变化,这个训练阶段被称为微调(Fine-Tuning),首个输入的token由一个特殊的[CLS]token填补,CLS表示Classification,与Transformer的简单纯粹的编码器一样,BERT以词序列为输入,这些词会在其堆栈中不断向上流动,每一层都会应用自注意机制,并会通过一个前馈网络传递它的结果,然后将其移交给下一个编码器,进行训练后生成主题(Class Label),其中,BERT是一个用于预训练深度transformer编码器的自监督方法,在预训练后可以针对不同的下游任务进行微调,BERT针对两个训练目标进行最优化——带掩膜的语言模型(mask language modeling,MLM)和单句预测(nextsentence prediction,NSP),其训练只需使用不带标签的大数据集。
对于每一个单词或子单元的序列X=(x1,...,xn),BERT通过编码器产生出其基于语境的向量表示:x1,...,xn=enc(x1,...,xn)。由于BERT是通过使用一个深度transformor结构使用该编码器,模型使用其位置嵌入p1,...,pn来标识序列中每个单词的绝对位置。
其中,带掩膜的语言模型(mask language modeling,MLM),又称填空测验,其内容为预测一个序列中某一位置的缺失单词。该步骤从单词集合X中采样一个子集合Y,并使用另一个单词集合替换。在BERT中,Y占X的15%。在Y中,80%的词被使用[MASK]替换,10%的词依据unigram分布使用随机的单词替换,10%保持不变。任务即使用这些被替换的单词预测Y中的原始单词。
具体的,将保险热门事件识别建模为短文本分类问题,其中,保险行业定义了健康险、意外险、重疾险、寿险、财产险、失业保险、养老保险、车险、少儿险、旅行险等10类常见保险险种类别,并对数量庞大的热门事件库进行标注,获得训练样本。考虑到训练样本较少,为提升模型泛化能力,基于Google的BERT中文预训练模型针对短文本分类器进行微调,最终短文本分类器在验证集准确率高达95%,保险事件召回率达到93%。
在本发明实施例中,通过预先训练主题分析模型,通过所述主题分析模型对热门新闻资讯进行筛选,能够过滤无关的热门事件,只保留与预设主题相关的热门事件,有利于减少与预设主题无关的热门事件,提高***的处理速度。
步骤S30:根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;
具体的,根据所述热门事件,从网络爬虫获取的热门新闻资讯保存在的原始页面数据库中获取与所述热门事件相关的新闻集合,或者,利用网络爬虫,从第三方新闻库中抓取热门事件的相关新闻文章集合,例如:利用query=“著名诗人某某某去世”,从新闻网站中获取多个相关的新闻集合。
在本发明实施例中,所述获取所述与预设主题相关的热门事件相关的新闻集合,包括:
获取与所述热门事件强相关的新闻集合,具体的,根据所述热门事件的标题,利用网络爬虫进行新闻获取,获取与所述热门事件强相关的新闻资讯,进而集合多个新闻资讯,生成与所述热门事件强相关的新闻集合,其中,所述获取与所述热门事件强相关的新闻资讯,包括:计算所述热门事件与所述新闻资讯的相关系数,所述相关系数用于反映所述热门事件与所述新闻资讯的线性相关程度,所述强相关指的是所述热门事件与所述新闻资讯的相关系数大于预设阈值,若所述热门事件与所述新闻资讯的相关系数大于所述预设阈值,则确定所述新闻资讯与所述热门事件强相关,例如:所述预设阈值为0.9,若所述热门事件与所述新闻资讯的相关系数大于0.9,则确定所述新闻资讯与所述热门事件强相关,此时获取所述新闻资讯,并集合多个新闻资讯,生成新闻集合。
在本发明实施例中,通过获取与所述热门事件相关的新闻集合,方便对所述新闻集合中的新闻资讯进行筛选,有利于更好生成文章。
步骤S40:根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;
具体的,所述新闻集合包括多个新闻文章和/或新闻资讯,通过所述新闻文章和/或新闻资讯,获取所述新闻文章和/或新闻资讯中的摘要信息,进一步生成所述热门事件的事件摘要。
具体的,请再参阅图4,图4是图2中的步骤S40的细化流程图;
由于基于深度模型的摘要生成技术生成的生成式摘要普遍存在上下文不连贯的问题,因此,为了提高上下文的连贯性,本发明通过采用抽取式的方法获取文章摘要。
如图4所示,步骤S40:根据所述新闻集合,生成所述热门事件的事件摘要,包括:
步骤S41:基于预先训练的多文档摘要抽取模型,从所述新闻集合中抽取所述新闻事件相关的原始摘要,生成候选摘要集合;
其中,所述新闻集合中包括多篇新闻文章和/或新闻资讯,通过多文档摘要抽取模型,抽取文章摘要,具体的,所述基于预先训练的多文档摘要抽取模型,从所述新闻集合中抽取所述新闻事件相关的原始摘要,生成候选摘要集合,包括如下步骤:
(1)基于TF-IDF关键词提取算法,从所述新闻集合中获取所述新闻事件的关键词;
(2)对所述新闻事件的关键词添加权重,生成带权重的关键词集合;
(3)针对每篇新闻文章或新闻资讯,基于TextRank算法抽取文章关键句;
(4)将包含所有关键句的连续文本片段作为该新闻文章或新闻资讯的文章摘要,生成所述新闻事件的候选摘要集合;
步骤S42:根据所述候选摘要集合,生成所述热门事件的事件摘要。
具体的,所述候选摘要集合中包含多个候选摘要,因此需要根据多个候选摘要,确定唯一的事件摘要,具体的,请再参阅图5,图5是图4中的步骤S42的细化流程图;
如图5所示,步骤S42:所述根据所述候选摘要集合,生成所述热门事件的事件摘要,包括:
步骤S421:从所述候选摘要集合中确定待改写摘要;
具体的,所述从所述候选摘要集合中确定待改写摘要,包括:统计每篇新闻文章或新闻资讯的文章摘要中包含的关键词的权重累加和,对所述权重累加和进行从高到低的顺序排序,将得分最高的文章摘要作为所述热门事件的待改写摘要。
步骤S422:基于预先训练的同义句改写模型,对所述待改写摘要进行改写,生成所述热门事件的事件摘要。
具体的,通过预先训练基于深度学习的同义句改写模型,对所述待改写摘要进行改写,生成所述热门事件的事件摘要,例如:预先训练基于指针生成网络的同义句改写模型,对所述待改写摘要进行改写,生成所述热门事件的事件摘要。
在本发明实施例中,通过基于预先训练的多文档摘要抽取模型,抽取新闻集合中的原始摘要,生成候选摘要集合,同时从候选摘要集合中确定待改写摘要,并基于预先训练的同义句改写模型,改写所述待改写摘要,从而生成所述热门事件的事件摘要,能够保证上下文的连贯性。
步骤S50:基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。
具体的,所述主题知识库包括保险知识库,所述保险知识库包括多个主题短文,例如:科普短文,所述科普短文为保险类的科普短文,例如:关于保险的缴纳程序、期限、注意事项等科普短文,其中,所述主题知识库中的科普短文携带主题种类标签,例如:保险险种标签。具体的,请再参阅图6,图6是图2中的步骤S20的细化流程图,如图6所示,该步骤S50:基于预先生成的主题知识库,结合所述事件摘要,生成所述原创文章,包括:
步骤S51:根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文;
具体的,通过预先生成主题知识库,所述主题知识库包括多个主题短文,所述主题短文携带主题种类标签,根据所述热门事件对应的主题种类标签,从所述主题知识库中获取与所述主题种类标签对应的主题种类相关的主题短文,即获取所述主题知识库中携带主题种类标签的主题短文,例如:所述主题知识库为保险知识库,所述热门事件对应的主题种类标签为保险车险标签,则根据所述保险车险标签,获取所述保险知识库中携带所述保险车险标签的主题短文。
步骤S52:自动拼接所述事件摘要和所述主题短文,生成所述原创文章;
具体的,通过从所述主题知识库中筛选出携带所述主题种类标签的主题短文,将所述事件摘要与所述主题短文进行拼接,生成所述原创文章。
可以理解的是,所述原创文章还包括题目,所述原创文章的题目即为所述热门事件的标题,例如:从第三方新闻平台获取的热门新闻资讯的标题。
在本发明实施例中,所述根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文之后,所述方法还包括:
从获取到的至少两篇主题短文中筛选出唯一的最优短文;
可以理解的是,所述主题知识库中可能包括多篇与所述主题种类相关的主题短文,即所述主题知识库中存储有至少两篇携带所述主题种类对应的主题种类标签的主题短文,此时需要确定唯一的一篇用于与所述事件摘要进行拼接,以生成所述原创文章。因此,需要从获取到的至少两篇主题短文中筛选出唯一的最优短文,具体的,所述从获取到的至少两篇主题短文中筛选出唯一的最优短文,包括:获取所述主题种类相关的全部主题短文,确定关键词,对所述全部主题短文的内容进行关键词搜索,根据所述关键词在所述主题短文的内容中出现的频率从高到低排序,将排序最高的主题短文作为所述唯一的最优短文。在本发明实施例中,所述关键词可以包括一个或多个,所述关键词还可以包括权重,例如:所述关键词包括第一关键词A和第二关键词B,其中,A的权重为60%,B的权重为40%,根据所述第一关键词A和第二关键词B在所述主题短文中的出现次数,结合所述第一关键词A和第二关键词B的权重,进行加权求和,将加权求和得到的和值最大的主题短文确定为所述唯一的最优短文。
基于预先训练的同义句改写模型,对所述最优短文进行改写,生成所述热门事件的事件短文。
具体的,所述同义句改写模型为基于深度学习的同义句改写模型,所述基于预先训练的同义句改写模型,对所述最优短文进行改写,生成所述热门事件的事件短文,包括如下步骤:
(1)构建同义句平行语料库;
具体的,借助翻译应用程序,对已公开的新闻库的每一个句子,通过中文转英文,再从英文转中文的二次翻译模式,构造数量庞大的同义句句对,其中,所述同义句句对为带噪声的同义句句对。
(2)生成基于指针生成网络的同义句改写模型;
请参阅图7,图7是本发明实施例提供的一种Pointer-Generator Networks网络结构的示意图;
如图7所示,左侧是encoder端,右侧是decoder端,encoder端每一步还是先做emdebing,做完embeding之后输入到lstm中,lstm中每一步输出都被使用到,对每一步的输出做一个加权,每一个encoder存在一个系数α(α可以是一个标量也可以是一个向量,是向量就与lstm输出的向量点乘,是标量就与向量直接相乘,α需要做归一化处理),encoder端的lstm每一步的输出与α相乘,将所有相乘最终相加,这就是加权平均的过程,加权平均过程之后,会输入到decoder端的第二个单元中,通过利用第一步的信息,decoder端第一步输出参与到α的计算过程去,会与encoder端中每一个lstm输出操作,计算出α的值,α的值又去和5个lstm的向量做加权平均,得到一个向量,将得到的向量输入到decoder第二步中去,同理,decoder端第二步输出参与到α计算,得到α值,与encoder端5个lstm中的向量点乘,加权平均得到一个向量,输入到decoder端的第三步中。
其中,所述指针生成网络(Pointer-Generator Networks),是一个baseline和point network的混合体,由于其允许通过指向复制单词,同时也可以从固定的词汇表中生成词,因此相对其他同义句改写模型,基于指针生成网络的同义句改写模型具备如下优点:
第一、延续了Attention机制,可以编码长文;
第二、除了Attention机制之外,加入了converage机制,即attention不会考虑重复句子的情况,而converage是在attention的基础上增加冗余处理,对于句子中已有的词语,降低它们在未来的attention,避免其他模型经常会出现的词语重复问题;
第三、针对未登录词(Out of Vocabulary,OOV)的情况,结合了pointer机制和generator机制,pointer机制即从原文中拷贝单词,generator机制即从词库中挑选最适合的单词,pointer机制有效解决人名、组织机构、代码编号、时间日期、地名等专有名词错误改写的问题,而generator机制确保高频词以较大的概率得到合理的改写。而该基于指针生成网络的同义句改写模型的模型效果好,对改写的句子进行抽样评估,句子优质改写的比例高达95%,改写效果较差的问题集中在改写粒度较小。
在本发明实施例中,通过采用基于指针生成网络的同义句改写模型对所述最优短文进行改写,生成所述热门事件的事件短文,并将所述热门事件的事件摘要和事件短文进行拼接,生成原创文章,能够更好地进行改写,生成优质的事件短文。
请再参阅图8,图8是本发明实施例提供的一种原创文章的生成方法的另一流程图;
如图8所示,该原创文章的生成方法,包括:
步骤S801:热门事件监控;
具体的,借助网络爬虫定时抓取百度、微博、头条等热门搜索榜单,自动从新闻网站、娱乐网站等网站的网页中获取热门新闻资讯,并根据所述热门新闻资讯,生成热门事件列表,或者,根据所述新闻网站、娱乐网站等网站的网页中包括的热门事件列表,获取所述热门事件列表,并基于所述热门事件列表,获取所述热门事件列表中的热门新闻资讯,例如:头条新闻、娱乐大事、体育新闻、国家大事、国际新闻等热门新闻资讯。
步骤S802:保险热门事件识别;
具体的,利用离线预训练的保险主题模型,判断热门事件与保险的相关性,针对保险相关事件,标记保险险种标签。
步骤S803:保险热门新闻抓取;
具体的,利用网络爬虫,从第三方新闻库检索抓取保险热门事件的相关新闻文章集合。
步骤S804:保险热门新闻摘要抽取;
具体的,利用离线预训练的多文档摘要抽取模型,从热门事件的新闻集合中,获取能够精准概况所述新闻事件的事件摘要。
步骤S805:摘要原创性改写;
具体的,通过离线预训练的同义句改写模型,针对所述事件摘要的每个句子进行同义句改写,并且,确保每一个句子的通顺性,并且语义与原句相同,从而获取保险事件的原创性摘要。
步骤S806:文章拼接;
具体的,利用事件的保险险种标签,从保险知识库随机筛选出一篇与标签匹配的科普短文,将原创性摘要与科普短文拼接,得到基于热门新闻事件的保险科普原创性文章。
在本发明实施例中,通过提供一种原创文章的生成方法,包括:获取热门新闻资讯;通过预先训练的主题分析模型,对所述获取到的热门新闻资讯进行筛选,确定与预设主题相关的热门事件;根据所述热门事件,获取与所述热门事件相关的新闻集合;根据所述新闻集合,生成所述热门事件的事件摘要;基于预先生成的主题知识库,结合所述事件摘要,生成所述原创文章。一方面,通过获取热门新闻资讯,通过预先训练的主题分析模型,对所述获取到的热门新闻资讯进行筛选,确定与预设主题相关的热门事件,本发明能够实现紧跟时事热点,容易引起读者共鸣,文章发布后,相比知识型的保险科普文章,用户阅读量及转发量有明显优势,另一方面,通过生成热门事件的事件摘要,本发明能够确保生成的文章具有原创性,能通过百度、头条等平台的原创性检测,最后,本发明通过自动生成原创文章,相比人工编辑,该工具效率高成本低,并且能第一时间抢占新闻热点。
请再参阅图9,图9是本发明实施例提供的一种原创文章的生成***的交互示意图;
如图9所示,该原创文章的生成***包括服务器、第三方新闻平台以及文章发布平台,其中,该交互过程包括:
步骤S901:发送新闻资讯请求;
具体的,服务器向所述第三方新闻平台发送新闻资讯请求,以使所述第三方新闻平台基于所述新闻资讯请求,向所述服务器返回相应的新闻资讯。
步骤S902:导出热门新闻资讯;
具体的,所述第三方新闻平台根据所述新闻资讯请求,导出热门新闻资讯,并向所述服务器发送所述热门新闻资讯。
步骤S903:生成原创文章;
具体的,所述服务器获取热门新闻资讯;
通过预先训练的主题分析模型,对所述获取到的热门新闻资讯进行筛选,确定与预设主题相关的热门事件;根据所述热门事件,获取与所述热门事件相关的新闻集合;根据所述新闻集合,生成所述热门事件的事件摘要;基于预先生成的主题知识库,结合所述事件摘要,生成所述原创文章。
步骤S904:发送原创文章;
具体的,所述服务器向所述文章发布平台发送所述原创文章,以使所述文章发布平台基于所述原创文章,将所述原创文章发布于自身平台。
步骤S905:发布原创文章;
具体的,所述文章发布平台根据所述服务器发送的原创文章,对所述原创文章进行发布。其中,所述文章发布平台包括:微信公众号、头条号、百家号、企鹅号等自媒体平台或者其他保险资讯平台。
通过服务器将所述原创文章发布到所述文章发布平台,所生成的保险文章能直接发布到微信公众号、头条号、百家号、企鹅号等自媒体平台或者其他保险资讯平台。生成的文章聚焦当前与保险强相关的新闻热点,真实可感,容易引起读者共鸣,相比空洞乏味的说教,对提升用户保险意识,传播保险知识具有重要价值。
在本发明实施例中,通过提供一种原创文章的生成方法,包括:获取热门新闻资讯;通过预先训练的主题分析模型,对所述获取到的热门新闻资讯进行筛选,确定与预设主题相关的热门事件;根据所述热门事件,获取与所述热门事件相关的新闻集合;根据所述新闻集合,生成所述热门事件的事件摘要;基于预先生成的主题知识库,结合所述事件摘要,生成所述原创文章。通过基于新闻集合,生成事件摘要,本发明能够精准概括该热门事件的事件摘要,并且,基于预先生成的主题知识库,结合事件摘要,生成原创文章,能够提高文章的上下文连贯性。
请再参阅图10,图10是本发明实施例提供的一种原创文章的生成装置的结构示意图;
如图10所示,该原创文章的生成装置80,包括:
热门事件获取单元801,用于获取热门事件;
热门事件确定单元802,用于通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;
新闻集合获取单元803,用于根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;
事件摘要生成单元804,用于根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;
原创文章生成单元805,基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。
在本发明实施例中,所述热门事件确定单元802,具体用于:
生成主题种类标签,通过所述主题种类标签对所述热门事件进行标识。
在一些实施例中,所述事件摘要生成单元804,包括:
候选摘要集合模块8041,用于基于预先训练的多文档摘要抽取模型,从所述新闻集合中抽取所述新闻事件相关的原始摘要,生成候选摘要集合;
事件摘要生成模块8042,用于根据所述候选摘要集合,生成所述热门事件的事件摘要。
在一些实施例中,所述事件摘要生成模块8042,具体用于:
从所述候选摘要集合中确定待改写摘要;
基于预先训练的同义句改写模型,对所述待改写摘要进行改写,生成所述热门事件的事件摘要。
在一些实施例中,所述原创文章生成单元805,包括:
主题短文获取模块8051,用于根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文;
原创文章生成模块8054,用于自动拼接所述事件摘要和所述主题短文,生成所述原创文章。
在一些实施例中,所述原创文章生成单元805,还包括:
最优短文生成模块8052,用于从获取到的至少两篇主题短文中筛选出唯一的最优短文;
事件短文生成模块8053,用于基于预先训练的同义句改写模型,对所述最优短文进行改写,生成所述热门事件的事件短文。
在一些实施例中,所述原创文章生成模块8054,具体用于:
自动拼接所述事件摘要和所述事件短文,生成所述原创文章。
在一些实施例中,所述预设主题包括保险主题,所述主题知识库包括保险知识库。
在本发明实施例中,通过提供一种原创文章的生成装置,应用于服务器,所述原创文章的生成装置,包括:热门事件获取单元,用于获取热门事件;热门事件确定单元,用于通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;新闻集合获取单元,用于根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;事件摘要生成单元,用于根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;原创文章生成单元,基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。一方面,由于通过预先训练的主题分析模型对热门新闻资讯进行筛选,确定与预设主题相关的热门事件,另一方面,通过获取与热门事件相关的新闻集合,并基于新闻集合,生成事件摘要,因此,其能够精准概括该热门事件的事件摘要,并且,还基于预先生成的主题知识库,结合事件摘要,生成原创文章,能够提高文章的上下文连贯性。
请再参阅图11,图11是本发明实施例提供的一种服务器的结构示意图;
如图11所示,该服务器110包括一个或多个处理器111以及存储器112。其中,图11中以一个处理器111为例。
处理器111和存储器112可以通过总线或者其他方式连接,图11中以通过总线连接为例。
存储器112作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的车险数据测试方法对应的程序指令/模块。处理器111通过运行存储在存储器112中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述方法实施例提供的原创文章的生成方法以及上述装置实施例的各个模块或单元的功能。
存储器112可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器112可选包括相对于处理器111远程设置的存储器,这些远程存储器可以通过网络连接至处理器111。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器112中,当被所述一个或者多个处理器111执行时,执行上述任意方法实施例中的原创文章的生成方法。
本发明实施例的服务器110以多种形式存在,在执行以上描述的图2所示的各个步骤;也可实现所述的各个单元的功能时,上述服务器110包括但不限于:
(1)塔式服务器
一般的塔式服务器机箱和我们常用的PC机箱差不多,而大型的塔式机箱就要粗大很多,总的来说外形尺寸没有固定标准。
(2)机架式服务器
机架式服务器是由于满足企业的密集部署,形成的以19英寸机架作为标准宽度的服务器类型,高度则从1U到数U。将服务器放置到机架上,并不仅仅有利于日常的维护及管理,也可能避免意想不到的故障。首先,放置服务器不占用过多空间。机架服务器整齐地排放在机架中,不会浪费空间。其次,连接线等也能够整齐地收放到机架里。电源线和LAN线等全都能在机柜中布好线,可以减少堆积在地面上的连接线,从而防止脚踢掉电线等事故的发生。规定的尺寸是服务器的宽(48.26cm=19英寸)与高(4.445cm的倍数)。由于宽为19英寸,所以有时也将满足这一规定的机架称为“19英寸机架”。
(3)刀片式服务器
刀片服务器是一种HAHD(High Availability High Density,高可用高密度)的低成本服务器平台,是专门为特殊应用行业和高密度计算机环境设计的,其中每一块“刀片”实际上就是一块***母板,类似于一个个独立的服务器。在这种模式下,每一个母板运行自己的***,服务于指定的不同用户群,相互之间没有关联。不过可以使用***软件将这些母板集合成一个服务器集群。在集群模式下,所有的母板可以连接起来提供高速的网络环境,可以共享资源,为相同的用户群服务。
(4)云服务器
云服务器(Elastic Compute Service,ECS)是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效,用户无需提前购买硬件,即可迅速创建或释放任意多台云服务器。云服务器的分布式存储用于将大量服务器整合为一台超级计算机,提供大量的数据存储和处理服务。分布式文件***、分布式数据库允许访问共同存储资源,实现应用数据文件的IO共享。虚拟机可以突破单个物理机的限制,动态的资源调整与分配消除服务器及存储设备的单点故障,实现高可用性。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图11中的一个处理器111,可使得上述一个或多个处理器可执行上述任意方法实施例中的原创文章的生成方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被服务器执行时,使所述服务器执行上述的原创文章的生成方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (11)
1.一种原创文章的生成方法,其特征在于,包括:
获取热门事件;
通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;
根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;
根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;
基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。
2.根据权利要求1所述的方法,其特征在于,所述确定与预设主题相关的热门事件,包括:
生成主题种类标签,通过所述主题种类标签对所述热门事件进行标识。
3.根据权利要求1所述的方法,其特征在于,所述根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要,包括:
基于预先训练的多文档摘要抽取模型,从所述新闻集合中抽取所述新闻事件相关的原始摘要,生成候选摘要集合;
根据所述候选摘要集合,生成所述与预设主题相关的热门事件的事件摘要。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选摘要集合,生成所述与预设主题相关的热门事件的事件摘要,包括:
从所述候选摘要集合中确定待改写摘要;
基于预先训练的同义句改写模型,对所述待改写摘要进行改写,生成所述与预设主题相关的热门事件的事件摘要。
5.根据权利要求2所述的方法,其特征在于,所述基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章,包括:
根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文;
自动拼接所述事件摘要和所述主题短文,生成所述原创文章。
6.根据权利要求5所述的方法,其特征在于,所述根据所述主题种类标签,从所述主题知识库中获取与主题种类相关的主题短文之后,所述方法还包括:
从获取到的至少两篇主题短文中筛选出唯一的最优短文;
基于预先训练的同义句改写模型,对所述最优短文进行改写,生成所述热门事件的事件短文。
7.根据权利要求6所述的方法,其特征在于,所述自动拼接所述事件摘要和所述主题短文,生成所述原创文章,包括:
自动拼接所述事件摘要和所述事件短文,生成所述原创文章。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述预设主题包括保险主题,所述主题知识库包括保险知识库。
9.一种原创文章的生成装置,其特征在于,包括:
热门新闻资讯获取单元,用于获取热门事件;
热门事件确定单元,用于通过预先训练的主题分析模型,对所述获取到的热门事件进行筛选,确定与预设主题相关的热门事件;
新闻集合获取单元,用于根据所述与预设主题相关的热门事件,获取所述与预设主题相关的热门事件相关的新闻集合;
事件摘要生成单元,用于根据所述新闻集合,生成所述与预设主题相关的热门事件的事件摘要;
原创文章生成单元,基于预先生成的主题知识库,获取主题短文,结合所述事件摘要,生成所述原创文章。
10.一种服务器,其特征在于,包括:
至少一个处理器;和
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8任一项所述的原创文章的生成方法。
11.一种原创文章的生成***,其特征在于,包括:
如权利要求10所述的服务器;
第三方新闻平台,通信连接所述服务器,所述第三方新闻平台包括第三方新闻库,用于保存热门新闻资讯,以使所述服务器获取所述热门新闻资讯;
文章发布平台,通信连接所述服务器,用于发布所述服务器生成的原创文章。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911112545.0A CN110956021A (zh) | 2019-11-14 | 2019-11-14 | 一种原创文章的生成方法、装置、***及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911112545.0A CN110956021A (zh) | 2019-11-14 | 2019-11-14 | 一种原创文章的生成方法、装置、***及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110956021A true CN110956021A (zh) | 2020-04-03 |
Family
ID=69977340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911112545.0A Pending CN110956021A (zh) | 2019-11-14 | 2019-11-14 | 一种原创文章的生成方法、装置、***及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956021A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328856A (zh) * | 2020-10-30 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 公共事件追踪方法、装置、计算机设备及计算机可读介质 |
CN112579800A (zh) * | 2020-08-28 | 2021-03-30 | 太极计算机股份有限公司 | 一种融媒体新闻原创作品及首发媒体自动识别方法 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN113688230A (zh) * | 2021-07-21 | 2021-11-23 | 武汉众智数字技术有限公司 | 一种文本摘要生成的方法及*** |
CN116306514A (zh) * | 2023-05-22 | 2023-06-23 | 北京搜狐新媒体信息技术有限公司 | 一种文本处理方法及装置、电子设备、存储介质 |
CN117473072A (zh) * | 2023-12-28 | 2024-01-30 | 杭州同花顺数据开发有限公司 | 一种金融研报生成方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145482A (zh) * | 2017-03-28 | 2017-09-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章生成方法及装置、设备与可读介质 |
CN107480127A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 舆情分析方法及装置 |
CN107943774A (zh) * | 2017-11-20 | 2018-04-20 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
-
2019
- 2019-11-14 CN CN201911112545.0A patent/CN110956021A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145482A (zh) * | 2017-03-28 | 2017-09-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章生成方法及装置、设备与可读介质 |
CN107480127A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 舆情分析方法及装置 |
CN107943774A (zh) * | 2017-11-20 | 2018-04-20 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579800A (zh) * | 2020-08-28 | 2021-03-30 | 太极计算机股份有限公司 | 一种融媒体新闻原创作品及首发媒体自动识别方法 |
CN112328856A (zh) * | 2020-10-30 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 公共事件追踪方法、装置、计算机设备及计算机可读介质 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112612892B (zh) * | 2020-12-29 | 2022-11-01 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN113688230A (zh) * | 2021-07-21 | 2021-11-23 | 武汉众智数字技术有限公司 | 一种文本摘要生成的方法及*** |
CN116306514A (zh) * | 2023-05-22 | 2023-06-23 | 北京搜狐新媒体信息技术有限公司 | 一种文本处理方法及装置、电子设备、存储介质 |
CN116306514B (zh) * | 2023-05-22 | 2023-09-08 | 北京搜狐新媒体信息技术有限公司 | 一种文本处理方法及装置、电子设备、存储介质 |
CN117473072A (zh) * | 2023-12-28 | 2024-01-30 | 杭州同花顺数据开发有限公司 | 一种金融研报生成方法、装置、设备及存储介质 |
CN117473072B (zh) * | 2023-12-28 | 2024-03-15 | 杭州同花顺数据开发有限公司 | 一种金融研报生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956021A (zh) | 一种原创文章的生成方法、装置、***及服务器 | |
Qin et al. | DuerQuiz: A personalized question recommender system for intelligent job interview | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测***及方法 | |
CN103699625A (zh) | 基于关键词进行检索的方法及装置 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Santosh et al. | Dake: Document-level attention for keyphrase extraction | |
CN107301195A (zh) | 生成用于搜索内容的分类模型方法、装置和数据处理*** | |
Karim et al. | A step towards information extraction: Named entity recognition in Bangla using deep learning | |
Tang et al. | Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching | |
CN112000929A (zh) | 一种跨平台数据分析方法、***、设备及可读存储介质 | |
Ma et al. | Stream-based live public opinion monitoring approach with adaptive probabilistic topic model | |
Viet et al. | Analyzing recent research trends of computer science from academic open-access digital library | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
CN112765966B (zh) | 联想词去重方法及装置、计算机可读存储介质和电子设备 | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
Hu et al. | Memory-enhanced latent semantic model: short text understanding for sentiment analysis | |
Xu et al. | Generating risk maps for evolution analysis of societal risk events | |
Alami et al. | DAQAS: Deep Arabic Question Answering System based on duplicate question detection and machine reading comprehension | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Kavyashree et al. | Survey on automatic text summarization using NLP and deep learning | |
Bing et al. | Unsupervised extraction of popular product attributes from web sites | |
Alashri et al. | Lexi-augmenter: Lexicon-based model for tweets sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |