CN110765742A

CN110765742A - 一种基于文本分析技术的自动写稿***

Info

Publication number: CN110765742A
Application number: CN201910852564.0A
Authority: CN
Inventors: 陶敬伟; 包盛; 诸葛忠; 杨谦
Original assignee: Shanghai Rongying Data Technology Co Ltd
Current assignee: Shanghai Rongying Data Technology Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-02-07

Abstract

本发明涉及文本分析、自然语言文字处理技术领域，且公开了一种基于文本分析技术的自动写稿***，包括以下步骤：S1，从网页中及时获取企业发布的各种年报、公告信息，主要是以PDF文档为主；S2，下载PDF文件后，将PDF文件输入到R‑CNN神经网络中，通过深度学习技术对文档进行解析，分离图片和表格。本发明通过自动化写稿***，能够快速的从互联网上获取上市企业发布的各类信息，并对这些信息进行提取、处理、生成摘要、格式变换后，最终为用户呈现出来可视化的、易理解的摘要稿件信息。

Description

一种基于文本分析技术的自动写稿***

技术领域

本发明涉及文本分析、自然语言文字处理技术领域，具体为一种基于文本分析技术的自动写稿***。

背景技术

自动写稿背后的核心技术是自然语言处理(NLP)，同时涉及数据挖掘、机器学习、搜索技术、知识图谱等多项人工智能技术。自然语言处理是指机器理解并解释人类写作、说话方式的能力。目标是让计算机在理解语言上像人类一样智能，最终能弥补人类交流和计算机理解(机器语言)之间的差距。

随着NLP、深度学习以及大数据等技术的长足发展并开始在产业应用上大放异彩，自动写稿正是技术发展和行业变革催生的一股潮流，目前自动写稿有三种实现方法：模板式、抽取式和生成式这三种技术。

以上三种自动写稿技术在实际的使用过程中都有各自的缺陷。

模板式自动写稿比较适合稿件内容结构相对固定的场景，对于突发性的事件难以快速响应，而企业公告的内容又会经常性的出现突发事件，这时如果发现稿件内容异常再进行人工干预就会影响稿件发布的时效性；

抽取式自动写稿是从海量已有的文本素材中进行信息抽取并进行二次创作，目前抽取式自动文本摘要技术主要应用在新闻领域，因为互联网上有大量的新闻文本可以方便收集，而对于金融行业的企业公告内容，基本上都是以PDF/DOC的文档形式存在，没有直接的数据源可以使用；

生成式自动写稿更多的是用于模仿某个人/某个场景的内容写作，需要收集大量目标文本进行学习，然后再自动生成比较接近于目标文件的文本，目前技术还不是非常成熟。

所以，本发明将文本分析技术、自然语言处理技术、动态模板技术相结合后提出一种基于文本分析技术的自动写稿***。

发明内容

针对现有技术的不足，本发明提供了一种基于文本分析技术的自动写稿***，解决了上述背景技术中提到的问题。

本发明提供如下技术方案：一种基于文本分析技术的自动写稿***，包括以下步骤：

S1，从网页中及时获取企业发布的各种年报、公告信息，主要是以PDF文档为主；

S2，下载PDF文件后，将PDF文件输入到R-CNN神经网络中，通过深度学习技术对文档进行解析，分离图片和表格；

S2-1，首先分析文档的目录，将文档根据目录进行页码分组；

S2-2，按照目录提取出每个段落标题的文字作为关键数据，并且按照段落分级进行组织，获得整片文档的段落信息为Sector[i]数组；

S2-3，将文档中的图片和表格从文字中分离出来，图片直接保存到数据库中，表格输入到神经网络中；

S2-4，通过神经网络对表格中的数据进行提取，并且保存到关系数据库中；

S3，将分离得到的文档进行自然语言处理，获取文档中的情绪信息，处理完成后给出文档的情绪指标Motion(i)；

S4，将分离得到的文档进行自然语言处理，从中进行文本摘要抽取，抽取出的文本片段为Text(i)；

S5，根据Sector[i]和Motion[i]的信息，在动态模板库中选择合适的模板Model[i]，并将Text[i]内容填入选择的模板Mode[i]，最终得到可以发布的稿件Article[i]；

S6，对稿件Article[i]进行文档格式转换。

优选的，所述S2-2步骤中的每个Sector[i]数组中包含了段落分级、段落标题信息和页码范围。

优选的，所述S3步骤中的情绪信息主要包含利空情绪，利多情绪和中性情绪三种。

优选的，所述S6步骤中文档的格式可转换成网页格式、音频格式和视频格式。

本发明具备以下有益效果：

本发明通过自动化写稿***，能够快速的从互联网上获取上市企业发布的各类信息，并对这些信息进行提取、处理、生成摘要、格式变换后，最终为用户呈现出来可视化的、易理解的摘要稿件信息。

附图说明

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于文本分析技术的自动写稿***，包括以下步骤：

S2-1，首先分析文档的目录，将文档根据目录进行页码分组；

S6，对稿件Article[i]进行文档格式转换。

进一步地，S2-2步骤中的每个Sector[i]数组中包含了段落分级、段落标题信息和页码范围。

进一步地，S3步骤中的情绪信息主要包含利空情绪，利多情绪和中性情绪三种。

进一步地，S6步骤中文档的格式可转换成网页格式、音频格式和视频格式。

实施例一

下面将结合本发明的实施实例，对本发明的技术方案进行清楚、完整地描述，采用本发明实施实例，可以从文本中自动获取关键信息并完成稿件撰写。

本实施方式中，自动写稿的整个实施流程如下所述：

S101，某个上市公司企业发布了2018年的企业年报，并且上海交易所网站对该年报进行了发布，本***实时监测交易所网站，发现有新增文件后就进行下载，并且将PDF文件存放到本地数据库。

S102-1，***对PDF文件进行处理，首先将文件按照一级目录进行分页，然后再进行递归，一直到最后一级目录，并且将目录级别、标题名称、页码范围保存为数组。

S102-2，***对于得到的图片按照图片的说明信息进行保存；***对于得到的表格进行自动化识别，识别后会将表格信息以key-value的方式进行存储，比如常见的利润表、资产负债表和现金流量表

S103，***分离出图片和表格后，将得到的文本信息进行自然语言处理，如果发现有“同比上升”、“同比增加”、“增幅”、“涨幅”、“获得收益”等词语，则认为该段文本为利多情绪；相反为利空情绪；除去利空和利多的情绪后，剩余的则归为中性情绪。

S104，***对得到的文本信息进行摘要处理，提取出主谓宾，去除修饰词语、介词短语、状语、不定式等词汇，得到每个段落的摘要信息。

S105，***会根据企业所在的行业、文本的情绪信息和文本的标题信息，自动匹配合适的模板，比如对于企业最常见的年报信息，会根据企业发布的年报自动生成研究报告，比如对于中芯国际发布的2019年度1季度季报，***会自动下载PDF文件并且形成摘要稿件：“中芯国际1Q19公司营业收入为6.69亿美元，1Q19毛利率为18.2％，环比提升1.2％，但低于公司指引区间20-22％。2Q19指引，收入指引为7.83-7.96亿美元，毛利率介于18％～20％。公司已于1Q19完成了上海先进晶圆厂的建设。12nm制程技术研发已经完成，进入客户验证阶段，期待年底实现量产。伴随5G时代的来临，一系列产品将从28nm迁移到14/12nm。投资建议：我们认为公司长期投资逻辑不变，看好公司坚定发展先进制程的战略。我们预测公司2019/20/21年每股净资产为1.10/1.13/1.17美元，按2019年1.1倍PB估值，维持公司目标价9.5港元，维持“审慎增持”评级”。

S106，***将形成的最终文稿进行发布，发布的过程中可以自动生成网页、音频文件和视频文件。音频文件会采用人工语音库对文本进行朗读；视频文件会在音频文件的基础上，在互联网上通过关键字搜索相关图片，并将这些图片转换成视频文件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于文本分析技术的自动写稿***，其特征在于，包括以下步骤：

S2-1，首先分析文档的目录，将文档根据目录进行页码分组；

S6，对稿件Article[i]进行文档格式转换。

2.根据权利要求1所述的一种基于文本分析技术的自动写稿***，其特征在于：所述S2-2步骤中的每个Sector[i]数组中包含了段落分级、段落标题信息和页码范围。

3.根据权利要求1所述的一种基于文本分析技术的自动写稿***，其特征在于：所述S3步骤中的情绪信息主要包含利空情绪，利多情绪和中性情绪三种。

4.根据权利要求1所述的一种基于文本分析技术的自动写稿***，其特征在于：所述S6步骤中文档的格式可转换成网页格式、音频格式和视频格式。