CN110765742A - 一种基于文本分析技术的自动写稿*** - Google Patents

一种基于文本分析技术的自动写稿*** Download PDF

Info

Publication number
CN110765742A
CN110765742A CN201910852564.0A CN201910852564A CN110765742A CN 110765742 A CN110765742 A CN 110765742A CN 201910852564 A CN201910852564 A CN 201910852564A CN 110765742 A CN110765742 A CN 110765742A
Authority
CN
China
Prior art keywords
document
information
text
system based
text analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910852564.0A
Other languages
English (en)
Inventor
陶敬伟
包盛
诸葛忠
杨谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Rongying Data Technology Co Ltd
Original Assignee
Shanghai Rongying Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Rongying Data Technology Co Ltd filed Critical Shanghai Rongying Data Technology Co Ltd
Priority to CN201910852564.0A priority Critical patent/CN110765742A/zh
Publication of CN110765742A publication Critical patent/CN110765742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本分析、自然语言文字处理技术领域,且公开了一种基于文本分析技术的自动写稿***,包括以下步骤:S1,从网页中及时获取企业发布的各种年报、公告信息,主要是以PDF文档为主;S2,下载PDF文件后,将PDF文件输入到R‑CNN神经网络中,通过深度学习技术对文档进行解析,分离图片和表格。本发明通过自动化写稿***,能够快速的从互联网上获取上市企业发布的各类信息,并对这些信息进行提取、处理、生成摘要、格式变换后,最终为用户呈现出来可视化的、易理解的摘要稿件信息。

Description

一种基于文本分析技术的自动写稿***
技术领域
本发明涉及文本分析、自然语言文字处理技术领域,具体为一种基于文本分析技术的自动写稿***。
背景技术
自动写稿背后的核心技术是自然语言处理(NLP),同时涉及数据挖掘、机器学习、搜索技术、知识图谱等多项人工智能技术。自然语言处理是指机器理解并解释人类写作、说话方式的能力。目标是让计算机在理解语言上像人类一样智能,最终能弥补人类交流和计算机理解(机器语言)之间的差距。
随着NLP、深度学习以及大数据等技术的长足发展并开始在产业应用上大放异彩,自动写稿正是技术发展和行业变革催生的一股潮流,目前自动写稿有三种实现方法:模板式、抽取式和生成式这三种技术。
以上三种自动写稿技术在实际的使用过程中都有各自的缺陷。
模板式自动写稿比较适合稿件内容结构相对固定的场景,对于突发性的事件难以快速响应,而企业公告的内容又会经常性的出现突发事件,这时如果发现稿件内容异常再进行人工干预就会影响稿件发布的时效性;
抽取式自动写稿是从海量已有的文本素材中进行信息抽取并进行二次创作,目前抽取式自动文本摘要技术主要应用在新闻领域,因为互联网上有大量的新闻文本可以方便收集,而对于金融行业的企业公告内容,基本上都是以PDF/DOC的文档形式存在,没有直接的数据源可以使用;
生成式自动写稿更多的是用于模仿某个人/某个场景的内容写作,需要收集大量目标文本进行学习,然后再自动生成比较接近于目标文件的文本,目前技术还不是非常成熟。
所以,本发明将文本分析技术、自然语言处理技术、动态模板技术相结合后提出一种基于文本分析技术的自动写稿***。
发明内容
针对现有技术的不足,本发明提供了一种基于文本分析技术的自动写稿***,解决了上述背景技术中提到的问题。
本发明提供如下技术方案:一种基于文本分析技术的自动写稿***,包括以下步骤:
S1,从网页中及时获取企业发布的各种年报、公告信息,主要是以PDF文档为主;
S2,下载PDF文件后,将PDF文件输入到R-CNN神经网络中,通过深度学习技术对文档进行解析,分离图片和表格;
S2-1,首先分析文档的目录,将文档根据目录进行页码分组;
S2-2,按照目录提取出每个段落标题的文字作为关键数据,并且按照段落分级进行组织,获得整片文档的段落信息为Sector[i]数组;
S2-3,将文档中的图片和表格从文字中分离出来,图片直接保存到数据库中,表格输入到神经网络中;
S2-4,通过神经网络对表格中的数据进行提取,并且保存到关系数据库中;
S3,将分离得到的文档进行自然语言处理,获取文档中的情绪信息,处理完成后给出文档的情绪指标Motion(i);
S4,将分离得到的文档进行自然语言处理,从中进行文本摘要抽取,抽取出的文本片段为Text(i);
S5,根据Sector[i]和Motion[i]的信息,在动态模板库中选择合适的模板Model[i],并将Text[i]内容填入选择的模板Mode[i],最终得到可以发布的稿件Article[i];
S6,对稿件Article[i]进行文档格式转换。
优选的,所述S2-2步骤中的每个Sector[i]数组中包含了段落分级、段落标题信息和页码范围。
优选的,所述S3步骤中的情绪信息主要包含利空情绪,利多情绪和中性情绪三种。
优选的,所述S6步骤中文档的格式可转换成网页格式、音频格式和视频格式。
本发明具备以下有益效果:
本发明通过自动化写稿***,能够快速的从互联网上获取上市企业发布的各类信息,并对这些信息进行提取、处理、生成摘要、格式变换后,最终为用户呈现出来可视化的、易理解的摘要稿件信息。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于文本分析技术的自动写稿***,包括以下步骤:
S1,从网页中及时获取企业发布的各种年报、公告信息,主要是以PDF文档为主;
S2,下载PDF文件后,将PDF文件输入到R-CNN神经网络中,通过深度学习技术对文档进行解析,分离图片和表格;
S2-1,首先分析文档的目录,将文档根据目录进行页码分组;
S2-2,按照目录提取出每个段落标题的文字作为关键数据,并且按照段落分级进行组织,获得整片文档的段落信息为Sector[i]数组;
S2-3,将文档中的图片和表格从文字中分离出来,图片直接保存到数据库中,表格输入到神经网络中;
S2-4,通过神经网络对表格中的数据进行提取,并且保存到关系数据库中;
S3,将分离得到的文档进行自然语言处理,获取文档中的情绪信息,处理完成后给出文档的情绪指标Motion(i);
S4,将分离得到的文档进行自然语言处理,从中进行文本摘要抽取,抽取出的文本片段为Text(i);
S5,根据Sector[i]和Motion[i]的信息,在动态模板库中选择合适的模板Model[i],并将Text[i]内容填入选择的模板Mode[i],最终得到可以发布的稿件Article[i];
S6,对稿件Article[i]进行文档格式转换。
进一步地,S2-2步骤中的每个Sector[i]数组中包含了段落分级、段落标题信息和页码范围。
进一步地,S3步骤中的情绪信息主要包含利空情绪,利多情绪和中性情绪三种。
进一步地,S6步骤中文档的格式可转换成网页格式、音频格式和视频格式。
实施例一
下面将结合本发明的实施实例,对本发明的技术方案进行清楚、完整地描述,采用本发明实施实例,可以从文本中自动获取关键信息并完成稿件撰写。
本实施方式中,自动写稿的整个实施流程如下所述:
S101,某个上市公司企业发布了2018年的企业年报,并且上海交易所网站对该年报进行了发布,本***实时监测交易所网站,发现有新增文件后就进行下载,并且将PDF文件存放到本地数据库。
S102-1,***对PDF文件进行处理,首先将文件按照一级目录进行分页,然后再进行递归,一直到最后一级目录,并且将目录级别、标题名称、页码范围保存为数组。
S102-2,***对于得到的图片按照图片的说明信息进行保存;***对于得到的表格进行自动化识别,识别后会将表格信息以key-value的方式进行存储,比如常见的利润表、资产负债表和现金流量表
S103,***分离出图片和表格后,将得到的文本信息进行自然语言处理,如果发现有“同比上升”、“同比增加”、“增幅”、“涨幅”、“获得收益”等词语,则认为该段文本为利多情绪;相反为利空情绪;除去利空和利多的情绪后,剩余的则归为中性情绪。
S104,***对得到的文本信息进行摘要处理,提取出主谓宾,去除修饰词语、介词短语、状语、不定式等词汇,得到每个段落的摘要信息。
S105,***会根据企业所在的行业、文本的情绪信息和文本的标题信息,自动匹配合适的模板,比如对于企业最常见的年报信息,会根据企业发布的年报自动生成研究报告,比如对于中芯国际发布的2019年度1季度季报,***会自动下载PDF文件并且形成摘要稿件:“中芯国际1Q19公司营业收入为6.69亿美元,1Q19毛利率为18.2%,环比提升1.2%,但低于公司指引区间20-22%。2Q19指引,收入指引为7.83-7.96亿美元,毛利率介于18%~20%。公司已于1Q19完成了上海先进晶圆厂的建设。12nm制程技术研发已经完成,进入客户验证阶段,期待年底实现量产。伴随5G时代的来临,一系列产品将从28nm迁移到14/12nm。投资建议:我们认为公司长期投资逻辑不变,看好公司坚定发展先进制程的战略。我们预测公司2019/20/21年每股净资产为1.10/1.13/1.17美元,按2019年1.1倍PB估值,维持公司目标价9.5港元,维持“审慎增持”评级”。
S106,***将形成的最终文稿进行发布,发布的过程中可以自动生成网页、音频文件和视频文件。音频文件会采用人工语音库对文本进行朗读;视频文件会在音频文件的基础上,在互联网上通过关键字搜索相关图片,并将这些图片转换成视频文件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于文本分析技术的自动写稿***,其特征在于,包括以下步骤:
S1,从网页中及时获取企业发布的各种年报、公告信息,主要是以PDF文档为主;
S2,下载PDF文件后,将PDF文件输入到R-CNN神经网络中,通过深度学习技术对文档进行解析,分离图片和表格;
S2-1,首先分析文档的目录,将文档根据目录进行页码分组;
S2-2,按照目录提取出每个段落标题的文字作为关键数据,并且按照段落分级进行组织,获得整片文档的段落信息为Sector[i]数组;
S2-3,将文档中的图片和表格从文字中分离出来,图片直接保存到数据库中,表格输入到神经网络中;
S2-4,通过神经网络对表格中的数据进行提取,并且保存到关系数据库中;
S3,将分离得到的文档进行自然语言处理,获取文档中的情绪信息,处理完成后给出文档的情绪指标Motion(i);
S4,将分离得到的文档进行自然语言处理,从中进行文本摘要抽取,抽取出的文本片段为Text(i);
S5,根据Sector[i]和Motion[i]的信息,在动态模板库中选择合适的模板Model[i],并将Text[i]内容填入选择的模板Mode[i],最终得到可以发布的稿件Article[i];
S6,对稿件Article[i]进行文档格式转换。
2.根据权利要求1所述的一种基于文本分析技术的自动写稿***,其特征在于:所述S2-2步骤中的每个Sector[i]数组中包含了段落分级、段落标题信息和页码范围。
3.根据权利要求1所述的一种基于文本分析技术的自动写稿***,其特征在于:所述S3步骤中的情绪信息主要包含利空情绪,利多情绪和中性情绪三种。
4.根据权利要求1所述的一种基于文本分析技术的自动写稿***,其特征在于:所述S6步骤中文档的格式可转换成网页格式、音频格式和视频格式。
CN201910852564.0A 2019-09-10 2019-09-10 一种基于文本分析技术的自动写稿*** Pending CN110765742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910852564.0A CN110765742A (zh) 2019-09-10 2019-09-10 一种基于文本分析技术的自动写稿***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910852564.0A CN110765742A (zh) 2019-09-10 2019-09-10 一种基于文本分析技术的自动写稿***

Publications (1)

Publication Number Publication Date
CN110765742A true CN110765742A (zh) 2020-02-07

Family

ID=69329848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852564.0A Pending CN110765742A (zh) 2019-09-10 2019-09-10 一种基于文本分析技术的自动写稿***

Country Status (1)

Country Link
CN (1) CN110765742A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131833A (zh) * 2020-08-14 2020-12-25 张泽亮 一种机器自动写作软件
CN116861880A (zh) * 2023-09-04 2023-10-10 北京至臻云智能科技有限公司 一种基于数字技术的电子审计报告生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131833A (zh) * 2020-08-14 2020-12-25 张泽亮 一种机器自动写作软件
CN116861880A (zh) * 2023-09-04 2023-10-10 北京至臻云智能科技有限公司 一种基于数字技术的电子审计报告生成方法及装置

Similar Documents

Publication Publication Date Title
US20200184152A1 (en) Automatic Semantic Rating and Abstraction of Literature
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
US20200057810A1 (en) Information object extraction using combination of classifiers
CN105608200A (zh) 一种网络舆论趋势预测分析方法
Kenny Human and machine translation
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN107577672B (zh) 基于舆情设定剧本的方法和装置
CN106897437B (zh) 一种知识***的高阶规则多分类方法及其***
CN110765742A (zh) 一种基于文本分析技术的自动写稿***
CN102214227B (zh) 基于互联网层次结构存储的自动舆情监控方法
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN117150050A (zh) 一种基于大语言模型的知识图谱构建方法及***
Bryl et al. Interlinking and knowledge fusion
Oyewusi et al. Naijaner: Comprehensive named entity recognition for 5 nigerian languages
CN110705310B (zh) 一种文章生成的方法和装置
Nguyen et al. Subtree mining for relation extraction from Wikipedia
Šauperl Pinning down a novel: characteristics of literary works as perceived by readers
Korovesis et al. Leveraging aspect-based sentiment prediction with textual features and document metadata
Lisena et al. Data mining and knowledge graphs as a backbone for advanced olfactory experiences
CN106503064B (zh) 一种自适应微博话题摘要的生成方法
CN115168543A (zh) 一种基于非结构化文本的考题自动生成设计方法
Dhar et al. Pointer over attention: An improved bangla text summarization approach using hybrid pointer generator network
CN104102739B (zh) 一种扩充实体库的方法及装置
CN108170657A (zh) 一种自然语言长文本生成方法
Meier TWikiL–the Twitter Wikipedia Link Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination