CN108563620A

CN108563620A - 文本自动写作方法和***

Info

Publication number: CN108563620A
Application number: CN201810331488.4A
Authority: CN
Inventors: 王娜; 胡滨洋
Original assignee: Shanghai Yi Cai Fan Tai Media Technology Co Ltd
Current assignee: Shanghai Yi Cai Fan Tai Media Technology Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-21

Abstract

本发明提供了一种文本自动写作方法，包括如下步骤：信息采集过程、文本解析过程、内容生成过程和产品呈现过程。所述读者行为分析过程，包括：从所述一个或者多个互联网平台获取读者行为信息，分析所述读者行为信息，其中所述信息采集过程、所述文本解析过程和所述内容生成过程根据所述读者行为信息进行调整。

Description

文本自动写作方法和***

技术领域

本发明主要涉及计算机领域，尤其涉及一种文本自动写作方法和***。

背景技术

伴随着互联网的高速发展，越来越多的第一手信息通过网络进行发布。这些信息种类丰富、数量庞大、表现形式多样。对于内容创作者、尤其是媒体工作者来说，期望及时监控并获取海量的信息，有效管理通过各种渠道搜集来的大量写作素材，高效、快速地对这些素材进行筛选、处理并进行内容生产。

已经提出了一些文本自动写作方法，这些方法的大部分是基于结构化信息。结构化信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范。相比之下，非结构化的信息中许多内容都是不可预知的。根据非结构化的信息来进行自动写作，是一个巨大的挑战。

发明内容

本发明要解决的技术问题是提供一种文本自动写作方法和***，有助于根据非结构化的信息来进行自动写作。

为解决上述技术问题，本发明提供了一种文本自动写作方法，包括如下步骤：信息采集过程，包括：从互联网采集信息，对所述信息进行格式转换，对所述信息进行噪声清洗，对所述信息进行数据初筛，获得文本，其中所述文本包括非结构化部分；文本解析过程，包括：对所述文本进行分类，根据所述文本的类别识别所述文本中的命名实体，根据所述文本的类别抽取所述文本中的命名实体之间的实体关系，根据所述文本的类别抽取能够反映所述文本中的事件的事件语素；内容生成过程，包括：预先配置一个或多个写作场景，预先配置一个或多个逻辑模板，根据所述命名实体、所述实体关系和事件语素且应用所述写作场景和逻辑模板生成语段，识别关联的语段并聚合成文章；产品呈现过程，包括：将所述文章分发到一个或者多个互联网平台；读者行为分析过程，包括：从所述一个或者多个互联网平台获取读者行为信息，分析所述读者行为信息，其中所述信息采集过程、所述文本解析过程和所述内容生成过程根据所述读者行为信息进行调整。

在本发明的一实施例中，所述文本解析过程还包括：提取所述文本中预先提炼的关键词。

在本发明的一实施例中，所述文本解析过程还包括：抽取所述文本中的关键信息。

在本发明的一实施例中，所述文本解析过程还包括：抽取所述文本中用于构成文档摘要的语句。

在本发明的一实施例中，所述文本解析过程还包括：分析所述文本的情感极性。

在本发明的一实施例中，上述方法还包括数字分析过程，所述数据分析过程包括：对所述文本中的数据进行数值计算和统计，监控所述文本中的数据是否出现异常值。

在本发明的一实施例中，对所述文本进行分类的步骤包括根据预先建立的类别进行分类，其中预先建立类别的方法包括：获取一个或多个设定的类别；将多个训练文本的第一部分归类到所述一个或多个类别中；将多个训练文本中无法归类到所述一个或多个类别中的第二部分分为一个或多个聚类；接收对所述一个或多个聚类的建立的分类标签。

在本发明的一实施例中，所述一个或多个逻辑模板中的每个逻辑模板包括一个或多个候选句子，每个候选句子包括一个或多个候选命名实体、语素和句式。

在本发明的一实施例中，根据所述命名实体、所述实体关系和事件语素且应用所述写作场景和逻辑模板生成文章的步骤包括：使用深度学习方法根据输入的参数自动生成语段，所述语段被填入所述逻辑模板。

本发明还提出一种文本自动写作***，包括存储器，用于存储可由处理器执行的指令；处理器，用于执行所述指令以实现如上所述的方法。

本发明实施例的文本自动生成方法和***整合了信息采集、数据分析、文本编辑、内容发布、数据回流等关键模块，可以实现了自动写作一体化流程，提高了内容生产的效率及时效性。

附图说明

图1是根据本发明一实施例的文本自动写作***的示意图。

图2是根据本发明另一实施例的文本自动写作***的示意图。

图3是根据本发明一实施例的文本自动写作方法的示意图。

图4是根据本发明一实施例的信息采集示意图。

图5是根据本发明一实施例的文本分类示意图。

图6是根据本发明一实施例的未知类别公告的聚类树形图。

图7是根据本发明一实施例的文本类别体系示例。

图8是根据本发明一实施例的命名实体识别示例。

图9是根据本发明一实施例的关键词提取结果示例。

图10是根据本发明一实施例的事件抽取结果示例。

图11是根据本发明一实施例的目标关键信息示例。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本发明的实施例描述文本自动写作方法和***。这一有助于根据非结构化的信息来进行自动写作。

图1是本发明一实施例的文本自动写作***的框图。参考图1所示，文本自动写作***100可包括内部通信总线101、处理器(processor)102、只读存储器(ROM)103、随机存取存储器(RAM)104、通信端口105、输入/输出组件106、硬盘107以及用户界面108。内部通信总线101可以实现计算机100组件间的数据通信。处理器102可以进行判断和发出提示。在一些实施例中，处理器102可以由一个或多个处理器组成。通信端口105可以实现计算机100与其他部件(图中未示出)之间进行数据通信。在一些实施例中，计算机100可以通过通信端口105从网络发送和接受信息及数据。输入/输出组件106支持计算机100与其他部件之间的输入/输出数据流。用户界面108可以实现计算机100和用户之间的交互和信息交换。计算机100还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘107，只读存储器(ROM)103和随机存取存储器(RAM)104，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器102所执行的可能的程序指令。

作为举例，输入/输出组件106可以包括以下的组件的一种或多种：鼠标、轨迹球、键盘、触控组件、声音接收器等。

举例来说，本申请的文本自动写作方法可以实施为计算机程序，保存在硬盘107中，并可记载到处理器102中执行，以实施本申请的方法。

可以理解，本申请的文本自动写作***并不限于由一个计算机实施，而是可以由多个联机的计算机协同实施。联机的计算机可以通过局域网或者广域网连接和通信。

例如本发明实施例的文本自动写作***可以为文本自动写作软件，保存在硬盘中。

文本自动写作***实施为软件时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

本发明实施例的个例安全报告呈报跟踪***还可以实施为软件服务化(Softwareas a Service)的形态。图2是本发明另一实施例的文本自动写作***的框图。参考图2所示，***可包括客户机210和服务器220，二者通过网络210连接。网络210可以各种已知的有线或者无线网络，在此不再展开。服务器220和客户机210配合以实现前述实施例所描述的方法或其变化例。客户机210中可以配备用户界面、通信端口和输入组件。用户界面可以向使用者呈现各种界面，输入组件可以接收使用者的输入。服务器220中可以配置通信端口(图未示)、存储器221和处理器(图未示)，存储器221存储计算机指令，处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给客户机210，在客户机210的用户界面上显示。

可以理解，本申请的文本自动写作***并不限于由一个服务器实施，而是可以由多个联机的服务器协同实施。联机的服务器可以通过局域网或者广域网连接和通信。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

图3是根据本发明一实施例的文本自动写作方法的示意图。本实施例的方法可以在图1、图2或者其变化的文本自动写作***中实施。参考图3所示，本实施例的文本自动写作方法可包括信息采集过程310、文本解析过程320、内容生成过程330、产品呈现过程340和读者行为分析过程350。可选地，文本自动写作方法可包括诊断过程360。

信息采集过程310可包括从互联网采集信息的步骤311，对信息进行格式转换的步骤312，对信息进行噪声清洗的步骤313，对信息进行数据初筛的步骤314。此步骤可以获得文本，文本可包括非结构化部分。当然，文本也可包括结构化部分和/或半结构化部分。下面的处理主要地涉及非结构化部分。

文本解析过程320可包括：对文本进行分类的步骤321，根据文本的类别识别文本中的命名实体的步骤322，根据文本的类别抽取文本中的命名实体之间的实体关系的步骤324，以及根据文本的类别抽取能够反映文本中的事件的事件语素的步骤325。可选地，文本解析过程320还可包括：提取文本中预先提炼的关键词的步骤323，抽取文本中用于构成文档摘要的语句的步骤326，抽取文本中的关键信息的步骤327，以及分析文本的情感极性的步骤328。

内容生成过程330可包括：语段生成的步骤331，关联语段识别、选取和组合的步骤332，以及稿件生成的步骤333。在此，预先配置一个或多个写作场景的步骤，且预先配置一个或多个逻辑模板，语段生成的步骤331中，根据文本解析过程320所获得命名实体、所述实体关系和事件语素，应用写作场景和逻辑模板生成语段。

产品呈现过程340可包括：将文章分发到一个或者多个互联网平台的步骤341。

读者行为分析过程350可包括从一个或者多个互联网平台获取读者行为信息的步骤351，以及分析读者行为信息的步骤352。读者行为分析过程350所得到的信息可以进入诊断过程360。

诊断过程360可包括根据读者行为信息，调整信息采集过程310、文本解析过程320和内容生成过程330。根据读者行为信息，可供分发平台和内容创作者在选择文章、修改内容时进行参考。

可选地，可以在内容生成过程后，加入人工的内容审核、修改步骤334。诊断过程360可以在步骤361收集来自步骤334的反馈，并通过诊断进行各个过程310-340的错误统计和错误分析，帮助***根据实际情况不断进行迭代、优化，从而进一步提高***效能。

在本实施例中，信息采集过程310所获得的数据可以放入数据库30的原始内容库32。文本解析过程320可以使用数据库30的领域知识库33，其所获得的数据可以放入数据库30的原始内容库31。内容生成过程310可以使用数据库30的写作场景和逻辑模板库34，且所获得的数据可以放入数据库30的机器稿件库35。

下面详细说明各个过程。

信息采集

分布式爬虫

图4是根据本发明一实施例的信息采集***示意图。参考图4所示，为了获取海量的互联网上的数据，包括各类网站和社交平台，可提供一个分布式爬虫***。分布式爬虫***从架构上保证了两个维度的动态可扩展，分别是性能维度和数据源维度。为此，爬虫架构上解耦了两大模块，分别是平台模块(包括中央调度器41和插件容器42)和插件模块43。爬虫的平台模块是为保证该***的动态性能扩展，主要提供爬虫中央调度器41和抽象硬件资源，不包含任何业务逻辑。中央调度器41会负载均衡地将爬虫任务44分配到各台爬虫服务器42上执行。只要添加爬虫服务器，即可马上线性扩展爬虫***的吞吐量。插件模块43是为保证该爬虫***在数据源层面的动态可扩展。由于各个网站爬取逻辑各异、数据结构各异，无法统一，所以每个数据源的爬取逻辑内聚在各个插件模块43中。插件模块43可在爬虫平台上热插拔执行。平台部署后，只要开发插件，即可线性扩展爬虫数据源。

在此，采集的信息源可以是权威新闻网站、信息公布渠道、社交媒体、结构化数据接口等。采集到的内容放入原始内容库。

格式处理及噪声清洗

由于采集的信息源种类丰富，尤其是非结构化数据所使用的格式也大不相同，所以需要对采集获得的数据进行初步处理。本实施例中的格式处理技术，主要包括PDF格式转换技术，以及HTML清洗技术。

PDF格式转换技术，主要用于将获取到的PDF文件，转换为HTML格式文件。举例来说，在财经领域中，各大上市公司所发布的公告均为PDF格式，其中包含文字、图表等多种格式的重要信息。为了对这些公告中的数据进行提取和处理，本实施例在进行数据采集后，首先将PDF文件转换为HTML格式。该技术特点在于准确率高，并且能够保留原文档中的图表类信息，不造成数据遗漏和缺失。

HTML清洗技术，主要用于对采集的网页数据进行清洗，仅保留网页正文，筛除网页中的导航、广告、视频等“噪声”。对于大多数网页，可以使用通用的网页清洗技术，获取其中正文。对于部分结构较复杂的网页，可以针对性的预设和使用清洗规则，从而保证网页清洗的覆盖度和准确率。

数据初筛

数据初筛是指在数据采集过程中，综合考量网页的域名、所在栏目、标题、发布时间等信息，初步过滤掉非目标数据，仅保留指定信息源的目标数据。数据采集主要是从各大网站获取数据，每个网站中均会存在不同形式的外部链接。采集过程中，获取到目标数据的同时，有一定概率会对这些外链网页进行采集，数据初筛技术的目的即在于将这些数据进行过滤。

文本解析

文本分类

在获取到文本数据后，首先需要将文本细分到具体类别；再根据不同类别文本的特点和需求进行后续的信息提取和解析。由此可见，文本分类是非常基础并且至关重要的步骤，其效果优劣会直接影响到后续步骤的进行。

当获取的文本数据涉及多个领域、来源多样、种类繁多、格式题材不一、内容复杂时，文本分类任务更加具有挑战性。在一个实施例中，可以通过将人工的经验和机器学习方法进行结合，建立分类体系并实现自动分类。

以“上市公司公告”这类文本为例，现有约1000家上市公司，每天发布的公告数量为上千条，高峰时期发布的公告量高达4000条/天，平均35万条/每年，并且种类多样，内容复杂度高。如果根据财经领域编辑和记者的经验，可将公告分为了90余个类别。但是经过抽样及人工标注，发现仅约40％的公告能被准确归为这90余类，剩下约60％的公告无法对应到具体的类别。

根据本发明的一实施例，提出如图5所示的文本分类方法。根据这一方法，首先获取一个或多个设定的类别。然后如步骤52，当判断多个训练的文本文档51的第一部分文本其已有分类标准，则这第一部分文本归类到已设定的一个或多个类别中。当在步骤53判断多个训练的文本文档51的第二部分文本无法归类到已设定的一个或多个类别中，则在步骤54，将多个训练文本的第二部分文本分为一个或多个聚类。聚类的形式如55所示。在步骤56可以判断聚类是否重要。判断的方式可以是人工判断或者机器判断。在步骤57，接受对重要的聚类建立的分类标签，且与已有设定的类别一起，形成新的分类体系58。

为了能全面、有效的筛选出重要公告并建立一个有效的分类标准，对于上述“未知类别公告”，在一个实施例中，通过分层聚类对其进行如图4的分析。经过对聚类结果进行分析，类簇数k＝22是较为合理的取值。对于这22个类簇进行人工抽查，对其所属类别进行概括。

对22个类别中的公告进行人工抽查、概括和判断后，将重要性高的类别作为单独的类目加入到公告分类体系中，将重要性低的类别统一归为‘others’类，由此即可确定最终公告的分类标准。图7是根据本发明一实施例的文本类别体系示例。

根据以上建立的分类体系，可以结合根据领域知识建立的领域知识库33(参考图3)，以来源、网页原始标签、标题、文本内容、关键特征词等为特征，利用机器学习和规则相结合对模型训练和优化，从而实现文本的自动分类。

命名实体识别

命名实体识别算法的目的是标识出语句中的人名、地名、组织机构名称等可以作为实体进行管理或关联的词汇。各类文本中会经常出现大量人名，地名和组织机构名称等实体信息，而此类信息往往对文本的识别、分类及信息提取有重要作用。

在一个实施例中，基于隐马尔可夫模型(HMM)，结合搜集的海量政治、经济、科技、文化等领域的人名、地名、政府机构和上市公司名称等实体信息，可以获得准确率较高的命名实体识别模型，从而实现对文本中实体信息的识别和标注。图8是根据本发明一实施例的命名实体识别示例，如图8所示，在本例中，“王石”被标识为人名，“万科企业股份有限公司”被标识为组织机构，而“深圳”和“广西柳州”则被归为地名。

关键词提取

关键词提取技术的目标在于选取文章中若干具有代表性的词汇来提示全文的中心思想。在处理海量文本的过程中，总结出每篇文章的关键词不仅可以辅助用户对文本进行快速理解，还能够极大提高检索、管理、阅读的效率，对于文章主题抽取、热词发现、文档自动标签及信息索引等工作有着重要意义。

在本发明的一实施例中，基于超过12万篇带有人工关键词的文本，以词性、出现位置、TF-IDF、Text-Rank得分、Word2Vec向量等为特征，训练出了高准确率的关键词提取模型。经过实际测试，该模型的覆盖率普遍高于目前公开的关键词提取工具。图9是根据本发明一实施例的关键词提取结果示例。如图9所示，此段关于恒大人寿在A股市场的短期炒作引起监管关注的文本，通过关键词提取算法推荐出了“保险资金”、“监管”、“恒大”，“炒作”四个关键词，对该文的重要信息有较好的提示作用。

实体关系抽取

实体关系提取是指，对文本中的命名实体进行识别后，进一步确认这些实体间的关系，其中实体关系的类型是预先定义的。

举例来说，文本“……[万科集团|ORG]创始人[王石|PER]……”中，“万科集团”、“王石”均为命名实体，两者之间又构成了从属关系(Org-Aff.Founder)。实体关系抽取的实现，为海量文本处理和检索、知识库自动构建、文本关联、机器翻译和文档摘要等众多自然语言处理任务提供了重要的技术支持。

在本发明的一实施例中，通过半监督学习的方法，以有限的高质量标注文档为种子，以实体文本、类型、上下文、语法树距离、特殊句式等为特征，训练出高精度的条件随机场(CRF)模型，进行文本的实体关系抽取。在模型迭代训练的过程中，输出结果均通过规则进行判断，进一步提高准确率，并不断将高置信度结果输入模型进行训练。

事件抽取

事件抽取技术的作用在于把文本中以自然语言表达的事件用标准的结构化的形式重新定义。尤其是在新闻类文本中，正确地识别并提取文本中发生的事件对于从语义的角度理解文本内容并进行更加深入的文本挖掘有着至关重要的作用。

在本发明的一实施例中，事件抽取技术，包括预处理(分词、分句、依存句法分析、实体识别、关系识别等)、触发词识别、候选事件句识别、事件句判定、事件类型判定、事件元素识别等诸多步骤，不同步骤中采用了基于句法、模式匹配、机器学习的多种方法。图10是根据本发明一实施例的事件抽取结果示例，从图10中所示的文本中，本实施例识别出了“收购”这一事件，及相应的购买方、购买时间、购买物、成交价格。

提取文档摘要

高质量的文档摘要能够极大的提高阅读文本的效率，使用户或读者快速理解文本内容，并判断文本的使用、研究价值。摘要本身也能作为高质量的素材被用于内容创作的过程中。

在本发明的一实施例中，实现了基于Text-Rank和机器学习的文档摘要方法，并且两种方法均取得了良好的效果。基于Text-Rank的方法，将整篇文本视为一个网络，文本中的每个句子视为网络中的节点，根据词义距离、语义距离等特征计算出句子间相关性后，即可根据Page-Rank方法计算出每个句子的重要性得分，得分越高的句子，越有可能出现在摘要中。基于机器学习的方法，则以词性、词向量、命名实体、与标题的相关性等为特征，判断句子是否应该出现在摘要中。

关键信息抽取

信息抽取是稿件生成中的重要步骤之一，只有对关键信息进行有针对性的、准确的提取，将非结构化数据转化为结构化数据，才能够利用获得的信息进行后续分析，如信息关联、内容总结等，从而生成数据准确、内容可靠、信息量丰富的稿件。根据本发明的一实施例，采用规则与机器学习相结合的方法，对采集获得的文本进行关键信息提取。

以“上市公告书”为例，需有针对性的提取其中的命名实体(地名、公司名、人名等)、时间信息、股票信息(股票代码、股本、发行价格等)、公司信息(注册资本、主营业务等)等关键数据(如图11)。在提取过程中，格式固定、准确度要求极高的数据，如股票代码、股本、注册资本等，DT稿王主要使用基于规则的方法进行提取，以确保数据的正确性。表述多样、无固定格式的数据，如命名实体、时间信息等，则主要使用机器学习的方法进行识别和提取。

情感极性分析

情感极性分析技术被应用于对文本句子、段落、篇章的情感色彩判断。对文本中的句子及篇章进行情感分析，有助于归纳文中包含的观点及作者的主观态度，其结果可用于文本检索、关联度计算、内容聚合、内容推荐等场景。

根据本发明的一实施例，情感分析视为对文本句子及篇章的多分类问题，即将输入的文本归为消极(贬义)、积极(褒义)、中立的一种。情感分类过程中，文本中出现的评价词语及组合评价单元、词语位置特征、n-gram词语特征、词性特征、上下句情感类别等会被综合考虑，用于训练机器学习模型。评价词语及组合评价单元也会被用于规则的建立，结合机器学习模型的结果，获得最终情感分类结果。

数据分析相关技术

常用数值计算及统计学方法

通过数据采集或者文本解析获得结构化数据后，还需对这些数据进行分析、计算，才能获得有价值的结果。例如，财经领域常须计算同比/环比涨跌幅，体育领域常需计算不同技术的使用率和成功率，电商领域常需计算热门搜索词、热销商品及销售量趋势等。

在本发明的一实施例中，可根据不同场景下的需求进行高效的、有针对性的数据分析。优选地，在获得数据的同时，就进行实时分析，分析结果实时用于内容生成，确保整个流程的高时效性。

异常发现

在特殊场景下，对数据进行实时监控时，需要对异常值进行发现，并及时产生相应内容进行报告，如：商品交易量异常、股市数据暴涨/暴跌、地震监测数据异常等情况。

在本发明的一实施例中，可根据领域专业知识，通过给正常值进行建模，利用假设检验、模式发现、机器学习等多种方法，针对不同场景实现了异常值发现技术；并且不同方法之间可进行相互比较和验证，提高结果可信度，降低误报率。通过对数据的不间断监控，能够极大降低人工监控的成本，并且避免人为因素造成的遗报、漏报等情况。

内容生成

写作场景及逻辑模板

在不同领域、类型、题材下，会存在诸多写作场景，不同的写作场景对应有不同的写作需求，包括所需数据、常用词汇、常见文体、文章篇幅、写作逻辑等多个方面，其中又以写作逻辑最为关键和重要。为了结构化地存储不同的写作场景及其对应的多种写作需求。根据本发明的一实施例，可使用各类特征对写作场景进行定性描述。根据本发明的一实施例，还预先配置一套可读、可复用、可共享、修改维护简单的框架用于描述不同的写作需求。在本申请的上下文中，该框架被称为“逻辑模板”。

逻辑模板以写作逻辑为核心，逻辑模板中还包括所需数据、用词偏好、篇幅限制、情感极性偏好等信息。逻辑模板是以句子为基本结构。每个逻辑模板可包括一个或多个候选句子，每个候选句子包括一个或多个候选命名实体、语素和句式。更具体地说，每个句子中，都包括能够进行替换的表达(包括实体、短语、词语、句式等)。这些替换表达均由特殊符号进行标记。使用不同的实体、短语或词语填充句子，将会改变句子的表达和语义，因此，即使基于一个逻辑模板，也能够创作出表达多样的多篇稿件。每个逻辑模板的复杂程度，取决于写作逻辑的精确程度和复杂程度。写作逻辑越精确、越复杂(如财务报告、数据分析报告等)，则逻辑模板越复杂；反之(如新闻简报等)则逻辑模板越简短。

一个逻辑模板代表在对应的写作场景下，一种可以采用的行文思路，一种写作场景可以拥有多个逻辑模板。逻辑模板是对写作逻辑和需求的具体体现，是对写作经验和知识的具象化，使得抽象的经验转化为具体的文字，并且可以阅读、修改和跨平台共享。这对内容创作知识的传播、学习、改进都有着巨大的意义和价值。

在实际应用中，当通过信息采集、文本解析、数据分析等步骤，获取到一个逻辑模板所需的所有数据后，本发明的一实施例将自动选择符合情感极性的表达(如体育领域的大胜、险胜、惜败、惨败等)，自动根据该逻辑模板产生相应的文章。

深度学习

根据本发明的一实施例，深度学习方法用于根据输入的参数自动生成一段文本，该段文本作为一个文段被填入逻辑模板，最后成为整篇文章的一部分。以生成商品描述为例，当指定商品为衣物时，输入的参数包括种类、颜色、衣长、适合人群、上市时间、门襟、材质、产地、百姓、风格、品牌、价格等数十个特征。

根据命名实体、实体关系和事件语素且应用写作场景和逻辑模板生成文章的步骤可包括：使用深度学习方法根据输入的参数自动生成语段。这一语段可被填入逻辑模板。

基于不断地实验和模型迭代结果，为了保证文本的连贯性和正确性，深度学习方法主要被用于生成较短的文本片段。

内容关联和聚合

在进行内容生成时，通常需要聚合多类信息，形成一篇完成的文章。如在分析宏观经济数据时，需要根据官方公布的基本数据，关联统计学家的分析结果以及领域专家的相关评论。专家的分析往往覆盖面较广、内容多样，不仅会分析导致数据变动的因素(比如分析CPI时提及食品、服务、教育)，还会分析数据变化对宏观政策调控的影响。因此，通常的文本相似性算法在这种场景下并不适用。根据本发明的一实施例，通过建立领域相关的知识图谱，分析比较文本中提及的实体、事件、情感极性，计算文本之间的关联程度。

以CPI数据为例，当官方公布基础数据后，本发明的实施例将对采集到的专家观点进行文本解析，判断专家观点中的内容是否与CPI相关、是否符合官方数据、情感极性是否符合数据变化等。与主题无关或存在差错的观点将被筛除，剩下的专家观点中将进行进一步排序和自动挑选后，作为文段加入文章内容。

稿件分发

智能写作平台支持和第三方数据平台对接，可以帮助内容创作者及时高效的完成创作内容的发布。通过个性化配置，稿件可发送至微博、微信、企业CMS等平台，该技术主要通过数据接口进行实现。

读者行为分析

在此步骤中，可以获取该平台发布的文章的点击、阅读信息，比如：用户阅读量、阅读时长、文章转载次数、点赞次数、评论个数、评论内容及读者的基本信息(年龄、职业)等。根据这些数据，结合文章的主题、关键词、情感极性等信息，可以通过用户画像及大数据分析等技术，分析不同话题和文章在不同年龄、性别、职业、地域的读者中的喜好度。

诊断

诊断的输入为两类信息：1.编辑在进行内容审核和修改时，发现的错误以及对稿件的修改操作；2.读者行为分析模块的分析结果。根据第一类信息，我们能够对***的各个步骤进行错误统计和错误分析，帮助***根据实际情况不断进行迭代、优化，从而进一步提高***效能。根据第二类信息，可供分发平台和内容创作者在选择文章、修改内容时进行参考。

本发明实施例的文本自动生成方法和***能够自动采集例如财经、电商等领域的数百个信息源，涵盖国家各部委、二级市场、专家社交媒体账号等诸多权威信息发布方；对其中结构化、非结构化(文本)数据进行分析处理后，可动态生成各类语言(例如中文、英文)稿件。

在上述方法中，信息采集、文本解析、内容生成部分的多种技术和步骤，可根据具体需求进行省略、增加或者替换。如实际情况中，不需要获取文本的关键词、摘要、情感极性等信息，则可将相应步骤进行省略；若需要获取上述方法所提取的信息以外的数据，也可增加相应的文本解析模块，如热点发现、主题提取等；同样，也可以选择不同的技术手段，达到同样的解析目的，如使用机器学习模型对规则进行替换等。

虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可作出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种文本自动写作方法，包括如下步骤：

信息采集过程，包括：从互联网采集信息，对所述信息进行格式转换，对所述信息进行噪声清洗，对所述信息进行数据初筛，获得文本，其中所述文本包括非结构化部分；

文本解析过程，包括：对所述文本进行分类，根据所述文本的类别识别所述文本中的命名实体，根据所述文本的类别抽取所述文本中的命名实体之间的实体关系，根据所述文本的类别抽取能够反映所述文本中的事件的事件语素；

内容生成过程，包括：预先配置一个或多个写作场景，预先配置一个或多个逻辑模板，根据所述命名实体、所述实体关系和事件语素且应用所述写作场景和逻辑模板生成语段，识别关联的语段并聚合成文章；

产品呈现过程，包括：将所述文章分发到一个或者多个互联网平台；

读者行为分析过程，包括：从所述一个或者多个互联网平台获取读者行为信息，分析所述读者行为信息，

其中所述信息采集过程、所述文本解析过程和所述内容生成过程根据所述读者行为信息进行调整。

2.根据权利要求1所述的文本自动写作方法，其特征在于，所述文本解析过程还包括：提取所述文本中预先提炼的关键词。

3.根据权利要求1所述的文本自动写作方法，其特征在于，所述文本解析过程还包括：抽取所述文本中的关键信息。

4.根据权利要求1所述的文本自动写作方法，其特征在于，所述文本解析过程还包括：抽取所述文本中用于构成文档摘要的语句。

5.根据权利要求1所述的文本自动写作方法，其特征在于，所述文本解析过程还包括：分析所述文本的情感极性。

6.根据权利要求1所述的文本自动写作方法，其特征在于，还包括数字分析过程，所述数据分析过程包括：对所述文本中的数据进行数值计算和统计，监控所述文本中的数据是否出现异常值。

7.根据权利要求1所述的文本自动写作方法，其特征在于，对所述文本进行分类的步骤包括根据预先建立的类别进行分类，其中预先建立类别的方法包括：

获取一个或多个设定的类别；

将多个训练文本的第一部分归类到所述一个或多个类别中；

将多个训练文本中无法归类到所述一个或多个类别中的第二部分分为一个或多个聚类；

接收对所述一个或多个聚类的建立的分类标签。

8.根据权利要求1所述的文本自动写作方法，其特征在于，所述一个或多个逻辑模板中的每个逻辑模板包括一个或多个候选句子，每个候选句子包括一个或多个候选命名实体、语素和句式。

9.根据权利要求1所述的文本自动写作方法，其特征在于，根据所述命名实体、所述实体关系和事件语素且应用所述写作场景和逻辑模板生成文章的步骤包括：使用深度学习方法根据输入的参数自动生成语段，所述语段被填入所述逻辑模板。

10.一种文本自动写作***，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如权利要求1-9任一项所述的方法。