CN107291680A

CN107291680A - 一种基于模板的自动生成作文的***及实现方法

Info

Publication number: CN107291680A
Application number: CN201710322347.1A
Authority: CN
Inventors: 毛姗婷
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2017-10-24

Abstract

本发明涉及一种基于模板的自动生成作文的***及实现方法，***包括：模板单元、规则单元、选取单元、话题单元，所述模板单元，用以提供作文模板接口，所述规则单元，用以提供生成规则接口，所述选取单元，用以选定拟生成作文中的中心话题和关键词，所述话题单元，用以根据中心话题话题提供可调用话题参数，基于上述作文模板和生成规则，并根据所述中心话题和关键词，生成作文。本发明基于模板和关键词，用户仅需要输入中心话题和关键词，就能够自动生成符合用户期望的作文，同时符合写作规则，紧扣用户的中心话题。此外，本***自动生成的方式可以是英文也可以是其它语言。

Description

一种基于模板的自动生成作文的***及实现方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于模板的自动生成作文的***及实现方法。

背景技术

早在2009年，英国***爱德思就宣布使用电脑批阅英语写作试卷。英国《***教育增刊》当时的报道说，经过特殊编程的电脑将“扫描”试卷，评估学生的语法与词汇，辨定可能正确的答案，并给出总分。

在2014年，英国《卫报》进行了一项纸媒测试计划。“机器人”被安排将社交网络上的分享热点和关注热度进行统计分析，随即进行内容筛选、编辑排版和印刷，最后生成一份报纸。

在2015年，日本公立函馆未来大学研发团队利用人工智能创作的这篇作文，是由人类事先设定好登场人物、内容大纲等“零部件”后，人工智能再根据这些“零部件”自动生成的。

近日，以色列创业公司Articoolo开发了一种算法，可根据用户选择的任何主题去生成作文，只要这样的主题能用2到5个单词去描述。用户需要准确总结自己的主题，告诉计算机用户希望作文有多少单词，并选择偏好，随后点击生成按钮，即可等待人工智能完成作文的创作。

可见，目前自动生成作文的方法有的基于人工智能领域中机器自主学习的过程，有的基于分类算法和机器自主学习的方式。现有技术中也有一些解决方案，比如，中国专利申请CN201611003822.0，基于描述文本自动生成作文的方法及***，方法包括：接收待生成作文的描述文本；确定所述描述文本的主题，并将该主题作为待生成作文的主题；根据与所述主题对应的文本语料构建主题词图；根据构建的主题词图生成对应所述主题的作文。本发明可以提高生成作文的效率及准确性。缺点在于：为了保证生成结果的一致性，文本预料和主题的对应关系方式单一。又比如，中国专利申请CN201610803388.8，一种应用文自动生成方法，步骤1)建立语料库；步骤2)选择多个适用实体并输入其对应的具体内容；步骤3)建立模板库并从中选择一个模板；步骤4)对所选择的模板进行润色。虽然建立足够大的预料库，但是缺点在于：无法保证作文能够符合多领域的不同要求。

发明内容

本发明要解决的技术问题是，提供能够针对特殊模块和关键词进行准确定位的一种基于模板的自动生成作文的***。

解决上述技术问题，本发明提供了一种基于模板的自动生成作文的***，包括：模板单元、规则单元、选取单元、话题单元，

所述模板单元，用以提供作文模板接口，

所述规则单元，用以提供生成规则接口，

所述选取单元，用以选定拟生成作文中的中心话题和关键词，

所述话题单元，用以根据中心话题话题提供可调用话题参数，

基于上述作文模板和生成规则，并根据所述中心话题和关键词，生成作文。

更进一步，***还包括：一客户端，所述客户端包括：输入条件页面和作文生成结果页面，

用户通过在所述输入条件页面输入拟生成作文的{参数,条件}；

所述作文生成结果页面接收上述{参数,条件}，并向后台服务器发出作文内容请求，

所述服务器向所述作文生成结果页面返回作文模板内容，并通过所述作文生成结果页面转化后向用户显示作文内容。

更进一步，所述模板单元包括：第一模板、第二模板、第三模板以及第四模板，

所述第一模板，用以建立一网络爬虫程序获取网页中模板内容相关的内容，

所述第二模板，用以建立中文作文模板，

所述第三模板，用以建立英文作文模板，

所述第四模板，用以建立可互译的作文语料库。

更进一步，所述规则单元包括：

时态单元，用以建立符合中文/英文的时态使用规则

语态单元，用以建立符合中文/英文的语态使用规则，

词法单元，用以建立符合中文/英文的词法处理规则。

更进一步，所述选取单元包括：查询接口、关联接口以及匹配接口，

所述查询接口，用以提供所述关键词/中心话题的查询接口，

所述关联接口，用以根据所述关键词和/或中心话题进行关联，

所述匹配接口，用以根据查询和关联结构进行匹配。

更进一步，所述关键词包括：中文关键词、英文关键词以及修正关键词，

所述中文关键词或英文关键词，用以作为作文中的标签数据，

所述修正关键词，用以对上述中文关键词或英文关键词的语义进行修正。

更进一步，所述中心话题包括：{必要话题、热点话题、学术话题}的标签。

更进一步，用户通过终端上的WEB浏览器向后台服务器发出访问请求，所述后台服务器上的WEB服务器查找对应页面并转交给所述后台服务器的应用程序服务器，所述应用程序服务器定位并完成在所述页面的指令，并将完成的页面回传至WEB服务器，通过所述WEB服务器完成页面访问请求的响应，

所述访问请求至少包括：拟生成作文。

基于上述，本发明还提供了一种自动生成作文的方法，包括如下步骤：

S1初始化提供作文模板、生成规则，

S2选定拟生成作文中的中心话题和关键词，

S3根据中心话题话题提供可调用话题参数，

S4基于上述作文模板和生成规则，并根据所述中心话题和关键词，生成作文。

更进一步，所述S1还包括：初始化作文模板为：说明文、描写文、记叙文、议论文或者应用文中的一种或者多种。

本发明的有益效果：

在本发明中，由于在所述模板单元提供作文模板接口，能够基于语言专家库、考试名师库以及网络更新模板库，能够最大化的满足用户的作文写作类型。由于在所述规则单元提供生成规则接口，基于包括但不限于语法、语义以及词义的规则，能够使得生成的作文符合思考和叙述逻辑，从而更加低贴近人的表达。由于在所述选取单元选定拟生成作文中的中心话题和关键词，在具有模板和规则的前提下，通过键入用户想要表达或者传递的中心话题，能够提供用户不同维度的选择形式，同时配合关键词，形成类似作文摘要的主旨文件用以后续的扩充。由于在所述话题单元，根据中心话题话题提供可调用话题参数，话题参数决定了作文的走向以及与用户想要表达的中心话题之间的置信度。通过本发明中的***，基于模板和关键词，能够准确地生成符合用户期望的作文，同时作文符合写作规则，紧扣用户的中心话题。

附图说明

图1是本发明一实施例中的***结构示意图；

图2是本发明一实施例中的交互方式流程示意图；

图3是图1中的模板单元结构示意图；

图4是图1中的规则单元结构示意图；

图5是图1中的选取单元结构示意图；

图6是本发明一实施例中的方法流程示意图。

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

请参考图1是本发明一实施例中的***结构示意图，本实施例中的一种基于模板的自动生成作文的***，包括：模板单元1、规则单元3、选取单元2、话题单元4，所述模板单元1，用以提供作文模板接口，所述规则单元2，用以提供生成规则接口，所述选取单元2，用以选定拟生成作文中的中心话题和关键词，所述话题单元4，用以根据中心话题话题提供可调用话题参数，基于上述作文模板和生成规则，并根据所述中心话题和关键词，生成作文。所述模板单元1，获取模板的方式包括但不限于，基于现有的作文模板、基于专家的作文模块、基于考试机经、基于互联网中模板等。所述规则单元3，包括但不限于，中文语法、中文词法以及中文语义，英文语法、英文词法以及英文语义等。所述选取单元2可以是基于用户的需求采集，在所述选取单元2中接收用户提交的中心话题，所述中心话题包括但不限于，必要话题、热点话题、学术话题等等，比如必要话题根据可按照不同类型考试科目确定，又比如热点话题可根据设定范围(比如，高考、考研)内受关注度较高的话题，再比如学术话题根据按照不同的领域划分(比如基于大不列颠百科全书定义的学术问题)。

采用本实施例中的***，能够最大化的满足用户的作文写作类型。而基于规则使得生成的作文符合思考和叙述逻辑，从而更加低贴近人的表达。在用户进行选择时能够提供用户不同维度的选择形式，同时配合关键词，形成类似作文摘要的主旨文件用以后续的扩充。作为本实施例中的优选，请参考图2是本发明一实施例中的交互方式流程示意图，***中基于一客户端，所述客户端包括：输入条件页面和作文生成结果页面，用户通过在所述输入条件页面输入拟生成作文的{参数,条件}；所述作文生成结果页面接收上述{参数,条件}，并向后台服务器发出作文内容请求，所述服务器向所述作文生成结果页面返回作文模板内容，并通过所述作文生成结果页面转化后向用户显示作文内容。

在一些实施例中，上述客户端包括但不限于，手机、平板电脑、台式机。

在一些实施例中，上述客户端包括但不限于，PC端、安卓端、iPhone端、WP端、iPad端、Mac端等六大客户端。

在一些实施例中，上述{参数,条件}包括但不限于，{中心话题，关键词}。

在一些实施例中，上述{参数,条件}包括但不限于，{字数/格式，中文/英文}。

在一些实施例中，上述{参数,条件}包括但不限于，{论文，学术}。

在一些实施例中，上述{参数,条件}包括但不限于，{工作函，日常}。

在一些实施例中，上述{参数,条件}包括但不限于，{作文，托福}。

在一些实施例中，上述{参数,条件}包括但不限于，{作文，雅思}。

作为本实施例中的优选，请参考图3是图1中的模板单元结构示意图，所述模板单元1包括：第一模板11、第二模板12、第三模板13以及第四模板14，所述第一模板11，用以建立一网络爬虫程序获取网页中模板内容相关的内容，所述第二模板12，用以建立中文作文模板，所述第三模板13，用以建立英文作文模板，所述第四模板14，用以建立可互译的作文语料库。在所述第一模板11中采用网络爬虫程序获取网页中模板内容相关的内容。本领域技术人员能够明了，网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。第二模板12根据网络爬虫中获取的信息建立中中文作文模板，或者第二模板12可采用语言专家模板、机经模板、考试高分模板等。

在一些实施例中，第二模板12根据网络爬虫中获取的信息建立中中文作文模板，包括但不限于如下处理方式：从文本内容中抽取数值特征中的标记(tokenizing)文本以及为每一个可能的标记(token)分配的一个整型ID，例如用白空格和标点符号作为标记的分割符(若为中文则涉及到分词的问题)。

在一些实施方式中，第二模板12可以与机经***进行整合或者可以包括在例如包括服务器的不同于机经***的计算设备或***之中。包括但不限于百度百科、Wikipedia等。

在一些实施方式中，第二模板12对使用关键词生成引擎所生成的关键词所概括的各种新闻集合进行访问、接收有关其的评论、分享、赞同等。

在一些实施例中，第二模板12根据网络爬虫中获取的信息建立中中文作文模板，包括但不限于如下处理方式：计数(counting)标记在每个文本中的出现频率即特征。特征定义为：每个标记出现的频率(无论是否正态化)。

在一些实施例中，第二模板12根据网络爬虫中获取的信息建立中中文作文模板，包括但不限于如下处理方式：正态化(nomalizating)降低在大多数样本/文档中都出现的标记的权重，多元样本定义为：给定文件中所有标记的出现频率所构成的向量作为。

优选地，网络爬虫采用Scrapy。

在一些实施例中，第三模板13直接只用量化模板，并将定义的关键词筛选出来。

在一些实施例中，所述第四模板14中优选使用包括但不限于如下的方式：

双语语料的对齐技术(Alignment)，国内外学者就此提出多种策略和方法，已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993]；

双语语料的各种应用，如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984]，双语词典编纂[Klavans and Tzoukermann 1990]技术中，双语语料库都发挥着十分重要的作用；

双语语料库的设计、采集、编码和管理问题。比较著名的语料库编码方案有TEI文本编码标准以及CES标准，两者均基于SGML标记语言研究。

在一些实施例中，所述第四模板14中优选基于大规模真实文本的语料库，对语言文字的使用进行动态追踪的语料库，并对语言的发展变化进行监测的语料库。

在一些实施例中，所述第四模板14中的作文语料库优选级为：托福考试、雅思考试、研究生入学考试。

作为本实施例中的优选，请参考图4是图1中的规则单元结构示意图，所述规则单元3包括：时态单元31，用以建立符合中文/英文的时态使用规则语态单元33，用以建立符合中文/英文的语态使用规则，词法单元32，用以建立符合中文/英文的词法处理规则。

在一些实施例中，时态单元31包括但不限于，tense{一般现在时，一般过去时，一般将来时，一般过去将来时；现在进行时，过去进行时，将来进行时，过去将来进行时；现在完成时，过去完成时，将来完成时，过去将来完成时；现在完成进行时，过去完成进行时，将来完成进行时，过去将来完成进行时}。

在一些实施例中，所述时态单元31包括但不限于，{完成状态、进行状态、完成进行状态或一般状态}。

在一些实施例中，所述时态单元31包括但不限于，{过去，现在，将来}。

在一些实施例中，所述语态单元33包括但不限于，{主动语态，被动语态}。

在一些实施例中，所述语态单元33包括但不限于，{一般现在时，be+V.\V.s，am\is\are+(p.p)一般将来时，will\be going to，will be+(p.p)

现在进行时，am\is\are+V.ing，am\is\are+being+(p.p)，一般过去时，①was\were②V.ed，was\were+(p.p)}。

在一些实施例中，所述语态单元33包括但不限于，{现在完成时，have\has+V.p.p，have\has+been+(p.p)，过去完成时，had+V.p.p，had+been+(p.p)，过去进行时，was\were+V.ing，was\were+being+(p.p)}。

在一些实施例中，所述语态单元33包括但不限于，{情态动词，情态动词+V.，情态动词+be+(p.p)}。

在一些实施例中，词法单元32中按照构词规则分解成一系列单词符号。单词是语言中具有独立意义的最小单位，包括关键字、标识符、运算符、界符和常量等。其中，关键字是由英文语言定义的具有固定意义的标识符。例如，begin，end，if，while都是保留字，而将人名、建筑物、地名等去除。这些字通常不用作一般标识符。标识符，用来表示各种名字，如变量名，数组名，过程名等等。常数，常数的类型一般有整型、实型、布尔型、文字型等。运算符如+、-、*、/等等。界符，如逗号、分号、括号、等等。

作为本实施例中的优选，请参考图5是图1中的选取单元结构示意图，所述选取单元3包括：查询接口31、关联接口32以及匹配接口33，所述查询接口31，用以提供所述关键词/中心话题的查询接口，所述关联接口32，用以根据所述关键词和/或中心话题进行关联，所述匹配接口33，用以根据查询和关联结构进行匹配。查询接口的规则为，单词、词语或者可连接的语句。关联接口的规则为，连词关联、热度词关联以及用户输入的主动关联。关联方式包括但不限于，and，or，not等。

作为本实施例中的优选，请参考图6是本发明一实施例中的方法流程示意图，本实施例中的一种自动生成作文的方法，包括如下步骤：

步骤S1初始化提供作文模板、生成规则，

步骤S2选定拟生成作文中的中心话题和关键词，

步骤S3根据中心话题话题提供可调用话题参数，

步骤S4基于上述作文模板和生成规则，并根据所述中心话题和关键词，生成作文。

上述步骤S3中具体包括：用户通过终端上的WEB浏览器向后台服务器发出访问请求，所述后台服务器上的WEB服务器查找对应页面并转交给所述后台服务器的应用程序服务器，所述应用程序服务器定位并完成在所述页面的指令，并将完成的页面回传至WEB服务器，通过所述WEB服务器完成页面访问请求的响应，所述访问请求至少包括：拟生成作文。本领域技术人员能够明了，Web应用程序是一组静态和动态Web页的集合。静态Web页是指当Web服务器接到用户请求时内容不会发生更改的页，Web服务器直接将该页发送到请求Web浏览器，而不对其做任何处理。相反，在将动态Web页发送到请求浏览器之前，服务器将对该页处理，执行嵌在网页里的在服务器端运行的代码，从而动态的生成一个html网页，发送给客户端浏览器。

上述步骤S4中具体包括：通过Gensim提供的文本预处理脚本提取模板/规则语料，每篇文章一行文本存放，然后基于Gensim的Word2Vec模块训练词向量模型。Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。

上述步骤S4中进一步包括：基于马尔可夫模型建立一种语言模型，在这个模型中，能够根据当前的一个或几个词预测下一个词是什么。如果只是根据上一个词预测，则是一个一阶马尔可夫模型。如果用上两个词预测，则是一个二阶马尔可夫模型。基于NLTK(Python中的NLP库)，利用split()函数将字符串(从文本文件中获得的)转换成一个数组。

上边两个函数是代码的基本函数。最终要使用的NLTK中的“条件频率字典”必须以成对数组作为输入，所以短语“hello her name is A”需要变为[(“hello”,“her”),(“her,“name”),(“name”,“is”),(“is”,“A”)]。函数makePairs以一个数组(以词分割字符串得到)作为输入，输出符合上边格式的数组。

上述方法实现时基于客户端，所述客户端包括：输入条件页面和作文生成结果页面，

上述步骤S1中作文模板包括但不限于，用以建立一网络爬虫程序获取网页中模板内容相关的内容的第一模板，用以建立中文作文模板的第二模板，用以建立英文作文模板额第三模板，用以建立可互译的作文语料库的第四模板。

上述步骤S1中所述规则单元包括：

建立符合中文/英文的时态使用规则

建立符合中文/英文的语态使用规则，

建立符合中文/英文的词法处理规则。

上述步骤S3中选取方式包括但不限于，用以提供所述关键词/中心话题的查询接口，用以根据所述关键词和/或中心话题进行关联，以及用以根据查询和关联结构进行匹配。

上述步骤S2中所述关键词包括：用以作为作文中的标签数据中文关键词或英文关键词和用以对上述中文关键词或英文关键词的语义进行修正的修正关键词。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

总体而言，本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施，而其它一些方面可以以固件或软件实施，该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示，但是可以理解本文描述的框、设备、***、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。

此外，虽然操作以特定顺序描述，但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行，或是要求所有所示的操作被执行以实现期望结果。在一些情形下，多任务或并行处理可以是有利的。类似地，虽然若干具体实现方式的细节在上面的讨论中被包含，但是这些不应被解释为对本公开的范围的任何限制，而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对，在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims

1.一种基于模板的自动生成作文的***，其特征在于，包括：模板单元、规则单元、选取单元、话题单元，

所述模板单元，用以提供作文模板接口，

所述规则单元，用以提供生成规则接口，

2.根据权利要求1所述的自动生成作文的***，其特征在于，还包括：一客户端，所述客户端包括：输入条件页面和作文生成结果页面，

3.根据权利要求1所述的自动生成作文的***，其特征在于，所述模板单元包括：第一模板、第二模板、第三模板以及第四模板，

所述第二模板，用以建立中文作文模板，

所述第三模板，用以建立英文作文模板，

所述第四模板，用以建立可互译的作文语料库。

4.根据权利要求1所述的自动生成作文的***，其特征在于，所述规则单元包括：

时态单元，用以建立符合中文/英文的时态使用规则

语态单元，用以建立符合中文/英文的语态使用规则，

词法单元，用以建立符合中文/英文的词法处理规则。

5.根据权利要求1所述的自动生成作文的***，其特征在于，所述选取单元包括：查询接口、关联接口以及匹配接口，

所述查询接口，用以提供所述关键词/中心话题的查询接口，

所述匹配接口，用以根据查询和关联结构进行匹配。

6.根据权利要求1所述的自动生成作文的***，其特征在于，所述关键词包括：中文关键词、英文关键词以及修正关键词，

7.根据权利要求1所述的自动生成作文的***，其特征在于，所述中心话题包括：{必要话题、热点话题、学术话题}的标签。

8.根据权利要求1所述的自动生成作文的***，其特征在于，用户通过终端上的WEB浏览器向后台服务器发出访问请求，所述后台服务器上的WEB服务器查找对应页面并转交给所述后台服务器的应用程序服务器，所述应用程序服务器定位并完成在所述页面的指令，并将完成的页面回传至WEB服务器，通过所述WEB服务器完成页面访问请求的响应，

所述访问请求至少包括：拟生成作文。

9.一种自动生成作文的方法，其特征在于，包括如下步骤：

S1初始化提供作文模板、生成规则，

S2选定拟生成作文中的中心话题和关键词，

S3根据中心话题话题提供可调用话题参数，

10.根据权利要求9所述的方法，其特征在于，所述S1还包括：初始化作文模板为：说明文、描写文、记叙文、议论文或者应用文中的一种或者多种。