CN107807917A

CN107807917A - 文本内容提取方法、装置、***及存储介质

Info

Publication number: CN107807917A
Application number: CN201710896296.3A
Authority: CN
Inventors: 刘克亮
Original assignee: Wind Change Technology (shenzhen) Co Ltd
Current assignee: Wind Change Technology (shenzhen) Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-03-16

Abstract

本发明公开了一种文本内容提取方法、装置、***及存储介质，所述方法包括：接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端；接收编辑终端根据文本内容提取页面发送的书籍信息；所述书籍信息包括书籍类别、书籍名称，以及作者；根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。本发明通过智能终端和服务器的交互，实现目标文本内容提取的半自动化，在确保所提取的目标文本内容准确的基础上，还提高目标文本内容提取效率，同时节约时间成本和人力成本。

Description

文本内容提取方法、装置、***及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本内容提取方法、装置、***及存储介质。

背景技术

随着教育平台越来越多，越来越完善，人们也乐意为在线教育付费，而且随着移动终端的快速发展，手机、电脑等成为人们生活中的必需品，在线阅读也成了的人们喜好和***台、阅读器、APP等会很大程度上依靠人工对提供给用户的资源进行筛选和鉴定，以展示最精彩最具有价值的内容。但是在商业化背景下，仅依靠人工全文阅读甚至全文精读来选择书本的精髓内容，准确率虽然较高，但是效率低下，时间成本和人力成本巨大。

发明内容

本发明的一个实施例所要解决的技术问题在于，提供一种文本内容提取方法、装置、***及存储介质，能够实现目标文本内容提取的半自动化，在确保所提取的目标文本内容准确的基础上，还提高目标文本内容提取效率，同时节约时间成本和人力成本。

为了解决上述技术问题，本发明的一个实施例提供了一种文本内容提取方法，包括如下步骤：

接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端；

接收编辑终端根据文本内容提取页面发送的书籍信息；所述书籍信息包括书籍类别、书籍名称，以及作者；

根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。

优选地，所述根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端，具体为：

根据书籍的书籍类别、书籍名称，以及作者，查询书籍数据库以获取所述书籍文本内容；

对待提取书籍的文本内容数据进行语义分析，并根据语义分析结果匹配规则库中对应的内容提取规则；

若匹配成功，则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容，并将提取的所述目标文本内容打包发送至所述编辑终端；

若匹配失败，则记录语义分析结果，并建立新的内容提取规则，并将该新建立的内容提取规则更新至规则库。

优选地，所述对待提取书籍的文本内容数据进行语义分析包括：对提取书籍的文本内容数据进行分词和词性标注；对分词的结果进行实体标注；构建数据中各词之间的关联关系；所述实体标注包括人名标注、时间标注以及数字标注。

优选地，所述对分词的结果进行实体标注，具体为：

采用条件随机场的模型，根据经机器学习对书籍的文本内容作出的分词和词性标注，同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度，进一步对书籍的文本内容进行实体标注。

优选地，所述内容提取规则为根据选取的书籍文本内容样本、关键词，以及与关键词相关联的语法关系进行训练分析提取；所述规则库为根据书籍的文本内容和语义分析建立。

本发明的一个实施例还提供了一种文本内容提取装置，包括：

文本内容提取请求接收单元，接收编辑终端发送文本内容提取请求，并发送文本内容提取页面至所述编辑终端；

文本内容提取单元，用于接收编辑终端根据文本内容提取页面发送的书籍信息，并根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端；所述书籍信息包括书籍类别、书籍名称，以及作者。

本发明的一个实施例还提供了一种文本内容提取装置，包括处理器，存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的文本内容提取方法。

本发明的一个实施例还提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述的文本内容提取方法。

本发明的一个实施例还提供了一种文本内容提取***，包括编辑终端和服务器；

编辑终端，用于发送文本内容提取请求至服务器；

所述服务器，用于根据所述文本内容提取请求，发送文本内容提取页面至所述编辑终端；

所述编辑终端，还用于获取用户根据文本内容提取页面选取的书籍信息，并发送至服务器；所述书籍信息包括书籍类别、书籍名称，以及作者；

所述服务器，还用于根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。

实施本发明实施例，具有如下有益效果：

本发明的文本内容提取方法、装置、***及存储介质，通过接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端；接收编辑终端根据文本内容提取页面发送的书籍信息；所述书籍信息包括书籍类别、书籍名称，以及作者；根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容，并判断是否对此书目进行精读，本发明通过智能终端和服务器的交互，实现目标文本内容提取的半自动化，在确保所提取的目标文本内容准确的基础上，还提高目标文本内容提取效率，同时节约时间成本和人力成本。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个实施例提供的一种文本内容提取方法的流程示意图；

图2是本发明的一个实施例提供的一种文本内容提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明的一个实施例提供的一种文本内容提取方法的流程示意图。

本发明的一个实施例提供的一种文本内容提取方法可以由服务器执行，且下文均以服务器作为执行主体为例进行说明。

所述文本内容提取方法，包括如下步骤：

S101、接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端；

在本发明的一个实施例中，所述编辑终端可为智能手机、个人电脑等智能终端，所述文本内容提取页面为阅读器APP页面或微信小程序页面或微信公众号页面等。以微信公众号为例，编辑终端与服务器的数据交互以微信公众号页面或公众号编辑页面或者其他平台编辑编辑页面为展示层。当责任编辑进入编辑页面之后，点击文本编辑选项，随即编辑终端发送的文本内容提取请求至服务器，服务器响应该请求并返回文本内容提取页面至所述编辑终端。

S102、接收编辑终端根据文本内容提取页面发送的书籍信息；所述书籍信息包括书籍类别、书籍名称，以及作者；

在本发明的一个实施例中，责任编辑可以根据服务器返回编辑终端的文本内容提取页面进行文本内容提取操作，如从海量书籍中确定选取需要浏览的书籍的范围或类别信息，如财经类、金融类、投资类等，以及具体的书籍，然后把选中的待提取的书籍的书籍信息，包括书籍类别、书籍名称，以及作者发送至服务器，由服务器进行下一步的提取操作。

S103、根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。

在本发明的一个实施例中，优选地，所述根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端，具体为：

在本发明的一个实施例中，优选地，所述对待提取书籍的文本内容数据进行语义分析包括：对提取书籍的文本内容数据进行分词和词性标注；对分词的结果进行实体标注；构建数据中各词之间的关联关系；所述实体标注包括人名标注、时间标注以及数字标注。

具体的，本发明的一个实施例的处理过程如下，

根据选取的书籍文本内容样本、关键词，以及与关键词相关联的语法关系进行训练分析提取内容提取规则，并根据书籍的文本内容和语义分析建立规则库：

第一步，首先是对书籍的文本内容做分词和词性标注，为后续的实体标注和构建数据中各词之间的关联关系做支撑。该环节需要普通的自然语言处理技术，或者基于统计或者机器学习等模型可以实现文本内容的分词和词性标注。比如对句子“大前研一提出3个能打动人心的要点……”进行分词和词性标注为“大前研一/n，提出/v，3/num，个/uj，能打动/v，人心的/adj，要点/n……”其中/x为词性标注，比如n标识名词，v标识动词等。

第二步，对分词的结果做实体标注，比如人名标注、时间标注、数字标注、动词标注等。其中，时间标注和数字标注相比其他标注更简单些，通过负责一点的正则表达式就可以检测出时间和数字并做实体标注。而人名标注和动词标注则优选地需要采用条件随机场的模型来实现实体标注，具体为：采用条件随机场的模型，根据经机器学习对书籍的文本内容作出的分词和词性标注，同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度对大量的语料做训练，然后根据训练结果对文本内容中的词语做各种实体标注。

需要说明的是，条件随机场，是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。如同马尔可夫随机场，条件随机场为具有无向的图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X。原则上，条件随机场的图模型布局是可以任意给定的，一般常用的布局是链结式的架构，链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上，都存在效率较高的算法可供演算。

“条件随机场”被用于中文分词和词性标注等词法分析工作，一般序列分类模型常常采用隐马尔可夫模型(HMM)，像基于类的中文分词。但隐马尔可夫模型中存在两个假设：输出独立性假设和马尔可夫性假设。其中，输出独立性假设要求序列数据严格相互独立才能保证推导的正确性，而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型，具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注(分类)偏置等问题的优点，而且所有特征可以进行全局归一化，能够求得全局的最优解。

第三步，接着构建数据中各词之间的关联关系，即文本内容中的每个之间的依存和关联。常用的比较成熟的构建模型有神经网络、最大熵，以及条件随机场。即构建各个词语或关键词之间的满足的语法关系，如动宾关系、修饰关系等。

第四步，根据第三步的语法结果建立各种文本内容提取规则，并保存到规则库中。比如建立文本内容提取规则如下：“大前研一提出3个能打动人心的要点……”中，

“大前研一”关键词为人名标识；“提出”关键词为动词，通过动宾关系关联的数量词为“3个”；“打动人心的”关键词通过修饰关系关联的为名词“要点”……则可以提取句子“大前研一提出3个能打动人心的要点……”以此类推，通过大量的数据样本中提取各种内容提取规则，建立规则库。

需要说明的是，在建立规则库之后，则可以对书籍的文本内容进行关键内容的提取。即对待提取书籍的文本内容数据进行语义分析，并根据语义分析结果匹配规则库中对应的内容提取规则，若匹配成功，则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容，并将提取的所述目标文本内容打包发送至所述编辑终端。若匹配失败，则记录语义分析结果，并建立新的内容提取规则，并将该新建立的内容提取规则更新至规则库。

本发明的一个实施例提供的一种文本内容提取方法，通过接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端；接收编辑终端根据文本内容提取页面发送的书籍信息；所述书籍信息包括书籍类别、书籍名称，以及作者；根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容，并判断是否对此书目进行精读，本发明通过智能终端和服务器的交互，实现目标文本内容提取的半自动化，在确保所提取的目标文本内容准确的基础上，还提高目标文本内容提取效率，同时节约时间成本和人力成本。

请参阅图2，图2是本发明的一个实施例提供的一种文本内容提取装置的结构示意图。

文本内容提取请求接收单元201，接收编辑终端发送文本内容提取请求，并发送文本内容提取页面至所述编辑终端；

文本内容提取单元202，用于接收编辑终端根据文本内容提取页面发送的书籍信息，并根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端；所述书籍信息包括书籍类别、书籍名称，以及作者。

本发明的一个实施例提供的一种文本内容提取装置，通过文本内容提取请求接收单元201接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端，然后文本内容提取单元202接收编辑终端根据文本内容提取页面发送的书籍信息，其中所述书籍信息包括书籍类别、书籍名称，以及作者。文本内容提取单元202根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容，并判断是否对此书目进行精读，本发明通过智能终端和服务器的交互，实现目标文本内容提取的半自动化，在确保所提取的目标文本内容准确的基础上，还提高目标文本内容提取效率，同时节约时间成本和人力成本。

编辑终端，用于发送文本内容提取请求至服务器；

本发明的一个实施例提供的一种文本内容提取方法***，通过接收编辑终端发送的文本内容提取请求，并发送文本内容提取页面至所述编辑终端；接收编辑终端根据文本内容提取页面发送的书籍信息；所述书籍信息包括书籍类别、书籍名称，以及作者；根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容，并判断是否对此书目进行精读，本发明通过智能终端和服务器的交互，实现目标文本内容提取的半自动化，在确保所提取的目标文本内容准确的基础上，还提高目标文本内容提取效率，同时节约时间成本和人力成本。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变形，这些改进和变形也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种文本内容提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种文本内容提取方法，其特征在于，所述根据所述书籍信息，查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容，并打包发送至所述编辑终端，具体为：

3.根据权利要求2所述的一种文本内容提取方法，其特征在于，所述对待提取书籍的文本内容数据进行语义分析包括：对提取书籍的文本内容数据进行分词和词性标注；对分词的结果进行实体标注；构建数据中各词之间的关联关系；所述实体标注包括人名标注、时间标注以及数字标注。

4.根据权利要求3所述的一种文本内容提取方法，其特征在于，所述对分词的结果进行实体标注，具体为：

5.根据权利要求1至4任一项所述的一种文本内容提取方法，其特征在于，所述内容提取规则为根据选取的书籍文本内容样本、关键词，以及与关键词相关联的语法关系进行训练分析提取；所述规则库为根据书籍的文本内容和语义分析建立。

6.一种文本内容提取装置，其特征在于，包括：

7.一种文本内容提取装置，其特征在于，包括处理器，存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至4所述的文本内容提取方法。

8.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4任意一项所述的文本内容提取方法。

9.一种文本内容提取***，其特征在于，包括编辑终端和服务器；

编辑终端，用于发送文本内容提取请求至服务器；