CN107808014B

CN107808014B - 一种基于自然语言处理的知识库建立方法

Info

Publication number: CN107808014B
Application number: CN201711178205.9A
Authority: CN
Inventors: 黄浩; 徐晨
Original assignee: Beijing Zhongkezhi Ying Technology Development Co Ltd
Current assignee: Beijing Zhongkezhi Ying Technology Development Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-23
Publication date: 2020-02-21
Anticipated expiration: 2037-11-23
Also published as: CN107808014A

Abstract

本发明公开了一种基于自然语言处理的知识库建立方法，该方法包括：步骤1，将文件中的文本数据放入预设的数据集中；步骤2，发现父主题、将涉及父主题的所有语句从数据集中摘出、作为父主题内容清单；步骤3，发现子主题、将定义子主题的所有语句从父主题内容清单中摘出；步骤4，判断所有子主题是否全部被发现，如果是，则执行步骤5；如果否，则返回步骤3；步骤5，将父主题内容清单中剩下的内容作为父主题流程，将父主题和父主题流程作为知识点、纳入知识库中。本发明创建了符合用户学习逻辑的知识库，通过对待学习材料的提取和知识点的逻辑设计，满足用户对知识点的快速检索和深入学习，有效提高用户的检索和学习效率，增强了用户体验。

Description

一种基于自然语言处理的知识库建立方法

技术领域

本发明涉及自然语言处理技术领域，更为具体来说，本发明为一种基于自然语言处理的知识库建立方法。

背景技术

目前，虽然已经建立了一些用于用户学习的知识库或数据库，但是，常规建立知识库的方法往往是对现有内容的简单分类和简单存储，实质上相当于建立了一个电子图书馆，所以常规知识库中的内容之间往往是相互独立的。用户在进行检索和学习时，往往需要不断地尝试新的关键字才能得到足够有用的信息，甚至有时即使经过多次的检索仍然没有得到想要的结果。在用户不断尝试新关键字的过程中，呈现给用户的冗杂的、无用的内容会耗费用户大量的时间，用户往往需付出大量无用的劳动才能对需要学习的知识点有所了解，导致知识获取的效率过低、耗时耗力，难以满足用户的需求，而且上述问题导致用户体验非常差。

因此，面对大量的学习材料的情况下，如何使用户尽快学习到需要的知识点、提高用户学习效率、改善用户体验，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

为解决已建立的常规知识库会耗费用户大量的时间、限制用户的学习效率、影响用户体验等问题，本发明创新提出了一种基于自然语言处理的知识库建立方法，该方法通过对待学习材料的处理和加工的方式提取用户需要的核心内容，以该核心内容作为知识库建立的基础内容，实现在用户进行检索和查询过程中能够更快的接触到主干知识点，并可按照知识库中预先创立的知识构架进行高效学习，避免用户将宝贵的时间浪费在冗杂的无用内容上；因此，本发明能够显著地提高用户的检索和学习效率，提高用户满意度。

为实现上述的技术目的，本发明公开了一种基于自然语言处理的知识库建立方法，该方法包括如下步骤，

步骤1，读取具有文本数据的文件，将文件中的文本数据放入预设的数据集中；

步骤2，通过扫描整个数据集的方式发现父主题，将涉及所述父主题的所有语句从数据集中摘出，并将涉及所述父主题的所有语句作为父主题内容清单；

步骤3，通过扫描所述父主题内容清单的方式发现子主题，并将定义所述子主题的所有语句从父主题内容清单中摘出；其中，所述子主题用于解释所述父主题；

步骤4，判断父主题内容清单中的所有子主题是否全部被发现，如果是，则执行步骤5；如果否，则返回步骤3；

步骤5，将父主题内容清单中剩下的内容作为父主题流程，将父主题和父主题流程作为知识点、纳入知识库中。

本发明建立了一种具有主题和主体流程的知识库，将围绕主题的核心内容有效地提取出来，以满足用户通过主题流程而快速学习作为知识点的主题的需要，相对于现有知识库，本发明有效地提高了用户的学习效率和满意度。

进一步地，步骤5中，将父主题与子主题之间的关系作为基本主题网络，将所述基本主题网络、父主题、父主题流程作为知识点纳入知识库中。

基于上述改进的技术方案，本发明通过引入基本主题网络的方式满足用户对作为主题的知识点进行更为有效的学习，并引导用户有目标地继续学习。

进一步地，步骤3中，还包括产生子主题流程的步骤：将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从所述子主题内容清单中摘出，将子主题内容清单中剩下的内容作为子主题流程；其中，所述下级子主题用于解释所述子主题；

步骤5中，将所述父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。

基于上述改进的技术方案，本发明通过引入子主题流程的方式令用户进行更为深入、透彻的学习和理解。

进一步地，步骤3中，通过递归的方式建立树状主题网络，所述树状主题网络中包含级别由高到低的主题，且低级别的主题用于解释与其在级别上相邻的高级别主题；然后通过所述树状主题网络替代所述基本主题网络；

步骤5中，将父主题、父主题流程、树状主题网络、子主题流程作为知识点纳入知识库中。

基于上述改进的技术方案，本发明通过上述知识点使用户对围绕主题的核心内容有了深入、全面、详细的学习，从而极大地缩短了用户对相关核心内容掌握所使用的时间，提高了用户的对知识点的学习效率。

进一步地，步骤2中，涉及所述父主题的所有语句包括父主题定义语句和父主题引用语句。

进一步地，步骤2中，将具有解释或分类功能且出现于所述父主题后端的词作为判断当前语句是父主题定义语句的标准。

进一步地，步骤5中，还包括将父主题流程中的内容进行步骤性描述的步骤。

进一步地，步骤5中，还包括将子主题流程中的内容进行步骤性描述的步骤。

进一步地，具有文本内容的文件包括word文件、pdf文件。

本发明的有益效果为：本发明能够创建出符合用户学习逻辑的知识库，通过对待学习材料的提取和知识点的逻辑设计，满足用户对知识点的快速检索和深入学习，有效提高用户的检索和学习效率，增强了用户体验。

附图说明

图1为基于自然语言处理的知识库建立方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明进行详细的解释和说明。

如图1所示，本发明具体公开了一种基于自然语言处理的知识库建立方法，具体来说，该方法包括如下步骤。

步骤1，读取具有文本数据的文件，将文件中的文本数据放入预设的数据集中，比如，具有文本内容的文件可以包括word文件、pdf文件、txt文件、wps文件等等，这些文件可作为被本发明处理的全文资料。

步骤2，由于对知识点的理解往往通过知识点的定义和知识点的引用，而知识点的引用往往体现在该知识点的上下文中，为帮助理解相关知识点，本发明通过扫描整个数据集的方式发现父主题，将涉及父主题的所有语句从数据集中摘出，并将涉及父主题的所有语句作为父主题内容清单。本实施例中，涉及父主题的所有语句包括父主题定义语句和父主题引用语句，而将具有解释或分类功能且出现于父主题后端的词作为判断当前语句是父主题定义语句的标准。

步骤3，通过扫描父主题内容清单的方式发现子主题，并将定义子主题的所有语句从父主题内容清单中摘出；其中，子主题用于解释父主题；比如，父主题A的父主题内容清单中的主题定义语句中涉及主题B、C、D的引用，则B、C、D就是A的子主题。用户如果想学习主题A，则需先从主题B、C、D开始，即本发明符合从低级别知识点向高级别知识点学习的逻辑；本实施例中，还可包括产生子主题流程的步骤：将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从子主题内容清单中摘出，将子主题内容清单中剩下的内容作为子主题流程；其中，下级子主题用于解释子主题。进一步来说，本实施例还可通过递归的方式建立树状主题网络，树状主题网络中包含级别由高到低的主题，且低级别的主题用于解释与其在级别上相邻的高级别主题；然后通过树状主题网络替代基本主题网络。

步骤5，将父主题内容清单中剩下的内容作为父主题流程，将父主题和父主题流程作为知识点、纳入知识库中；应当理解：无论是父主题流程、子主题流程甚至更低级别的主题流程，其作用是为了更好的解释其对应的主题，所以上述的“父主题流程、子主题流程甚至更低级别的主题流程”可理解为是“一种特殊的主题”。在较佳的实施例中，本步骤可将父主题与子主题之间的关系作为基本主题网络，将基本主题网络、父主题、父主题流程作为知识点纳入知识库中。作为较为优选的方案，本步骤还可将父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。本实施例还提出了更为优越的方案，即本步骤中，将父主题、父主题流程、树状主题网络、子主题流程作为知识点纳入知识库中。另外，在本步骤中，还包括将父主题流程中的内容进行步骤性描述的步骤，以及将子主题流程中的内容进行步骤性描述的步骤，以使得通过本发明建立的知识库内的知识点间具有更为清晰的逻辑关系，比如，“首先，其次，最后”、“第一，第二，第三”、“1，2，3，4”等等。

在使用通过本发明建立的知识库时，按照下述方式辅助用户进行相关知识点的学习：(1)输入关键词，进行检索；(2)关键词会被作为父主题使用，知识库中的父主题和父主题流程会被调用，用户首先会获悉父主题流程，从而对待学习的关键词有了整体的了解；(3)沿着基本主题网络或树状主题网络，用户将会获悉用于解释关键词的子主题和低级别主题，并进入子主题和其他低级别主题的学习；(4)用户完成了对上述的父主题、父主题流程、基本主题网络或树状主题网络、子主题的学习之后，即完成了对有用信息或知识的了解、学习甚至掌握，从而本发明能够显著地提高用户的学习效率，本发明具有省时省力、满意度高等突出优点。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言处理的知识库建立方法，其特征在于：该方法包括如下步骤，

步骤5，将父主题内容清单中剩下的内容作为父主题流程，将父主题和父主题流程作为知识点纳入知识库中。

2.根据权利要求1所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤5中，将父主题与子主题之间的关系作为基本主题网络，将所述基本主题网络、父主题、父主题流程作为知识点纳入知识库中。

3.根据权利要求2所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤3中，还包括产生子主题流程的步骤：将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从所述子主题内容清单中摘出，将子主题内容清单中剩下的内容作为子主题流程；其中，所述下级子主题用于解释所述子主题；

4.根据权利要求3所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤3中，通过递归的方式建立树状主题网络，所述树状主题网络中包含级别由高到低的主题，且低级别的主题用于解释与其在级别上相邻的高级别主题；然后通过所述树状主题网络替代所述基本主题网络；

5.根据权利要求1所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤2中，涉及所述父主题的所有语句包括父主题定义语句和父主题引用语句。

6.根据权利要求5所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤2中，将具有解释或分类功能且出现于所述父主题后端的词作为判断当前语句是父主题定义语句的标准。

7.根据权利要求1所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤5中，还包括将父主题流程中的内容进行步骤性描述的步骤。

8.根据权利要求3所述的基于自然语言处理的知识库建立方法，其特征在于：

步骤5中，还包括将子主题流程中的内容进行步骤性描述的步骤。

9.根据权利要求1所述的基于自然语言处理的知识库建立方法，其特征在于：具有文本内容的文件包括word文件、pdf文件。