CN107808014B - 一种基于自然语言处理的知识库建立方法 - Google Patents

一种基于自然语言处理的知识库建立方法 Download PDF

Info

Publication number
CN107808014B
CN107808014B CN201711178205.9A CN201711178205A CN107808014B CN 107808014 B CN107808014 B CN 107808014B CN 201711178205 A CN201711178205 A CN 201711178205A CN 107808014 B CN107808014 B CN 107808014B
Authority
CN
China
Prior art keywords
theme
parent
sub
topic
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711178205.9A
Other languages
English (en)
Other versions
CN107808014A (zh
Inventor
黄浩
徐晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkezhi Ying Technology Development Co Ltd
Original Assignee
Beijing Zhongkezhi Ying Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkezhi Ying Technology Development Co Ltd filed Critical Beijing Zhongkezhi Ying Technology Development Co Ltd
Publication of CN107808014A publication Critical patent/CN107808014A/zh
Application granted granted Critical
Publication of CN107808014B publication Critical patent/CN107808014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自然语言处理的知识库建立方法,该方法包括:步骤1,将文件中的文本数据放入预设的数据集中;步骤2,发现父主题、将涉及父主题的所有语句从数据集中摘出、作为父主题内容清单;步骤3,发现子主题、将定义子主题的所有语句从父主题内容清单中摘出;步骤4,判断所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中。本发明创建了符合用户学习逻辑的知识库,通过对待学习材料的提取和知识点的逻辑设计,满足用户对知识点的快速检索和深入学习,有效提高用户的检索和学习效率,增强了用户体验。

Description

一种基于自然语言处理的知识库建立方法
技术领域
本发明涉及自然语言处理技术领域,更为具体来说,本发明为一种基于自然语言处理的知识库建立方法。
背景技术
目前,虽然已经建立了一些用于用户学习的知识库或数据库,但是,常规建立知识库的方法往往是对现有内容的简单分类和简单存储,实质上相当于建立了一个电子图书馆,所以常规知识库中的内容之间往往是相互独立的。用户在进行检索和学习时,往往需要不断地尝试新的关键字才能得到足够有用的信息,甚至有时即使经过多次的检索仍然没有得到想要的结果。在用户不断尝试新关键字的过程中,呈现给用户的冗杂的、无用的内容会耗费用户大量的时间,用户往往需付出大量无用的劳动才能对需要学习的知识点有所了解,导致知识获取的效率过低、耗时耗力,难以满足用户的需求,而且上述问题导致用户体验非常差。
因此,面对大量的学习材料的情况下,如何使用户尽快学习到需要的知识点、提高用户学习效率、改善用户体验,成为了本领域技术人员亟待解决的技术问题和始终研究的重点。
发明内容
为解决已建立的常规知识库会耗费用户大量的时间、限制用户的学习效率、影响用户体验等问题,本发明创新提出了一种基于自然语言处理的知识库建立方法,该方法通过对待学习材料的处理和加工的方式提取用户需要的核心内容,以该核心内容作为知识库建立的基础内容,实现在用户进行检索和查询过程中能够更快的接触到主干知识点,并可按照知识库中预先创立的知识构架进行高效学习,避免用户将宝贵的时间浪费在冗杂的无用内容上;因此,本发明能够显著地提高用户的检索和学习效率,提高用户满意度。
为实现上述的技术目的,本发明公开了一种基于自然语言处理的知识库建立方法,该方法包括如下步骤,
步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中;
步骤2,通过扫描整个数据集的方式发现父主题,将涉及所述父主题的所有语句从数据集中摘出,并将涉及所述父主题的所有语句作为父主题内容清单;
步骤3,通过扫描所述父主题内容清单的方式发现子主题,并将定义所述子主题的所有语句从父主题内容清单中摘出;其中,所述子主题用于解释所述父主题;
步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;
步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中。
本发明建立了一种具有主题和主体流程的知识库,将围绕主题的核心内容有效地提取出来,以满足用户通过主题流程而快速学习作为知识点的主题的需要,相对于现有知识库,本发明有效地提高了用户的学习效率和满意度。
进一步地,步骤5中,将父主题与子主题之间的关系作为基本主题网络,将所述基本主题网络、父主题、父主题流程作为知识点纳入知识库中。
基于上述改进的技术方案,本发明通过引入基本主题网络的方式满足用户对作为主题的知识点进行更为有效的学习,并引导用户有目标地继续学习。
进一步地,步骤3中,还包括产生子主题流程的步骤:将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从所述子主题内容清单中摘出,将子主题内容清单中剩下的内容作为子主题流程;其中,所述下级子主题用于解释所述子主题;
步骤5中,将所述父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。
基于上述改进的技术方案,本发明通过引入子主题流程的方式令用户进行更为深入、透彻的学习和理解。
进一步地,步骤3中,通过递归的方式建立树状主题网络,所述树状主题网络中包含级别由高到低的主题,且低级别的主题用于解释与其在级别上相邻的高级别主题;然后通过所述树状主题网络替代所述基本主题网络;
步骤5中,将父主题、父主题流程、树状主题网络、子主题流程作为知识点纳入知识库中。
基于上述改进的技术方案,本发明通过上述知识点使用户对围绕主题的核心内容有了深入、全面、详细的学习,从而极大地缩短了用户对相关核心内容掌握所使用的时间,提高了用户的对知识点的学习效率。
进一步地,步骤2中,涉及所述父主题的所有语句包括父主题定义语句和父主题引用语句。
进一步地,步骤2中,将具有解释或分类功能且出现于所述父主题后端的词作为判断当前语句是父主题定义语句的标准。
进一步地,步骤5中,还包括将父主题流程中的内容进行步骤性描述的步骤。
进一步地,步骤5中,还包括将子主题流程中的内容进行步骤性描述的步骤。
进一步地,具有文本内容的文件包括word文件、pdf文件。
本发明的有益效果为:本发明能够创建出符合用户学习逻辑的知识库,通过对待学习材料的提取和知识点的逻辑设计,满足用户对知识点的快速检索和深入学习,有效提高用户的检索和学习效率,增强了用户体验。
附图说明
图1为基于自然语言处理的知识库建立方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明进行详细的解释和说明。
如图1所示,本发明具体公开了一种基于自然语言处理的知识库建立方法,具体来说,该方法包括如下步骤。
步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中,比如,具有文本内容的文件可以包括word文件、pdf文件、txt文件、wps文件等等,这些文件可作为被本发明处理的全文资料。
步骤2,由于对知识点的理解往往通过知识点的定义和知识点的引用,而知识点的引用往往体现在该知识点的上下文中,为帮助理解相关知识点,本发明通过扫描整个数据集的方式发现父主题,将涉及父主题的所有语句从数据集中摘出,并将涉及父主题的所有语句作为父主题内容清单。本实施例中,涉及父主题的所有语句包括父主题定义语句和父主题引用语句,而将具有解释或分类功能且出现于父主题后端的词作为判断当前语句是父主题定义语句的标准。
步骤3,通过扫描父主题内容清单的方式发现子主题,并将定义子主题的所有语句从父主题内容清单中摘出;其中,子主题用于解释父主题;比如,父主题A的父主题内容清单中的主题定义语句中涉及主题B、C、D的引用,则B、C、D就是A的子主题。用户如果想学习主题A,则需先从主题B、C、D开始,即本发明符合从低级别知识点向高级别知识点学习的逻辑;本实施例中,还可包括产生子主题流程的步骤:将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从子主题内容清单中摘出,将子主题内容清单中剩下的内容作为子主题流程;其中,下级子主题用于解释子主题。进一步来说,本实施例还可通过递归的方式建立树状主题网络,树状主题网络中包含级别由高到低的主题,且低级别的主题用于解释与其在级别上相邻的高级别主题;然后通过树状主题网络替代基本主题网络。
步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;
步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中;应当理解:无论是父主题流程、子主题流程甚至更低级别的主题流程,其作用是为了更好的解释其对应的主题,所以上述的“父主题流程、子主题流程甚至更低级别的主题流程”可理解为是“一种特殊的主题”。在较佳的实施例中,本步骤可将父主题与子主题之间的关系作为基本主题网络,将基本主题网络、父主题、父主题流程作为知识点纳入知识库中。作为较为优选的方案,本步骤还可将父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。本实施例还提出了更为优越的方案,即本步骤中,将父主题、父主题流程、树状主题网络、子主题流程作为知识点纳入知识库中。另外,在本步骤中,还包括将父主题流程中的内容进行步骤性描述的步骤,以及将子主题流程中的内容进行步骤性描述的步骤,以使得通过本发明建立的知识库内的知识点间具有更为清晰的逻辑关系,比如,“首先,其次,最后”、“第一,第二,第三”、“1,2,3,4”等等。
在使用通过本发明建立的知识库时,按照下述方式辅助用户进行相关知识点的学习:(1)输入关键词,进行检索;(2)关键词会被作为父主题使用,知识库中的父主题和父主题流程会被调用,用户首先会获悉父主题流程,从而对待学习的关键词有了整体的了解;(3)沿着基本主题网络或树状主题网络,用户将会获悉用于解释关键词的子主题和低级别主题,并进入子主题和其他低级别主题的学习;(4)用户完成了对上述的父主题、父主题流程、基本主题网络或树状主题网络、子主题的学习之后,即完成了对有用信息或知识的了解、学习甚至掌握,从而本发明能够显著地提高用户的学习效率,本发明具有省时省力、满意度高等突出优点。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于自然语言处理的知识库建立方法,其特征在于:该方法包括如下步骤,
步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中;
步骤2,通过扫描整个数据集的方式发现父主题,将涉及所述父主题的所有语句从数据集中摘出,并将涉及所述父主题的所有语句作为父主题内容清单;
步骤3,通过扫描所述父主题内容清单的方式发现子主题,并将定义所述子主题的所有语句从父主题内容清单中摘出;其中,所述子主题用于解释所述父主题;
步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;
步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点纳入知识库中。
2.根据权利要求1所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤5中,将父主题与子主题之间的关系作为基本主题网络,将所述基本主题网络、父主题、父主题流程作为知识点纳入知识库中。
3.根据权利要求2所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤3中,还包括产生子主题流程的步骤:将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从所述子主题内容清单中摘出,将子主题内容清单中剩下的内容作为子主题流程;其中,所述下级子主题用于解释所述子主题;
步骤5中,将所述父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。
4.根据权利要求3所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤3中,通过递归的方式建立树状主题网络,所述树状主题网络中包含级别由高到低的主题,且低级别的主题用于解释与其在级别上相邻的高级别主题;然后通过所述树状主题网络替代所述基本主题网络;
步骤5中,将父主题、父主题流程、树状主题网络、子主题流程作为知识点纳入知识库中。
5.根据权利要求1所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤2中,涉及所述父主题的所有语句包括父主题定义语句和父主题引用语句。
6.根据权利要求5所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤2中,将具有解释或分类功能且出现于所述父主题后端的词作为判断当前语句是父主题定义语句的标准。
7.根据权利要求1所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤5中,还包括将父主题流程中的内容进行步骤性描述的步骤。
8.根据权利要求3所述的基于自然语言处理的知识库建立方法,其特征在于:
步骤5中,还包括将子主题流程中的内容进行步骤性描述的步骤。
9.根据权利要求1所述的基于自然语言处理的知识库建立方法,其特征在于:具有文本内容的文件包括word文件、pdf文件。
CN201711178205.9A 2017-11-06 2017-11-23 一种基于自然语言处理的知识库建立方法 Active CN107808014B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711075948 2017-11-06
CN2017110759483 2017-11-06

Publications (2)

Publication Number Publication Date
CN107808014A CN107808014A (zh) 2018-03-16
CN107808014B true CN107808014B (zh) 2020-02-21

Family

ID=61580815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711178205.9A Active CN107808014B (zh) 2017-11-06 2017-11-23 一种基于自然语言处理的知识库建立方法

Country Status (1)

Country Link
CN (1) CN107808014B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537063A (zh) * 2014-12-29 2015-04-22 北京理工大学 一种基于论文引用网络的知识脉络图构建***和方法
CN104866557A (zh) * 2015-05-18 2015-08-26 江南大学 一种基于建构学习理论的个性化即时学习支持***与方法
CN105760514A (zh) * 2016-02-24 2016-07-13 西安交通大学 一种从社区问答网站自动获取知识领域短文本的方法
CN107085596A (zh) * 2017-03-24 2017-08-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种知识网络构建及可视化方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214366B2 (en) * 2009-11-17 2012-07-03 Glace Holding Llc Systems and methods for generating a language database that can be used for natural language communication with a computer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537063A (zh) * 2014-12-29 2015-04-22 北京理工大学 一种基于论文引用网络的知识脉络图构建***和方法
CN104866557A (zh) * 2015-05-18 2015-08-26 江南大学 一种基于建构学习理论的个性化即时学习支持***与方法
CN105760514A (zh) * 2016-02-24 2016-07-13 西安交通大学 一种从社区问答网站自动获取知识领域短文本的方法
CN107085596A (zh) * 2017-03-24 2017-08-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种知识网络构建及可视化方法和***

Also Published As

Publication number Publication date
CN107808014A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取***
CN109726274B (zh) 问题生成方法、装置及存储介质
Iosif et al. Unsupervised semantic similarity computation between terms using web documents
Bergsma et al. Using conceptual class attributes to characterize social media users
US8335787B2 (en) Topic word generation method and system
CN101131706B (zh) 一种查询修正方法及***
KR20060017765A (ko) 개념 네트워크
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN112633012B (zh) 一种基于实体类型匹配的未登录词替换方法
Azmeh et al. Automatic web service tagging using machine learning and wordnet synsets
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN111859950A (zh) 一种自动化生成讲稿的方法
US12020175B2 (en) Building training data and similarity relations for semantic space
CN106547877B (zh) 基于6w业务逻辑模型的数据元智能标识解析方法
CN107808014B (zh) 一种基于自然语言处理的知识库建立方法
CN110750632B (zh) 一种改进的中文alice智能问答方法及***
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
Rajput et al. A comparison of ontology-based and reference-set-based semantic annotation frameworks
CN114970543A (zh) 一种众包设计资源的语义分析方法
Gawrysiak et al. Text onto miner–A semi automated ontology building system
Segev Identifying the multiple contexts of a situation
CN107818091B (zh) 文档处理方法及装置
WO2008083447A1 (en) Method and system of obtaining related information
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
Soo et al. Ontology Based Personalized Recommendation Model for Learning Objects in a Service Oriented E-learning Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant