CN109597885A

CN109597885A - 一种知识地图构建方法及存储介质

Info

Publication number: CN109597885A
Application number: CN201811511737.4A
Authority: CN
Inventors: 王秋琳; 宋立华; 张垚; 陈江海
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-09

Abstract

一种知识地图构建方法及存储介质，其中方法包括如下步骤，识别知识点，通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；用训练好的所述模型对特定文档集进行知识点识别，得到知识点集。本发明提出的面向知识搜索的动态知识地图构建方法，不面向特定的业务领域，在不同行业中具备普遍适用性，仅需通过普通标注少量知识点投入的资源少，无监督运行的效果也很好。同时针对不断扩展的企业文档，也能够起到不断进行知识地图结果优化的效果。

Description

一种知识地图构建方法及存储介质

技术领域

本发明涉及文本处理领域，尤其涉及一种知识地图的构建方法及存储介质。

背景技术

知识地图是广泛应用于知识管理***的构件，其主要目的是为了对文献中的逻辑进行分析，展示知识间的关系。知识地图的形式化定义为：知识地图是知识目录的总览，是用于定位知识的知识管理设施，能将散落的知识汇整起来，予以有效地管理与维护，让人们能够充分地存取、分享和再利用这些知识。所以，在一些场合，知识地图也被简化为知识目录。相对而言，事先由专家构建好、长期固定不变或相对比较稳定的知识地图，称为静态知识地图；而能够根据指定的文档集产生适应性变化、形成与文档集高度相关的知识地图，称为动态知识地图。

知识搜索是知识管理***中获取知识的主要手段之一。随着信息化的发展，企业及大型组织存储、管理的知识文档数量越来越多，传统的通过静态知识分类目录对知识进行浏览以获取所需要的知识文档的方法越来越难以满足需求。知识搜索通常以关键词作为搜索词，通过文档与搜索词的匹配程度对其相关性进行打分排序，最终按顺序将知识文档列表作为搜索结果列出。然而，即使是使用同一个搜索词，不同用户的潜在知识搜索目标也不尽相同，且知识搜索结果排序打分规则有其极限，如何改善知识搜索结果，使得用户可以尽快获得其所需要的知识文档，仍然是知识管理的重要课题。

需要着眼于利用动态知识地图改善知识搜索的问题，即根据搜索行为的不同，在搜索结果中附上不同的动态知识地图，以图形化方式显示，使得用户可以直观了解所搜索领域的大致知识构成情况，并允许以知识地图为基础，发起二次搜索，从而可以有效地扩大搜索范围，提升对知识文档的搜索效果。

发明内容

为此，需要提供一种知识地图构建方法，解决现有技术中知识地图构建方法中需要较多人工接入，知识点识别准确率不高，生成的知识地图专业性不够强的问题；

为实现上述目的，发明人提供了一种知识地图构建方法，包括如下步骤，识别知识点，通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；

用训练好的所述模型对特定文档集进行知识点识别，得到知识点集；

遍历知识点集中的所有知识点，根据相关性排序判断每一个知识点在知识点集中的关联知识点，将知识点与相关性排序靠前的预设个数关联知识点链接，得到全局知识地图。

进一步地，还包括步骤，接收输入的检索词，识别与检索词最相近的知识点，将检索词与其最相近的若干知识点作为局部知识地图的检索结果呈现。

优选地，识别与检索词最相近的知识点采用最大字匹配率法，

局部知识地图的呈现结果包括检索词与最相近知识点的直接链路或间接链路。

具体地，还包括步骤，在预设的链接层数内识别与检索词最相近的知识点。

一种知识地图构建存储介质，存储有计算机程序，所述计算机程序在被执行时进行如下步骤，识别知识点，通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；

具体地，所述计算机程序在被执行时还进行步骤，接收输入的检索词，识别与检索词最相近的知识点，将检索词与其最相近的若干知识点作为局部知识地图的检索结果呈现。

可选地，所述计算机程序在被执行时进行步骤识别与检索词最相近的知识点采用最大字匹配率法，

优选地，所述计算机程序在被执行时还进行步骤，在预设的链接层数内识别与检索词最相近的知识点。

区别于现有技术，本发明提出的面向知识搜索的动态知识地图构建方法，不面向特定的业务领域，在不同行业中具备普遍适用性，仅需通过普通标注少量知识点投入的资源少，无监督运行的效果也很好。同时针对不断扩展的企业文档，也能够起到不断进行知识地图结果优化的效果。

附图说明

图1为本发明一实施方式涉及的知识地图构建方法的流程图；

图2为本发明一实施方式涉及的识别知识点过程；

图3为本发明一实施方式涉及的图CRF算法原理图；

图4为本发明一实施方式涉及的局部知识地图构建效果图；

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，提供了一种知识地图构建方法，包括如下步骤，识别知识点，S100通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；

S102用训练好的所述模型对特定文档集进行知识点识别，得到知识点集；

S104遍历知识点集中的所有知识点，根据相关性排序判断每一个知识点在知识点集中的关联知识点，将知识点与相关性排序靠前的预设个数关联知识点链接，得到全局知识地图。

在具体的实施例中，本发明通过三个环节，实现面向搜索结果的动态知识地图构建。首先是构建所属业务领域的全局知识地图，包括识别知识点(即知识地图的节点)以及识别知识关联(即知识地图的链路)两个环节；其次是构建局部知识地图，根据搜索结果文档集，在全局知识地图基础上，动态绘制知识地图并进行呈现。上述构建全局知识地图阶段需要投入少量专家资源对数据进行标准，准备用于知识提取模型训练的语料，而后采用模型自动提取知识点，并进一步利用程序识别知识点之间的关联。构建局部知识地图阶段，则完全采用程序进行自动匹配计算，获得最终的搜索结果地图。所以，整个过程仅需要投入少量人工资源。

以下对三个主要环节进行展开，阐述本发明的具体方案。

(1)识别知识点

在图2所示的实施例中，具体包括以下4个步骤：

1)步骤1：人工标注少量知识点

这个步骤由专家提供一定数量的知识点。专家可以通过各种渠道辅助提供知识点，例如从本行业专业词典、术语库或类似的语料中，挑选出一定数量的知识点(这些知识点主要用于支撑后续步骤，所以不需要很全，如只需要挑选出大约最终全局地图中所有节点总量的10％就够)。由于本发明要构建的知识地图面向搜索结果的展示，节点不需要进一步呈现属性，所以知识点通常就是一个名词或动名词；

以电力行业为例，中国电力信息中心出版的《电力主题词表》就可以作为知识点来源。其中的的关键实体或术语，如“变压器”、“水电站”等均可以作为初始的知识点。主题词表通常术语较多，和所需要搜索的知识文档不一定完全契合，所以需要专家根据知识文档的情况挑选出更合理的知识点。

2)步骤2：准备用于知识点提取的语料

从各类公开数据源或企业自有文档中获取用于知识点提取模型训练的语料。在本发明中，重点从以下两个地方获取：一是公开的互联网百科词条数据，包括***、百度百科的词条标题和正文；二是中国知网、万方数据库中的行业所属分类下的论文标题、关键词、摘要。上述数据中，***提供了免费的打包数据下载途径，可以获得所有词条的标题和正文。而百度百科、知网、万方虽然没有提供直接下载数据的途径，但通过互联网爬虫工具是可以免费遍历下载的词条和包括标题、摘要在内的论文概要信息的。

在这些可以公开获取的语料中，包含海量的行业真实文档，其中蕴含了大量的知识点，为后续阶段的进一步挖掘奠定基础。

3)步骤3：构建基于序列标注算法的知识点抽取模型

该步骤是本发明的核心环节，实现基于机器学习的序列标注算法生成可以自动抽取知识点的模型。序列标注算法是一类算法的统称，包括CRF、HMM等算法，广泛应用于文本处理中的分词、词性标注等。本发明采用的序列标注算法进行知识点抽取，具体采用的是CRF(条件随机场)算法。

CRF算法的主要原理是：给定一段文本，指定要从文本中提取的对象并实现准备好一定的标注好的数据，而后CRF算法可以根据这个“对象”本身特征以及在样例文本中出现的位置的上下文特征，自动归纳模式，形成“模型”。而后，对于新的、未标注文本，构建出的模型就可以根据已经学习到的特征，推断出其中包含的、与指定“对象”特征相符的文本，从而实现文档中指定信息的自动化提取。如图2所示。

CRF算法不指定采用哪些“特征”，但“特征”选择对于模型的性能和质量都有很大影响，是实现模型构建的关键难点。经过大量验证，本发明采用以下四个要素中的一个或多个，作为CRF算法训练模型的特征：

①标注对象的词性

词性包括名词、形容词、动词等及其组合。本发明采用开源的“Jieba分词”工具识别标注对象的词性。根据实践观察，词性的某种组合更可能是知识点，如“动词+动词+名词”、“名词+动词”等，有一些词性组合则不太可能是知识点，如包含“助词”。这些规则不需要人工归纳，可以交给CRF算法根据标注语料自动归纳获得。

②标注对象的LRE(左右信息熵)

左右信息熵由左信息熵和右信息熵组成。一个词的左信息熵，表示这个词与左边相邻词同时出现的概率，用以衡量该词与左侧词汇组成一个专业词的可能性，通常情况下，经常重复一起出现的词汇共同组成一个复合词的知识点的概率增高。左信息熵计算公式如下：

其中，w表示要计算信息熵的词，A为文档集内位于w左边的词的集合,C(a,w)表示文档集内词语a与w同时出现的次数。

右信息熵与左信息熵类似。二者相加构成左右信息熵的值。

③标注对象的TF(全文词频)

即标注对象在整个文档集内出现的次数。

④标注对象的IDF(逆文档概率)

指出现标注对象的文档数量与文档集全部文档数量的一个比例，采用的IDF计算公式如下：

式中含义，对于特定的词W，D表示文档总数，|Dw|表示包含词w的文档数。

以上即为CRF模型训练的特征4要素。

确定特征后，就可以开始执行CRF模型训练。由于CRF是公开算法，所以本发明采用开源的“CRF++”工具执行CRF训练。采用以下命令可以执行CRF模型训练：

crf_learn<模板><训练语料><模型文件>

这边包含三个主要参数：

<模版>。模版文件指定了CRF采用何种特征。在本发明中，即按照CRF++

工具的模版描述规范，指定采用4要素作为特征，记录到模版文件中。

<训练语料>。训练语料就是步骤2中获取的文档集的所有文档经过处理后形成的文本语料，所述“处理”包括两个子步骤：

子步骤A：遍历步骤1中人工标注的所有知识点词汇，针对每一个知识点词汇，用精确文字匹配方法定位出其在步骤2文档集的文档中的位置P。

子步骤B：针对所有位置P的知识点词汇，用“Jieba工具”及上述4要素计算公式，计算识别其词性、词的左右信息熵RE、词频TF和逆文档概率IDF各特征。

所以，训练语料包含了所有人工标记的词在文档中的4要素特征。这些特征采用CRF++要求的规范标记在文档中，从而CRF++在训练模型的过程中可以识别这些人工提取的知识点词汇及其4要素信息，以总结这些知识点词汇在文档中出现的“模式”。

<模型文件>模型文件指定了CRF算法运行完成后形成的模型文件。模型文件相当于从训练语料中，在后续步骤，就是利用该模型文件对知识点进行抽取。

综上所述，本步骤针对步骤1的人工提取的知识点，遍历其在步骤2文档集中的位置，并计算出其4要素特征。这些特征由CRF算法进一步归纳，形成知识点在文档集内出现的“模式”，形成模型，用于对后续新的文档执行知识点发现。

4)步骤4：执行知识点发现

本步骤将针对待搜索的文档集的所有文档，执行知识点发现，获得待搜索文档集的所有知识点。

具体而言，仍采用CRF++工具，加载步骤3生成的CRF模型，而后遍历待搜索文档集中的所有文档，将符合4要素特征模式的词汇或词汇组合作为知识点提取出。

通过上述方法，达成了第一个环节“识别知识点”所要进行的工作，通过上述机器学习的CRF模型的建立以及训练样本的语料备注工作，训练完成的机器学习模型能够更好地达到知识点筛选识别的效果，远大于人工批注的识别效率，通过预先对机器学习模型设置多种特征倾向，也更好地提高了模型多种识别策略针对不同情况下的适应性。

(2)识别知识关联

本环节的目标是发现上述环节提取的所有知识点之间是否存在关联关系。

本发明采用“word2vec算法”构建词相关模型，以此为基础，获得特定知识点的相关知识点。word2vec是***在2013年推出的一个文本挖掘工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。word2vec算法是公开***的，开源社区提供了多种实现，本发明采用Python的“Gensim”库提供的Word2vec算法包进行模型训练和词关系识别。具体步骤包括：

1)步骤1：构建word2vec模型。

编写Python语言调用Gensim库，针对待搜索文档集，计算待搜索文档的word2vec模型。

2)步骤2：基于word2vec模型，计算词关系

Gensim库提供了API接口，允许在计算好的word2vec模型基础上，输入一个知识点词汇作为参数，就可以返回按相关性顺序排列的所有关联词汇。

3)步骤3：提取相关知识点

遍历所有的知识点，执行步骤2获得所有相关词汇。根据相关性排序，依次判断每一个词汇是否属于环节1中发现的知识点，如果是，则记录这两个知识点之间存在关联。

针对每一个知识点，本发明将前4个最相关的知识点词汇视为关联知识点，记录二者的关联关系。在实际应用中，也根据具体需求，取更多的词作为关联词汇。在其他一些实施例中，也可以将最相关的知识点数选为3个、5个或其他数值，最相关知识点的数值将影响知识网络的链接丰富程度。

通过上述3个步骤，即完成知识关联的识别。

显然，在环节1和环节2基础上，通过相同节点、链路的合并，就可以获得一张无向图，这就是全局知识地图。

(3)绘制知识地图

本环节的目标是，动态生成面向知识搜索的知识地图。其原理是，在全局知识点中识别出与本次搜索所采用的“检索词”最接近的知识点，而后递归获取与知识点有关联的知识点直到一定层数，相关知识点及其关联链路构成与本次搜索相关的局部知识地图。具体步骤阐述如下：

1)步骤1：识别与检索词最相近的知识点

可简单采用“最大字匹配法”，即所有知识点中与检索词字匹配率最高的知识点，记录为最相近的知识点。其中：

式中，mc代表二者相同的字个数，c代表字个数

2)步骤2：获取周边知识点，构建局部地图

基于步骤1识别的知识点，递归查询与知识点相关的知识点直到指定的层数，还包括步骤，在预设的全局知识地图中链接层数内识别与检索词最相近的知识点(本发明默认指定3层)，这个过程中获得的所有知识点和链路构成了面向本次知识搜索的局部地图。局部知识地图的呈现结果包括检索词与最相近知识点的直接链路或间接链路。例如当检索词为A的情况下，在全局地图中知识点B为知识点A的一级链接，知识点C是知识点B的一级链接，因此知识点C是知识点A的二级链接。假设局部知识地图的建立依据的语料中并未出现知识点词B，但是出现了知识点词C，则方案还包括步骤，接受用户对局部知识地图建立的语料基础的选择信息，以及对上述预设连接层数的设置信息。最终在局部知识地图中的链接结果将展示知识点A与知识点C的直接链接关系，称为A与C之间的直接链路，以及A与B，B与C的间接连接关系，即A与C之间的间接链路。

以上是本发明的所有具体实施步骤。以下是面向知识搜索的知识地图示例：如图4所示，当针对搜索词“光伏”进行局部地图构建的时候，右上角用于接收用户对局部只是地图建立的语料基础的选择信息，包括“所有”、“发文”和“发函”。右下角展示了与搜索词相关的局部知识地图构建结果。

通过上述方案，本发明提出的面向知识搜索的动态知识地图构建方法，不面向特定的业务领域，在不同行业中具备普遍适用性。本发明提出动态知识地图构建方法，综合利用了现有技术路线的优点，但大幅度消除了其缺点：通过专家标注少量的知识点，结合序列标注等技术构建知识点自动抽取模型，使得知识点抽取效果显著好于完全无监督算法运行结果；由于仅需要少量人工标注的知识点，投入的专家人工资源也很少。本发明提出的动态知识地图构建方法效率较高，仅需要花费数小时即可完成百万级文档的全局知识地图构建，可动态实时地完成单次搜索结果的局部知识地图构建，可以适应企业文档数量不断增长的现状。

本发明的其他一些实施例中，还包括一种知识地图构建存储介质，存储有计算机程序，所述计算机程序在被执行时进行如下步骤，识别知识点，通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；

具体的实施例中，计算机程序还用于执行递归查询与知识点相关的知识点直到指定的层数，还执行包括步骤，在预设的全局知识地图中链接层数内识别与检索词最相近的知识点(本发明默认指定3层)，这个过程中获得的所有知识点和链路构成了面向本次知识搜索的局部地图。局部知识地图的呈现结果包括检索词与最相近知识点的直接链路或间接链路。例如当检索词为A的情况下，在全局地图中知识点B为知识点A的一级链接，知识点C是知识点B的一级链接，因此知识点C是知识点A的二级链接。假设局部知识地图的建立依据的语料中并未出现知识点词B，但是出现了知识点词C，则方案还包括步骤，接受用户对局部知识地图建立的语料基础的选择信息，

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种知识地图构建方法，其特征在于，包括如下步骤，识别知识点，通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；

2.根据权利要求1所述的知识地图构建方法，其特征在于，还包括步骤，接收输入的检索词，识别与检索词最相近的知识点，将检索词与其最相近的若干知识点作为局部知识地图的检索结果呈现。

3.根据权利要求2所述的知识地图构建方法，其特征在于，识别与检索词最相近的知识点采用最大字匹配率法，

4.根据权利要求2所述的知识地图构建方法，其特征在于，还包括步骤，在预设的链接层数内识别与检索词最相近的知识点。

5.一种知识地图构建存储介质，其特征在于，存储有计算机程序，所述计算机程序在被执行时进行如下步骤，识别知识点，通过人工进行部分标注的语料输入基于机器学习的CRF算法模型进行训练，所述CRF算法模型被预置为词性特征倾向、和或信息熵特征倾向、和或全文词频倾向、和或逆文档概率倾向；

6.根据权利要求5所述的知识地图构建存储介质，其特征在于，所述计算机程序在被执行时还进行步骤，接收输入的检索词，识别与检索词最相近的知识点，将检索词与其最相近的若干知识点作为局部知识地图的检索结果呈现。

7.根据权利要求6所述的知识地图构建存储介质，其特征在于，所述计算机程序在被执行时进行步骤识别与检索词最相近的知识点采用最大字匹配率法，

8.根据权利要求6所述的知识地图构建存储介质，其特征在于，所述计算机程序在被执行时还进行步骤，在预设的链接层数内识别与检索词最相近的知识点。