CN109033160A

CN109033160A - 一种知识图谱动态更新方法

Info

Publication number: CN109033160A
Application number: CN201810627957.7A
Authority: CN
Inventors: 漆桂林; 李丞; 李林; 吴天星
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-12-18

Abstract

本发明公开了一种知识图谱动态更新方法，用于解决百科知识图谱和其数据源之间的同步问题。本发明以万维网上的热点内容作为起点；从中抽取出命名实体作为种子实体，通常这些实体是可能发生更新的实体。然后在百科网站上抓取和种子实体相关的其他实体作为扩展实体。接着，从百科网站上获取一定数量的实体进行特征工程，并利用机器学习算法挖掘出实体特征表征的更新信息，构建预测器；利用预测器从扩展实体中筛选出更新概率高的实体。最后，以种子实体和更新概率高的扩展实体作为更新的对象，在数据源访问数量限制的情况下，实现知识图谱的动态更新。

Description

一种知识图谱动态更新方法

技术领域

本发明属于知识图谱领域，涉及一种百科知识图谱动态更新方法。

背景技术

知识图谱可以通过各种形式的数据源进行构建，其中百科知识图谱就是通过百科网站上的数据构建出来的。通常来说，百科网站上的数据由于规范的管理和维护，数据覆盖面广，内容准确，构建出来的知识图谱也有着较高质量。但是由于百科网站上的知识和信息的变化，百科知识图谱中已经存在的数据会面临过时的问题；此外，对于百科网站上出现的全新词汇，知识图谱也不能够及时的包含它们。

为了保证知识图谱中的数据不过时，就要保持知识图谱中的数据和数据源的更新尽可能的同步。一种基本的方法是通过获取整个数据源的数据，来重新构建知识图谱，这也是目前大多数百科知识图谱进行更新的做法。某些百科网站，比如***，会定期提供全站的数据集和数据变化信息，对于数据的获取提供了很大的方便。但是，也有些百科网站并不会提供这样的数据集，比如百度百科、互动百科；如果想对百科数据更新，只能通过爬虫爬取部分或者全部数据。这样做有几点弊端：其一，尽管***提供了数据集的变化信息，但这些数据集通常是以月为周期来提供；这样，知识图谱仍然不能足够及时的跟上百科网站的信息变化。其二，对于不提供数据集下载的百科网站，如果通过爬虫来抓取全站的数据，对于千万数量级别的实体，一台机器不间断运行一个月也不一定能爬取完。其三，不论有没有数据集下载，获取全部的数据集都非常大，这会耗费非常多的带宽；而且百科网站，也会对频繁的爬取访问进行限制，使得新数据的获取很困难。所以寻找一种知识图谱动态更新方法，该方法在避免带宽资源浪费的条件下保持知识图谱数据的时效性，有着非常大的研究意义。

发明内容

技术问题：本发明提供一种知识图谱动态更新方法，该方法避免了网络带宽和计算资源的浪费，大大减少了知识图谱中数据的时间滞后，能够自动、频繁、高效地对知识图谱进行更新，可以实现知识图谱频繁高效的更新任务，在保证了较小的访问量的同时，也保证了更新工作的质量。

技术方案：本发明以社交网站上的热门标题以及搜索引擎的热搜词汇为起点，从这些标题和热搜词中挖掘出实体词，作为种子实体，通常这些实体是可能发生更新的实体。然后在百科网站上抓取相关实体进行扩展。接着，通过一定数量实体信息中进行特征工程，基于这些特征，用机器学习方法来训练出能够预测未来更新情况的预测器。最后，就以种子实体和更新概率较高的扩展实体作为更新的对象，在数据源访问数量限制的情况下，实现知识图谱的动态更新。

本发明的知识图谱动态更新方法，包括如下步骤：

1)以社交网站上的热门标题以及搜索引擎上的热搜词汇为起点，从这些标题和热搜词中抽取出实体，以这些实体作为待更新的种子实体；

2)抓取种子实体的百科页面上的Abstract和Infobox中的内链接，作为扩展实体；

3)从百科网站上抓取实体词，从中抽取出特征，以历史更新频率为Label值，构建训练数据集，使用机器学习方法，建立回归模型，从构建的训练数据集训练出预测器；

4)利用所述预测器预测扩展实体的更新频率，挑选出预测更新频率较高的前K个扩展实体，K为扩展实体更新数量上限值；

5)把种子实体和所述步骤4)挑选出的扩展实体作为更新对象，对知识图谱进行更新。

本发明动态更新方法的优选方案中，所述步骤1)中，按照如下方式抽取出实体：

1-a)对抓取到的标题先使用命名实体识别，抽取出命名实体；

1-b)然后利用分词技术，从标题中获取识别不到的候选实体词列表；

1-c)对候选实体词进行词性标注，筛去助词、数词这些没有实际意义的候选词汇，然后在百科网站上验证这些候选词是否是实体词，把实体词和抽取的命名实体作为种子实体。

本发明动态更新方法的优选方案中，所述步骤3)中根据以下特征构建训练数据集：

3-1)存在的星期数：实体存在于百科网站上的时间，新的实体更可能被更新；

3-2)更新次数：实体总共被更新的次数，过去被更新的次数越多，未来越可能被继续更新；

3-3)浏览次数：一个实体被看的次数越多，说明越受欢迎，也更可能被更新；

3-4)链接数目：当一个实体页面包含其他资源或实体的超链接越多，越容易被其他资源或实体影响；

3-5)内链接数目：如果链接到了其他实体，其他实体的改变也可能会影响自己；

3-6)页面内容长度：一篇文章越长，内容越丰富，越容易被更新；

3-7)摘要内容长度：摘要包含了对实体最简洁的描述，摘要越长，信息量越大；

3-8)平均周更新频率：过去更新的越频繁，那么未来也可能更新的频繁。

本发明动态更新方法的优选方案中，所述步骤5)中按照如下具体步骤对知识图谱进行更新：

首先，更新种子实体在知识图谱中的内容，然后按照优先级来更新扩展实体在知识图谱中的内容：对于知识图谱中原先不存在的实体，以最高优先级***到知识图谱中；对于那些原本存在的实体，先利用预测器给出预测更新频率，然后优先对上次同步之后期望更新频率最大的扩展实体进行更新，直到所有扩展实体都已经更新完成或者扩展实体更新数量达到设定的扩展实体更新数量上限值K，其中K根据网络带宽和计算资源进行确定。

本发明动态更新方法的优选方案中，扩展实体更新时的优先级通过下式计算的优先级值来确定，优先级值越大的，则优先级越高：

E[u(x)]＝P(x)×(t_now-t_s(x))

其中，E[u(x)]是对扩展实体进行更新的优先级值，u(x)是上次同步后的更新时间，P(x)是通过预测器预测的更新频率，t_now为当前时间，t_s(x)是实体x上次更新的时间，当x为新实体时，t_s(x)＝-∞。

本发明的百科知识图谱动态更新方法，不需要周期性的获取百科网站上的全部数据且能够以少许的访问量频繁的对知识图谱进行更新，很好的避免了现有方法对网络带宽的浪费，也大大减少了知识图谱中数据的时间滞后。

本发明利用启发性的规则来寻找可能发生了更新的实体；并通过挑选特征，挖掘出实体和更新频率之间的关系，构建出预测器，进一步的寻找可能更新了的实体。实现了能够自动，频繁，高效的对知识图谱进行更新的动态更新方法，减少了知识图谱更新过程中不必要的更新。问题表述如下：

其中，t_n(x)为百科网站上实体x的最后一次更新时间，t_s(x)是实体x上一次同步的时间(如果x是新实体，则t_s(x)＝-∞)，该公式表达的意图为：在处理实体的数目最大为K的条件下，尽可能多的寻找上次同步后，百科网站上发生了更新的实体。

有益效果：本发明与现有技术相比，具有以下优点：

相比于目前大多数知识图谱的更新方式，本发明高效地实现了对知识图谱局部更新，更新那些实际在百科网站上更可能发生了变化的实体。现有百科知识图谱更新时，大都需要获取最近数据源中全部的数据；不论百科网站是否提供数据集下载，这都会浪费大量的网络带宽。在本发明中，每次更新从网络热点出发，抽取种子实体，然后在百科网站上寻找相关实体进行扩展，最后对挑选出的实体进行更新；整个过程对网络资源的需求很小，节省了网络带宽。同时基于网络热点和一些启发式规则，以及预测器的判断，使得选中更新的实体质量有了保障，对那些更需要更新的实体进行更新。另外，由于每次进行访问的数据量非常小，可以实现频繁的对知识图谱中的数据进行更新，大大减少了知识图谱数据的滞后性。

经过实验分析证明，利用本发明提出的知识图谱动态更新方法，可以实现知识图谱频繁高效的更新任务。基于启发式的规则和预测器对更新频率的排序，使得那些更需要更新的实体被挑选出来，在保证了较小的访问量的同时，也保证了更新工作的质量。本发明中，种子实体的有效性，预测器挑选出的扩展实体的有效性在准确率，召回率，F1值，以及MAP，nDCG，AUC等指标上都充分表现了该更新方法出色的效果。

附图说明

图1是本发明的整体框架示意图；

图2是本发明中更新算法的流程示意图。

具体实施方式

以下结合实施例和说明书附图，详细说明本发明的实施过程。

本发明是基于多知识库的表格实体链接方法，包括以下5个步骤：

1)以社交网站上的热门标题以及搜索引擎的热搜词汇为起点，从这些标题和热搜词中抽取出实体，以这些实体作为待更新的种子实体。这个过程是种子实体的发现，详细步骤如下：

(1)抓取热点标题，热搜词汇

因为搜狗搜索的实时热点和百度贴吧的热门话题具有较高的质量，本实施例中以它们作为种子实体的来源；搜狗搜索的热点和百度贴吧的话题数量都是恒定的，两者共有50条标题。此外，百度百科首页也会提供热搜词条，这些可以直接抓取过来作为种子实体。

(2)从标题中抽取种子实体

首先对标题进行命名实体识别，并选择了以下类别作为保留的实体类别：’PERSON’，’LOCATION’，’ORGANIZATION’，’MISC’，’CITY’，’STATE_OR_PROVINCE’，’COUNTRY’.’RELIGION’.’IDEOLOGY’。

同时，也挑选出一些实体类别进行丢弃，主要为数字，时间等类别，自身难有实际意义：’MONEY’，’NUMBER’，’ORDINAL’，’PERCENT’，’DATE’，’TIME’，’SET’，’DURATION’.’TITLE’。

此外，对标题中的词语进行词性标注，留待对后续分词结果清洗。

仅仅使用命名实体识别会遗漏很多实体。为了提高recall率，使用了分词技术，来得到更多的候选种子实体(词)，分词产生的效果如下所示，可以较全面的得到实体候选词。

	搜索引擎模式	精确模式
			月全食将现身天宇	全食/月全食/现身/天宇	月全食/现身/天宇
易烊千玺成绩曝光	易/烊/千玺/成绩/曝光	易烊千玺/成绩/曝光
			十三陵拟封闭管理	十三/三陵/十三陵/拟/封闭/管理	十三陵/拟/封闭/管理

分词虽然增加了候选实体词，也带进来许多无意义词。通过选取一些无意义的词性(比如，助词，数词)：

’AD’，’AS’，’BA’，’CC’，’CD’，’CS’，’DEC’，’DEG’，’DER’，’DEV’，’DT’，’ETC’，’IJ’，’JJ’，’LB’，’LC’，’M’，’OD’，’ON’，’P’，’PN’，’PU’，’SB’，’SP’，’VA’，’VC’，’VE’，’VV’，’X’

然后，利用词性标注信息，来对分词结果进行清洗。至此已经获得了尽可能多的候选实体词，最后，把它们当作实体词直接在百度百科上进行检索，验证它们是不是真的实体；如果有相应的词条，则认为是实体词，否则就不是实体词。种子实体抽取完成。

2)抓取种子实体的百科页面上的相关内链接，作为扩展实体。

(1)种子实体的扩展

本发明通过挑选种子实体的内链接，来选择和种子实体相关的实体。具体的，本实施例中选择了种子实体百科页面中的摘要和Infobox两部分中包含的内链接。摘要中的内链接和种子实体更相关，Infobox包含了种子实体的相关属性。这样扩展的实体相关性更高，而且不会因为内链接太多过度膨胀。

(2)扩展实体实际发生了更新的比例。

本实施例通过这种方法采集了多日的种子实体数据，并进行了扩展。在一个月后，收集这些扩展实体最近一个月发生了更新的比例。可以得到扩展实体的更新比例在30％左右。这个结果表明：

一、通过摘要和Infobox内链接寻找相关实体的方法是有效的。

二、扩展实体中只有30％在近期发生了更新，这样直接同步仍然会有70％的扩展实体并没有发生更新，对它们进行同步，仍然会造成浪费。需要预测器来筛选更可能更新的实体。

3)从百科上抓取一定数量的实体词，从中抽取出特征，以历史更新频率为Label值，构建训练数据集。针对训练数据，使用机器学习方法，建立回归模型，作为预测器。

本实施例中，从百度百科上抓取了数万条实体页面，并从中抽取了如下特征：

特征1：存在的星期数：实体存在于百科网站上的时间，新的实体更可能被更新。

特征2：更新次数：实体总共被更新的次数，过去被更新的次数越多，未来越可能被继续更新。

特征3：浏览次数：一个实体被看的次数越多，说明越受欢迎，也更可能被更新。

特征4：链接数目：当一个实体页面包含其他资源或实体的超链接越多，越容易被其他资源或实体影响。

特征5：内链接数目：如果链接到了其他实体，其他实体的改变也可能会影响自已。

特征6：页面内容长度：一篇文章越长，内容越丰富，越容易被更新。

特征7：摘要内容长度：摘要包含了对实体最简洁的描述，摘要越长，信息量越大。

特征8：平均周更新频率：过去更新的越频繁，那么未来也可能更新的频繁。

本实施例中，通过以下方法测试特征工程的有效性：

把训练样本中的label值，换成分类类别：具体的，最后一个月发生了更新的，y(e)＞0，作为正例；最后一个月没有发生更新，y(e)＝0，作为反例。然后计算卡方值(χ2)和信息增益了(IG：Information Gain)。卡方值，可以用来判断特征于类别标签之间的相关性，值越小说明相关性越低，特征越没用。信息增益，表示得知特征X的信息而使得类别标签的信息不确定度减少的程度。特征越有用，信息增益值越大。本实施例的测试结果符合预期设想。

以机器学习中回归模型作为预测模型，本实施例中的预测器使用了岭回归和随机森林两种模型，并以历史周更新频率作为预测更新频率，构建基准模型。岭回归在线性回归的基础上添加了正则化项，能够降低过拟合的风险。随机森林以决策树作为基学习器进行集成，同时在训练过程中引入随机属性的选择，使得最终集成的泛化性能因为个体学习之间的差异度的增加而提升。

4)利用预测器从扩展实体中挑选出更可能发生更新的实体。

本实施例中，抽取扩展实体的特征，然后利用预测器给出预测的更新频率，并将更新频率由大到小进行排序，根据网络带宽和计算资源情况挑选前K个扩展实体，网络带宽越大，计算资源越丰富，K越大，K能取得的最大值为扩展实体的数目；否则，网络带宽小，计算资源少，为了保证更新的有效性，要把K设的小一点，可以取扩展实体数量的一半。

在本实施例中，首先利用Hold-out模型对预测器进行检验：把训练数据集分成两份，其中90％用来训练，10％用来测试。计算测试集上，预测出的周更新频率和实际的周更新频率之间的MSE。然后通过不同的threshold来判定每个测试实体在时间戳T后是否发生了更新，以此得到precision-racall曲线，并利用AUC来评判regressor的鲁棒性。

本实施例也在真实的数据集上对预测器的效果进行了评估：即判断预测器能否为实际发生了更新的实体，预测出较高的更新概率。

在时间t，抓取热门标题，然后从中抽取出若干种子实体，通过对这些种子实体进行扩展，得到相应的扩展实体；接着，对着扩展实体进行了预测，并且根据预测的频率高低进行了排序。然后，在t到t+30天，一个月的时间内，收集这些扩展实体的更新情况。最终到t+30为止，查看这一个月内，一共有多少个扩展实体发生了更新。之后，针对这些发生了更新的扩展实体进行判断，看看它们是否被预测器排到了前面。本实施例使用了如下指标进行评估：

MAP：平均准确率，用来评估检索排名的效果。本实施例中进行评估预测排名的效果，排名靠前的认为是检索相关的，那么实际发生了更新的实体排名越靠前，MAP值就会越高。

nDCG：常用的排名评价指标，用来测评排名的准确度。在本实施例中，预测器返回了实体的排名，每一个实体都对应一个评分值，这些评分值就是增益(Gain)值。把这些分数相加，就是CumulativeGain(累积增益)。那些实际发生了更新的那些实体，应当放到前面。因此，相加这些分数的时候，每项需要除以一个递增的数，也就是折损值，并得到DCG，最后进行归一化处理。

AUC：Precision-Recall曲线下面的面积，较大的AUC代表了较好的效果。

Precision@n：排名靠前的n个实体，实际发生了更新的比例。

Recall@n：实际发生了更新的实体中，多少被排到了前n个。

Fl@n：基于Precision和Recall的调和平均数，更加重视较小值。

在本实施例的多次测试表现中，大多数情况下随机森林模型都表现的最好，故本发明以随机森林模型作为预测器模型。

5)把种子实体和挑选出的扩展实体作为更新对象，对知识图谱进行更新。

Claims

1.一种知识图谱动态更新方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的知识图谱动态更新方法，其特征在于，所述步骤1)中，按照如下方式抽取出实体：

1-a)对抓取到的标题先使用命名实体识别，抽取出命名实体；

3.根据权利要求1所述的知识图谱动态更新方法，其特征在于，所述步骤3)中根据以下特征构建训练数据集：

4.根据权利要求1所述的知识图谱动态更新方法，其特征在于，所述步骤5)中按照如下具体步骤对知识图谱进行更新：

5.根据权利要求4所述的知识图谱动态更新方法，其特征在于，所述的扩展实体更新时的优先级通过下式计算的优先级值来确定，优先级值越大的，则优先级越高：

E[u(x)]＝P(x)×(t_now-t_s(x))