CN106250412A

CN106250412A - 基于多源实体融合的知识图谱构建方法

Info

Publication number: CN106250412A
Application number: CN201610583823.0A
Authority: CN
Inventors: 鲁伟明; 戴豪; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2016-12-21
Anticipated expiration: 2036-07-22
Also published as: CN106250412B

Abstract

本发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科：百度百科、互动百科，***，并对数据做预处理，包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后，针对在同一个候选集里的页面，计算两两页面之间的特征，并训练分类器计算页面之间的相似度，并根据相似度构建权重图。最后，通过混合线性规划模型，约束权重图中顶点与顶点之间的关系，通过计算目标函数的最大值，得到顶点与顶点之间的连通性，将每一个连通分量当作一个实体，从而获得描述同一个实体的所有页面。本发明通过引入候选集，大大减小了问题的规模；同时又通过混合线性规划模型，提高了实体融合的准确率。

Description

基于多源实体融合的知识图谱构建方法

技术领域

本发明涉及文本相似度计算方法，尤其涉及一种基于多源实体融合的知识图谱构建方法。

背景技术

随着互联网的迅速发展，人们获取信息和知识的途径越来越多样化，但是海量的数据分布于互联网的每一个角落，这给用户获取知识带来了很大的障碍。因此，构建一个统一完备的知识库迫在眉睫。

目前已经存在许多知识库，比如DBpedia是一个特殊的语义网应用范例，它从***的词条里撷取出结构化的资料，以强化***的搜寻功能，并将其他资料集连结至***；Freebase是一个大型的合作知识库，它整合了网络上的许多资源。Freebase中的条目也与DBpedia类似，都采用结构化数据的形式。通过访问其数据可以发现其中所有的内容都是格式化的，按照三元组的格式存储并展示。这个模式是固定的，同一类型的条目都包含相同的属性。鉴于以上原因，同类数据之间就可以很容易地联系在一起，为信息查询提供了便利。Freebase包含数以千万计的主题，成千上万的类型和属性。但是这些知识库的语言都是英语，目前中文领域还没有一个大型的完备的知识库。

传统的关于知识库的实体匹配算法中，主要是基于成对实体的匹配，并把这个问题形式化成一个分类问题。然而，大多数这类算法都严重地依赖于数据模板的质量。对于Web数据来说，数据不是以一个统一的三元组形式呈现的，而且不同源的数据在表达形式上也有较大的差异，因此这种方法在我们的这个问题上适用性较低。

在另外一些匹配算法中，将页面的结构信息也考虑到特征中，比如在中英文维基的实体匹配中，因为已经有相当一部分页面存在跨语言链接，所以这部分信息可以作为先验知识。然而，我们的多源数据之间是没有任何链接的，所以页面的结构特征无法纳入特征之中。

在两个集合的特征计算中，可以使用Jaccard系数。Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数，只比较X_n和Y_n中相同的个数。

在特征相似度计算中，有许多算法可以应用。简单的可以直接计算欧式距离或者余弦距离。也可以根据特征训练分类器，使用分类器来计算相似度。随机森林是一种性能良好的分类器，可以用在特征相似度计算中。它指的是利用多棵决策树对样本进行训练并预测的一种分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林具有许多优点，比如特征丢失时，仍可以保持较高的准确度，且不会产生过拟合问题。

发明内容

本发明为整合多源百科知识，构建统一的知识库，提供了一种基于多源实体融合的知识图谱构建方法。不同源的百科通常会包含描述同一个实体的多个页面，多源实体融合技术可以在海量的数据中找到这些页面，并将其映射到同一个实体上。

本发明解决其技术问题采用的技术方案如下：一种基于多源实体融合的知识图谱构建方法，包括以下步骤：

1)预处理百科页面：提取百科标题的同义词，提取消岐页面，利用同义词的传递关系构建同义词组，所有同义词组形成同义词组集合，根据同义词组集合中每一个同义词组对应的页面构建候选集，用分词工具对百科页面的文本进行分词。

2)通过步骤1)的分词结果，计算同一个候选集里的两两页面之间的特征，通过训练分类器为每一维特征赋上不同的权重，并利用这个分类器计算页面之间的相似度。

3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图，利用混合线性规划模型，定义该模型目标函数，并计算目标函数的最大值，得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体，从而获得描述同一个实体的所有页面。

进一步地，所述的步骤1)包括：

1.1)提取百科标题的同义词，提取方式包括以下两种：

a)模板匹配：利用特定的模板去匹配每个页面的开头和摘要的第一句话，如果匹配成功，则得到同义词对。模板人为定义，涵盖大部分同义词对出现模式。

b)链接重定向：通过页面中超链接跳转到另一个页面，如果另一个页面的标题和该超链接的文本不同，则认为这两个词是同义词。

1.2)提取消岐页面：第k个百科表示为k最大值为3，其中a_i表示页面，n表示页面总数量。由消岐页面中出现的所有页面，可提取消岐页面集合M，集合M里面的任意两两页面都不能表示同一个实体。

M＝{a_i∈ε_k|a_i∈M≠a_j∈M}

1.3)提取候选集：根据同义词的传递性，如果A和B互为同义词，A和C互为同义词，那么B和C也互为同义词。通过这种方式，得到同义词组S_t，所有同义词组S_t形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。

给定S_t,从所有百科源中找出标题属于S_t的页面，所有的这些页面构成候选集P_t。

P_t＝{a∈ε_1,…,K|a.Title∈S_t}

K为百科的总数；a.Title为页面a的标题。

1.4)对百科页面的文本进行分词：对页面的5个域分词，包括摘要，信息框(键和值)，链接，目录，用户标签，并去除停用词和长度小于2的词。

进一步地，所述的步骤2)包括：

2.1)定义一个页面所包含的6个域，包括标题T，摘要A，信息框I，目录C，用户标签G和链接L，用一个6元组来表示一个页面：

a＝{T,A,I,C,G,L}

其中信息框表示为键值对，因此I＝{P,V},其中P表示属性，V表示属性值；

对于属于同一个候选集的2个页面，如果他们描述的是一个实体，那么他们的文本重叠率会比较大，因此定义以下7个特征，分别如下：

1)摘要特征

f_{a} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . A) \cap S_{w} (a_{j} . A) |}{| S_{w} (a_{i} . A) \cup S_{w} (a_{j} . A) |}

2)信息框属性特征

f_{p} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . I . P) \cap S_{w} (a_{j} . I . P) |}{| S_{w} (a_{i} . I . P) \cup S_{w} (a_{j} . I . P) |}

3)信息框属性值特征

f_{v} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . I . V) \cap S_{w} (a_{j} . I . V) |}{| S_{w} (a_{i} . I . V) \cup S_{w} (a_{j} . I . V) |}

4)目录特征

f_{C} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . C) \cap S_{w} (a_{j} . C) |}{| S_{w} (a_{i} . C) \cup S_{w} (a_{j} . C) |}

5)用户标签特征

f_{g} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . G) \cap S_{w} (a_{j} . G) |}{| S_{w} (a_{i} . G) \cup S_{w} (a_{j} . G) |}

6)链接特征

f_{l} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . L) \cap S_{w} (a_{j} . L) |}{| S_{w} (a_{i} . L) \cup S_{w} (a_{j} . L) |}

7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接

f_{a l l} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . S) \cap S_{w} (a_{j} . S) |}{| S_{w} (a_{i} . S) \cup S_{w} (a_{j} . S) |}

S_w(X)表示对字符串X分词后的结果集合。

2.2)将在步骤2.1)得到的7个特征作为分类器的输入，利用Weka算法包中的RandomForest算法训练二类分类器，然后用这个二类分类器来预测两个页面之间的相似度。

进一步地，所述的步骤3)具体包括以下步骤：

3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图，两个结点之间的权重边用相似度表示。由此，将原问题转换成边的取舍问题。用y_ij表示两个结点之间是否有边：

同时加入其他惩罚项和约束条件来构建混合线性规划模型：

惩罚项1：

如果a_i与a_j有边，且a_i与a_k有边,那么a_j与a_k之间也应该有边，否则加入惩罚项φ，同时乘上系数u作为调整参数。因此对于φ，有下面的约束：

y_{i j} + y_{i k} \leq 1 + y_{j k} + φ_{j k}, &ForAll; a_{i}, a_{j}, a_{k} &Element; P_{t}

φ_jk≥0

惩罚项2：

如果a_i与a_j之间的相似度越高，那么他们之间有边的概率越大。对于两个相似度很小的a_i与a_j，如果他们之间有边，则惩罚项较大，如果a_i与a_j的相似度较大，那么惩罚项较小。因此，用ψ_ij表示惩罚项，用λ表示调整参数，该惩罚项用下式约束：

λ | y_{i j} - s i m (a_{i}, a_{j}) | \leq ψ_{i j}, &ForAll; a_{i}, a_{j} &Element; P_{t}

ψ_ij≥0

sim(a_i,a_j)为a_i和a_j之间的权重；

惩罚项3：

对于在一个消岐页面集合M里面出现的a_i与a_j，如果y_ij等于1，则表明匹配错误，因此需要用惩罚项ζ_ij来约束a_i与a_j之间没有边。用下面的式子表示这个约束条件：

y_{i j} < ζ_{i j}, &ForAll; a_{i}, a_{j} &Element; M_{n}, n = 1, 2, ..., N

ζ_ij≥0

N为消岐页面集合的个数；

此外，对相似度设置阈值τ，只有相似度大于阈值τ的a_i与a_j的页面之间才能有边。

综合以上各个惩罚项和阈值，得到目标函数如下所示：

\begin{matrix} \max i m i z e \underset{a_{i}, a_{j} &Element; P_{t}}{Σ} (y_{i j} * s i m (a_{i}, a_{j}) - u * φ_{i j} - ψ_{i j}) \\ - Σ_{n = 1}^{N} \underset{a_{i}, a_{j} &Element; M_{n}}{Σ} ζ_{i j} \end{matrix}

s.t.y_ij∈{0,1},φ_ij,ψ_ij,ζ_ij≥0

y_{i j} + y_{i k} \leq 1 + y_{i j} + φ_{j k}, &ForAll; a_{i}, a_{j}, a_{k} &Element; P_{t}

λ | y_{i j} - s i m (a_{i}, a_{j}) | \leq ψ_{i j}, &ForAll; a_{i}, a_{j} &Element; P_{t}

s i m (a_{i}, a_{j}) > y_{i j} * τ, &ForAll; a_{i}, a_{j} &Element; P_{t}

y_{i j} < ζ_{i j}, &ForAll; a_{i}, a_{j} &Element; M_{n}, n = 1, 2, ..., N

求得该目标函数的最大值，从而得到该最大值对应的边的参数y_ij。

3.2)将该权重图中的每一个连通分量当作一个实体，得到描述一个实体的所有页面。

本发明方法与现有技术相比具有的有益效果：

1.该方法利用标题同义词，得到标题候选集，再从标题候选集中得到页面候选集，在一个页面候选集中计算页面相似度，从而很大程度地减小了问题的规模，使得接下来的算法实施更加简单。

2.该方法根据页面结构，提取了7个文本特征的Jaccard系数，并采用随机森林算法计算页面与页面之间的相似度，这个相似度可以较准确地反应页面的相似度。

3.该方法在图上对页面之间的相似度建模，利用混合线性规划模型求得图上顶点与顶点之间的关系，即页面与页面之间的关系。通过这些关系，可以构建一个无向图。在这个无向图中，可以较准确地得到描述一个实体的所有页面。

附图说明

图1是本发明的总体流程图；

图2是步骤2)的流程图；

图3是步骤3)的流程图；

图4是步骤4)的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一下详细说明。

如图1-图4所示，基于多源实体融合的知识图谱构建方法的步骤如下：

所述的步骤1)为：

1.1)提取百科标题的同义词，提取方式包括以下两种：

a)模板匹配：利用特定的模板去匹配每个页面的开头和摘要的第一句话，如果匹配成功，则得到同义词对。模板人为定义，涵盖大部分同义词对出现模式。例如：对于带有同义词的页面，在页面的开头或摘要的第一句话通常会出现“A又名B”,“A别称B”，“A是B的同义词”等字符串，通过正则匹配，可以得到一部分同义词对。

M＝{a_i∈ε_k|a_i∈M≠a_j∈M}

P_t＝{a∈ε_1,…,K|a.Title∈S_t}

K为百科的总数；a.Title为页面a的标题。

所述的步骤2)包括：

a＝{T,A,I,C,G,L}

对于属于同一个候选集的2个页面，如果他们描述的是一个实体，那么他们的文本重叠率会比较大，因此定义以下7个特征，分别如下：1)摘要特征

f_{a} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . A) \cap S_{w} (a_{j} . A) |}{| S_{w} (a_{i} . A) \cup S_{w} (a_{j} . A) |}

2)信息框属性特征

f_{p} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . I . P) \cap S_{w} (a_{j} . I . P) |}{| S_{w} (a_{i} . I . P) \cup S_{w} (a_{j} . I . P) |}

3)信息框属性值特征

f_{v} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . I . V) \cap S_{w} (a_{j} . I . V) |}{| S_{w} (a_{i} . I . V) \cup S_{w} (a_{j} . I . V) |}

4)目录特征

f_{C} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . C) \cap S_{w} (a_{j} . C) |}{| S_{w} (a_{i} . C) \cup S_{w} (a_{j} . C) |}

5)用户标签特征

f_{g} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . G) \cap S_{w} (a_{j} . G) |}{| S_{w} (a_{i} . G) \cup S_{w} (a_{j} . G) |}

6)链接特征

f_{l} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . L) \cap S_{w} (a_{j} . L) |}{| S_{w} (a_{i} . L) \cup S_{w} (a_{j} . L) |}

7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接

f_{a l l} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . S) \cap S_{w} (a_{j} . S) |}{| S_{w} (a_{i} . S) \cup S_{w} (a_{j} . S) |}

S_w(X)表示对字符串X分词后的结果集合。

所述的步骤3)具体包括以下步骤：

同时加入其他惩罚项和约束条件来构建混合线性规划模型：

惩罚项1：

y_{i j} + y_{i k} \leq 1 + y_{j k} + φ_{j k}, &ForAll; a_{i}, a_{j}, a_{k} &Element; P_{t}

φ_jk≥0

惩罚项2：

λ | y_{i j} - s i m (a_{i}, a_{j}) | \leq ψ_{i j}, &ForAll; a_{i}, a_{j} &Element; P_{t}

ψ_ij≥0

sim(a_i,a_j)为a_i和a_j之间的权重；

惩罚项3：

y_{i j} < ζ_{i j}, &ForAll; a_{i}, a_{j} &Element; M_{n}, n = 1, 2, ..., N

ζ_ij≥0

N为消岐页面集合的个数；

综合以上各个惩罚项和阈值，得到目标函数如下所示：

\begin{matrix} \max i m i z e \underset{a_{i}, a_{j} &Element; P_{t}}{Σ} (y_{i j} * s i m (a_{i}, a_{j}) - u * φ_{i j} - ψ_{i j}) \\ - Σ_{n = 1}^{N} \underset{a_{i}, a_{j} &Element; M_{n}}{Σ} ζ_{i j} \end{matrix}

s.t.y_ij∈{0,1},φ_ij,ψ_ij,ζ_ij≥0

y_{i j} + y_{i k} \leq 1 + y_{i j} + φ_{j k}, &ForAll; a_{i}, a_{j}, a_{k} &Element; P_{t}

λ | y_{i j} - s i m (a_{i}, a_{j}) | \leq ψ_{i j}, &ForAll; a_{i}, a_{j} &Element; P_{t}

s i m (a_{i}, a_{j}) > y_{i j} * τ, &ForAll; a_{i}, a_{j} &Element; P_{t}

y_{i j} < ζ_{i j}, &ForAll; a_{i}, a_{j} &Element; M_{n}, n = 1, 2, ..., N

实施例

下面提供一实例详细说明本发明的实现步骤：

(1)实例采用的数据集来自百度百科和互动百科，其中百度百科的页面数量为10143321，互动百科的页面数量为6618544。

(2)根据(1)中的所有页面，分析页面版块结构，提取标题，摘要，目录，分类，链接，信息框等信息，并将这些信息存入lucene索引中。除了标题之外，其他的域均可以为空。

(3)根据(1)中的所有页面，提取标题同义词。同义词的提取方法主要包括模板匹配和链接重定向。通过提取到的同义词对，进一步得到标题同义词集合。用这些标题同义词集合去和(1)中的页面标题匹配，得到候选集页面。

(4)在(3)得到的候选集页面中，提取两两页面之间的特征，并以这些特征为输入，训练随机森林分类器。在这个步骤中，需要人工标注训练集。

(5)基于步骤(4)得到的相似度矩阵，构建混合线性规划模型，用该模型可得到顶点与顶点之间的关系，1表示两个顶点之间有边，0表示两个顶点之间没有边。以这些顶点和边为输入，可以构建一个无向图。提取无向图中的每一个连通分量，这些连通分量代表的页面表示一个实体。

本实例的运行结果：

对于相似度计算，采用了5种方法进行对比，最后得出随机森林分类器的效果是最好的。相似度的计算通过Precision,Recall,F1和Accuracy四种评价指标将本发明所使用的方法(SCM)和其他方法，包括贪心匹配(GA),层次聚类(AC)，最小生成树聚类(MSTC)和协同聚类(CC)进行比较，得到的结果如下表：

方法	Precision	Recall	F1	Accuracy
					GA	78.3％	76.1％	77.2％	91.6％
AC	73.0％	79.0％	75.9％	91.5％
					MSTC	63.4％	80.5％	71％	88.8％
CC	62.4％	65.5％	63.9％	87.4％
					SCM	75.8％	82.5％	79.0％	92.5

由上表对比可以看出，本方法在F1和Accuracy的表现上都要比其他方法要好。因此，本方法在实体匹配方面具有良好的使用价值和应用前景。

Claims

1.一种基于多源实体融合的知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1中所述的一种基于多源实体融合的知识图谱构建方法，其特征在于，所述的步骤1)包括：

1.1)提取百科标题的同义词，提取方式包括以下两种：

M＝{a_i∈ε_k|a_i∈M≠a_j∈M}

P_t＝{a∈ε_1,…,K|a.Title∈S_t}

K为百科的总数；a.Title为页面a的标题。

3.根据权利要求1中所述的一种基于多源实体融合的知识图谱构建方法，其特征在于，所述的步骤2)包括：

a＝{T,A,I,C,G,L}

1)摘要特征

f_{a} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . A) \cap S_{w} (a_{j} . A) |}{| S_{w} (a_{i} . A) \cup S_{w} (a_{j} . A) |}

2)信息框属性特征

f_{p} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . I . P) \cap S_{w} (a_{j} . I . P) |}{| S_{w} (a_{i} . I . P) \cup S_{w} (a_{j} . I . P) |}

3)信息框属性值特征

f_{v} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . I . V) \cap S_{w} (a_{j} . I . V) |}{| S_{w} (a_{i} . I . V) \cup S_{w} (a_{j} . I . V) |}

4)目录特征

f_{C} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . C) \cap S_{w} (a_{j} . C) |}{| S_{w} (a_{i} . C) \cup S_{w} (a_{j} . C) |}

5)用户标签特征

f_{g} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . G) \cap S_{w} (a_{j} . G) |}{| S_{w} (a_{i} . G) \cup S_{w} (a_{j} . G) |}

6)链接特征

f_{l} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . L) \cap S_{w} (a_{j} . L) |}{| S_{w} (a_{i} . L) \cup S_{w} (a_{j} . L) |}

7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接

f_{a l l} (a_{i}, a_{j}) = \frac{| S_{w} (a_{i} . S) \cap S_{w} (a_{j} . S) |}{| S_{w} (a_{i} . S) \cup S_{w} (a_{j} . S) |}

S_w(X)表示对字符串X分词后的结果集合。

4.权利要求1中所述的一种基于多源实体融合的知识图谱构建方法，其特征在于，所述的步骤3)具体包括以下步骤：

同时加入其他惩罚项和约束条件来构建混合线性规划模型：

惩罚项1：

y_{i j} + y_{i k} \leq 1 + y_{j k} + φ_{j k}, &ForAll; a_{i}, a_{j}, a_{k} &Element; P_{t}

φ_jk≥0

惩罚项2：

λ | y_{i j} - s i m (a_{i}, a_{j}) | \leq ψ_{i j}, &ForAll; a_{i}, a_{j} &Element; P_{t}

ψ_ij≥0

sim(a_i,a_j)为a_i和a_j之间的权重；

惩罚项3：

y_{i j} < ζ_{i j}, &ForAll; a_{i}, a_{j} &Element; M_{n}, n = 1, 2, ..., N

ζ_ij≥0

N为消岐页面集合的个数；

综合以上各个惩罚项和阈值，得到目标函数如下所示：

\begin{matrix} \max i m i z e \underset{a_{i}, a_{j} &Element; P_{t}}{Σ} (y_{i j} * s i m (a_{i}, a_{j}) - u * φ_{i j} - ψ_{i j}) \\ - Σ_{n = 1}^{N} \underset{a_{i}, a_{j} &Element; M_{n}}{Σ} ζ_{i j} \end{matrix}

s.t. y_ij∈{0,1},φ_ij,ψ_ij,ζ_ij≥0

y_{i j} + y_{i k} \leq 1 + y_{i j} + φ_{j k}, &ForAll; a_{i}, a_{j}, a_{k} &Element; P_{t}

λ | y_{i j} - s i m (a_{i}, a_{j}) | \leq ψ_{i j}, &ForAll; a_{i}, a_{j} &Element; P_{t}

s i m (a_{i}, a_{j}) > y_{i j} * τ, &ForAll; a_{i}, a_{j} &Element; P_{t}

y_{i j} < ζ_{i j}, &ForAll; a_{i}, a_{j} &Element; M_{n}, n = 1, 2, ..., N