CN106250412A - 基于多源实体融合的知识图谱构建方法 - Google Patents

基于多源实体融合的知识图谱构建方法 Download PDF

Info

Publication number
CN106250412A
CN106250412A CN201610583823.0A CN201610583823A CN106250412A CN 106250412 A CN106250412 A CN 106250412A CN 201610583823 A CN201610583823 A CN 201610583823A CN 106250412 A CN106250412 A CN 106250412A
Authority
CN
China
Prior art keywords
page
synonym
similarity
limit
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610583823.0A
Other languages
English (en)
Other versions
CN106250412B (zh
Inventor
鲁伟明
戴豪
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610583823.0A priority Critical patent/CN106250412B/zh
Publication of CN106250412A publication Critical patent/CN106250412A/zh
Application granted granted Critical
Publication of CN106250412B publication Critical patent/CN106250412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科:百度百科、互动百科,***,并对数据做预处理,包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后,针对在同一个候选集里的页面,计算两两页面之间的特征,并训练分类器计算页面之间的相似度,并根据相似度构建权重图。最后,通过混合线性规划模型,约束权重图中顶点与顶点之间的关系,通过计算目标函数的最大值,得到顶点与顶点之间的连通性,将每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。本发明通过引入候选集,大大减小了问题的规模;同时又通过混合线性规划模型,提高了实体融合的准确率。

Description

基于多源实体融合的知识图谱构建方法
技术领域
本发明涉及文本相似度计算方法,尤其涉及一种基于多源实体融合的知识图谱构建方法。
背景技术
随着互联网的迅速发展,人们获取信息和知识的途径越来越多样化,但是海量的数据分布于互联网的每一个角落,这给用户获取知识带来了很大的障碍。因此,构建一个统一完备的知识库迫在眉睫。
目前已经存在许多知识库,比如DBpedia是一个特殊的语义网应用范例,它从***的词条里撷取出结构化的资料,以强化***的搜寻功能,并将其他资料集连结至***;Freebase是一个大型的合作知识库,它整合了网络上的许多资源。Freebase中的条目也与DBpedia类似,都采用结构化数据的形式。通过访问其数据可以发现其中所有的内容都是格式化的,按照三元组的格式存储并展示。这个模式是固定的,同一类型的条目都包含相同的属性。鉴于以上原因,同类数据之间就可以很容易地联系在一起,为信息查询提供了便利。Freebase包含数以千万计的主题,成千上万的类型和属性。但是这些知识库的语言都是英语,目前中文领域还没有一个大型的完备的知识库。
传统的关于知识库的实体匹配算法中,主要是基于成对实体的匹配,并把这个问题形式化成一个分类问题。然而,大多数这类算法都严重地依赖于数据模板的质量。对于Web数据来说,数据不是以一个统一的三元组形式呈现的,而且不同源的数据在表达形式上也有较大的差异,因此这种方法在我们的这个问题上适用性较低。
在另外一些匹配算法中,将页面的结构信息也考虑到特征中,比如在中英文维基的实体匹配中,因为已经有相当一部分页面存在跨语言链接,所以这部分信息可以作为先验知识。然而,我们的多源数据之间是没有任何链接的,所以页面的结构特征无法纳入特征之中。
在两个集合的特征计算中,可以使用Jaccard系数。Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较Xn和Yn中相同的个数。
在特征相似度计算中,有许多算法可以应用。简单的可以直接计算欧式距离或者余弦距离。也可以根据特征训练分类器,使用分类器来计算相似度。随机森林是一种性能良好的分类器,可以用在特征相似度计算中。它指的是利用多棵决策树对样本进行训练并预测的一种分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林具有许多优点,比如特征丢失时,仍可以保持较高的准确度,且不会产生过拟合问题。
发明内容
本发明为整合多源百科知识,构建统一的知识库,提供了一种基于多源实体融合的知识图谱构建方法。不同源的百科通常会包含描述同一个实体的多个页面,多源实体融合技术可以在海量的数据中找到这些页面,并将其映射到同一个实体上。
本发明解决其技术问题采用的技术方案如下:一种基于多源实体融合的知识图谱构建方法,包括以下步骤:
1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。
2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。
3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
进一步地,所述的步骤1)包括:
1.1)提取百科标题的同义词,提取方式包括以下两种:
a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。
b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。
1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。
M={ai∈εk|ai∈M≠aj∈M}
1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词。通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。
给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt
Pt={a∈ε1,…,K|a.Title∈St}
K为百科的总数;a.Title为页面a的标题。
1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框(键和值),链接,目录,用户标签,并去除停用词和长度小于2的词。
进一步地,所述的步骤2)包括:
2.1)定义一个页面所包含的6个域,包括标题T,摘要A,信息框I,目录C,用户标签G和链接L,用一个6元组来表示一个页面:
a={T,A,I,C,G,L}
其中信息框表示为键值对,因此I={P,V},其中P表示属性,V表示属性值;
对于属于同一个候选集的2个页面,如果他们描述的是一个实体,那么他们的文本重叠率会比较大,因此定义以下7个特征,分别如下:
1)摘要特征
f a ( a i , a j ) = | S w ( a i . A ) ∩ S w ( a j . A ) | | S w ( a i . A ) ∪ S w ( a j . A ) |
2)信息框属性特征
f p ( a i , a j ) = | S w ( a i . I . P ) ∩ S w ( a j . I . P ) | | S w ( a i . I . P ) ∪ S w ( a j . I . P ) |
3)信息框属性值特征
f v ( a i , a j ) = | S w ( a i . I . V ) ∩ S w ( a j . I . V ) | | S w ( a i . I . V ) ∪ S w ( a j . I . V ) |
4)目录特征
f C ( a i , a j ) = | S w ( a i . C ) ∩ S w ( a j . C ) | | S w ( a i . C ) ∪ S w ( a j . C ) |
5)用户标签特征
f g ( a i , a j ) = | S w ( a i . G ) ∩ S w ( a j . G ) | | S w ( a i . G ) ∪ S w ( a j . G ) |
6)链接特征
f l ( a i , a j ) = | S w ( a i . L ) ∩ S w ( a j . L ) | | S w ( a i . L ) ∪ S w ( a j . L ) |
7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接
f a l l ( a i , a j ) = | S w ( a i . S ) ∩ S w ( a j . S ) | | S w ( a i . S ) ∪ S w ( a j . S ) |
Sw(X)表示对字符串X分词后的结果集合。
2.2)将在步骤2.1)得到的7个特征作为分类器的输入,利用Weka算法包中的RandomForest算法训练二类分类器,然后用这个二类分类器来预测两个页面之间的相似度。
进一步地,所述的步骤3)具体包括以下步骤:
3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图,两个结点之间的权重边用相似度表示。由此,将原问题转换成边的取舍问题。用yij表示两个结点之间是否有边:
同时加入其他惩罚项和约束条件来构建混合线性规划模型:
惩罚项1:
如果ai与aj有边,且ai与ak有边,那么aj与ak之间也应该有边,否则加入惩罚项φ,同时乘上系数u作为调整参数。因此对于φ,有下面的约束:
y i j + y i k ≤ 1 + y j k + φ j k , ∀ a i , a j , a k ∈ P t
φjk≥0
惩罚项2:
如果ai与aj之间的相似度越高,那么他们之间有边的概率越大。对于两个相似度很小的ai与aj,如果他们之间有边,则惩罚项较大,如果ai与aj的相似度较大,那么惩罚项较小。因此,用ψij表示惩罚项,用λ表示调整参数,该惩罚项用下式约束:
λ | y i j - s i m ( a i , a j ) | ≤ ψ i j , ∀ a i , a j ∈ P t
ψij≥0
sim(ai,aj)为ai和aj之间的权重;
惩罚项3:
对于在一个消岐页面集合M里面出现的ai与aj,如果yij等于1,则表明匹配错误,因此需要用惩罚项ζij来约束ai与aj之间没有边。用下面的式子表示这个约束条件:
y i j < &zeta; i j , &ForAll; a i , a j &Element; M n , n = 1 , 2 , ... , N
ζij≥0
N为消岐页面集合的个数;
此外,对相似度设置阈值τ,只有相似度大于阈值τ的ai与aj的页面之间才能有边。
综合以上各个惩罚项和阈值,得到目标函数如下所示:
max i m i z e &Sigma; a i , a j &Element; P t ( y i j * s i m ( a i , a j ) - u * &phi; i j - &psi; i j ) - &Sigma; n = 1 N &Sigma; a i , a j &Element; M n &zeta; i j
s.t.yij∈{0,1},φijijij≥0
y i j + y i k &le; 1 + y i j + &phi; j k , &ForAll; a i , a j , a k &Element; P t
&lambda; | y i j - s i m ( a i , a j ) | &le; &psi; i j , &ForAll; a i , a j &Element; P t
s i m ( a i , a j ) > y i j * &tau; , &ForAll; a i , a j &Element; P t
y i j < &zeta; i j , &ForAll; a i , a j &Element; M n , n = 1 , 2 , ... , N
求得该目标函数的最大值,从而得到该最大值对应的边的参数yij
3.2)将该权重图中的每一个连通分量当作一个实体,得到描述一个实体的所有页面。
本发明方法与现有技术相比具有的有益效果:
1.该方法利用标题同义词,得到标题候选集,再从标题候选集中得到页面候选集,在一个页面候选集中计算页面相似度,从而很大程度地减小了问题的规模,使得接下来的算法实施更加简单。
2.该方法根据页面结构,提取了7个文本特征的Jaccard系数,并采用随机森林算法计算页面与页面之间的相似度,这个相似度可以较准确地反应页面的相似度。
3.该方法在图上对页面之间的相似度建模,利用混合线性规划模型求得图上顶点与顶点之间的关系,即页面与页面之间的关系。通过这些关系,可以构建一个无向图。在这个无向图中,可以较准确地得到描述一个实体的所有页面。
附图说明
图1是本发明的总体流程图;
图2是步骤2)的流程图;
图3是步骤3)的流程图;
图4是步骤4)的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一下详细说明。
如图1-图4所示,基于多源实体融合的知识图谱构建方法的步骤如下:
1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。
2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。
3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
所述的步骤1)为:
1.1)提取百科标题的同义词,提取方式包括以下两种:
a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。例如:对于带有同义词的页面,在页面的开头或摘要的第一句话通常会出现“A又名B”,“A别称B”,“A是B的同义词”等字符串,通过正则匹配,可以得到一部分同义词对。
b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。
1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。
M={ai∈εk|ai∈M≠aj∈M}
1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词。通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。
给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt
Pt={a∈ε1,…,K|a.Title∈St}
K为百科的总数;a.Title为页面a的标题。
1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框(键和值),链接,目录,用户标签,并去除停用词和长度小于2的词。
所述的步骤2)包括:
2.1)定义一个页面所包含的6个域,包括标题T,摘要A,信息框I,目录C,用户标签G和链接L,用一个6元组来表示一个页面:
a={T,A,I,C,G,L}
其中信息框表示为键值对,因此I={P,V},其中P表示属性,V表示属性值;
对于属于同一个候选集的2个页面,如果他们描述的是一个实体,那么他们的文本重叠率会比较大,因此定义以下7个特征,分别如下:1)摘要特征
f a ( a i , a j ) = | S w ( a i . A ) &cap; S w ( a j . A ) | | S w ( a i . A ) &cup; S w ( a j . A ) |
2)信息框属性特征
f p ( a i , a j ) = | S w ( a i . I . P ) &cap; S w ( a j . I . P ) | | S w ( a i . I . P ) &cup; S w ( a j . I . P ) |
3)信息框属性值特征
f v ( a i , a j ) = | S w ( a i . I . V ) &cap; S w ( a j . I . V ) | | S w ( a i . I . V ) &cup; S w ( a j . I . V ) |
4)目录特征
f C ( a i , a j ) = | S w ( a i . C ) &cap; S w ( a j . C ) | | S w ( a i . C ) &cup; S w ( a j . C ) |
5)用户标签特征
f g ( a i , a j ) = | S w ( a i . G ) &cap; S w ( a j . G ) | | S w ( a i . G ) &cup; S w ( a j . G ) |
6)链接特征
f l ( a i , a j ) = | S w ( a i . L ) &cap; S w ( a j . L ) | | S w ( a i . L ) &cup; S w ( a j . L ) |
7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接
f a l l ( a i , a j ) = | S w ( a i . S ) &cap; S w ( a j . S ) | | S w ( a i . S ) &cup; S w ( a j . S ) |
Sw(X)表示对字符串X分词后的结果集合。
2.2)将在步骤2.1)得到的7个特征作为分类器的输入,利用Weka算法包中的RandomForest算法训练二类分类器,然后用这个二类分类器来预测两个页面之间的相似度。
所述的步骤3)具体包括以下步骤:
3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图,两个结点之间的权重边用相似度表示。由此,将原问题转换成边的取舍问题。用yij表示两个结点之间是否有边:
同时加入其他惩罚项和约束条件来构建混合线性规划模型:
惩罚项1:
如果ai与aj有边,且ai与ak有边,那么aj与ak之间也应该有边,否则加入惩罚项φ,同时乘上系数u作为调整参数。因此对于φ,有下面的约束:
y i j + y i k &le; 1 + y j k + &phi; j k , &ForAll; a i , a j , a k &Element; P t
φjk≥0
惩罚项2:
如果ai与aj之间的相似度越高,那么他们之间有边的概率越大。对于两个相似度很小的ai与aj,如果他们之间有边,则惩罚项较大,如果ai与aj的相似度较大,那么惩罚项较小。因此,用ψij表示惩罚项,用λ表示调整参数,该惩罚项用下式约束:
&lambda; | y i j - s i m ( a i , a j ) | &le; &psi; i j , &ForAll; a i , a j &Element; P t
ψij≥0
sim(ai,aj)为ai和aj之间的权重;
惩罚项3:
对于在一个消岐页面集合M里面出现的ai与aj,如果yij等于1,则表明匹配错误,因此需要用惩罚项ζij来约束ai与aj之间没有边。用下面的式子表示这个约束条件:
y i j < &zeta; i j , &ForAll; a i , a j &Element; M n , n = 1 , 2 , ... , N
ζij≥0
N为消岐页面集合的个数;
此外,对相似度设置阈值τ,只有相似度大于阈值τ的ai与aj的页面之间才能有边。
综合以上各个惩罚项和阈值,得到目标函数如下所示:
max i m i z e &Sigma; a i , a j &Element; P t ( y i j * s i m ( a i , a j ) - u * &phi; i j - &psi; i j ) - &Sigma; n = 1 N &Sigma; a i , a j &Element; M n &zeta; i j
s.t.yij∈{0,1},φijijij≥0
y i j + y i k &le; 1 + y i j + &phi; j k , &ForAll; a i , a j , a k &Element; P t
&lambda; | y i j - s i m ( a i , a j ) | &le; &psi; i j , &ForAll; a i , a j &Element; P t
s i m ( a i , a j ) > y i j * &tau; , &ForAll; a i , a j &Element; P t
y i j < &zeta; i j , &ForAll; a i , a j &Element; M n , n = 1 , 2 , ... , N
求得该目标函数的最大值,从而得到该最大值对应的边的参数yij
3.2)将该权重图中的每一个连通分量当作一个实体,得到描述一个实体的所有页面。
实施例
下面提供一实例详细说明本发明的实现步骤:
(1)实例采用的数据集来自百度百科和互动百科,其中百度百科的页面数量为10143321,互动百科的页面数量为6618544。
(2)根据(1)中的所有页面,分析页面版块结构,提取标题,摘要,目录,分类,链接,信息框等信息,并将这些信息存入lucene索引中。除了标题之外,其他的域均可以为空。
(3)根据(1)中的所有页面,提取标题同义词。同义词的提取方法主要包括模板匹配和链接重定向。通过提取到的同义词对,进一步得到标题同义词集合。用这些标题同义词集合去和(1)中的页面标题匹配,得到候选集页面。
(4)在(3)得到的候选集页面中,提取两两页面之间的特征,并以这些特征为输入,训练随机森林分类器。在这个步骤中,需要人工标注训练集。
(5)基于步骤(4)得到的相似度矩阵,构建混合线性规划模型,用该模型可得到顶点与顶点之间的关系,1表示两个顶点之间有边,0表示两个顶点之间没有边。以这些顶点和边为输入,可以构建一个无向图。提取无向图中的每一个连通分量,这些连通分量代表的页面表示一个实体。
本实例的运行结果:
对于相似度计算,采用了5种方法进行对比,最后得出随机森林分类器的效果是最好的。相似度的计算通过Precision,Recall,F1和Accuracy四种评价指标将本发明所使用的方法(SCM)和其他方法,包括贪心匹配(GA),层次聚类(AC),最小生成树聚类(MSTC)和协同聚类(CC)进行比较,得到的结果如下表:
方法 Precision Recall F1 Accuracy
GA 78.3% 76.1% 77.2% 91.6%
AC 73.0% 79.0% 75.9% 91.5%
MSTC 63.4% 80.5% 71% 88.8%
CC 62.4% 65.5% 63.9% 87.4%
SCM 75.8% 82.5% 79.0% 92.5
由上表对比可以看出,本方法在F1和Accuracy的表现上都要比其他方法要好。因此,本方法在实体匹配方面具有良好的使用价值和应用前景。

Claims (4)

1.一种基于多源实体融合的知识图谱构建方法,其特征在于,包括以下步骤:
1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。
2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。
3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
2.根据权利要求1中所述的一种基于多源实体融合的知识图谱构建方法,其特征在于,所述的步骤1)包括:
1.1)提取百科标题的同义词,提取方式包括以下两种:
a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。
b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。
1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。
M={ai∈εk|ai∈M≠aj∈M}
1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词。通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。
给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt
Pt={a∈ε1,…,K|a.Title∈St}
K为百科的总数;a.Title为页面a的标题。
1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框(键和值),链接,目录,用户标签,并去除停用词和长度小于2的词。
3.根据权利要求1中所述的一种基于多源实体融合的知识图谱构建方法,其特征在于,所述的步骤2)包括:
2.1)定义一个页面所包含的6个域,包括标题T,摘要A,信息框I,目录C,用户标签G和链接L,用一个6元组来表示一个页面:
a={T,A,I,C,G,L}
其中信息框表示为键值对,因此I={P,V},其中P表示属性,V表示属性值;
对于属于同一个候选集的2个页面,如果他们描述的是一个实体,那么他们的文本重叠率会比较大,因此定义以下7个特征,分别如下:
1)摘要特征
f a ( a i , a j ) = | S w ( a i . A ) &cap; S w ( a j . A ) | | S w ( a i . A ) &cup; S w ( a j . A ) |
2)信息框属性特征
f p ( a i , a j ) = | S w ( a i . I . P ) &cap; S w ( a j . I . P ) | | S w ( a i . I . P ) &cup; S w ( a j . I . P ) |
3)信息框属性值特征
f v ( a i , a j ) = | S w ( a i . I . V ) &cap; S w ( a j . I . V ) | | S w ( a i . I . V ) &cup; S w ( a j . I . V ) |
4)目录特征
f C ( a i , a j ) = | S w ( a i . C ) &cap; S w ( a j . C ) | | S w ( a i . C ) &cup; S w ( a j . C ) |
5)用户标签特征
f g ( a i , a j ) = | S w ( a i . G ) &cap; S w ( a j . G ) | | S w ( a i . G ) &cup; S w ( a j . G ) |
6)链接特征
f l ( a i , a j ) = | S w ( a i . L ) &cap; S w ( a j . L ) | | S w ( a i . L ) &cup; S w ( a j . L ) |
7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接
f a l l ( a i , a j ) = | S w ( a i . S ) &cap; S w ( a j . S ) | | S w ( a i . S ) &cup; S w ( a j . S ) |
Sw(X)表示对字符串X分词后的结果集合。
2.2)将在步骤2.1)得到的7个特征作为分类器的输入,利用Weka算法包中的RandomForest算法训练二类分类器,然后用这个二类分类器来预测两个页面之间的相似度。
4.权利要求1中所述的一种基于多源实体融合的知识图谱构建方法,其特征在于,所述的步骤3)具体包括以下步骤:
3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图,两个结点之间的权重边用相似度表示。由此,将原问题转换成边的取舍问题。用yij表示两个结点之间是否有边:
同时加入其他惩罚项和约束条件来构建混合线性规划模型:
惩罚项1:
如果ai与aj有边,且ai与ak有边,那么aj与ak之间也应该有边,否则加入惩罚项φ,同时乘上系数u作为调整参数。因此对于φ,有下面的约束:
y i j + y i k &le; 1 + y j k + &phi; j k , &ForAll; a i , a j , a k &Element; P t
φjk≥0
惩罚项2:
如果ai与aj之间的相似度越高,那么他们之间有边的概率越大。对于两个相似度很小的ai与aj,如果他们之间有边,则惩罚项较大,如果ai与aj的相似度较大,那么惩罚项较小。因此,用ψij表示惩罚项,用λ表示调整参数,该惩罚项用下式约束:
&lambda; | y i j - s i m ( a i , a j ) | &le; &psi; i j , &ForAll; a i , a j &Element; P t
ψij≥0
sim(ai,aj)为ai和aj之间的权重;
惩罚项3:
对于在一个消岐页面集合M里面出现的ai与aj,如果yij等于1,则表明匹配错误,因此需要用惩罚项ζij来约束ai与aj之间没有边。用下面的式子表示这个约束条件:
y i j < &zeta; i j , &ForAll; a i , a j &Element; M n , n = 1 , 2 , ... , N
ζij≥0
N为消岐页面集合的个数;
此外,对相似度设置阈值τ,只有相似度大于阈值τ的ai与aj的页面之间才能有边。
综合以上各个惩罚项和阈值,得到目标函数如下所示:
max i m i z e &Sigma; a i , a j &Element; P t ( y i j * s i m ( a i , a j ) - u * &phi; i j - &psi; i j ) - &Sigma; n = 1 N &Sigma; a i , a j &Element; M n &zeta; i j
s.t. yij∈{0,1},φijijij≥0
y i j + y i k &le; 1 + y i j + &phi; j k , &ForAll; a i , a j , a k &Element; P t
&lambda; | y i j - s i m ( a i , a j ) | &le; &psi; i j , &ForAll; a i , a j &Element; P t
s i m ( a i , a j ) > y i j * &tau; , &ForAll; a i , a j &Element; P t
y i j < &zeta; i j , &ForAll; a i , a j &Element; M n , n = 1 , 2 , ... , N
求得该目标函数的最大值,从而得到该最大值对应的边的参数yij
3.2)将该权重图中的每一个连通分量当作一个实体,得到描述一个实体的所有页面。
CN201610583823.0A 2016-07-22 2016-07-22 基于多源实体融合的知识图谱构建方法 Active CN106250412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610583823.0A CN106250412B (zh) 2016-07-22 2016-07-22 基于多源实体融合的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610583823.0A CN106250412B (zh) 2016-07-22 2016-07-22 基于多源实体融合的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN106250412A true CN106250412A (zh) 2016-12-21
CN106250412B CN106250412B (zh) 2019-04-23

Family

ID=57604424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610583823.0A Active CN106250412B (zh) 2016-07-22 2016-07-22 基于多源实体融合的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN106250412B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及***
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107038257A (zh) * 2017-05-10 2017-08-11 浙江大学 一种基于知识图谱的城市物联网数据分析框架
CN107220386A (zh) * 2017-06-29 2017-09-29 北京百度网讯科技有限公司 信息推送方法和装置
CN107423820A (zh) * 2016-05-24 2017-12-01 清华大学 结合实体层次类别的知识图谱表示学习方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及***
CN108399180A (zh) * 2017-02-08 2018-08-14 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN108694177A (zh) * 2017-04-06 2018-10-23 北大方正集团有限公司 知识图谱构建方法及***
CN108777635A (zh) * 2018-05-24 2018-11-09 梧州井儿铺贸易有限公司 一种企业设备管理***
CN109033129A (zh) * 2018-06-04 2018-12-18 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN109657069A (zh) * 2018-12-11 2019-04-19 北京百度网讯科技有限公司 知识图谱的生成方法及其装置
CN109857872A (zh) * 2019-02-18 2019-06-07 浪潮软件集团有限公司 基于知识图谱的信息推荐方法和装置
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN110209839A (zh) * 2019-06-18 2019-09-06 卓尔智联(武汉)研究院有限公司 农业知识图谱构建装置、方法及计算机可读存储介质
CN110245198A (zh) * 2019-06-18 2019-09-17 北京百度网讯科技有限公司 多源售票数据管理方法及***、服务器和计算机可读介质
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110427612A (zh) * 2019-07-02 2019-11-08 平安科技(深圳)有限公司 基于多语言的实体消歧方法、装置、设备和存储介质
CN111708891A (zh) * 2019-03-01 2020-09-25 九阳股份有限公司 一种多源食材数据之间的食材实体链接方法和装置
CN111813962A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法
CN111881290A (zh) * 2020-06-17 2020-11-03 国家电网有限公司 一种基于加权语义相似度的配网多源网架实体融合方法
CN112115328A (zh) * 2020-08-24 2020-12-22 苏宁金融科技(南京)有限公司 一种页面流量地图构建方法、装置及计算机可读存储介质
CN112163094A (zh) * 2020-08-25 2021-01-01 中国科学院计算机网络信息中心 一种科技资源汇聚与持续服务方法及装置
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与***、电子设备
CN113139050A (zh) * 2021-05-10 2021-07-20 桂林电子科技大学 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN113157861A (zh) * 2021-04-12 2021-07-23 山东新一代信息产业技术研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113326686A (zh) * 2020-02-28 2021-08-31 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法
CN113392220A (zh) * 2020-10-23 2021-09-14 腾讯科技(深圳)有限公司 一种知识图谱生成方法、装置、计算机设备及存储介质
CN114153839A (zh) * 2021-10-29 2022-03-08 杭州未名信科科技有限公司 多源异构数据的集成方法、装置、设备及存储介质
US11487832B2 (en) * 2018-09-27 2022-11-01 Google Llc Analyzing web pages to facilitate automatic navigation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
CN105787105A (zh) * 2016-03-21 2016-07-20 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
CN105787105A (zh) * 2016-03-21 2016-07-20 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
楼仁杰: "基于中文百科的知识图谱分类体系构建研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王龙甫: "基于中文百科的概念知识库构建", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423820A (zh) * 2016-05-24 2017-12-01 清华大学 结合实体层次类别的知识图谱表示学习方法
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及***
CN106844658B (zh) * 2017-01-23 2019-12-13 中山大学 一种中文文本知识图谱自动构建方法及***
CN108399180A (zh) * 2017-02-08 2018-08-14 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN108399180B (zh) * 2017-02-08 2021-11-26 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106909643B (zh) * 2017-02-20 2020-08-14 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN108694177A (zh) * 2017-04-06 2018-10-23 北大方正集团有限公司 知识图谱构建方法及***
CN107038257A (zh) * 2017-05-10 2017-08-11 浙江大学 一种基于知识图谱的城市物联网数据分析框架
CN107220386A (zh) * 2017-06-29 2017-09-29 北京百度网讯科技有限公司 信息推送方法和装置
CN107220386B (zh) * 2017-06-29 2020-10-02 北京百度网讯科技有限公司 信息推送方法和装置
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及***
CN108182295B (zh) * 2018-02-09 2021-09-10 重庆电信***集成有限公司 一种企业知识图谱属性抽取方法及***
CN108777635A (zh) * 2018-05-24 2018-11-09 梧州井儿铺贸易有限公司 一种企业设备管理***
CN109033129B (zh) * 2018-06-04 2021-08-03 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN109033129A (zh) * 2018-06-04 2018-12-18 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
US11971936B2 (en) 2018-09-27 2024-04-30 Google Llc Analyzing web pages to facilitate automatic navigation
US11487832B2 (en) * 2018-09-27 2022-11-01 Google Llc Analyzing web pages to facilitate automatic navigation
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN109657069A (zh) * 2018-12-11 2019-04-19 北京百度网讯科技有限公司 知识图谱的生成方法及其装置
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109902144B (zh) * 2019-01-11 2020-01-31 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109857872A (zh) * 2019-02-18 2019-06-07 浪潮软件集团有限公司 基于知识图谱的信息推荐方法和装置
CN111708891A (zh) * 2019-03-01 2020-09-25 九阳股份有限公司 一种多源食材数据之间的食材实体链接方法和装置
CN111708891B (zh) * 2019-03-01 2023-12-08 九阳股份有限公司 一种多源食材数据之间的食材实体链接方法和装置
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110377747B (zh) * 2019-06-10 2021-12-07 河海大学 一种面向百科网站的知识库融合方法
CN110209839A (zh) * 2019-06-18 2019-09-06 卓尔智联(武汉)研究院有限公司 农业知识图谱构建装置、方法及计算机可读存储介质
CN110245198A (zh) * 2019-06-18 2019-09-17 北京百度网讯科技有限公司 多源售票数据管理方法及***、服务器和计算机可读介质
CN110427612A (zh) * 2019-07-02 2019-11-08 平安科技(深圳)有限公司 基于多语言的实体消歧方法、装置、设备和存储介质
CN113326686B (zh) * 2020-02-28 2024-05-10 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法
CN113326686A (zh) * 2020-02-28 2021-08-31 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法
CN111881290A (zh) * 2020-06-17 2020-11-03 国家电网有限公司 一种基于加权语义相似度的配网多源网架实体融合方法
CN112115328B (zh) * 2020-08-24 2022-08-19 苏宁金融科技(南京)有限公司 一种页面流量地图构建方法、装置及计算机可读存储介质
CN112115328A (zh) * 2020-08-24 2020-12-22 苏宁金融科技(南京)有限公司 一种页面流量地图构建方法、装置及计算机可读存储介质
CN112163094A (zh) * 2020-08-25 2021-01-01 中国科学院计算机网络信息中心 一种科技资源汇聚与持续服务方法及装置
CN111813962A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法
CN111813962B (zh) * 2020-09-07 2020-12-18 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法
CN113392220A (zh) * 2020-10-23 2021-09-14 腾讯科技(深圳)有限公司 一种知识图谱生成方法、装置、计算机设备及存储介质
CN113392220B (zh) * 2020-10-23 2024-03-26 腾讯科技(深圳)有限公司 一种知识图谱生成方法、装置、计算机设备及存储介质
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与***、电子设备
CN113157861B (zh) * 2021-04-12 2022-05-24 山东浪潮科学研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113157861A (zh) * 2021-04-12 2021-07-23 山东新一代信息产业技术研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113139050A (zh) * 2021-05-10 2021-07-20 桂林电子科技大学 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN114153839A (zh) * 2021-10-29 2022-03-08 杭州未名信科科技有限公司 多源异构数据的集成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106250412B (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN106250412A (zh) 基于多源实体融合的知识图谱构建方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN103473283B (zh) 一种文本案例匹配方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN104991905B (zh) 一种基于层次索引的数学表达式检索方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN106156286A (zh) 面向专业文献知识实体的类型抽取***及方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN102117281A (zh) 一种构建领域本体的方法
US9146988B2 (en) Hierarchal clustering method for large XML data
CN116127090B (zh) 基于融合和半监督信息抽取的航空***知识图谱构建方法
CN110175334A (zh) 基于自定义的知识槽结构的文本知识抽取***和方法
CN112487190A (zh) 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN114997288A (zh) 一种设计资源关联方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及***
CN115391553A (zh) 一种自动搜索时序知识图谱补全模型的方法
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索***及方法
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20161221

Assignee: TONGDUN HOLDINGS Co.,Ltd.

Assignor: ZHEJIANG University

Contract record no.: X2021990000612

Denomination of invention: Construction method of knowledge map based on multi-source entity fusion

Granted publication date: 20190423

License type: Common License

Record date: 20211012