CN106250412A - 基于多源实体融合的知识图谱构建方法 - Google Patents
基于多源实体融合的知识图谱构建方法 Download PDFInfo
- Publication number
- CN106250412A CN106250412A CN201610583823.0A CN201610583823A CN106250412A CN 106250412 A CN106250412 A CN 106250412A CN 201610583823 A CN201610583823 A CN 201610583823A CN 106250412 A CN106250412 A CN 106250412A
- Authority
- CN
- China
- Prior art keywords
- page
- synonym
- similarity
- limit
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多源实体融合的知识图谱构建方法。本发明首先爬取中文三大百科:百度百科、互动百科,***,并对数据做预处理,包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后,针对在同一个候选集里的页面,计算两两页面之间的特征,并训练分类器计算页面之间的相似度,并根据相似度构建权重图。最后,通过混合线性规划模型,约束权重图中顶点与顶点之间的关系,通过计算目标函数的最大值,得到顶点与顶点之间的连通性,将每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。本发明通过引入候选集,大大减小了问题的规模;同时又通过混合线性规划模型,提高了实体融合的准确率。
Description
技术领域
本发明涉及文本相似度计算方法,尤其涉及一种基于多源实体融合的知识图谱构建方法。
背景技术
随着互联网的迅速发展,人们获取信息和知识的途径越来越多样化,但是海量的数据分布于互联网的每一个角落,这给用户获取知识带来了很大的障碍。因此,构建一个统一完备的知识库迫在眉睫。
目前已经存在许多知识库,比如DBpedia是一个特殊的语义网应用范例,它从***的词条里撷取出结构化的资料,以强化***的搜寻功能,并将其他资料集连结至***;Freebase是一个大型的合作知识库,它整合了网络上的许多资源。Freebase中的条目也与DBpedia类似,都采用结构化数据的形式。通过访问其数据可以发现其中所有的内容都是格式化的,按照三元组的格式存储并展示。这个模式是固定的,同一类型的条目都包含相同的属性。鉴于以上原因,同类数据之间就可以很容易地联系在一起,为信息查询提供了便利。Freebase包含数以千万计的主题,成千上万的类型和属性。但是这些知识库的语言都是英语,目前中文领域还没有一个大型的完备的知识库。
传统的关于知识库的实体匹配算法中,主要是基于成对实体的匹配,并把这个问题形式化成一个分类问题。然而,大多数这类算法都严重地依赖于数据模板的质量。对于Web数据来说,数据不是以一个统一的三元组形式呈现的,而且不同源的数据在表达形式上也有较大的差异,因此这种方法在我们的这个问题上适用性较低。
在另外一些匹配算法中,将页面的结构信息也考虑到特征中,比如在中英文维基的实体匹配中,因为已经有相当一部分页面存在跨语言链接,所以这部分信息可以作为先验知识。然而,我们的多源数据之间是没有任何链接的,所以页面的结构特征无法纳入特征之中。
在两个集合的特征计算中,可以使用Jaccard系数。Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较Xn和Yn中相同的个数。
在特征相似度计算中,有许多算法可以应用。简单的可以直接计算欧式距离或者余弦距离。也可以根据特征训练分类器,使用分类器来计算相似度。随机森林是一种性能良好的分类器,可以用在特征相似度计算中。它指的是利用多棵决策树对样本进行训练并预测的一种分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林具有许多优点,比如特征丢失时,仍可以保持较高的准确度,且不会产生过拟合问题。
发明内容
本发明为整合多源百科知识,构建统一的知识库,提供了一种基于多源实体融合的知识图谱构建方法。不同源的百科通常会包含描述同一个实体的多个页面,多源实体融合技术可以在海量的数据中找到这些页面,并将其映射到同一个实体上。
本发明解决其技术问题采用的技术方案如下:一种基于多源实体融合的知识图谱构建方法,包括以下步骤:
1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。
2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。
3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
进一步地,所述的步骤1)包括:
1.1)提取百科标题的同义词,提取方式包括以下两种:
a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。
b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。
1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。
M={ai∈εk|ai∈M≠aj∈M}
1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词。通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。
给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt。
Pt={a∈ε1,…,K|a.Title∈St}
K为百科的总数;a.Title为页面a的标题。
1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框(键和值),链接,目录,用户标签,并去除停用词和长度小于2的词。
进一步地,所述的步骤2)包括:
2.1)定义一个页面所包含的6个域,包括标题T,摘要A,信息框I,目录C,用户标签G和链接L,用一个6元组来表示一个页面:
a={T,A,I,C,G,L}
其中信息框表示为键值对,因此I={P,V},其中P表示属性,V表示属性值;
对于属于同一个候选集的2个页面,如果他们描述的是一个实体,那么他们的文本重叠率会比较大,因此定义以下7个特征,分别如下:
1)摘要特征
2)信息框属性特征
3)信息框属性值特征
4)目录特征
5)用户标签特征
6)链接特征
7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接
Sw(X)表示对字符串X分词后的结果集合。
2.2)将在步骤2.1)得到的7个特征作为分类器的输入,利用Weka算法包中的RandomForest算法训练二类分类器,然后用这个二类分类器来预测两个页面之间的相似度。
进一步地,所述的步骤3)具体包括以下步骤:
3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图,两个结点之间的权重边用相似度表示。由此,将原问题转换成边的取舍问题。用yij表示两个结点之间是否有边:
同时加入其他惩罚项和约束条件来构建混合线性规划模型:
惩罚项1:
如果ai与aj有边,且ai与ak有边,那么aj与ak之间也应该有边,否则加入惩罚项φ,同时乘上系数u作为调整参数。因此对于φ,有下面的约束:
φjk≥0
惩罚项2:
如果ai与aj之间的相似度越高,那么他们之间有边的概率越大。对于两个相似度很小的ai与aj,如果他们之间有边,则惩罚项较大,如果ai与aj的相似度较大,那么惩罚项较小。因此,用ψij表示惩罚项,用λ表示调整参数,该惩罚项用下式约束:
ψij≥0
sim(ai,aj)为ai和aj之间的权重;
惩罚项3:
对于在一个消岐页面集合M里面出现的ai与aj,如果yij等于1,则表明匹配错误,因此需要用惩罚项ζij来约束ai与aj之间没有边。用下面的式子表示这个约束条件:
ζij≥0
N为消岐页面集合的个数;
此外,对相似度设置阈值τ,只有相似度大于阈值τ的ai与aj的页面之间才能有边。
综合以上各个惩罚项和阈值,得到目标函数如下所示:
s.t.yij∈{0,1},φij,ψij,ζij≥0
求得该目标函数的最大值,从而得到该最大值对应的边的参数yij。
3.2)将该权重图中的每一个连通分量当作一个实体,得到描述一个实体的所有页面。
本发明方法与现有技术相比具有的有益效果:
1.该方法利用标题同义词,得到标题候选集,再从标题候选集中得到页面候选集,在一个页面候选集中计算页面相似度,从而很大程度地减小了问题的规模,使得接下来的算法实施更加简单。
2.该方法根据页面结构,提取了7个文本特征的Jaccard系数,并采用随机森林算法计算页面与页面之间的相似度,这个相似度可以较准确地反应页面的相似度。
3.该方法在图上对页面之间的相似度建模,利用混合线性规划模型求得图上顶点与顶点之间的关系,即页面与页面之间的关系。通过这些关系,可以构建一个无向图。在这个无向图中,可以较准确地得到描述一个实体的所有页面。
附图说明
图1是本发明的总体流程图;
图2是步骤2)的流程图;
图3是步骤3)的流程图;
图4是步骤4)的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一下详细说明。
如图1-图4所示,基于多源实体融合的知识图谱构建方法的步骤如下:
1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。
2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。
3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
所述的步骤1)为:
1.1)提取百科标题的同义词,提取方式包括以下两种:
a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。例如:对于带有同义词的页面,在页面的开头或摘要的第一句话通常会出现“A又名B”,“A别称B”,“A是B的同义词”等字符串,通过正则匹配,可以得到一部分同义词对。
b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。
1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。
M={ai∈εk|ai∈M≠aj∈M}
1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词。通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。
给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt。
Pt={a∈ε1,…,K|a.Title∈St}
K为百科的总数;a.Title为页面a的标题。
1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框(键和值),链接,目录,用户标签,并去除停用词和长度小于2的词。
所述的步骤2)包括:
2.1)定义一个页面所包含的6个域,包括标题T,摘要A,信息框I,目录C,用户标签G和链接L,用一个6元组来表示一个页面:
a={T,A,I,C,G,L}
其中信息框表示为键值对,因此I={P,V},其中P表示属性,V表示属性值;
对于属于同一个候选集的2个页面,如果他们描述的是一个实体,那么他们的文本重叠率会比较大,因此定义以下7个特征,分别如下:1)摘要特征
2)信息框属性特征
3)信息框属性值特征
4)目录特征
5)用户标签特征
6)链接特征
7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接
Sw(X)表示对字符串X分词后的结果集合。
2.2)将在步骤2.1)得到的7个特征作为分类器的输入,利用Weka算法包中的RandomForest算法训练二类分类器,然后用这个二类分类器来预测两个页面之间的相似度。
所述的步骤3)具体包括以下步骤:
3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图,两个结点之间的权重边用相似度表示。由此,将原问题转换成边的取舍问题。用yij表示两个结点之间是否有边:
同时加入其他惩罚项和约束条件来构建混合线性规划模型:
惩罚项1:
如果ai与aj有边,且ai与ak有边,那么aj与ak之间也应该有边,否则加入惩罚项φ,同时乘上系数u作为调整参数。因此对于φ,有下面的约束:
φjk≥0
惩罚项2:
如果ai与aj之间的相似度越高,那么他们之间有边的概率越大。对于两个相似度很小的ai与aj,如果他们之间有边,则惩罚项较大,如果ai与aj的相似度较大,那么惩罚项较小。因此,用ψij表示惩罚项,用λ表示调整参数,该惩罚项用下式约束:
ψij≥0
sim(ai,aj)为ai和aj之间的权重;
惩罚项3:
对于在一个消岐页面集合M里面出现的ai与aj,如果yij等于1,则表明匹配错误,因此需要用惩罚项ζij来约束ai与aj之间没有边。用下面的式子表示这个约束条件:
ζij≥0
N为消岐页面集合的个数;
此外,对相似度设置阈值τ,只有相似度大于阈值τ的ai与aj的页面之间才能有边。
综合以上各个惩罚项和阈值,得到目标函数如下所示:
s.t.yij∈{0,1},φij,ψij,ζij≥0
求得该目标函数的最大值,从而得到该最大值对应的边的参数yij。
3.2)将该权重图中的每一个连通分量当作一个实体,得到描述一个实体的所有页面。
实施例
下面提供一实例详细说明本发明的实现步骤:
(1)实例采用的数据集来自百度百科和互动百科,其中百度百科的页面数量为10143321,互动百科的页面数量为6618544。
(2)根据(1)中的所有页面,分析页面版块结构,提取标题,摘要,目录,分类,链接,信息框等信息,并将这些信息存入lucene索引中。除了标题之外,其他的域均可以为空。
(3)根据(1)中的所有页面,提取标题同义词。同义词的提取方法主要包括模板匹配和链接重定向。通过提取到的同义词对,进一步得到标题同义词集合。用这些标题同义词集合去和(1)中的页面标题匹配,得到候选集页面。
(4)在(3)得到的候选集页面中,提取两两页面之间的特征,并以这些特征为输入,训练随机森林分类器。在这个步骤中,需要人工标注训练集。
(5)基于步骤(4)得到的相似度矩阵,构建混合线性规划模型,用该模型可得到顶点与顶点之间的关系,1表示两个顶点之间有边,0表示两个顶点之间没有边。以这些顶点和边为输入,可以构建一个无向图。提取无向图中的每一个连通分量,这些连通分量代表的页面表示一个实体。
本实例的运行结果:
对于相似度计算,采用了5种方法进行对比,最后得出随机森林分类器的效果是最好的。相似度的计算通过Precision,Recall,F1和Accuracy四种评价指标将本发明所使用的方法(SCM)和其他方法,包括贪心匹配(GA),层次聚类(AC),最小生成树聚类(MSTC)和协同聚类(CC)进行比较,得到的结果如下表:
方法 | Precision | Recall | F1 | Accuracy |
GA | 78.3% | 76.1% | 77.2% | 91.6% |
AC | 73.0% | 79.0% | 75.9% | 91.5% |
MSTC | 63.4% | 80.5% | 71% | 88.8% |
CC | 62.4% | 65.5% | 63.9% | 87.4% |
SCM | 75.8% | 82.5% | 79.0% | 92.5 |
由上表对比可以看出,本方法在F1和Accuracy的表现上都要比其他方法要好。因此,本方法在实体匹配方面具有良好的使用价值和应用前景。
Claims (4)
1.一种基于多源实体融合的知识图谱构建方法,其特征在于,包括以下步骤:
1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。
2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。
3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。
2.根据权利要求1中所述的一种基于多源实体融合的知识图谱构建方法,其特征在于,所述的步骤1)包括:
1.1)提取百科标题的同义词,提取方式包括以下两种:
a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。
b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。
1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。
M={ai∈εk|ai∈M≠aj∈M}
1.3)提取候选集:根据同义词的传递性,如果A和B互为同义词,A和C互为同义词,那么B和C也互为同义词。通过这种方式,得到同义词组St,所有同义词组St形成同义词组集合,该集合的每一个同义词组中的两两元素互为同义词。
给定St,从所有百科源中找出标题属于St的页面,所有的这些页面构成候选集Pt。
Pt={a∈ε1,…,K|a.Title∈St}
K为百科的总数;a.Title为页面a的标题。
1.4)对百科页面的文本进行分词:对页面的5个域分词,包括摘要,信息框(键和值),链接,目录,用户标签,并去除停用词和长度小于2的词。
3.根据权利要求1中所述的一种基于多源实体融合的知识图谱构建方法,其特征在于,所述的步骤2)包括:
2.1)定义一个页面所包含的6个域,包括标题T,摘要A,信息框I,目录C,用户标签G和链接L,用一个6元组来表示一个页面:
a={T,A,I,C,G,L}
其中信息框表示为键值对,因此I={P,V},其中P表示属性,V表示属性值;
对于属于同一个候选集的2个页面,如果他们描述的是一个实体,那么他们的文本重叠率会比较大,因此定义以下7个特征,分别如下:
1)摘要特征
2)信息框属性特征
3)信息框属性值特征
4)目录特征
5)用户标签特征
6)链接特征
7)全局特征,S表示6元组{T,A,I,C,G,L}的字符串拼接
Sw(X)表示对字符串X分词后的结果集合。
2.2)将在步骤2.1)得到的7个特征作为分类器的输入,利用Weka算法包中的RandomForest算法训练二类分类器,然后用这个二类分类器来预测两个页面之间的相似度。
4.权利要求1中所述的一种基于多源实体融合的知识图谱构建方法,其特征在于,所述的步骤3)具体包括以下步骤:
3.1)根据步骤2)计算得到的页面之间的相似度构建该候选集的权重图,两个结点之间的权重边用相似度表示。由此,将原问题转换成边的取舍问题。用yij表示两个结点之间是否有边:
同时加入其他惩罚项和约束条件来构建混合线性规划模型:
惩罚项1:
如果ai与aj有边,且ai与ak有边,那么aj与ak之间也应该有边,否则加入惩罚项φ,同时乘上系数u作为调整参数。因此对于φ,有下面的约束:
φjk≥0
惩罚项2:
如果ai与aj之间的相似度越高,那么他们之间有边的概率越大。对于两个相似度很小的ai与aj,如果他们之间有边,则惩罚项较大,如果ai与aj的相似度较大,那么惩罚项较小。因此,用ψij表示惩罚项,用λ表示调整参数,该惩罚项用下式约束:
ψij≥0
sim(ai,aj)为ai和aj之间的权重;
惩罚项3:
对于在一个消岐页面集合M里面出现的ai与aj,如果yij等于1,则表明匹配错误,因此需要用惩罚项ζij来约束ai与aj之间没有边。用下面的式子表示这个约束条件:
ζij≥0
N为消岐页面集合的个数;
此外,对相似度设置阈值τ,只有相似度大于阈值τ的ai与aj的页面之间才能有边。
综合以上各个惩罚项和阈值,得到目标函数如下所示:
s.t. yij∈{0,1},φij,ψij,ζij≥0
求得该目标函数的最大值,从而得到该最大值对应的边的参数yij。
3.2)将该权重图中的每一个连通分量当作一个实体,得到描述一个实体的所有页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610583823.0A CN106250412B (zh) | 2016-07-22 | 2016-07-22 | 基于多源实体融合的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610583823.0A CN106250412B (zh) | 2016-07-22 | 2016-07-22 | 基于多源实体融合的知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106250412A true CN106250412A (zh) | 2016-12-21 |
CN106250412B CN106250412B (zh) | 2019-04-23 |
Family
ID=57604424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610583823.0A Active CN106250412B (zh) | 2016-07-22 | 2016-07-22 | 基于多源实体融合的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250412B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN107038257A (zh) * | 2017-05-10 | 2017-08-11 | 浙江大学 | 一种基于知识图谱的城市物联网数据分析框架 |
CN107220386A (zh) * | 2017-06-29 | 2017-09-29 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN107423820A (zh) * | 2016-05-24 | 2017-12-01 | 清华大学 | 结合实体层次类别的知识图谱表示学习方法 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及*** |
CN108399180A (zh) * | 2017-02-08 | 2018-08-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及服务器 |
CN108694177A (zh) * | 2017-04-06 | 2018-10-23 | 北大方正集团有限公司 | 知识图谱构建方法及*** |
CN108777635A (zh) * | 2018-05-24 | 2018-11-09 | 梧州井儿铺贸易有限公司 | 一种企业设备管理*** |
CN109033129A (zh) * | 2018-06-04 | 2018-12-18 | 桂林电子科技大学 | 基于自适应权重的多源信息融合知识图谱表示学习方法 |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN109522547A (zh) * | 2018-10-23 | 2019-03-26 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
CN109657069A (zh) * | 2018-12-11 | 2019-04-19 | 北京百度网讯科技有限公司 | 知识图谱的生成方法及其装置 |
CN109857872A (zh) * | 2019-02-18 | 2019-06-07 | 浪潮软件集团有限公司 | 基于知识图谱的信息推荐方法和装置 |
CN109902144A (zh) * | 2019-01-11 | 2019-06-18 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN110209839A (zh) * | 2019-06-18 | 2019-09-06 | 卓尔智联(武汉)研究院有限公司 | 农业知识图谱构建装置、方法及计算机可读存储介质 |
CN110245198A (zh) * | 2019-06-18 | 2019-09-17 | 北京百度网讯科技有限公司 | 多源售票数据管理方法及***、服务器和计算机可读介质 |
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110427612A (zh) * | 2019-07-02 | 2019-11-08 | 平安科技(深圳)有限公司 | 基于多语言的实体消歧方法、装置、设备和存储介质 |
CN111708891A (zh) * | 2019-03-01 | 2020-09-25 | 九阳股份有限公司 | 一种多源食材数据之间的食材实体链接方法和装置 |
CN111813962A (zh) * | 2020-09-07 | 2020-10-23 | 北京富通东方科技有限公司 | 一种用于知识图谱融合的实体相似度计算方法 |
CN111881290A (zh) * | 2020-06-17 | 2020-11-03 | 国家电网有限公司 | 一种基于加权语义相似度的配网多源网架实体融合方法 |
CN112115328A (zh) * | 2020-08-24 | 2020-12-22 | 苏宁金融科技(南京)有限公司 | 一种页面流量地图构建方法、装置及计算机可读存储介质 |
CN112163094A (zh) * | 2020-08-25 | 2021-01-01 | 中国科学院计算机网络信息中心 | 一种科技资源汇聚与持续服务方法及装置 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与***、电子设备 |
CN113139050A (zh) * | 2021-05-10 | 2021-07-20 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN113157861A (zh) * | 2021-04-12 | 2021-07-23 | 山东新一代信息产业技术研究院有限公司 | 一种融合Wikipedia的实体对齐方法 |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN113392220A (zh) * | 2020-10-23 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
CN114153839A (zh) * | 2021-10-29 | 2022-03-08 | 杭州未名信科科技有限公司 | 多源异构数据的集成方法、装置、设备及存储介质 |
US11487832B2 (en) * | 2018-09-27 | 2022-11-01 | Google Llc | Analyzing web pages to facilitate automatic navigation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103729343A (zh) * | 2013-10-10 | 2014-04-16 | 上海交通大学 | 基于百科链接共现的语义消岐方法 |
CN105787105A (zh) * | 2016-03-21 | 2016-07-20 | 浙江大学 | 一种基于迭代模型的中文百科知识图谱分类体系构建方法 |
-
2016
- 2016-07-22 CN CN201610583823.0A patent/CN106250412B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103729343A (zh) * | 2013-10-10 | 2014-04-16 | 上海交通大学 | 基于百科链接共现的语义消岐方法 |
CN105787105A (zh) * | 2016-03-21 | 2016-07-20 | 浙江大学 | 一种基于迭代模型的中文百科知识图谱分类体系构建方法 |
Non-Patent Citations (2)
Title |
---|
楼仁杰: "基于中文百科的知识图谱分类体系构建研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王龙甫: "基于中文百科的概念知识库构建", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423820A (zh) * | 2016-05-24 | 2017-12-01 | 清华大学 | 结合实体层次类别的知识图谱表示学习方法 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN106844658B (zh) * | 2017-01-23 | 2019-12-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN108399180A (zh) * | 2017-02-08 | 2018-08-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及服务器 |
CN108399180B (zh) * | 2017-02-08 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及服务器 |
CN106909643A (zh) * | 2017-02-20 | 2017-06-30 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN106909643B (zh) * | 2017-02-20 | 2020-08-14 | 同济大学 | 基于知识图谱的社交媒体大数据主题发现方法 |
CN108694177A (zh) * | 2017-04-06 | 2018-10-23 | 北大方正集团有限公司 | 知识图谱构建方法及*** |
CN107038257A (zh) * | 2017-05-10 | 2017-08-11 | 浙江大学 | 一种基于知识图谱的城市物联网数据分析框架 |
CN107220386A (zh) * | 2017-06-29 | 2017-09-29 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN107220386B (zh) * | 2017-06-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及*** |
CN108182295B (zh) * | 2018-02-09 | 2021-09-10 | 重庆电信***集成有限公司 | 一种企业知识图谱属性抽取方法及*** |
CN108777635A (zh) * | 2018-05-24 | 2018-11-09 | 梧州井儿铺贸易有限公司 | 一种企业设备管理*** |
CN109033129B (zh) * | 2018-06-04 | 2021-08-03 | 桂林电子科技大学 | 基于自适应权重的多源信息融合知识图谱表示学习方法 |
CN109033129A (zh) * | 2018-06-04 | 2018-12-18 | 桂林电子科技大学 | 基于自适应权重的多源信息融合知识图谱表示学习方法 |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
US11971936B2 (en) | 2018-09-27 | 2024-04-30 | Google Llc | Analyzing web pages to facilitate automatic navigation |
US11487832B2 (en) * | 2018-09-27 | 2022-11-01 | Google Llc | Analyzing web pages to facilitate automatic navigation |
CN109522547A (zh) * | 2018-10-23 | 2019-03-26 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
CN109657069A (zh) * | 2018-12-11 | 2019-04-19 | 北京百度网讯科技有限公司 | 知识图谱的生成方法及其装置 |
CN109902144A (zh) * | 2019-01-11 | 2019-06-18 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN109902144B (zh) * | 2019-01-11 | 2020-01-31 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN109857872A (zh) * | 2019-02-18 | 2019-06-07 | 浪潮软件集团有限公司 | 基于知识图谱的信息推荐方法和装置 |
CN111708891A (zh) * | 2019-03-01 | 2020-09-25 | 九阳股份有限公司 | 一种多源食材数据之间的食材实体链接方法和装置 |
CN111708891B (zh) * | 2019-03-01 | 2023-12-08 | 九阳股份有限公司 | 一种多源食材数据之间的食材实体链接方法和装置 |
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110377747B (zh) * | 2019-06-10 | 2021-12-07 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110209839A (zh) * | 2019-06-18 | 2019-09-06 | 卓尔智联(武汉)研究院有限公司 | 农业知识图谱构建装置、方法及计算机可读存储介质 |
CN110245198A (zh) * | 2019-06-18 | 2019-09-17 | 北京百度网讯科技有限公司 | 多源售票数据管理方法及***、服务器和计算机可读介质 |
CN110427612A (zh) * | 2019-07-02 | 2019-11-08 | 平安科技(深圳)有限公司 | 基于多语言的实体消歧方法、装置、设备和存储介质 |
CN113326686B (zh) * | 2020-02-28 | 2024-05-10 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN111881290A (zh) * | 2020-06-17 | 2020-11-03 | 国家电网有限公司 | 一种基于加权语义相似度的配网多源网架实体融合方法 |
CN112115328B (zh) * | 2020-08-24 | 2022-08-19 | 苏宁金融科技(南京)有限公司 | 一种页面流量地图构建方法、装置及计算机可读存储介质 |
CN112115328A (zh) * | 2020-08-24 | 2020-12-22 | 苏宁金融科技(南京)有限公司 | 一种页面流量地图构建方法、装置及计算机可读存储介质 |
CN112163094A (zh) * | 2020-08-25 | 2021-01-01 | 中国科学院计算机网络信息中心 | 一种科技资源汇聚与持续服务方法及装置 |
CN111813962A (zh) * | 2020-09-07 | 2020-10-23 | 北京富通东方科技有限公司 | 一种用于知识图谱融合的实体相似度计算方法 |
CN111813962B (zh) * | 2020-09-07 | 2020-12-18 | 北京富通东方科技有限公司 | 一种用于知识图谱融合的实体相似度计算方法 |
CN113392220A (zh) * | 2020-10-23 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
CN113392220B (zh) * | 2020-10-23 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与***、电子设备 |
CN113157861B (zh) * | 2021-04-12 | 2022-05-24 | 山东浪潮科学研究院有限公司 | 一种融合Wikipedia的实体对齐方法 |
CN113157861A (zh) * | 2021-04-12 | 2021-07-23 | 山东新一代信息产业技术研究院有限公司 | 一种融合Wikipedia的实体对齐方法 |
CN113139050A (zh) * | 2021-05-10 | 2021-07-20 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN114153839A (zh) * | 2021-10-29 | 2022-03-08 | 杭州未名信科科技有限公司 | 多源异构数据的集成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106250412B (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250412A (zh) | 基于多源实体融合的知识图谱构建方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN103473283B (zh) | 一种文本案例匹配方法 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN104991905B (zh) | 一种基于层次索引的数学表达式检索方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN105653706A (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索*** | |
CN106156286A (zh) | 面向专业文献知识实体的类型抽取***及方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN102117281A (zh) | 一种构建领域本体的方法 | |
US9146988B2 (en) | Hierarchal clustering method for large XML data | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空***知识图谱构建方法 | |
CN110175334A (zh) | 基于自定义的知识槽结构的文本知识抽取***和方法 | |
CN112487190A (zh) | 基于自监督和聚类技术从文本中抽取实体间关系的方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及*** | |
CN115391553A (zh) | 一种自动搜索时序知识图谱补全模型的方法 | |
CN103064907A (zh) | 基于无监督的实体关系抽取的主题元搜索***及方法 | |
CN110377690A (zh) | 一种基于远程关系抽取的信息获取方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20161221 Assignee: TONGDUN HOLDINGS Co.,Ltd. Assignor: ZHEJIANG University Contract record no.: X2021990000612 Denomination of invention: Construction method of knowledge map based on multi-source entity fusion Granted publication date: 20190423 License type: Common License Record date: 20211012 |