CN104035917B - 一种基于语义空间映射的知识图谱管理方法和*** - Google Patents

一种基于语义空间映射的知识图谱管理方法和*** Download PDF

Info

Publication number
CN104035917B
CN104035917B CN201410253673.8A CN201410253673A CN104035917B CN 104035917 B CN104035917 B CN 104035917B CN 201410253673 A CN201410253673 A CN 201410253673A CN 104035917 B CN104035917 B CN 104035917B
Authority
CN
China
Prior art keywords
semantic
vector
node
knowledge mapping
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410253673.8A
Other languages
English (en)
Other versions
CN104035917A (zh
Inventor
王晓平
肖仰华
汪卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201410253673.8A priority Critical patent/CN104035917B/zh
Publication of CN104035917A publication Critical patent/CN104035917A/zh
Application granted granted Critical
Publication of CN104035917B publication Critical patent/CN104035917B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于文本语义处理、语义网技术领域,具体为一种基于语义空间映射的知识图谱管理方法和***。本发明方法包括:语义向量构建、语义空间映射、知识图谱管理;知识图谱管理又包括三个分为:语义聚类、语义去重、语义标注。对于知识图谱的边/结点,首先将描述其的文本单元向语义空间投影,并通过向量累积获得其在语义空间上的向量表示;在此基础上,实现知识图谱的多项管理任务;***包括对应的语义向量构建、语义空间映射、知识图谱管理3个模块。本发明克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的诸如语义聚类、语义去重、语义标注等知识图谱管理任务。

Description

一种基于语义空间映射的知识图谱管理方法和***
技术领域
本发明属于文本语义处理、语义网技术领域,具体涉及一种基于语义空间映射的知识图谱管理方法和***。
背景技术
构建知识图谱是大数据时代的一项重大工程,它能将杂乱的数据进行关联并整理成结构化的知识提供给用户,这一特征决定了它在许多领域都会有重要的应用,例如,目前的搜索引起都是基于关键字匹配进行搜索的,而当知识图谱建立起来后,在输入某个关键字后,就可以返回这个关键字的属性、类别、与其它实体的关系等关联信息,这样可以更准确、完善的为用户提供所需要的信息。知识图谱是实现语义搜索、机器自动问答、互联网广告推荐、个性化电子阅读等一系列应用的基石,而是否能有效地对知识图谱进行管理则将直接决定它在这些领域所发挥作用的大小。
然而,目前的知识图谱构建中最终抽取出的是一种确定性的关系表示,而这种确定性描述在词语变形、同义词变化、语法形式变化等情况下的适应性不强,比如两条语义相似的边由于是以不同的词语进行描述,则会被看作是完全不同的两条边,这种处理方式不仅不合理,还会给知识图谱的管理如边/结点聚类、边/结点去重、边/结点标注等带来巨大困难,从而影响到知识图谱的有效应用。
发明内容
本发明针对当前知识图谱管理技术方法的不足,提出了一种基于语义空间映射的知识图谱管理方法和***。
对于知识图谱的边/结点(即实体间关系/实体),首先将描述其的文本单元向语义空间投影并进行累积,从而获得该边/结点在语义空间上的向量表示;继而在文本语义向量化的基础上,可以进一步实现知识图谱的多项管理任务:可使用聚类方法并结合向量相似性度量来方便地进行边/结点的语义聚类,从而挖掘出语义相近的实体间关系/实体;可以在语义聚类的基础上,通过计算典型边/典型结点取代类集合来实现语义去重;可依据新加入的边/结点与已标注边/结点模型的语义距离实现关系/实体的自动标注等。
本发明提出的基于语义空间映射的知识图谱管理方法,具体步骤如下:语义向量构建、语义空间映射、知识图谱管理;其中:
(1)语义向量构建的具体步骤如下:
是基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量,其优点是文本单元之间的语义相似度可以根据对应向量在语义空间中的距离远近进行比较,语义接近的词,它们对应的语义向量在空间上的距离也会很近,这样就克服了词语间直接比较时受到的词语变形、同义词变化、语法形式变化的影响。
语义向量可通过多种方法计算获得,如Word2Vec方法、ESA(Explicit semanticanalysis)方法、LSA(Latent semantic analysis)方法、共现词频率特征等等,优选地,采用Word2Vec方法(https://code.***.com/p/word2vec/,同时参见文献[1,2,3])。
构建语义向量的训练数据的选择原则是以大规模、百科类型的语料库来保证高覆盖率以及领域无关性,优选地,采用***知识库(http://www.wikipedia.org/)作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。
(2)语义空间映射
是将知识图谱中表示边结点的文本映射为语义空间中的向量,具体步骤如下:
(2.1)对知识图谱中的边/结点(实体间关系/实体)中的词语进行过滤处理,去除其中无语义的停用词;
(2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量。
(3)知识图谱管理分为四个分步骤:语义聚类、语义去重、语义标注;
(3.1)语义聚类,是在知识图谱构建基础上的进一步的语义挖掘,这对管理知识图谱十分重要,具体包括边聚类(关系聚类)和结点聚类(实体聚类)。对于边聚类,既可以对连接不同结点对的边进行聚类,发现有着相似语义关系的实体对,也可以对一个结点的多条边进行聚类,挖掘出该结点的主要相关实体分类,甚至可以对连接同一对结点的多条边进行聚类,挖掘出它们间的主要关系分类;对于结点聚类,则可以发现语义相近的实体。
语义聚类的具体步骤如下:
对待聚类的边/结点集合,首先基于构建好的语义向量库进行语义空间映射,然后进一步地对获得的这些语义向量进行聚类。聚类方法可采用多种方法如层次聚类方法、Kmeans方法等,优选地,采用层次聚类方法。相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
其中,x和y分别为待比较的两个向量,Sim为计算得到的Cosine相似度结果。
(3.2)语义去重
基于大数据构建的知识图谱普遍存在着这种情况:许多不同的边/结点尽管具体的表示形式(描述关系/实体的文本)不一,但其所表示的语义内容却是非常接近甚至是一致的,这将会导致知识图谱在规模增长的同时也伴随着冗余信息量的增加。从数据清洗角度出发,如果对这些边/结点进行统一表示、实现语义去重(边去重、结点去重),将会在减少语义边/结点的数量(即关系/实体的数量)的同时实现知识图谱的精简表示。
语义去重的具体步骤如下:
对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:
这里,Vi是待合并集合中对应第i个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
通过用计算选取典型边/典型结点来进行关系/实体去重,将在有效降低知识图谱的存储空间、实现知识图谱精简表示的同时又不失去代表性。
(3.3)语义标注
通过比较输入边/结点与已知边/结点模型的语义相似度,判断其所对应的模型,然后为其贴上预先定义的已知类型范围内的相应标签,其好处是便于知识图谱中边/结点的统一表示和管理。语义标注具体步骤如下:
(3.3.1)边/结点模型构建:
对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型(也即关系/实体模型),模型的构建可使用多种方法如均值向量模型、高斯模型、人工神经网络、支持向量机等,优选地,使用均值向量模型;同时,手工为每一类关系/实体标定出其对应的类型标签。
其中,m i,j 表示第i类中第j个向量,n i 为该类中的样本个数,为均值向量。
在模型构建完成后,即将其添加进边/结点模型库。
(3.3.2)边/结点识别
对于待查询的边/结点,在按语义空间映射模块所述步骤获得其语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
以均值向量模型为例,输出的类别Class为:
V为待识别的语义向量,为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
(3.3.3)边/结点语义标注
对于上一步骤中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
本发明还提供对应于上述方法的基于语义空间映射的知识图谱管理***。***由三大模块组成:语义向量构建模块、语义空间映射模块、知识图谱管理模块。其中,知识图谱管理模块又包括三个子模块:语义聚类子模块、语义去重子模块、语义标注子模块。
具体内容如下:
(1)语义向量构建模块:
本模块的作用是基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量,其优点是文本单元之间的语义相似度可以根据对应向量在语义空间中的距离远近进行比较,语义接近的词,它们对应的语义向量在空间上的距离也会很近,这样就克服了词语间直接比较时受到的词语变形、同义词变化、语法形式变化的影响。
构建语义向量的训练数据的选择原则是以大规模、百科类型的语料库来保证高覆盖率以及领域无关性,优选地,采用***知识库(http://www.wikipedia.org/)作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。
(2)语义空间映射模块,具体内容如下:
本模块是将知识图谱中表示边结点的文本映射为语义空间中的向量:
(2.1)对知识图谱中的边/结点(实体间关系/实体)中的词语进行过滤处理,去除其中无语义的停用词;
(2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量。
(3)知识图谱管理模块,具体内容如下:
该模块负责完成知识图谱的管理,它又包括三个子模块:语义聚类子模块、语义去重子模块、语义标注子模块。分别对应于知识图谱管理步骤中的3个分步骤;
(3.1)语义聚类子模块
语义聚类是在知识图谱构建基础上的进一步的语义挖掘,这对管理知识图谱十分重要,具体包括边聚类(关系聚类)和结点聚类(实体聚类)。对于边聚类,既可以对连接不同结点对的边进行聚类,发现有着相似语义关系的实体对,也可以对一个结点的多条边进行聚类,挖掘出该结点的主要相关实体分类,甚至可以对连接同一对结点的多条边进行聚类,挖掘出它们间的主要关系分类;对于结点聚类,则可以发现语义相近的实体;
(3.2)语义去重子模块
基于大数据构建的知识图谱普遍存在着这种情况:许多不同的边/结点尽管具体的表示形式(描述关系/实体的文本)不一,但其所表示的语义内容却是非常接近甚至是一致的,这将会导致知识图谱在规模增长的同时也伴随着冗余信息量的增加。从数据清洗角度出发,如果对这些边/结点进行统一表示、实现语义去重(边去重、结点去重),将会在减少语义边/结点的数量(即关系/实体的数量)的同时实现知识图谱的精简表示。
语义去重的具体内容如下:
对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:
这里,Vi是待合并集合中对应第i个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度;
通过用计算选取典型边/典型结点来进行关系/实体去重,将在有效降低知识图谱的存储空间、实现知识图谱精简表示的同时又不失去代表性;
(3.3)语义标注子模块
该模块通过比较输入边/结点与已知边/结点模型的语义相似度,判断其所对应的模型,然后为其贴上预先定义的已知类型范围内的相应标签,其好处是便于知识图谱中边/结点的统一表示和管理。该子模块具体内容如下:
(3.3.1)边/结点模型构建:
对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型(也即关系/实体模型),模型的构建可使用多种方法如均值向量模型、高斯模型、人工神经网络、支持向量机等,优选地,使用均值向量模型;同时,手工为每一类关系/实体标定出其对应的类型标签。
其中,m i,j 表示第i类中第j个向量,n i 为该类中的样本个数,为均值向量。
在模型构建完成后,即将其添加进边/结点模型库。
(3.3.2)边/结点识别
对于待查询的边/结点,在按语义空间映射模块所述步骤获得其语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
以均值向量模型为例,输出的类别Class为:
V为待识别的语义向量,为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
(3.3.3)边/结点语义标注
对于上一步骤中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
本发明的有益效果
本发明通过将表示知识图谱边/结点的文本映射为语义向量,克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的知识图谱管理任务如语义聚类、语义去重、语义标注,在增强处理灵活性的同时,也提高了语义比较的准确性。
附图说明
图1:***模块图。
图2:层次聚类结果图(边聚类)。横坐标为实体对的序号,纵坐标为类间距离。
图3:层次聚类结果图(结点聚类)。横坐标为实体的序号,纵坐标为类间距离。
图4:语义去重-典型边选取。横坐标为实体的序号,纵坐标为相似度。
具体实施方式
以下用实例来演示本发明的具体实施方式,***各模块依次进行处理如下:
(1)语义向量构建
基于整个英文维基库(http://www.wikipedia.org/)的文本语料,使用Word2Vec进行训练,训练输出的向量维度为500维。
(2)语义空间映射
对于边/结点上的词语,在去除停用词后,从训练好的语义向量库中取出对应的语义向量,然后再进行向量累加,从而得到该边/结点的语义向量表征。
(3)语义聚类
(3.1)边语义聚类
输入例子,格式为:
序号:{结点1}, {边}, {结点2}
1:{Shanghai}, {large city}, {China}
2:{ipad}, {product}, {Apple}
3:{Barack Obama}, {president}, {USA}
4:{Kindle}, {manufacture}, {Amazon}
5:{New York}, {metropolis}, {USA}
6:{Dmitry Medvedev}, {Prime Minister}, {Russia}
层次聚类结果图(边聚类)如图2所示。
取阈值为0.8,聚类结果如下:
第一类:2、4
第二类:1、5
第三类:3、6
聚类结果正确;
(3.2)结点语义聚类
输入6个结点:
1:{tuna}
2:{tiger}
3:{leopard}
4:{car}
5:{fish}
6:{train}
层次聚类结果图(结点聚类)见图3所示。
取阈值为0.8,聚类结果如下:
第一类:1、5
第二类:2、3
第三类:4、6
聚类结果正确。
(4)语义去重
例如,知识图谱中的两个结点:{Bill Gates}、{Microsoft},它们间如下的边在语义聚类后被聚在同一类中:
1:{CEO}
2:{executives}
3:{president}
4:{chief executive officer}
5:{current chairman}
6:{chairman}
7:{chair}
语义去重-典型边选取,见图4所示。
将所有这些边的语义向量累加后得到总体语义表征向量,然后依次计算各条边与该总体语义表征向量的相似度,并选取相似度最大的为典型边,序号为6,即{chairman},这样,仅用1条典型边就取代了原先被聚成同一类的7条边,达到了知识图谱精简表示、减少存储空间且不失代表性的目的。
(5)语义标注
例如,对于完成聚类的一类关系的边集合:
1:{large city}
2:{metropolis}
3:{megacity}
4:{major city}
5:{big cities}
6:{megacities}
7:{mega cities}
根据其对应的语义向量集合构建均值向量模型,并标定模型的类型标签为“metropolitan area”。
对于新输入的一条边{big city},计算其对应的语义向量与边模型的相似度,
Sim = 0.8434
取阈值为0.8,则认为输入边与该类边表示的语义相同,因而将模型类型标签“metropolitan area”赋给输入边,从而完成语义标注过程,其好处是通过比较输入边与边模型的相似程度,为输入边贴上预先定义的已知类型范围内的标签,便于知识图谱中边的统一表示和管理。
参考文献
[1] Tomas Mikolov, et al. Efficient Estimation of WordRepresentations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, et al. Distributed Representations of Words andPhrases and their Compositionality. In Proceedings of NIPS, 2013.
[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous SpaceWord Representations. In Proceedings of NAACL HLT, 2013。

Claims (3)

1.一种基于语义空间映射的知识图谱管理方法,其特征在于具体步骤分为:语义向量构建、语义空间映射、知识图谱管理;其中:
(1)语义向量构建的具体步骤如下:
基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量;
构建语义向量的训练数据采用***知识库作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库;
(2)语义空间映射
将知识图谱中表示边结点的文本映射为语义空间中的向量,具体步骤如下:
(2.1)对知识图谱中的边/结点中的词语进行过滤处理,去除其中无语义的停用词;
(2.2)对经步骤(2.1)操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量;
(3)知识图谱管理分为三个分步骤:语义聚类、语义去重、语义标注;
(3.1)语义聚类的具体步骤如下:
对待聚类的边/结点集合,首先基于构建好的语义向量库进行语义空间映射,然后进一步地对获得的这些语义向量进行聚类;
(3.2)语义去重的具体步骤如下:
对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:
公式的含义是选取使函数取最大值时所对应的k作为Typical,Typical是指选取的典型边或者典型结点;
这里, Vk是待合并集合中对应第k个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度;
(3.3)语义标注具体步骤如下:
(3.3.1)边/结点模型构建:
对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型;
同时,手工为每一类关系/实体标定出其对应的类型标签;
为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目;
其中,m i,j 表示第i类中第j个向量,n i 为该类中的样本个数,为均值向量;
在模型构建完成后,即将边/结点模型添加进边/结点模型库;
(3.3.2)边/结点识别
对于待查询的边/结点,在按语义空间映射所述步骤获得边/结点语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,其中,对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别;
(3.3.3)边/结点语义标注
对于步骤(3.3.2)中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
2.根据权利要求1所述的基于语义空间映射的知识图谱管理方法,其特征在于步骤(3.3.2)中,对于均值向量模型时,输出的类别为:
公式的含义是选取使函数取最大值时所对应的i作为Class;
V为待识别的语义向量,Sim(a,b)表示向量a和向量b的相似度。
3.基于权利要求1所述方法的基于语义空间映射的知识图谱管理***,其特征在于有下述三大模块组成:语义向量构建模块用于执行步骤(1)、语义空间映射模块用于执行步骤(2)、知识图谱管理模块用于执行步骤(3),其中:知识图谱管理模块,包括三个子模块:语义聚类子模块用于执行步骤(3.1)、语义去重子模块用于执行步骤(3.2)、语义标注子模块用于执行步骤(3.3)。
CN201410253673.8A 2014-06-10 2014-06-10 一种基于语义空间映射的知识图谱管理方法和*** Expired - Fee Related CN104035917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410253673.8A CN104035917B (zh) 2014-06-10 2014-06-10 一种基于语义空间映射的知识图谱管理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410253673.8A CN104035917B (zh) 2014-06-10 2014-06-10 一种基于语义空间映射的知识图谱管理方法和***

Publications (2)

Publication Number Publication Date
CN104035917A CN104035917A (zh) 2014-09-10
CN104035917B true CN104035917B (zh) 2017-07-07

Family

ID=51466688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410253673.8A Expired - Fee Related CN104035917B (zh) 2014-06-10 2014-06-10 一种基于语义空间映射的知识图谱管理方法和***

Country Status (1)

Country Link
CN (1) CN104035917B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10409910B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
CN104462506A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于用户标注信息构建知识图谱的方法和装置
CN104794163B (zh) * 2015-03-25 2018-07-13 中国人民大学 实体集合扩展方法
CN104866593B (zh) * 2015-05-29 2018-05-22 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105550190B (zh) * 2015-06-26 2019-03-29 许昌学院 面向知识图谱的跨媒体检索***
CN105335519B (zh) * 2015-11-18 2021-08-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
CN105740329B (zh) * 2016-01-21 2019-04-05 浙江万里学院 一种非结构化大数据流的内容语义挖掘方法
CN105808931B (zh) * 2016-03-03 2019-05-07 北京大学深圳研究生院 一种基于知识图谱的针灸决策支持方法及装置
CN105787105B (zh) * 2016-03-21 2019-04-19 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN105824802B (zh) * 2016-03-31 2018-10-30 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106446148B (zh) * 2016-09-21 2019-08-09 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN108108345B (zh) * 2016-11-25 2021-08-10 南京尚网网络科技有限公司 用于确定新闻主题的方法与设备
CN106776564B (zh) * 2016-12-21 2020-04-24 张永成 一种基于知识图谱的语义识别方法及***
CN106874378B (zh) * 2017-01-05 2020-06-02 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN106933985B (zh) * 2017-02-20 2020-06-26 广东省中医院 一种核心方的分析发现方法
CN106909643B (zh) * 2017-02-20 2020-08-14 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN108959328B (zh) * 2017-05-27 2021-12-21 株式会社理光 知识图谱的处理方法、装置及电子设备
CN107038261B (zh) * 2017-05-28 2019-09-20 海南大学 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法
CN107103100B (zh) * 2017-06-10 2019-07-30 海南大学 一种容错的基于图谱架构的智能语义搜索方法
CN107480125B (zh) * 2017-07-05 2020-08-04 重庆邮电大学 一种基于知识图谱的关系链接方法
CN108090165B (zh) * 2017-12-13 2021-12-28 美林数据技术股份有限公司 一种基于嵌入式图数据库的图谱变化差异的获取方法
US10884865B2 (en) 2018-01-26 2021-01-05 International Business Machines Corporation Identifying redundant nodes in a knowledge graph data structure
CN108334617A (zh) * 2018-02-07 2018-07-27 大连大学 基于语义的音乐检索的方法
CN109145153B (zh) * 2018-07-02 2021-03-12 北京奇艺世纪科技有限公司 意图类别的识别方法和装置
CN110851610B (zh) * 2018-07-25 2022-09-27 百度在线网络技术(北京)有限公司 知识图谱生成方法、装置、计算机设备以及存储介质
CN109347798A (zh) * 2018-09-12 2019-02-15 东软集团股份有限公司 网络安全知识图谱的生成方法、装置、设备及存储介质
CN109408811B (zh) * 2018-09-29 2021-10-22 联想(北京)有限公司 一种数据处理方法及服务器
CN109684625B (zh) * 2018-10-31 2021-01-12 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN109522551B (zh) * 2018-11-09 2024-02-20 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109753909B (zh) * 2018-12-27 2021-08-10 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
US10997187B2 (en) 2019-02-22 2021-05-04 General Electric Company Knowledge-driven federated big data query and analytics platform
US10963518B2 (en) 2019-02-22 2021-03-30 General Electric Company Knowledge-driven federated big data query and analytics platform
CN110059271B (zh) * 2019-06-19 2020-01-10 达而观信息科技(上海)有限公司 运用标签知识网络的搜索方法及装置
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110795527B (zh) * 2019-09-03 2022-04-29 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN111339267A (zh) * 2020-02-17 2020-06-26 京东方科技集团股份有限公司 基于知识图谱的问答方法及***、计算机设备及介质
CN112560499B (zh) * 2020-12-11 2024-01-09 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN112580716B (zh) * 2020-12-16 2023-07-11 北京百度网讯科技有限公司 图谱中边类型的识别方法、装置、设备及存储介质
CN113011152B (zh) * 2021-03-04 2022-08-26 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN113742494B (zh) * 2021-09-06 2024-03-15 湘潭大学 一种基于标签图转化的领域文本相似度计算方法及***
CN113987152B (zh) * 2021-11-01 2022-08-12 北京欧拉认知智能科技有限公司 一种知识图谱抽取方法、***、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079072A (zh) * 2007-06-22 2007-11-28 中国科学院研究生院 一种文本聚类元学习方法及装置
CN102646113A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于***度量概念之间语义相关度的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK200301926A (da) * 2003-12-23 2005-06-24 Eskebaek Thomas Videnstyresystem med ontologibaserede metoder for udledning af viden og sögen efter viden

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079072A (zh) * 2007-06-22 2007-11-28 中国科学院研究生院 一种文本聚类元学习方法及装置
CN102646113A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于***度量概念之间语义相关度的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Conceptual graph based text classification;Yi Wan et al.;《The 2014 IEEE International Conference on Progress in Informatics and Computing》;20140518;第104-107页 *
基于语义事务信息聚类的用户概貌构建;杨鹤标 等;《计算机工程与设计》;20101231;第31卷(第20期);全文 *

Also Published As

Publication number Publication date
CN104035917A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104035917B (zh) 一种基于语义空间映射的知识图谱管理方法和***
Ying et al. Graph convolutional neural networks for web-scale recommender systems
Ding et al. Cross-modal hashing via rank-order preserving
CN106156082B (zh) 一种本体对齐方法及装置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Zhao et al. Topic exploration in spatio-temporal document collections
CN107577990A (zh) 一种基于gpu加速检索的大规模人脸识别方法
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及***
CN104008092A (zh) 一种基于语义空间映射的语义关系表征、聚类及识别的方法和***
Veit et al. Separating self-expression and visual content in hashtag supervision
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
CN106649250A (zh) 一种情感新词的识别方法及装置
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN109145161A (zh) 中文地名查询方法、装置及设备
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
Alzahrani et al. Community detection in bipartite networks using random walks
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
Rintyarna et al. Adapted weighted graph for Word Sense Disambiguation
Bide et al. Improved Document Clustering using k-means algorithm
Zhang et al. Efficient spatio-textual similarity join using mapreduce
Gao et al. The intellectual structure of digital humanities: An author co-citation analysis
Wang et al. Constructing a comprehensive events database from the web
Zhao et al. Big transfer learning for fine art classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170707

Termination date: 20200610