CN107545033B - 一种基于表示学习的知识库实体分类的计算方法 - Google Patents

一种基于表示学习的知识库实体分类的计算方法 Download PDF

Info

Publication number
CN107545033B
CN107545033B CN201710608234.8A CN201710608234A CN107545033B CN 107545033 B CN107545033 B CN 107545033B CN 201710608234 A CN201710608234 A CN 201710608234A CN 107545033 B CN107545033 B CN 107545033B
Authority
CN
China
Prior art keywords
entity
word
category
representing
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710608234.8A
Other languages
English (en)
Other versions
CN107545033A (zh
Inventor
李涓子
侯磊
金海龙
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710608234.8A priority Critical patent/CN107545033B/zh
Publication of CN107545033A publication Critical patent/CN107545033A/zh
Application granted granted Critical
Publication of CN107545033B publication Critical patent/CN107545033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于表示学习的知识库实体分类的计算装置,涉及文本分类和知识库补全领域。所述方法包括步骤:对于知识库中的实体,构造包含不同层次信息的共现网络,将词语‑词语,实体‑词语,类别‑词语,实体‑类别之间的共现信息编码到网络中;基于构造的共现网络,利用基于网络的表示学习方法,学习实体和类别的向量表示;基于学习得到的向量表示,利用学习排序算法,为实体和类别学习映射矩阵,语义上相关的实体和类别在语义空间中接近;利用自顶向下的搜索方法,为知识库中的实体自动分配类别,得到一条类别的路径。本发明方法有利于解决现有实体分类方法中存在的问题。

Description

一种基于表示学习的知识库实体分类的计算方法
技术领域
本发明涉及文本分类和知识库补全技术领域,具体涉及一种基于表示学习的知识库实体分类的计算方法。
背景技术
本部分向读者介绍可能与本发明的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。
近些年来,知识库吸引了越来越多的研究兴趣。现有的知识库大都不完善,很多研究者都致力于实现知识库补全的工作。为知识库中的实体分配类别是知识库补全的一个重要任务。实体的类别信息在知识库中具有非常重要的作用,有助于问答***,推荐***,关系抽取等任务。当前主要的研究方向是为实体分配细粒度的类别,因为细粒度的类别能够提供更加丰富的语义信息。
现有的研究通常采用机器学习中的多分类算法来对知识库中的实体进行分类,即把知识库中的实体分类任务看作是自然语言处理中传统的文本分类问题。主要的步骤是,先定义一些基于知识库的特征,然后利用传统的多分类算法来实现类别的预测。近些年来,表示学习技术迅猛发展,对实体分类任务有很大的帮助,通常的做法是为实体和类别分别定义特征,再将实体和类别的特征映射到同一个语义空间中,进而实现实体类别的推理计算,也取得了比较好的效果。
然而,现有的实体分类算法面临2个主要的问题:第一,难以为知识库中的实体设计有效的特征,不同于上下文中出现的实体,包含的语义信息比较少,知识库中的实体包含丰富的文本信息和结构化信息,需要用一种合理的方式表示知识库中的实体;第二,没有充分考虑类别之间的层次关系,知识库中的类别形成一棵树状结构,蕴含着相应的结构信息,现有的方法没有充分考虑分类树的层次结构。
发明内容
要解决的技术问题是如何提供一种基于表示学习的知识库实体分类的计算方法。
针对现有技术中的缺陷,本发明提供一种基于表示学习的知识库实体分类的计算方法,可以更好地解决现有知识库中实体分类方法中存在的问题。
第一方面,本发明提供了一种基于表示学习的知识库实体分类的计算装置,其包括步骤:
A:对于给定类别标注的知识库中的实体,构造词语-词语、实体-词语、类别-词语、实体-类别一共4个层次的共现网络,将语义信息整合到4个异构的共现网络中;
B:基于所述4个异构的共现网络,利用基于网络的表示学习算法,学习得到每个实体和类别的向量表示;
C:基于所述实体和类别的向量表示,利用学习排序算法,学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中;
D:根据所述向量表示和所述映射矩阵,计算实体和类别之间的相似度,利用自顶向下的搜索方法,给未标注的实体分配类别路径。
可选地,所述步骤A包括:
A1:构造word-word共现网络Gww,用于描述在实体描述中词语级别的共现信息,形式化地表示为Gww=(V,Eww),每个结点代表一个word,边上地权重ωij表示两个词在文本中的共现次数;
A2:构造entity-word共现网络Gew,是一个由entity和word构成的二分图,形式化地表示为
Figure BDA0001358905330000021
边上地权重ωij表示一个词语wj在一个实体ei的文本描述中出现的次数;
A3:构造type-word共现网络Gtw,是一个由type和word构成的二分图,形式化地表示为
Figure BDA0001358905330000031
边上地权重ωij表示一个词语wj在一个类型ti中出现的次数;
A4:构造entity-type共现网络Get,是一个由entity和type构成的二分图,形式化地表示为
Figure BDA0001358905330000032
实体ei和类别tj之间存在一条边(ωij=1),当且仅当实体ei属于类别tj
其中,ωij表示一条边上的权重;wi表示一个词语;ti表示一个类别;ei表示一个实体ei的向量表示;ti表示一个类别ti的向量表示。
可选地,所述步骤B包括步骤:
基于得到的4个异构的共现网络Gww、Gew、Gtw和Get,采用PTE算法,学习每个实体ei和类别tj的向量表示;
B1:对于任意的二分图G=(VA∪VB,E),VA和VB是不相交的点的集合,E是边的集合,定义vj∈VB产生vi∈VA的条件概率为:
Figure BDA0001358905330000033
其中,
Figure BDA0001358905330000034
Figure BDA0001358905330000035
分别是vi和vj的向量表示,对于任意的vj∈VB,可以定义在VA中所有结点上的条件分布p(·|vj);
B2:基于B1定义的每个点的条件分布,对于vj,∈VB,使条件分布p(·|vj)接近经验分布
Figure BDA0001358905330000036
利用KL散度来衡量两个分布之间的接近程度:
Figure BDA0001358905330000037
其中λj=∑iwij表明点vj的重要程度,经验分布的计算方式为:
Figure BDA0001358905330000038
目标函数简化为O=∑(i,j)∈Ewijlog(p(vj|vi));
B3:基于B2定义的目标函数,对于A中定义的每一个二分图,定义对应的目标函数Oww、Oew、Oet和Otw,将目标函数求和:
On=Oww+Oew+Oet+Otw
联合优化,得到每一个实体和类别的向量表示,Eemb={ei}和Temb={ti}。
可选地,所述步骤C包括步骤:
C1:定义两种类别之间的优先关系;
C2:基于C1定义的类别之间的优先关系,学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中,语义上相关的实体和类别在语义空间中也接近:
Φe(ei)=U·ei
Φt(tj)=V·tj
其中,Gww表示词语-词语共现网络;V表示所有词语的集合;Eww表示词语-词语共现网络中边的集合;Gew表示实体-词语共现网络;ε表示所有实体的集合;Eew表示实体-词语共现网络中边的集合;Gtw表示类别-词语共现网络;
Figure BDA0001358905330000041
表示所有类别的集合;Etw表示类别-词语共现网络中边的集合;Get表示实体-类别共现网络;Eet表示实体-类别共现网络中边的集合;G指一个二分图,VA和VB是图G中两个不相交的点的集合,E是图G中边的集合;p(vi|vj)表示VB中的一个点vj产生VA中的一个点vi的条件概率;
Figure BDA0001358905330000042
Figure BDA0001358905330000043
分别是vi和vj的向量表示;exp是指数函数;p(·|vj)表示VB中的一个点vj,生成VA中所有结点的条件分布;
Figure BDA0001358905330000044
表示p(·|vj)对应的经验分布;Oww、Oew、Oet和Otw分别表示网络表示学习方法在词语-词语共现网络Gww,实体-词语共现网络Gew,实体-类别共现网络Get和类别-词语共现网络Gtw上的目标函数。On表示网络表示学习方法在四个异构网络上整体的目标函数;U表示实体向量对应的映射矩阵或投影矩阵;Φe(ei)表示实体向量ei的映射函数,利用投影矩阵U来计算;V表示类别向量对应的映射矩阵或投影矩阵;Φt(tj)表示类别向量tj的映射函数,利用投影矩阵V来计算;s(ei,tj)表示实体ei和类别tj的相似度。
可选地,所述步骤C2中,两种类别之间的优先关系包括:
Figure BDA0001358905330000051
其中l(ti,tj)表示类别ti和类别tj在分类树中的距离,基于第一种优先关系的目标函数定义为:
Figure BDA0001358905330000052
Figure BDA0001358905330000053
Figure BDA0001358905330000054
其中,p(e)表示一个实体的类别路径,A(tk)表示类别tk的祖先结点,
Figure BDA0001358905330000055
将排名映射为浮点数的权重,s(e,tk)表示Φe(e)和Φt(tk)的内积。
可选地,所述步骤C2中,两种类别之间的优先关系包括:
Figure BDA0001358905330000056
Figure BDA0001358905330000057
Figure BDA0001358905330000058
其中S(tk)表示类别tk的兄弟结点。对于所有带有类别标注信息的实体求和,得到目标函数:
Figure BDA0001358905330000059
采用随机梯度下降(SGD)算法求解目标函数,学习得到实体和类别的映射矩阵U和V。
可选地,所述步骤D中,
基于步骤B得到的实体和类别的向量表示,以及步骤C得到的映射矩阵,采用自顶向下的搜索策略去预测未标注的实体的类别路径。
可选地,所述步骤D中,
从分类树的根结点出发,通过计算实体和类别之间的相似度,发现每一层和当前实体最匹配的类别,递归地进行查找,直到终止于叶子结点或者相似度低于某个阈值,实体和类别之间相似度地计算方式为:
s(ei,tj)=Φe(ei)·Φt(tj)
计算相似度的时候会用到实体和类别的向量表示(ei和tj),以及实体和类别的映射矩阵(U和V),整个过程是一个自顶向下的搜索过程,预测的结果自然形成一条类别路径,满足细粒度的实体分类任务的要求。
由上述技术方案可知,本发明供的基于表示学习的知识库实体分类的计算方法,利用实体的文本描述构建信息网络,再从网络中学习得到实体和类别的低维稠密的向量表示,不需要人工为实体定义特征,有效地解决了实体表示的问题;利用学习排序算法,定义两种类型之间的优先关系,将实体和类别映射到同一个语义空间中,充分考虑了类别之间的层次关系,有效解决了层次分类的问题。本发明从大规模文本出发,构造包含不同信息的网络,利用表示学习算法得到实体和类别的向量表示,无需人工定义特征,有效解决了知识库中实体表示困难的问题。另一方面,采用学习排序算法,通过定义两种类别之间的优先关系,将实体和类别映射到同一个语义空间中,实现自顶向下的类别推理,有效地将类别之间的层次关系考虑到模型中,适用于层次分类的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例中一种基于表示学习的知识库实体分类的计算方法流程示意图;
图2为本发明另一个实施例中一种基于表示学习的知识库实体分类的计算方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2所示,发明提供一种基于表示学习的知识库实体分类的计算装置流程图。如图1所示,该方法包括:
步骤A:构造4个异构的共现网络,分别是词语-词语(word-word),实体-词语(entity-word),类别-词语(type-word),实体-类别(entity-type)共现网络,每一个网络都可以看作是一个二分图。
所述步骤A具体包括:
A1:构造word-word共现网络Gww,用于描述在实体描述中词语级别的共现信息,形式化地表示为Gww=(V,Eww),每个结点代表一个word,边上地权重ωij表示两个词在文本中的共现次数(给定共现窗口)。
A2:构造entity-word共现网络Gew,是一个由entity和word构成的二分图,形式化地表示为
Figure BDA0001358905330000071
边上地权重ωij表示一个词语wj在一个实体ei的文本描述中出现的次数。
A3:构造type-word共现网络Gtw,是一个由type和word构成的二分图,形式化地表示为
Figure BDA0001358905330000081
边上地权重ωij表示一个词语wj在一个类型ti中出现的次数,具体的计算方式为分别计算wj出现在每一个属于类别ti中的实体的文本描述中的次数,再把它们求和得到wj在类型ti下所有实体中的出现总次数。
A4:构造entity-type共现网络Get,是一个由entity和type构成的二分图,形式化地表示为
Figure BDA0001358905330000082
实体ei和类别tj之间存在一条边(ωij=1),当且仅当实体ei属于类别tj
步骤B:基于步骤A得到的4个异构的共现网络Gww、Gew、Gtw和Get,采用基于网络的表示学习算法,学习每个实体ei和类别tj的向量表示,语义上相近的实体具有相似的表示,语义上相近的类别也具有相似的表示。
所述步骤B具体包括:
B1:对于任意的二分图G=(VA∪VB,E),VA和VB是不相交的点的集合,E是边的集合,定义vj∈VB产生vi∈VA的条件概率为:
Figure BDA0001358905330000083
其中,
Figure BDA0001358905330000084
Figure BDA0001358905330000085
分别是vi和vj的向量表示。对于任意的vj∈VB,可以定义在VA中所有结点上的条件分布p(·|vj)。
B2:基于B1定义的每个点的条件分布,对于vj,∈VB,使条件分布p(·|vj)接近经验分布
Figure BDA0001358905330000086
利用KL散度来衡量两个分布之间的接近程度:
Figure BDA0001358905330000087
其中λj=∑iwij表明点vj的重要程度,经验分布的计算方式为:
Figure BDA0001358905330000088
目标函数简化为O=∑(i,j)∈Ewijlog(p(vj|vi))。
B3:基于B2定义的目标函数,对于A中定义的每一个二分图,定义对应的目标函数Oww、Oew、Oet和Otw,将目标函数求和:
On=Oww+Oew+Oet+Otw
联合优化,得到每一个实体和类别的向量表示,Eemb={ei}和Temb={ti}。
步骤C:基于步骤B所得到的实体和类别的向量表示,利用学习排序算法(Learningto Rank),学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中,语义上相近的实体和类别在语义空间中也接近。
所述步骤C具体包括:
C1:定义两种类别之间的优先关系。第一,在一个实体对应的类别路径中,更具体的类别要比更一般的类别接近这个实体,称为ancestor order。第二,在分类树中,正确的类别要比兄弟结点类别更加接近这个实体,称为sibling order。
C2:基于C1定义的类别之间的优先关系,学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中,语义上相关的实体和类别在语义空间中也接近:
Φe(ei)=U·ei
Φt(tj)=V·tj
步骤D:基于步骤B得到的实体和类别的向量表示,以及步骤C得到的映射矩阵,采用自顶向下的搜索策略去预测未标注的实体的类别路径。从分类树的根结点出发,通过计算实体和类别之间的相似度,发现每一层和当前实体最匹配的类别,递归地进行查找,直到终止于叶子结点或者相似度低于某个阈值,实体和类别之间相似度地计算方式为:
s(ei,tj)=Φe(ei)·Φt(tj)
计算相似度的时候会用到实体和类别的向量表示(ei和tj),以及实体和类别的映射矩阵(U和V),整个过程是一个自顶向下的搜索过程,预测的结果自然形成一条类别路径。
下面对本发明中涉及到的公式字母说明:
ωij泛指一条边上的权重(不限下标)。
wi泛指一个词语(不限下标)。
ei泛指一个实体(不限下标)。
ti泛指一个类别(不限下标)。
ei泛指一个实体ei的向量表示(不限下标)。
ti泛指一个类别ti的向量表示(不限下标)。
Gww表示词语-词语共现网络。
V表示所有词语的集合。
Eww表示词语-词语共现网络中边的集合。
Gew表示实体-词语共现网络。
ε表示所有实体的集合。
Eew表示实体-词语共现网络中边的集合。
Gtw表示类别-词语共现网络。
Figure BDA0001358905330000101
表示所有类别的集合。
Etw表示类别-词语共现网络中边的集合。
Get表示实体-类别共现网络。
Eet表示实体-类别共现网络中边的集合。
G泛指一个二分图,VA和VB是图G中两个不相交的点的集合,E是图G中边的集合。
p(vi|vj)表示VB中的一个点vj产生VA中的一个点vi的条件概率。
Figure BDA0001358905330000102
Figure BDA0001358905330000103
分别是vi和vj的向量表示。
exp是指数函数。
p(·|vj)表示VB中的一个点vj,生成VA中所有结点的条件分布。
Figure BDA0001358905330000104
表示p(·|vj)对应的经验分布。
Oww、Oew、Oet和Otw分别表示网络表示学习方法在词语-词语共现网络Gww,实体-词语共现网络Gew,实体-类别共现网络Get和类别-词语共现网络Gtw上的目标函数。On表示网络表示学习方法在四个异构网络上整体的目标函数。
U表示实体向量对应的映射矩阵或投影矩阵。
Φe(ei)表示实体向量ei的映射函数,利用投影矩阵U来计算。
V表示类别向量对应的映射矩阵或投影矩阵。
Φt(tj)表示类别向量tj的映射函数,利用投影矩阵V来计算。
s(ei,tj)表示实体ei和类别tj的相似度。
采用本发明的方法进行了实验,具体实验过程如下:
1、数据集介绍。利用Dbpedia的分类树和***中的文本描述来构造数据集,***中的每个词条都有唯一的一条类别路径(对应Dbpedia的分类树中的一条路径),以维基自身的文本作为每个实体的文本描述。一共构造了3个数据集:(1)使用每个维基词条全部的文本信息作为实体的文本描述。(2)使用每个维基词条的摘要部分作为实体的文本描述。(3)对词条的文本进行词干化处理,近而作为实体的文本描述。数据集的相关信息如表1所示。
表1数据集的相关统计
数据集 全文 摘要 词干化
Types 451 451 450
Entities 3,087,751 2,536,198 2,847,568
Words 31,752 17,451 25,430
G<sub>et</sub>edges 7,757,347 6,340,495 7,190,233
G<sub>ew</sub>edges 418,527,303 247,165,283 334,632,976
G<sub>tw</sub>edges 6,743,100 3,184,492 4,730,374
G<sub>ww</sub>edges 377,267,923 147,490,406 224,829,203
对于全文的数据集,按照1500的阈值过滤低频词。对于摘要的数据集,按照1000的阈值过滤低频词。按照80/20的比例划分训练数据和测试数据。
2、实验设置。与已有的研究工作一样,采用Strict-F1,Mi-F1和Ma-F1来评价实验效果。对比方法包括:Tipalo模型、SDType模型、FIGMENT模型、CUTE模型、CE/HCE模型;以及自身的对比实验。其中前4个为传统的实体分类算法,CE/HCE是基于表示学习的实体分类算法。自身的对比实验用于测试word-word网络的作用。
3、实验结果与分析
采用以上数据集和实验设置,我们将本发明公布的方法在各个数据集上进行了实验,并与以上主流方法进行了对比(本发明公布的方法用EFHET表示)。如表2所示,为实体分类的评测结果。在每个数据集上,EFHET在3项评测指标下均明显优于对比方法,证明了本发明所公布方法的准确性和稳定性。
表2知识库中实体分类结果分析
Figure BDA0001358905330000121
实验结果分析。首先,EFHET方法的表现优于几个流行的实体分类算法。主要是因为EFHET方法利用了更多的结构化信息,在基于网络的表示学习过程中,语义上相关的实体有相似的表示,语义上接近的类别也具有相似的表示;在学习实体和类别的映射矩阵的过程中,通过定义的两种类别之间的优先关系,建立起了实体和类别之间的桥梁,在分类的过程中有很强的区分能力,因此效果更好。
另外,对比基于表示学习的方法CE/HCE,EFHET有着明显的优势。主要原因在于CE/HCE方法依赖于上下文中出现的实体对,这种实体之间的共现关系,不同于词之间的共现关系,非常稀疏,而且有很大的噪音,数据量比较少,会影响实验效果。而EFHET从大规模文本出发,只利用最朴素的文本信息,从词的角度出发,数据规模更大,效果也自然更好。
最后,在自身的对比中,可以看到word-word网络对于最终的实验效果有一定的帮助。比如,“电脑”和“计算机”是相近的词语,在表示学习的过程中也会得到相似的表示。“电脑”和“计算机”可能分别经常出现在不同的实体中,但这些实体很有可能会因为“电脑”和“计算机”之间的关系有着相似的表示。Word-word网络在一定程度上解决了同义词的问题,对最终的结果有一定的提升。
综上所述,本发明提供的本发明供的基于表示学习的知识库实体分类的计算方法,利用实体的文本描述构建信息网络,再从网络中学习得到实体和类别的低维稠密的向量表示,不需要人工为实体定义特征,有效地解决了实体表示的问题;利用学习排序算法,定义两种类型之间的优先关系,将实体和类别映射到同一个语义空间中,充分考虑了类别之间的层次关系,有效解决了层次分类的问题。本发明从大规模文本出发,构造包含不同信息的网络,利用表示学习算法得到实体和类别的向量表示,无需人工定义特征,有效解决了知识库中实体表示困难的问题。另一方面,采用学习排序算法,通过定义两种类别之间的优先关系,将实体和类别映射到同一个语义空间中,实现自顶向下的类别推理,有效地将类别之间的层次关系考虑到模型中,适用于层次分类的问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种基于表示学习的知识库实体分类的计算方法,其特征在于,包括:
A:对于给定类别标注的知识库中的实体,构造词语-词语、实体-词语、类别-词语、实体-类别一共4个层次的共现网络,将语义信息整合到4个异构的共现网络中;
B:基于所述4个异构的共现网络,利用基于网络的表示学习算法,学习得到每个实体和类别的向量表示;
C:基于所述实体和类别的向量表示,利用学习排序算法,学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中;
D:根据所述向量表示和所述映射矩阵,计算实体和类别之间的相似度,利用自顶向下的搜索方法,给未标注的实体分配类别路径。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
A1:构造word-word共现网络Gww,用于描述在实体描述中词语级别的共现信息,形式化地表示为Gww=(V,Eww),每个结点代表一个word,边上地权重ωij表示两个词在文本中的共现次数;
A2:构造entity-word共现网络Gew,是一个由entity和word构成的二分图,形式化地表示为Gew=(ε∪V,Eew),边上地权重ωij表示一个词语wj在一个实体ei的文本描述中出现的次数;
A3:构造type-word共现网络Gtw,是一个由type和word构成的二分图,形式化地表示为
Figure FDA0002547442530000011
边上地权重ωij表示一个词语wj在一个类型ti中出现的次数;
A4:构造entity-type共现网络Get,是一个由entity和type构成的二分图,形式化地表示为
Figure FDA0002547442530000012
实体ei和类别tj之间存在一条边ωij=1,当且仅当实体ei属于类别tj
其中,ωij表示一条边上的权重;wi表示一个词语;ti表示一个类别;ei表示一个实体;Gww表示词语-词语共现网络;V表示所有词语的集合;Eww表示词语-词语共现网络中边的集合;Gew表示实体-词语共现网络;ε表示所有实体的集合;Eew表示实体-词语共现网络中边的集合;Gtw表示类别-词语共现网络;
Figure FDA0002547442530000021
表示所有类别的集合;Etw表示类别-词语共现网络中边的集合;Get表示实体-类别共现网络;Eet表示实体-类别共现网络中边的集合。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括步骤:
基于得到的4个异构的共现网络Gww、Gew、Gtw和Get,采用PTE算法,学习每个实体ei和类别tj的向量表示;
B1:对于任意的二分图G=(VA∪VB,E),VA和VB是不相交的点的集合,E是边的集合,定义vj∈VB产生vi∈VA的条件概率为:
Figure FDA0002547442530000022
其中,
Figure FDA0002547442530000023
Figure FDA0002547442530000024
分别是vi和vj的向量表示,对于任意的vj∈VB,可以定义在VA中所有结点上的条件分布p(·|vj);
B2:基于B1定义的每个点的条件分布,对于vj,∈VB,使条件分布p(·|vj)接近经验分布
Figure FDA0002547442530000025
利用KL散度来衡量两个分布之间的接近程度:
Figure FDA0002547442530000026
其中λj=∑iwij表明点vj的重要程度,经验分布的计算方式为:
Figure FDA0002547442530000027
目标函数简化为O=∑(i,j)∈Ewijlog(p(vj|vi));
B3:基于B2定义的目标函数,对于所述步骤A中定义的每一个二分图,定义对应的目标函数Oww、Oew、Oet和Otw,将目标函数求和:
On=Oww+Oew+Oet+Otw
联合优化,得到每一个实体和类别的向量表示,Eemb={ei}和Temb={ti};
其中,Oww、Oew、Oet和Otw分别表示网络表示学习方法在词语-词语共现网络Gww,实体-词语共现网络Gew,实体-类别共现网络Get和类别-词语共现网络Gtw上的目标函数;ωij表示一条边上的权重,j表示和i不同的实体对应的编号,i′表示集合VA或VB中任意一个实体对应的编号,VA和VB分别表示图G中两个不相交的点的集合,A表示第一个点集合类别,B表示第二个点集合类别。
4.根据权利要求1所述的方法,其特征在于,所述步骤C包括步骤:
C1:定义两种类别之间的优先关系;
C2:基于C1定义的类别之间的优先关系,学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中,语义上相关的实体和类别在语义空间中也接近:
Φe(ei)=U·ei
Φt(tj)=C·tj
其中,Gww表示词语-词语共现网络;V表示所有词语的集合;Eww表示词语-词语共现网络中边的集合;Gew表示实体-词语共现网络;ε表示所有实体的集合;Eew表示实体-词语共现网络中边的集合;Gtw表示类别-词语共现网络;
Figure FDA0002547442530000031
表示所有类别的集合;Etw表示类别-词语共现网络中边的集合;Get表示实体-类别共现网络;Eet表示实体-类别共现网络中边的集合;G指一个二分图,VA和VB是图G中两个不相交的点的集合,E是图G中边的集合;p(vi|vj)表示VB中的一个点vj产生VA中的一个点vi的条件概率;
Figure FDA0002547442530000032
Figure FDA0002547442530000033
分别是vi和vj的向量表示;exp是指数函数;p(·|vj)表示VB中的一个点vj,生成VA中所有结点的条件分布;
Figure FDA0002547442530000034
表示p(·|vj)对应的经验分布;Oww、Oew、Oet和Otw分别表示网络表示学习方法在词语-词语共现网络Gww,实体-词语共现网络Gew,实体-类别共现网络Get和类别-词语共现网络Gtw上的目标函数,On表示网络表示学习方法在四个异构网络上整体的目标函数;U表示实体向量对应的映射矩阵或投影矩阵;Φe(ei)表示实体向量ei的映射函数,利用投影矩阵U来计算;Φt(tj)表示类别向量tj的映射函数,利用C来计算;s(ei,tj)表示实体ei和类别tj的相似度。
5.根据权利要求4所述的方法,其特征在于,所述步骤C2中,两种类别之间的优先关系包括:
Figure FDA0002547442530000041
其中l(ti,tj)表示类别ti和类别tj在分类树中的距离,基于第一种优先关系的目标函数定义为:
Figure FDA0002547442530000042
Figure FDA0002547442530000043
Figure FDA0002547442530000044
其中,p(e)表示一个实体的类别路径,A(tk)表示类别tk的祖先结点,
Figure FDA0002547442530000045
将排名映射为浮点数的权重,s(e,tk)表示Φe(e)和Φt(tk)的内积,root表示分类树中的根结点。
6.根据权利要求4所述的方法,其特征在于,所述步骤C2中,两种类别之间的优先关系包括:
Figure FDA0002547442530000046
Figure FDA0002547442530000047
Figure FDA0002547442530000048
其中S(tk)表示类别tk的兄弟结点,p(e)表示一个实体的类别路径,s(e,tk)表示Φe(e)和Φt(tk)的内积,tk′表示实体e的任一类别的祖先类别或者兄弟类别,对于所有带有类别标注信息的实体求和,得到目标函数:
Figure FDA0002547442530000051
采用随机梯度下降(SGD)算法求解目标函数,学习得到实体和类别的映射矩阵U和C。
7.根据权利要求1所述的方法,其特征在于,所述步骤D中,
基于步骤B得到的实体和类别的向量表示,以及步骤C得到的映射矩阵,采用自顶向下的搜索策略去预测未标注的实体的类别路径。
8.根据权利要求1所述的方法,其特征在于,所述步骤D中,
从分类树的根结点出发,通过计算实体和类别之间的相似度,发现每一层和当前实体最匹配的类别,递归地进行查找,直到终止于叶子结点或者相似度低于某个阈值,实体和类别之间相似度地计算方式为:
s(ei,tj)=Φe(ei)·Φt(tj)
其中,Φe(ei)表示实体向量ei的映射函数,Φt(tj)表示类别向量tj的映射函数;
计算相似度的时候会用到实体和类别的向量表示ei和tj,以及实体和类别的映射矩阵U和C,整个过程是一个自顶向下的搜索过程,预测的结果自然形成一条类别路径,满足细粒度的实体分类任务的要求。
CN201710608234.8A 2017-07-24 2017-07-24 一种基于表示学习的知识库实体分类的计算方法 Active CN107545033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710608234.8A CN107545033B (zh) 2017-07-24 2017-07-24 一种基于表示学习的知识库实体分类的计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710608234.8A CN107545033B (zh) 2017-07-24 2017-07-24 一种基于表示学习的知识库实体分类的计算方法

Publications (2)

Publication Number Publication Date
CN107545033A CN107545033A (zh) 2018-01-05
CN107545033B true CN107545033B (zh) 2020-12-01

Family

ID=60970776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710608234.8A Active CN107545033B (zh) 2017-07-24 2017-07-24 一种基于表示学习的知识库实体分类的计算方法

Country Status (1)

Country Link
CN (1) CN107545033B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228877B (zh) * 2018-01-22 2020-08-04 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN112487195B (zh) * 2019-09-12 2023-06-27 医渡云(北京)技术有限公司 实体的排序方法、装置、介质及电子设备
CN111259215B (zh) * 2020-02-14 2023-06-27 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质
CN111522959B (zh) * 2020-07-03 2021-05-28 科大讯飞(苏州)科技有限公司 实体分类方法、***和计算机可读存储介质
CN112699676B (zh) * 2020-12-31 2024-04-12 中国农业银行股份有限公司 一种地址相似关系生成方法及装置
CN114781471B (zh) * 2021-06-02 2022-12-27 清华大学 一种实体记录匹配方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
US8990200B1 (en) * 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与***
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102750316B (zh) * 2012-04-25 2015-10-28 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
US9292797B2 (en) * 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN106919689B (zh) * 2017-03-03 2018-05-11 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990200B1 (en) * 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与***
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Measuring the Influence from User-Generated Content to News via Cross-dependence Topic Modeling;Lei Hou 等;《International Conference on Database Systems for Advanced Applications》;20150409;125-141 *
基于研究热点的语义标注知识资源聚合研究;崔娜娜 等;《情报探索》;20160515(第5期);127-134 *
面向文本分类的中文文本语义表示方法;宋胜利 等;《西安电子科技大学学报(自然科学版)》;20121116;第40卷(第2期);89-97,129 *

Also Published As

Publication number Publication date
CN107545033A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107545033B (zh) 一种基于表示学习的知识库实体分类的计算方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
CN113705772A (zh) 一种模型训练方法、装置、设备及可读存储介质
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及***
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及***
CN107220311B (zh) 一种利用局部嵌入话题建模的文本表示方法
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
Huang et al. Large-scale heterogeneous feature embedding
Choi et al. Identifying disease-gene associations using a convolutional neural network-based model by embedding a biological knowledge graph with entity descriptions
CN111191466A (zh) 一种基于网络表征和语义表征的同名作者消歧方法
Zarei et al. Detecting community structure in complex networks using genetic algorithm based on object migrating automata
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
Gao et al. Clustering algorithms for detecting functional modules in protein interaction networks
Lan et al. Benchmarking of computational methods for predicting circRNA-disease associations
CN113850811B (zh) 基于多尺度聚类和掩码打分的三维点云实例分割方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、***、介质及设备
Menon et al. Gmm-based document clustering of knowledge graph embeddings
Sun et al. Graph embedding with rich information through heterogeneous network
CN113392334B (zh) 冷启动环境下的虚假评论检测方法
Xiao et al. Non-local attention learning on large heterogeneous information networks
CN113010668B (zh) 文本聚类方法、装置、电子设备及计算机可读存储介质
CN116991986B (zh) 一种语言模型轻量化方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant