CN107545033B

CN107545033B - 一种基于表示学习的知识库实体分类的计算方法

Info

Publication number: CN107545033B
Application number: CN201710608234.8A
Authority: CN
Inventors: 李涓子; 侯磊; 金海龙; 张鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2020-12-01
Anticipated expiration: 2037-07-24
Also published as: CN107545033A

Abstract

本发明涉及一种基于表示学习的知识库实体分类的计算装置，涉及文本分类和知识库补全领域。所述方法包括步骤：对于知识库中的实体，构造包含不同层次信息的共现网络，将词语‑词语，实体‑词语，类别‑词语，实体‑类别之间的共现信息编码到网络中；基于构造的共现网络，利用基于网络的表示学习方法，学习实体和类别的向量表示；基于学习得到的向量表示，利用学习排序算法，为实体和类别学习映射矩阵，语义上相关的实体和类别在语义空间中接近；利用自顶向下的搜索方法，为知识库中的实体自动分配类别，得到一条类别的路径。本发明方法有利于解决现有实体分类方法中存在的问题。

Description

一种基于表示学习的知识库实体分类的计算方法

技术领域

本发明涉及文本分类和知识库补全技术领域，具体涉及一种基于表示学习的知识库实体分类的计算方法。

背景技术

本部分向读者介绍可能与本发明的各个方面相关的背景技术，相信能够向读者提供有用的背景信息，从而有助于读者更好地理解本发明的各个方面。因此，可以理解，本部分的说明是用于上述目的，而并非构成对现有技术的承认。

近些年来，知识库吸引了越来越多的研究兴趣。现有的知识库大都不完善，很多研究者都致力于实现知识库补全的工作。为知识库中的实体分配类别是知识库补全的一个重要任务。实体的类别信息在知识库中具有非常重要的作用，有助于问答***，推荐***，关系抽取等任务。当前主要的研究方向是为实体分配细粒度的类别，因为细粒度的类别能够提供更加丰富的语义信息。

现有的研究通常采用机器学习中的多分类算法来对知识库中的实体进行分类，即把知识库中的实体分类任务看作是自然语言处理中传统的文本分类问题。主要的步骤是，先定义一些基于知识库的特征，然后利用传统的多分类算法来实现类别的预测。近些年来，表示学习技术迅猛发展，对实体分类任务有很大的帮助，通常的做法是为实体和类别分别定义特征，再将实体和类别的特征映射到同一个语义空间中，进而实现实体类别的推理计算，也取得了比较好的效果。

然而，现有的实体分类算法面临2个主要的问题：第一，难以为知识库中的实体设计有效的特征，不同于上下文中出现的实体，包含的语义信息比较少，知识库中的实体包含丰富的文本信息和结构化信息，需要用一种合理的方式表示知识库中的实体；第二，没有充分考虑类别之间的层次关系，知识库中的类别形成一棵树状结构，蕴含着相应的结构信息，现有的方法没有充分考虑分类树的层次结构。

发明内容

要解决的技术问题是如何提供一种基于表示学习的知识库实体分类的计算方法。

针对现有技术中的缺陷，本发明提供一种基于表示学习的知识库实体分类的计算方法，可以更好地解决现有知识库中实体分类方法中存在的问题。

第一方面，本发明提供了一种基于表示学习的知识库实体分类的计算装置，其包括步骤：

A：对于给定类别标注的知识库中的实体，构造词语-词语、实体-词语、类别-词语、实体-类别一共4个层次的共现网络，将语义信息整合到4个异构的共现网络中；

B：基于所述4个异构的共现网络，利用基于网络的表示学习算法，学习得到每个实体和类别的向量表示；

C：基于所述实体和类别的向量表示，利用学习排序算法，学习实体和类别的映射矩阵，将实体和类别映射到同一个语义空间中；

D：根据所述向量表示和所述映射矩阵，计算实体和类别之间的相似度，利用自顶向下的搜索方法，给未标注的实体分配类别路径。

可选地，所述步骤A包括：

A1：构造word-word共现网络G_ww，用于描述在实体描述中词语级别的共现信息，形式化地表示为G_ww＝(V,E_ww)，每个结点代表一个word，边上地权重ω_ij表示两个词在文本中的共现次数；

A2：构造entity-word共现网络G_ew，是一个由entity和word构成的二分图，形式化地表示为

边上地权重ω_ij表示一个词语w_j在一个实体e_i的文本描述中出现的次数；

A3：构造type-word共现网络G_tw，是一个由type和word构成的二分图，形式化地表示为

边上地权重ω_ij表示一个词语w_j在一个类型t_i中出现的次数；

A4：构造entity-type共现网络G_et，是一个由entity和type构成的二分图，形式化地表示为

实体e_i和类别t_j之间存在一条边(ω_ij＝1)，当且仅当实体e_i属于类别t_j

其中，ω_ij表示一条边上的权重；w_i表示一个词语；t_i表示一个类别；e_i表示一个实体e_i的向量表示；t_i表示一个类别t_i的向量表示。

可选地，所述步骤B包括步骤：

基于得到的4个异构的共现网络G_ww、G_ew、G_tw和G_et，采用PTE算法，学习每个实体e_i和类别t_j的向量表示；

B1：对于任意的二分图G＝(V_A∪V_B,E)，V_A和V_B是不相交的点的集合，E是边的集合，定义v_j∈V_B产生v_i∈V_A的条件概率为：

其中，

和

分别是v_i和v_j的向量表示,对于任意的v_j∈V_B，可以定义在V_A中所有结点上的条件分布p(·|v_j)；

B2：基于B1定义的每个点的条件分布，对于v_j,∈V_B，使条件分布p(·|v_j)接近经验分布

利用KL散度来衡量两个分布之间的接近程度：

其中λ_j＝∑_iw_ij表明点v_j的重要程度，经验分布的计算方式为：

目标函数简化为O＝∑_(i,j)∈Ew_ijlog(p(v_j|v_i))；

B3：基于B2定义的目标函数，对于A中定义的每一个二分图，定义对应的目标函数O_ww、O_ew、O_et和O_tw，将目标函数求和：

O_n＝O_ww+O_ew+O_et+O_tw

联合优化，得到每一个实体和类别的向量表示，E_emb＝{e_i}和T_emb＝{t_i}。

可选地，所述步骤C包括步骤：

C1：定义两种类别之间的优先关系；

C2：基于C1定义的类别之间的优先关系，学习实体和类别的映射矩阵，将实体和类别映射到同一个语义空间中，语义上相关的实体和类别在语义空间中也接近：

Φ_e(e_i)＝U·e_i

Φ_t(t_j)＝V·t_j

其中，G_ww表示词语-词语共现网络；V表示所有词语的集合；E_ww表示词语-词语共现网络中边的集合；G_ew表示实体-词语共现网络；ε表示所有实体的集合；E_ew表示实体-词语共现网络中边的集合；G_tw表示类别-词语共现网络；

表示所有类别的集合；E_tw表示类别-词语共现网络中边的集合；G_et表示实体-类别共现网络；E_et表示实体-类别共现网络中边的集合；G指一个二分图，V_A和V_B是图G中两个不相交的点的集合，E是图G中边的集合；p(v_i|v_j)表示V_B中的一个点v_j产生V_A中的一个点v_i的条件概率；

和

分别是v_i和v_j的向量表示；exp是指数函数；p(·|v_j)表示V_B中的一个点v_j，生成V_A中所有结点的条件分布；

表示p(·|v_j)对应的经验分布；O_ww、O_ew、O_et和O_tw分别表示网络表示学习方法在词语-词语共现网络G_ww，实体-词语共现网络G_ew，实体-类别共现网络G_et和类别-词语共现网络G_tw上的目标函数。O_n表示网络表示学习方法在四个异构网络上整体的目标函数；U表示实体向量对应的映射矩阵或投影矩阵；Φ_e(e_i)表示实体向量e_i的映射函数，利用投影矩阵U来计算；V表示类别向量对应的映射矩阵或投影矩阵；Φ_t(t_j)表示类别向量t_j的映射函数，利用投影矩阵V来计算；s(e_i,t_j)表示实体e_i和类别t_j的相似度。

可选地，所述步骤C2中，两种类别之间的优先关系包括：

其中l(t_i,t_j)表示类别t_i和类别t_j在分类树中的距离，基于第一种优先关系的目标函数定义为：

其中，p(e)表示一个实体的类别路径，A(t_k)表示类别t_k的祖先结点，

将排名映射为浮点数的权重，s(e,t_k)表示Φ_e(e)和Φ_t(t_k)的内积。

可选地，所述步骤C2中，两种类别之间的优先关系包括：

其中S(t_k)表示类别t_k的兄弟结点。对于所有带有类别标注信息的实体求和，得到目标函数：

采用随机梯度下降(SGD)算法求解目标函数，学习得到实体和类别的映射矩阵U和V。

可选地，所述步骤D中，

基于步骤B得到的实体和类别的向量表示，以及步骤C得到的映射矩阵，采用自顶向下的搜索策略去预测未标注的实体的类别路径。

可选地，所述步骤D中，

从分类树的根结点出发，通过计算实体和类别之间的相似度，发现每一层和当前实体最匹配的类别，递归地进行查找，直到终止于叶子结点或者相似度低于某个阈值，实体和类别之间相似度地计算方式为：

s(e_i,t_j)＝Φ_e(e_i)·Φ_t(t_j)

计算相似度的时候会用到实体和类别的向量表示(e_i和t_j)，以及实体和类别的映射矩阵(U和V)，整个过程是一个自顶向下的搜索过程，预测的结果自然形成一条类别路径，满足细粒度的实体分类任务的要求。

由上述技术方案可知，本发明供的基于表示学习的知识库实体分类的计算方法，利用实体的文本描述构建信息网络，再从网络中学习得到实体和类别的低维稠密的向量表示，不需要人工为实体定义特征，有效地解决了实体表示的问题；利用学习排序算法，定义两种类型之间的优先关系，将实体和类别映射到同一个语义空间中，充分考虑了类别之间的层次关系，有效解决了层次分类的问题。本发明从大规模文本出发，构造包含不同信息的网络，利用表示学习算法得到实体和类别的向量表示，无需人工定义特征，有效解决了知识库中实体表示困难的问题。另一方面，采用学习排序算法，通过定义两种类别之间的优先关系，将实体和类别映射到同一个语义空间中，实现自顶向下的类别推理，有效地将类别之间的层次关系考虑到模型中，适用于层次分类的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中一种基于表示学习的知识库实体分类的计算方法流程示意图；

图2为本发明另一个实施例中一种基于表示学习的知识库实体分类的计算方法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图2所示，发明提供一种基于表示学习的知识库实体分类的计算装置流程图。如图1所示，该方法包括：

步骤A：构造4个异构的共现网络，分别是词语-词语(word-word)，实体-词语(entity-word)，类别-词语(type-word)，实体-类别(entity-type)共现网络，每一个网络都可以看作是一个二分图。

所述步骤A具体包括：

A1：构造word-word共现网络G_ww，用于描述在实体描述中词语级别的共现信息，形式化地表示为G_ww＝(V,E_ww)，每个结点代表一个word，边上地权重ω_ij表示两个词在文本中的共现次数(给定共现窗口)。

边上地权重ω_ij表示一个词语w_j在一个实体e_i的文本描述中出现的次数。

边上地权重ω_ij表示一个词语w_j在一个类型t_i中出现的次数，具体的计算方式为分别计算w_j出现在每一个属于类别t_i中的实体的文本描述中的次数，再把它们求和得到w_j在类型t_i下所有实体中的出现总次数。

实体e_i和类别t_j之间存在一条边(ω_ij＝1)，当且仅当实体e_i属于类别t_j。

步骤B：基于步骤A得到的4个异构的共现网络G_ww、G_ew、G_tw和G_et，采用基于网络的表示学习算法，学习每个实体e_i和类别t_j的向量表示，语义上相近的实体具有相似的表示，语义上相近的类别也具有相似的表示。

所述步骤B具体包括：

其中，

和

分别是v_i和v_j的向量表示。对于任意的v_j∈V_B，可以定义在V_A中所有结点上的条件分布p(·|v_j)。

利用KL散度来衡量两个分布之间的接近程度：

目标函数简化为O＝∑_(i,j)∈Ew_ijlog(p(v_j|v_i))。

O_n＝O_ww+O_ew+O_et+O_tw

步骤C：基于步骤B所得到的实体和类别的向量表示，利用学习排序算法(Learningto Rank)，学习实体和类别的映射矩阵，将实体和类别映射到同一个语义空间中，语义上相近的实体和类别在语义空间中也接近。

所述步骤C具体包括：

C1：定义两种类别之间的优先关系。第一，在一个实体对应的类别路径中，更具体的类别要比更一般的类别接近这个实体，称为ancestor order。第二，在分类树中，正确的类别要比兄弟结点类别更加接近这个实体，称为sibling order。

Φ_e(e_i)＝U·e_i

Φ_t(t_j)＝V·t_j

步骤D：基于步骤B得到的实体和类别的向量表示，以及步骤C得到的映射矩阵，采用自顶向下的搜索策略去预测未标注的实体的类别路径。从分类树的根结点出发，通过计算实体和类别之间的相似度，发现每一层和当前实体最匹配的类别，递归地进行查找，直到终止于叶子结点或者相似度低于某个阈值，实体和类别之间相似度地计算方式为：

s(e_i,t_j)＝Φ_e(e_i)·Φ_t(t_j)

计算相似度的时候会用到实体和类别的向量表示(e_i和t_j)，以及实体和类别的映射矩阵(U和V)，整个过程是一个自顶向下的搜索过程，预测的结果自然形成一条类别路径。

下面对本发明中涉及到的公式字母说明：

ω_ij泛指一条边上的权重(不限下标)。

w_i泛指一个词语(不限下标)。

e_i泛指一个实体(不限下标)。

t_i泛指一个类别(不限下标)。

e_i泛指一个实体e_i的向量表示(不限下标)。

t_i泛指一个类别t_i的向量表示(不限下标)。

G_ww表示词语-词语共现网络。

V表示所有词语的集合。

E_ww表示词语-词语共现网络中边的集合。

G_ew表示实体-词语共现网络。

ε表示所有实体的集合。

E_ew表示实体-词语共现网络中边的集合。

G_tw表示类别-词语共现网络。

表示所有类别的集合。

E_tw表示类别-词语共现网络中边的集合。

G_et表示实体-类别共现网络。

E_et表示实体-类别共现网络中边的集合。

G泛指一个二分图，V_A和V_B是图G中两个不相交的点的集合，E是图G中边的集合。

p(v_i|v_j)表示V_B中的一个点v_j产生V_A中的一个点v_i的条件概率。

和

分别是v_i和v_j的向量表示。

exp是指数函数。

p(·|v_j)表示V_B中的一个点v_j，生成V_A中所有结点的条件分布。

表示p(·|v_j)对应的经验分布。

O_ww、O_ew、O_et和O_tw分别表示网络表示学习方法在词语-词语共现网络G_ww，实体-词语共现网络G_ew，实体-类别共现网络G_et和类别-词语共现网络G_tw上的目标函数。O_n表示网络表示学习方法在四个异构网络上整体的目标函数。

U表示实体向量对应的映射矩阵或投影矩阵。

Φ_e(e_i)表示实体向量e_i的映射函数，利用投影矩阵U来计算。

V表示类别向量对应的映射矩阵或投影矩阵。

Φ_t(t_j)表示类别向量t_j的映射函数，利用投影矩阵V来计算。

s(e_i,t_j)表示实体e_i和类别t_j的相似度。

采用本发明的方法进行了实验，具体实验过程如下：

1、数据集介绍。利用Dbpedia的分类树和***中的文本描述来构造数据集，***中的每个词条都有唯一的一条类别路径(对应Dbpedia的分类树中的一条路径)，以维基自身的文本作为每个实体的文本描述。一共构造了3个数据集：(1)使用每个维基词条全部的文本信息作为实体的文本描述。(2)使用每个维基词条的摘要部分作为实体的文本描述。(3)对词条的文本进行词干化处理，近而作为实体的文本描述。数据集的相关信息如表1所示。

表1数据集的相关统计

数据集	全文	摘要	词干化
				Types	451	451	450
Entities	3,087,751	2,536,198	2,847,568
				Words	31,752	17,451	25,430
G<sub>et</sub>edges	7,757,347	6,340,495	7,190,233
				G<sub>ew</sub>edges	418,527,303	247,165,283	334,632,976
G<sub>tw</sub>edges	6,743,100	3,184,492	4,730,374
				G<sub>ww</sub>edges	377,267,923	147,490,406	224,829,203

对于全文的数据集，按照1500的阈值过滤低频词。对于摘要的数据集，按照1000的阈值过滤低频词。按照80/20的比例划分训练数据和测试数据。

2、实验设置。与已有的研究工作一样，采用Strict-F1，Mi-F1和Ma-F1来评价实验效果。对比方法包括：Tipalo模型、SDType模型、FIGMENT模型、CUTE模型、CE/HCE模型；以及自身的对比实验。其中前4个为传统的实体分类算法，CE/HCE是基于表示学习的实体分类算法。自身的对比实验用于测试word-word网络的作用。

3、实验结果与分析

采用以上数据集和实验设置，我们将本发明公布的方法在各个数据集上进行了实验，并与以上主流方法进行了对比(本发明公布的方法用EFHET表示)。如表2所示，为实体分类的评测结果。在每个数据集上，EFHET在3项评测指标下均明显优于对比方法，证明了本发明所公布方法的准确性和稳定性。

表2知识库中实体分类结果分析

实验结果分析。首先，EFHET方法的表现优于几个流行的实体分类算法。主要是因为EFHET方法利用了更多的结构化信息，在基于网络的表示学习过程中，语义上相关的实体有相似的表示，语义上接近的类别也具有相似的表示；在学习实体和类别的映射矩阵的过程中，通过定义的两种类别之间的优先关系，建立起了实体和类别之间的桥梁，在分类的过程中有很强的区分能力，因此效果更好。

另外，对比基于表示学习的方法CE/HCE，EFHET有着明显的优势。主要原因在于CE/HCE方法依赖于上下文中出现的实体对，这种实体之间的共现关系，不同于词之间的共现关系，非常稀疏，而且有很大的噪音，数据量比较少，会影响实验效果。而EFHET从大规模文本出发，只利用最朴素的文本信息，从词的角度出发，数据规模更大，效果也自然更好。

最后，在自身的对比中，可以看到word-word网络对于最终的实验效果有一定的帮助。比如，“电脑”和“计算机”是相近的词语，在表示学习的过程中也会得到相似的表示。“电脑”和“计算机”可能分别经常出现在不同的实体中，但这些实体很有可能会因为“电脑”和“计算机”之间的关系有着相似的表示。Word-word网络在一定程度上解决了同义词的问题，对最终的结果有一定的提升。

综上所述，本发明提供的本发明供的基于表示学习的知识库实体分类的计算方法，利用实体的文本描述构建信息网络，再从网络中学习得到实体和类别的低维稠密的向量表示，不需要人工为实体定义特征，有效地解决了实体表示的问题；利用学习排序算法，定义两种类型之间的优先关系，将实体和类别映射到同一个语义空间中，充分考虑了类别之间的层次关系，有效解决了层次分类的问题。本发明从大规模文本出发，构造包含不同信息的网络，利用表示学习算法得到实体和类别的向量表示，无需人工定义特征，有效解决了知识库中实体表示困难的问题。另一方面，采用学习排序算法，通过定义两种类别之间的优先关系，将实体和类别映射到同一个语义空间中，实现自顶向下的类别推理，有效地将类别之间的层次关系考虑到模型中，适用于层次分类的问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于表示学习的知识库实体分类的计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤A包括：

A2：构造entity-word共现网络G_ew，是一个由entity和word构成的二分图，形式化地表示为G_ew＝(ε∪V,E_ew)，边上地权重ω_ij表示一个词语w_j在一个实体e_i的文本描述中出现的次数；

实体e_i和类别t_j之间存在一条边ω_ij＝1，当且仅当实体e_i属于类别t_j；

其中，ω_ij表示一条边上的权重；w_i表示一个词语；t_i表示一个类别；e_i表示一个实体；G_ww表示词语-词语共现网络；V表示所有词语的集合；E_ww表示词语-词语共现网络中边的集合；G_ew表示实体-词语共现网络；ε表示所有实体的集合；E_ew表示实体-词语共现网络中边的集合；G_tw表示类别-词语共现网络；

表示所有类别的集合；E_tw表示类别-词语共现网络中边的集合；G_et表示实体-类别共现网络；E_et表示实体-类别共现网络中边的集合。

3.根据权利要求1所述的方法，其特征在于，所述步骤B包括步骤：

其中，

和

利用KL散度来衡量两个分布之间的接近程度：

目标函数简化为O＝∑_(i,j)∈Ew_ijlog(p(v_j|v_i))；

B3：基于B2定义的目标函数，对于所述步骤A中定义的每一个二分图，定义对应的目标函数O_ww、O_ew、O_et和O_tw，将目标函数求和：

O_n＝O_ww+O_ew+O_et+O_tw

联合优化，得到每一个实体和类别的向量表示，E_emb＝{e_i}和T_emb＝{t_i}；

其中，O_ww、O_ew、O_et和O_tw分别表示网络表示学习方法在词语-词语共现网络G_ww，实体-词语共现网络G_ew，实体-类别共现网络G_et和类别-词语共现网络G_tw上的目标函数；ω_ij表示一条边上的权重，j表示和i不同的实体对应的编号，i′表示集合V_A或V_B中任意一个实体对应的编号，V_A和V_B分别表示图G中两个不相交的点的集合，A表示第一个点集合类别，B表示第二个点集合类别。

4.根据权利要求1所述的方法，其特征在于，所述步骤C包括步骤：

C1：定义两种类别之间的优先关系；

Φ_e(e_i)＝U·e_i

Φ_t(t_j)＝C·t_j

和

表示p(·|v_j)对应的经验分布；O_ww、O_ew、O_et和O_tw分别表示网络表示学习方法在词语-词语共现网络G_ww，实体-词语共现网络G_ew，实体-类别共现网络G_et和类别-词语共现网络G_tw上的目标函数，O_n表示网络表示学习方法在四个异构网络上整体的目标函数；U表示实体向量对应的映射矩阵或投影矩阵；Φ_e(e_i)表示实体向量e_i的映射函数，利用投影矩阵U来计算；Φ_t(t_j)表示类别向量t_j的映射函数，利用C来计算；s(e_i,t_j)表示实体e_i和类别t_j的相似度。

5.根据权利要求4所述的方法，其特征在于，所述步骤C2中，两种类别之间的优先关系包括：