CN107506486A

CN107506486A - 一种基于实体链接的关系扩充方法

Info

Publication number: CN107506486A
Application number: CN201710858346.9A
Authority: CN
Inventors: 张日崇; 贺薇; 王玥; 李建欣
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2017-12-22

Abstract

本发明提供一种基于实体链接的关系扩充方法，本发明采用实体链接的技术手段，将自然语言中的文本链接到知识库中对应的实体上，将信息框属性值中未标注的实体识别出来，依据候选实体类型与关系两端的实体类型匹配度，利用百科词条的标签***作为实体的类型，通过统计规约得到关系两端的关系类型。同时，本发明采用了模型融合的方法对候选实体的排序，将非线性的提升(boosting)集成模型的优势融合线性模型中，提高模型性能，保证关系的准确性。通过本发明可以有效地识别出信息框中未链接的实体，并解决同名实体和实体别名等问题，与目标实体建立关系，实现关系扩充。

Description

一种基于实体链接的关系扩充方法

技术领域

本发明涉及一种关系扩充方法，尤其涉及一种基于实体链接的关系扩充方法。

背景技术

近年来，为了解决互联网信息的语义问题，提出了语义万维网，即包含大量描述各种实体和实体之间丰富关系的万维网，将网络上的事物都理解为一个实体，拥有唯一的统一资源标识符(URI)，这些实体之间有语义链接，可以让机器理解文本。基于此，各大搜索引擎公司都发布了知识图谱，旨在满足用户日益提高的搜索要求，提高用户体验。知识图谱也称知识库，其本质就是一种由概念、实体、属性、关系等多个元素构成的机器可读的语义网络，以结构化的方式将实体及其关系组织起来。目前，用自动化或半自动化的方法建立起了多个大型知识库，用于知识问答、知识推理和知识推理等。知名的知识库诸如谷歌知识图谱、DBpedia和Freebase等。其中，百科类网站是构建知识库的一个最重要的来源，其结构化程度高、知识覆盖面领域广、信息更新速度快，每个词条中都含有描述该实体的丰富信息，除了非结构化的基本文本内容之外，还包含描述实体属性的信息框，以属性-值对的形式描述词条实体的属性和关系，其中属性值可能含有链接指向其他实体，是建立知识库的一个重要来源。大型知识库例如DBpedia是从英文维基的信息框进行实体的关系提取，将属性值中带有超链接的指向其他实体的抽取为关系，然后将它们转化为资源描述框架(RDF)三元组。

然而，依靠现有技术从中文百科的信息框中抽取知识时，相较于英文维基，其内链很不完整，仅很小一部分实体被标注出超链接，丢失了很多语义关系，所以需要补全缺失的链接来扩充关系。比如在实体“青藏高原”的信息框里，“歌曲原唱”这个关系的属性值“李娜”，但是“李娜”仅仅是以一个字符串的形式出现的，并没有并链接到“歌手李娜”相应的实体上。

现有技术解决此问题的方法主要分为两种：一种是通过字符串匹配属性值和实体名称，具体来说，如果存在一个实体的名称可以和该属性值匹配上，就建立一个关系，这种方法仅仅是用字符串匹配。但是，由于自然语言的多样性和歧义性，同一实体具有不同的表达(实体名的变形)，而且同一实体名可能对应不同实体(同名实体的消歧)，这种方法可能会导致错误；另一种方法是利用排序模型，抽取若干个特征，对所有的候选实体进行排序，但是没有考虑实体的类型信息，导致对于同一类别下的实体结果很差。

发明内容

本发明采用实体链接的技术手段，将自然语言中的文本链接到知识库中对应的实体上，将信息框属性值中未标注的实体识别出来，依据候选实体类型与关系两端的实体类型匹配度，利用百科词条的标签***作为实体的类型，通过统计规约得到关系两端的关系类型。同时，本发明采用了模型融合的方法对候选实体的排序，将非线性的提升(boosting)集成模型的优势融合线性模型中，提高模型性能，保证关系的准确性。通过本发明可以有效地识别出信息框中未链接的实体，并解决同名实体和实体别名等问题，与目标实体建立关系，实现关系扩充。

附图说明

图1为本发明的运行流程图。

图2为本发明实施例的模型融合图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于实体链接技术的关系扩充方法。如图1所示为本方法的框图，包括三个模块：候选集生成模块、特征抽取模块和排序模块。

给定一个主题实体e_i，其信息框(infobox)的属性r_j的属性值中存在可能指向某一实体的实体名m_j。表示所有可能被链接的候选实体，任务是从所有的候选实体中找到真正要被链接的目标实体。

候选集生成模块实现所有候选集合体的生成，所述候选实体集的生成主要是基于实体名m_j和知识库中实体名的字符串相似度得到。为了生成可能指向的所有候选实体本发明抽取百科中信息来建立实体名和实体之间的映射，比如词条本身、消歧页面、词条文本中的超链接锚文本及信息框(infobox)中“别名”属性等，生成一个实体名-实体字典D。表1为所述实体词-实体映射字典D，字典中的每一项<键(key),值(value),次数(count)>表示实体名、对应的实体候选集及该实体名下对应实体出现的次数。其中，次数可以体现实体的知名度。有了实体名-实体字典后，就可以识别出尚未被链接的属性值m，然后在字典中找到其对应的所有候选实体E_m。

表1

百科中的每个词条描述的是一个实体，包含了实体的各种信息。其中，词条的标题即是该实体最标准的名字，本发明抽取词条页面的标题为字典D的键(key)，其所描述实体的统一资源标识符(URI)作为值(value)加入到字典D中。值得注意的是，在百科中，如果有同名实体，为了防止歧义，是通过括号来标识的。比如，实体“运动员李娜”的词条页面中，标题是“李娜(中国女子网球名将)”，这种情况，会将括号去掉作为键，即将“李娜”为键，实体“运动员李娜”的统一资源标识符作为值。

百科中的不同实体可能会有相同的名字，所述候选集生成模块的消歧页面就是用于区分有相同实体名的不同实体的。例如，在实体名“李娜”的消歧页面中出现了47个不同的实体，包括了实体“运动员李娜”和“歌手李娜”等多个实体。

百科词条的文本中通常包含超链接信息将文本中出现的实体名链接到对应的实体上，这个信息提供了所指向实体的别名、实体名的变形及实体被提及的次数等很有用的信息；同时，也可从中抽取出该实体名下对应实体出现的次数，如果某一实体在文本中提及到的次数越多，则说明知名度越高，比如，当提到实体“李娜”时，大家首先想到的是实体“运动员李娜”而不是其他同名的实体，所以次数信息可以很好的反映实体知名度，这一信息有助于判断实体“运动员李娜”比其他同名的“李娜”实体更有可能成为被链接的对象。

在大部分信息框中，都会有实体的“别名”属性，来描述实体别名、简称、外文名等实体名的变异信息，抽取这部分数据就可以识别出实体名中实体名的变异名称，提高关系扩充的召回率。比如，在实体“沙奎尔·奥尼尔”的别名有“大鲨鱼”，这说明，当提到“大鲨鱼”这个字符串时，它有可能被链接到“沙奎尔·奥尼尔”这个实体上。

实体名-实体字典D建立后，从D中检索出m_j对应的候选实体然而存在多个候选实体，即大于1，因此对每个候选实体的排序至关重要。抽取特征表征候选实体与m_j、e_i及r_j的关联性，然后采用成对(pairwise)的排序模型对候选实体进行打分，取得分最高的作为目标实体，与e_i建立关系，生成新的知识。本发明根据信息框(infobox)的特点，从候选实体本身、实体之间的语义和文本关联度、关系-实体类型这三个角度设计特征提取模块来体现候选实体的匹配程度。

为了形式化地表示特征函数，表示e_i的信息框(infobox)中已有链接的实体，表示e_i的文本中有超链接的实体，表示e_i摘要信息中有超链接的实体，表示存在关系r_j的实体。表2为候选实体的特征定义。

表2

实体相关特征：包括f₁-f₄，这类特征仅仅依赖于候选实体和对应的关系与主题实体。实体知名度Popularity(e_j)是从实体词-实体映射字典可以得到实体词m_j到实体e_j的条件概率P(e_j|m_j)，即实体词m_j指代实体e_j的先验概率

其中，count(m_j)指在超链接锚文本中m_j出现的总次数，count(m_j，e_j)指锚文本m_j链接到实体e_j的次数。

上下文关联特征：包括f₅-f₈，主要编码候选实体与主题实体和实体词的语义关联度及文本相似性。具体来说，采用基于百科超链接结构来计算实体之间的语义关联度，给定两个实体e_i和e_j，获取其语义关联度的方式如下：

其中，和分别是链向e_i和e_j的实体集合，W是百科中的所有实体。可以看出，公式(1)是杰卡德(Jaccard)相似系数的变形，两个实体的共同入链数越多，则语义关联度越高。获取候选实体e_j与实体集合Te_i之间的语义关联度的方式如下：

类似的，可以用Ie_i，Ae_i和Er_j来替代Te_i得到候选实体与其他实体集合的语义关联度，相应地得到f₆、f₇和f₁₀。此外，还可以定义候选实体的描述信息和主题实体ei描述信息的文本相似度，采用词袋模型(Bag of Words)来表示文本，频率-反文档频率(TF-IDF)表示权重向量，然后用余弦相似度来衡量向量的匹配程度。

关系-实体类型特征：包括f₉-f₁₁，当候选实体的类型一样时，上述的特征就很难具有辨识性，所以本发明提出考虑关系左右两边的实体类型，即<主题实体类型,关系,目标实体类型>。比如，给定一个关系“代表作品”，如果主题实体的类型是“歌手”，则被链接的实体类型很可能是“歌曲”；而如果主题实体的类型是“演员”，那目标实体类型更可能属于“影视作品”。这样如果能精确地定义出关系两边实体的类型，就可以在给定主题实体和关系时，考察每个候选实体类型是否匹配。为了定义这个特征，本发明中将百科的标签信息作为实体类型，然后枚举和这个关系相连的所有实体类型并统计次数。表3中展示了关系“代表作品”和其左右两边对应的实体类型。

表3

这样，假设Type(e_i)为实体e_i的类型给定一个主题实体e_i和关系r_j，获取候选实体e_j得到的实体类型得分如下：

本发明给每个候选实体生成一个向量然后定义一个打分函数f(m，e)＝(f₁，f₂，...，f₁₁)，对每个候选实体进行打分s^of(m，e)，将得分最高的实体作为要链接的目标实体，与主题实体建立关系。本文采用成对的(pairwise)训练方法来学习排序模型的参数，模型的训练目标是使正确实体获得比错误实体更高的得分。用e_i＞e_j表示实体e_i的排名更高，这样可以得到训练实体对<e_i，e_j>，对所有实体对进行分类就可以得到候选实体的一个偏序关系，从而实现排序。

本发明在排序时引入两种模型，采用梯度提升决策树和逻辑回归来训练排序模型，模型融合的方案如图2所示。训练得到候选实体间的排序关系。其中，非线性的梯度提升决策树模型(GBDT)可以学习高维特征，作为原始特征的补充，最终输入到线性模型里，对所有的候选实体进行打分，取得分最高的作为要建立关系的目标实体。

采用原始特征训练出梯度提升决策树模型，获得的所有树的叶子节点就是其生成的特征空间，当每个样本点经过梯度提升决策树模型的每棵树时，会落到一个叶子节点，即产生一个中间特征。所述梯度提升决策树模型由多颗树组成，每次迭代都是在减少残差的梯度方向上新建立一颗决策树，最后累加所有树的结果。所有这些特征以及原始特征交叉再一起输入到线性模型逻辑回归分类模型(LR)中得到排序关系。梯度提升决策树模型可以发掘出更加有区分度的特征，将两种模型融合在一起，可以有效提升模型的泛化能力。所述梯度提升决策树中采用指数损失函数，逻辑回归分类模型通过激活函数(Sigmoid函数)来表示e_i比e_j排名更高的概率为：

模型参数的训练过程为，首先是梯度提升决策树(MART)的训练过程，每次迭代时新树的生成去拟合损失函数负梯度方向上的参数r_mi，得到每个叶子上拟合的值c_mj。生成梯度提升决策树模型树模型之后，得到新转换后的特征对应的训练数据T′，最后，将交叉熵作为损失函数进行拟合真实的标签(label)，并采用梯度下降的方法去获得模型参数W。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于实体链接的关系扩充方法，其特征在于，所述方法包括将信息框内获取的信息，通过候选集生成模块生成一个实体名-实体字典，根据所述实体名-实体字典识别出尚未被链接的属性值m，找到其对应的所有候选实体E_m，然后通过特征抽取模块抽取候选实体与实体名、主题实体及属性的关联性，最后通过排序模块对每个候选实体进行打分,将得分最高的实体作为要链接的目标实体,将所述目标实体与主题实体建立关系。

2.如权利要求1所述的方法，其特征在于,所述候选集生成模块中抽取百科中信息来建立实体名和实体之间的映射，所述信息包括词条本身、消歧页面、词条文本中的超链接锚文本及别名属性等，生成实体名-实体字典，所述字典中的每一项<键(key),值(value),次数(count)>表示实体名、对应的实体候选集及该实体名下对应实体出现的次数，所述次数体现实体的知名度，通过所述实体名-实体字典识别出尚未被链接的属性值m，然后找到其对应的所有候选实体E_m。

3.如权利要求1所述的方法，其特征在于，所述特征抽取模块根据信息框(infobox)的特点，从候选实体本身、实体之间的语义和文本关联度、关系-实体类型三个角度进行提取抽取以体现候选实体的匹配程度，所述被抽取特征为实体相关特征，上下文关联特征，关系-实体类型特征。

4.如权利要求3所述的方法，其特征在于，所述实体相关特征包括实体e_j的知名度、实体e_i和实体e_j的共现次数、实体e_j是否在实体e_i文本中出现过、实体e_i是否在e_j文本中出现过，获取实体词m_j指代实体e_j的先验概率的方式为：

其中，count(m_j)为超链接锚文本中m_j出现的总次数，count(m_j，e_j)为锚文本m_j链接到实体e_j的次数；所述上下文关联特征包括e_j和中实体的平均语义关联度，e_j和中实体的平均语义关联度，e_j和中实体的平均语义关联度，e_j和e_i的文本相似度，所述为e_i的信息框(infobox)中已有链接的实体，所述为e_i的文本中有超链接的实体，所述为e_i摘要信息中有超链接的实体，获取两个实体e_i和e_j语义关联度SR的方式为：

其中，所述和所述分别是链向e_i和e_j的实体集合，所述W是百科中的所有实体；所述关系-实体类型特征包括给定r_j时，e_j和r_j两端的实体类型匹配度，e_j和中实体的平均语义关联度，e_j和中实体的共有属性个数，所述表示存在所述关系r_j的实体，所述关系-实体类型特征的提取是将百科的标签信息作为实体类型，枚举和给定关系相连的所有实体类型并统计次数。

5.如权利要求1所述的方法，其特征在于,所述排序模块采用成对的训练方法来学习排序模型的参数，模型的训练目标使正确实体获得比错误实体更高的得分，e_i＞e_j表示实体e_i的排名更高，从而得到训练的实体对<e_i，e_j>，对所有所述实体对<e_i，e_j>进行分类就可以得到候选实体的一个偏序关系，从而实现排序。

6.如权利要求5所述的方法，其特征在于,所述排序模块排序时采用多模型融合的方法，采用梯度提升决策树(MART)和逻辑回归分类(LR)训练排序模型，所述梯度提升决策树由多颗树组成，每次迭代都是在减少残差的梯度方向上新建立一颗决策树，最后累加所有树的结果，所述累加所有树的结果及原始特征交叉再一起输入到线性模型逻辑回归中得到排序关系。