CN111563149A

CN111563149A - 一种用于中文知识图谱问答***的实体链接方法

Info

Publication number: CN111563149A
Application number: CN202010330504.5A
Authority: CN
Inventors: 蒋泽军; 王丽芳; 陆新宇; 张智凯; 李荣涵; 赵孟; 杜承烈; 刘志强; 尤涛; 陈进朝
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-21
Anticipated expiration: 2040-04-24
Also published as: CN111563149B

Abstract

本发明提供一种用于中文知识图谱问答***的实体链接方法。本发明首先对训练语料库中的单词和实体进行联合嵌入，得到单词和实体的联合嵌入向量；对于中文知识图谱问答***的输入文本，先识别输入文本中的实体指称项，并根据实体指称项确定候选实体列表；再构造基于LSTM网络的实体链接模型，对实体表示向量和实体指称项表示向量进行向量拼接，得到实体指称项和候选实体的相似度得分，最终得到候选实体的得分排名，从而选择得分最高的候选实体作为实体指称项对应的目标实体。该方法有效解决用户提问方式的多样性而导致链接模型训练数据冗余的缺点，同时可以将具有相似语义的词语在上下文中替换使用，从而提高链接的有效性，提升问答***的准确率。

Description

一种用于中文知识图谱问答***的实体链接方法

技术领域

本发明属于自然语言处理领域，具体涉及一种实体链接方法。

背景技术

知识图谱作为一种新型知识获取技术，凭借其强大的语义表达能力和逻辑推理能力，为智能问答的发展奠定了坚实的基础。通过知识图谱，对客观事实的文本内容进行了语义刻画，从非结构化的文本中提取出实体之间的关系，将文本转化为相互连接的图结构，从而让计算机真正做到对内容的理解。但由于其庞大的数据容量和复杂的数据结构使普通用户难以访问其中的知识。为了解决这一问题，提出了基于知识图谱的问答***。它的目标是自动将用户的自然语言问题转换为结构化查询语句(例如SPARQL)，并以知识图谱中的事实信息作为答案返回。然而，在知识图谱上进行问答需要将自然语言与知识图谱中的实体节点关联起来，这涉及到一个关键的技术—实体链接。

实体链接是将自然语言文本中出现的实体指称项关联到对应知识图谱实体上的一种技术，旨在解决文本信息中广泛存在的语义歧义问题。实体链接技术有助于知识图谱问答***对问题的理解，从而提高***回答的准确率。传统的实体链接方法利用一些自然语言处理工具来抽取词性、依存句法等特征计算实体与指称项之间的相似度，尽管这些方法效果不错，但是这种方法存在特征可扩展性差，表示能力不足，容易造成误差传递等问题。由于神经网络模型不需要手工抽取特征，减少了人工成本，并且可扩展性也比较好，近年来基于深度学习的实体链接技术越来越受到工业界与学术界的关注。文献“Learningentity representation for entity disambiguation.Proceedings of the51st AnnualMeeting of the Association for Computational Linguistics。”首先将神经网络应用到实体链接上。该方法使用了层叠降噪自动编码器，通过预训练得到文档和实体的初始语义表示，然后通过有监督的语料进行网络参数和文档与实体表示的微调，进而完成实体链接。文献“Modeling mention,context and entity with neural networks for entitydisambiguation.Twenty-fourth international joint conference on artificialintelligence。”提出利用卷积神经网络生成指称项、实体和实体上下文语义表示的方法。基于神经网络的方法不需要人工设计复杂的特征，容易捕获实体和指称项的深层语义关系，链接效果比较好，并且模型具有良好的扩展性。但是基于神经网络的实体链接方法在实体表示中仅使用实体描述信息对实体语义进行扩展，对同一语言环境中语义相似的词语可以进行互换的情况考虑不足，不能将具有相似语义的词语在上下文中替换使用。

发明内容

为了克服现有技术的不足，本发明提供一种基于实体背景向量、实体描述向量与实体上下文向量的用于中文知识图谱问答***的实体链接方法。该方法将实体背景向量融入目标实体的嵌入向量中，有效解决用户提问方式的多样性而导致链接模型训练数据冗余的缺点，同时可以将具有相似语义的词语在上下文中替换使用，从而提高链接的有效性，提升问答***的准确率。本发明首先对训练语料库中的单词和实体进行联合嵌入，得到单词和实体的联合嵌入向量；对于输入文本，先识别输入文本中的实体指称项，并根据实体指称项确定候选实体列表；再构造基于LSTM网络的实体链接模型，该实体链接模型依据候选实体的实体背景向量和实体描述向量得到实体表示向量，基于实体指称项的上下文得到实体指称项表示向量，将实体表示向量和实体指称项表示向量进行向量拼接，得到实体指称项和候选实体的相似度得分，最终得到候选实体的得分排名，从而选择得分最高的候选实体作为实体指称项对应的目标实体。

为达到上述目的，本发明提出了一种用于中文知识图谱问答***的实体链接方法，包括以下步骤：

步骤1：对单词与实体进行联合嵌入

单词与实体进行联合嵌入时使用的训练语料库包括单词样本和实体样本，将实体样本当作单词，与其它单词样本一起作为给定输入序列Γ＝τ₁,τ₂,...,τ_N，进行单词和实体的联合嵌入计算：

式中，Θ_a表示单词和实体的联合嵌入向量，a表示单词序号，N表示训练语料库Γ的大小，c表示单词扩展窗口大小，j表示单词扩展窗口中单词序号，P表示条件概率，τ表示单词，τ_t表示第t个单词，τ_t+j表示第t个单词的扩展窗口中第j个单词，V表示单词和实体的联合嵌入向量矩阵，

表示矩阵V中单词τ_t的向量，U表示单词的上下文向量矩阵，

表示矩阵U中单词τ_t+j的向量；

步骤2：在中文知识图谱问答***的输入文本中使用自然语言处理工具检测得到实体指称项集合M，并从知识图谱中找到每个实体指称项m∈M对应的候选实体集合E_m；

步骤3：基于LSTM网络构造实体链接模型

步骤3-1：定义候选实体相关向量E_related计算公式如下：

E_related＝E_embedding+maxpoling(b₁,b₂,...b_q) (3)

式中E_embedding表示将候选实体作为步骤1中的单词所得到的联合嵌入向量，b₁,b₂,…,b_q表示实体背景向量，q表示实体背景向量序号，max poling表示最大值池化；

步骤3-2：采集实体描述段落的前s个单词作为原始实体描述向量d,d₂,…,d_s；

对原始实体描述向量加入注意力因素进行计算，公式如下：

H＝LSTM(d₁,d₂,...,d_s) (4)

式中，LSTM()表示LSTM神经网络，H表示LSTM神经网络的输出矩阵，s表示原始实体描述向量序号，α表示注意力权重向量，W_h表示H的参数矩阵，W_v表示目标实体相关向量E_related的参数矩阵，w表示总参数矩阵，e_N表示单位列向量，

表示重复拼接，

表示加入注意力因素之后的实体描述向量；

步骤3-3：定义实体表示向量Entity_{Repersentation}计算公式如下：

式中，concatenate表示向量拼接；

步骤3-4：在步骤2的输入文本中对实体指称项上下文进行左右扩展，得到实体指称项扩展窗口；定义实体指称项表示向量Mention_{Repersentation}计算公式如下：

Mention_left＝maxpooling(attention(LSTM(LeftContext)))+semantic_bias (8)

Mention_right＝maxpooling(attention(LSTM(RightContext)))+semantic_bias (9)

semantic_bias＝W_embedding-E_embedding (10)

Mention_{Representation}＝concatenate(Mention_left,Mention_right) (11)

式中，Mention_left表示实体指称项扩展窗口中左上下文实体指称项向量，Mention_right表示实体指称项扩展窗口中右上下文实体指称项向量，LeftContext和RightContext分别表示实体指称项扩展窗口中的左右上下文，attention表示注意力抓取操作，semantic_bias表示语义偏差，W_embedding表示将实体指称项作为步骤1中的单词所得到的联合嵌入向量；

步骤3-5：将得到的实体表示向量和实体指称项表示向量进行向量拼接后输入LSTM网络的全连接层，全连接层输出一个标量，表示实体和实体指称项之间的相似度得分，计算公式如下：

sim＝sotfmax(concatenate[Entity_{Representation}；Mention_{Representation}]W) (12)

式中，W表示参数矩阵，sim表示实体和实体指称项之间相似度得分；

步骤4：实体指称项对应的候选实体最终得分计算如下式：

r(m,e)＝θsim(m,e)+ηp(e|m) (13)

式中，r(m,e)表示最终得分函数，m表示实体指称项，e∈E_m表示候选实体，sim(m,e)表示候选实体和实体指称项之间相似度得分，p(e|m)表示先验词频概率，θ和η分别表示相似度得分和先验词频概率在最终得分函数中的权重；

最终得分最高的候选实体即为实体指称项对应的目标实体。

本发明的有益效果是：由于采用了本发明提出了一种用于中文知识图谱问答***的实体链接方法，该方法使用联合向量嵌入，对实体和实体指称项的语义信息可以自动抽取，并且可以根据需求对抽取信息的维度进行设定，在实体表示中加入了实体背景向量使得实体表示融合了相似实体的信息，使得在同一个问句表述方式中可以替换不同的实体指称项，并且不需要关注训练语料是否实现了各种表述方式与实体指称项组合的全覆盖。此外，本发明加入了语义偏差，弥补了实体和实体指称项之间的语义鸿沟，进而提高了实体链接的准确率，使得后续的问答过程更为准确。

附图说明

图1是本发明中文知识图谱问答***的架构图。

图2是本发明实体链接模型的结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种用于中文知识图谱问答***的实体链接方法，包括以下步骤：

步骤1：对单词与实体进行联合嵌入

单词与实体进行联合嵌入时使用的训练语料库包括单词样本和实体样本，将实体样本当作单词，与其它单词样本一起作为给定输入序列Г＝τ₁,τ₂,...,τ_N，进行单词和实体的联合嵌入计算：

表示矩阵V中单词τ_t的向量，U表示单词的上下文向量矩阵，

表示矩阵U中单词τ_t+j的向量；

步骤3：基于LSTM网络构造实体链接模型

步骤3-1：定义候选实体相关向量E_related计算公式如下：

E_related＝E_embedding+maxpoling(b₁,b₂,...b_q) (3)

对原始实体描述向量加入注意力因素进行计算，公式如下：

H＝LSTM(d₁,d₂,...,d_s) (4)

表示重复拼接，

表示加入注意力因素之后的实体描述向量；

式中，concatenate表示向量拼接；

Mention_left＝maxpooling(attention(LSTM(LeftContext)))+semantic_bias (8)

Mention_right＝maxpooling(attention(LSTM(RightContext)))+semantic_bias (9)

semantic_bias＝W_embedding-E_embedding (10)

Mention_{Representation}＝concatenate(Mention_left,Mention_right) (11)

步骤4：实体指称项对应的候选实体最终得分计算如下式：

r(m,e)＝θsim(m,e)+ηp(e|m) (13)

最终得分最高的候选实体即为实体指称项对应的目标实体。

实施例：

如图1所示，中文知识图谱问答***包括：Web服务交互模块、问句预处理模块、实体链接模块、查询语句生成模块、知识图谱查询模块。Web服务交互模块展示相关实体在知识图谱中的可视化结构信息，为用户提供了友好的界面交互接口；问句预处理模块对自然语言问句进行分词、词性识别、命名实体识别等工作，抽取问句中有用信息；实体链接模块对候选实体列表中的实体依次进行相似度匹配，寻找与自然语言问句指称项最匹配的知识图谱实体，以确定SPARQL查询的主体；查询语言生成模块将自然语言转化为结构化的查询语句；知识图谱查询模块的任务是执行查询语句，返回给用户正确答案。实体链接模块在整个***中处于核心位置。

如图2所示，实体链接模型分为实体表示向量和实体指称表示向量两部分，均使用LSTM神经网络，结构图左边为实体表示向量，由实体描述向量和实体背景向量组成；结构图右边为实体指称项表示向量，由左上下文实体指称项向量和右上下文实体指称项向量拼接而成。

对于一些常用的中文知识图谱***，比如百科页面，其中存在很多多义词项，每个锚文本链接可以重定向到其他的词条页面，这意味着这个指称项对应着多个实体，使用该页面的标题与多义词项锚文本链接，构成一个<实体指称项，实体>对。以指称项“苹果”为例，可以构造<苹果，蔷薇科苹果属植物ID>，<苹果，苹果产品公司ID>等。

另外，使用百科页面中的锚文本，每个锚文本对应着字面量和超链接，超链接对应着实体词条页面，所以，锚文本的字面量和锚文本链接也构成了<实体指称项，实体>对。

以上两种情况生成的<实体指称项，实体>对，可以用于在给定实体指称项的前提下找到其对应的实体项，将匹配到的实体聚集成候选实体项列表，进行后续链接工作。

本实施例使用步骤1的方法进行联合嵌入时，训练语料库中的语料由单词和实体组成，使用Gensim进行实体和单词的联合嵌入训练。模型训练采用机器学习sklearn工具库提供的Wrod2Vec类实现，联合嵌入模型的维度为100，单词扩展窗口大小为5，采用Skip-gram算法，其他参数使用默认值，得到单词和实体的联合嵌入向量。

本实施例采用的实体指称项扩展窗口大小为5，并以实体指称项为中心词分为左上下文和右上下文，即中心词左边有2个单词、右边有2个单词；左上下文加中心词一共3个单词，同理，右上下文一共3个单词，但是右上下文需要进行逆序，方便模型进行语义捕获。

实体描述向量采集自实体的描述段落，本实施例中，实体描述向量对描述段落的前20个单词进行了语义抽取；实体背景向量是采集与本实体相近的实体，本实施例中，每个实体采集了5个相似实体作为实体背景向量。

在计算最终得分时，相似度得分θ取60％，先验词频概率权重η分取40％。