CN111680488B - 基于知识图谱多视角信息的跨语言实体对齐方法 - Google Patents

基于知识图谱多视角信息的跨语言实体对齐方法 Download PDF

Info

Publication number
CN111680488B
CN111680488B CN202010512003.9A CN202010512003A CN111680488B CN 111680488 B CN111680488 B CN 111680488B CN 202010512003 A CN202010512003 A CN 202010512003A CN 111680488 B CN111680488 B CN 111680488B
Authority
CN
China
Prior art keywords
entity
language
vector
cross
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010512003.9A
Other languages
English (en)
Other versions
CN111680488A (zh
Inventor
鲁伟明
徐玮
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010512003.9A priority Critical patent/CN111680488B/zh
Publication of CN111680488A publication Critical patent/CN111680488A/zh
Application granted granted Critical
Publication of CN111680488B publication Critical patent/CN111680488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱多视角信息的跨语言实体对齐方法。本发明首先根据两种语言知识图谱的三元组和实体描述文本,分别抽取信息构建结构图和文本图,使用双层图卷积网络编码实体结构上的向量表示和文本上的向量表示;然后根据实体描述文本和跨语言语料,使用双向长短时记忆网络编码实体描述上的向量表示;使用加权方式结合三个视角下成对实体的向量距离来计算最终的跨语言对齐实体对。本发明实现了知识图谱的跨语言实体对齐,基于结构和文本的多视角信息优化实体向量表示,提高了跨语言实体对齐准确率。

Description

基于知识图谱多视角信息的跨语言实体对齐方法
技术领域
本发明涉及一种基于知识图谱多视角信息的跨语言实体对齐方法,尤其涉及一种利用卷积神经网络基于知识图谱结构和文本信息来实现跨语言实体对齐的技术。
背景技术
由于互联网快速发展,互联网信息***增长,人们需要将信息结构化,以便进一步分析利用,服务于各种任务、场景,由此知识图谱应运而生。知识图谱本质上是一种大规模的语义网络,是结构化的知识库,形式化地描述了客观世界的事物以及它们之间的关系。实体对齐,就是判断不同名称的实体或不同来源的实体是否指向真实世界的唯一对象。在多语言知识图谱中,通常存在一部分跨语言实体链接,指示已知的实体对齐,通过这些已知实体对以及跨语言实体对齐技术,可以找出更多的实体对齐关系,丰富知识图谱的信息,有助于后续跨语言任务的展开。
针对跨语言实体对齐任务,学术界的传统方法有基于规则和相似度计算的方法,和基于机器学习的方法。随着深度学习的提出以及在自然语言处理领域逐渐发展深入,基于实体的嵌入表示以及深度神经网络的实体对齐方法成为主流,大多数方法基于知识图谱的结构化数据,通常是属性三元组和关系三元组的比较、计算,未能有效利用文本信息优化实体对齐。
发明内容
本发明的目的是利用跨语言知识图谱的结构化信息和文本信息,从多个视角编码知识图谱的实体表示,提高跨语言实体对齐效果。
本发明的目的是通过以下技术方案实现的:一种基于知识图谱多视角信息的跨语言实体对齐方法,通过编码实体结构向量、实体文本向量、实体描述向量,计算实体之间的距离,找到跨语言对齐实体对。该方法包括以下步骤:
1)基于关系三元组的实体结构向量编码:根据关系三元组分别为两个语言的知识图谱构建结构图。结构图以实体为节点,具有关系的实体之间形成边,根据实体之间的关系计算边的具体权重,形成图的邻接矩阵。在构建好的结构图上,采用双层图卷积网络进行训练,使用实体本身及其周围的实体编码不断更新当前实体的向量表示。两个知识图谱的图卷积网络共享权重矩阵。根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体结构向量表示。
2)基于实体描述信息的实体文本向量编码:将两个语言的知识图谱合并,使用实体和描述文本构建统一的文本图。该文本图具有两种类型的节点:实体节点和实体描述中的单词节点,具有三种类型的边:“实体-描述词”边,单语言内的“描述词-描述词”边,跨语言的“描述词-描述词”边。为每种类型的边计算权重,形成邻接矩阵。在构建好的文本图上,采用双层图卷积网络进行训练,根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体文本向量表示。
3)基于实体描述信息和跨语言语料的实体描述向量编码:在两种语言的单语言语料以及跨语言平行语料上使用Bilbowa预训练跨语言对齐的单词向量,然后将每个实体描述的一系列单词向量作为输入,用双向长短时记忆网络(BiLSTM)对实体描述进行编码获得实体描述向量。通过优化预先对齐的跨语言对齐实体对S的实体描述向量之间的距离来优化网络结构,得到所有实体最终的描述向量。
4)根据多视角实体向量计算跨语言对齐实体对:对于一个语言知识图谱中的每个实体,将另一语言知识图谱的每个实体作为候选实体,根据步骤1)步骤2)步骤3)分别得到的实体结构向量、实体文本向量、实体描述向量,计算实体与候选实体之间的距离,对距离从小到大排序,选择距离最小的实体对作为对齐实体对。
进一步地,所述的步骤1)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
1.1)邻接矩阵A的权重计算:对于实体ei和ej,它们之间的权重aij∈A计算公式为:
其中fun(r)和ifun(r)分别为关系r正向和逆向的影响分数,G为知识图谱,#Triples_of_r是关系三元组中关于关系r的三元组数量,#Head_Entities_of_r和#Tail_Entities_of_r分别是关系r的三元组涉及的头实体数量和尾实体数量。
1.2)图卷积网络中实体向量计算:图卷积网络的输入为实体结构特征矩阵由随机初始化得到,n表示总实体数量,ds表示实体结构特征向量维度。结构图的图卷积网络总体的计算公式为:
其中 是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,/>是/>的对角节点度矩阵。权重矩阵/>和/>都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·)。
1.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fs(p)=||hs(e1),hs(e2)||1是实体距离打分函数,计算实体结构向量之间的曼哈顿距离,hs(e1),hs(e2)分别表示实体e1,e2的结构向量。γs是结构向量之间的间隔约束。
进一步地,所述的步骤2)中,在合并知识图谱前,对实体描述信息进行预处理,过滤非法字符、分词、去停用词等,过滤语料中出现频率过低的词汇。
进一步地,所述的步骤2)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
2.1)邻接矩阵A的权重计算:三种类型的边的权重以及文本图邻接矩阵的权重计算方式具体如下:
2.1.1)“实体-描述词”边:
对于实体和描述词形成的边,使用词频-逆文档频率(TF-IDF)计算权重,计算公式为:
TFIDF(t,d)=TF(t,d)×IDF(t)
其中TF(t,d)计算的是单词t在实体描述d中出现的频率,nt,d是单词t在实体描述d中出现的次数,∑t′∈d nt′,d是实体描述d中具有的总词语数量。IDF(t)是单词t在实体描述集D中的逆向文档频率,|D|是实体描述集中实体描述的总条数,|{d∈D:t∈d}|是实体描述集中包含单词t的实体描述的数量。
2.1.2)单语言的“描述词-描述词”边:
对于单语言的描述词之间形成的边,首先通过滑动窗口计算全局的单词共现情况,然后计算两个单词的点互信息(PMI)得到权重,对于任意两个单词i和单词j,权重计算公式为:
其中#W表示所有实体描述语料中滑动窗口的数量,#W(i)表示包含单词i的滑动窗口的数量,#W(i,j)表示同时包含单词i和单词j的滑动窗口的数量。
2.1.3)跨语言的“描述词-描述词”边:
对于跨语言的描述词之间形成的边,利用预先对齐的跨语言对齐实体对S,将每个实体描述文本中的单词与它对齐实体的描述中的所有单词两两相连,并计算形成的每个描述词对在所有对齐实体对形成的描述词对中的频率,来增强跨语言信息。这里使用X-DF(Cross Document Frequency)来指代这个方法。
对于分别来自两个知识图谱实体描述的单词i和j,权重计算公式为:
其中count(i,j)表示所有对齐实体对的文本描述构成的包含单词i和j的单词对数量,count(D)表示所有对齐实体对的文本描述构成的单词对的数量。
2.1.4)文本图邻接矩阵的权重计算方式:
2.2)图卷积网络中实体向量计算:图卷积网络的输入为实体文本特征矩阵由随机初始化得到,n表示总实体数量,m表示总单词数量,dt表示实体文本特征向量维度。文本图的图卷积网络总体的计算公式类似步骤1.2),具体为:
其中 是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,/>是/>的对角节点度矩阵。权重矩阵/>和/>都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·)。
2.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中ft(p)=||ht(e1),ht(e2)||1是实体距离打分函数,计算实体文本向量之间的曼哈顿距离,ht(e1),ht(e2)分别表示实体e1,e2的文本向量。γt是文本向量之间的间隔约束。
进一步地,所述的步骤3)具体包括以下子步骤:
3.1)语料处理:可以直接使用可获得的跨语言平行语料,也可以从单语言语料中抽取部分语料,通过翻译工具获得跨语言平行语料。将跨语言平行语料处理为句对齐,对语料完成标点符号过滤、去停用词等操作。
3.2)跨语言词向量预训练:使用跨语言词向量训练模型Bilbowa基于两种语言的单语言语料和句对齐的平行语料训练跨语言词向量表示。
3.3)实体描述向量编码:将实体描述用单词对应的预训练词向量序列表示,|s|为实体表述中单词总数,dd为实体描述向量维度,使用BiLSTM训练优化对齐实体向量之间的距离,得到实体描述的向量表示,具体公式为:
其中ht对应文本描述第t个词语的向量,对所有词向量表示求均值得到实体描述向量hd
对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fd(p)=||hd(e1),hd(e2)||1是实体距离打分函数,计算的是实体描述向量之间的曼哈顿距离,hd(e1),hd(e2)分别表示实体e1和e2的描述向量。γd是描述向量之间的间隔约束。
进一步地,所述的步骤4)中,实体对之间的距离计算方式具体如下:
两个不同知识图谱的实体对p=(e1,e2)之间的距离计算公式为:
其中,ds、dt、dd分别表示实体结构向量的维度、实体文本向量的维度、实体描述向量的维度,α和β是用来权衡三部分距离的超参数。
如果只使用实体结构向量和实体文本向量,两个不同知识图谱的实体对p=(e1,e2)之间的距离计算公式为:
其中,α是用来权衡两部分距离的超参数。
本发明方法与现有技术相比具有的有益效果:
1.该方法提出了一种基于图卷积网络编码实体结构和文本来获得跨语言信息的模型,通过设计恰当的节点和边权重构建了结构图和文本图,采用图卷积网络优化了对于实体向量的编码,提高了跨语言实体对齐准确率。
2.该方法提出了基于跨语言词向量预训练和双向记忆网络编码实体描述文本编码实体描述的语义向量,进一步增加了对于实体文本信息的编码,改善了跨语言实体对齐效果。
3.该方法在训练数据较少的情况下能够具有良好的效果,并且在提供更多训练数据时比其他方法有更高的改进。
附图说明
图1是本发明的步骤流程图;
图2是本发明的总体模型图;
图3是本发明中一个实施例的知识图谱结构和文本信息图;
图4是本发明中一个实施例的实体结构向量编码模型图;
图5是本发明中一个实施例的实体文本向量编码模型图;
图6是本发明中一个实施例的一个实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于知识图谱多视角信息的跨语言实体对齐方法,包括以下步骤:
1)基于关系三元组的实体结构向量编码:根据关系三元组分别为两个语言的知识图谱构建结构图。结构图以实体为节点,具有关系的实体之间形成边,根据实体之间的关系计算边的具体权重,形成图的邻接矩阵。在构建好的结构图上,采用双层图卷积网络进行训练,两个知识图谱的图卷积网络共享权重矩阵。根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体结构向量表示。
2)基于实体描述信息的实体文本向量编码:将两个语言的知识图谱合并,使用实体和描述文本构建统一的文本图。该文本图具有两种类型的节点:实体节点和实体描述中的单词节点,具有三种类型的边:“实体-描述词”边,单语言内的“描述词-描述词”边,跨语言的“描述词-描述词”边。为每种类型的边计算权重,形成邻接矩阵。在构建好的文本图上,采用双层图卷积网络进行训练,根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体文本向量表示。
3)基于实体描述信息和跨语言语料的实体描述向量编码:在两种语言的单语言语料以及跨语言平行语料上使用Bilbowa预训练跨语言对齐的单词向量,然后将每个实体描述的一系列单词向量作为输入,用双向长短时记忆网络对实体描述进行编码获得实体描述向量。通过优化预先对齐的跨语言对齐实体对S的实体描述向量之间的距离来优化网络结构,得到所有实体最终的描述向量。
4)根据多视角实体向量计算跨语言对齐实体对:对于一个语言知识图谱中的每个实体,将另一语言知识图谱的每个实体作为候选实体,根据步骤1)步骤2)步骤3)分别得到的实体结构向量、实体文本向量、实体描述向量,计算实体与候选实体之间的距离,对距离从小到大排序,选择距离最小的实体对作为对齐实体对。
进一步地,所述的步骤1)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
1.1)邻接矩阵A的权重计算:对于实体ei和ej,它们之间的权重aij∈A计算公式为:
其中fun(r)和ifun(r)分别为关系r正向和逆向的影响分数,G为知识图谱,#Triples_of_r是关系三元组中关于关系r的三元组数量,#Head_Entities_of_r和#Tail_Entities_of_r分别是关系r的三元组涉及的头实体数量和尾实体数量。
1.2)图卷积网络中实体向量计算:图卷积网络的输入为实体结构特征矩阵由随机初始化得到,n表示总实体数量,ds表示实体结构特征向量维度。结构图的图卷积网络总体的计算公式为:
其中 是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,/>是/>的对角节点度矩阵。权重矩阵/>和/>都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·)。
1.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fs(p)=||hs(e1),hs(e2)||1是实体距离打分函数,计算实体结构向量之间的曼哈顿距离,hs(e1),hs(e2)分别表示实体e1,e2的结构向量。γs是结构向量之间的间隔约束。
进一步地,所述的步骤2)中,在合并知识图谱前,对实体描述信息进行预处理,过滤非法字符、分词、去停用词等,过滤语料中出现频率过低的词汇。邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
2.1)邻接矩阵A的权重计算:三种类型的边的权重以及文本图邻接矩阵的权重计算方式具体如下:
2.1.1)“实体-描述词”边:
对于实体和描述词形成的边,使用词频-逆文档频率(TF-IDF)计算权重,计算公式为:
TFIDF(t,d)=TF(t,d)×IDF(t)
其中TF(t,d)计算的是单词t在实体描述d中出现的频率,nt,d是单词t在实体描述d中出现的次数,∑t′∈d nt′,d是实体描述d中具有的总词语数量。IDF(t)是单词t在实体描述集D中的逆向文档频率,|D|是实体描述集中实体描述的总条数,|{d∈D:t∈d}|是实体描述集中包含单词t的实体描述的数量。
2.1.2)单语言的“描述词-描述词”边:
对于单语言的描述词之间形成的边,首先通过滑动窗口计算全局的单词共现情况,然后计算两个单词的点互信息(PMI)得到权重,对于任意两个单词i和单词j,权重计算公式为:
其中#W表示所有实体描述语料中滑动窗口的数量,#W(i)表示包含单词i的滑动窗口的数量,#W(i,j)表示同时包含单词i和单词j的滑动窗口的数量。
2.1.3)跨语言的“描述词-描述词”边:
对于跨语言的描述词之间形成的边,利用预先对齐的跨语言对齐实体对S,将每个实体描述文本中的单词与它对齐实体的描述中的所有单词两两相连,并计算形成的每个描述词对在所有对齐实体对形成的描述词对中的频率,来增强跨语言信息。这里使用X-DF(Cross Document Frequency)来指代这个方法。
对于分别来自两个知识图谱实体描述的单词i和j,权重计算公式为:
其中count(i,j)表示所有对齐实体对的文本描述构成的包含单词i和j的单词对数量,count(D)表示所有对齐实体对的文本描述构成的单词对的数量。
2.1.4)文本图邻接矩阵的权重计算方式:
2.2)图卷积网络中实体向量计算:图卷积网络的输入为实体文本特征矩阵由随机初始化得到,n表示总实体数量,m表示总单词数量,dt表示实体文本特征向量维度。文本图的图卷积网络总体的计算公式类似步骤1.2),具体为:
其中 是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,/>是/>的对角节点度矩阵。权重矩阵/>和/>都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·)。
2.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中ft(p)=||ht(e1),ht(e2)||1是实体距离打分函数,计算实体文本向量之间的曼哈顿距离,ht(e1),ht(e2)分别表示实体e1,e2的文本向量。γt是文本向量之间的间隔约束。
进一步地,所述的步骤3)具体包括以下子步骤:
3.1)语料处理:可以直接使用可获得的跨语言平行语料,也可以从单语言语料中抽取部分语料,通过翻译工具获得跨语言平行语料。将跨语言平行语料处理为句对齐,对语料完成标点符号过滤、去停用词等操作。
3.2)跨语言词向量预训练:使用跨语言词向量训练模型Bilbowa基于两种语言的单语言语料和句对齐的平行语料训练跨语言词向量表示。
3.3)实体描述向量编码:将实体描述用单词对应的预训练词向量序列表示,|s|为实体表述中单词总数,dd为实体描述向量维度,使用BiLSTM训练优化对齐实体向量之间的距离,得到实体描述的向量表示,具体公式为:
其中ht对应文本描述第t个词语的向量,对所有词向量表示求均值得到实体描述向量hd
对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fd(p)=||hd(e1),hd(e2)||1是实体距离打分函数,计算的是实体描述向量之间的曼哈顿距离,hd(e1),hd(e2)分别表示实体e1和e2的描述向量。γd是描述向量之间的间隔约束。
进一步地,所述的步骤4)中,实体对之间的距离计算方式具体如下:
两个不同知识图谱的实体对p=(e1,e2)之间的距离计算公式为:
其中,ds、dt、dd分别表示实体结构向量的维度、实体文本向量的维度、实体描述向量的维度,α和β是用来权衡三部分距离的超参数。
如果只使用实体结构向量和实体文本向量,两个不同知识图谱的实体对p=(e1,e2)之间的距离计算公式为:
其中,α是用来权衡两部分距离的超参数。
实施例
如图3所示,给出了本方法的一个实例,下面结合本技术的方法(流程如图1所示,模型如图2所示)详细说明该实例实施的具体步骤,如下:
(1)基于关系三元组的实体结构向量编码:根据关系三元组分别为两个语言的知识图谱构建结构图。结构图以实体为节点(如实体“蝙蝠侠”、“Batman”),具有关系的实体之间形成边(如“蝙蝠侠”和“超人”,“Batman”和“S即erman”),根据实体之间的关系计算边的具体权重,形成图的邻接矩阵。如图4所示,在构建好的结构图上,采用双层图卷积网络进行训练,两个知识图谱的图卷积网络共享权重矩阵。根据预先对齐的跨语言对齐实体对,以及正负例实体对三元损失函数,优化实体结构向量表示。
(2)基于实体描述信息的实体文本向量编码:处理实体描述信息,过滤非法字符、分词、去停用词等,过滤语料中出现频率过低的词汇。将两个语言的知识图谱合并,使用实体和描述文本构建统一的文本图。该文本图具有两种类型的节点:实体节点(如“蝙蝠侠”和“Batman”)和实体描述中的单词节点(如“DC漫画”和“DC comics”),具有三种类型的边:“实体-描述词”边(如“蝙蝠侠”-“英雄”),单语言内的“描述词-描述词”边(如“DC漫画”-“蝙蝠侠”),跨语言的“描述词-描述词”边(如“DC漫画”-“DC comics”)。为每种类型的边计算权重,形成邻接矩阵。如图5所示,在构建好的文本图上,采用双层图卷积网络进行训练,根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体文本向量表示。
(3)基于实体描述信息和跨语言语料的实体描述向量编码:在两种语言的单语言语料以及跨语言平行语料上使用Bilbowa预训练跨语言对齐的单词向量,然后将每个实体描述的一系列单词向量作为输入,用双向长短时记忆网络对实体描述进行编码获得实体描述向量。通过优化预先对齐的跨语言对齐实体对S的实体描述向量之间的距离来优化网络结构,得到所有实体最终的描述向量。
(4)根据多视角实体向量计算跨语言对齐实体对:对于一个语言知识图谱中的每个实体,将另一语言知识图谱的每个实体作为候选实体,根据实体结构向量、实体文本向量、实体描述向量(均为100维),计算实体与候选实体之间的距离,选择距离最小的实体对作为对齐实体对,最终得到对齐实体对“蝙蝠侠”-“Batman”。
本实例的跨语言实体运行结果如表1所示,本方法的模型记为STGCN。SE、TE、DE分别表示实体结构编码、实体文本编码、实体描述编码。评价指标Hits@k表示为当前语言所有实体找对齐实体时,在前k个实体命中对齐实体的概率。最终的实验结果在公开数据集DBP15K的中英数据集上超过了所示的其他方法,得到的对齐准确率达到了56.1%。
表1跨语言实体运行实验结果
本实例在采用实体结构编码和实体文本编码部分时,使用DBP15K中英数据集上不同比例预先对齐实体对时的效果如图6所示,相比其他方法,在数据量少到多的情况,始终取得了最好的效果,且在数据量多的时候,具有更大的优势。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (7)

1.一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,包括以下步骤:
1)基于关系三元组的实体结构向量编码:根据关系三元组分别为两个语言的知识图谱构建结构图;结构图以实体为节点,具有关系的实体之间形成边,根据实体之间的关系计算边的具体权重,形成图的邻接矩阵;在构建好的结构图上,采用双层图卷积网络进行训练,使用实体本身及其周围的实体编码不断更新当前实体的向量表示;两个知识图谱的图卷积网络共享权重矩阵;根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体结构向量表示;
2)基于实体描述信息的实体文本向量编码:将两个语言的知识图谱合并,使用实体和描述文本构建统一的文本图;该文本图具有两种类型的节点:实体节点和实体描述中的单词节点,具有三种类型的边:“实体-描述词”边,单语言内的“描述词-描述词”边,跨语言的“描述词-描述词”边;为每种类型的边计算权重,形成邻接矩阵;在构建好的文本图上,采用双层图卷积网络进行训练,根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体文本向量表示;
3)基于实体描述信息和跨语言语料的实体描述向量编码:在两种语言的单语言语料以及跨语言平行语料上使用Bilbowa预训练跨语言对齐的单词向量,然后将每个实体描述的一系列单词向量作为输入,用双向长短时记忆网络BiLSTM对实体描述进行编码获得实体描述向量;通过优化预先对齐的跨语言对齐实体对S的实体描述向量之间的距离来优化网络结构,得到所有实体最终的描述向量;
4)根据多视角实体向量计算跨语言对齐实体对:对于一个语言知识图谱中的每个实体,将另一语言知识图谱的每个实体作为候选实体,根据步骤1)步骤2)步骤3)分别得到的实体结构向量、实体文本向量、实体描述向量,计算实体与候选实体之间的距离,对距离从小到大排序,选择距离最小的实体对作为对齐实体对。
2.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤1)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
1.1)邻接矩阵A的权重计算:对于实体ei和ej,它们之间的权重aij∈A计算公式为:
其中fun(r)和ifun(r)分别为关系r正向和逆向的影响分数,G为知识图谱,#Triples_of_r是关系三元组中关于关系r的三元组数量,#Head_Entities_of_r和#Tail_Entities_of_r分别是关系r的三元组涉及的头实体数量和尾实体数量;
1.2)图卷积网络中实体向量计算:图卷积网络的输入为实体结构特征矩阵由随机初始化得到,n表示总实体数量,ds表示实体结构特征向量维度;结构图的图卷积网络总体的计算公式为:
其中 是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,/>是/>的对角节点度矩阵;权重矩阵Ws (0)和Ws (1)都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·);
1.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fs(p)=||hs(e1),hs(e2)||1是实体距离打分函数,计算实体结构向量之间的曼哈顿距离,hs(e1),hs(e2)分别表示实体e1,e2的结构向量;γs是结构向量之间的间隔约束。
3.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤2)中,在合并知识图谱前,对实体描述信息进行预处理,过滤非法字符、分词、去停用词,过滤语料中出现频率过低的词汇。
4.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤2)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
2.1)邻接矩阵A的权重计算:三种类型的边的权重以及文本图邻接矩阵的权重计算方式具体如下:
2.1.1)“实体-描述词”边:
对于实体和描述词形成的边,使用词频-逆文档频率TF-IDF计算权重,计算公式为:
TFIDF(t,d)=TF(t,d)×IDF(t)
其中TF(t,d)计算的是单词t在实体描述d中出现的频率,nt,d是单词t在实体描述d中出现的次数,∑t′∈dnt′,d是实体描述d中具有的总词语数量;IDF(t)是单词t在实体描述集D中的逆向文档频率,|D|是实体描述集中实体描述的总条数,|{d∈D:t∈d}|是实体描述集中包含单词t的实体描述的数量;
2.1.2)单语言的“描述词-描述词”边:
对于单语言的描述词之间形成的边,首先通过滑动窗口计算全局的单词共现情况,然后计算两个单词的点互信息PMI得到权重,对于任意两个单词i和单词j,权重计算公式为:
其中#W表示所有实体描述语料中滑动窗口的数量,#W(i)表示包含单词i的滑动窗口的数量,#W(i,j)表示同时包含单词i和单词j的滑动窗口的数量;
2.1.3)跨语言的“描述词-描述词”边:
对于跨语言的描述词之间形成的边,利用预先对齐的跨语言对齐实体对S,将每个实体描述文本中的单词与它对齐实体的描述中的所有单词两两相连,并计算形成的每个描述词对在所有对齐实体对形成的描述词对中的频率,来增强跨语言信息;对于分别来自两个知识图谱实体描述的单词i和j,权重计算公式为:
其中count(i,j)表示所有对齐实体对的文本描述构成的包含单词i和j的单词对数量,count(D)表示所有对齐实体对的文本描述构成的单词对的数量;
2.1.4)文本图邻接矩阵的权重计算方式:
2.2)图卷积网络中实体向量计算:图卷积网络的输入为实体文本特征矩阵由随机初始化得到,n表示总实体数量,m表示总单词数量,dt表示实体文本特征向量维度;文本图的图卷积网络总体的计算公式为:
其中 是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,/>是/>的对角节点度矩阵;权重矩阵Ws (0)和Ws (1)都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·);
2.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中ft(p)=||ht(e1),ht(e2)||1是实体距离打分函数,计算实体文本向量之间的曼哈顿距离,ht(e1),ht(e2)分别表示实体e1,e2的文本向量;γt是文本向量之间的间隔约束。
5.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤3)具体包括以下子步骤:
3.1)语料处理:将跨语言平行语料处理为句对齐;
3.2)跨语言词向量预训练:使用跨语言词向量训练模型Bilbowa基于两种语言的单语言语料和句对齐的平行语料训练跨语言词向量表示;
3.3)实体描述向量编码:将实体描述用单词对应的预训练词向量序列表示,|s|为实体表述中单词总数,dd为实体描述向量维度,使用BiLSTM训练优化对齐实体向量之间的距离,得到实体描述的向量表示,具体公式为:
其中ht对应文本描述第t个词语的向量,对所有词向量表示求均值得到实体描述向量hd
对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fd(p)=||hd(e1),hd(e2)||1是实体距离打分函数,计算实体描述向量之间的曼哈顿距离,hd(e1),hd(e2)分别表示实体e1和e2的描述向量;γd是描述向量之间的间隔约束。
6.根据权利要求5所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤3.1)中,直接使用可获得的跨语言平行语料,或者从单语言语料中抽取部分语料,通过翻译工具获得跨语言平行语料;将跨语言平行语料处理为句对齐,对语料完成标点符号过滤、去停用词操作,之后再进行跨语言词向量预训练。
7.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤4)中,实体对之间的距离计算方式具体如下:
两个不同知识图谱的实体对p=(e1,e2)之间的距离计算公式为:
其中,ds、dt、dd分别表示实体结构向量的维度、实体文本向量的维度、实体描述向量的维度,α和β是用来权衡三部分距离的超参数;
如果只使用实体结构向量和实体文本向量,两个不同知识图谱的实体对p=(e1,e2)之间的距离计算公式为:
其中,α是用来权衡两部分距离的超参数。
CN202010512003.9A 2020-06-08 2020-06-08 基于知识图谱多视角信息的跨语言实体对齐方法 Active CN111680488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010512003.9A CN111680488B (zh) 2020-06-08 2020-06-08 基于知识图谱多视角信息的跨语言实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010512003.9A CN111680488B (zh) 2020-06-08 2020-06-08 基于知识图谱多视角信息的跨语言实体对齐方法

Publications (2)

Publication Number Publication Date
CN111680488A CN111680488A (zh) 2020-09-18
CN111680488B true CN111680488B (zh) 2023-07-21

Family

ID=72453997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010512003.9A Active CN111680488B (zh) 2020-06-08 2020-06-08 基于知识图谱多视角信息的跨语言实体对齐方法

Country Status (1)

Country Link
CN (1) CN111680488B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380864B (zh) * 2020-11-03 2021-05-28 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112287123B (zh) * 2020-11-19 2022-02-22 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112287126B (zh) * 2020-12-24 2021-03-19 中国人民解放军国防科技大学 一种适于多模态知识图谱的实体对齐方法及设备
CN113487088A (zh) * 2021-07-06 2021-10-08 哈尔滨工业大学(深圳) 基于动态时空图卷积注意力模型的交通预测方法及装置
CN113987121A (zh) * 2021-10-21 2022-01-28 泰康保险集团股份有限公司 多语种推理模型的问答处理方法、装置、设备和可读介质
CN114896394B (zh) * 2022-04-18 2024-04-05 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN115795060B (zh) * 2023-02-06 2023-04-28 吉奥时空信息技术股份有限公司 一种基于知识增强的实体对齐方法
CN117435714B (zh) * 2023-12-20 2024-03-08 湖南紫薇垣信息***有限公司 一种基于知识图谱的数据库和中间件问题智能诊断***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110704576A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种基于文本的实体关系抽取方法及装置
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110704576A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种基于文本的实体关系抽取方法及装置
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Hong Yang等.《Guiding Cross-lingual Entity Alignment via Adversarial Knowledge Embedding》.《2019 IEEE International Conference on Data Mining (ICDM)》.2019,全文. *
张鸿,吴飞等.《一种基于内容相关性的跨媒体检索方法》.《计算机学报》.2020,第31卷(第31期),全文. *
杨茜.《知识图谱中多粒度关系链接技术研究》.《全国优秀硕士学位论文全文数据库》.2018,全文. *
王巍巍 ; *** ; 潘亮铭 ; 刘阳 ; 张江涛 ; .双语影视知识图谱的构建研究.北京大学学报(自然科学版).2015,(第01期),全文. *
苏佳林 ; 王元卓 ; 靳小龙 ; 程学旗 ; .自适应属性选择的实体对齐方法.山东大学学报(工学版).2019,(第01期),全文. *

Also Published As

Publication number Publication date
CN111680488A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
Pouransari et al. Deep learning for sentiment analysis of movie reviews
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN105068997B (zh) 平行语料的构建方法及装置
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN109697288B (zh) 一种基于深度学习的实例对齐方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
CN107102985A (zh) 改进的文档中多主题的关键词提取技术
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
Panda Developing an efficient text pre-processing method with sparse generative Naive Bayes for text mining
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
CN106610952A (zh) 一种混合的文本特征词汇提取方法
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
Jia et al. Attention in character-based BiLSTM-CRF for Chinese named entity recognition
Nabil et al. Cufe at semeval-2016 task 4: A gated recurrent model for sentiment classification
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Melamud et al. Information-theory interpretation of the skip-gram negative-sampling objective function

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant