CN110334219A - 基于注意力机制融入文本语义特征的知识图谱表示学习方法 - Google Patents
基于注意力机制融入文本语义特征的知识图谱表示学习方法 Download PDFInfo
- Publication number
- CN110334219A CN110334219A CN201910629813.XA CN201910629813A CN110334219A CN 110334219 A CN110334219 A CN 110334219A CN 201910629813 A CN201910629813 A CN 201910629813A CN 110334219 A CN110334219 A CN 110334219A
- Authority
- CN
- China
- Prior art keywords
- entity
- attention
- vector
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000007246 mechanism Effects 0.000 title claims abstract description 28
- 238000013507 mapping Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 108
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 238000013519 translation Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 38
- 239000010410 layer Substances 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 230000007812 deficiency Effects 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及知识图谱,其公开了一种基于注意力机制融入文本语义特征的知识图谱表示学习方法,解决翻译模型未能利用实体和关系的描述文本而导致的语义特征不足以及多源信息嵌入方法未能同时为实体和关系融入语义特征,且文本提取效果差的问题。该方法可以概括为:首先获取并处理实体和关系的描述文本,得到其文本语义特征,然后利用实体和关系的语义特征构建实体的投影矩阵,将实体向量投影到关系空间中,接着利用翻译的思想在关系空间中建模并进行表示学习,以此建模多对多的复杂关系。本发明适用于知识图谱的表示学习。
Description
技术领域
本发明涉及知识图谱,具体涉及一种基于注意力机制融入文本语义特征的知识图谱表示学习方法。
背景技术
随着互联网技术的发展,数据呈现***式的增长。但由于互联网上的内容多源异构,组织结构松散,难以高效利用其中的信息,因此Google于2012年5月提出知识图谱(Knowledge Graph)的概念,旨在将海量非结构化或半结构的数据转化为规范统一且可靠有效的结构化知识,从而形成一个高度互联的语义网,为数据挖掘和智能化服务提供支持。
知识图谱可看作一个有向图结构的网络,其中图节点代表实体或者概念,图中的边代表实体与实体或实体与概念间的关系。一般以三元组的形式描述知识,即(主语,谓词,宾语)或(实体,关系,实体)。知识图谱表示学习(Knowledge Graph RepresentationLearning)目的是学习实体关系的向量化表示,将符号形式的知识转化为可计算的实值向量。
传统技术中有较多基于翻译的模型来进行知识图谱表示学习的方案:
Mikolov等人利用词嵌入工具word2vec发现词向量空间存在平移不变现象,如v(king)-v(queen)≈v(man)-v(woman),这里v(king)表示利用word2vec得到的单词king的向量。受此现象的启发,Bordes等人提出TransE模型将知识图谱中的关系看作嵌入空间中头实体到尾实体的翻译(平移)操作:如果三元组(h,r,t)存在或成立,则在嵌入空间中,头实体向量加上关系向量应该与尾实体向量尽量靠近,即h+r≈t。其定义的评分函数为
TransE模型简单有效,在大规模知识图谱上也具有扩展性,但是也有严重的缺点。知识图谱中的关系按照其两端连接的实体数量可划分为1-1、1-N、N-1、N-N四种,而TransE的模型决定了它只对1-1的关系有效,对于其他关系类型存在很大问题,如N-1关系下, (hi,r,t)∈T,意味着h0=h1=…=hm,这显然是不合理的。
针对TransE在复杂关系上的不足,TransH模型将头尾实体向量分别投影到关系平面后再进行平移操作,从而使得实体在不同关系下能具有不同的表示。TransH用wr、dr两个向量表示关系r,其中wr为关系超平面的法向量,dr为关系对应的平移操作,首先将头尾实体向量分别投影到关系平面后再进行平移操作,相应的评分函数为:
TransE和TransH都假设实体和关系处于相同的语义空间,而关系和实体却是不同对象,TransR对实体和关系在不同的空间中建模。对于一个三元组(h,r,t),实体嵌入关系嵌入对于每一个关系r,设置一个投影矩阵用于将实体从实体空间投影到关系空间。类似的,其评分函数变为:
TransD提出一种动态变化矩阵的方法来解决关系的多种语义表示。它为每个实体或关系定义了两种表示,一种是(h,r,t)代表了自身的语义,另一种(hp,rp,tp)代表了从实体向量投影到关系向量空间的方式,且第二种表示将用于构建映射矩阵:
有映射矩阵后就能得到投影后的实体关系向量和评分函数:
h⊥=Mrhh,t⊥=Mrtt (6)
可以看出,TransD与TransE、TransH等模型本质上都是仅建模了“翻译”这一种三元组内部的结构特征,而忽略了实体和关系的其他语义特征。
而传统技术中的一些多源信息嵌入方法通过对文本语料进行嵌入为实体和关系表示引入了更多的语义特征:
DKRL把实体所在的文本当作实体描述,提出融入实体描述信息的知识表示学习方法。每一个实体有两种表示:基于结构的表示es和基于描述的表示ed,三元组评分由两部分组成:E=ES+ED。结构的表示使用TransE模型:ES=‖hs+r-ts‖,为了使基于描述的表示的学习过程与ES适配,ED又分为EDD=‖hd+r-td‖、EDS=‖hd+r-ts‖、ESD=‖hs+r-td‖三部分。基于描述的表示通过处理实体描述的文本获得,作者设计了CBOW(Continuous Bag-of-Words,连续词袋)编码器和卷积神经网络编码器两种方式来提取实体描述的语义特征。可以看到,DKRL在结合实体描述信息时使用的是TransE模型,然而TransE无法建模多对多关系。此外,DKRL方法只为实体引入描述信息,没有考虑关系的语义特征。
TEKE也是一个利用文本增强实体关系语义的表示学习方法:给定知识图谱KG和表示为单词序列的文本语料,TEKE首先使用实体链接工具在对语料库中的单词进行标注,得到对应知识图谱中实体的标注序列D=(x1,x2,…xn)。为了将知识图谱KG与文本信息D联合,作者构建了由实体和单词组成的共现网络G=(X,Y),其中xi表示网络的节点,对应于一个单词或一个实体,yij表示xi和xj间的共现频率。基于共现网络,选择共现频率超过给定阈值的标注词语集作为相应实体的语义上下文,并构建其向量表示。TEKE构建共现网络的文本处理方式较为传统,而且操作复杂,序列中单词之间的语义信息并没有得到充分利用。
综上所述,基于翻译的模型本质上都是仅建模了三元组内部的结构特征,而没有利用实体和关系的描述文本,因此忽略了知识图谱中实体关系的其他语义特征。在这种情况下,知识图谱的稀疏性导致实体关系向量没有得到充分的学习,往往只是粗略地满足翻译特性,质量不高,导致一些拥有相同关系但含义不同的实体很难区分,给后续知识融合和知识图谱补全等任务的准确率带来了负面影响。
DKRL、TEKE等多源信息嵌入方法通过对实体描述文本语料进行嵌入扩充了实体的语义,但这些方法有以下几个缺点:一是DKRL使用TransE方法进行结构嵌入,无法满足知识图谱中多对多的复杂关系;二是DKRL只对实体文本描述进行嵌入,为实体融入了语义特征,但没有考虑关系的语义特征;三是DKRL和TEKE在处理实体文本描述时,分别使用的是卷积神经网络和单词的共现网络,没有考虑序列中单词之间的相互影响。
发明内容
本发明所要解决的技术问题是:提出一种基于注意力机制融入文本语义特征的知识图谱表示学习方法,解决翻译模型未能利用实体和关系的描述文本而导致的语义特征不足以及多源信息嵌入方法未能同时为实体和关系融入语义特征,且文本提取效果差的问题。
本发明解决上述技术问题采用的技术方案是:
基于注意力机制融入文本语义特征的知识图谱表示学习方法,包括以下步骤:
步骤1、为知识图谱中的每个实体和关系均定义两种表示,包括本身的语义特征向量表示和文本的语义特征向量表示;
步骤2、针对知识图谱中的每个实体,从语料库中获取包含该实体的语句并进行预处理,然后采用自注意力机制提取句子的语义特征,获得实体的文本语义特征向量;
步骤3、针对知识图谱中的每个关系,对其名称描述进行分词,得到标签词集合,采用自注意力机制提取标签词集合的语义特征,获得关系的文本语义特征向量;
步骤4、基于实体和关系的文本语义特征向量构建映射矩阵,并基于翻译模型的思想构建三元组评分函数;
步骤5、根据三元组评分函数构建基于间隔的损失函数,以知识图谱三元组为训练集,采用梯度下降优化算法训练模型,最终得到实体和关系的向量表示。
作为进一步优化,步骤2具体包括:
步骤2.1、获取实体描述文本以及预处理:
对于知识图谱中每一个实体e,从语料库中获取至少一条包含该实体的语句作为该实体的描述文本,使用分词工具对每个句子进行分词,然后去除停用词得到预处理后的单词序列;
步骤2.2、文本特征提取模型搭建:
搭建由多层多单元的自注意力模块组成的网络模型,模型共由3个相同的层堆叠而成,即纵向上有3个相同的层,每层横向包含RH个自注意力单元对输入进行处理以从不同的方面学习单词序列的特征,其中每个自注意力单元都具有不同的参数矩阵;RH可进行自定义设置;
步骤2.3、获取每个单词的向量表示x作为模型的输入:
每个单词的向量表示由其词向量和位置向量的和组成,计算方式为
x=lword+lpos (8)
词向量利用词嵌入工具word2vec进行初始化;每个单词计算位置编码由其在实体描述文本序列中的位置顺序pos决定,位置向量的第i个维度的值的计算方式为
步骤2.4、利用自注意力机制计算每个词与该序列中其他所有词的影响程度,以得到自身对其他词的注意力分配,即权重值:
单词之间的影响程度采用乘性注意力计算,然后与原词向量相乘得到注意力后的向量计算公式为
其中n为序列中单词的数量,是序列中所有单词的向量组成的矩阵,为参数矩阵,W1的值在训练开始时采用正态分布进行初始化;
步骤2.5、经过3个注意力层的特征提取后,将序列的所有输出向量相加并经过一个ReLU激活函数作为实体语义特征,计算公式为:
步骤2.6、对RH个不同的注意力单元进行处理,将其映射为一个最终的实体语义特征向量,计算公式为:
ep=ReLU(W2E+b) (13)
其中是一个映射矩阵,E是RH个不同的注意力单元的输出组成的矩阵,b是偏置向量,W2和b的值在训练开始时采用正态分布进行初始化。
作为进一步优化,步骤3具体包括:
步骤3.1、对关系名称进行预处理:
对于知识图谱中每一个关系r,使用分词工具对其名称进行分词,得到标签词序列;
步骤3.2、文本特征提取模型搭建:
搭建由单层多单元的自注意力模块组成的网络模型,模型纵向上有1个自注意力层,该层横向包含RH个自注意力单元对输入进行处理以从不同的方面学习单词序列的特征,其中每个自注意力单元都具有不同的参数矩阵;RH可进行自定义设置;
步骤3.3、获取标签词序列中每个标签词的向量表示作为模型的输入;
步骤3.4、利用自注意力机制计算标签词之间的匹配程度,然后与原词向量相乘得到注意力后的向量;
步骤3.5、经过注意力层的特征提取后,将序列的所有输出向量相加并经过一个ReLU激活函数作为实体语义特征;
步骤3.6、对RH个不同的注意力单元进行处理,将其映射为一个实体语义特征向量rp。
作为进一步优化,步骤4具体包括:
步骤4.1、对于一个三元组(h,r,t),分别为头实体和尾实体设置一个投影矩阵Mrh和Mrt,用于将实体从实体空间投影到关系空间;投影矩阵由步骤2和步骤3中得到的实体和关系各自的语义特征向量构建而成,计算方式为
其中Bk×d为待学习的参数矩阵;
步骤4.2、将头实体、尾实体与各自的投影矩阵相乘以计算实体在关系空间的投影,即:h⊥=Mrhh、t⊥=Mrtt;
步骤4.3、在关系空间中,遵循翻译模型的思想,将关系看作头实体到尾实体的平移操作,构建三元组评分函数为:
作为进一步优化,步骤5具体包括:
步骤5.1、以知识图谱中的所有原始三元组T为训练集,定义基于间隔的合页损失函数以训练模型,目标是使得三元组评分函数对于正例三元组得到较低的分数,而对负例三元组得到较高的分数,所述损失函数为:
其中,T′(h,r,t)={(h′,r,t)|h′∈E,h′≠h}∪{(h,r,t′)|t′∈E,t′≠t}是在三元组(h,r,t)的基础上构造的负例集,间隔值γ>0为超参数;
步骤5.2、对于任何实体,强制其向量的L2范数为1,即从而将实体嵌入向量规则化为单位球面;
步骤5.3、训练过程中,知识图谱的事实三元组被随机遍历多次,当访问每一个事实三元组时,为其构建负例三元组,负例实体的选取方式为:采用K-近邻的方法,首先利用余弦相似度算法计算待替换实体和其他实体的相似度,并从高到低排序,然后取top-k个实体作为待替换实体的负例候选集;
步骤5.4、使用小批量梯度下降算法来优化目标函数然后计算梯度并更新模型参数。
本发明的有益效果是:
(1)本发明同时为实体和关系融入了结构特征和文本语义特征:
本发明分别对实体描述和关系描述的文本语料进行嵌入,并将其用于构建实体构建到关系空间的投影矩阵,最后在关系空间中基于翻译思想进行表示学习,不仅同时考虑了实体和关系的语义特征,还巧妙地结合了结构嵌入和文本嵌入。
(2)本发明相比其他多源信息嵌入方法能提取更丰富的语义特征:
得益于注意力机制在自然语言处理上的优势,本发明采用的多层自注意力方法处理实体描述和关系描述,能高效地提取更加高质量的语义特征。
(3)K-近邻的负采样方法能使模型表现出更好的区分能力:
本发明的K-近邻的负采样方法,能够提高负例三元组的质量,从而加强模型的学习,使得最终的模型能更好的区分正确三元组和错误三元组。
附图说明
图1为本发明基于注意力机制融入文本语义特征的知识图谱表示学习方法的原理示意图;
图2为本发明基于注意力机制融入文本语义特征的知识图谱表示学习方法的流程图;
图3为基于注意力机制的文本特征提取示意图。
具体实施方式
本发明旨在提出一种基于注意力机制融入文本语义特征的知识图谱表示学习方法,解决翻译模型未能利用实体和关系的描述文本而导致的语义特征不足以及多源信息嵌入方法未能同时为实体和关系融入语义特征,且文本提取效果差的问题。
本发明的知识图谱表示学***移操作。
本发明的知识图谱表示学习方法如图2所示,其包括以下实现步骤:
步骤1、为知识图谱中每个实体e定义两种表示,一种是实体本身的语义特征,表示为e。另一种是实体的文本语义特征,表示为ep。对知识图谱中每个关系r也定义所述两种表示。
步骤2、对于知识图谱中每一个实体e,从语料库中获取包含该实体的语句并进行预处理,然后采用自注意力机制提取句子的语义特征,得到实体的文本语义特征向量ep。
步骤3、对于知识图谱中每一个关系r,对其名称描述进行分词,得到标签词集合,采用自注意力机制提取标签词集合的语义特征,得到关系的语义特征向量rp。
步骤4、利用实体和关系的语义特征向量构建映射矩阵,并基于翻译的思想构建三元组评分函数,即能量方程。
步骤5、根据所述三元组评分函数构建基于间隔的损失函数,以知识图谱三元组为训练集,采用梯度下降优化算法训练模型,最终得到实体和关系的向量表示。
在具体实施时,所需的原始数据为知识图谱的三元组集合以及与知识图谱同种语言的语料文本集。下面对各个步骤的具体实现手段作进一步的描述:
步骤1中,首先获取知识图谱的所有实体和关系,利用tensorflow初始化实体和关系的两种向量,实体和关系向量的维度值分别为超参数d和k,可在{50,70,80,100}中选取。实体和关系本身的语义特征向量使用边界为的均匀分布记性初始化。实体和关系的文本语义特征ep和rp并非随机初始化,而是由步骤2和步骤3计算得到。
步骤2以实体的描述文本为输入,然后采用自注意力机制提取句子的语义特征,输出向量ep。具体步骤包括:
步骤2.1、实体描述文本预处理:
对于知识图谱中每一个实体e,从语料库中获取至少一条包含该实体的语句作为该实体的描述文本,使用分词工具对每个句子进行分词,然后去除停用词得到预处理后的单词序列。
步骤2.2、文本特征提取模型搭建:
特征提取的基本处理单元是对序列应用自注意力机制,模型由多层多单元的自注意力模块组成,每一层有RH个自注意力单元,对输入进行处理以从不同的方面学习序列的特征。模型共由CH=3个相同的层堆叠而成,即纵向上有3个相同的层,每层横向包含RH个自注意力单元,如图3所示。其中每个自注意力单元都具有不同的参数矩阵。在网络模型搭建中,RH可进行自定义设置,一般在{1,2,3,4}中选取即可。
步骤2.3、模型的输入是每个单词的向量表示x。每个单词的向量表示由其词向量 和位置向量的和组成,计算方式为
x=lword+lpos (8)
词向量利用词嵌入工具word2vec进行初始化。每个单词计算位置编码由其在实体描述文本序列中的位置顺序pos决定,位置向量的第i个维度的值的计算方式为
步骤2.4、利用自注意力机制计算每个词与该序列中其他所有词的影响程度,以得到自身对其他词的注意力分配(即权重值),这个权重值决定每个词在所属位置表达多少。所述单词之间的影响程度采用乘性注意力计算,然后与原词向量相乘得到注意力后的向量计算公式为
其中n为序列中单词的数量。是序列中所有单词的向量组成的矩阵。为参数矩阵,W1的值在训练开始时可以正态分布进行初始化。除以的目的是对权重值进行缩放,以防止其值过大。
步骤2.5、经过CH个注意力层的特征提取后,将序列的所有输出向量相加并经过一个ReLU激活函数作为实体语义特征,计算公式为
步骤2.6、为了综合不同的方面学习到的语义特征,在最后,对RH个不同的注意力单元进行处理,将其映射为一个最终的实体语义特征向量。计算方式为
ep=ReLU(W2E+b) (13)
其中是一个映射矩阵,E是RH个不同的注意力单元的输出组成的矩阵,b是偏置向量。W2和b的值在训练开始时可以正态分布进行初始化。
步骤3以关系的名称标签词为输入,采用自注意力机制提取标签词集合的语义特征,输出向量rp。具体包括:
步骤3.1、关系名称的预处理:对于知识图谱中每一个关系r,使用分词工具对其名称进行分词,得到标签词序列。如关系名“/accident/traffic_accident/res-ponsible_party”经过处理后得到{accident,traffic,accident,responsible,party}的标签词集合。
步骤3.2、文本特征提取模型搭建:
与实体语义特征提取的模型类似,模型由单层多单元的自注意力模块组成,每一层有RH个自注意力单元,由于关系描述包含的单词少,且单词范围也较少,关系语义特征的提取模型中仅包含CH=1个自注意力层,即纵向上有1个自注意力层,每层横向包含RH个自注意力单元。其中每个自注意力单元都具有不同的参数矩阵。在网络模型搭建中,RH可进行自定义设置,一般在{1,2,3,4}中选取。
步骤3.3、模型的输入是一个序列中每个标签词的向量表示,与步骤2.3的计算方式一致,首先利用词嵌入工具word2vec初始化每个单词的词向量,得到嵌入维度k在{50,70,80,100}中选取。利用公式(8)和公式(9)计算每个标签词的位置向量
步骤3.4、利用自注意力机制计算标签词之间的匹配程度,然后与原词向量相乘得到注意力后的向量,计算方式与与步骤2.4一致。
步骤3.5、经过CH个注意力层的特征提取后,将序列的所有输出向量相加并经过一个ReLU激活函数作为实体语义特征。计算方式与步骤2.5一致。
步骤3.6、为了综合不同的方面学习到的语义特征,在最后,对RH个不同的注意力单元进行处理,将其映射为一个最终的实体语义特征向量rp。计算方式与步骤2.6一致
步骤4中利用实体和关系的语义特征向量构建映射矩阵,并基于翻译的思想构建三元组评分函数,即能量方程。具体包括:
步骤4.1、对于一个三元组(h,r,t),分别为头实体和尾实体设置一个投影矩阵Mrh和Mrt,用于将实体从实体空间投影到关系空间。投影矩阵由步骤2和步骤3中得到的实体和关系各自的语义特征向量构建而成,计算方式为
其中Bk×d为待学习的参数矩阵。
步骤4.2、将头尾实体与各自的投影矩阵相乘以计算实体在关系空间的投影,即:h⊥=Mrhh、t⊥=Mrtt。
步骤4.3、在关系空间中,遵循翻译模型的思想,将关系看作头实体到尾实体的平移操作,构建三元组评分函数(即能量方程)为
步骤5中根据所述三元组评分函数构建基于间隔的损失函数,以知识图谱三元组为训练集,并采用梯度下降优化算法训练模型,最终得到实体和关系的向量表示。详细步骤为:
步骤5.1、以知识图谱中的所有原始三元组T为训练集,定义基于间隔的合页损失函数以训练模型。目标是使得三元组评分函数对于正例三元组得到较低的分数(能量),而对负例三元组得到较高的分数。所述损失函数为
其中,T′(h,r,t)={(h′,r,t)|h′∈E,h′≠h}∪{(h,r,t′)|t′∈E,t′≠t}是在三元组(h,r,t)的基础上构造的负例集。间隔值γ>0为超参数,可在{1,2,3,4}中选取。
步骤5.2、对于任何实体,强制其向量的L2范数为1,即从而将实体嵌入向量规则化为单位球面,通过人为增加实体嵌入规范的方式可以防止目标函数无效收敛。
步骤5.3、训练过程中,知识图谱的事实三元组(训练集)被随机遍历多次,当访问每一个事实三元组时,为其构建负例三元组。负例实体并非在实体集中选取,而是采用K-近邻的方法,首先利用余弦相似度算法计算待替换实体和其他实体的相似度,并从高到低排序,然后取top-k个实体作为待替换实体的负例候选集。
步骤5.4、使用小批量梯度下降(Mini-batch Gradient Descent)来优化目标函数学习率μ在{0.1,0.01,0.001}中选取,批量大小值B在{200,500,1400,4800}中选取。在小批量之后,计算梯度并更新模型参数。
基于本发明的上述方案,其与传统技术对比,至少具备以下优势:
(1)本发明同时为实体和关系融入了结构特征和文本语义特征:
TransE、TransH、TransR、TransD等翻译模型都是仅建模了三元组内部的结构特征,其缺点是忽略了知识图谱中实体关系的其他语义特征。而TEKE、DKRL等其他多源信息嵌入方法在TransE的基础上,对实体的文本描述进行嵌入,从而为实体引入了描述文本的语义特征,但仍然具有以下缺点:一是使用的TransE无法满足知识图谱中多对多的复杂关系,二是只为实体融入了语义特征。本发明分别对实体描述和关系描述的文本语料进行嵌入,并将其用于构建实体构建到关系空间的投影矩阵,最后在关系空间中基于翻译思想进行表示学习。不仅同时考虑了实体和关系的语义特征,还巧妙地结合了结构嵌入和文本嵌入。
(2)本发明相比其他多源信息嵌入方法能提取更丰富的语义特征:
TEKE基于单词和实体的共现网络处理实体描述文本,DKRL使用连续词袋模型或卷积神经网络处理实体描述文本,这些方式在自然语言处理上属于较为传统的方式,得益于注意力机制在自然语言处理上的优势,本发明采用的多层自注意力方法处理实体描述和关系描述,能高效地提取更加高质量的语义特征。
(3)K-近邻的负采样方法能使模型表现出更好的区分能力:
从整个实体集任意选取一个来替换,可能导致产生非常容易区分的负例三元组,如对于三元组(Beijing,capital of,China),通过替换头实体产生(Water,capital of,China)或替换尾实体产生(Beijing,capital of,Airplane),它们都是明显错误甚至不合逻辑的。Beijing和Water对应向量在同一空间中本来就相距较远,因此这类负例三元组对模型的学习贡献很小。相反,(Hong Kong,capital of,China)才是一个相近但是错误的三元组。本发明的K-近邻的负采样方法,能够提高负例三元组的质量,从而加强模型的学习,使得最终的模型能更好的区分正确三元组和错误三元组。
Claims (5)
1.基于注意力机制融入文本语义特征的知识图谱表示学习方法,其特征在于,包括以下步骤:
步骤1、为知识图谱中的每个实体和关系均定义两种表示,包括本身的语义特征向量表示和文本的语义特征向量表示;
步骤2、针对知识图谱中的每个实体,从语料库中获取包含该实体的语句并进行预处理,然后采用自注意力机制提取句子的语义特征,获得实体的文本语义特征向量;
步骤3、针对知识图谱中的每个关系,对其名称描述进行分词,得到标签词集合,采用自注意力机制提取标签词集合的语义特征,获得关系的文本语义特征向量;
步骤4、基于实体和关系的文本语义特征向量构建映射矩阵,并基于翻译模型的思想构建三元组评分函数;
步骤5、根据三元组评分函数构建基于间隔的损失函数,以知识图谱三元组为训练集,采用梯度下降优化算法训练模型,最终得到实体和关系的向量表示。
2.如权利要求1所述的基于注意力机制融入文本语义特征的知识图谱表示学习方法,
其特征在于,步骤2具体包括:
步骤2.1、获取实体描述文本以及预处理:
对于知识图谱中每一个实体e,从语料库中获取至少一条包含该实体的语句作为该实体的描述文本,使用分词工具对每个句子进行分词,然后去除停用词得到预处理后的单词序列;
步骤2.2、文本特征提取模型搭建:
搭建由多层多单元的自注意力模块组成的网络模型,模型共由3个相同的层堆叠而成,即纵向上有3个相同的层,每层横向包含RH个自注意力单元对输入进行处理以从不同的方面学习单词序列的特征,其中每个自注意力单元都具有不同的参数矩阵;RH可进行自定义设置;
步骤2.3、获取每个单词的向量表示x作为模型的输入:
每个单词的向量表示由其词向量和位置向量的和组成,计算方式为
x=lword+lpos (8)
词向量利用词嵌入工具word2vec进行初始化;每个单词计算位置编码由其在实体描述文本序列中的位置顺序pos决定,位置向量的第i个维度的值的计算方式为
步骤2.4、利用自注意力机制计算每个词与该序列中其他所有词的影响程度,以得到自身对其他词的注意力分配,即权重值:
单词之间的影响程度采用乘性注意力计算,然后与原词向量相乘得到注意力后的向量计算公式为
其中n为序列中单词的数量,是序列中所有单词的向量组成的矩阵,为参数矩阵,W1的值在训练开始时采用正态分布进行初始化;
步骤2.5、经过3个注意力层的特征提取后,将序列的所有输出向量相加并经过一个ReLU激活函数作为实体语义特征,计算公式为:
步骤2.6、对RH个不同的注意力单元进行处理,将其映射为一个最终的实体语义特征向量,计算公式为:
ep=ReLU(W2E+b) (13)
其中是一个映射矩阵,E是RH个不同的注意力单元的输出组成的矩阵,b是偏置向量,W2和b的值在训练开始时采用正态分布进行初始化。
3.如权利要求1所述的基于注意力机制融入文本语义特征的知识图谱表示学习方法,
其特征在于,步骤3具体包括:
步骤3.1、对关系名称进行预处理:
对于知识图谱中每一个关系r,使用分词工具对其名称进行分词,得到标签词序列;
步骤3.2、文本特征提取模型搭建:
搭建由单层多单元的自注意力模块组成的网络模型,模型纵向上有1个自注意力层,该层横向包含RH个自注意力单元对输入进行处理以从不同的方面学习单词序列的特征,其中每个自注意力单元都具有不同的参数矩阵;RH可进行自定义设置;
步骤3.3、获取标签词序列中每个标签词的向量表示作为模型的输入;
步骤3.4、利用自注意力机制计算标签词之间的匹配程度,然后与原词向量相乘得到注意力后的向量;
步骤3.5、经过注意力层的特征提取后,将序列的所有输出向量相加并经过一个ReLU激活函数作为实体语义特征;
步骤3.6、对RH个不同的注意力单元进行处理,将其映射为一个实体语义特征向量rp。
4.如权利要求1-3任意一项所述的基于注意力机制融入文本语义特征的知识图谱表示学习方法,其特征在于,步骤4具体包括:
步骤4.1、对于一个三元组(h,r,t),分别为头实体和尾实体设置一个投影矩阵Mrh和Mrt,用于将实体从实体空间投影到关系空间;投影矩阵由步骤2和步骤3中得到的实体和关系各自的语义特征向量构建而成,计算方式为
其中Bk×d为待学习的参数矩阵;
步骤4.2、将头实体、尾实体与各自的投影矩阵相乘以计算实体在关系空间的投影,即:h⊥=Mrhh、t⊥=Mrtt;
步骤4.3、在关系空间中,遵循翻译模型的思想,将关系看作头实体到尾实体的平移操作,构建三元组评分函数为:
5.如权利要求4所述的基于注意力机制融入文本语义特征的知识图谱表示学习方法,
其特征在于,步骤5具体包括:
步骤5.1、以知识图谱中的所有原始三元组T为训练集,定义基于间隔的合页损失函数以训练模型,目标是使得三元组评分函数对于正例三元组得到较低的分数,而对负例三元组得到较高的分数,所述损失函数为:
其中,T′(h,r,t)={(h′,r,t)|h′∈E,h′≠h}∪{(h,r,t′)|t′∈E,t′≠t}是在三元组(h,r,t)的基础上构造的负例集,间隔值γ>0为超参数;
步骤5.2、对于任何实体,强制其向量的L2范数为1,即从而将实体嵌入向量规则化为单位球面;
步骤5.3、训练过程中,知识图谱的事实三元组被随机遍历多次,当访问每一个事实三元组时,为其构建负例三元组,负例实体的选取方式为:采用K-近邻的方法,首先利用余弦相似度算法计算待替换实体和其他实体的相似度,并从高到低排序,然后取top-k个实体作为待替换实体的负例候选集;
步骤5.4、使用小批量梯度下降算法来优化目标函数然后计算梯度并更新模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629813.XA CN110334219B (zh) | 2019-07-12 | 2019-07-12 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629813.XA CN110334219B (zh) | 2019-07-12 | 2019-07-12 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334219A true CN110334219A (zh) | 2019-10-15 |
CN110334219B CN110334219B (zh) | 2023-05-09 |
Family
ID=68146717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910629813.XA Active CN110334219B (zh) | 2019-07-12 | 2019-07-12 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334219B (zh) |
Cited By (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN110866119A (zh) * | 2019-11-14 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 一种文章质量的确定方法、装置、电子设备及存储介质 |
CN111046187A (zh) * | 2019-11-13 | 2020-04-21 | 山东财经大学 | 基于对抗式注意力机制的一样本知识图谱关系学习方法及*** |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111191004A (zh) * | 2019-12-27 | 2020-05-22 | 咪咕文化科技有限公司 | 文本标签提取方法、装置及计算机可读存储介质 |
CN111209410A (zh) * | 2019-12-27 | 2020-05-29 | 中国地质大学(武汉) | 一种基于锚点的动态知识图谱表示学习方法及*** |
CN111428047A (zh) * | 2020-03-19 | 2020-07-17 | 东南大学 | 一种基于ucl语义标引的知识图谱构建方法及装置 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111462914A (zh) * | 2020-03-13 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
CN111496784A (zh) * | 2020-03-27 | 2020-08-07 | 山东大学 | 一种用于机器人智能化服务的空间环境识别方法及*** |
CN111539197A (zh) * | 2020-04-15 | 2020-08-14 | 北京百度网讯科技有限公司 | 文本匹配方法和装置以及计算机***和可读存储介质 |
CN111538848A (zh) * | 2020-04-29 | 2020-08-14 | 华中科技大学 | 一种融合多源信息的知识表示学习方法 |
CN111552817A (zh) * | 2020-04-14 | 2020-08-18 | 国网内蒙古东部电力有限公司 | 一种电力科技成果知识图谱补全方法 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习***及方法 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111680163A (zh) * | 2020-04-21 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种面向电力科技成果的知识图谱可视化方法 |
CN111737591A (zh) * | 2020-06-01 | 2020-10-02 | 山西大学 | 一种基于异质重边信息网络翻译模型的产品推荐方法 |
CN111897975A (zh) * | 2020-08-12 | 2020-11-06 | 哈尔滨工业大学 | 一种面向知识图谱表示学习训练的局部训练方法 |
CN111897974A (zh) * | 2020-08-12 | 2020-11-06 | 吉林大学 | 一种基于多层注意力机制的异质知识图谱学习方法 |
CN111932026A (zh) * | 2020-08-27 | 2020-11-13 | 西南交通大学 | 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法 |
CN111950303A (zh) * | 2020-10-19 | 2020-11-17 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
CN112000689A (zh) * | 2020-08-17 | 2020-11-27 | 吉林大学 | 一种基于文本分析的多知识图谱融合方法 |
CN112036189A (zh) * | 2020-08-10 | 2020-12-04 | 中国人民大学 | 一种金文语义识别方法和*** |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112052685A (zh) * | 2020-09-11 | 2020-12-08 | 河南合众伟奇云智科技有限公司 | 一种基于二维时序网络的端到端文本实体关系识别方法 |
CN112084428A (zh) * | 2020-09-17 | 2020-12-15 | 辽宁工程技术大学 | 一种基于耦合网络嵌入及知识图谱的协同过滤推荐方法 |
CN112100393A (zh) * | 2020-08-07 | 2020-12-18 | 浙江大学 | 一种低资源场景下的知识三元组抽取方法 |
CN112131404A (zh) * | 2020-09-19 | 2020-12-25 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及*** |
CN112347268A (zh) * | 2020-11-06 | 2021-02-09 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及*** |
CN112380325A (zh) * | 2020-08-15 | 2021-02-19 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答*** |
CN112507039A (zh) * | 2020-12-15 | 2021-03-16 | 苏州元启创人工智能科技有限公司 | 基于外部知识嵌入的文本理解方法 |
CN112667824A (zh) * | 2021-01-17 | 2021-04-16 | 北京工业大学 | 基于多语义学习的知识图谱补全方法 |
CN112668719A (zh) * | 2020-11-06 | 2021-04-16 | 北京工业大学 | 基于工程能力提升的知识图谱构建方法 |
CN112732944A (zh) * | 2021-01-30 | 2021-04-30 | 吉林大学 | 一种文本检索的新方法 |
CN112784049A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种面向文本数据的在线社交平台多元知识获取方法 |
CN112800239A (zh) * | 2021-01-22 | 2021-05-14 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN112925953A (zh) * | 2021-03-09 | 2021-06-08 | 南京航空航天大学 | 一种动态网络表示方法及*** |
CN112950325A (zh) * | 2021-03-16 | 2021-06-11 | 山西大学 | 一种社交行为融合的自注意力序列推荐方法 |
WO2021135290A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳Tcl新技术有限公司 | 基于知识图谱的信息可视化方法、装置、设备及存储介质 |
CN113204647A (zh) * | 2021-04-29 | 2021-08-03 | 哈尔滨工程大学 | 一种基于联合权重的编码解码框架知识图谱嵌入方法 |
CN113254663A (zh) * | 2021-04-21 | 2021-08-13 | 浙江工业大学 | 一种融合图卷积与翻译模型的知识图谱联合表示学习方法 |
CN113312498A (zh) * | 2021-06-09 | 2021-08-27 | 上海交通大学 | 用无向图嵌入知识图谱的文本信息抽取方法 |
CN113312487A (zh) * | 2021-01-16 | 2021-08-27 | 江苏网进科技股份有限公司 | 一种基于TransE模型的面向法律文本的知识表示学习方法 |
CN113360678A (zh) * | 2021-07-08 | 2021-09-07 | 电子科技大学 | 一种基于Neo4j和大数据的初等数学知识图谱构建方法 |
CN113488165A (zh) * | 2021-07-26 | 2021-10-08 | 平安科技(深圳)有限公司 | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113536742A (zh) * | 2020-04-20 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 基于知识图谱的描述文本生成方法、装置及电子设备 |
CN113569773A (zh) * | 2021-08-02 | 2021-10-29 | 南京信息工程大学 | 基于知识图谱和Softmax回归的干扰信号识别方法 |
CN113590799A (zh) * | 2021-08-16 | 2021-11-02 | 东南大学 | 一种基于多视角推理的弱监督知识图谱问答方法 |
CN113590837A (zh) * | 2021-07-29 | 2021-11-02 | 华中农业大学 | 一种基于深度学习的食品及健康知识图谱构建方法 |
CN113626610A (zh) * | 2021-08-10 | 2021-11-09 | 南方电网数字电网研究院有限公司 | 知识图谱嵌入方法、装置、计算机设备和存储介质 |
CN113761224A (zh) * | 2021-09-01 | 2021-12-07 | 东北大学 | 对长文本友好的知识图谱表示学习方法 |
CN114491070A (zh) * | 2022-01-24 | 2022-05-13 | 广东技术师范大学 | 基于知识图谱节点语义属性的图嵌入方法及*** |
CN114582443A (zh) * | 2022-02-23 | 2022-06-03 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114860877A (zh) * | 2022-04-29 | 2022-08-05 | 华侨大学 | 一种基于知识图谱关系预测的问题链生成方法及*** |
CN114979705A (zh) * | 2022-04-12 | 2022-08-30 | 杭州电子科技大学 | 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 |
CN115438674A (zh) * | 2022-11-08 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 实体数据处理、实体链接方法、装置和计算机设备 |
CN115936737A (zh) * | 2023-03-10 | 2023-04-07 | 云筑信息科技(成都)有限公司 | 一种确定建材真伪的方法和*** |
CN116187446A (zh) * | 2023-05-04 | 2023-05-30 | 中国人民解放军国防科技大学 | 基于自适应注意力机制的知识图谱补全方法、装置和设备 |
CN116702898A (zh) * | 2023-08-04 | 2023-09-05 | 北京语言大学 | 一种基于知识表示学习的文言文知识迁移方法及*** |
CN117251583A (zh) * | 2023-11-20 | 2023-12-19 | 湖北大学 | 基于局部图结构的文本增强知识图谱表示学习方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107590237A (zh) * | 2017-09-11 | 2018-01-16 | 桂林电子科技大学 | 一种基于动态翻译原则的知识图谱表示学习方法 |
CN107885760A (zh) * | 2016-12-21 | 2018-04-06 | 桂林电子科技大学 | 一种基于多种语义的知识图谱表示学习方法 |
US20180144252A1 (en) * | 2016-11-23 | 2018-05-24 | Fujitsu Limited | Method and apparatus for completing a knowledge graph |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
-
2019
- 2019-07-12 CN CN201910629813.XA patent/CN110334219B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144252A1 (en) * | 2016-11-23 | 2018-05-24 | Fujitsu Limited | Method and apparatus for completing a knowledge graph |
CN107885760A (zh) * | 2016-12-21 | 2018-04-06 | 桂林电子科技大学 | 一种基于多种语义的知识图谱表示学习方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107590237A (zh) * | 2017-09-11 | 2018-01-16 | 桂林电子科技大学 | 一种基于动态翻译原则的知识图谱表示学习方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
Non-Patent Citations (1)
Title |
---|
罗安根: "融合知识图谱的实体链接的算法研究", 《优秀硕士论文》 * |
Cited By (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN111046187A (zh) * | 2019-11-13 | 2020-04-21 | 山东财经大学 | 基于对抗式注意力机制的一样本知识图谱关系学习方法及*** |
CN111046187B (zh) * | 2019-11-13 | 2023-04-18 | 山东财经大学 | 基于对抗式注意力机制的一样本知识图谱关系学习方法及*** |
CN110866119A (zh) * | 2019-11-14 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 一种文章质量的确定方法、装置、电子设备及存储介质 |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111061843B (zh) * | 2019-12-26 | 2023-08-25 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111209410B (zh) * | 2019-12-27 | 2023-04-18 | 中国地质大学(武汉) | 一种基于锚点的动态知识图谱表示学习方法及*** |
CN111191004B (zh) * | 2019-12-27 | 2023-09-22 | 咪咕文化科技有限公司 | 文本标签提取方法、装置及计算机可读存储介质 |
CN111191004A (zh) * | 2019-12-27 | 2020-05-22 | 咪咕文化科技有限公司 | 文本标签提取方法、装置及计算机可读存储介质 |
CN111209410A (zh) * | 2019-12-27 | 2020-05-29 | 中国地质大学(武汉) | 一种基于锚点的动态知识图谱表示学习方法及*** |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
WO2021135290A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳Tcl新技术有限公司 | 基于知识图谱的信息可视化方法、装置、设备及存储介质 |
CN111159485B (zh) * | 2019-12-30 | 2020-11-13 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111462914A (zh) * | 2020-03-13 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
CN111428047B (zh) * | 2020-03-19 | 2023-04-21 | 东南大学 | 一种基于ucl语义标引的知识图谱构建方法及装置 |
CN111428047A (zh) * | 2020-03-19 | 2020-07-17 | 东南大学 | 一种基于ucl语义标引的知识图谱构建方法及装置 |
CN111444343B (zh) * | 2020-03-24 | 2021-04-06 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111496784A (zh) * | 2020-03-27 | 2020-08-07 | 山东大学 | 一种用于机器人智能化服务的空间环境识别方法及*** |
CN111552817A (zh) * | 2020-04-14 | 2020-08-18 | 国网内蒙古东部电力有限公司 | 一种电力科技成果知识图谱补全方法 |
CN111539197B (zh) * | 2020-04-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 文本匹配方法和装置以及计算机***和可读存储介质 |
CN111539197A (zh) * | 2020-04-15 | 2020-08-14 | 北京百度网讯科技有限公司 | 文本匹配方法和装置以及计算机***和可读存储介质 |
CN113536742A (zh) * | 2020-04-20 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 基于知识图谱的描述文本生成方法、装置及电子设备 |
CN111680163A (zh) * | 2020-04-21 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种面向电力科技成果的知识图谱可视化方法 |
CN111581392B (zh) * | 2020-04-28 | 2022-07-05 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111538848B (zh) * | 2020-04-29 | 2023-09-01 | 华中科技大学 | 一种融合多源信息的知识表示学习方法 |
CN111538848A (zh) * | 2020-04-29 | 2020-08-14 | 华中科技大学 | 一种融合多源信息的知识表示学习方法 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习***及方法 |
CN111581395B (zh) * | 2020-05-06 | 2023-09-19 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习***及方法 |
CN111737591A (zh) * | 2020-06-01 | 2020-10-02 | 山西大学 | 一种基于异质重边信息网络翻译模型的产品推荐方法 |
CN111737591B (zh) * | 2020-06-01 | 2024-03-15 | 山西大学 | 一种基于异质重边信息网络翻译模型的产品推荐方法 |
CN112035672B (zh) * | 2020-07-23 | 2023-05-09 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112100393A (zh) * | 2020-08-07 | 2020-12-18 | 浙江大学 | 一种低资源场景下的知识三元组抽取方法 |
CN112100393B (zh) * | 2020-08-07 | 2022-03-15 | 浙江大学 | 一种低资源场景下的知识三元组抽取方法 |
CN112036189A (zh) * | 2020-08-10 | 2020-12-04 | 中国人民大学 | 一种金文语义识别方法和*** |
CN111897974B (zh) * | 2020-08-12 | 2024-04-16 | 吉林大学 | 一种基于多层注意力机制的异质知识图谱学习方法 |
CN111897975A (zh) * | 2020-08-12 | 2020-11-06 | 哈尔滨工业大学 | 一种面向知识图谱表示学习训练的局部训练方法 |
CN111897974A (zh) * | 2020-08-12 | 2020-11-06 | 吉林大学 | 一种基于多层注意力机制的异质知识图谱学习方法 |
WO2022033072A1 (zh) * | 2020-08-12 | 2022-02-17 | 哈尔滨工业大学 | 一种面向知识图谱表示学习训练的局部训练方法 |
CN112380325A (zh) * | 2020-08-15 | 2021-02-19 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答*** |
CN112380325B (zh) * | 2020-08-15 | 2022-05-31 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答*** |
CN112000689B (zh) * | 2020-08-17 | 2022-10-18 | 吉林大学 | 一种基于文本分析的多知识图谱融合方法 |
CN112000689A (zh) * | 2020-08-17 | 2020-11-27 | 吉林大学 | 一种基于文本分析的多知识图谱融合方法 |
CN111932026B (zh) * | 2020-08-27 | 2022-03-04 | 西南交通大学 | 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法 |
CN111932026A (zh) * | 2020-08-27 | 2020-11-13 | 西南交通大学 | 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法 |
CN112052685A (zh) * | 2020-09-11 | 2020-12-08 | 河南合众伟奇云智科技有限公司 | 一种基于二维时序网络的端到端文本实体关系识别方法 |
CN112052685B (zh) * | 2020-09-11 | 2024-06-04 | 河南合众伟奇云智科技有限公司 | 一种基于二维时序网络的端到端文本实体关系识别方法 |
CN112084428A (zh) * | 2020-09-17 | 2020-12-15 | 辽宁工程技术大学 | 一种基于耦合网络嵌入及知识图谱的协同过滤推荐方法 |
CN112084428B (zh) * | 2020-09-17 | 2024-02-02 | 辽宁工程技术大学 | 一种基于耦合网络嵌入及知识图谱的协同过滤推荐方法 |
CN112131404A (zh) * | 2020-09-19 | 2020-12-25 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112131404B (zh) * | 2020-09-19 | 2022-09-27 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及*** |
CN112307777B (zh) * | 2020-09-27 | 2022-03-11 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及*** |
CN111950303A (zh) * | 2020-10-19 | 2020-11-17 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
CN111950303B (zh) * | 2020-10-19 | 2021-01-08 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及*** |
CN112347268A (zh) * | 2020-11-06 | 2021-02-09 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
CN112668719A (zh) * | 2020-11-06 | 2021-04-16 | 北京工业大学 | 基于工程能力提升的知识图谱构建方法 |
CN112347268B (zh) * | 2020-11-06 | 2024-03-19 | 华中科技大学 | 一种文本增强的知识图谱联合表示学习方法及装置 |
CN112507039A (zh) * | 2020-12-15 | 2021-03-16 | 苏州元启创人工智能科技有限公司 | 基于外部知识嵌入的文本理解方法 |
CN113312487A (zh) * | 2021-01-16 | 2021-08-27 | 江苏网进科技股份有限公司 | 一种基于TransE模型的面向法律文本的知识表示学习方法 |
CN112667824A (zh) * | 2021-01-17 | 2021-04-16 | 北京工业大学 | 基于多语义学习的知识图谱补全方法 |
CN112667824B (zh) * | 2021-01-17 | 2024-03-15 | 北京工业大学 | 基于多语义学习的知识图谱补全方法 |
CN112800239B (zh) * | 2021-01-22 | 2024-04-12 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN112800239A (zh) * | 2021-01-22 | 2021-05-14 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN112784049A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种面向文本数据的在线社交平台多元知识获取方法 |
CN112732944A (zh) * | 2021-01-30 | 2021-04-30 | 吉林大学 | 一种文本检索的新方法 |
CN112925953B (zh) * | 2021-03-09 | 2024-02-20 | 南京航空航天大学 | 一种动态网络表示方法及*** |
CN112925953A (zh) * | 2021-03-09 | 2021-06-08 | 南京航空航天大学 | 一种动态网络表示方法及*** |
CN112950325B (zh) * | 2021-03-16 | 2023-10-03 | 山西大学 | 一种社交行为融合的自注意力序列推荐方法 |
CN112950325A (zh) * | 2021-03-16 | 2021-06-11 | 山西大学 | 一种社交行为融合的自注意力序列推荐方法 |
CN113254663A (zh) * | 2021-04-21 | 2021-08-13 | 浙江工业大学 | 一种融合图卷积与翻译模型的知识图谱联合表示学习方法 |
CN113204647B (zh) * | 2021-04-29 | 2023-01-03 | 哈尔滨工程大学 | 一种基于联合权重的编码解码框架知识图谱嵌入方法 |
CN113204647A (zh) * | 2021-04-29 | 2021-08-03 | 哈尔滨工程大学 | 一种基于联合权重的编码解码框架知识图谱嵌入方法 |
CN113312498A (zh) * | 2021-06-09 | 2021-08-27 | 上海交通大学 | 用无向图嵌入知识图谱的文本信息抽取方法 |
CN113360678A (zh) * | 2021-07-08 | 2021-09-07 | 电子科技大学 | 一种基于Neo4j和大数据的初等数学知识图谱构建方法 |
CN113360678B (zh) * | 2021-07-08 | 2022-07-15 | 电子科技大学 | 一种基于Neo4j和大数据的初等数学知识图谱构建方法 |
CN113488165A (zh) * | 2021-07-26 | 2021-10-08 | 平安科技(深圳)有限公司 | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 |
CN113488165B (zh) * | 2021-07-26 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 |
CN113590837A (zh) * | 2021-07-29 | 2021-11-02 | 华中农业大学 | 一种基于深度学习的食品及健康知识图谱构建方法 |
CN113569773A (zh) * | 2021-08-02 | 2021-10-29 | 南京信息工程大学 | 基于知识图谱和Softmax回归的干扰信号识别方法 |
CN113569773B (zh) * | 2021-08-02 | 2023-09-15 | 南京信息工程大学 | 基于知识图谱和Softmax回归的干扰信号识别方法 |
CN113626610A (zh) * | 2021-08-10 | 2021-11-09 | 南方电网数字电网研究院有限公司 | 知识图谱嵌入方法、装置、计算机设备和存储介质 |
CN113535984B (zh) * | 2021-08-11 | 2023-05-26 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113590799A (zh) * | 2021-08-16 | 2021-11-02 | 东南大学 | 一种基于多视角推理的弱监督知识图谱问答方法 |
CN113761224A (zh) * | 2021-09-01 | 2021-12-07 | 东北大学 | 对长文本友好的知识图谱表示学习方法 |
CN114491070A (zh) * | 2022-01-24 | 2022-05-13 | 广东技术师范大学 | 基于知识图谱节点语义属性的图嵌入方法及*** |
CN114582443B (zh) * | 2022-02-23 | 2023-08-18 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114582443A (zh) * | 2022-02-23 | 2022-06-03 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114979705A (zh) * | 2022-04-12 | 2022-08-30 | 杭州电子科技大学 | 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 |
CN114860877A (zh) * | 2022-04-29 | 2022-08-05 | 华侨大学 | 一种基于知识图谱关系预测的问题链生成方法及*** |
CN115438674A (zh) * | 2022-11-08 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 实体数据处理、实体链接方法、装置和计算机设备 |
CN115936737A (zh) * | 2023-03-10 | 2023-04-07 | 云筑信息科技(成都)有限公司 | 一种确定建材真伪的方法和*** |
CN115936737B (zh) * | 2023-03-10 | 2023-06-23 | 云筑信息科技(成都)有限公司 | 一种确定建材真伪的方法和*** |
CN116187446A (zh) * | 2023-05-04 | 2023-05-30 | 中国人民解放军国防科技大学 | 基于自适应注意力机制的知识图谱补全方法、装置和设备 |
CN116702898A (zh) * | 2023-08-04 | 2023-09-05 | 北京语言大学 | 一种基于知识表示学习的文言文知识迁移方法及*** |
CN116702898B (zh) * | 2023-08-04 | 2023-11-03 | 北京语言大学 | 一种基于知识表示学习的文言文知识迁移方法及*** |
CN117251583B (zh) * | 2023-11-20 | 2024-01-26 | 湖北大学 | 基于局部图结构的文本增强知识图谱表示学习方法及*** |
CN117251583A (zh) * | 2023-11-20 | 2023-12-19 | 湖北大学 | 基于局部图结构的文本增强知识图谱表示学习方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110334219B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334219A (zh) | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 | |
CN109635109B (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN108182295B (zh) | 一种企业知识图谱属性抽取方法及*** | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN107729513A (zh) | 基于语义对齐的离散监督跨模态哈希检索方法 | |
CN113312452B (zh) | 基于多任务学习的篇章级文本连贯性分类方法 | |
CN106909537B (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
Tang et al. | Deep sequential fusion LSTM network for image description | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN111710428B (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索***与方法 | |
CN113157919A (zh) | 语句文本方面级情感分类方法及*** | |
KR20220076419A (ko) | 딥러닝 기반 의미역 분석을 활용하는 방법 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及*** | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及*** | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别***及方法 | |
CN114254645A (zh) | 一种人工智能辅助写作*** | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |