CN111291556B - 基于实体义项的字和词特征融合的中文实体关系抽取方法 - Google Patents

基于实体义项的字和词特征融合的中文实体关系抽取方法 Download PDF

Info

Publication number
CN111291556B
CN111291556B CN201911298675.8A CN201911298675A CN111291556B CN 111291556 B CN111291556 B CN 111291556B CN 201911298675 A CN201911298675 A CN 201911298675A CN 111291556 B CN111291556 B CN 111291556B
Authority
CN
China
Prior art keywords
word
entity
vector
sense
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911298675.8A
Other languages
English (en)
Other versions
CN111291556A (zh
Inventor
郝矿荣
张江英
唐雪嵩
蔡欣
陈磊
王彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201911298675.8A priority Critical patent/CN111291556B/zh
Publication of CN111291556A publication Critical patent/CN111291556A/zh
Application granted granted Critical
Publication of CN111291556B publication Critical patent/CN111291556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于实体义项的字和词特征融合的中文实体关系抽取方法。该方法引入实体义项将语句扩充为三元组<语句,实体1义项,实体2义项>,丰富了输入细粒度,对三元组中的三个序列分别映射成字向量矩阵。对三元组中的语句,并行输入到两个模型,一个基于注意力机制的双向长短时记忆网络(Att‑BLSTM)学习字特征,另一个先通过卷积神经网络(CNN)学习局部特征,再通过Att‑BLSTM学习词特征。分别利用Att‑BLSTM学习基于字的实体1义项特征和基于字的实体2义项特征。将所述四种特征融合成一个可全面表征语义信息的特征,用于关系抽取。该方法能避免分词错误且解决一词多义问题,有效提高中文实体关系抽取的准确率,可广泛应用于构建知识图谱。

Description

基于实体义项的字和词特征融合的中文实体关系抽取方法
技术领域
本发明属技术领域,涉及一种基于实体义项的字和词特征融合的中文实体关系抽取方法。
背景技术
随着网络技术的发展,以文字、图像等形式为依托的信息化时代强势到来,从大量的非结构化文本数据中获取有用信息尤为重要。实体关系抽取的主要目的是在实体识别的基础上确定无结构文本中实体对之间的关系类别,并形成结构化的数据以便存储和取用。例如,对于一个样本“[幽兰]e1在[山谷]e2,本自无人识。”,带有两个标记的实体“幽兰”和“山谷”,关系抽取的任务就是通过机器学习得到样本的语义信息,去完成实体对之间关系的识别,形成结构化的三元组形式<幽兰,Located,山谷>,用于构建大规模的知识图谱。知识图谱是由概念、实体、实体属性及实体关系组成的语义网络,是对真实世界结构化的表示,被广泛应用于搜索***中。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著。因此,研究对中文实体关系抽取极为必要。
传统的关系抽取主要包括基于特征的抽取方法和基于核函数的抽取方法。基于特征的方法顾名思义就是挖掘大量的词汇、句法和语义特征,而后通过选择合适的装置来识别文本中实体间的关系。而基于核函数的方法就是在核函数设计上付出努力,而这些通常都是需要基于依赖关系结构。尽管这两种方法都在一定程度上被证明具有良好的性能,但是特征提取和核函数设计的操作都过度依赖于NLP工具的输出,这不可避免地会引入一些错误并降低模型性能。
近几年来,深度学习在关系抽取上进行了较多应用,Zeng等人率先提出将卷积神经网络 (CNN)应用于语义学习,深度学习的研究自此进入到白热化阶段。但由于中文数据集的缺失,中文实体关系抽取研究并不多,现有的中文实体关系抽取方法主要是在词向量矩阵的输入下,对模型进行改进实现,这样的模型过度依赖于分词质量。目前存在的主流网络框架有:多尺度的卷积神经网络(Multi-scale CNN)、双向长短时记忆网络(BLSTM)和改进的GRU 网络等,同时,注意力机制也被广泛应用其中,并取得了一定的效果。但是,这些方法只关注模型本身的改进,而忽略了不同的输入细粒度将对关系抽取模型产生重大影响的事实。基于字的模型无法利用词的信息,因此捕获的特征少于基于词的模型,且同时基于词的模型性能又过分依赖于分词质量。目前,在其他自然语言处理任务中已经提出一些方法来组合字和词的信息,例如Tai等人提出了一个树状的LSTM模型来改进语义表示,并被广泛应用于人类动作识别、语音标记等各种任务中。除了中文文本的字、词特征表示不全面以外,中文词语的多义性歧义仍然会严重影响关系抽取的任务。换句话说,随着语言环境的变化,上述抽取方法都无法处理词的多义性。因此,本发明提出引入实体义项作为外部语言知识,来支撑语句中实体的语义信息,帮助解决实体一词多义的问题,同时通过对输入的字向量矩阵构造不同的网络分别学习字特征和词特征,丰富了输入细粒度。
发明内容
本发明的目的是:针对北京大学提出的SanWen数据集,为了降低现有的实体关系抽取模型对分词质量的依赖性和提高模型正确识别实体语义信息的性能,以字向量矩阵做输入,同时引入实体义项丰富输入细粒度,从多个层面表达语句的语义信息,构建一个可同时学习字特征、词特征和实体义项特征的关系抽取装置。
为实现上述目的,本发明采取的技术方案如下所述:
基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征是包括以下步骤:
A、训练;
步骤1、语句预处理;
取SanWen数据集中的m个语句作为训练样本,m个语句覆盖SanWen数据集中的十种关系;
将m个语句中的每个语句处理成以字为单位单独存在的序列Sj,j=1,2,…m;处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行;m个语句的序列集合记为{S1,S2,…,Sm};
对m个语句的序列集合,从第一个语句的第一个字开始,在所述个体前从1开始依次加上序号;重复出现的个体不需要重复给序号,该个体按已编序号标记;
对所述m个语句的序列集合,计算每个语句序列的字长,统计获得最大字长,记为n,用于规定m个语句序列的字长;所述规定是指m个语句序列中,字长小于n的序列用数字0补充到字长为n;
步骤2、获取语句对应的实体1义项和实体2义项;
m个语句中,将每个语句中的实体1作为百科全书网站的搜索词条;
1)若所述实体1的搜索词条在百科全书网站未被收录,把实体1本身当作该实体1对应的一个实体1义项;
2)若所述实体1的搜索词条在百科全书网站被收录,利用网络爬虫技术获得该实体 1对应的所有实体1义项;
分别计算每个语句和其对应的每个实体1义项的语义相似性,保留其中相似性最高的一个实体1义项;
m个语句中,每个语句的实体1对应一个实体1义项,该对应的实体1义项是相似性最高的一个实体1义项或者是实体1本身;
对每个语句中实体1对应的一个实体1义项处理成以字为单位单独存在的序列Sense (e1)j,j=1,2,…m;处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行;m个语句中的m个实体1对应m个实体1义项序列集合,记为{Sense(e1)1,Sense(e1)2,…,Sense(e1)m};
对m个实体1义项的序列集合,从第一个实体1义项的第一个字开始,在所述个体前从1开始依次加上序号,重复出现的个体不需要重复给序号,该个体按已编序号标记;
对所述m个实体1义项序列集合,计算每个实体1义项序列的字长,统计获得最大字长,记为m1,用于规定m个实体1义项序列的字长;所述规定是指m个实体1义项序列中,字长小于m1的实体1义项序列用数字0补充到字长为m1
按照实体1的方式,获得每个语句中实体2对应的一个实体2义项,该对应的实体2义项是相似性最高的一个实体2义项或者是实体2本身;
按照实体1的方式,对每个语句实体2对应的一个实体2义项处理成以字为单位单独存在的序列Sense(e2)j,j=1,2,…m;m个语句中的m个实体2对应m个实体2义项序列集合,记为{Sense(e2)1,Sense(e2)2,…,Sense(e2)m};
对m个实体2义项的序列集合,从第一个实体2义项的第一个字开始,在所述个体前从1开始依次加上序号,重复出现的个体不需要重复给序号,该个体按已编序号标记;
按照实体1的方式,获得m个实体2义项序列集合的最大字长,记为m2,用于规定m个实体2义项序列的字长;所述规定是指m个实体2义项序列中,字长小于m2的实体2义项序列用数字0补充到字长为m2
步骤3、扩充三元组<语句,实体1义项,实体2义项>;
对每个语句的序列Sj,扩充为三元组<Sj,Sense(e1)j,Sense(e2)j>;
步骤4、对三元组中的三个序列均映射成字向量矩阵;
所述Sj中的字向量矩阵由字本身向量和距离向量拼接而成,Sense(e1)j中的字向量矩阵即字本身向量,Sense(e2)j中的字向量矩阵即字本身向量;
所述距离向量是指字到实体1的距离向量和字到实体2的距离向量;
所述拼接是指将指定向量的维度相加,合成一个向量;
步骤5、对三元组中的序列Sj,利用Att-BLSTM学习得到基于字的句子特征向量,记为 hc *
步骤6、对三元组中的序列Sj,先用CNN学习局部特征,再用Att-BLSTM学习得到基于词的句子特征向量,记为hw *
利用CNN学习Sj的字向量矩阵得到局部特征向量,该局部特征向量表征的是句子中字与字之间的语义信息,认作是词的特征;
步骤7、对三元组中的序列Sense(e1)j,利用Att-BLSTM学习得到基于字的实体1义项特征向量,记为he1 *;对三元组中的序列Sense(e2)j,利用Att-BLSTM学习得到基于字的实体2义项特征向量,记为he2 *
步骤8、特征融合;
拼接所述基于字的句子特征向量和基于词的句子特征向量,得到语句语义信息的特征向量,记为hs *
hs *=[hc *;hw *];
拼接所述基于字的实体1义项特征向量和基于字的实体2义项特征向量,得到实体语义信息的特征向量,记为he *
he *=[he1 *;he2 *]
将所述hs *输入到全连接网络的隐含层,得到新的语句特征向量os
将所述he *输入到全连接网络的隐含层,得到新的义项特征向量oe
对os和oe加权求和得到最后的特征向量o,权重分别为η和1-η
步骤9、关系抽取;
将所述最后的特征向量o输入到softmax层,得到它属于每一类的概率值,对应于最大概率值的类别即关系抽取结果;
B、输入目标中文语句,关系识别;
1)若一个目标中文语句含有两个标记好的实体,识别出该目标中文语句中实体之间的关系;
2)若一个目标中文语句含有标记好的实体少于2,报错;
3)若一个目标中文语句含有三个以上标记好的实体,报错;
若有两个以上目标中文语句,则自动断句后按上述步骤1)-3)识别每个目标中文语句中实体之间的关系。
根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤1包括:
所述m为17227,是SanWen数据集中的所有训练样本。
根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤2包括:
所述计算语义相似性是指利用余弦相似度算法计算相似性;
所述余弦相似度算法是指用Word2Vec方法将语句序列Sj中的每个字映射成一个字向量,对该序列中所有字的字向量对应元素相加再除以字向量总数得到序列Sj的向量;按上述方式得到实体1序列Sense(e1)j的向量;计算一个向量空间中两个向量夹角间的余弦值作为衡量两个序列之间差异的大小,余弦值接近1,夹角趋于0,表明两个序列越相似,余弦值接近于0,夹角趋于90度,表明两个序列越不相似。
根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤4包括:
1)对所述Sj映射成一个基本字向量矩阵,其每个字的基本字向量由字本身向量和距离向量拼接而成;所述拼接是指将指定向量的维度相加,合成一个向量;
所述字本身向量,我们利用Word2Vec方法将每个字映射成低维实数向量txi,向量维度为dw。其中,txi表示Sj中第i个字的字本身向量;dw表示该向量的维度。
所述距离向量是指字到实体1的距离向量和字到实体2的距离向量。
我们把第i个字到实体1的距离定义为pi 1,第i个字到实体2的距离定义为pi 2。pi 1和pi 2计算方法相同,pi 1计算公式定义如下:
Figure RE-GDA0002482157530000051
其中,i表示第i个字的位置索引,b1表示实体1的初始位置索引,e1表示实体1的末尾位置索引。
将计算得到的pi 1和pi 2映射成低维向量,分别记为xi p1和xi p2,这两个向量维度均为dd。其中,xi p1表示第i个字到实体1的距离向量;xi p2表示第i个字到实体2的距离向量。
拼接所述字本身向量和距离向量,得到第i个字的基本字向量,记为vi=[txi;xi p1;xi p2],维度d=dw+2*dd。对所述Sj,我们将其映射成一个基本字向量矩阵,记为 Sjv=[v1,v2,…,vi,…,vn]T。其中,v1表示Sj中第1个字的基本字向量;vi表示Sj中第i个字的基本字向量;vn表示Sj中第n个字的基本字向量;T表示矩阵的转置,因为一个基本字向量是维度为d的列向量,因此矩阵经过转置后维度为n*d。
2)对所述Sense(e1)j映射成一个基本字向量矩阵,其每个字的基本字向量即字本身向量。
按照1)所述字本身向量,对所述Sense(e1)j,我们将其映射成一个基本字向量矩阵,记为Sense(e1)jv=[sx1,sx2,…,sxi,…,sxm1]T。其中,sx1表示Sense(e1)j中第1个字的基本字向量;sxi表示Sense(e1)j中第i个字的基本字向量;sxm1表示Sense(e1)j中第m1个字的基本字向量;T表示矩阵的转置,因为一个字向量是维度为dw的列向量,因此矩阵经过转置后维度为m1*dw
3)对所述Sense(e2)j映射成一个基本字向量矩阵,其每个字的基本字向量即字本身向量。
按照1)所述字本身向量,对所述Sense(e2)j,我们将其映射成一个基本字向量矩阵,记为Sense(e2)jv=[vx1,vx2,…,vxi,…,vxm2]T。其中,vx1表示Sense(e2)j中第1个字的基本字向量;vxi表示Sense(e2)j中第i个字的基本字向量;vxm2表示Sense(e2)j中第m2个字的基本字向量;T表示矩阵的转置,因为一个基本字向量是维度为dw的列向量,因此矩阵经过转置后维度为m2*dw
根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤5包括:
1)对所述Sj的基本字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T,我们利用Att-BLSTM学习字特征。所述的Att-BLSTM是指基于注意力机制的双向长短时记忆网络。
在第t(t=1,2,…,n)时刻,我们输入一个基本字向量vt到BLSTM中,从正向和反向学习这个字向量,得到其正向隐含特征向量和反向隐含特征向量,分别记为
Figure RE-GDA0002482157530000061
Figure RE-GDA0002482157530000062
Figure RE-GDA0002482157530000063
Figure RE-GDA0002482157530000064
两个隐含特征向量中的每个元素一一对应相加,得到一个双向隐含特征向量,记为
Figure RE-GDA0002482157530000065
所述的字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T经过BLSTM后得到每个字的双向隐含特征向量,记为
Figure RE-GDA0002482157530000066
其中,
Figure RE-GDA0002482157530000067
表示第1个字的双向隐含特征向量;
Figure RE-GDA0002482157530000068
表示第i个字的双向隐含特征向量;
Figure RE-GDA0002482157530000069
表示第n个字的双向隐含特征向量。
2)所述注意力机制,自动为HSjv中每个字的双向隐含特征向量分配一个权重系数,每个字的双向隐含特征向量结合对应分配的权重系数通过加权求和运算,得到基于字的句子特征向量,记为hc *
根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤6包括:
1)对所述Sj的基本字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T,我们利用CNN对其进行学习,得到局部特征向量,该向量表征的是句子中字与字之间的语义信息,认作是词的特征。经过k 个不同的CNN能得到k个不同的局部特征向量,记为Hw=[h1,h2,…,hi,…,hk]。其中,h1表示第1个CNN得到的词的特征;hi表示第i个CNN得到的词的特征;hk表示第k个CNN得到的词的特征。
2)对Hw=[h1,h2,…,hi,…,hk],我们利用步骤5所述的Att-BLSTM学习词特征,得到基于词的句子特征向量,记为hw *
根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤7包括:
1)对所述Sense(e1)j的字向量矩阵Sense(e1)jv=[sx1,sx2,…,sxi,…,sxm1]T,利用步骤5 所述的Att-BLSTM学习实体1义项特征,得到基于字的实体1义项特征向量,记为he1 *
2)对所述Sense(e2)j的字向量矩阵Sense(e2)jv=[vx1,vx2,…,vxi,…,vxm2]T,利用步骤5 所述的Att-BLSTM学习实体2义项特征,得到基于字的实体2义项特征向量,记为he2 *
根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法,其特征在于,所述步骤8包括:
所述权重η取0.9,是经过训练不断调整得到的一个超参数。
根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法,其特征在于,所述训练包括:
按照所述步骤1-9搭建一个关系抽取装置,随机初始化模型中所有参数。在模型的整个训练过程中,从m个三元组中,每次输入10个三元组<Sj,Sense(e1)j,Sense(e2)j>进行训练(即batch_size=10),所有三元组都完成一次训练记为一个训练过程,一共进行100个这样的训练过程(即epoch=100);以模型的预测输出和真实关系标签的交叉熵作为损失函数,用随机梯度下降法不断训练模型进行参数更新;同时,为了防止过拟合,还在训练过程中采用了dropout机制,在训练中每个神经元都有50%的概率被关闭(即每次训练都有随机一半的隐藏层节点不参与计算);训练结束后,得到一个训练好的实体关系抽取装置。
根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法,其特征在于,所述输入目标中文语句,关系识别包括:
给定一个目标中文语句:若一个目标中文语句含有两个标记好的实体,则直接识别出该目标中文语句中实体之间的关系;若一个目标中文语句含有标记好的实体少于2,报错;若一个目标中文语句含有三个以上标记好的实体,报错;若有两个以上目标中文语句,则自动断句后按一个目标中文语句的步骤识别每个目标中文语句中实体之间的关系。
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明利用字向量的输入能避免中文分词造成的错误,为了全面捕获句子特征并解决实体一词多义的问题,构建了基于字向量输入同时捕获字特征、词特征与实体义项特征的网络框架,从多个层面去表征语义信息。本发明贴合实际,关注了文本输入细粒度对关系抽取有较大影响的事实,取得了较高的精度。
附图说明
图1是本发明提出的实体关系抽取模型***框架图。
图2是本发明中提出的实体关系抽取方法流程图。
图3是百度百科引入实体义项的流程图。
图4是Att-BLSTM网络的示意图。
图5是注意力机制示意图。
图6是学习字级的句子特征向量示意图。
图7是CNN网络示意图。
图8是学习词级的句子特征向量示意图。
图9是本发明提出的字特征与词特征的性能对比实验结果图。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于:利用Att-BLSTM 神经网络对输入的字向量矩阵学习字特征;同时以CNN网络对输入的字向量矩阵做卷积操作生成词向量,再利用Att-BLSTM神经网络学习词特征;引入实体义项,利用Att-BLSTM神经网络自动学习义项特征。同时融合了字特征、词特征和义项特征,丰富了输入的细粒度能充分表征语义信息,且字向量输入能避免中文分词错误带来的影响,引入实体义项能消除实体多义带来的歧义(见图1和图2)。步骤如下:
步骤1、语句预处理
1)从SanWen数据集中取出m个语句作为训练样本,m个语句覆盖SanWen数据集中的十种关系(见表1)。m个语句中,每个语句都已知关系标签且每个语句都有两个标记好的实体,所述m取17227。
表1
Figure RE-GDA0002482157530000091
2)在m个语句中,对每个语句中的每个字和标点符号都看作一个个体并依次排成行,得到以字为单位单独存在的序列Sj,m个语句的序列集合记为{S1,S2,…,Sm},j=1,2,…m,该序列集合用于建立字表。
3)对所述语句的序列集合,在所述个体前从1开始依次加上序号,重复出现的个体按已编序号标记,得到该序列集合的字表。对所述语句序列集合中的每个语句序列计算字长,统计获得最大字长,记为n,用于规定m个语句序列的字长。所述的规定是指m个语句序列中,字长小于n的用数字0补充到字长为n。
步骤2、获取语句对应的实体1义项和实体2义项
1)本发明创造性地提出引入实体义项到关系抽取任务中,为语句中的实体提供了额外的支撑信息,能帮助解决实体一词多义的问题。义项的定义是指词的理性意义的分项说明,一个词往往有多个意义,每个意义就是一个义项。
2)m个语句中,将每个语句中的实体1作为百科全书网站的搜索词条:若所述实体1的搜索词条在百科全书网站未被收录,把实体1本身当作该实体1对应的一个实体1义项;若所述实体1的搜索词条在百科全书网站被收录,利用网络爬虫技术获得该实体1对应的所有实体1义项,再分别计算每个语句和其对应的每个实体1义项的语义相似性,保留其中相似性最高的一个实体1义项(如图3所示)。m个语句中,每个语句的实体1对应一个实体1义项,m个语句中的m个实体1对应m个实体1义项。
3)对所述的m个实体1义项,每个实体1义项中的每个字和标点符号都看作一个个体并依次排成行,处理成以字为单位单独存在的序列Sense(e1)j,m个实体1义项的序列集合记为{Sense(e1)1,Sense(e1)2,…,Sense(e1)m},j=1,2,…m。对所述实体1义项的序列集合,在所述个体前从1开始依次加上序号,重复出现的个体按已编序号标记,得到该序列集合的字表。对所述实体1义项的序列集合,计算每个实体1义项序列的字长,统计获得最大字长,记为m1,用于规定m个实体1义项序列的字长。所述的规定是指m个实体1义项序列中,字长小于m1的用数字0补充到字长为m1
4)按照2)的方法,得到m个语句中,每个语句的实体2对应一个实体2义项,m个语句中的m个实体2对应m个实体2义项。
5)按照3)的方法,得到实体2义项的序列Sense(e2)j,m个实体2义项的序列集合记为{Sense(e2)1,Sense(e2)2,…,Sense(e2)m},j=1,2,…m;得到实体2义项序列集合的字表;得到实体2义项序列集合的最大字长,记为m2,用于规定m个实体2义项序列的字长。
步骤3、扩充三元组<语句,实体1义项,实体2义项>
在m个语句中,对每个语句的序列Sj,扩充为三元组<Sj,Sense(e1)j,Sense(e2)j>,其中Sj的字长为n,Sense(e1)j的字长为m1,Sense(e2)j的字长为m2
步骤4、对三元组中的三个序列均映射成字向量矩阵
对语句中的每个个体映射为低维向量,能避免分词错误问题。
1)对所述Sj映射成一个基本字向量矩阵,其每个字的基本字向量由字本身向量和距离向量拼接而成。所述拼接是指将指定向量的维度相加,合成一个向量;
所述字本身向量,我们使用Word2Vec方法将每个字映射成低维实数向量txi,向量维度为dw。其中,txi表示Sj中第i个字的字本身向量;dw表示该向量的维度。
所述距离向量是指将字到实体1的距离向量和字到实体2的距离向量。
我们定义pi 1和pi 2分别代表第i个字到实体1和实体2的相对距离。pi 1和pi 2计算方法相同,pi 1计算公式定义如下:
Figure RE-GDA0002482157530000111
其中,i表示第i个字的位置索引;b1表示实体1的初始位置索引;e1表示实体1的末尾位置索引。
得到第i个字到实体1和实体2的相对距离分别为pi 1和pi 2之后,用低维向量映射这两个数值,分别记为xi p1和xi p2,这两个向量维度均为dd。其中,xi p1表示第i个字到实体1的距离向量;xi p2表示第i个字到实体2的距离向量。
我们将所述字本身向量和两个距离向量拼接起来,得到第i个字的基本字向量,记为 vi=[txi;xi p1;xi p2],维度d=dw+2*dd。其中,txi表示Sj中第i个字的字本身向量;xi p1表示第i个字到实体1的距离向量;xi p2表示第i个字到实体2的距离向量;vi表示第i个字的基本字向量,是一个列向量维度为d。
对所述Sj,我们将其映射成一个基本字向量矩阵,记为Sjv=[v1,v2,…,vi,…,vn]T。其中,v1表示Sj中第1个字的基本字向量;vi表示Sj中第i个字的基本字向量;vn表示Sj中第n个字的基本字向量;T表示矩阵的转置,因为一个基本字向量是维度为d的列向量,因此矩阵经过转置后维度为n*d。
2)对所述Sense(e1)j映射成一个基本字向量矩阵,其每个字的基本字向量即字本身向量。
所述字本身向量,我们使用Word2Vec方法将每个字转换成低维实数向量sxi,向量维度记为dw。对所述Sense(e1)j,我们将其映射成一个基本字向量矩阵,记为Sense(e1) jv=[sx1,sx2,…,sxi,…,sxm1]T。其中,sx1表示Sense(e1)j中第1个字的字本身向量;sxi表示Sense (e1)j中第i个字的字本身向量;sxm1表示Sense(e1)j中第m1个字的字本身向量;T表示矩阵的转置,因为一个字向量是维度为dw的列向量,因此矩阵经过转置后维度为m1*dw
3)对所述Sense(e2)j映射成一个基本字向量矩阵,其每个字的基本字向量即字本身向量。
所述字本身向量,我们使用Word2Vec方法将每个字转换成低维实数向量vxi,向量维度记为dw。对所述Sense(e2)j,我们将其映射成一个基本字向量矩阵,记为Sense(e2) jv=[vx1,vx2,…,vxi,…,vxm2]T。其中,vx1表示Sense(e2)j中第1个字的字本身向量;vxi表示Sense (e2)j中第i个字的字本身向量;vxm2表示Sense(e2)j中第m2个字的字本身向量;T表示矩阵的转置,因为一个字向量是维度为dw的列向量,因此矩阵经过转置后维度为m2*dw
步骤5、对三元组中序列Sj,利用Att-BLSTM学习得到基于字的句子特征向量,记为hc *
1)所述的Att-BLSTM是指基于注意力机制的双向长短时记忆网络(如图4所示)。
利用现有的LSTM来学习长距离语义信息生成隐含特征向量,其具体计算公式如下所示:
Figure RE-GDA0002482157530000121
Figure RE-GDA0002482157530000122
Figure RE-GDA0002482157530000123
ct=itgt+ftct-1
Figure RE-GDA0002482157530000124
ht=ottanh(ct)
其中,xt表示t时刻LSTM的输入,ht-1表示对应前一时刻LSTM输出的隐含特征向量,ct-1表示对应前一时刻LSTM的细胞状态;it表示LSTM的输入门,Wxi,Whi,Wci是输入门对应的权重矩阵,bi是输入门对应的偏置参数,σ表示sigmoid函数;ft表示LSTM的遗忘门,Wxf,Whf,Wcf是遗忘门对应的权重矩阵,bf是遗忘门对应的偏置参数;Wxc,Whc,Wcc是候选门对应的权重矩阵,bc是候选门对应的偏置参数,tanh表示双曲正切函数,ct是当前的细胞状态;Wxo,Who,Wco是输出门对应的权重矩阵,bo是输出门对应的偏置参数,ht是t 时刻输出的隐含特征向量。
语句序列实际上是一个时间序列,对所述序列Sj的字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T,在第t(t=1,2,…,n)时刻,我们输入一个基本字向量vt到LSTM中从正向能得到这个字向量对应的隐含特征向量,即所述公式对应的ht。其中,vt对应于LSTM第t时刻的输入xt;ht表示第 t个字学习得到的隐含特征向量。
2)为了捕获序列过去和未来的语义信息,我们从正向和反向分别学习,得到字向量的正向隐含特征向量和反向隐含特征向量,分别记为
Figure RE-GDA0002482157530000125
Figure RE-GDA0002482157530000126
Figure RE-GDA0002482157530000127
Figure RE-GDA0002482157530000128
两个向量中的每个元素一一对应相加,得到一个双向隐含特征向量,记为
Figure RE-GDA0002482157530000129
所述的字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T经过BLSTM后得到每个字的双向隐含特征向量,记为
Figure RE-GDA00024821575300001210
其中,
Figure RE-GDA00024821575300001211
表示第 1个字的双向隐含特征向量;
Figure RE-GDA00024821575300001212
表示第i个字的双向隐含特征向量;
Figure RE-GDA00024821575300001213
表示第n个字的双向隐含特征向量。
3)在序列中,每个字对序列语义的重要程度是不同的,有的字起着关键性作用,而有的字几乎不起作用。所述注意力机制,能学习每个字对序列语义的重要程度,自动为每个字分配一个权重系数,来衡量该字的重要程度,所述注意力机制计算公式如下:
M=tanh(H)
α=softmax(ωTM)
r=HαT
h*=tanh(r)
其中,H表示BLSTM的输出,即所述的HSjv,该矩阵维度是da*n。其中,da表示双向隐含特征向量的维度,n表示字长;ω是一个随机初始化的向量,维度为da,ωT表示该向量的转置;α表示学习得到的权重向量,维数是n;r是对输入矩阵进行线性加权求和运算得到的特征向量,维度是da;h*是对r通过tanh函数运算获得的句子特征向量,维度是da
利用所述注意力机制(见图5),自动为HSjv中每个字的双向隐含特征向量分配一个权重系数,每个字的双向隐含特征向量结合对应分配的权重系数通过加权求和运算,得到基于字的句子特征向量,记为hc *(见图6)。
步骤6、对三元组中的序列Sj,先用CNN学习局部特征,再用Att-BLSTM学习得到基于词的句子特征向量,记为hw *
1)对所述序列Sj的字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T,先经过一个由权重向量
Figure RE-GDA0002482157530000132
参数化表示的滤波器(CNN)进行卷积操作(见图7)。
其中,ωk表示第k个滤波器;c×d表示滤波器的大小,d表示滤波器的长度,和字向量的维度一致,c表示滤波器的宽度。输入字向量矩阵Sv=[v1,v2,…,vi,…,vn]T,通过下列计算公式,可以得到第k个滤波器卷积层的输出:
hk=f(ωkvi:i+c-1+bk)
其中,vi:i+c-1表示vi…vi+c-1特征向量的级联;i=1,2,…,n-c+1,f表示ReLu激活函数;
Figure RE-GDA0002482157530000131
是有偏项,ωk和bk是训练过程中被学习的参数,并且对应一个k所有i=1,2,…,n-c+1 都将保持相同;hk表示第k个滤波器输出的词的局部特征向量,维度是n-c+1。
所述序列Sj的字向量矩阵每经过一个滤波器进行卷积操作,都能得到一个局部特征向量,记为hk,该向量表征的是句子中字与字之间的局部语义信息,认作是词的特征向量。每次卷积都因为各自滤波器学习的ωk和bk参数的不同而不同,能学到不同的语义信息。经过k 个不同的滤波器,我们能得到k个不同的局部特征向量,记为Hw=[h1,h2,…,hi,…,hk]。其中, h1表示第1个滤波器输出的词的特征向量;hi表示第i个滤波器输出的词的特征向量;hk表示第k个滤波器输出的词的特征向量。
2)对Hw=[h1,h2,…,hi,…,hk],我们再利用步骤5所述的Att-BLSTM学习词特征,得到基于词的句子特征向量,记为hw *,如图8所示。
步骤7、对三元组中的序列Sense(e1)j,利用Att-BLSTM学习得到基于字的实体1义项特征向量,记为he1 *;对三元组中的序列Sense(e2)j,利用Att-BLSTM学习得到基于字的实体2义项特征向量,记为he2 *
1)对所述实体1义项序列Sense(e1)j的字向量矩阵Sense(e1)jv=[sx1,sx2,…,sxi,…,sxm1]T,我们利用步骤5所述的Att-BLSTM学习实体1义项特征,得到基于字的实体1义项特征向量,记为he1 *
2)对所述实体2义项序列Sense(e2)j的字向量矩阵Sense(e2)jv=[vx1,vx2,…,vxi,…,vxm2]T,我们利用步骤5所述的Att-BLSTM学习实体2义项特征,得到基于字的实体2义项特征向量,记为he2 *
步骤8、特征融合
本发明创造性地构造步骤5-7三个模型来学习字特征、词特征和实体义项特征,多面表达了语义信息,丰富了输入细粒度,有效提高了关系抽取的准确度。
拼接所述基于字的句子特征向量hc *和基于词的句子特征向量hw *,得到语句语义信息的特征向量,记为hs *=[hc *;hw *]。拼接所述基于字的实体1义项特征向量he1 *和基于字的实体2 义项特征向量he2 *,得到实体语义信息的特征向量,记为he *=[he1 *;he2 *]。将拼接得到的语句语义信息的特征向量hs *输入到全连接网络的隐含层,得到新的语句特征向量os,将实体语义信息的特征向量he *输入到全连接网络的隐含层,新的义项特征向量oe,对os和oe加权求和得到最后的特征向量o,权重分别记为η和1-η;所述η取0.9。
步骤9、关系抽取
将所述最后的特征向量o,输入到softmax层,计算语句属于每一类的概率:
p(y)=softmax(o)
Figure RE-GDA0002482157530000141
其中,p(y)是指语句分为每一类的概率值;
Figure RE-GDA0002482157530000142
表示最大的概率值。对应于最大概率值的类别就是该关系抽取装置抽取得到的关系类别。
损失函数定义为真实类别标签和预测类别的交叉熵:
Figure RE-GDA0002482157530000143
其中,
Figure RE-GDA0002482157530000144
是真实标签的独热码表示,
Figure RE-GDA0002482157530000145
是每个类别通过关系抽取装置得到的估计概率;m表示类别总数,在SanWen数据集中共有10种关系类别;λ是L2正则化参数,θ代表模型中的所有参数。
本发明包括两个阶段:训练阶段和识别阶段:
按所述步骤1-9搭建关系抽取装置,随机初始化模型中所有参数。在模型的整个训练过程中,从m个三元组中,每次输入10个三元组<Sj,Sense(e1)j,Sense(e2)j>进行训练(即batch_size=10),所有三元组都完成一次训练记为一个训练过程,一共进行100个这样的训练过程(即epoch=100)。以模型的预测输出和真实关系标签的交叉熵作为损失函数,用随机梯度下降法不断训练模型进行参数更新。同时,为了防止过拟合,本发明还在训练过程中采用了dropout机制,在训练中每个神经元都有50%的概率被关闭(即每次训练都有随机一半的隐藏层节点不参与计算)。训练结束后,得到一个训练好的实体关系抽取装置。
在识别阶段,给定一个目标中文语句:若一个目标中文语句含有两个标记好的实体,则直接识别出该目标中文语句中实体之间的关系;若一个目标中文语句含有标记好的实体少于2,报错;若一个目标中文语句含有三个以上标记好的实体,报错。若有两个以上目标中文语句,则自动断句后按一个目标中文语句的步骤识别每个目标中文语句中实体之间的关系。
本发明提出的关系抽取装置,能从句子的字层面和词层面上学习不同的语义信息,同时加入的实体义项对句子中实体的语义添加了额外的支撑信息,通过构建不同的网络去学习得到字特征、词特征和义项特征,丰富了输入细粒度,避免了分词错误问题且解决了一词多义的分期问题,提高了关系抽取的准确度。
所述关系抽取装置,输入一个标记两个实体的中文语句,能识别出实体之间的关系。对实体和关系建立三元组<实体1,关系,实体2>,可用于构建知识图谱,被应用在搜索***中。
实施例1
本实施例,在关系抽取装置中研究了同时学习字特征和词特征的模型性能,分别与只学习字特征的模型、只学习词特征的模型进行了实验,并对比三者之间的结果。其中,同时学习字特征和词特征模型的实验过程根据发明内容中的相关步骤进行,三者对比的效果如表2 和图9所示。
从表2和图9中可以看出,只学习字特征的模型效果比只学习词特征的模型抽取效果要好,而我们提出同时学习字特征和词特征的模型相比只学习单个特征的模型抽取效果要好。因为在中文语句中,词语能表示一个语句的语法结构和句法结构,我们建立模型同时学习字特征和词特征,能够更全面地学习到语句的语义信息,进一步提高关系抽取的准确率。表2 中F1值越高说明实体关系抽取效果越好;图9中曲线越高,即与两个坐标轴包含的面积越大说明实体关系抽取效果越好。
表2
Figure RE-GDA0002482157530000151
Figure RE-GDA0002482157530000161
实施例2
本实施例,在字特征学习的关系抽取装置中添加了实体义项的模型,对有无实体义项进行了实验,对比说明引入实体义项的效果。同时,将本发明提出的基于实体义项的字和词特征融合的关系抽取装置,分别与同时学习字和词特征的模型、同时学习字和义项特征的模型也进行了对比。其中,本发明提出的基于实体义项的字和词特征融合的实验过程根据发明内容中的具体步骤进行。对比的效果如表3所示。
从表3可以看出,我们引入实体义项,相比于没有引入实体义项的模型效果要好,说明实体义项的引入对实体关系抽取有帮助,能提高实体关系抽取的性能。同时本发明提出的基于实体义项的字和词特征融合的实体关系抽取性能最好,说明输入细粒度对实体关系抽取的重要性,学习字特征、词特征、实体义项特征,将特征融合能有效表达语句的语义信息。
表3
Figure RE-GDA0002482157530000162

Claims (10)

1.基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征是包括以下步骤:
A、训练;
步骤1、语句预处理;
取SanWen数据集中的m个语句作为训练样本,m个语句覆盖SanWen数据集中的十种关系;
将m个语句中的每个语句处理成以字为单位单独存在的序列Sj,j=1,2,…m;处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行;m个语句的序列集合记为{S1,S2,…,Sm};
对m个语句的序列集合,从第一个语句的第一个字开始,在所述个体前从1开始依次加上序号;重复出现的个体不需要重复给序号,该个体按已编序号标记;
对所述m个语句的序列集合,计算每个语句序列的字长,统计获得最大字长,记为n,用于规定m个语句序列的字长;所述规定是指m个语句序列中,字长小于n的序列用数字0补充到字长为n;
步骤2、获取语句对应的实体1义项和实体2义项;
m个语句中,将每个语句中的实体1作为百科全书网站的搜索词条;
1)若所述实体1的搜索词条在百科全书网站未被收录,把实体1本身当作该实体1对应的一个实体1义项;
2)若所述实体1的搜索词条在百科全书网站被收录,利用网络爬虫技术获得该实体1对应的所有实体1义项;
分别计算每个语句和其对应的每个实体1义项的语义相似性,保留其中相似性最高的一个实体1义项;
m个语句中,每个语句的实体1对应一个实体1义项,该对应的实体1义项是相似性最高的一个实体1义项或者是实体1本身;
对每个语句中实体1对应的一个实体1义项处理成以字为单位单独存在的序列Sense(e1)j,j=1,2,…m;处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行;m个语句中的m个实体1对应m个实体1义项序列集合,记为{Sense(e1)1,Sense(e1)2,…,Sense(e1)m};
对m个实体1义项的序列集合,从第一个实体1义项的第一个字开始,在所述个体前从1开始依次加上序号,重复出现的个体不需要重复给序号,该个体按已编序号标记;
对所述m个实体1义项序列集合,计算每个实体1义项序列的字长,统计获得最大字长,记为m1,用于规定m个实体1义项序列的字长;所述规定是指m个实体1义项序列中,字长小于m1的实体1义项序列用数字0补充到字长为m1
按照实体1的方式,获得每个语句中实体2对应的一个实体2义项,该对应的实体2义项是相似性最高的一个实体2义项或者是实体2本身;
按照实体1的方式,对每个语句实体2对应的一个实体2义项处理成以字为单位单独存在的序列Sense(e2)j,j=1,2,…m;m个语句中的m个实体2对应m个实体2义项序列集合,记为{Sense(e2)1,Sense(e2)2,…,Sense(e2)m};
对m个实体2义项的序列集合,从第一个实体2义项的第一个字开始,在所述个体前从1开始依次加上序号,重复出现的个体不需要重复给序号,该个体按已编序号标记;
按照实体1的方式,获得m个实体2义项序列集合的最大字长,记为m2,用于规定m个实体2义项序列的字长;所述规定是指m个实体2义项序列中,字长小于m2的实体2义项序列用数字0补充到字长为m2
步骤3、扩充三元组<语句,实体1义项,实体2义项>;
对每个语句的序列Sj,扩充为三元组<Sj,Sense(e1)j,Sense(e2)j>;
步骤4、对三元组中的三个序列均映射成字向量矩阵;
所述Sj中的字向量矩阵由字本身向量和距离向量拼接而成,Sense(e1)j中的字向量矩阵即字本身向量,Sense(e2)j中的字向量矩阵即字本身向量;
所述距离向量是指字到实体1的距离向量和字到实体2的距离向量;
所述拼接是指将指定向量的维度相加,合成一个向量;
步骤5、对三元组中的序列Sj,利用Att-BLSTM学习得到基于字的句子特征向量,记为hc *
步骤6、对三元组中的序列Sj,先用CNN学习局部特征,再用Att-BLSTM学习得到基于词的句子特征向量,记为hw *
利用CNN学习Sj的字向量矩阵得到局部特征向量,该局部特征向量表征的是句子中字与字之间的语义信息,认作是词的特征;
步骤7、对三元组中的序列Sense(e1)j,利用Att-BLSTM学习得到基于字的实体1义项特征向量,记为he1 *;对三元组中的序列Sense(e2)j,利用Att-BLSTM学习得到基于字的实体2义项特征向量,记为he2 *
步骤8、特征融合;
拼接所述基于字的句子特征向量和基于词的句子特征向量,得到语句语义信息的特征向量,记为hs *
hs *=[hc *;hw *];
拼接所述基于字的实体1义项特征向量和基于字的实体2义项特征向量,得到实体语义信息的特征向量,记为he *
he *=[he1 *;he2 *]
将所述hs *输入到全连接网络的隐含层,得到新的语句特征向量os
将所述he *输入到全连接网络的隐含层,得到新的义项特征向量oe
对os和oe加权求和得到最后的特征向量o,权重分别为η和1-η;
步骤9、关系抽取;
将所述最后的特征向量o输入到softmax层,得到它属于每一类的概率值,对应于最大概率值的类别即关系抽取结果;
B、输入目标中文语句,关系识别;
1)若一个目标中文语句含有两个标记好的实体,识别出该目标中文语句中实体之间的关系;
2)若一个目标中文语句含有标记好的实体少于2,报错;
3)若一个目标中文语句含有三个以上标记好的实体,报错;
若有两个以上目标中文语句,则自动断句后按上述步骤1)-3)识别每个目标中文语句中实体之间的关系。
2.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤1包括:
所述m为17227,是SanWen数据集中的所有训练样本。
3.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤2包括:
计算所述语义相似性是指利用余弦相似度算法计算相似性;
所述余弦相似度算法是指用Word2Vec方法将语句序列Sj中的每个字映射成一个字向量,对该序列中所有字的字向量对应元素相加再除以字向量总数得到序列Sj的向量;按上述方式得到实体1序列Sense(e1)j的向量;计算一个向量空间中两个向量夹角间的余弦值作为衡量两个序列之间差异的大小,余弦值接近1,夹角趋于0,表明两个序列越相似,余弦值接近于0,夹角趋于90度,表明两个序列越不相似。
4.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤4包括:
1)对所述Sj映射成一个基本字向量矩阵,其每个字的基本字向量由字本身向量和距离向量拼接而成;所述拼接是指将指定向量的维度相加,合成一个向量;
所述字本身向量,我们利用Word2Vec方法将每个字映射成低维实数向量txi,向量维度为dw;其中,txi表示Sj中第i个字的字本身向量;dw表示该向量的维度;
所述距离向量是指字到实体1的距离向量和字到实体2的距离向量;
我们把第i个字到实体1的距离定义为pi 1,第i个字到实体2的距离定义为pi 2;pi 1和pi 2计算方法相同,pi 1计算公式定义如下:
Figure FDA0003184806550000041
其中,i表示第i个字的位置索引,b1表示实体1的初始位置索引,e1表示实体1的末尾位置索引;
将计算得到的pi 1和pi 2映射成低维向量,分别记为xi p1和xi p2,这两个向量维度均为dd;其中,xi p1表示第i个字到实体1的距离向量;xi p2表示第i个字到实体2的距离向量;
拼接所述字本身向量和距离向量,得到第i个字的基本字向量,记为vi=[txi;xi p1;xi p2],维度d=dw+2*dd;对所述Sj,我们将其映射成一个基本字向量矩阵,记为Sjv=[v1,v2,…,vi,…,vn]T;其中,v1表示Sj中第1个字的基本字向量;vi表示Sj中第i个字的基本字向量;vn表示Sj中第n个字的基本字向量;T表示矩阵的转置,因为一个基本字向量是维度为d的列向量,因此矩阵经过转置后维度为n*d;
2)对所述Sense(e1)j映射成一个基本字向量矩阵,其每个字的基本字向量即字本身向量;
按照1)所述字本身向量,对所述Sense(e1)j,我们将其映射成一个基本字向量矩阵,记为Sense(e1)jv=[sx1,sx2,…,sxi,…,sxm1]T;其中,sx1表示Sense(e1)j中第1个字的基本字向量;sxi表示Sense(e1)j中第i个字的基本字向量;sxm1表示Sense(e1)j中第m1个字的基本字向量;T表示矩阵的转置,因为一个字向量是维度为dw的列向量,因此矩阵经过转置后维度为m1*dw
3)对所述Sense(e2)j映射成一个基本字向量矩阵,其每个字的基本字向量即字本身向量;
按照1)所述字本身向量,对所述Sense(e2)j,我们将其映射成一个基本字向量矩阵,记为Sense(e2)jv=[vx1,vx2,…,vxi,…,vxm2]T;其中,vx1表示Sense(e2)j中第1个字的基本字向量;vxi表示Sense(e2)j中第i个字的基本字向量;vxm2表示Sense(e2)j中第m2个字的基本字向量;T表示矩阵的转置,因为一个基本字向量是维度为dw的列向量,因此矩阵经过转置后维度为m2*dw
5.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤5包括:
1)对所述Sj的基本字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T,我们利用Att-BLSTM学习字特征;所述的Att-BLSTM是指基于注意力机制的双向长短时记忆网络;
在第t(t=1,2,…,n)时刻,我们输入一个基本字向量vt到BLSTM中,从正向和反向学习这个字向量,得到其正向隐含特征向量和反向隐含特征向量,分别记为
Figure FDA0003184806550000051
Figure FDA0003184806550000052
Figure FDA0003184806550000053
Figure FDA0003184806550000054
两个隐含特征向量中的每个元素一一对应相加,得到一个双向隐含特征向量,记为
Figure FDA0003184806550000055
所述的字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T经过BLSTM后得到每个字的双向隐含特征向量,记为
Figure FDA0003184806550000056
其中,
Figure FDA0003184806550000057
表示第1个字的双向隐含特征向量;
Figure FDA0003184806550000058
表示第i个字的双向隐含特征向量;
Figure FDA0003184806550000059
表示第n个字的双向隐含特征向量;
2)所述注意力机制,自动为HSjv中每个字的双向隐含特征向量分配一个权重系数,每个字的双向隐含特征向量结合对应分配的权重系数通过加权求和运算,得到基于字的句子特征向量,记为hc *
6.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤6包括:
1)对所述Sj的基本字向量矩阵Sjv=[v1,v2,…,vi,…,vn]T,我们利用CNN对其进行学习,得到局部特征向量,该向量表征的是句子中字与字之间的语义信息,认作是词的特征;经过k个不同的CNN能得到k个不同的局部特征向量,记为Hw=[h1,h2,…,hi,…,hk];其中,h1表示第1个CNN得到的词的特征;hi表示第i个CNN得到的词的特征;hk表示第k个CNN得到的词的特征;
2)对Hw=[h1,h2,…,hi,…,hk],我们利用步骤5所述的Att-BLSTM学习词特征,得到基于词的句子特征向量,记为hw *
7.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法,其特征在于,所述步骤7包括:
1)对所述Sense(e1)j的字向量矩阵Sense(e1)jv=[sx1,sx2,…,sxi,…,sxm1]T,利用步骤5所述的Att-BLSTM学习实体1义项特征,得到基于字的实体1义项特征向量,记为he1 *
2)对所述Sense(e2)j的字向量矩阵Sense(e2)jv=[vx1,vx2,…,vxi,…,vxm2]T,利用步骤5所述的Att-BLSTM学习实体2义项特征,得到基于字的实体2义项特征向量,记为he2 *
8.根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法,其特征在于,所述步骤8包括:
所述权重η取0.9,是经过训练不断调整得到的一个超参数。
9.根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法,其特征在于,所述训练包括:
按照所述步骤1-9搭建一个关系抽取装置,随机初始化模型中所有参数;在模型的整个训练过程中,从m个三元组中,每次输入10个三元组<Sj,Sense(e1)j,Sense(e2)j>进行训练,所有三元组都完成一次训练记为一个训练过程,一共进行100个这样的训练过程;以模型的预测输出和真实关系标签的交叉熵作为损失函数,用随机梯度下降法不断训练模型进行参数更新;同时,为了防止过拟合,还在训练过程中采用了dropout机制,在训练中每个神经元都有50%的概率被关闭(即每次训练都有随机一半的隐藏层节点不参与计算);训练结束后,得到一个训练好的实体关系抽取装置。
10.根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法,其特征在于,所述输入目标中文语句,关系识别包括:
给定一个目标中文语句:若一个目标中文语句含有两个标记好的实体,则直接识别出该目标中文语句中实体之间的关系;若一个目标中文语句含有标记好的实体少于2,报错;若一个目标中文语句含有三个以上标记好的实体,报错;若有两个以上目标中文语句,则自动断句后按一个目标中文语句的步骤识别每个目标中文语句中实体之间的关系。
CN201911298675.8A 2019-12-17 2019-12-17 基于实体义项的字和词特征融合的中文实体关系抽取方法 Active CN111291556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911298675.8A CN111291556B (zh) 2019-12-17 2019-12-17 基于实体义项的字和词特征融合的中文实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911298675.8A CN111291556B (zh) 2019-12-17 2019-12-17 基于实体义项的字和词特征融合的中文实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN111291556A CN111291556A (zh) 2020-06-16
CN111291556B true CN111291556B (zh) 2021-10-26

Family

ID=71021179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911298675.8A Active CN111291556B (zh) 2019-12-17 2019-12-17 基于实体义项的字和词特征融合的中文实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN111291556B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100346B (zh) * 2020-08-28 2021-07-20 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112364666B (zh) * 2020-11-12 2023-12-08 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112800756B (zh) * 2020-11-25 2022-05-10 重庆邮电大学 一种基于prado的实体识别方法
CN112818683A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法
CN113392648B (zh) * 2021-06-02 2022-10-18 北京三快在线科技有限公司 实体关系获取方法及装置
CN113609846B (zh) * 2021-08-06 2022-10-04 首都师范大学 一种语句中实体关系的抽取方法及装置
CN113468344B (zh) * 2021-09-01 2021-11-30 北京德风新征程科技有限公司 实体关系抽取方法、装置、电子设备和计算机可读介质
CN117610579B (zh) * 2024-01-19 2024-04-16 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107194422A (zh) * 2017-06-19 2017-09-22 中国人民解放军国防科学技术大学 一种结合正反向实例的卷积神经网络关系分类方法
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现***
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107194422A (zh) * 2017-06-19 2017-09-22 中国人民解放军国防科学技术大学 一种结合正反向实例的卷积神经网络关系分类方法
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现***
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention-Based Bidirectional Long Short-Term Memory Networks for;Peng Zhou 等;《Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics》;20160812;207-212 *
Combining Word-Level and Character-Level Representations for;Dongyun Liang 等;《Proceedings of the 2nd Workshop on Representation Learning for NLP》;20170803;43-47 *

Also Published As

Publication number Publication date
CN111291556A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN109992783B (zh) 中文词向量建模方法
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和***
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN111931506A (zh) 一种基于图信息增强的实体关系抽取方法
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
Li et al. Multi-modal gated recurrent units for image description
CN114254645A (zh) 一种人工智能辅助写作***
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
Li et al. Multimodal fusion with co-attention mechanism
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN116720519B (zh) 一种苗医药命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant