CN111291556B

CN111291556B - 基于实体义项的字和词特征融合的中文实体关系抽取方法

Info

Publication number: CN111291556B
Application number: CN201911298675.8A
Authority: CN
Inventors: 郝矿荣; 张江英; 唐雪嵩; 蔡欣; 陈磊; 王彤
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2021-10-26
Anticipated expiration: 2039-12-17
Also published as: CN111291556A

Abstract

本发明涉及一种基于实体义项的字和词特征融合的中文实体关系抽取方法。该方法引入实体义项将语句扩充为三元组<语句，实体1义项，实体2义项>，丰富了输入细粒度，对三元组中的三个序列分别映射成字向量矩阵。对三元组中的语句，并行输入到两个模型，一个基于注意力机制的双向长短时记忆网络(Att‑BLSTM)学习字特征，另一个先通过卷积神经网络(CNN)学习局部特征，再通过Att‑BLSTM学习词特征。分别利用Att‑BLSTM学习基于字的实体1义项特征和基于字的实体2义项特征。将所述四种特征融合成一个可全面表征语义信息的特征，用于关系抽取。该方法能避免分词错误且解决一词多义问题，有效提高中文实体关系抽取的准确率，可广泛应用于构建知识图谱。

Description

基于实体义项的字和词特征融合的中文实体关系抽取方法

技术领域

本发明属技术领域，涉及一种基于实体义项的字和词特征融合的中文实体关系抽取方法。

背景技术

随着网络技术的发展，以文字、图像等形式为依托的信息化时代强势到来，从大量的非结构化文本数据中获取有用信息尤为重要。实体关系抽取的主要目的是在实体识别的基础上确定无结构文本中实体对之间的关系类别，并形成结构化的数据以便存储和取用。例如，对于一个样本“[幽兰]_e1在[山谷]_e2,本自无人识。”，带有两个标记的实体“幽兰”和“山谷”，关系抽取的任务就是通过机器学习得到样本的语义信息，去完成实体对之间关系的识别，形成结构化的三元组形式<幽兰，Located，山谷>，用于构建大规模的知识图谱。知识图谱是由概念、实体、实体属性及实体关系组成的语义网络，是对真实世界结构化的表示，被广泛应用于搜索***中。对于中文而言，语义关系更加复杂，实体关系抽取的作用也就愈加显著。因此，研究对中文实体关系抽取极为必要。

传统的关系抽取主要包括基于特征的抽取方法和基于核函数的抽取方法。基于特征的方法顾名思义就是挖掘大量的词汇、句法和语义特征，而后通过选择合适的装置来识别文本中实体间的关系。而基于核函数的方法就是在核函数设计上付出努力，而这些通常都是需要基于依赖关系结构。尽管这两种方法都在一定程度上被证明具有良好的性能，但是特征提取和核函数设计的操作都过度依赖于NLP工具的输出，这不可避免地会引入一些错误并降低模型性能。

近几年来，深度学习在关系抽取上进行了较多应用，Zeng等人率先提出将卷积神经网络 (CNN)应用于语义学习，深度学习的研究自此进入到白热化阶段。但由于中文数据集的缺失，中文实体关系抽取研究并不多，现有的中文实体关系抽取方法主要是在词向量矩阵的输入下，对模型进行改进实现，这样的模型过度依赖于分词质量。目前存在的主流网络框架有：多尺度的卷积神经网络(Multi-scale CNN)、双向长短时记忆网络(BLSTM)和改进的GRU 网络等，同时，注意力机制也被广泛应用其中，并取得了一定的效果。但是，这些方法只关注模型本身的改进，而忽略了不同的输入细粒度将对关系抽取模型产生重大影响的事实。基于字的模型无法利用词的信息，因此捕获的特征少于基于词的模型，且同时基于词的模型性能又过分依赖于分词质量。目前，在其他自然语言处理任务中已经提出一些方法来组合字和词的信息，例如Tai等人提出了一个树状的LSTM模型来改进语义表示，并被广泛应用于人类动作识别、语音标记等各种任务中。除了中文文本的字、词特征表示不全面以外，中文词语的多义性歧义仍然会严重影响关系抽取的任务。换句话说，随着语言环境的变化，上述抽取方法都无法处理词的多义性。因此，本发明提出引入实体义项作为外部语言知识，来支撑语句中实体的语义信息，帮助解决实体一词多义的问题，同时通过对输入的字向量矩阵构造不同的网络分别学习字特征和词特征，丰富了输入细粒度。

发明内容

本发明的目的是：针对北京大学提出的SanWen数据集，为了降低现有的实体关系抽取模型对分词质量的依赖性和提高模型正确识别实体语义信息的性能，以字向量矩阵做输入，同时引入实体义项丰富输入细粒度，从多个层面表达语句的语义信息，构建一个可同时学习字特征、词特征和实体义项特征的关系抽取装置。

为实现上述目的，本发明采取的技术方案如下所述：

基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征是包括以下步骤：

A、训练；

步骤1、语句预处理；

取SanWen数据集中的m个语句作为训练样本，m个语句覆盖SanWen数据集中的十种关系；

将m个语句中的每个语句处理成以字为单位单独存在的序列S_j，j＝1,2,…m；处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行；m个语句的序列集合记为{S₁,S₂,…,S_m}；

对m个语句的序列集合，从第一个语句的第一个字开始，在所述个体前从1开始依次加上序号；重复出现的个体不需要重复给序号，该个体按已编序号标记；

对所述m个语句的序列集合，计算每个语句序列的字长，统计获得最大字长，记为n，用于规定m个语句序列的字长；所述规定是指m个语句序列中，字长小于n的序列用数字0补充到字长为n；

步骤2、获取语句对应的实体1义项和实体2义项；

m个语句中，将每个语句中的实体1作为百科全书网站的搜索词条；

1)若所述实体1的搜索词条在百科全书网站未被收录，把实体1本身当作该实体1对应的一个实体1义项；

2)若所述实体1的搜索词条在百科全书网站被收录，利用网络爬虫技术获得该实体 1对应的所有实体1义项；

分别计算每个语句和其对应的每个实体1义项的语义相似性，保留其中相似性最高的一个实体1义项；

m个语句中，每个语句的实体1对应一个实体1义项，该对应的实体1义项是相似性最高的一个实体1义项或者是实体1本身；

对每个语句中实体1对应的一个实体1义项处理成以字为单位单独存在的序列Sense (e₁)_j，j＝1,2,…m；处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行；m个语句中的m个实体1对应m个实体1义项序列集合，记为{Sense(e₁)₁,Sense(e₁)₂,…,Sense(e₁)_m}；

对m个实体1义项的序列集合，从第一个实体1义项的第一个字开始，在所述个体前从1开始依次加上序号，重复出现的个体不需要重复给序号，该个体按已编序号标记；

对所述m个实体1义项序列集合，计算每个实体1义项序列的字长，统计获得最大字长，记为m₁，用于规定m个实体1义项序列的字长；所述规定是指m个实体1义项序列中，字长小于m₁的实体1义项序列用数字0补充到字长为m₁；

按照实体1的方式，获得每个语句中实体2对应的一个实体2义项，该对应的实体2义项是相似性最高的一个实体2义项或者是实体2本身；

按照实体1的方式，对每个语句实体2对应的一个实体2义项处理成以字为单位单独存在的序列Sense(e₂)_j，j＝1,2,…m；m个语句中的m个实体2对应m个实体2义项序列集合，记为{Sense(e₂)₁,Sense(e₂)₂,…,Sense(e₂)_m}；

对m个实体2义项的序列集合，从第一个实体2义项的第一个字开始，在所述个体前从1开始依次加上序号，重复出现的个体不需要重复给序号，该个体按已编序号标记；

按照实体1的方式，获得m个实体2义项序列集合的最大字长，记为m₂，用于规定m个实体2义项序列的字长；所述规定是指m个实体2义项序列中，字长小于m₂的实体2义项序列用数字0补充到字长为m₂；

步骤3、扩充三元组<语句，实体1义项，实体2义项>；

对每个语句的序列S_j，扩充为三元组<S_j，Sense(e₁)_j，Sense(e₂)_j>；

步骤4、对三元组中的三个序列均映射成字向量矩阵；

所述S_j中的字向量矩阵由字本身向量和距离向量拼接而成，Sense(e₁)_j中的字向量矩阵即字本身向量，Sense(e₂)_j中的字向量矩阵即字本身向量；

所述距离向量是指字到实体1的距离向量和字到实体2的距离向量；

所述拼接是指将指定向量的维度相加，合成一个向量；

步骤5、对三元组中的序列S_j，利用Att-BLSTM学习得到基于字的句子特征向量，记为 h_c ^*；

步骤6、对三元组中的序列S_j，先用CNN学习局部特征，再用Att-BLSTM学习得到基于词的句子特征向量，记为h_w ^*；

利用CNN学习S_j的字向量矩阵得到局部特征向量，该局部特征向量表征的是句子中字与字之间的语义信息，认作是词的特征；

步骤7、对三元组中的序列Sense(e₁)_j，利用Att-BLSTM学习得到基于字的实体1义项特征向量，记为h_e1 ^*；对三元组中的序列Sense(e₂)_j，利用Att-BLSTM学习得到基于字的实体2义项特征向量，记为h_e2 ^*；

步骤8、特征融合；

拼接所述基于字的句子特征向量和基于词的句子特征向量，得到语句语义信息的特征向量，记为h_s ^*：

h_s ^*＝[h_c ^*；h_w ^*]；

拼接所述基于字的实体1义项特征向量和基于字的实体2义项特征向量，得到实体语义信息的特征向量，记为h_e ^*：

h_e ^*＝[h_e1 ^*；h_e2 ^*]

将所述h_s ^*输入到全连接网络的隐含层，得到新的语句特征向量o_s；

将所述h_e ^*输入到全连接网络的隐含层，得到新的义项特征向量o_e；

对o_s和o_e加权求和得到最后的特征向量o，权重分别为η和_1-η。

步骤9、关系抽取；

将所述最后的特征向量o输入到softmax层，得到它属于每一类的概率值，对应于最大概率值的类别即关系抽取结果；

B、输入目标中文语句，关系识别；

1)若一个目标中文语句含有两个标记好的实体，识别出该目标中文语句中实体之间的关系；

2)若一个目标中文语句含有标记好的实体少于2，报错；

3)若一个目标中文语句含有三个以上标记好的实体，报错；

若有两个以上目标中文语句，则自动断句后按上述步骤1)-3)识别每个目标中文语句中实体之间的关系。

根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤1包括：

所述m为17227，是SanWen数据集中的所有训练样本。

根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤2包括：

所述计算语义相似性是指利用余弦相似度算法计算相似性；

所述余弦相似度算法是指用Word2Vec方法将语句序列S_j中的每个字映射成一个字向量，对该序列中所有字的字向量对应元素相加再除以字向量总数得到序列S_j的向量；按上述方式得到实体1序列Sense(e₁)_j的向量；计算一个向量空间中两个向量夹角间的余弦值作为衡量两个序列之间差异的大小，余弦值接近1，夹角趋于0，表明两个序列越相似，余弦值接近于0，夹角趋于90度，表明两个序列越不相似。

根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤4包括：

1)对所述S_j映射成一个基本字向量矩阵，其每个字的基本字向量由字本身向量和距离向量拼接而成；所述拼接是指将指定向量的维度相加，合成一个向量；

所述字本身向量，我们利用Word2Vec方法将每个字映射成低维实数向量tx_i，向量维度为d^w。其中，tx_i表示S_j中第i个字的字本身向量；d^w表示该向量的维度。

所述距离向量是指字到实体1的距离向量和字到实体2的距离向量。

我们把第i个字到实体1的距离定义为p_i ¹，第i个字到实体2的距离定义为p_i ²。p_i ¹和p_i ²计算方法相同，p_i ¹计算公式定义如下：

其中，i表示第i个字的位置索引，b¹表示实体1的初始位置索引，e¹表示实体1的末尾位置索引。

将计算得到的p_i ¹和p_i ²映射成低维向量，分别记为x_i ^p1和x_i ^p2，这两个向量维度均为d^d。其中，x_i ^p1表示第i个字到实体1的距离向量；x_i ^p2表示第i个字到实体2的距离向量。

拼接所述字本身向量和距离向量，得到第i个字的基本字向量，记为v_i＝[tx_i；x_i ^p1；x_i ^p2]，维度d＝d^w+2*d^d。对所述S_j，我们将其映射成一个基本字向量矩阵，记为 S_jv＝[v₁,v₂,…,v_i,…,v_n]^T。其中，v₁表示S_j中第1个字的基本字向量；v_i表示S_j中第i个字的基本字向量；v_n表示S_j中第n个字的基本字向量；T表示矩阵的转置，因为一个基本字向量是维度为d的列向量，因此矩阵经过转置后维度为n*d。

2)对所述Sense(e₁)_j映射成一个基本字向量矩阵，其每个字的基本字向量即字本身向量。

按照1)所述字本身向量，对所述Sense(e₁)_j，我们将其映射成一个基本字向量矩阵，记为Sense(e₁)_jv＝[sx₁,sx₂,…,sx_i,…,sx_m1]^T。其中，sx₁表示Sense(e₁)_j中第1个字的基本字向量；sx_i表示Sense(e₁)_j中第i个字的基本字向量；sx_m1表示Sense(e₁)_j中第m₁个字的基本字向量；T表示矩阵的转置，因为一个字向量是维度为d^w的列向量，因此矩阵经过转置后维度为m₁*d^w。

3)对所述Sense(e₂)_j映射成一个基本字向量矩阵，其每个字的基本字向量即字本身向量。

按照1)所述字本身向量，对所述Sense(e₂)_j，我们将其映射成一个基本字向量矩阵，记为Sense(e₂)_jv＝[vx₁,vx₂,…,vx_i,…,vx_m2]^T。其中，vx₁表示Sense(e₂)_j中第1个字的基本字向量；vx_i表示Sense(e₂)_j中第i个字的基本字向量；vx_m2表示Sense(e₂)_j中第m₂个字的基本字向量；T表示矩阵的转置，因为一个基本字向量是维度为d^w的列向量，因此矩阵经过转置后维度为m₂*d^w。

根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤5包括：

1)对所述S_j的基本字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T，我们利用Att-BLSTM学习字特征。所述的Att-BLSTM是指基于注意力机制的双向长短时记忆网络。

在第t(t＝1,2,…,n)时刻，我们输入一个基本字向量v_t到BLSTM中，从正向和反向学习这个字向量，得到其正向隐含特征向量和反向隐含特征向量，分别记为

和

对

和

两个隐含特征向量中的每个元素一一对应相加，得到一个双向隐含特征向量，记为

所述的字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T经过BLSTM后得到每个字的双向隐含特征向量，记为

其中，

表示第1个字的双向隐含特征向量；

表示第i个字的双向隐含特征向量；

表示第n个字的双向隐含特征向量。

2)所述注意力机制，自动为H_Sjv中每个字的双向隐含特征向量分配一个权重系数，每个字的双向隐含特征向量结合对应分配的权重系数通过加权求和运算，得到基于字的句子特征向量，记为h_c ^*。

根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤6包括：

1)对所述S_j的基本字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T，我们利用CNN对其进行学习，得到局部特征向量，该向量表征的是句子中字与字之间的语义信息，认作是词的特征。经过k 个不同的CNN能得到k个不同的局部特征向量，记为H^w＝[h¹,h²,…,hⁱ,…,h^k]。其中，h¹表示第1个CNN得到的词的特征；hⁱ表示第i个CNN得到的词的特征；h^k表示第k个CNN得到的词的特征。

2)对H^w＝[h¹,h²,…,hⁱ,…,h^k]，我们利用步骤5所述的Att-BLSTM学习词特征，得到基于词的句子特征向量，记为h_w ^*

根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤7包括：

1)对所述Sense(e₁)_j的字向量矩阵Sense(e₁)_jv＝[sx₁,sx₂,…,sx_i,…,sx_m1]^T，利用步骤5 所述的Att-BLSTM学习实体1义项特征，得到基于字的实体1义项特征向量，记为h_e1 ^*。

2)对所述Sense(e₂)_j的字向量矩阵Sense(e₂)_jv＝[vx₁,vx₂,…,vx_i,…,vx_m2]^T，利用步骤5 所述的Att-BLSTM学习实体2义项特征，得到基于字的实体2义项特征向量，记为h_e2 ^*。

根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法，其特征在于，所述步骤8包括：

所述权重η取0.9，是经过训练不断调整得到的一个超参数。

根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法，其特征在于，所述训练包括：

按照所述步骤1-9搭建一个关系抽取装置，随机初始化模型中所有参数。在模型的整个训练过程中，从m个三元组中，每次输入10个三元组<S_j，Sense(e₁)_j，Sense(e₂)_j>进行训练(即batch_size＝10)，所有三元组都完成一次训练记为一个训练过程，一共进行100个这样的训练过程(即epoch＝100)；以模型的预测输出和真实关系标签的交叉熵作为损失函数，用随机梯度下降法不断训练模型进行参数更新；同时，为了防止过拟合，还在训练过程中采用了dropout机制，在训练中每个神经元都有50％的概率被关闭(即每次训练都有随机一半的隐藏层节点不参与计算)；训练结束后，得到一个训练好的实体关系抽取装置。

根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法，其特征在于，所述输入目标中文语句，关系识别包括：

给定一个目标中文语句：若一个目标中文语句含有两个标记好的实体，则直接识别出该目标中文语句中实体之间的关系；若一个目标中文语句含有标记好的实体少于2，报错；若一个目标中文语句含有三个以上标记好的实体，报错；若有两个以上目标中文语句，则自动断句后按一个目标中文语句的步骤识别每个目标中文语句中实体之间的关系。

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明利用字向量的输入能避免中文分词造成的错误，为了全面捕获句子特征并解决实体一词多义的问题，构建了基于字向量输入同时捕获字特征、词特征与实体义项特征的网络框架，从多个层面去表征语义信息。本发明贴合实际，关注了文本输入细粒度对关系抽取有较大影响的事实，取得了较高的精度。

附图说明

图1是本发明提出的实体关系抽取模型***框架图。

图2是本发明中提出的实体关系抽取方法流程图。

图3是百度百科引入实体义项的流程图。

图4是Att-BLSTM网络的示意图。

图5是注意力机制示意图。

图6是学习字级的句子特征向量示意图。

图7是CNN网络示意图。

图8是学习词级的句子特征向量示意图。

图9是本发明提出的字特征与词特征的性能对比实验结果图。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于：利用Att-BLSTM 神经网络对输入的字向量矩阵学习字特征；同时以CNN网络对输入的字向量矩阵做卷积操作生成词向量，再利用Att-BLSTM神经网络学习词特征；引入实体义项，利用Att-BLSTM神经网络自动学习义项特征。同时融合了字特征、词特征和义项特征，丰富了输入的细粒度能充分表征语义信息，且字向量输入能避免中文分词错误带来的影响，引入实体义项能消除实体多义带来的歧义(见图1和图2)。步骤如下：

步骤1、语句预处理

1)从SanWen数据集中取出m个语句作为训练样本，m个语句覆盖SanWen数据集中的十种关系(见表1)。m个语句中，每个语句都已知关系标签且每个语句都有两个标记好的实体，所述m取17227。

表1

2)在m个语句中，对每个语句中的每个字和标点符号都看作一个个体并依次排成行，得到以字为单位单独存在的序列S_j，m个语句的序列集合记为{S₁,S₂,…,S_m}，j＝1,2,…m，该序列集合用于建立字表。

3)对所述语句的序列集合，在所述个体前从1开始依次加上序号，重复出现的个体按已编序号标记，得到该序列集合的字表。对所述语句序列集合中的每个语句序列计算字长，统计获得最大字长，记为n，用于规定m个语句序列的字长。所述的规定是指m个语句序列中，字长小于n的用数字0补充到字长为n。

步骤2、获取语句对应的实体1义项和实体2义项

1)本发明创造性地提出引入实体义项到关系抽取任务中，为语句中的实体提供了额外的支撑信息，能帮助解决实体一词多义的问题。义项的定义是指词的理性意义的分项说明，一个词往往有多个意义，每个意义就是一个义项。

2)m个语句中，将每个语句中的实体1作为百科全书网站的搜索词条：若所述实体1的搜索词条在百科全书网站未被收录，把实体1本身当作该实体1对应的一个实体1义项；若所述实体1的搜索词条在百科全书网站被收录，利用网络爬虫技术获得该实体1对应的所有实体1义项，再分别计算每个语句和其对应的每个实体1义项的语义相似性，保留其中相似性最高的一个实体1义项(如图3所示)。m个语句中，每个语句的实体1对应一个实体1义项，m个语句中的m个实体1对应m个实体1义项。

3)对所述的m个实体1义项，每个实体1义项中的每个字和标点符号都看作一个个体并依次排成行，处理成以字为单位单独存在的序列Sense(e₁)_j，m个实体1义项的序列集合记为{Sense(e₁)₁,Sense(e₁)₂,…,Sense(e₁)_m}，j＝1,2,…m。对所述实体1义项的序列集合，在所述个体前从1开始依次加上序号，重复出现的个体按已编序号标记，得到该序列集合的字表。对所述实体1义项的序列集合，计算每个实体1义项序列的字长，统计获得最大字长，记为m₁，用于规定m个实体1义项序列的字长。所述的规定是指m个实体1义项序列中，字长小于m₁的用数字0补充到字长为m₁。

4)按照2)的方法，得到m个语句中，每个语句的实体2对应一个实体2义项，m个语句中的m个实体2对应m个实体2义项。

5)按照3)的方法，得到实体2义项的序列Sense(e₂)_j，m个实体2义项的序列集合记为{Sense(e₂)₁,Sense(e₂)₂,…,Sense(e₂)_m}，j＝1,2,…m；得到实体2义项序列集合的字表；得到实体2义项序列集合的最大字长，记为m₂，用于规定m个实体2义项序列的字长。

步骤3、扩充三元组<语句，实体1义项，实体2义项>

在m个语句中，对每个语句的序列S_j，扩充为三元组<S_j，Sense(e₁)_j，Sense(e₂)_j>，其中S_j的字长为n，Sense(e₁)_j的字长为m₁，Sense(e₂)_j的字长为m₂。

步骤4、对三元组中的三个序列均映射成字向量矩阵

对语句中的每个个体映射为低维向量，能避免分词错误问题。

1)对所述S_j映射成一个基本字向量矩阵，其每个字的基本字向量由字本身向量和距离向量拼接而成。所述拼接是指将指定向量的维度相加，合成一个向量；

所述字本身向量，我们使用Word2Vec方法将每个字映射成低维实数向量tx_i，向量维度为d^w。其中，tx_i表示S_j中第i个字的字本身向量；d^w表示该向量的维度。

所述距离向量是指将字到实体1的距离向量和字到实体2的距离向量。

我们定义p_i ¹和p_i ²分别代表第i个字到实体1和实体2的相对距离。p_i ¹和p_i ²计算方法相同，p_i ¹计算公式定义如下：

其中，i表示第i个字的位置索引；b¹表示实体1的初始位置索引；e¹表示实体1的末尾位置索引。

得到第i个字到实体1和实体2的相对距离分别为p_i ¹和p_i ²之后，用低维向量映射这两个数值，分别记为x_i ^p1和x_i ^p2，这两个向量维度均为d^d。其中，x_i ^p1表示第i个字到实体1的距离向量；x_i ^p2表示第i个字到实体2的距离向量。

我们将所述字本身向量和两个距离向量拼接起来，得到第i个字的基本字向量，记为 v_i＝[tx_i；x_i ^p1；x_i ^p2]，维度d＝d^w+2*d^d。其中，tx_i表示S_j中第i个字的字本身向量；x_i ^p1表示第i个字到实体1的距离向量；x_i ^p2表示第i个字到实体2的距离向量；v_i表示第i个字的基本字向量，是一个列向量维度为d。

对所述S_j，我们将其映射成一个基本字向量矩阵，记为S_jv＝[v₁,v₂,…,v_i,…,v_n]^T。其中，v₁表示S_j中第1个字的基本字向量；v_i表示S_j中第i个字的基本字向量；v_n表示S_j中第n个字的基本字向量；T表示矩阵的转置，因为一个基本字向量是维度为d的列向量，因此矩阵经过转置后维度为n*d。

所述字本身向量，我们使用Word2Vec方法将每个字转换成低维实数向量sx_i，向量维度记为d^w。对所述Sense(e₁)_j，我们将其映射成一个基本字向量矩阵，记为Sense(e₁) _jv＝[sx₁,sx₂,…,sx_i,…,sx_m1]^T。其中，sx₁表示Sense(e₁)_j中第1个字的字本身向量；sx_i表示Sense (e₁)_j中第i个字的字本身向量；sx_m1表示Sense(e₁)_j中第m₁个字的字本身向量；T表示矩阵的转置，因为一个字向量是维度为d^w的列向量，因此矩阵经过转置后维度为m₁*d^w。

所述字本身向量，我们使用Word2Vec方法将每个字转换成低维实数向量vx_i，向量维度记为d^w。对所述Sense(e₂)_j，我们将其映射成一个基本字向量矩阵，记为Sense(e₂) _jv＝[vx₁,vx₂,…,vx_i,…,vx_m2]^T。其中，vx₁表示Sense(e₂)_j中第1个字的字本身向量；vx_i表示Sense (e₂)_j中第i个字的字本身向量；vx_m2表示Sense(e₂)_j中第m₂个字的字本身向量；T表示矩阵的转置，因为一个字向量是维度为d^w的列向量，因此矩阵经过转置后维度为m₂*d^w。

步骤5、对三元组中序列S_j，利用Att-BLSTM学习得到基于字的句子特征向量，记为h_c ^*

1)所述的Att-BLSTM是指基于注意力机制的双向长短时记忆网络(如图4所示)。

利用现有的LSTM来学习长距离语义信息生成隐含特征向量，其具体计算公式如下所示：

c_t＝i_tg_t+f_tc_t-1

h_t＝o_ttanh(c_t)

其中，x_t表示t时刻LSTM的输入，h_t-1表示对应前一时刻LSTM输出的隐含特征向量，c_t-1表示对应前一时刻LSTM的细胞状态；i_t表示LSTM的输入门，Wx_i，Wh_i，Wc_i是输入门对应的权重矩阵，b_i是输入门对应的偏置参数，σ表示sigmoid函数；f_t表示LSTM的遗忘门，Wx_f，Wh_f，Wc_f是遗忘门对应的权重矩阵，b_f是遗忘门对应的偏置参数；Wx_c，Wh_c，Wc_c是候选门对应的权重矩阵，b_c是候选门对应的偏置参数，tanh表示双曲正切函数，c_t是当前的细胞状态；Wx_o，Wh_o，Wc_o是输出门对应的权重矩阵，b_o是输出门对应的偏置参数，h_t是t 时刻输出的隐含特征向量。

语句序列实际上是一个时间序列，对所述序列S_j的字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T，在第t(t＝1,2,…,n)时刻，我们输入一个基本字向量v_t到LSTM中从正向能得到这个字向量对应的隐含特征向量，即所述公式对应的h_t。其中，v_t对应于LSTM第t时刻的输入x_t；h_t表示第 t个字学习得到的隐含特征向量。

2)为了捕获序列过去和未来的语义信息，我们从正向和反向分别学习，得到字向量的正向隐含特征向量和反向隐含特征向量，分别记为

和

对

和

两个向量中的每个元素一一对应相加，得到一个双向隐含特征向量，记为

其中，

表示第 1个字的双向隐含特征向量；

表示第i个字的双向隐含特征向量；

表示第n个字的双向隐含特征向量。

3)在序列中，每个字对序列语义的重要程度是不同的，有的字起着关键性作用，而有的字几乎不起作用。所述注意力机制，能学习每个字对序列语义的重要程度，自动为每个字分配一个权重系数，来衡量该字的重要程度，所述注意力机制计算公式如下：

M＝tanh(H)

α＝softmax(ω^TM)

r＝Hα^T

h^*＝tanh(r)

其中，H表示BLSTM的输出，即所述的H_Sjv，该矩阵维度是d^a*n。其中，d^a表示双向隐含特征向量的维度，n表示字长；ω是一个随机初始化的向量，维度为d^a，ω^T表示该向量的转置；α表示学习得到的权重向量，维数是n；r是对输入矩阵进行线性加权求和运算得到的特征向量，维度是d^a；h^*是对r通过tanh函数运算获得的句子特征向量，维度是d^a。

利用所述注意力机制(见图5)，自动为H_Sjv中每个字的双向隐含特征向量分配一个权重系数，每个字的双向隐含特征向量结合对应分配的权重系数通过加权求和运算，得到基于字的句子特征向量，记为h_c ^*(见图6)。

步骤6、对三元组中的序列S_j，先用CNN学习局部特征，再用Att-BLSTM学习得到基于词的句子特征向量，记为h_w ^*

1)对所述序列S_j的字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T，先经过一个由权重向量

参数化表示的滤波器(CNN)进行卷积操作(见图7)。

其中，ω^k表示第k个滤波器；c×d表示滤波器的大小，d表示滤波器的长度，和字向量的维度一致，c表示滤波器的宽度。输入字向量矩阵S_v＝[v₁,v₂,…,v_i,…,v_n]^T，通过下列计算公式，可以得到第k个滤波器卷积层的输出：

h^k＝f(ω^kv^i:i+c-1+b^k)

其中，v^i:i+c-1表示vⁱ…v^i+c-1特征向量的级联；i＝1,2,…,n-c+1，f表示ReLu激活函数；

是有偏项，ω^k和b^k是训练过程中被学习的参数，并且对应一个k所有i＝1,2,…,n-c+1 都将保持相同；h^k表示第k个滤波器输出的词的局部特征向量，维度是n-c+1。

所述序列S_j的字向量矩阵每经过一个滤波器进行卷积操作，都能得到一个局部特征向量，记为h^k，该向量表征的是句子中字与字之间的局部语义信息，认作是词的特征向量。每次卷积都因为各自滤波器学习的ω^k和b^k参数的不同而不同，能学到不同的语义信息。经过k 个不同的滤波器，我们能得到k个不同的局部特征向量，记为H^w＝[h¹,h²,…,hⁱ,…,h^k]。其中， h¹表示第1个滤波器输出的词的特征向量；hⁱ表示第i个滤波器输出的词的特征向量；h^k表示第k个滤波器输出的词的特征向量。

2)对H^w＝[h¹,h²,…,hⁱ,…,h^k]，我们再利用步骤5所述的Att-BLSTM学习词特征，得到基于词的句子特征向量，记为h_w ^*，如图8所示。

步骤7、对三元组中的序列Sense(e1)_j，利用Att-BLSTM学习得到基于字的实体1义项特征向量，记为h_e1 ^*；对三元组中的序列Sense(e2)_j，利用Att-BLSTM学习得到基于字的实体2义项特征向量，记为h_e2 ^*。

1)对所述实体1义项序列Sense(e1)_j的字向量矩阵Sense(e1)_jv＝[sx₁,sx₂,…,sx_i,…,sx_m1]^T，我们利用步骤5所述的Att-BLSTM学习实体1义项特征，得到基于字的实体1义项特征向量，记为h_e1 ^*。

2)对所述实体2义项序列Sense(e2)_j的字向量矩阵Sense(e2)_jv＝[vx₁,vx₂,…,vx_i,…,vx_m2]^T，我们利用步骤5所述的Att-BLSTM学习实体2义项特征，得到基于字的实体2义项特征向量，记为h_e2 ^*。

步骤8、特征融合

本发明创造性地构造步骤5-7三个模型来学习字特征、词特征和实体义项特征，多面表达了语义信息，丰富了输入细粒度，有效提高了关系抽取的准确度。

拼接所述基于字的句子特征向量h_c ^*和基于词的句子特征向量h_w ^*，得到语句语义信息的特征向量，记为h_s ^*＝[h_c ^*；h_w ^*]。拼接所述基于字的实体1义项特征向量h_e1 ^*和基于字的实体2 义项特征向量h_e2 ^*，得到实体语义信息的特征向量，记为h_e ^*＝[h_e1 ^*；h_e2 ^*]。将拼接得到的语句语义信息的特征向量h_s ^*输入到全连接网络的隐含层，得到新的语句特征向量o_s，将实体语义信息的特征向量h_e ^*输入到全连接网络的隐含层，新的义项特征向量o_e，对o_s和o_e加权求和得到最后的特征向量o，权重分别记为_η和1-η；所述_η取0.9。

步骤9、关系抽取

将所述最后的特征向量o，输入到softmax层，计算语句属于每一类的概率：

p(y)＝softmax(o)

其中，p(y)是指语句分为每一类的概率值；

表示最大的概率值。对应于最大概率值的类别就是该关系抽取装置抽取得到的关系类别。

损失函数定义为真实类别标签和预测类别的交叉熵：

其中，

是真实标签的独热码表示，

是每个类别通过关系抽取装置得到的估计概率；m表示类别总数，在SanWen数据集中共有10种关系类别；λ是L2正则化参数，θ代表模型中的所有参数。

本发明包括两个阶段：训练阶段和识别阶段：

按所述步骤1-9搭建关系抽取装置，随机初始化模型中所有参数。在模型的整个训练过程中，从m个三元组中，每次输入10个三元组<S_j，Sense(e1)_j，Sense(e2)_j>进行训练(即batch_size＝10)，所有三元组都完成一次训练记为一个训练过程，一共进行100个这样的训练过程(即epoch＝100)。以模型的预测输出和真实关系标签的交叉熵作为损失函数，用随机梯度下降法不断训练模型进行参数更新。同时，为了防止过拟合，本发明还在训练过程中采用了dropout机制，在训练中每个神经元都有50％的概率被关闭(即每次训练都有随机一半的隐藏层节点不参与计算)。训练结束后，得到一个训练好的实体关系抽取装置。

在识别阶段，给定一个目标中文语句：若一个目标中文语句含有两个标记好的实体，则直接识别出该目标中文语句中实体之间的关系；若一个目标中文语句含有标记好的实体少于2，报错；若一个目标中文语句含有三个以上标记好的实体，报错。若有两个以上目标中文语句，则自动断句后按一个目标中文语句的步骤识别每个目标中文语句中实体之间的关系。

本发明提出的关系抽取装置，能从句子的字层面和词层面上学习不同的语义信息，同时加入的实体义项对句子中实体的语义添加了额外的支撑信息，通过构建不同的网络去学习得到字特征、词特征和义项特征，丰富了输入细粒度，避免了分词错误问题且解决了一词多义的分期问题，提高了关系抽取的准确度。

所述关系抽取装置，输入一个标记两个实体的中文语句，能识别出实体之间的关系。对实体和关系建立三元组<实体1，关系，实体2>，可用于构建知识图谱，被应用在搜索***中。

实施例1

本实施例，在关系抽取装置中研究了同时学习字特征和词特征的模型性能，分别与只学习字特征的模型、只学习词特征的模型进行了实验，并对比三者之间的结果。其中，同时学习字特征和词特征模型的实验过程根据发明内容中的相关步骤进行，三者对比的效果如表2 和图9所示。

从表2和图9中可以看出，只学习字特征的模型效果比只学习词特征的模型抽取效果要好，而我们提出同时学习字特征和词特征的模型相比只学习单个特征的模型抽取效果要好。因为在中文语句中，词语能表示一个语句的语法结构和句法结构，我们建立模型同时学习字特征和词特征，能够更全面地学习到语句的语义信息，进一步提高关系抽取的准确率。表2 中F1值越高说明实体关系抽取效果越好；图9中曲线越高，即与两个坐标轴包含的面积越大说明实体关系抽取效果越好。

表2

实施例2

本实施例，在字特征学习的关系抽取装置中添加了实体义项的模型，对有无实体义项进行了实验，对比说明引入实体义项的效果。同时，将本发明提出的基于实体义项的字和词特征融合的关系抽取装置，分别与同时学习字和词特征的模型、同时学习字和义项特征的模型也进行了对比。其中，本发明提出的基于实体义项的字和词特征融合的实验过程根据发明内容中的具体步骤进行。对比的效果如表3所示。

从表3可以看出，我们引入实体义项，相比于没有引入实体义项的模型效果要好，说明实体义项的引入对实体关系抽取有帮助，能提高实体关系抽取的性能。同时本发明提出的基于实体义项的字和词特征融合的实体关系抽取性能最好，说明输入细粒度对实体关系抽取的重要性，学习字特征、词特征、实体义项特征，将特征融合能有效表达语句的语义信息。

表3

Claims

1.基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征是包括以下步骤：

A、训练；

步骤1、语句预处理；

步骤2、获取语句对应的实体1义项和实体2义项；

2)若所述实体1的搜索词条在百科全书网站被收录，利用网络爬虫技术获得该实体1对应的所有实体1义项；

对每个语句中实体1对应的一个实体1义项处理成以字为单位单独存在的序列Sense(e₁)_j，j＝1,2,…m；处理成以字为单位单独存在的序列是指将该语句中的每个字和标点符号都看作一个个体并依次排成行；m个语句中的m个实体1对应m个实体1义项序列集合，记为{Sense(e₁)₁,Sense(e₁)₂,…,Sense(e₁)_m}；

步骤3、扩充三元组<语句，实体1义项，实体2义项>；

步骤4、对三元组中的三个序列均映射成字向量矩阵；

所述拼接是指将指定向量的维度相加，合成一个向量；

步骤5、对三元组中的序列S_j，利用Att-BLSTM学习得到基于字的句子特征向量，记为h_c ^*；

步骤8、特征融合；

h_s ^*＝[h_c ^*；h_w ^*]；

h_e ^*＝[h_e1 ^*；h_e2 ^*]

对o_s和o_e加权求和得到最后的特征向量o，权重分别为_η和1-η；

步骤9、关系抽取；

B、输入目标中文语句，关系识别；

2)若一个目标中文语句含有标记好的实体少于2，报错；

3)若一个目标中文语句含有三个以上标记好的实体，报错；

2.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤1包括：

所述m为17227，是SanWen数据集中的所有训练样本。

3.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤2包括：

计算所述语义相似性是指利用余弦相似度算法计算相似性；

4.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤4包括：

所述字本身向量，我们利用Word2Vec方法将每个字映射成低维实数向量tx_i，向量维度为d^w；其中，tx_i表示S_j中第i个字的字本身向量；d^w表示该向量的维度；

我们把第i个字到实体1的距离定义为p_i ¹，第i个字到实体2的距离定义为p_i ²；p_i ¹和p_i ²计算方法相同，p_i ¹计算公式定义如下：

其中，i表示第i个字的位置索引，b¹表示实体1的初始位置索引，e¹表示实体1的末尾位置索引；

将计算得到的p_i ¹和p_i ²映射成低维向量，分别记为x_i ^p1和x_i ^p2，这两个向量维度均为d^d；其中，x_i ^p1表示第i个字到实体1的距离向量；x_i ^p2表示第i个字到实体2的距离向量；

拼接所述字本身向量和距离向量，得到第i个字的基本字向量，记为v_i＝[tx_i；x_i ^p1；x_i ^p2]，维度d＝d^w+2*d^d；对所述S_j，我们将其映射成一个基本字向量矩阵，记为S_jv＝[v₁,v₂,…,v_i,…,v_n]^T；其中，v₁表示S_j中第1个字的基本字向量；v_i表示S_j中第i个字的基本字向量；v_n表示S_j中第n个字的基本字向量；T表示矩阵的转置，因为一个基本字向量是维度为d的列向量，因此矩阵经过转置后维度为n*d；

2)对所述Sense(e₁)_j映射成一个基本字向量矩阵，其每个字的基本字向量即字本身向量；

按照1)所述字本身向量，对所述Sense(e₁)_j，我们将其映射成一个基本字向量矩阵，记为Sense(e₁)_jv＝[sx₁,sx₂,…,sx_i,…,sx_m1]^T；其中，sx₁表示Sense(e₁)_j中第1个字的基本字向量；sx_i表示Sense(e₁)_j中第i个字的基本字向量；sx_m1表示Sense(e₁)_j中第m₁个字的基本字向量；T表示矩阵的转置，因为一个字向量是维度为d^w的列向量，因此矩阵经过转置后维度为m₁*d^w；

3)对所述Sense(e₂)_j映射成一个基本字向量矩阵，其每个字的基本字向量即字本身向量；

按照1)所述字本身向量，对所述Sense(e₂)_j，我们将其映射成一个基本字向量矩阵，记为Sense(e₂)_jv＝[vx₁,vx₂,…,vx_i,…,vx_m2]^T；其中，vx₁表示Sense(e₂)_j中第1个字的基本字向量；vx_i表示Sense(e₂)_j中第i个字的基本字向量；vx_m2表示Sense(e₂)_j中第m₂个字的基本字向量；T表示矩阵的转置，因为一个基本字向量是维度为d^w的列向量，因此矩阵经过转置后维度为m₂*d^w。

5.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤5包括：

1)对所述S_j的基本字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T，我们利用Att-BLSTM学习字特征；所述的Att-BLSTM是指基于注意力机制的双向长短时记忆网络；

和

对

和

其中，

表示第1个字的双向隐含特征向量；

表示第i个字的双向隐含特征向量；

表示第n个字的双向隐含特征向量；

6.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤6包括：

1)对所述S_j的基本字向量矩阵S_jv＝[v₁,v₂,…,v_i,…,v_n]^T，我们利用CNN对其进行学习，得到局部特征向量，该向量表征的是句子中字与字之间的语义信息，认作是词的特征；经过k个不同的CNN能得到k个不同的局部特征向量，记为H^w＝[h¹,h²,…,hⁱ,…,h^k]；其中，h¹表示第1个CNN得到的词的特征；hⁱ表示第i个CNN得到的词的特征；h^k表示第k个CNN得到的词的特征；

2)对H^w＝[h¹,h²,…,hⁱ,…,h^k]，我们利用步骤5所述的Att-BLSTM学习词特征，得到基于词的句子特征向量，记为h_w ^*。

7.根据权利要求1所述的一种基于实体义项的字和词特征融合的中文实体关系抽取方法，其特征在于，所述步骤7包括：

1)对所述Sense(e₁)_j的字向量矩阵Sense(e₁)_jv＝[sx₁,sx₂,…,sx_i,…,sx_m1]^T，利用步骤5所述的Att-BLSTM学习实体1义项特征，得到基于字的实体1义项特征向量，记为h_e1 ^*；

2)对所述Sense(e₂)_j的字向量矩阵Sense(e₂)_jv＝[vx₁,vx₂,…,vx_i,…,vx_m2]^T，利用步骤5所述的Att-BLSTM学习实体2义项特征，得到基于字的实体2义项特征向量，记为h_e2 ^*。

8.根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法，其特征在于，所述步骤8包括：

所述权重η取0.9，是经过训练不断调整得到的一个超参数。

9.根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法，其特征在于，所述训练包括：

按照所述步骤1-9搭建一个关系抽取装置，随机初始化模型中所有参数；在模型的整个训练过程中，从m个三元组中，每次输入10个三元组<S_j，Sense(e₁)_j，Sense(e₂)_j>进行训练，所有三元组都完成一次训练记为一个训练过程，一共进行100个这样的训练过程；以模型的预测输出和真实关系标签的交叉熵作为损失函数，用随机梯度下降法不断训练模型进行参数更新；同时，为了防止过拟合，还在训练过程中采用了dropout机制，在训练中每个神经元都有50％的概率被关闭(即每次训练都有随机一半的隐藏层节点不参与计算)；训练结束后，得到一个训练好的实体关系抽取装置。

10.根据权利要求1所述的一种基于实体义项的字、词特征融合的中文实体关系抽取方法，其特征在于，所述输入目标中文语句，关系识别包括：