CN112183102A

CN112183102A - 基于注意力机制与图注意力网络的命名实体识别方法

Info

Publication number: CN112183102A
Application number: CN202011101382.9A
Authority: CN
Inventors: 王硕; 周星杰; 徐成国; 杨康
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-05

Abstract

本申请公开了一种基于注意力机制与图注意力网络的命名实体识别方法，该方法包括以下步骤：S1、获取训练样本集；S2、根据所述训练样本集进行模型训练，构建命名实体识别模型；S3、分析所述命名实体识别模型的识别性能，采集未标注样本数据，根据所述命名实体识别模型对所述未标注样本数据进行标签预测。通过本发明，面对海量的文本数据，可获取其中高质量的关键词以指导关键词投放，并且提高实体关键词标签识别性能。

Description

基于注意力机制与图注意力网络的命名实体识别方法

技术领域

本发明涉及数据处理领域，面向命名实体识别技术应用，具体涉及基于注意力机制与图注意力网络的命名实体识别方法。

背景技术

随着社交媒体的快速发展，文本数据量不断增长，如何从海量文本中对文本进行准确的标注，对文本中出现的人名、地名、机构名等专有名称进行准确识别并加以归类，是急需解决的问题。命名实体识别任务是信息抽取、信息检索、问答***等多种自然语言处理任务的基础，能够对文本进行标签识别。

现有的命名实体识别方法存在以下问题：

1、基于规则方法进行命名实体识别，其思想是根据实体出现的方式总结不同的模板，使用模板从文本中抽取候选实体，这种无监督的方法虽然取得了一定的效果，但需要规则难以匹配完全，对于复杂的语句难以定义规则，还会引入大量的噪声。

2、基于词典的方法进行命名实体识别，其思想是通过词典将文本中需要标注的词语全部匹配出来，这种方法需要人工预先构建领域词典，且切词规则复杂，匹配未考虑上下文，领域移植性差；

3、基于机器学习进行命名实体识别，其思想是采用自然语言处理技术中的统计语言模型为基础，通过构建丰富的特征，如词汇特征、句法语义特征，来适应不同领域应用。该方法性能很大程度上取决于设计特征的质量，常常需要依赖额外的NLP工具进行特征提取，但由于NLP工具存在自身误差会导致错误传播；

4、基于深度学习进行命名实体识别，该方法利用深度神经网络自动构建文本特征。在实体关键词抽取任务中，关键词之间往往存在着一定的关联和依赖信息，样本中的词语对于候选实体关键词的影响力的重要程度是不同，该方法的建模能力难以满足实体关键词的建模要求，导致实体关键词的识别效率较低。

发明内容

本申请实施例提供了一种基于注意力机制与图注意力网络的命名实体识别方法，以至少解决相关技术中主观因素影响的问题。

本发明提供了一种基于注意力机制与图注意力网络的命名实体识别方法，所述方法包括以下步骤：

S1、获取训练样本集；

S2、根据所述训练样本集进行模型训练，构建命名实体识别模型；

S3、分析所述命名实体识别模型的识别性能，采集未标注样本数据，根据所述命名实体识别模型对所述未标注样本数据进行标签预测。

作为本发明的进一步改进，所述步骤S1具体包括以下步骤：

S11、接收到对所述命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；

S12、根据所述指定领域，利用开源网络爬虫从网络上抓取命名实体数据集；

S13、对所述命名实体数据集进行标注，获得标注文本；

S14、将所述标注文本划分为所述训练样本集、训练验证集、训练测试集。

作为本发明的进一步改进，所述步骤S2具体包括以下步骤：

S21、应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量，并采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向量；

S22、应用依存句法解析工具，获取所述训练样本集的句法依赖树结构，根据所述句法依赖树结构，获取所述训练样本集的句法依赖关系，并将所述句法依赖关系的形式存储为有向邻接矩阵；

S23、将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用 GAT网络进行编码，获取所述训练样本集的图特征；

S24、将所述图特征经过全连接层映射到样本空间后，应用SoftMax将其映射到相应类别标签，获得预测的实体关键词标签；

S25、利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标注的实体关键词标签的差距，并采用Adam作为优化器优化损失值。

作为本发明的进一步改进，所述步骤S23具体包括以下步骤：

S231、对于所述句法依赖树结构中的每个顶点词，根据所述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力因子；

S232、应用SoftMax对所述注意力因子进行归一化处理，获得注意力系数；

S233、通过所述注意力系数对特征进行加权求和，获得每个所述顶点词在 GAT层的输出特征；

S234、采用多头注意力机制对所述输出特征进行扩展，获得所述训练样本集的图特征。

作为本发明的进一步改进，所述步骤S25中交叉熵损失函数添加L2正则防止过拟合。

作为本发明的进一步改进，应用StanfordCoreNLP作为所述依存句法解析工具。

基于相同发明思想，本申请还基于上述任一项发明创造所揭示的基于注意力机制与图注意力网络的命名实体识别方法，揭示了一种基基于注意力机制与图注意力网络的命名实体识别***，

所述基于注意力机制与图注意力网络的命名实体识别***包括：

样本获取模块，获取训练样本集；

模型构建模块，根据所述训练样本集进行模型训练，构建命名实体识别模型；

标签预测模块，分析所述命名实体识别模型的识别性能，采集未标注样本数据，根据所述命名实体识别模型对所述未标注样本数据进行标签预测。

作为本发明的进一步改进，所述样本获取模块包括：

领域识别模块，接收到对所述命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；

数据获取模块，根据所述指定领域，利用开源网络爬虫从网络上抓取命名实体数据集；

文本标注模块，对所述命名实体数据集进行标注，获得标注文本；

文本划分模块，将所述标注文本划分为所述训练样本集、训练验证集、训练测试集。

作为本发明的进一步改进，所述模型构建模块包括：

上下文注意力模块，应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量，并采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向量；

句法依赖模块，应用依存句法解析工具，获取所述训练样本集的句法依赖树结构，根据所述句法依赖树结构，获取所述训练样本集的句法依赖关系，并将所述句法依赖关系的形式存储为有向邻接矩阵；

图特征编码模块，将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用GAT网络进行编码，获取所述训练样本集的图特征；

CRF输出模块，将所述图特征经过全连接层映射到样本空间后，应用 SoftMax将其映射到相应类别标签，获得预测的实体关键词标签；

损失优化模块，利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标注的实体关键词标签的差距，并采用Adam作为优化器优化损失值。

作为本发明的进一步改进，所述图特征编码模块包括：

注意力因子计算模块，对于所述句法依赖树结构中的每个顶点词，根据所述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力因子；

注意力系数计算模块，应用SoftMax对所述注意力因子进行归一化处理，获得注意力系数；

输出特征计算模块，通过所述注意力系数对特征进行加权求和，获得每个所述顶点词在GAT层的输出特征；

图特征计算模块，采用多头注意力机制对所述输出特征进行扩展，获得所述训练样本集的图特征。

与现有技术相比，本发明的有益效果如下：

1、提出了一种基于注意力机制与图注意力网络的命名实体识别方法，面对海量的文本数据，获取其中高质量的关键词以指导关键词投放；

2、将注意力机制引入命名实体识别方法中，建模实体关键词之间的潜在联系与依赖特征，提高了关键词的抽取性能，提高标签预测准确性；

3、应用图注意力网络建模文本的图特征，更加精确的判别各个候选词对当前候选实体关键词的影响力大小，准确高效地从文本中识别实体关键词，提高了实体关键词的识别性能。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明实施例提供的一种基于注意力机制与图注意力网络的命名实体识别方法整体流程图；

图2是图1所揭示的步骤S1的整体流程图；

图3是图1所揭示的步骤S2的整体流程图；

图4是图3所揭示的步骤S23的整体流程图；

图5是本发明实施例提供的一种基于注意力机制与图注意力网络的命名实体识别***结构框架图；

图6是根据本发明实施例的计算机设备的框架图；

图7是实体识别模型结构示意图。

以上图中：

100、样本获取模块；200、模型构建模块；300、标签预测模块；101、领域识别模块；102、数据获取模块；103、文本标注模块；104、文本划分模块； 201、上下文注意力模块；202、句法依赖模块；203、图特征编码模块；204、 CRF输出模块；205、损失优化模块；2031、注意力因子计算模块；2032、注意力系数计算模块；2033、输出特征计算模块；2034、图特征计算模块；80、总线；81、处理器；82、存储器；83、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、 “一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、 “第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

在详细阐述本发明各个实施例之前，对本发明的核心发明思想予以概述，并通过下述若干实施例予以详细阐述。

本发明基于注意力机制与图注意力网络对文本进行命名实体识别，通过建模加权特征向量和图特征提高模型性能。

实施例一：

参照图1至图4所示，本实例揭示了一种基于注意力机制与图注意力网络的命名实体识别方法(以下简称“方法”)的具体实施方式。

具体而言参照图1所示，本实施例所揭示的方法主要包括以下步骤：

步骤S1、获取训练样本集。

在其中一些实施例中，参照图2，步骤S1具体包括以下步骤：

S13、对所述命名实体数据集进行标注，获得标注文本；

具体而言，对采集的注定领域数据集进行标注，对其中根据关键词抽取的重要信息进行人工标注，标注结果作为命名实体识别模型的训练数据。获取的标注数据按照8:1:1划分为训练样本集、训练验证集、训练测试集，命名实体识别模型基于BiLSTM-CRF的网络结构，利用训练样本集进行训练。需要说明的是，在本实施例中，数据划分比例为8:1:1，但本发明并不以此为限。

然后，参照图3和图7执行步骤S2、根据所述训练样本集进行模型训练，构建命名实体识别模型。

其中，步骤S2具体包括以下内容：

在其中一些实施例中，参照图4，所述步骤S23具体包括:

具体而言，在本实施例中，通过Word2vec方法完成对所述样本集的词向量的生成与训练，步骤S21中应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量，通过前向LSTM获取每个文本处隐藏向量表示

通过后向LSTM 获取文本当前的隐藏向量表示

通过拼接获取文本的上下文特征向量：

具体而言，获取上下文特征向量后，采用注意力机制根据上下文特征向量获取所述训练样本集的文本特征向量，具体计算过程如下：

其中，

为Bi-LSTM输出的隐藏层向量，将其作为注意力机制的输入信息，首先通过全连接层获得其表示向量μ_t；然后通过计算μ_t与词语水平的上下文向量μ_w的相似度来判断不同词语对于当前词的重要程度，最后通过SoftMax将该重要程度得分进行归一化得到α_t。其中，μ_w在网络初始状态被随机初始化，并且训练过程中不断学习。最后将文本中词语的重要程度α_t与词语隐藏层向量

的加权和作为文本特征向量v_t。

具体而言，在所述步骤S22中采用StanfordCoreNLP作为依存句法解析工具，获取文本的句法依赖树。句法依赖树是一种特殊的图结构，其节点为文本中的词语，边为词语间的句法依赖关系。

具体而言，步骤S231中根据所述文本特征向量和所述有向邻接矩阵计算注意力因子的公式如下：

e_ij＝α(Wv_i,Wv_j)＝LeakyRelu(Wa^T[Wv_i||Wv_j])

其中，e_i,j为注意力因子。

具体而言，步骤232中应用SoftMax对注意力因子进行归一化处理，获得注意力系数公式如下：

其中，α_i.j为注意力系数，LeakyRelu为激活函数。

具体而言，步骤S233中输出特征计算公式如下：

其中，

为输出特征，σ(·)为非线性激活函数。

具体而言，步骤S234中采用多头注意力机制(Attention)对所述输出特征进行扩展，获得所述训练样本集的图特征，计算公式如下：

其中，

为图特征，σ(·)为非线性激活函数，||为串联操作，W^k为第k个头中共享参数矩阵。

具体而言，步骤S24中实体关键词标签预测公式如下：

其中，

代表最终预测的实体关键词标签。

具体而言，步骤S25中利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标注的实体关键词标签的差距，并添加L2正则防止过拟合，其损失函数计算公式如下：

其中，N为文本长度，M为标签的类别个数，θ代表模型的参数，λ是L2 正则化的参数，loss为损失函数。

然后，执行步骤S3、分析所述命名实体识别模型的识别性能，采集未标注样本数据，根据所述命名实体识别模型对所述未标注样本数据进行标签预测。

通过本实施例所揭示的一种基于注意力机制与图注意力网络的命名实体识别方法，面对海量的文本数据，获取其中高质量的关键词以指导关键词投放，将注意力机制引入命名实体识别方法中，建模实体关键词之间的潜在联系与依赖特征，提高了关键词的抽取性能，提高标签预测准确性，同时应用图注意力网络建模文本的图特征，更加精确的判别各个候选词对当前候选实体关键词的影响力大小，准确高效地从文本中识别实体关键词，提高了实体关键词的识别性能。

实施例二：

结合实施例一所揭示的一种基于注意力机制与图注意力网络的命名实体识别方法，本实施例揭示了一种基于注意力机制与图注意力网络的命名实体识别***(以下简称“***”)的具体实施示例。

参照图5所示，所述***包括：

样本获取模块100，获取训练样本集；

模型构建模块200，根据所述训练样本集进行模型训练，构建命名实体识别模型；

标签预测模块300，分析所述命名实体识别模型的识别性能，采集未标注样本数据，根据所述命名实体识别模型对所述未标注样本数据进行标签预测。

在其中一些实施例中，样本获取模块100中包括：

领域识别模块101，接收到对所述命名实体识别模型进行训练的请求时，获取所述命名实体识别模型所要识别的目标文本所在的指定领域；

数据获取模块102，根据所述指定领域，利用开源网络爬虫从网络上抓取命名实体数据集；

文本标注模块103，对所述命名实体数据集进行标注，获得标注文本；

文本划分模块104，将所述标注文本划分为训练样本集、训练验证集、训练测试集。

在其中一些实施例中，模型构建模块200中包括：

上下文注意力模块201，应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量，并采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向量；

句法依赖模块202，应用依存句法解析工具，获取所述训练样本集的句法依赖树结构，根据所述句法依赖树结构，获取所述训练样本集的句法依赖关系，并将所述句法依赖关系的形式存储为有向邻接矩阵；

图特征编码模块203，将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用GAT网络进行编码，获取所述训练样本集的图特征；

CRF输出模块204，将所述图特征经过全连接层映射到样本空间后，应用 SoftMax将其映射到相应类别标签，获得预测的实体关键词标签；

损失优化模块205，利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标注的实体关键词标签的差距，并采用Adam作为优化器优化损失值。

具体而言，图特征编码模块203包括：

注意力因子计算模块2031，对于所述句法依赖树结构中的每个顶点词，根据所述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力因子；

注意力系数计算模块2032，应用SoftMax对所述注意力因子进行归一化处理，获得注意力系数；

输出特征计算模块2033，通过所述注意力系数对特征进行加权求和，获得每个所述顶点词在GAT层的输出特征；

图特征计算模块2034，采用多头注意力机制对所述输出特征进行扩展，获得所述训练样本集的图特征。

本实施例所揭示的一种基于注意力机制与图注意力网络的命名实体识别***与实施例一所揭示的一种基于注意力机制与图注意力网络的命名实体识别方法中其余相同部分的技术方案，请参考实施例一所述，在此不再赘述。

实施例三:

结合图6所示，本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为 ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read-Only Memory，简称为PROM)、可擦除PROM (ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM(ElectricallyErasable Programmable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中， DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种命名实体识别方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线 80。其中，如图6所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线 (Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为 AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture，简称为MCA)总线、***组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X) 总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80 可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于注意力机制与图注意力网络对文本中命名实体进行识别，标签预测，从而实现结合图1描述的方法。

另外，结合上述实施例中命名实体识别方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于注意力机制与图注意力网络的命名实体识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

综上所述，基于本发明的有益效果在于，提出了一种基于注意力机制与图注意力网络的命名实体识别方法，面对海量的文本数据，获取其中高质量的关键词以指导关键词投放，将注意力机制引入命名实体识别方法中，建模实体关键词之间的潜在联系与依赖特征，提高了关键词的抽取性能，提高标签预测准确性，应用图注意力网络建模文本的图特征，更加精确的判别各个候选词对当前候选实体关键词的影响力大小，准确高效地从文本中识别实体关键词，提高了实体关键词的识别性能。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，包括如下步骤：

S1、获取训练样本集；

2.如权利要求1所述的基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，所述步骤S1具体包括以下步骤：

S13、对所述命名实体数据集进行标注，获得标注文本；

3.如权利要求1所述的基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，所述步骤S2具体包括以下步骤：

S23、将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用GAT网络进行编码，获取所述训练样本集的图特征；

4.如权利要求3所述的基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，所述步骤S23具体包括以下步骤：

S233、通过所述注意力系数对特征进行加权求和，获得每个所述顶点词在GAT层的输出特征；

5.如权利要求3所述的基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，所述步骤S25中交叉熵损失函数添加L2正则防止过拟合。

6.如权利要求3所述的基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，应用StanfordCoreNLP作为所述依存句法解析工具。

7.一种基于注意力机制与图注意力网络的命名实体识别***，运行如权利要求1至6中任一项所述的基于注意力机制与图注意力网络的命名实体识别方法，其特征在于，

样本获取模块，获取训练样本集；

8.如权利要求7所述的一种基于注意力机制与图注意力网络的命名实体识别***，其特征在于，所述样本获取模块包括：

9.如权利要求7所述的一种基于注意力机制与图注意力网络的命名实体识别***，其特征在于，所述模型构建模块包括：

CRF输出模块，将所述图特征经过全连接层映射到样本空间后，应用SoftMax将其映射到相应类别标签，获得预测的实体关键词标签；

10.如权利要求9所述的一种基于注意力机制与图注意力网络的命名实体识别***，其特征在于，所述图特征编码模块包括：