CN112183102A - 基于注意力机制与图注意力网络的命名实体识别方法 - Google Patents

基于注意力机制与图注意力网络的命名实体识别方法 Download PDF

Info

Publication number
CN112183102A
CN112183102A CN202011101382.9A CN202011101382A CN112183102A CN 112183102 A CN112183102 A CN 112183102A CN 202011101382 A CN202011101382 A CN 202011101382A CN 112183102 A CN112183102 A CN 112183102A
Authority
CN
China
Prior art keywords
attention
named entity
graph
training
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011101382.9A
Other languages
English (en)
Inventor
王硕
周星杰
徐成国
杨康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011101382.9A priority Critical patent/CN112183102A/zh
Publication of CN112183102A publication Critical patent/CN112183102A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于注意力机制与图注意力网络的命名实体识别方法,该方法包括以下步骤:S1、获取训练样本集;S2、根据所述训练样本集进行模型训练,构建命名实体识别模型;S3、分析所述命名实体识别模型的识别性能,采集未标注样本数据,根据所述命名实体识别模型对所述未标注样本数据进行标签预测。通过本发明,面对海量的文本数据,可获取其中高质量的关键词以指导关键词投放,并且提高实体关键词标签识别性能。

Description

基于注意力机制与图注意力网络的命名实体识别方法
技术领域
本发明涉及数据处理领域,面向命名实体识别技术应用,具体涉及基于注意 力机制与图注意力网络的命名实体识别方法。
背景技术
随着社交媒体的快速发展,文本数据量不断增长,如何从海量文本中对文 本进行准确的标注,对文本中出现的人名、地名、机构名等专有名称进行准确 识别并加以归类,是急需解决的问题。命名实体识别任务是信息抽取、信息检 索、问答***等多种自然语言处理任务的基础,能够对文本进行标签识别。
现有的命名实体识别方法存在以下问题:
1、基于规则方法进行命名实体识别,其思想是根据实体出现的方式总结不 同的模板,使用模板从文本中抽取候选实体,这种无监督的方法虽然取得了一 定的效果,但需要规则难以匹配完全,对于复杂的语句难以定义规则,还会引 入大量的噪声。
2、基于词典的方法进行命名实体识别,其思想是通过词典将文本中需要标 注的词语全部匹配出来,这种方法需要人工预先构建领域词典,且切词规则复 杂,匹配未考虑上下文,领域移植性差;
3、基于机器学习进行命名实体识别,其思想是采用自然语言处理技术中的 统计语言模型为基础,通过构建丰富的特征,如词汇特征、句法语义特征,来 适应不同领域应用。该方法性能很大程度上取决于设计特征的质量,常常需要 依赖额外的NLP工具进行特征提取,但由于NLP工具存在自身误差会导致错误 传播;
4、基于深度学习进行命名实体识别,该方法利用深度神经网络自动构建文 本特征。在实体关键词抽取任务中,关键词之间往往存在着一定的关联和依赖 信息,样本中的词语对于候选实体关键词的影响力的重要程度是不同,该方法 的建模能力难以满足实体关键词的建模要求,导致实体关键词的识别效率较低。
发明内容
本申请实施例提供了一种基于注意力机制与图注意力网络的命名实体识别 方法,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种基于注意力机制与图注意力网络的命名实体识别方法, 所述方法包括以下步骤:
S1、获取训练样本集;
S2、根据所述训练样本集进行模型训练,构建命名实体识别模型;
S3、分析所述命名实体识别模型的识别性能,采集未标注样本数据,根据 所述命名实体识别模型对所述未标注样本数据进行标签预测。
作为本发明的进一步改进,所述步骤S1具体包括以下步骤:
S11、接收到对所述命名实体识别模型进行训练的请求时,获取所述命名 实体识别模型所要识别的目标文本所在的指定领域;
S12、根据所述指定领域,利用开源网络爬虫从网络上抓取命名实体数据 集;
S13、对所述命名实体数据集进行标注,获得标注文本;
S14、将所述标注文本划分为所述训练样本集、训练验证集、训练测试集。
作为本发明的进一步改进,所述步骤S2具体包括以下步骤:
S21、应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量,并 采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向 量;
S22、应用依存句法解析工具,获取所述训练样本集的句法依赖树结构, 根据所述句法依赖树结构,获取所述训练样本集的句法依赖关系,并将所述句 法依赖关系的形式存储为有向邻接矩阵;
S23、将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用 GAT网络进行编码,获取所述训练样本集的图特征;
S24、将所述图特征经过全连接层映射到样本空间后,应用SoftMax将其 映射到相应类别标签,获得预测的实体关键词标签;
S25、利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标 注的实体关键词标签的差距,并采用Adam作为优化器优化损失值。
作为本发明的进一步改进,所述步骤S23具体包括以下步骤:
S231、对于所述句法依赖树结构中的每个顶点词,根据所述文本特征向量 和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力 因子;
S232、应用SoftMax对所述注意力因子进行归一化处理,获得注意力系数;
S233、通过所述注意力系数对特征进行加权求和,获得每个所述顶点词在 GAT层的输出特征;
S234、采用多头注意力机制对所述输出特征进行扩展,获得所述训练样本 集的图特征。
作为本发明的进一步改进,所述步骤S25中交叉熵损失函数添加L2正则 防止过拟合。
作为本发明的进一步改进,应用StanfordCoreNLP作为所述依存句法解析 工具。
基于相同发明思想,本申请还基于上述任一项发明创造所揭示的基于注意 力机制与图注意力网络的命名实体识别方法,揭示了一种基基于注意力机制与 图注意力网络的命名实体识别***,
所述基于注意力机制与图注意力网络的命名实体识别***包括:
样本获取模块,获取训练样本集;
模型构建模块,根据所述训练样本集进行模型训练,构建命名实体识别模 型;
标签预测模块,分析所述命名实体识别模型的识别性能,采集未标注样本 数据,根据所述命名实体识别模型对所述未标注样本数据进行标签预测。
作为本发明的进一步改进,所述样本获取模块包括:
领域识别模块,接收到对所述命名实体识别模型进行训练的请求时,获取 所述命名实体识别模型所要识别的目标文本所在的指定领域;
数据获取模块,根据所述指定领域,利用开源网络爬虫从网络上抓取命名 实体数据集;
文本标注模块,对所述命名实体数据集进行标注,获得标注文本;
文本划分模块,将所述标注文本划分为所述训练样本集、训练验证集、训 练测试集。
作为本发明的进一步改进,所述模型构建模块包括:
上下文注意力模块,应用Bi-LSTM神经网络捕获所述训练样本集的上下文 特征向量,并采用注意力机制根据所述上下文特征向量获取所述训练样本集的 文本特征向量;
句法依赖模块,应用依存句法解析工具,获取所述训练样本集的句法依赖 树结构,根据所述句法依赖树结构,获取所述训练样本集的句法依赖关系,并 将所述句法依赖关系的形式存储为有向邻接矩阵;
图特征编码模块,将所述文本特征向量和所述有向邻接矩阵输入到图特征 编码层,采用GAT网络进行编码,获取所述训练样本集的图特征;
CRF输出模块,将所述图特征经过全连接层映射到样本空间后,应用 SoftMax将其映射到相应类别标签,获得预测的实体关键词标签;
损失优化模块,利用交叉熵损失函数度量所述预测的实体关键词标签与训 练集中标注的实体关键词标签的差距,并采用Adam作为优化器优化损失值。
作为本发明的进一步改进,所述图特征编码模块包括:
注意力因子计算模块,对于所述句法依赖树结构中的每个顶点词,根据所 述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻 顶点词的注意力因子;
注意力系数计算模块,应用SoftMax对所述注意力因子进行归一化处理, 获得注意力系数;
输出特征计算模块,通过所述注意力系数对特征进行加权求和,获得每个 所述顶点词在GAT层的输出特征;
图特征计算模块,采用多头注意力机制对所述输出特征进行扩展,获得所 述训练样本集的图特征。
与现有技术相比,本发明的有益效果如下:
1、提出了一种基于注意力机制与图注意力网络的命名实体识别方法,面 对海量的文本数据,获取其中高质量的关键词以指导关键词投放;
2、将注意力机制引入命名实体识别方法中,建模实体关键词之间的潜在 联系与依赖特征,提高了关键词的抽取性能,提高标签预测准确性;
3、应用图注意力网络建模文本的图特征,更加精确的判别各个候选词对 当前候选实体关键词的影响力大小,准确高效地从文本中识别实体关键词,提 高了实体关键词的识别性能。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请 的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不 当限定。在附图中:
图1是本发明实施例提供的一种基于注意力机制与图注意力网络的命名 实体识别方法整体流程图;
图2是图1所揭示的步骤S1的整体流程图;
图3是图1所揭示的步骤S2的整体流程图;
图4是图3所揭示的步骤S23的整体流程图;
图5是本发明实施例提供的一种基于注意力机制与图注意力网络的命名 实体识别***结构框架图;
图6是根据本发明实施例的计算机设备的框架图;
图7是实体识别模型结构示意图。
以上图中:
100、样本获取模块;200、模型构建模块;300、标签预测模块;101、领 域识别模块;102、数据获取模块;103、文本标注模块;104、文本划分模块; 201、上下文注意力模块;202、句法依赖模块;203、图特征编码模块;204、 CRF输出模块;205、损失优化模块;2031、注意力因子计算模块;2032、注意 力系数计算模块;2033、输出特征计算模块;2034、图特征计算模块;80、总 线;81、处理器;82、存储器;83、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用 以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通 技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本 申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于 本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些 附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过 程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关 的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些 设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的 内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或 特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短 语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的 实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施 例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属 技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、 “一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复 数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形, 意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、 方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没 有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的 其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词 语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接 的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述 关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示: 单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前 后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、 “第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的 是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方 式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范 围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述, 并通过下述若干实施例予以详细阐述。
本发明基于注意力机制与图注意力网络对文本进行命名实体识别,通过建 模加权特征向量和图特征提高模型性能。
实施例一:
参照图1至图4所示,本实例揭示了一种基于注意力机制与图注意力网络 的命名实体识别方法(以下简称“方法”)的具体实施方式。
具体而言参照图1所示,本实施例所揭示的方法主要包括以下步骤:
步骤S1、获取训练样本集。
在其中一些实施例中,参照图2,步骤S1具体包括以下步骤:
S11、接收到对所述命名实体识别模型进行训练的请求时,获取所述命名 实体识别模型所要识别的目标文本所在的指定领域;
S12、根据所述指定领域,利用开源网络爬虫从网络上抓取命名实体数据 集;
S13、对所述命名实体数据集进行标注,获得标注文本;
S14、将所述标注文本划分为所述训练样本集、训练验证集、训练测试集。
具体而言,对采集的注定领域数据集进行标注,对其中根据关键词抽取的 重要信息进行人工标注,标注结果作为命名实体识别模型的训练数据。获取的 标注数据按照8:1:1划分为训练样本集、训练验证集、训练测试集,命名实体 识别模型基于BiLSTM-CRF的网络结构,利用训练样本集进行训练。需要说明的 是,在本实施例中,数据划分比例为8:1:1,但本发明并不以此为限。
然后,参照图3和图7执行步骤S2、根据所述训练样本集进行模型训练, 构建命名实体识别模型。
其中,步骤S2具体包括以下内容:
S21、应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量,并 采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向 量;
S22、应用依存句法解析工具,获取所述训练样本集的句法依赖树结构, 根据所述句法依赖树结构,获取所述训练样本集的句法依赖关系,并将所述句 法依赖关系的形式存储为有向邻接矩阵;
S23、将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用 GAT网络进行编码,获取所述训练样本集的图特征;
S24、将所述图特征经过全连接层映射到样本空间后,应用SoftMax将其 映射到相应类别标签,获得预测的实体关键词标签;
S25、利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标 注的实体关键词标签的差距,并采用Adam作为优化器优化损失值。
在其中一些实施例中,参照图4,所述步骤S23具体包括:
S231、对于所述句法依赖树结构中的每个顶点词,根据所述文本特征向量 和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力 因子;
S232、应用SoftMax对所述注意力因子进行归一化处理,获得注意力系数;
S233、通过所述注意力系数对特征进行加权求和,获得每个所述顶点词在 GAT层的输出特征;
S234、采用多头注意力机制对所述输出特征进行扩展,获得所述训练样本 集的图特征。
具体而言,在本实施例中,通过Word2vec方法完成对所述样本集的词向 量的生成与训练,步骤S21中应用Bi-LSTM神经网络捕获所述训练样本集的上 下文特征向量,通过前向LSTM获取每个文本处隐藏向量表示
Figure BDA0002725491710000091
通过后向LSTM 获取文本当前的隐藏向量表示
Figure BDA0002725491710000092
通过拼接获取文本的上下文特征向量:
Figure BDA0002725491710000093
具体而言,获取上下文特征向量后,采用注意力机制根据上下文特征向量 获取所述训练样本集的文本特征向量,具体计算过程如下:
Figure BDA0002725491710000094
Figure BDA0002725491710000095
Figure BDA0002725491710000096
其中,
Figure BDA0002725491710000097
为Bi-LSTM输出的隐藏层向量,将其作为注意力机制的输入信息, 首先通过全连接层获得其表示向量μt;然后通过计算μt与词语水平的上下文向 量μw的相似度来判断不同词语对于当前词的重要程度,最后通过SoftMax将该 重要程度得分进行归一化得到αt。其中,μw在网络初始状态被随机初始化,并 且训练过程中不断学习。最后将文本中词语的重要程度αt与词语隐藏层向量
Figure BDA0002725491710000098
的加权和作为文本特征向量vt
具体而言,在所述步骤S22中采用StanfordCoreNLP作为依存句 法解析工具,获取文本的句法依赖树。句法依赖树是一种特殊的图结 构,其节点为文本中的词语,边为词语间的句法依赖关系。
具体而言,步骤S231中根据所述文本特征向量和所述有向邻接矩阵计 算注意力因子的公式如下:
eij=α(Wvi,Wvj)=LeakyRelu(WaT[Wvi||Wvj])
其中,ei,j为注意力因子。
具体而言,步骤232中应用SoftMax对注意力因子进行归一化处理,获 得注意力系数公式如下:
Figure BDA0002725491710000101
其中,αi.j为注意力系数,LeakyRelu为激活函数。
具体而言,步骤S233中输出特征计算公式如下:
Figure BDA0002725491710000102
其中,
Figure BDA0002725491710000103
为输出特征,σ(·)为非线性激活函数。
具体而言,步骤S234中采用多头注意力机制(Attention)对所述输出特 征进行扩展,获得所述训练样本集的图特征,计算公式如下:
Figure RE-GDA0002793254470000104
其中,
Figure BDA0002725491710000105
为图特征,σ(·)为非线性激活函数,||为串联操作,Wk为第k个 头中共享参数矩阵。
具体而言,步骤S24中实体关键词标签预测公式如下:
Figure RE-GDA0002793254470000106
其中,
Figure RE-GDA0002793254470000107
代表最终预测的实体关键词标签。
具体而言,步骤S25中利用交叉熵损失函数度量所述预测的实体关键词标 签与训练集中标注的实体关键词标签的差距,并添加L2正则防止过拟合,其损 失函数计算公式如下:
Figure RE-GDA0002793254470000108
其中,N为文本长度,M为标签的类别个数,θ代表模型的参数,λ是L2 正则化的参数,loss为损失函数。
然后,执行步骤S3、分析所述命名实体识别模型的识别性能,采集未标 注样本数据,根据所述命名实体识别模型对所述未标注样本数据进行标签预测。
通过本实施例所揭示的一种基于注意力机制与图注意力网络的命名实体 识别方法,面对海量的文本数据,获取其中高质量的关键词以指导关键词投放, 将注意力机制引入命名实体识别方法中,建模实体关键词之间的潜在联系与依 赖特征,提高了关键词的抽取性能,提高标签预测准确性,同时应用图注意力 网络建模文本的图特征,更加精确的判别各个候选词对当前候选实体关键词的 影响力大小,准确高效地从文本中识别实体关键词,提高了实体关键词的识别 性能。
实施例二:
结合实施例一所揭示的一种基于注意力机制与图注意力网络的命名实体 识别方法,本实施例揭示了一种基于注意力机制与图注意力网络的命名实体识 别***(以下简称“***”)的具体实施示例。
参照图5所示,所述***包括:
样本获取模块100,获取训练样本集;
模型构建模块200,根据所述训练样本集进行模型训练,构建命名实体识 别模型;
标签预测模块300,分析所述命名实体识别模型的识别性能,采集未标注 样本数据,根据所述命名实体识别模型对所述未标注样本数据进行标签预测。
在其中一些实施例中,样本获取模块100中包括:
领域识别模块101,接收到对所述命名实体识别模型进行训练的请求时, 获取所述命名实体识别模型所要识别的目标文本所在的指定领域;
数据获取模块102,根据所述指定领域,利用开源网络爬虫从网络上抓取 命名实体数据集;
文本标注模块103,对所述命名实体数据集进行标注,获得标注文本;
文本划分模块104,将所述标注文本划分为训练样本集、训练验证集、训 练测试集。
在其中一些实施例中,模型构建模块200中包括:
上下文注意力模块201,应用Bi-LSTM神经网络捕获所述训练样本集的上 下文特征向量,并采用注意力机制根据所述上下文特征向量获取所述训练样本 集的文本特征向量;
句法依赖模块202,应用依存句法解析工具,获取所述训练样本集的句法 依赖树结构,根据所述句法依赖树结构,获取所述训练样本集的句法依赖关系, 并将所述句法依赖关系的形式存储为有向邻接矩阵;
图特征编码模块203,将所述文本特征向量和所述有向邻接矩阵输入到图 特征编码层,采用GAT网络进行编码,获取所述训练样本集的图特征;
CRF输出模块204,将所述图特征经过全连接层映射到样本空间后,应用 SoftMax将其映射到相应类别标签,获得预测的实体关键词标签;
损失优化模块205,利用交叉熵损失函数度量所述预测的实体关键词标签 与训练集中标注的实体关键词标签的差距,并采用Adam作为优化器优化损失 值。
具体而言,图特征编码模块203包括:
注意力因子计算模块2031,对于所述句法依赖树结构中的每个顶点词, 根据所述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系 的相邻顶点词的注意力因子;
注意力系数计算模块2032,应用SoftMax对所述注意力因子进行归一化 处理,获得注意力系数;
输出特征计算模块2033,通过所述注意力系数对特征进行加权求和,获 得每个所述顶点词在GAT层的输出特征;
图特征计算模块2034,采用多头注意力机制对所述输出特征进行扩展, 获得所述训练样本集的图特征。
本实施例所揭示的一种基于注意力机制与图注意力网络的命名实体识 别***与实施例一所揭示的一种基于注意力机制与图注意力网络的命名实 体识别方法中其余相同部分的技术方案,请参考实施例一所述,在此 不再赘述。
实施例三:
结合图6所示,本实施例揭示了一种计算机设备的一种具体实施 方式。计算机设备可以包括处理器81以及存储有计算机程序指令的 存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定 集成电路(Application Specific Integrated Circuit,简称为 ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举 例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive, 简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive,简称 为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适 的情况下,存储器82可包括可移除或不可移除(或固定)的介质。 在合适的情况下,存储器82可在数据处理装置的内部或外部。在特 定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特 定实施例中,存储器82包括只读存储器(Read-Only Memory,简称 为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。 在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read-Only Memory,简称为PROM)、可擦除PROM (ErasableProgrammable Read-Only Memory,简称为EPROM)、电 可擦除PROM(ElectricallyErasable Programmable Read-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多 个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存 储器(Static Random-AccessMemory,简称为SRAM)或动态随机存 取存储器(Dynamic Random Access Memory,简称为DRAM),其中, DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出 动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种 数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令, 以实现上述实施例中的任意一种命名实体识别方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线 80。其中,如图6所示,处理器81、存储器82、通信接口83通过总 线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或 设备之间的通信。通信端口83还可以实现与其他部件例如:外接设 备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作 站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接 在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、 地址总线(Address Bus)、控制总线(Control Bus)、扩展总线 (Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为 AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、 工业标准架构(Industry Standard Architecture,简称为ISA)总 线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简 称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X) 总线、串行高级技术附件(Serial AdvancedTechnology Attachment, 简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的 总线或者两个或更多个以上这些的组合。在合适的情况下,总线80 可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总 线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于注意力机制与图注意力网络对文本中命名实体 进行识别,标签预测,从而实现结合图1描述的方法。
另外,结合上述实施例中命名实体识别方法,本申请实施例可提供一种计 算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令; 该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于注意力机 制与图注意力网络的命名实体识别方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,提出了一种基于注意力机制与图 注意力网络的命名实体识别方法,面对海量的文本数据,获取其中高质量的关 键词以指导关键词投放,将注意力机制引入命名实体识别方法中,建模实体关 键词之间的潜在联系与依赖特征,提高了关键词的抽取性能,提高标签预测准 确性,应用图注意力网络建模文本的图特征,更加精确的判别各个候选词对当 前候选实体关键词的影响力大小,准确高效地从文本中识别实体关键词,提高 了实体关键词的识别性能。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详 细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领 域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形 和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所 附权利要求为准。

Claims (10)

1.一种基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,包括如下步骤:
S1、获取训练样本集;
S2、根据所述训练样本集进行模型训练,构建命名实体识别模型;
S3、分析所述命名实体识别模型的识别性能,采集未标注样本数据,根据所述命名实体识别模型对所述未标注样本数据进行标签预测。
2.如权利要求1所述的基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、接收到对所述命名实体识别模型进行训练的请求时,获取所述命名实体识别模型所要识别的目标文本所在的指定领域;
S12、根据所述指定领域,利用开源网络爬虫从网络上抓取命名实体数据集;
S13、对所述命名实体数据集进行标注,获得标注文本;
S14、将所述标注文本划分为所述训练样本集、训练验证集、训练测试集。
3.如权利要求1所述的基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量,并采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向量;
S22、应用依存句法解析工具,获取所述训练样本集的句法依赖树结构,根据所述句法依赖树结构,获取所述训练样本集的句法依赖关系,并将所述句法依赖关系的形式存储为有向邻接矩阵;
S23、将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用GAT网络进行编码,获取所述训练样本集的图特征;
S24、将所述图特征经过全连接层映射到样本空间后,应用SoftMax将其映射到相应类别标签,获得预测的实体关键词标签;
S25、利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标注的实体关键词标签的差距,并采用Adam作为优化器优化损失值。
4.如权利要求3所述的基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,所述步骤S23具体包括以下步骤:
S231、对于所述句法依赖树结构中的每个顶点词,根据所述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力因子;
S232、应用SoftMax对所述注意力因子进行归一化处理,获得注意力系数;
S233、通过所述注意力系数对特征进行加权求和,获得每个所述顶点词在GAT层的输出特征;
S234、采用多头注意力机制对所述输出特征进行扩展,获得所述训练样本集的图特征。
5.如权利要求3所述的基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,所述步骤S25中交叉熵损失函数添加L2正则防止过拟合。
6.如权利要求3所述的基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,应用StanfordCoreNLP作为所述依存句法解析工具。
7.一种基于注意力机制与图注意力网络的命名实体识别***,运行如权利要求1至6中任一项所述的基于注意力机制与图注意力网络的命名实体识别方法,其特征在于,
所述基于注意力机制与图注意力网络的命名实体识别***包括:
样本获取模块,获取训练样本集;
模型构建模块,根据所述训练样本集进行模型训练,构建命名实体识别模型;
标签预测模块,分析所述命名实体识别模型的识别性能,采集未标注样本数据,根据所述命名实体识别模型对所述未标注样本数据进行标签预测。
8.如权利要求7所述的一种基于注意力机制与图注意力网络的命名实体识别***,其特征在于,所述样本获取模块包括:
领域识别模块,接收到对所述命名实体识别模型进行训练的请求时,获取所述命名实体识别模型所要识别的目标文本所在的指定领域;
数据获取模块,根据所述指定领域,利用开源网络爬虫从网络上抓取命名实体数据集;
文本标注模块,对所述命名实体数据集进行标注,获得标注文本;
文本划分模块,将所述标注文本划分为所述训练样本集、训练验证集、训练测试集。
9.如权利要求7所述的一种基于注意力机制与图注意力网络的命名实体识别***,其特征在于,所述模型构建模块包括:
上下文注意力模块,应用Bi-LSTM神经网络捕获所述训练样本集的上下文特征向量,并采用注意力机制根据所述上下文特征向量获取所述训练样本集的文本特征向量;
句法依赖模块,应用依存句法解析工具,获取所述训练样本集的句法依赖树结构,根据所述句法依赖树结构,获取所述训练样本集的句法依赖关系,并将所述句法依赖关系的形式存储为有向邻接矩阵;
图特征编码模块,将所述文本特征向量和所述有向邻接矩阵输入到图特征编码层,采用GAT网络进行编码,获取所述训练样本集的图特征;
CRF输出模块,将所述图特征经过全连接层映射到样本空间后,应用SoftMax将其映射到相应类别标签,获得预测的实体关键词标签;
损失优化模块,利用交叉熵损失函数度量所述预测的实体关键词标签与训练集中标注的实体关键词标签的差距,并采用Adam作为优化器优化损失值。
10.如权利要求9所述的一种基于注意力机制与图注意力网络的命名实体识别***,其特征在于,所述图特征编码模块包括:
注意力因子计算模块,对于所述句法依赖树结构中的每个顶点词,根据所述文本特征向量和所述有向邻接矩阵计算与所述顶点词有句法依存关系的相邻顶点词的注意力因子;
注意力系数计算模块,应用SoftMax对所述注意力因子进行归一化处理,获得注意力系数;
输出特征计算模块,通过所述注意力系数对特征进行加权求和,获得每个所述顶点词在GAT层的输出特征;
图特征计算模块,采用多头注意力机制对所述输出特征进行扩展,获得所述训练样本集的图特征。
CN202011101382.9A 2020-10-15 2020-10-15 基于注意力机制与图注意力网络的命名实体识别方法 Pending CN112183102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011101382.9A CN112183102A (zh) 2020-10-15 2020-10-15 基于注意力机制与图注意力网络的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011101382.9A CN112183102A (zh) 2020-10-15 2020-10-15 基于注意力机制与图注意力网络的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN112183102A true CN112183102A (zh) 2021-01-05

Family

ID=73950328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011101382.9A Pending CN112183102A (zh) 2020-10-15 2020-10-15 基于注意力机制与图注意力网络的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN112183102A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836519A (zh) * 2021-02-08 2021-05-25 网易(杭州)网络有限公司 文本生成模型的训练方法、文本生成方法及装置
CN113255371A (zh) * 2021-07-14 2021-08-13 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与***
CN113723102A (zh) * 2021-06-30 2021-11-30 平安国际智慧城市科技股份有限公司 命名实体识别方法、装置、电子设备及存储介质
WO2022063057A1 (en) * 2020-09-23 2022-03-31 Jingdong Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941716A (zh) * 2019-11-05 2020-03-31 北京航空航天大学 一种基于深度学习的信息安全知识图谱的自动构建方法
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗***有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941716A (zh) * 2019-11-05 2020-03-31 北京航空航天大学 一种基于深度学习的信息安全知识图谱的自动构建方法
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗***有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
杨丹浩等: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, vol. 47, no. 1, pages 193 - 198 *
段大高等: "《社交媒体内容安全挖掘技术研究》", 31 December 2019, 北京邮电大学出版社, pages: 76 - 77 *
胡甜甜等: "基于注意力机制的Bi-LSTM结合CRF的新闻命名实体识别及其情感分类", 计算机应用, vol. 40, no. 7, pages 1879 - 1883 *
许晶航: "基于深度学习与图注意力网络的因果关系抽取研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 8, pages 25 - 31 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022063057A1 (en) * 2020-09-23 2022-03-31 Jingdong Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer
US11868730B2 (en) 2020-09-23 2024-01-09 Jingdong Digits Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer
CN112836519A (zh) * 2021-02-08 2021-05-25 网易(杭州)网络有限公司 文本生成模型的训练方法、文本生成方法及装置
CN113723102A (zh) * 2021-06-30 2021-11-30 平安国际智慧城市科技股份有限公司 命名实体识别方法、装置、电子设备及存储介质
CN113723102B (zh) * 2021-06-30 2024-04-26 平安国际智慧城市科技股份有限公司 命名实体识别方法、装置、电子设备及存储介质
CN113255371A (zh) * 2021-07-14 2021-08-13 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与***

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
US10713298B2 (en) Video retrieval methods and apparatuses
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN107102993B (zh) 一种用户诉求分析方法和装置
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN112464640A (zh) 数据要素分析方法、装置、电子装置和存储介质
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN113157918A (zh) 一种基于注意力机制的商品名称短文本分类方法和***
CN112232070A (zh) 自然语言处理模型构建方法、***、电子设备及存储介质
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
JP2024518458A (ja) テキスト内の自動トピック検出のシステム及び方法
CN110852082B (zh) 同义词的确定方法及装置
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112015903A (zh) 题目判重方法、装置、存储介质、计算机设备
CN116450943A (zh) 基于人工智能的话术推荐方法、装置、设备及存储介质
JP2017538226A (ja) スケーラブルなウェブデータの抽出
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、***、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination