CN111767409B - 一种基于多头自注意力机制的实体关系抽取方法 - Google Patents

一种基于多头自注意力机制的实体关系抽取方法 Download PDF

Info

Publication number
CN111767409B
CN111767409B CN202010539229.8A CN202010539229A CN111767409B CN 111767409 B CN111767409 B CN 111767409B CN 202010539229 A CN202010539229 A CN 202010539229A CN 111767409 B CN111767409 B CN 111767409B
Authority
CN
China
Prior art keywords
entity
relationship
word
attention mechanism
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010539229.8A
Other languages
English (en)
Other versions
CN111767409A (zh
Inventor
刘杰
陈少维
王炳荃
张嘉鑫
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202010539229.8A priority Critical patent/CN111767409B/zh
Publication of CN111767409A publication Critical patent/CN111767409A/zh
Application granted granted Critical
Publication of CN111767409B publication Critical patent/CN111767409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于多头自注意力机制的实体关系抽取方法,涉及计算机应用技术。本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取,将关系检测转化为一个多标签分类问题,并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联,通过将不同的关系类别转化为多头注意力机制中不同的特征子空间,本发明可以独立学习不同关系类别下词之间的语义交互,并独立建模不同关系类别下词之间的关联程度,进而可以灵活地识别重叠的关系三元组。

Description

一种基于多头自注意力机制的实体关系抽取方法
技术领域
本发明涉及计算机应用技术。
背景技术
随着信息技术的发展,互联网中积累了大量的文本数据,例如新闻文本数据、社交文本数据等。这些数据背后通常蕴含着大量的知识,基于这些知识构建的大型知识图谱被广泛应用于搜索引擎、问答***等自然语言处理任务中。为了自动化地从海量文本数据中构建知识图谱,实体关系抽取逐渐成为一个热门的研究任务。实体关系抽取任务旨在识别文本中存在的(实体,关系类型,实体)三元组,而文本中存在的三元组又可以分为三类,即普通三元组、单实体重叠三元组、以及实体对重叠三元组。其中,单实体重叠三元组是指两个关系三元组共享同一个实体;实体对重叠三元组是指两个实体间存在多重关系。
传统的实体关系抽取方法[1-7]通常构建管道式的模型,这类模型将实体关系抽取任务拆解为实体抽取和关系分类两个相互独立的子任务,首先识别句子中存在的实体集合,随后预测任意两个实体之间存在的关系。虽然这类方法可以灵活地对实体抽取和关系分类进行独立优化,但是存在错误传递问题。
为了有效地考虑实体抽取和关系分类两个子任务之间的交互关系,许多研究工作[8-11]构建了统一的框架进行实体和关系的联合抽取。但是这些方法通常假定一个实体仅属于一个关系三元组,因此无法准确抽取上述的两类重叠关系三元组。
近年来,最新的研究工作主要关注于如何有效预测重叠的关系三元组。例如,Fu等人[12]提出一个基于图卷积神经网络(Graph Convolutional Network,GCN)的两阶段联合模型,通过在第二阶段构建关系加权GCN可以有效学习关系三元组之间的交互关系。Takanobu等人[13]提出了一个层次强化学习框架,该框架设计了一个低层策略进行实体抽取,并构建了一个高层策略进行关系检测。 Dai等人[14]设计了一种新的标注规则,并提出了一个位置感知的注意力机制来识别重叠的关系三元组。此外,序列到序列模型[15-18]也被广泛用于识别重叠的关系三元组,但是这类方法通常存在难以预测完整的实体边界、实体边界识别准确率较低等问题。
为了提升重叠关系三元组的识别效果,现有的研究工作通常采用图神经网络、强化学习、序列到序列模型等技术。虽然现有工作取得了突出的研究成果,但是它们均将关系分类转化为普通的多分类问题,并构建一个简单的分类器来预测任意两个实体之间可能存在的关系类别。这类做法存在以下两个问题:
第一,无法学习不同关系类别下实体之间不同的交互特征。例如,若在给定文本中,实体对(柬埔寨,金边)存在“包含”和“首都”两类关系,那么在预测“包含”关系时,应考虑地理位置上的语义,而当预测“首都”关系时,则应考虑行政功能上的语义。
第二,无法独立计算不同关系类别下实体之间的关联程度。例如,当两个实体之间存在三种关系时,两个实体在三个关系类别下都应具有较高的关联强度。但是如果简单地采用一个分类器来进行关系预测,则会导致三个关系类别之间发生互斥,进而使得三个关系对应的概率分别仅为0.3左右。
以上两个问题在一定程度上限制了现有模型的性能。
发明内容
本发明目的是解决现有实体关系抽取工作中存在的重叠关系三元组识别问题,并提供一种基于多头自注意力机制的实体关系抽取方法。
为了有效解决上述问题,本发明提供一种基于多头自注意力机制的实体关系抽取方法。为了同步识别文本中的实体集合以及实体之间的关系,本发明构建了一个实体抽取模块和一个关系检测模块。在实体抽取模块,本发明采用条件随机场(CRF)来识别实体的边界。在关系检测模块,为了灵活识别重叠的关系三元组,本发明将关系检测转化为一个多标签分类问题,并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联。特别地,在关系检测模块,为了独立建模不同关系类型下的交互特征与关联程度,本发明将不同的关系类别映射到多头自注意力机制中不同的特征子空间,并学习不同特征子空间下词之间的语义关联。基于两个模块的识别结果,本发明提出一个推理层来得到最终的关系三元组集合。
一种基于多头自注意力机制的实体关系抽取方法,包括以下步骤:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示;
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界;
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系;
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化;
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
本发明的有益效果是:
1、实体关系联合抽取:本发明主要包含一个实体抽取模块和一个关系检测模块,通过共享相同的编码层以及联合学习的方式可以实现两个模块的联合学习,进而有效避免传统方法中存在的错误传递问题。2、重叠关系三元组的识别:考虑到两个实体之间可能存在多重关系,本发明将关系检测转化为一个多标签分类任务,并提出一个词级别有监督的多头自注意力机制。通过将不同的关系类别转化为多头注意力机制中不同的特征子空间,本发明可以独立学习不同关系类别下词之间的语义交互,并独立建模不同关系类别下词之间的关联程度,进而可以灵活地识别重叠的关系三元组。
附图说明
附图1是本发明的整体***结构示意图。
附图2是基于多头注意力机制的实体关系抽取方法的示意图。
具体实施方式
下面结合附图和具体实施对本发明提供的基于多头自注意力机制的实体关系抽取方法进行详细说明。
本发明主要采用深度学***台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、 GPU环境、Linux操作***,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
如图1所示,本发明提供的基于多头自注意力机制的实体关系组抽取方法包括按顺序执行的下列步骤:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示。
步骤1.1)采用Stanford NLP工具包对输入文本进行分词处理,得到对应的词序列。
步骤1.2)对词序列中的每个词,构建词嵌入表示和字符级特征表示,并将两者进行拼接得到每个词的初始特征表示。
步骤1.3)使用双向长短期记忆网络(BLSTM)作为编码层,输入步骤1.2) 得到的词初始特征表示,输出每个词的上下文语义表示。
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界。
步骤2.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到实体抽取模块的输入特征表示序列。
步骤2.2)将实体抽取任务转化为序列标注任务,并基于步骤2.1)得到的输入特征表示序列,采用条件随机场(CRF)进行实体边界的识别。
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系。
步骤3.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到关系检测模块的输入特征表示序列。
步骤3.2)将关系检测任务转化为多标签分类任务,并基于步骤3.1)得到的输入特征表示序列,采用词级别有监督的多头自注意力机制进行词级别的关系检测。
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化。
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
步骤5.1)基于步骤2)预测的标签序列,抽取文本中存在的实体集合。
步骤5.2)基于步骤5.1)得到的实体集合和步骤3)预测的词级别自注意力权重矩阵,抽取关系三元组。
参见附图2,本发明详细步骤如下:
步骤1)编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示。
步骤1.1)采用StanfordNLP工具包对输入文本进行分词处理,得到对应的词序列X={x1,x2,…,xN}。
例如,给定文本“北京是中国的首都。”,经过分词处理,可以得到词序列X= {"北京","是","中国","的","首都","。"}。
步骤1.2)对词序列中的每个词xi,构建其对应的词嵌入表示
Figure BDA0002538276480000061
和字符级特征表示
Figure BDA0002538276480000062
这里,字符级的特征表示是由一个BLSTM结构得到, dw和dc分别表示词嵌入表示维度和字符级特征表示维度。通过将上述两个表示进行拼接,可以得到每个词的初始特征表示ei
例如,对于词序列中的第一个词“北京”,其对应的词嵌入表示可为
Figure BDA0002538276480000063
Figure BDA0002538276480000064
其对应的字符级特征表示可为
Figure BDA0002538276480000065
通过拼接,可以得到其初始特征表示e1=[0.44,0.82,…,0.78,0.55,0.68,…,-0.89]。
步骤1.3)使用双向长短期记忆网络(BLSTM)作为编码层,输入步骤1.2) 得到的词初始特征表示序列
E={e1,e2,…,eN},输出每个词的上下文语义表示序列H={h1,h2,…,hN}。具体的计算过程如下:
Figure BDA0002538276480000066
Figure BDA0002538276480000067
Figure BDA0002538276480000068
其中,LSTMf和LSTMb分别表示前向和后向的LSTM结构。
例如,对于词序列中的第一个词“北京”,其经过BLSTM编码后的语义表示可为h1=[0.99,0.14,…,0.57]。
步骤2)实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界。
步骤2.1)采用全连接层对步骤1)编码的上下文语义表示序列H= {h1,h2,…,hN}进行全连接层变换,得到实体抽取模块的输入特征表示序列U= {u1,u2,…,uN}:
U=HWu+bu
其中,
Figure BDA0002538276480000071
Figure BDA0002538276480000072
为模型参数,dh为上下文语义表示的维度,du为实体抽取模块输入特征表示的维度。
例如,对于词序列中的第一个词“北京”,其实体抽取模块输入特征表示可为u1=[0.02,0.56,…,0.12]。
步骤2.2)将实体抽取任务转化为序列标注任务,并基于步骤2.1)得到的输入特征表示序列U={u1,u2,…,uN},采用条件随机场(CRF)进行实体边界的识别。
具体地,CRF主要包含一个状态特征矩阵
Figure BDA0002538276480000073
和一个转移特征矩阵
Figure BDA0002538276480000074
Figure BDA0002538276480000075
这里,状态特征矩阵主要用于建模词与标签之间的映射关系,而转移特征矩阵主要建模相邻标签之间的转移关系。此外,K表示标签空间的维度,本发明采用BIO的标注规则,由此标签空间的维度是3。对于任意一个可能的标签序列
Figure BDA0002538276480000076
其对应的分值可通过如下公式进行计算:
Figure BDA0002538276480000077
P=UWp+bp
其中,
Figure BDA0002538276480000078
Figure BDA0002538276480000079
为模型参数。随后,标签序列对应的概率可由如下公式进行计算:
Figure BDA0002538276480000081
例如,标签序列
Figure BDA0002538276480000082
对应的概率为0.9。
在模型训练过程中,本发明最大化标准标签序列对应的概率P(Y|X)。因此,本发明采用最小化如下负对数似然函数的方式对参数进行优化:
Figure BDA0002538276480000083
在测试过程中,本发明采用维特比算法搜索最优的标签序列。
步骤3)关系检测模块:基于步骤1)编码的词的上下文语义表示序列,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系。
步骤3.1)采用全连接层对步骤1)编码的上下文语义表示序列H= {h1,h2,…,hN}进行全连接层变换,得到关系检测模块的输入特征表示序列A= {a1,a2,…,aN}:
A=HWa+ba
其中,
Figure BDA0002538276480000084
Figure BDA0002538276480000085
为模型参数,da为关系检测模块输入特征表示的维度。
例如,对于词序列中的第一个词“北京”,其关系检测模块输入特征表示可为a1=[0.8,0.1,…,0.98]。
步骤3.2)将关系检测任务转化为多标签分类任务,并基于步骤3.1)得到的输入特征表示序列A={a1,a2,…,aN},采用词级别有监督的多头自注意力机制进行词级别的关系检测。
具体地,为了独立建模词在不同关系类别下的交互信息和关联强度,本步骤首先将不同的关系类别映射到多头自注意力机制的不同的特征子空间:
Figure BDA0002538276480000086
Figure BDA0002538276480000091
其中,
Figure BDA0002538276480000092
Figure BDA0002538276480000093
为模型参数,dr为每个特征子空间的维度。
Figure BDA0002538276480000094
Figure BDA0002538276480000095
为第m个特征子空间(即第m个关系类别)的查询(query)和关键词(key)。
随后,可计算每个特征子空间下的注意力权重矩阵
Figure BDA0002538276480000096
Figure BDA0002538276480000097
其中,矩阵中每个元素
Figure BDA0002538276480000098
表示在第m个关系类别下第i个词和第j个词之间的关联强度。
例如,文本中第一个词“北京”和第三个词“中国”在“首都”的关系类别下的关联程度为0.8。
为了指导本步骤进行关系检测,本发明进一步引入了监督信息,并最大化标准关系对应的似然概率:
Figure BDA0002538276480000099
Figure BDA00025382764800000910
其中,
Figure BDA00025382764800000911
表示第i个词和第j个词之间具有第m种关系,
Figure BDA00025382764800000912
则表示两个词之间不存在第m种关系。为了有效识别重叠的关系三元组,本发明将关系检测当作多标签分类问题,并在模型训练过程中采用二元交叉熵损失优化模型参数:
Figure BDA00025382764800000913
其中,
Figure BDA0002538276480000101
为标准的关系分布,
Figure BDA0002538276480000102
为模型预测的关系分布。
步骤4)联合学习:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化。
为了对步骤1)、步骤2)和步骤3)中的参数进行联合学习,本发明将步骤 2)和步骤3)中介绍的两个损失函数进行加和作为最终的损失,并采用RMSprop 优化器对参数进行优化:
Figure BDA0002538276480000103
步骤5)推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
步骤5.1)基于步骤2)预测的标签序列
Figure BDA0002538276480000104
可得到文本中存在的实体集合ε={e1,e2,…,eN}。
例如,基于步骤2)预测的标签序列
Figure BDA0002538276480000105
可得到文本中包含的实体集合ε={"北京","中国"}。
步骤5.2)基于步骤5.1)得到的实体集合ε和步骤3)预测的词级别注意力权重矩阵G,抽取关系三元组。
本发明遍历实体集合ε中所有可能的实体对,并根据注意力权重矩阵G判断实体对是否存在关系以及存在何种关系。例如,给定实体集合中的第i个实体
Figure BDA0002538276480000106
和第j个实体
Figure BDA0002538276480000107
两个实体在第m种关系类别下的关联强度δ可计算如下:
Figure BDA0002538276480000108
其中,pi、qi、pj和qj分别表示两个实体在文本中的起止位置。当关联强度δ高于给定的阈值
Figure BDA0002538276480000111
时,可得到关系三元组<ei,rm,ej>。这里,rm表示第m种关系。
例如,经过计算,实体“北京”和实体“中国”在“首都”的关系类别下的关联程度为0.8。本发明设置阈值
Figure BDA0002538276480000112
因此可以得到关系三元组 <"北京","首都","中国">。
参考文献:
[1]Dmitry Zelenko,Chinatsu Aone,and Anthony Richardella.Kernelmethods for relation extraction.J.Mach.Learn.Res.,3:1083–1106,2003.
[2]Makoto Miwa,Rune
Figure BDA0002538276480000121
Yusuke Miyao,and Jun’ichi Tsujii.A richfeature vector for protein-protein interaction extraction from multiplecorpora.In EMNLP 2009,pages 121–130,2009.
[3]Mike Mintz,Steven Bills,Rion Snow,and Daniel Jurafsky.Distantsupervision for relation extraction without labeled data.In ACL 2009,Singapore, pages 1003–1011,2009.
[4]Yee Seng Chan and Dan Roth.Exploiting syntactico-semanticstructures for relation extraction.In ACL 2011,Portland,Oregon,USA,pages 551–560,2011.
[5]Raphael Hoffmann,Congle Zhang,Xiao Ling,Luke S.Zettlemoyer,andDaniel S.Weld.Knowledge-based weak supervision for information extraction ofoverlapping relations.In ACL 2011,Portland,Oregon,USA,pages 541–550,2011.
[6]Daojian Zeng,Kang Liu,YuboChen,and Jun Zhao.Distant supervisionfor relation extraction via piecewise convolutional neuralnetworks.EMNLP2015, Lisbon,Portugal,September 17-21,2015,pages 1753–1762,2015.
[7]Yatian Shen and Xuanjing Huang.Attention-based convolutionalneural network for semantic relation extraction.In COLING 2016,December 11-16,2016, Osaka,Japan,pages 2526–2536,2016.
[8]Makoto Miwa and Mohit Bansal.End-to-end relation extraction usinglstms on sequences and tree structures.In ACL 2016,2016.
[9]Meishan Zhang,Yue Zhang,and Guohong Fu.End-to-end neural relationextraction with global optimization.In EMNLP 2017,pages 1730–1740,2017.
[10]Suncong Zheng,Feng Wang,Hongyun Bao,Yuexing Hao,Peng Zhou,and BoXu.Joint extraction of entities and relations based on a novel taggingscheme.In ACL 2017,pages 1227–1236,2017.
[11]Changzhi Sun,Yeyun Gong,Yuanbin Wu,Ming Gong,Daxin Jiang,Man Lan,Shiliang Sun,and Nan Duan.Joint type inference on entities and relations viagraph convolutional networks.In ACL 2019,pages 1361–1370,2019.
[12]Tsu-Jui Fu,Peng-Hsuan Li,and Wei-Yun Ma.Graphrel:Modeling text asrelational graphs for joint entity and relation extraction.In ACL 2019,pages1409–1418,2019.
[13]Ryuichi Takanobu,Tianyang Zhang,Jiexi Liu,and Minlie Huang.Ahierarchical framework for relation extraction with reinforcement learning.InAAAI 2019,pages 7072–7079,2019.
[14]Dai Dai,Xinyan Xiao,Yajuan Lyu,Shan Dou,Qiaoqiao She,and HaifengWang.Joint extraction of entities and overlapping relations using position-attentive sequence labeling.In AAAI 2019,pages 6300–6308,2019.
[15]Xiangrong Zeng,Daojian Zeng,Shizhu He,Kang Liu,and Jun Zhao.Extracting relational facts by an end-to-end neural model with copymechanism.In ACL 2018,pages 506–514,2018.
[16]Daojian Zeng,Haoran Zhang,and Qianying Liu.Copymtl:Copy mechanismfor joint extraction of entities and relations with multi-task learning.CoRR,abs/1911.10438,2019.
[17]Xiangrong Zeng,Shizhu He,Daojian Zeng,Kang Liu,Shengping Liu,andJun Zhao.Learning the extraction order of multiple relational facts in asentence with reinforcement learning.In EMNLP 2019,pages 367–377,2019.
[18]Tapas Nayak and Hwee Tou Ng.Effective modeling of encoder-decoderarchitecture for joint entity and relation extraction.CoRR,abs/1911.09886,2019. 。

Claims (8)

1.一种基于多头自注意力机制的实体关系抽取方法,其特征是包括以下步骤:
步骤1)构建编码层:基于双向长短期记忆网络学习文本中词的上下文语义表示;
步骤2)构建实体抽取模块:基于步骤1)编码的词的上下文语义表示,利用条件随机场识别文本中的实体边界;
步骤3)构建关系检测模块:基于步骤1)编码的词的上下文语义表示,利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系;
步骤4)联合学习的步骤:构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化;
步骤5)构建推理层:对步骤2)和步骤3)的识别结果进行整合,得到最终预测的意见三元组。
2.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤1)包括以下步骤:
步骤1.1)采用Stanford NLP工具包对输入文本进行分词处理,得到对应的词序列;
步骤1.2)对词序列中的每个词,构建词嵌入表示和字符级特征表示,并将两者进行拼接得到每个词的初始特征表示;
步骤1.3)使用双向长短期记忆网络作为编码层,输入步骤1.2)得到的词初始特征表示,输出每个词的上下文语义表示。
3.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤2)包括以下步骤:
步骤2.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到实体抽取模块的输入特征表示序列;
步骤2.2)将实体抽取任务转化为序列标注任务,并基于步骤2.1)得到的输入特征表示序列,采用条件随机场进行实体边界的识别。
4.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤3)包括以下步骤:
步骤3.1)采用全连接层对步骤1)编码的上下文语义表示进行变换,得到关系检测模块的输入特征表示序列;
步骤3.2)将关系检测任务转化为多标签分类任务,并基于步骤3.1)得到的输入特征表示序列,采用词级别有监督的多头自注意力机制进行词级别的关系检测。
5.根据权利要求1所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤5)包括以下步骤:
步骤5.1)基于步骤2)预测的标签序列,抽取文本中存在的实体集合;
步骤5.2)基于步骤5.1)得到的实体集合和步骤3)预测的词级别自注意力权重矩阵,抽取关系三元组。
6.根据权利要求1或2所述的基于多头自注意力机制的实体关系抽取方法,其特征是步骤1.3)具体的计算过程如下:
Figure FDA0003756743480000021
Figure FDA0003756743480000022
Figure FDA0003756743480000023
其中,LSTMf和LSTMb分别表示前向和后向的LSTM结构,
词初始特征表示序列E={e1,e2,...,eN},输出每个词的上下文语义表示序列H={h1,h2,...,hN}。
7.根据权利要求4所述的基于多头自注意力机制的实体关系抽取方法,其特征是:
步骤3.2)中,为了独立建模词在不同关系类别下的交互信息和关联强度,本步骤首先将不同的关系类别映射到多头自注意力机制的不同的特征子空间:
Figure FDA0003756743480000031
Figure FDA0003756743480000032
其中,
Figure FDA0003756743480000033
Figure FDA0003756743480000034
为模型参数,da为关系检测模块输入特征表示的维度,dr为每个特征子空间的维度,
Figure FDA0003756743480000035
Figure FDA0003756743480000036
为第m个特征子空间的查询query和关键词key;
随后,计算每个特征子空间下的注意力权重矩阵
Figure FDA0003756743480000037
Figure FDA0003756743480000038
其中,矩阵中每个元素
Figure FDA0003756743480000039
表示在第m个关系类别下第i个词和第j个词之间的关联强度。
8.根据权利要求5所述的基于多头自注意力机制的实体关系抽取方法,其特征是:
步骤5.2)中,遍历实体集合ε中所有可能的实体对,并根据注意力权重矩阵G判断实体对是否存在关系以及存在何种关系;
给定实体集合中的第i个实体
Figure FDA00037567434800000310
和第j个实体
Figure FDA00037567434800000311
两个实体在第m种关系类别下的关联强度δ可计算如下:
Figure FDA00037567434800000312
其中,pi、qi、pj和qj分别表示两个实体在文本中的起止位置,当关联强度δ高于给定的阈值
Figure FDA0003756743480000041
时,得到关系三元组<ei,rm,ej>,其中,rm表示第m种关系。
CN202010539229.8A 2020-06-14 2020-06-14 一种基于多头自注意力机制的实体关系抽取方法 Active CN111767409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539229.8A CN111767409B (zh) 2020-06-14 2020-06-14 一种基于多头自注意力机制的实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539229.8A CN111767409B (zh) 2020-06-14 2020-06-14 一种基于多头自注意力机制的实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN111767409A CN111767409A (zh) 2020-10-13
CN111767409B true CN111767409B (zh) 2022-08-30

Family

ID=72720924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539229.8A Active CN111767409B (zh) 2020-06-14 2020-06-14 一种基于多头自注意力机制的实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN111767409B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270179B (zh) * 2020-10-15 2021-11-09 和美(深圳)信息技术股份有限公司 一种实体识别方法、装置及电子设备
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及***
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法
CN112905713B (zh) * 2020-11-13 2022-06-14 昆明理工大学 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN112307761A (zh) * 2020-11-19 2021-02-02 新华智云科技有限公司 基于注意力机制的事件抽取方法及***
CN112507826B (zh) * 2020-11-27 2024-02-06 西安电子科技大学 一种端到端生态变化监测方法、终端、计算机设备及介质
CN112836482B (zh) * 2021-02-09 2024-02-23 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和***
CN112966527B (zh) * 2021-04-21 2022-12-30 吉林大学 一种基于自然语言推理的关系抽取模型的生成方法
CN113220844B (zh) * 2021-05-25 2023-01-24 广东省环境权益交易所有限公司 基于实体特征的远程监督关系抽取方法
CN113553385B (zh) * 2021-07-08 2023-08-25 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113806493B (zh) * 2021-10-09 2023-08-29 中国人民解放军国防科技大学 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN115759098B (zh) * 2022-11-14 2023-07-18 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109902145B (zh) * 2019-01-18 2021-04-20 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN110781683B (zh) * 2019-11-04 2024-04-05 河海大学 一种实体关系联合抽取方法

Also Published As

Publication number Publication date
CN111767409A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111767409B (zh) 一种基于多头自注意力机制的实体关系抽取方法
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和***
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN111709241B (zh) 一种面向网络安全领域的命名实体识别方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN116010713A (zh) 基于云计算的创新创业平台服务数据处理方法及***
CN112069811A (zh) 多任务交互增强的电子文本事件抽取方法
CN113688631B (zh) 一种嵌套命名实体识别方法、***、计算机和存储介质
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
WO2023109436A1 (zh) 词性感知嵌套命名实体识别方法、***、设备和存储介质
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
WO2023040742A1 (zh) 文本数据的处理方法、神经网络的训练方法以及相关设备
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及***
CN117807482B (zh) 海关报关单的分类方法、装置、设备及存储介质
Zhang et al. Hierarchical representation and deep learning–based method for automatically transforming textual building codes into semantic computable requirements
CN111723649B (zh) 一种基于语义分解的短视频事件检测方法
CN113312920A (zh) 基于图对比学习的验证方法、***、设备和存储介质
CN113627197B (zh) 文本的意图识别方法、装置、设备及存储介质
CN113850078B (zh) 基于机器学习的多意图识别方法、设备及可读存储介质
Li et al. A multimodal entity linking approach incorporating topic concepts
CN114996407B (zh) 基于包重构的远程监督关系抽取方法及***
CN117725928B (zh) 基于关键词异构图和语义匹配的金融文本摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant