CN116595406A - 基于角色一致性的事件论元角色分类方法及*** - Google Patents
基于角色一致性的事件论元角色分类方法及*** Download PDFInfo
- Publication number
- CN116595406A CN116595406A CN202310385316.6A CN202310385316A CN116595406A CN 116595406 A CN116595406 A CN 116595406A CN 202310385316 A CN202310385316 A CN 202310385316A CN 116595406 A CN116595406 A CN 116595406A
- Authority
- CN
- China
- Prior art keywords
- argument
- role
- word
- character
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003993 interaction Effects 0.000 claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 239000013604 expression vector Substances 0.000 claims description 97
- 239000013598 vector Substances 0.000 claims description 64
- 239000011159 matrix material Substances 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 40
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 230000004931 aggregating effect Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000004378 air conditioning Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Computer Security & Cryptography (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于角色一致性的事件论元角色分类方法及***,采用图神经网络结构,将每个论元的预估角色概率分布融入事件触发词与事件论元的关联特征建模中,通过在触发词与各论元连接的星形图上进行多阶图神经网络交互,使得每个论元感知其他论元的角色信息,从而提高事件内所有论元角色整体的一致性。
Description
技术领域
本发明涉及信息抽取领域,并特别涉及一种可用于提高事件抽取任务中事件论元角色预测效果的方法。
背景技术
事件(Event)作为信息的一种结构化表示,是指涉及某些参与者的实际发生的事情。作为一类特殊的信息抽取任务,事件抽取的目标是从给定文本中抽取出预定义事件类型的实例。事件一般由触发词(Trigger)和论元(Argument)两部分组成,其中触发词是文本中最能清楚地表达事件发生的词,一般是事件所在句子的核心动词;论元与事件相关,并在事件中扮演一定角色的实体,和上述实例不同的是,上述实例的为从文本中抽取出结构化的事件,事件的结构符合某个预定义事件类型的结构;实体是某一个概念的实例,比如“北京”是实体,它是“地点”或“城市”的一个实例。两者是存在联系的,事件实例中的论元必须是实体。一般来说,事件抽取一般可以分为触发词抽取和论元抽取两个任务进行,其中触发词抽取任务的目标是找出事件的触发词,并判断事件类型;论元抽取任务的目标是对于给定文本及事件触发词,判断文本中的实体是否是事件的相关论元,如果是则判断该实体在事件中担任的角色,预测角色实际上是给论元进行分类,此处角色可以是“地点”、“时间”、“买方”等。比如在“A在29日抵达巴黎”这句话中,“抵达”是触发词,“A”担任“访问人”这一论元角色,“29日”担任“时间”这一论元角色,“巴黎”担任“地点”这一论元角色。通过近些年对于事件抽取研究工作推进,现有的方法对于触发词抽取任务已有较好的效果,而论元抽取因论元角色本体结构复杂,论元角色的预测较为困难,也成为了整个事件抽取任务的瓶颈。论元角色预测任务的重点在于候选论元实体的上下文语义建模和论元同事件触发词以及其他论元间的关联特征建模。通过准确预测论元角色,以下几种技术应用将得到显著性能提升:1.信息检索:可在抽取出的论元实体(人物、组织、机构等)维度构建新索引,快速检索出含有某种特定事件类型或含有特定实体论元所参与事件的文档等;2.事件知识图谱:抽取出的论元角色与触发词一起构成事件,参与构建事件知识图谱,为事件预测、事件关系推理等下游任务提供基础。
对于候选论元实体的上下文语义建模,随着深度学习的发展,现存的方法采用愈加结构化的文本语义编码网络结构,从卷积神经网络到循环神经网络,再到带有快速链接的循环神经网络,缓解长距离依赖信息丢失问题,再到最近的图神经网络结构,将序列建模转化为图信息建模。图神经网络因其信息传递的无序,能够很好地解决文本语义编码中的长距离依赖建模不佳的问题。而现有的基于图神经网络的方法都是基于依存关系建图来建模语义信息,而依存关系需要基于第三方工具进行解析,这将使得第三方工具的噪声会被引入进论元角色上下文语义编码中。
对于论元与触发词及其他论元间的关联特征建模问题,现存的方法将论元与其他事件要素的关联特征通过记忆矩阵、注意力机制等方法建模,但其存在的问题是在特征建模后进行角色预测分类时,均独立预测,未考虑不同论元角色之间是否正确、完备且相容,即角色间的一致性未被建模,这使得最终预测的论元角色之间易出现矛盾、错漏等不一致的结果。
综上所述,现有技术中存在未对于同一事件不同论元的角色一致性建模以及图神经网络语义建模易引入第三方工具噪声的问题。
发明内容
为了克服上述现有技术中存在的不足,本发明提供了一种基于角色一致性建模的事件论元角色预测方法。该方法采用图神经网络结构,将每个论元的预估角色概率分布融入事件触发词与事件论元的关联特征建模中,通过在触发词与各论元连接的星形图上进行多阶图神经网络交互,使得每个论元感知其他论元的角色信息,从而提高事件内所有论元角色整体的一致性。
针对现有技术的不足,本发明提出一种基于角色一致性的事件论元角色分类方法,其中包括:
训练语料预处理步骤,获取已标注事件论元角色类别和事件触发词的训练语料,对该训练语料中文本进行分词,并根据语言表征模型BERT的预训练词典,得到每个词在该预训练词典中的ID;将所有词ID构成的词序列输入BERT的多层翻译模型Transformer,以对该词序列进行预编码,得到词表示向量;
候选论元语义编码步骤,聚合该事件触发词和该词表示向量,得到触发词的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量;
候选论元特征编码步骤,根据事件类型选择对应的特征建模网络对候选论元的语义表达向量进行编码,得到每个候选论元的特征表达向量;
候选论元角色解码步骤,从全局和局部两种维度对每个候选论元的特征表达向量进行解码,得到两个维度下角色概率分布矩阵;
角色一致性信息交互步骤,在触发词-论元连接图上进行多阶的图神经网络交互,将该两个维度下的角色概率分布矩阵融入到基于触发词-论元连接图的信息交互中,得到每个候选论元融合了角色概率信息的全局表达向量,作为新的候选论元的语义表达向量;
迭代式角色分类步骤,再次执行该候选论元特征编码步骤、该候选论元角色解码步骤和该角色一致性信息交互步骤,直到解码得到的角色概率分布矩阵收敛,将其概率最大的角色类别的作为最终的论元角色预测的输出。
所述的基于角色一致性的事件论元角色分类方法,其中该训练语料预处理步骤包括:
对文本进行分词,并将同一批词的输入按该批词最长的文本长度填充为相同长度;
通过BERT语言模型对输入字、该词序列T进行预编码,获得具有动态语义表达的词表示向量C={c0,c1,…,cn};
C=BERT(T)
该候选论元语义编码步骤包括:
对该事件触发词和该词表示向量进行聚合,得到各自的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量
该候选论元特征编码步骤包括:通过事件类型E相关的特征编码器对各候选论元A进行特征编码,得到其特征表达向量U={u0,u1,...,uK};
所述的基于角色一致性的事件论元角色分类方法,其中该候选论元角色解码步骤包括:
通过两个全连接网络FNN学习局部和全局维度下的特征向量Ulocal和Uglobal:
Ulocal=FNNlocal(U)
Ulocal=FNNlocal(U)
通过局部和全局维度的softmax进行解码,得到局部维度下每个论元Ak在不同角色Rm下的概率分布矩阵PA,以及全局维度下每种角色Rm在不同论元Ak下的概率分布矩阵PR;
其中表示第k个论元属于E事件中的第m种角色的概率,/>表示第m种角色由第k个论元表达的概率;根据角色的标签L做出交叉熵损失函数:
其中,表示第k个论元属于第m种角色的真实概率标签,若存在角色重叠现象时则由多个角色等分概率;/>则表示第m种角色由第k个论元承担的真实概率标签,同一角色由多个论元承担时概率等分;
所述的基于角色一致性的事件论元角色分类方法,其中该角色一致性信息交互步骤包括:使用图神经网络RGCN对该触发词-论元连接图进行消息传递,每层该图神经网络的消息传递会使每个节点获得其邻居的特征和角色概率分布信息;在该触发词-论元连接图中事件触发词与所有论元相连,通过两层的图神经网络传递信息,每个论元都会包括触发词在内的所有节点信息;对于每种事件类型E均设置了对应的独立的模型参数,在图消息传递阶段,将触发词表示HT以及论元的语义表达向量作为图节点的初始化表示,边权矩$Walong,Wloop由角色标签信息聚合模块的标签概率矩阵PA和PR得到,Walong表示跨节点的连边,Wloop表示各节点内部自环边;设置有Wet和张量Wrole作为触发词类型对应的线性变换矩阵以及该类型下所有论元角色对应的线性变换矩阵集合;通过全局和局部的两个维度的标签概率,对张量Wrole加权得到自环边和非自环边的边权矩阵/>和
对论元和触发词表示映射到融入了标签概率信息的新的空间中,并进行第一层图网络信息交互,得到交互后的触发词和论元节点表示H′T及
使用新的节点表示再次进行相同操作,完成二阶的图信息交互:
该迭代式角色分类步骤包括,将H″A作为新的融合向量表示HA,再次执行该候选论元特征编码步骤,H″T则回到第一层的图网络信息交互位置再次进行循环,直到解码得到的角色概率分布矩阵收敛。
本发明还提出了一种基于角色一致性的事件论元角色分类***,其中包括:
训练语料预处理模块,获取已标注事件论元角色类别和事件触发词的训练语料,对该训练语料中文本进行分词,并根据语言表征模型BERT的预训练词典,得到每个词在该预训练词典中的ID;将所有词ID构成的词序列输入BERT的多层翻译模型Transformer,以对该词序列进行预编码,得到词表示向量;
候选论元语义编码模块,聚合该事件触发词和该词表示向量,得到触发词的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量;
候选论元特征编码模块,根据事件类型选择对应的特征建模网络对候选论元的语义表达向量进行编码,得到每个候选论元的特征表达向量;
候选论元角色解码模块,从全局和局部两种维度对每个候选论元的特征表达向量进行解码,得到两个维度下角色概率分布矩阵;
角色一致性信息交互模块,在触发词-论元连接图上进行多阶的图神经网络交互,将该两个维度下的角色概率分布矩阵融入到基于触发词-论元连接图的信息交互中,得到每个候选论元融合了角色概率信息的全局表达向量,作为新的候选论元的语义表达向量;
迭代式角色分类模块,再次执行该候选论元特征编码模块、该候选论元角色解码模块和该角色一致性信息交互模块,直到解码得到的角色概率分布矩阵收敛,将其概率最大的角色类别的作为最终的论元角色预测的输出。
所述的基于角色一致性的事件论元角色分类***,其中该训练语料预处理模块包括:
对文本进行分词,并将同一批词的输入按该批词最长的文本长度填充为相同长度;
通过BERT语言模型对输入字、该词序列T进行预编码,获得具有动态语义表达的词表示向量C={c0,c1,...,cn};
C=BERT(T)
该候选论元语义编码模块包括:
对该事件触发词和该词表示向量进行聚合,得到各自的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量
该候选论元特征编码模块包括:通过事件类型E相关的特征编码器对各候选论元A进行特征编码,得到其特征表达向量U={u0,u1,...,uK};
所述的基于角色一致性的事件论元角色分类***,其中该候选论元角色解码模块包括:
通过两个全连接网络FNN学习局部和全局维度下的特征向量Ulocal和Uglobal:
Ulocal=FNNlocal(U)
Ulocal=FNNlocal(U)
通过局部和全局维度的softmax进行解码,得到局部维度下每个论元Ak在不同角色Rm下的概率分布矩阵PA,以及全局维度下每种角色Rm在不同论元Ak下的概率分布矩阵PR;
其中表示第k个论元属于E事件中的第m种角色的概率,/>表示第m种角色由第k个论元表达的概率;根据角色的标签L做出交叉熵损失函数:
其中,表示第k个论元属于第m种角色的真实概率标签,若存在角色重叠现象时则由多个角色等分概率;/>则表示第m种角色由第k个论元承担的真实概率标签,同一角色由多个论元承担时概率等分;
所述的基于角色一致性的事件论元角色分类***,其中该角色一致性信息交互模块包括:使用图神经网络RGCN对该触发词-论元连接图进行消息传递,每层该图神经网络的消息传递会使每个节点获得其邻居的特征和角色概率分布信息;在该触发词-论元连接图中事件触发词与所有论元相连,通过两层的图神经网络传递信息,每个论元都会包括触发词在内的所有节点信息;对于每种事件类型E均设置了对应的独立的模型参数,在图消息传递阶段,将触发词表示HT以及论元的语义表达向量作为图节点的初始化表示,边权矩$Walong,Wloop由角色标签信息聚合模块的标签概率矩阵PA和PR得到,Walong表示跨节点的连边,Wloop表示各节点内部自环边;设置有Wet和张量Wrole作为触发词类型对应的线性变换矩阵以及该类型下所有论元角色对应的线性变换矩阵集合;通过全局和局部的两个维度的标签概率,对张量Wrole加权得到自环边和非自环边的边权矩阵/>和
对论元和触发词表示映射到融入了标签概率信息的新的空间中,并进行第一层图网络信息交互,得到交互后的触发词和论元节点表示H′T及
使用新的节点表示再次进行相同操作,完成二阶的图信息交互:
该迭代式角色分类模块包括,将H″A作为新的融合向量表示HA,再次执行该候选论元特征编码模块,H″T则回到第一层的图网络信息交互位置再次进行循环,直到解码得到的角色概率分布矩阵收敛。
本发明还提出了一种存储介质,用于存储执行所述任意一种角色一致性的事件论元角色分类方法的程序。
本发明还提出了一种客户端,用于权利要求任意一种角色一致性的事件论元角色分类***。
由以上方案可知,本发明的优点在于:一是使用了图卷积神经网络在触发词与论元连接图上进行特征建模,避免了使用第三方工具预测的依存关系而引入噪声;二是对候选论元之间的角色一致性加以建模,缓解了以往方法易出现的角色矛盾、错漏等角色不一致问题;三是在事件论元角色预测任务上的性能有所提高,本发明在RAMS公开数据测试集上论元角色预测F1值达到79.2%。
附图说明
图1为本发明的整体流程图;
图2为本发明中候选论元多维度特征解码详细介绍图;
图3为本发明中候选论元角色一致***互详细介绍图;
图4为本发明中整体方法结构图。
具体实施方式
本发明包括以下步骤:1)训练语料预处理,2)候选论元语义编码,3)候选论元特征编码,4)候选论元角色解码,5)角色一致性信息交互,6)迭代式角色预测。具体来说,本发明包括如下步骤:
1)训练语料预处理:本发明使用的训练语料选自Roles Across MultipleSentence(RAMS)数据集,其包括新闻语料中已标注的多个事件,处理过程为使用wordpiece方法对文本进行分词,再将每个词转化为语言表征模型BERT预训练词典对应的ID,最后在句首句尾分别加上同BERT与训练任务一致的[CLS]和[SEP]特殊标签,[CLS]放在第一个句子的首位,其经过BERT得到的的表征向量可以用于后续的分类任务;[SEP]用于分开两个输入句子,在每个句子末尾均需添加;
2)候选论元语义编码:使用BERT预训练语言模型进行预编码,将上一步处理后的词id序列输入BERT的多层翻译模型Transformer对词序列进行预编码,相比于传统的静态字、词向量来说,使用大规模语料训练的BERT可以提供更为丰富的动态语义表达。然后,将触发词和给定的各候选论元实体对应的BERT编码后的词表示向量进行聚合,得到触发词和各实体的上下文语义表达向量,然后将触发词对应向量与各实体对应向量分别拼接并通过线性网络加以融合,得到每个候选论元的语义表达向量。其中触发词对应向量指的是通过BERT预编码后文本中触发词对应的词向量表示。
3)候选论元特征编码:根据事件类型选择对应的特征建模网络来自动构建每个候选论元的特征表达向量,这些网络结构完全相同,但参数不互相共享。事件类型可以为出生、会面、运输等。
4)候选论元角色解码:从全局和局部两个维度对每个论元的特征表达向量进行解码,得到两个维度下的角色概率分布矩阵。
5)角色一致性信息交互:触发词会跟所有的论元连接形成触发词-论元连接图,在该触发词-论元连接图上进行多阶的图神经网络交互,将上一步得到的角色概率信息融入到基于图的信息交互中,得到每个论元融合了角色概率信息的全局表达向量,作为候选论元的新特征表达向量。
6)迭代式角色预测:迭代进行第4步和第5步,直到解码出的所有论元预测角色趋于稳定,将其作为最终的论元角色预测的输出。其中稳定指的是“两个维度下的角色概率分布矩阵”均稳定。最终的预测结果是将两个维度得到的角色概率进行加和,当加和后的值超过某一阈值则将其判定为该角色。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种基于角色一致性建模的事件论元角色预测方法,方法的整体流程如图1所示。方法主要包括论元语义编码、论元特征编码、多维度论元角色解码,以及角色一致***互。论元语义编码基于BERT预训练语言模型,结合全连接网络融合触发词和候选论元的语义信息,得到候选论元的上下文语义表示向量;论元特征编码则是通过事件类型相关的特征编码器来抽取每个候选论元的特征;多维度论元角色解码则是从局部和全局两种维度来对论元特征向量进行解码,得到多维度下的论元角色概率分布;角色一致***互则是将角色信息建模进论元的特征向量编码中。特征编码、角色解码和角色一致***互三者迭代进行,不断提高预测的角色间的一致性。具体方法步骤包括:
S1、使用BERT预训练语言模型对输入词序列进行预编码,得到每个字经BERT预训练模型编码后的分布式语义表达。然后通过取均值的方法获取每个触发词和候选论元的平均向量表达,再将触发词向量与候选论元向量拼接,使用全连接网络将其信息加以融合,得到候选论元最终语义表达。
S2、通过事件类型相关的基于连接全网络的特征编码器来对抽取候选论元的特征,供后续分类预测角色,此处采用ReLU激活函数。
S3、从局部和全局两个维度对上述候选论元的特征向量使用softmax进行解码,预测多维度下论元角色的概率分布。
S4、使用图神经网络将角色概率通过边权的形式建模进论元的特征向量中,得到新的候选论元特征向量,并与S4步骤迭代进行,只到所有候选论元解码出的角色趋于稳定。
具体地,S1包含3个子步骤如下。
S101、训练数据预处理。通过Transformers库中的WordPieceTokenizer模块对文本进行分词,并将同一批词的输入按该批词最长的文本长度填充为相同长度。
S102、BERT预训练模型编码。通过大规模语料预训练的BERT语言模型对输入字、词序列T进行预编码,相比于传统静态词向量,该方法可以获得更为丰富的动态语义表达C={c0,c1,...,cn}。
C=BERT(T)
S103、对触发词的语义向量和各论元的语义向量进行聚合,得到各自的语义向量,并通过全连接网络将触发词向量与候选论元向量进行融合,得到各候选论元的融合向量表示
进一步地,S2步骤通过事件类型E相关的特征编码器对各候选论元A进行特征编码,得到其特征向量U={u0,u1,...,uK}。
S3也包含3个子步骤,其具体结构如图2所示。
S301、通过两个不同的全连接网络来学习局部和全局维度下的特征向量Ulocal和Uglobal。
Ulocal=FNNlocal(U)
Ulocal=FNNlocal(U)
S302、通过局部和全局维度的softmax进行解码,得到局部维度下每个论元Ak在不同角色Rm下的概率分布PA,以及全局维度下每种角色Rm在不同论元Ak下的概率分布PR。
其中表示第k个论元属于E事件中的第m种角色的概率。该概率表征了模型根据候选论元的信息做出的局部的角色分类概率估计。/>表示第m种角色由第k个论元表达的概率。该概率表征了模型对于某种角色从全局维度应该由哪个论元担任的概率估计。综合以上两种概率,本发明根据角色的标签L做出如下的交叉熵损失函数的计算:
其中,表示第k个论元属于第m种角色的真实概率标签,若存在角色重叠现象时则由多个角色等分概率。同理,/>则表示第m种角色由第k个论元承担的真实概率标签,同一角色由多个论元承担时概率等分。
最后,对于S4步骤,为了使每个论元的标签概率分布信息能够在全局得到更好的信息聚合,使每个论元能够感知其他所有论元的标签信息,此处使用了两层类似多关系图神经网络RGCN的网络结构来在对应的事件星形图上进行消息传递,其结构如图3所示。每层图神经网络中的消息传递会使每个节点获得其邻居的特征和角色概率分布信息。在星形的事件图中,事件触发词与所有论元相连,而论元与论元间并无连接,因此论元之间互为二阶邻居,如此一来通过两层的图神经网络传递信息,每个论元都会包括触发词在内的所有节点信息。具体地,对于每种事件类型E均设置了对应的独立的模型参数,以便学习其事件类型特定的交互模式。在图消息传递阶段,本发明将触发词表示HT以及论元表示作为图节点的初始化表示,边权矩Walong,Wloop由角色标签信息聚合模块的标签概率矩阵PA和PR得到,Walong表示跨节点的连边,Wloop表示各节点内部自环边。同时,本发明设置有Wet和张量Wrole作为触发词类型对应的线性变换矩阵以及该类型下所有论元角色对应的线性变换矩阵集合。具体的图神经网络信息交互计算过程如下,首先本发明通过全局和局部的两个维度的标签概率,对张量Wrole加权得到自环边和非自环边的边权矩阵/>和/>
在此之后,本发明便可以对论元和触发词表示映射到融入了标签概率信息的新的空间中,并能够进行第一层的图网络信息交互,得到交互后的触发词和论元节点表示H′T及计算如下:
此后本发明使用新的节点表示再次进行相同操作,完成二阶的图信息交互:
/>
然后本发明将融合标签信息的H″T,H″A再次输入角色标签信息预测模块,具体来说H″A作为步骤S103得到的融合向量表示HA,再次执行步骤S2,H″T回到第一层的图网络信息交互位置进行循环。如此迭代进行,直到角色标签信息预测模块输出的论元角色分类趋于稳定,最终得到一致性更高的论元角色标签结果,该结果由迭代后的标签概率矩阵PA和PR共同决定,对于第i个论元,若时,本发明将其角色输出为Rj,γ为超参数。图4为本发明的整体方法结构图。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于角色一致性的事件论元角色分类***,其中包括:
训练语料预处理模块,获取已标注事件论元角色类别和事件触发词的训练语料,对该训练语料中文本进行分词,并根据语言表征模型BERT的预训练词典,得到每个词在该预训练词典中的ID;将所有词ID构成的词序列输入BERT的多层翻译模型Transformer,以对该词序列进行预编码,得到词表示向量;
候选论元语义编码模块,聚合该事件触发词和该词表示向量,得到触发词的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量;
候选论元特征编码模块,根据事件类型选择对应的特征建模网络对候选论元的语义表达向量进行编码,得到每个候选论元的特征表达向量;
候选论元角色解码模块,从全局和局部两种维度对每个候选论元的特征表达向量进行解码,得到两个维度下角色概率分布矩阵;
角色一致性信息交互模块,在触发词-论元连接图上进行多阶的图神经网络交互,将该两个维度下的角色概率分布矩阵融入到基于触发词-论元连接图的信息交互中,得到每个候选论元融合了角色概率信息的全局表达向量,作为新的候选论元的语义表达向量;
迭代式角色分类模块,再次执行该候选论元特征编码模块、该候选论元角色解码模块和该角色一致性信息交互模块,直到解码得到的角色概率分布矩阵收敛,将其概率最大的角色类别的作为最终的论元角色预测的输出。
所述的基于角色一致性的事件论元角色分类***,其中该训练语料预处理模块包括:
对文本进行分词,并将同一批词的输入按该批词最长的文本长度填充为相同长度;
通过BERT语言模型对输入字、该词序列T进行预编码,获得具有动态语义表达的词表示向量C={c0,c1,...,cn};
C=BERT(T)
该候选论元语义编码模块包括:
对该事件触发词和该词表示向量进行聚合,得到各自的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量
该候选论元特征编码模块包括:通过事件类型E相关的特征编码器对各候选论元A进行特征编码,得到其特征表达向量U={u0,u1,...,uK};
所述的基于角色一致性的事件论元角色分类***,其中该候选论元角色解码模块包括:
通过两个全连接网络FNN学习局部和全局维度下的特征向量Ulocal和Uglobal:
Ulocal=FNNlocal(U)
Ulocal=FNNlocal(U)
通过局部和全局维度的softmax进行解码,得到局部维度下每个论元Ak在不同角色Rm下的概率分布矩阵PA,以及全局维度下每种角色Rm在不同论元Ak下的概率分布矩阵PR;
其中表示第k个论元属于E事件中的第m种角色的概率,/>表示第m种角色由第k个论元表达的概率;根据角色的标签L做出交叉熵损失函数:
其中,表示第k个论元属于第m种角色的真实概率标签,若存在角色重叠现象时则由多个角色等分概率;/>则表示第m种角色由第k个论元承担的真实概率标签,同一角色由多个论元承担时概率等分;
所述的基于角色一致性的事件论元角色分类***,其中该角色一致性信息交互模块包括:使用图神经网络RGCN对该触发词-论元连接图进行消息传递,每层该图神经网络的消息传递会使每个节点获得其邻居的特征和角色概率分布信息;在该触发词-论元连接图中事件触发词与所有论元相连,通过两层的图神经网络传递信息,每个论元都会包括触发词在内的所有节点信息;对于每种事件类型E均设置了对应的独立的模型参数,在图消息传递阶段,将触发词表示HT以及论元的语义表达向量作为图节点的初始化表示,边权矩$Walong,Wloop由角色标签信息聚合模块的标签概率矩阵PA和PR得到,Walong表示跨节点的连边,Wloop表示各节点内部自环边;设置有Wet和张量Wrole作为触发词类型对应的线性变换矩阵以及该类型下所有论元角色对应的线性变换矩阵集合;通过全局和局部的两个维度的标签概率,对张量Wrole加权得到自环边和非自环边的边权矩阵/>和
对论元和触发词表示映射到融入了标签概率信息的新的空间中,并进行第一层图网络信息交互,得到交互后的触发词和论元节点表示H′T及
使用新的节点表示再次进行相同操作,完成二阶的图信息交互:
该迭代式角色分类模块包括,将H″A作为新的融合向量表示HA,再次执行该候选论元特征编码模块,H″T则回到第一层的图网络信息交互位置再次进行循环,直到解码得到的角色概率分布矩阵收敛。
本发明还提出了一种存储介质,用于存储执行所述任意一种角色一致性的事件论元角色分类方法的程序。
本发明还提出了一种客户端,用于权利要求任意一种角色一致性的事件论元角色分类***。
Claims (10)
1.一种基于角色一致性的事件论元角色分类方法,其特征在于,包括:
训练语料预处理步骤,获取已标注事件论元角色类别和事件触发词的训练语料,对该训练语料中文本进行分词,并根据语言表征模型BERT的预训练词典,得到每个词在该预训练词典中的ID;将所有词ID构成的词序列输入BERT的多层翻译模型Transformer,以对该词序列进行预编码,得到词表示向量;
候选论元语义编码步骤,聚合该事件触发词和该词表示向量,得到触发词的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量;
候选论元特征编码步骤,根据事件类型选择对应的特征建模网络对候选论元的语义表达向量进行编码,得到每个候选论元的特征表达向量;
候选论元角色解码步骤,从全局和局部两种维度对每个候选论元的特征表达向量进行解码,得到两个维度下角色概率分布矩阵;
角色一致性信息交互步骤,在触发词-论元连接图上进行多阶的图神经网络交互,将该两个维度下的角色概率分布矩阵融入到基于触发词-论元连接图的信息交互中,得到每个候选论元融合了角色概率信息的全局表达向量,作为新的候选论元的语义表达向量;
迭代式角色分类步骤,再次执行该候选论元特征编码步骤、该候选论元角色解码步骤和该角色一致性信息交互步骤,直到解码得到的角色概率分布矩阵收敛,将其概率最大的角色类别的作为最终的论元角色预测的输出。
2.如权利要求1所述的基于角色一致性的事件论元角色分类方法,其特征在于,该训练语料预处理步骤包括:
对文本进行分词,并将同一批词的输入按该批词最长的文本长度填充为相同长度;
通过BERT语言模型对输入字、该词序列T进行预编码,获得具有动态语义表达的词表示向量C={c0,c1,…,cn};
C=BERT (T)
该候选论元语义编码步骤包括:
对该事件触发词和该词表示向量进行聚合,得到各自的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量
该候选论元特征编码步骤包括:通过事件类型E相关的特征编码器对各候选论元A进行特征编码,得到其特征表达向量U={u0,u1,...,uK};
3.如权利要求2所述的基于角色一致性的事件论元角色分类方法,其特征在于,该候选论元角色解码步骤包括:
通过两个全连接网络FNN学习局部和全局维度下的特征向量Ulocal和Uglobal:
Ulocal=FNNlocal(U)
Ulocal=FNNlocal(U)
通过局部和全局维度的softmax进行解码,得到局部维度下每个论元Ak在不同角色Rm下的概率分布矩阵PA,以及全局维度下每种角色Rm在不同论元Ak下的概率分布矩阵pR;
其中表示第k个论元属于E事件中的第m种角色的概率,/>表示第m种角色由第k个论元表达的概率;根据角色的标签L做出交叉熵损失函数:
其中,表示第k个论元属于第m种角色的真实概率标签,若存在角色重叠现象时则由多个角色等分概率;/>则表示第m种角色由第k个论元承担的真实概率标签,同一角色由多个论元承担时概率等分;
4.如权利要求3所述的基于角色一致性的事件论元角色分类方法,其特征在于,该角色一致性信息交互步骤包括:使用图神经网络RGCN对该触发词-论元连接图进行消息传递,每层该图神经网络的消息传递会使每个节点获得其邻居的特征和角色概率分布信息;在该触发词-论元连接图中事件触发词与所有论元相连,通过两层的图神经网络传递信息,每个论元都会包括触发词在内的所有节点信息;对于每种事件类型E均设置了对应的独立的模型参数,在图消息传递阶段,将触发词表示HT以及论元的语义表达向量 作为图节点的初始化表示,边权矩$Walong,Wloop由角色标签信息聚合模块的标签概率矩阵PA和PR得到,Walong表示跨节点的连边,Wloop表示各节点内部自环边;设置有Wet和张量Wrole作为触发词类型对应的线性变换矩阵以及该类型下所有论元角色对应的线性变换矩阵集合;通过全局和局部的两个维度的标签概率,对张量Wrole加权得到自环边和非自环边的边权矩阵和/>
对论元和触发词表示映射到融入了标签概率信息的新的空间中,并进行第一层图网络信息交互,得到交互后的触发词和论元节点表示H′T及
使用新的节点表示再次进行相同操作,完成二阶的图信息交互:
该迭代式角色分类步骤包括,将H″A作为新的融合向量表示HA,再次执行该候选论元特征编码步骤,H″T则回到第一层的图网络信息交互位置再次进行循环,直到解码得到的角色概率分布矩阵收敛。
5.一种基于角色一致性的事件论元角色分类***,其特征在于,包括:
训练语料预处理模块,获取已标注事件论元角色类别和事件触发词的训练语料,对该训练语料中文本进行分词,并根据语言表征模型BERT的预训练词典,得到每个词在该预训练词典中的ID;将所有词ID构成的词序列输入BERT的多层翻译模型Transformer,以对该词序列进行预编码,得到词表示向量;
候选论元语义编码模块,聚合该事件触发词和该词表示向量,得到触发词的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量;
候选论元特征编码模块,根据事件类型选择对应的特征建模网络对候选论元的语义表达向量进行编码,得到每个候选论元的特征表达向量;
候选论元角色解码模块,从全局和局部两种维度对每个候选论元的特征表达向量进行解码,得到两个维度下角色概率分布矩阵;
角色一致性信息交互模块,在触发词-论元连接图上进行多阶的图神经网络交互,将该两个维度下的角色概率分布矩阵融入到基于触发词-论元连接图的信息交互中,得到每个候选论元融合了角色概率信息的全局表达向量,作为新的候选论元的语义表达向量;
迭代式角色分类模块,再次执行该候选论元特征编码模块、该候选论元角色解码模块和该角色一致性信息交互模块,直到解码得到的角色概率分布矩阵收敛,将其概率最大的角色类别的作为最终的论元角色预测的输出。
6.如权利要求5所述的基于角色一致性的事件论元角色分类***,其特征在于,该训练语料预处理模块包括:
对文本进行分词,并将同一批词的输入按该批词最长的文本长度填充为相同长度;
通过BERT语言模型对输入字、该词序列T进行预编码,获得具有动态语义表达的词表示向量C={c0,c1,...,cn};
C=BERT (T)
该候选论元语义编码模块包括:
对该事件触发词和该词表示向量进行聚合,得到各自的上下文语义表达向量,拼接该上下文语义表达向量与该词表示向量并通过线性网络加以融合,得到每个候选论元的语义表达向量
该候选论元特征编码模块包括:通过事件类型E相关的特征编码器对各候选论元A进行特征编码,得到其特征表达向量U={u0,u1,...,uK};
7.如权利要求6所述的基于角色一致性的事件论元角色分类***,其特征在于,该候选论元角色解码模块包括:
通过两个全连接网络FNN学习局部和全局维度下的特征向量Ulocal和Uglobal:
Ulocal=FNNlocal(U)
Ulocal=FNNlocal(U)
通过局部和全局维度的softmax进行解码,得到局部维度下每个论元Ak在不同角色Rm下的概率分布矩阵PA,以及全局维度下每种角色Rm在不同论元Ak下的概率分布矩阵pR;
其中表示第k个论元属于E事件中的第m种角色的概率,/>表示第m种角色由第k个论元表达的概率;根据角色的标签L做出交叉熵损失函数:
其中,表示第k个论元属于第m种角色的真实概率标签,若存在角色重叠现象时则由多个角色等分概率;/>则表示第m种角色由第k个论元承担的真实概率标签,同一角色由多个论元承担时概率等分;
8.如权利要求7所述的基于角色一致性的事件论元角色分类***,其特征在于,该角色一致性信息交互模块包括:使用图神经网络RGCN对该触发词-论元连接图进行消息传递,每层该图神经网络的消息传递会使每个节点获得其邻居的特征和角色概率分布信息;在该触发词-论元连接图中事件触发词与所有论元相连,通过两层的图神经网络传递信息,每个论元都会包括触发词在内的所有节点信息;对于每种事件类型E均设置了对应的独立的模型参数,在图消息传递阶段,将触发词表示HT以及论元的语义表达向量 作为图节点的初始化表示,边权矩$Walong,Wloop由角色标签信息聚合模块的标签概率矩阵PA和PR得到,Walong表示跨节点的连边,Wloop表示各节点内部自环边;设置有Wet和张量Wrole作为触发词类型对应的线性变换矩阵以及该类型下所有论元角色对应的线性变换矩阵集合;通过全局和局部的两个维度的标签概率,对张量Wrole加权得到自环边和非自环边的边权矩阵和/>
对论元和触发词表示映射到融入了标签概率信息的新的空间中,并进行第一层图网络信息交互,得到交互后的触发词和论元节点表示H′T及
使用新的节点表示再次进行相同操作,完成二阶的图信息交互:
该迭代式角色分类模块包括,将H″A作为新的融合向量表示HA,再次执行该候选论元特征编码模块,H″T则回到第一层的图网络信息交互位置再次进行循环,直到解码得到的角色概率分布矩阵收敛。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种角色一致性的事件论元角色分类方法的程序。
10.一种客户端,用于权利要求5至8中任意一种角色一致性的事件论元角色分类***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310385316.6A CN116595406A (zh) | 2023-04-12 | 2023-04-12 | 基于角色一致性的事件论元角色分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310385316.6A CN116595406A (zh) | 2023-04-12 | 2023-04-12 | 基于角色一致性的事件论元角色分类方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595406A true CN116595406A (zh) | 2023-08-15 |
Family
ID=87603444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310385316.6A Pending CN116595406A (zh) | 2023-04-12 | 2023-04-12 | 基于角色一致性的事件论元角色分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595406A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114695A (zh) * | 2023-10-19 | 2023-11-24 | 本溪钢铁(集团)信息自动化有限责任公司 | 基于钢铁行业智能客服的交互方法及装置 |
CN117390175A (zh) * | 2023-12-13 | 2024-01-12 | 临沂大学 | 基于bert的智能家居使用事件抽取方法 |
-
2023
- 2023-04-12 CN CN202310385316.6A patent/CN116595406A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114695A (zh) * | 2023-10-19 | 2023-11-24 | 本溪钢铁(集团)信息自动化有限责任公司 | 基于钢铁行业智能客服的交互方法及装置 |
CN117114695B (zh) * | 2023-10-19 | 2024-01-26 | 本溪钢铁(集团)信息自动化有限责任公司 | 基于钢铁行业智能客服的交互方法及装置 |
CN117390175A (zh) * | 2023-12-13 | 2024-01-12 | 临沂大学 | 基于bert的智能家居使用事件抽取方法 |
CN117390175B (zh) * | 2023-12-13 | 2024-03-12 | 临沂大学 | 基于bert的智能家居使用事件抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492113B (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN110609899B (zh) | 一种基于改进bert模型的特定目标情感分类方法 | |
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN110263323A (zh) | 基于栅栏式长短时记忆神经网络的关键词抽取方法及*** | |
CN116595406A (zh) | 基于角色一致性的事件论元角色分类方法及*** | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN110781271A (zh) | 一种基于层次注意力机制的半监督网络表示学习模型 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和*** | |
CN115358234A (zh) | 基于图卷积网络与关系证据互指导的篇章关系抽取方法 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN114238524B (zh) | 基于增强样本模型的卫星频轨数据信息抽取方法 | |
CN113051904A (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116108127A (zh) | 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 | |
CN114328910A (zh) | 文本聚类方法以及相关装置 | |
CN114429121A (zh) | 一种面向试题语料情感与原因句子对的抽取方法 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN110969187B (zh) | 一种图谱迁移的语义分析方法 | |
CN117093196B (zh) | 一种基于知识图谱的编程语言生成方法及*** | |
CN112651246B (zh) | 融合深度学习和工作流模式的服务需求冲突检测方法 | |
CN117093728B (zh) | 一种金融领域事理图谱构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |