CN116383387A - 一种基于事理逻辑的联合事件抽取方法 - Google Patents

一种基于事理逻辑的联合事件抽取方法 Download PDF

Info

Publication number
CN116383387A
CN116383387A CN202310363825.9A CN202310363825A CN116383387A CN 116383387 A CN116383387 A CN 116383387A CN 202310363825 A CN202310363825 A CN 202310363825A CN 116383387 A CN116383387 A CN 116383387A
Authority
CN
China
Prior art keywords
word
matrix
layer
event
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310363825.9A
Other languages
English (en)
Inventor
宋胜利
段欣荣
李靖阳
胡光能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310363825.9A priority Critical patent/CN116383387A/zh
Publication of CN116383387A publication Critical patent/CN116383387A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于事理逻辑的联合事件抽取方法,其包括:将句子输入事理逻辑关系抽取模型,得到句子中的事件关系对;将句子中的事件关系对中每个事件输入基于图注意力网络的联合事件抽取模型,得到句子对应的抽取结果;抽取结果包括触发词分类及论元分类。本发明提高了句子中多个事件抽取的准确性。

Description

一种基于事理逻辑的联合事件抽取方法
技术领域
本发明涉及事件抽取技术领域,特别是一种基于事理逻辑的联合事件抽取方法。
背景技术
随着互联网和文本挖掘技术的快速发展,事件任务的相关研究越来越受到研究人员的重视,一篇文本往往包含多个事件,这些事件可能都是围绕同一个主题进行叙述。在这些事件之间,存在多种事理逻辑,如时序、因果、条件、转折等,通过分析这些事理逻辑,可以更深入地了解文本中事件的演变和发展过程,并有助于推断事件之间的关系。事件抽取是从非结构化数据中提取出结构化的事件信息的重要任务。通常包括四个子任务:触发词识别、事件类型检测、事件论元识别和论元角色检测。句子级事件抽取的研究方法可以分为基于管道方式和基于联合方式。管道方式先识别事件类型,再提取事件论元;联合方式通过联合学习触发词和论元,避免触发词抽取错误对论元抽取的影响。事件抽取在许多领域中都非常有用,例如,将提取出的事件信息存储到知识库中,可以为信息检索提供有用的信息,进而进行知识推理。
现有技术方案:
中国科学院自动化研究所的专利申请“事件抽取方法、装置、电子设备及存储介质”(专利号:202110827424.5),提供了一种事件抽取方法,包括以下步骤:将待抽取文档输入至事件抽取模型,模型包括句子级特征提取层、文档级特征提取层、特征解码层和事件预测层;句子级特征提取层使用Transformer模型编码待抽取文档中每个语句,得到对应的上下文特征向量和事件元素表示向量;文档级特征提取层接着提取特征,得到文档编码向量和文档事件元素表示向量;特征解码层分析得到角色关系表示向量、事件关系表示向量和事件到角色关系表示向量;最后在事件预测层提取多个事件并实现事件元素的分配,输出预测结果。该方法的缺点是,在对事件的抽取中,只考虑了句子序列的特征,但是忽略了句子的句法特征,使得模型难以获取一个句子里多个事件的相关性,没有对不同特征赋予不同的权重信息。
北京明略昭辉科技有限公司的专利申请“因果关系抽取方法,装置,电子设备及可读存储介质”(专利号:202210308591.3),提出了一种事件因果关系抽取方法,包括以下步骤:对待抽取文本进行分词操作得到多个单位词,并对各单位词进行词性标注得到各单位词对应的词性标识;获取预设事件规则集,将词性标识与预设事件规则集中的事件子规则匹配的单位词进行组合,得到多个单位事件;获取训练完成的规则模型,将单位事件输入到训练完成的规则模型中,通过训练完成的规则模型的输出得到待抽取文本的因果关系抽取结果。该方法的缺点是,没有考虑到单词之间的依存关系,也没有使用外部的词汇信息,使得字符的语义性没有得到充分利用。并且人为构造规则的方法虽然对于特定领域来说准确率比较高,但是其可移植性不高、泛化性较弱,无法广泛用于多种领域数据。
山西大学的专利申请“一种基于多粒度实体异构图的篇章级事件抽取方法及装置”(专利号:202210348614.3),提出了一种篇章级事件抽取方法,包括以下步骤:使用基于句子和段落的上下文信息分别进行实体抽取,并基于一种多粒度实体选择策略融合两种粒度的实体集,提高了实体提取的精度;结合句子与筛选出的候选实体,构造融入多粒度实体的异构图,并利用图卷积网络获得具有篇章级上下文感知的实体和句子的向量化表示,提高了句子和实体对于事件的感知能力;最后进行事件类型和事件论元的多标签分类,实现事件检测和论元识别。该方法的缺点是:没有构建词语之间的依赖关系,对不同特征没有计算注意力权重信息,使得重要的文本特征没有对输出结果起到更多的作用。
现有技术的缺点包括:
1、在对事件的抽取中,只考虑了句子序列的特征,但是忽略了句子的句法特征,使得模型难以获取一个句子里多个事件的相关性,没有对不同特征赋予不同的权重信息。
2、没有考虑到单词之间的依存关系,也没有使用外部的词汇信息,使得事件边界模糊、难以确定。并且人为构造规则的方法虽然对于特定领域来说准确率比较高,但是其可移植性不高、泛化性较弱,无法广泛用于多种领域数据。
3、没有构建词语之间的依赖关系,对不同特征没有计算注意力权重信息,使得重要的文本特征没有对输出结果起到更多的作用。
发明内容
鉴于此,本发明提供一种基于事理逻辑的联合事件抽取方法,以解决上述技术问题。
本发明公开了一种基于事理逻辑的联合事件抽取方法,其包括:
将句子输入事理逻辑关系抽取模型,得到所述句子中的事件关系对;
将所述句子中的事件关系对中每个事件输入基于图注意力网络的联合事件抽取模型,得到句子对应的抽取结果;其中,所述抽取结果包括触发词分类及论元分类;
所述事理逻辑关系抽取模型包括编码层、特征提取层、事件关系识别层;
所述将句子输入事理逻辑关系抽取模型,得到所述句子对应的抽取结果,包括:
将句子输入编码层,得到所述编码层输出的句子对应的文本特征矩阵;
将所述文本特征矩阵输入所述特征提取层,得到所述特征提取层输出的全局和局部的特征表示矩阵;
将所述全局和局部的特征表示矩阵输入所述事件关系识别层,识别出句子中的事件关系对。
进一步地,所述将句子输入编码层,得到所述编码层输出的句子对应的文本特征矩阵,包括:
将句子输入所述编码层中的嵌入层,以将句子中每个单词转换成词向量通过BERT模型编码后生成词向量表示矩阵;
使用SoftLexicon方法引入外部词典,将句子中的字符和词典进行匹配,得到字符对应的词语,根据字符在该词语中所处的位置,把该词语分别放到四个词语集合中:B、M、E、S;该词语集合分别表示该字符的位置在词语的开头、中间部分、结尾以及独自构成一个词语;
在得到句子中每个字符的四个词语集合后,把每个词语集合表示成一个固定长度的向量,将词频作为每个词的权重系数,对每个集合中的所有词的词向量嵌入进行加权计算,分别获取每个字符的词语集合的向量;
把一个字符对应的四个词语集合的向量都拼接到该字符对应的BERT字向量中,即得到新的词向量表示矩阵X1
对事件的触发词特征、事件的顺序特征、关系连接词特征赋予不同的权重进行融合,得到多维度特征矩阵X2
将X2与X1进行拼接,即得到最终的文本特征矩阵
Figure BDA0004165975260000041
进一步地,所述将所述文本特征矩阵输入所述特征提取层,得到所述特征提取层输出的全局和局部的特征表示矩阵,包括:
将文本特征矩阵输入所述特征提取层的卷积层,得到多层卷积层的最终特征表示DCNN;DCNN∈Rn×m中每行表示每个单词通过多层卷积提取的词汇级别的特征;m为卷积核的个数,n为句子中词语的个数;
对所有词语进行最大池化操作后,得到矩阵P,P=[p1,p2,...,pn],pi为对第i个词语进行最大池化操作后得到的向量;
将DCNN输入所述特征提取层的自注意力层,得到词汇级别的特征D'CNN,D'CNN∈Rn×m
把文本特征矩阵输入所述特征提取层的双向门控循环单元,得到输出矩阵HGRU;其中,双向门控循环单元由前向GRU和反向GRU组成,设定隐藏单元的个数为s,那么HGRU∈Rn ×(2×s);HGRU中每行表示每个单词通过双向门控循环单元提取的句子级别的特征;
把矩阵HGRU输入所述特征提取层的另一个自注意力层,得到句子级别的特征H′GRU
将H′GRU、D'CNN输入所述特征提取层的全局注意力机制层,得到输出特征矩阵G;
把矩阵P和矩阵Hl拼接到全局注意力层的输出矩阵中,输出全局和局部的特征表示矩阵
Figure BDA0004165975260000051
其中,Hl为双向门控循环单元层的最后一个一维隐藏层的输出矩阵。
进一步地,所述事件关系识别层采用条件随机场CRF模型;
设CRF输出的一个标签序列为L=[l1,l2,...,ln],则一个标签序列L的总得分为:
Figure BDA0004165975260000061
其中,A是转移得分矩阵,
Figure BDA0004165975260000062
表示从标签li到标签li+1的转移概率,/>
Figure BDA0004165975260000063
表示第i个字符在标签li下的得分;
最大化正确标签序列L*的对数似然估计函数,事理逻辑关系抽取模型的目标函数的计算方法为:
Figure BDA0004165975260000064
模型的损失函数loss定义为loss=-log(P(L*|Z)),通过反向传播优化参数。
进一步地,所述将所述句子中的事件关系对中所有事件放到一个集合中,形成文本集合,并将该文本集合输入基于图注意力网络的联合事件抽取模型,得到句子对应的抽取结果,包括:
将词向量表示矩阵X1、词性嵌入矩阵X2、实体类别嵌入矩阵X3拼接在一起,即可得到文本特征矩阵X;
将文本特征矩阵X输入双向长短期记忆网络Bi-LSTM模型,得到输出矩阵HLSTM
使用DDParser对句子进行依存句法分析,得到句法依赖图,并对所述句法依赖图进行扩充;
将句法依赖图的特征节点和关系边作为N阶图注意力神经网络的第m层输入,图注意力网络对图中每个节点特征vi进行聚合计算得到聚合特征v′i;最终得到图注意力网络层的输出V'集合,V'集合中节点数量是n+k+m;
基于图注意力网络的联合事件抽取模型中的触发词及论元识别层对触发词和论元进行联合抽取,使用BIO标注的方法进行多分类任务,把上一层的输出矩阵O先输入一个全连接层,经过激活函数后得到矩阵O',然后接上一个softmax层对所有类型的向量进行归一化操作,从而实现事件触发词分类;
得到候选触发词后,使用O'这个输出矩阵对句子中的实体列表进行论元分类;对触发词包含的多个词向量进行平均池化,得到候选触发词的向量表示Ti,然后把Ti和其他每个词语的向量Ej拼接起来,并输入到全连接网络中,接上一个softmax层来实现论元分类。
进一步地,在所述将词向量表示矩阵X1、词性嵌入矩阵X2、实体类别嵌入矩阵X3拼接在一起,即可得到文本特征矩阵X之前,所述方法还包括:
通过所述基于图注意力网络的联合事件抽取模型中的ERNIE模型编码生成词向量表示矩阵X1
所述基于图注意力网络的联合事件抽取模型对输入的句子中的事件文本进行分词和词性标注,最终得到句子S对应的词性嵌入矩阵X2
按照BIO标记规则对文本进行实体类别标注,然后通过随机初始化,并且反向传播进行优化,得到训练好的实体类别向量,获得每个词对应的实体类别嵌入表示,最终得到句子S对应的实体类别嵌入矩阵X3
进一步地,所述基于图注意力网络的联合事件抽取模型对输入的句子中的事件文本进行分词和词性标注,最终得到句子S对应的词性嵌入矩阵X2,包括:
所述基于图注意力网络的联合事件抽取模型对输入的句子中的事件文本进行分词和词性标注,然后按照BIO标记规则对每个词的词性进行标记,标签包括B-pos,I-pos,E-pos,单个字符组成的词用S-pos表示,pos指的是每个词语的词性,然后通过随机初始化,并且反向传播进行优化,得到训练好的词性向量,获得每个词性对应的词性嵌入表示,最终得到句子S对应的词性嵌入矩阵X2
进一步地,所述对所述句法依赖图进行扩充的实现过程为:
定义任意之间存在路径的两个词语向量节点vi,vj的最短路径是pij,任意两个相邻词语向量节点间的边定义为(wm,wm+1);wi指的是第i个词语向量节点;
采用BiGRU网络对两个词语向量节点最短路径上的所有节点的特征进行融合,前后向GRU的输出分别为
Figure BDA0004165975260000081
和/>
Figure BDA0004165975260000082
将/>
Figure BDA0004165975260000083
和/>
Figure BDA0004165975260000084
拼接到一起,得到融合后的特征向量h,即BiGRU在t时刻的输出/>
Figure BDA0004165975260000085
将其作为这两个节点各自的周围节点;
最后,得到扩充后的句法依赖图G=(V,E),其中,V是节点的集合,包含三个子集Vc、Vw和Vb,Vc是n个字符向量节点的集合,n为句子长度,Vw是分词后的k个词语向量节点的集合,Vb是由最短路径算法计算出的每个词语向量节点的周围节点集合,大小为m。
进一步地,所述图注意力网络对句法依赖图中每个节点特征vi进行聚合计算得到聚合特征v′i的计算方法如以下公式所示:
Figure BDA0004165975260000086
其中,K是注意力头的个数,Wk是第k个注意力头相对于节点的权重矩阵,
Figure BDA0004165975260000087
是计算第k个注意力的权重系数,Ni是节点vi在句法依赖图中所有邻居节点vj的集合,σ是非线性激活函数;
经过以上的计算,得到了图注意力网络层的输出V’集合,V’集合中节点数量是n+k+m,但在后续的分类过程中不需要对k个词语向量节点和m个周围节点进行分类,所以将其舍弃,只留下前n个字符节点,将其转换成矩阵表示O。
进一步地,采用如下公式,实现事件触发词分类:
O'=tanh(WOO+bO)
Figure BDA0004165975260000091
其中,
Figure BDA0004165975260000092
是第i个实体的触发词类型概率分布,WT是事件触发词分类的参数矩阵,
Figure BDA0004165975260000093
其中nT是事件类型的数量,nc表示向量维度大小;
通过如下公式,实现论元分类:
Figure BDA0004165975260000094
其中,
Figure BDA0004165975260000095
是第j个实体在第i个候选触发词触发的事件中扮演的角色的概率分布,WA是事件论元分类的参数矩阵,/>
Figure BDA0004165975260000096
nA是论元类型的数量。
由于采用了上述技术方案,本发明具有如下的优点:针对提取的特征中缺少句法信息的问题,本发明把依存句法分析结果输入图注意力网络中,可以学习到句法结构特征;针对事件边界模糊、难以确定的问题,本发明引入了外部词汇信息和多种特征向量表示,同时考虑了两种不同层次的特征,词汇级别的特征和句子级别的特征,解决了事件边界模糊以及特征选择不够全面的问题;针对没有利用重要文本特征的问题,本发明在事件抽取中使用图注意力网络对句法依赖图进行特征聚合,在事理逻辑关系抽取中使用多种注意力机制构建词语间的依赖关系,对不同特征计算不同的注意力权重,提高了句中多个事件抽取的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于多特征融合的事理逻辑关系抽取模型框架图;
图2为本发明实施例的BiGRU结构图;
图3为本发明实施例的基于图注意力网络的联合事件抽取模型框架图;
图4为本发明实施例的句法依赖图示例图。
具体实施方式
结合附图和实施例对本发明作进一步说明,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
参见图1,本发明提供了一种基于事理逻辑的联合事件抽取方法的实施例,其主要包括两大模块,事理逻辑关系抽取模型、联合事件抽取模型。首先基于多特征融合的事理逻辑关系抽取模型分为三层:编码层、特征提取层、关系识别层,框架图如图1所示。
1.文本特征向量构建。
本发明采用BERT作为模型的编码器,为了进一步从文本中提取语义信息和抽象特征,本发明通过微调来提高整个模型的效果。给定句子S,嵌入层会把每个单词转换成d维的词向量,最后通过BERT模型编码后生成词向量表示矩阵X1
接下来,本发明使用SoftLexicon方法来引入外部的词语信息,将句子中的字符和词典进行匹配,得到字符对应的一些词语,根据字符在这些词语中所处的位置,把这些词语分别放到四个词语集合中:B、M、E、S。这些词语集合分别表示该字符的位置在词语的开头、中间部分、结尾以及独自构成一个词语。倘若在匹配词典之后没有找到对应词集的词语,就用None填充对应词集。四个词集的内容如公式(1)所示。
Figure BDA0004165975260000111
其中,L表示外部词典,ci表示句子中第i个字符。
在得到句子中每个字符的四个词语集合后,把每个词语集合要表示成一个固定长度的向量,在计算过程中,将词频作为每个词的权重系数,对每个集合中的所有词的词向量嵌入进行加权计算,第i个字符的集合S的向量计算过程如公式(2)所示。
Figure BDA0004165975260000112
其中,
Figure BDA0004165975260000113
表示生成的集合S的向量表示,Z表示四个词语集合中所有词在词典中出现的频率之和,z(w)表示词w在词典中出现的频率,xw表示集合S中的词语w的词向量嵌入。
最后,把一个字符对应的四个词语集合的向量都拼接到该字符对应的BERT字向量中,由此得到新的X1矩阵。
随后,本发明对事理逻辑关系相关的三种特征进行向量表示:事件的触发词特征、事件的顺序特征、关系连接词特征。对以上三种多维度的特征向量赋予不同的权重进行融合,得到矩阵X2,计算过程如公式(3)所示。
Figure BDA0004165975260000114
其中,α、β、γ是分配给各个特征的权重,
Figure BDA0004165975260000115
表示对矩阵进行拼接。
在得到融合后的多维度特征矩阵X2后,将其与X1矩阵再进行拼接,就获得了最终的文本特征矩阵
Figure BDA0004165975260000121
2.词汇级和句子级特征提取。
卷积层的输入是文本特征矩阵X,卷积运算就是卷积核与输入矩阵的乘积运算,通过使用窗口大小为w的卷积核W(W∈Rw×n),在输入矩阵X上滑动窗口来获得每个词语xi的局部上下文特征di。如果词语的前后没有其他词语,就补零把句子补齐。
设定xi,i+j是从i到i+j的向量xi,xi+1,...,xi+j,每个词语xi的局部上下文特征di的计算过程如公式(4)所示。
di=σ(W*xi-w/2:i+w/2+b) (4)
其中,σ(·)是非线性激活函数,xi-w/2:i+w/2表示词窗口w中i-w/2到i+w/2范围内的输入向量表示,b是偏置参数。
对于输入矩阵X,在通过卷积网络之后,输出特征向量d如公式(5)所示,其中n表示句子的长度。
d=[d1,...,di,...,dn] (5)
为了捕获不同粒度的局部特征,本发明使用两层的CNN结构来获取输入序列中的重要信息,第一层CNN卷积核大小为1,可以减少特征输出后的维度,第二层有两个卷积核分别为2和3的CNN,把第一层CNN的计算结果分别输入到第二层两个不同大小卷积核的CNN中,可以获得较为抽象的特征。最后把两个CNN的输出结果进行拼接,得到多层卷积层的最终特征表示DCNN
其中,设卷积核的个数为m,那么DCNN∈Rn×m。DCNN里每行表示每个单词通过多层卷积提取的词汇级别的特征。
对每个词语w通过多层卷积网络的特征表示dw进行最大池化操作,来降低其维度,得到pi向量。然后对所有词语进行最大池化操作后,得到矩阵P,如公式(6)所示。
P=[p1,p2,...,pn] (6)
最后,多层卷积层有两种输出表示,把矩阵DCNN作为后续自注意力层的输入,把矩阵P拼接到全局注意力层的输出矩阵中,作为事件关系识别层的输入。
自注意力机制根据重要程度给词汇分配了不一样的权重,考虑了全局中词语之间的联系,最终得到词汇级别的特征D'CNN,D'CNN∈Rn×m
因为传统循环神经网络RNN在处理长句时存在梯度消失和梯度***的问题,所以本发明引入了门控循环单元,GRU能较好的解决梯度消失问题,并获取长期的依赖关系。
为了获得t时刻的输出,当前时刻隐藏状态ht的基础上,,进行运算获得yt,如公式(7)所示。
yt=σ(Wyht) (7)
由于单向GRU中的状态是从前往后传输计算的,没有考虑到下文对上文状态的影响,所以为了提取文本的上下文语义特征,本发明把输入矩阵X送入双向门控循环单元(Bi-directional Gated Recurrent Unit,BiGRU)。BiGRU由前向GRU和反向GRU组成,其原理如图2所示。输出矩阵HGRU表示如公式(8)所示。
Figure BDA0004165975260000131
其中,
Figure BDA0004165975260000132
表示前向GRU的输出,/>
Figure BDA0004165975260000133
表示反向GRU的输出。
最后,BiGRU层有两种输出表示,把矩阵HGRU作为后续自注意力层的输入;把最后一个一维隐藏层的输出矩阵Hl,拼接到全局注意力层的输出矩阵中,作为事件关系识别层的输入。同样将HGRU输入自注意力层,经过计算最终得到句子级别的特征H'GRU
将左右两个通道的结果再输入全局注意力机制层进行进一步的处理,得到最终的表示特征。利用两个矩阵间的注意力权重αi,j对BiGRU通道输出的特征矩阵H'GRU进行加权运算,获得全局注意力层的输出特征矩阵G,如公式(9)所示。
Figure BDA0004165975260000141
最终,把矩阵P和矩阵Hl拼接到全局注意力层的输出矩阵中,得到事件关系识别层的输入矩阵
Figure BDA0004165975260000142
3.事理逻辑关系识别层。
条件随机场CRF模型使用转移矩阵考虑标签间的相关性和约束,从而获得全局最优的标签序列。对于一个输入的句子,在之前介绍的特征提取层中获取到全局和局部的特征表示矩阵Z=[z1,z2,...,zn]。设CRF输出的一个标签序列为L=[l1,l2,...,ln],则一个标签序列L的总得分计算方法如公式(10)所示。
Figure BDA0004165975260000143
其中,A是转移得分矩阵,
Figure BDA0004165975260000144
表示从标签li到标签li+1的转移概率,/>
Figure BDA0004165975260000145
表示第i个字符在标签li下的得分。
CRF优化函数的目的是让正确的标签序列L*的得分占所有标签的比重越大越好,也就是让P(L*|Z)越大越好,最大化正确标签序列L*的对数似然估计函数,模型的目标函数的计算方法如公式(11)所示。
Figure BDA0004165975260000146
最终,模型的损失函数loss定义为loss=-log(P(L*|Z)),,通过反向传播来优化参数。
识别出句子中的事件关系对后,对其中每个事件,本发明构造了基于图注意力网络的联合事件抽取模型进行事件抽取,其框架图如图3所示。
1)文本特征表示和抽取。
本发明使用ERNIE预训练模型进行句子编码,该模型添加了百度百科、百度贴吧、百度新闻、等中文语料,融合了很多外部的知识,使得其在中文NLP任务上的效果更好。通过ERNIE模型编码生成词向量表示矩阵X1
为了获取中文词语更多的语义信息,本发明对输入的文本进行分词和词性标注,然后按照BIO标记规则对每个词的词性进行标记,标签包括B-pos,I-pos,E-pos,单个字符组成的词就用S-pos表示,pos指的是每个词语的词性,然后通过随机初始化,并且反向传播进行优化,得到训练好的词性向量,获得每个词性对应的词性嵌入表示,对于句子S就获得了词性嵌入矩阵X2
并且,本发明按照BIO标记规则对文本进行实体类别标注,然后通过随机初始化,并且反向传播进行优化,得到训练好的实体类别向量,获得每个词对应的实体类别嵌入表示,对于句子S就获得了实体类别嵌入矩阵X3
最后,将上述三种嵌入拼接在一起,就获得了文本特征矩阵X。
本发明使用双向长短期记忆网络Bi-LSTM模型,获取到句子里从前到后和从后到前的信息。对于单向LSTM,其计算过程如公式(12)到公式(14)所示。
Figure BDA0004165975260000151
Figure BDA0004165975260000161
ht=ot⊙tanh(ct) (14)
其中,W是要训练的参数矩阵,b是偏置向量,σ表示sigmoid函数,≌表示向量间进行点乘操作。
Bi-LSTM在t时刻的输出矩阵表示为
Figure BDA0004165975260000162
其中,/>
Figure BDA0004165975260000163
表示前向GRU的输出,/>
Figure BDA0004165975260000164
表示反向GRU的输出。
2)句法依赖图的构建。
首先,使用DDParser对中文句子进行依存句法分析,得到句法依赖树。把句法依赖树定义成一个无向图G=(V,E),其中V是节点的集合,包含两个子集Vc和Vw,Vc是n个字符的集合,n为句子长度,Vw是分词后的k个词语集合,对每个词语使用预训练好的词向量进行表示,其维度也和字符向量一样。
对于边集合E而言,在分析结果中存在语法关系的两个词语wi,j=S(ci,...,cj)和wu,v=S(cu,...,cv)需要建立边关系,本发明把其中一个词语的头一个和最后一个字符向量
Figure BDA0004165975260000165
都连接到另一个词语的向量表示中,还需要对每条语法关系边添加一个相反的边,同时,相邻字符也都要加上邻接边,并对所有节点添加一个自环边。
例如,对于之前经过依存句法分析的样例句子,在图4展示了其句法依赖图的部分构造结果。“击败”和“梅德韦杰夫”之间是VOB关系,跟“夫”这个字符相连的边有5条,分别是它和词语击败之间的关系、反向关系边、自环边、和相邻字符连接的两个边。
3)图注意力网络算法。
定义任意之间存在路径的俩词语向量节点vi,vj的最短路径是pij,任意俩相邻词语向量节点间的边定义为(wm,wm+1),那么pij的计算方法如公式(15)所示。
pij=[(vi,w1),(w1,w2),...,(wn,vj)] (15)
其中,wi指的是词语向量节点。
得到两个节点间最短路径之后,本发明仍然使用BiGRU网络,对这条路径上的所有节点的特征进行融合,前后向GRU的输出分别为
Figure BDA0004165975260000171
和/>
Figure BDA0004165975260000172
将两个向量拼接到一起,得到融合后的特征向量h,就是BiGRU在t时刻的输出/>
Figure BDA0004165975260000173
h向量融合了两个节点最短路径上所有其他节点的特征,将其作为这两个节点各自的周围节点。
此时经过上面的计算,原先的句法依赖图G=(V,E)又得到了扩充,其中V是节点的集合,现在包含三个子集Vc、Vw和Vb,Vc是n个字符向量节点的集合,n为句子长度,Vw是分词后的k个词语向量节点的集合,Vb是由最短路径算法计算出的每个词语向量节点的周围节点集合,大小为m。所以由这三个子集汇总得到句法依赖图的所有节点集合V如公式(16)所示。
V={v1,v2,...,vn,vn+1,...,vn+k,vn+k+1,...,vn+k+m} (16)
将句法依赖图的特征节点和关系边作为N阶图注意力神经网络的第m层输入,图注意力网络对图中每个节点特征vi进行聚合计算得到聚合特征vi'的过程如公式(17)所示。
Figure BDA0004165975260000174
其中,K是注意力头的个数,Wk是第k个注意力头相对于节点的权重矩阵,
Figure BDA0004165975260000175
是计算第k个注意力的权重系数,Ni是节点vi在句法依赖图中所有邻居节点vj的集合,σ是非线性激活函数。
经过以上的计算,本发明得到了图注意力网络层的输出V'集合,V'集合中节点数量是n+k+m,但在后续的分类过程中我们不需要对k个词语向量节点和m个周围节点进行分类,所以将其舍弃,只留下前n个字符节点,将其转换成矩阵表示O。
4)触发词及论元分类。
最后在触发词及论元识别层对触发词和论元进行联合抽取,使用BIO标注的方法进行多分类任务,把上一层的输出矩阵O先输入一个全连接层,然后接上一个softmax层对所有类型的向量进行归一化操作,从而实现事件触发词分类。计算过程如公式(18)和公式(19)所示。
O'=tanh(WOO+bO) (18)
Figure BDA0004165975260000185
其中,
Figure BDA0004165975260000186
是第i个实体的触发词类型概率分布,WT是事件触发词分类的参数矩阵,
Figure BDA0004165975260000181
其中nT是事件类型的数量,nc表示向量维度大小。
通过上面的计算,我们得到了候选触发词,接着使用O'这个输出矩阵对句子中的实体列表进行论元分类。对触发词包含的多个词向量进行平均池化,得到候选触发词的向量表示Ti,然后我们把Ti和其他每个词语的向量Ej拼接起来,并输入到全连接网络中,接上一个softmax层来实现论元分类,计算过程如公式(20)所示。
Figure BDA0004165975260000182
其中,
Figure BDA0004165975260000183
是第j个实体在第i个候选触发词触发的事件中扮演的角色的概率分布,WA是事件论元分类的参数矩阵,/>
Figure BDA0004165975260000184
nA是论元类型的数量。
为了便于理解,本发明给出了一个更为具体的实施例:
在事理逻辑关系抽取任务中,针对事件边界模糊、难以确定的问题,本发明在预训练模型得到的字符向量基础上,使用SoftLexicon方法来引入外部的词语信息,通过对每个词语构建四个词集,把外部的词语信息融入到字符向量中,增强了字符的语义性。同时,针对特征选择不够全面的问题,本发明同时考虑了不同粒度的词汇级别特征以及包含上下文语义信息的句子级别特征,并对事件中的触发词特征、事件顺序特征等多种特征进行向量表示,并通过使用注意力机制构建词语间的依赖关系,对不同特征计算不同的注意力权重,从而使提取的特征更加充分,有助于提升事理逻辑关系抽取的效果。
在事件抽取任务中,针对同一个句子中存在多个事件难以抽取的问题,以及在特征选择时只考虑句子序列的特征,但是忽略了句子的句法特征,导致模型难以获取一个句子里多个事件的相关性的问题,本发明把依存句法分析的结果句法依赖树按照中英文的不同方法转换为句法依赖图,将图输入图注意力网络中,可以学习到句法结构特征,图注意力网络可以对句法依赖图进行特征聚合,找到实体间的最短路径后把对应向量拼接起来提取特征,最后通过联合抽取得到事件触发词和论元及其对应角色,本发明提出的方法显著提升了事件抽取的效果。
Att-GRCNN模型是本发明提出的事理逻辑关系抽取模型,本发明使用三个评价指标对各个基准模型和Att-GRCNN模型在因果关系抽取上的效果进行了评测,在DuEE1.0数据集和CEC数据集上的结果如表1所示。Att-GRCNN模型在DuEE1.0数据集和CEC数据集上都取得了不错的效果,在绝大部分指标中都能超过基准模型的实验结果。其中,Att-GRCNN模型在CEC数据集上的F1指标比表现最好的GAN-BiGRU-CRF模型提升了2%,在DuEE1.0数据集上的F1指标也提高了0.3%。
表1Att-GRCNN模型在因果关系抽取上的对比实验
Figure BDA0004165975260000191
/>
Figure BDA0004165975260000201
跟6个基准模型相比,本发明提出的Att-GRCNN模型在召回率和F1值上的表现是最好的,主要原因是:首先模型使用SoftLexicon方法来引入外部的词语信息,增强了字符的语义性。并且,本模型同时考虑了不同粒度的词汇级别特征以及包含上下文语义信息的句子级别特征,并对事件中的触发词特征、事件顺序特征等多种特征进行向量表示,丰富了事件关系的语义特征。除此之外,模型还通过注意力机制构建词语间的依赖关系,对不同特征计算不同的注意力权重,从而使提取的特征更加充分,有助于提升事理逻辑关系抽取的效果。
DEP-GAT模型是本发明提出的联合事件抽取模型,因为事件抽取包含两个子任务,本发明分别对各个模型在触发词识别及分类、论元识别及分类两个任务中的表现进行评价,在ACE-2005英文数据集上的结果如表2和表3所示。
表2DEP-GAT模型在触发词识别和分类上的对比实验
Figure BDA0004165975260000202
/>
Figure BDA0004165975260000211
表3 DEP-GAT模型在论元识别和分类上的对比实验
Figure BDA0004165975260000212
如表2和表3所示,在触发词识别及分类、论元识别及分类两个任务中,本发明提出的DEP-GAT模型都有不错的效果,在以上绝大部分指标中基本能超过基准模型的实验结果。其中,DEP-GAT模型在触发词识别任务中F1指标比表现最好的HPNet模型提升了将近2%,比经典的JRNN模型更是提升了9.2%。此外,在论元识别及分类任务中,DEP-GAT模型跟基准模型比起来效果也有较大的提升,比表现最好的JMEE模型在F1值上各个任务分别提升了3.2%和5.4%,对于经典的基于CNN的DMCNN模型在F1值上提升的效果更加显著。总体而言,通过以上两个表格中的实验结果可以清晰的证明本发明提出的DEP-GAT模型的有效性。
DEP-GAT模型的实验结果也可以在一定程度上表明基于联合方式的事件抽取方法比起基于管道方式的事件抽取方法具有一定的优势。对于基于两阶段流水线方法的StagedMaxent模型,尽管它在第一阶段触发词识别和分类任务中的效果还可以,但是在第二阶段的论元识别和分类任务中,可以看到其召回率较低,只有20.3%和19.3%,说明第一阶段的误差传播到了第二阶段,严重影响了论元抽取任务的性能。而且,在触发词识别任务的F1值上,DEP-GAT模型的实验数值相比那些基于管道的模型比如DMCNN,要提高了7.6%,在论元识别任务的F1值上也提升了12.5%,从而证明了基于联合方式的DEP-GAT模型在事件抽取任务中的有效性。除了简单比较多个模型间的F1值之外,我们可以再对比一下这些模型各自在触发词分类和论元分类任务中F1的差值,比如基于管道的StagedMaxent模型的F1差值达到了36.2%,DMCNN模型的F1差值也达到了15.6%。但是基于联合的JRNN模型,其F1差值是13.9%,JMEE模型的F1差值是13.4%,本发明提出的DEP-GAT模型的F1差值是13.4%,DEP-GAT模型在两个任务中的性能差距较小,说明基于联合方式的事件抽取可以缓解一些错误的传播,因为这种方式在抽取论元时不使用触发词抽取的结果,触发词识别的错误也不会传到论元抽取任务中。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于事理逻辑的联合事件抽取方法,其特征在于,包括:
将句子输入事理逻辑关系抽取模型,得到所述句子中的事件关系对;
将所述句子中的事件关系对中每个事件输入基于图注意力网络的联合事件抽取模型,得到句子对应的抽取结果;其中,所述抽取结果包括触发词分类及论元分类;
所述事理逻辑关系抽取模型包括编码层、特征提取层、事件关系识别层;
所述将句子输入事理逻辑关系抽取模型,得到所述句子对应的抽取结果,包括:
将句子输入编码层,得到所述编码层输出的句子对应的文本特征矩阵;
将所述文本特征矩阵输入所述特征提取层,得到所述特征提取层输出的全局和局部的特征表示矩阵;
将所述全局和局部的特征表示矩阵输入所述事件关系识别层,识别出句子中的事件关系对。
2.根据权利要求1所述的方法,其特征在于,所述将句子输入编码层,得到所述编码层输出的句子对应的文本特征矩阵,包括:
将句子输入所述编码层中的嵌入层,以将句子中每个单词转换成词向量通过BERT模型编码后生成词向量表示矩阵;
使用SoftLexicon方法引入外部词典,将句子中的字符和词典进行匹配,得到字符对应的词语,根据字符在该词语中所处的位置,把该词语分别放到四个词语集合中:B、M、E、S;该词语集合分别表示该字符的位置在词语的开头、中间部分、结尾以及独自构成一个词语;
在得到句子中每个字符的四个词语集合后,把每个词语集合表示成一个固定长度的向量,将词频作为每个词的权重系数,对每个集合中的所有词的词向量嵌入进行加权计算,分别获取每个字符的词语集合的向量;
把一个字符对应的四个词语集合的向量都拼接到该字符对应的BERT字向量中,即得到新的词向量表示矩阵X1
对事件的触发词特征、事件的顺序特征、关系连接词特征赋予不同的权重进行融合,得到多维度特征矩阵X2
将X2与X1进行拼接,即得到最终的文本特征矩阵
Figure FDA0004165975250000021
3.根据权利要求1所述的方法,其特征在于,所述将所述文本特征矩阵输入所述特征提取层,得到所述特征提取层输出的全局和局部的特征表示矩阵,包括:
将文本特征矩阵输入所述特征提取层的卷积层,得到多层卷积层的最终特征表示DCNN;DCNN∈Rn×m中每行表示每个单词通过多层卷积提取的词汇级别的特征;m为卷积核的个数,n为句子中词语的个数;
对所有词语进行最大池化操作后,得到矩阵P,P=[p1,p2,...,pn],pi为对第i个词语进行最大池化操作后得到的向量;
将DCNN输入所述特征提取层的自注意力层,得到词汇级别的特征D'CNN,D'CNN∈Rn×m
把文本特征矩阵输入所述特征提取层的双向门控循环单元,得到输出矩阵HGRU;其中,双向门控循环单元由前向GRU和反向GRU组成,设定隐藏单元的个数为s,那么HGRU∈Rn×(2×s);HGRU中每行表示每个单词通过双向门控循环单元提取的句子级别的特征;
把矩阵HGRU输入所述特征提取层的另一个自注意力层,得到句子级别的特征H′GRU
将H′GRU、D'CNN输入所述特征提取层的全局注意力机制层,得到输出特征矩阵G;
把矩阵P和矩阵Hl拼接到全局注意力层的输出矩阵中,,输出全局和局部的特征表示矩阵
Figure FDA0004165975250000031
其中,Hl为双向门控循环单元层的最后一个一维隐藏层的输出矩阵。
4.根据权利要求1所述的方法,其特征在于,所述事件关系识别层采用条件随机场CRF模型;
设CRF输出的一个标签序列为L=[l1,l2,...,ln],则一个标签序列L的总得分为:
Figure FDA0004165975250000032
其中,A是转移得分矩阵,
Figure FDA0004165975250000033
表示从标签li到标签li+1的转移概率,/>
Figure FDA0004165975250000034
表示第i个字符在标签li下的得分;
最大化正确标签序列L*的对数似然估计函数,事理逻辑关系抽取模型的目标函数的计算方法为:
Figure FDA0004165975250000035
模型的损失函数loss定义为loss=-log(P(L*|Z)),通过反向传播优化参数。
5.根据权利要求1所述的方法,其特征在于,所述将所述句子中的事件关系对中所有事件放到一个集合中,形成文本集合,并将该文本集合输入基于图注意力网络的联合事件抽取模型,得到句子对应的抽取结果,包括:
将词向量表示矩阵X1、词性嵌入矩阵X2、实体类别嵌入矩阵X3拼接在一起,即可得到文本特征矩阵X;
将文本特征矩阵X输入双向长短期记忆网络Bi-LSTM模型,得到输出矩阵HLSTM
使用DDParser对句子进行依存句法分析,得到句法依赖图,并对所述句法依赖图进行扩充;
将句法依赖图的特征节点和关系边作为N阶图注意力神经网络的第m层输入,图注意力网络对图中每个节点特征vi进行聚合计算得到聚合特征v′i;最终得到图注意力网络层的输出V'集合,V'集合中节点数量是n+k+m;
基于图注意力网络的联合事件抽取模型中的触发词及论元识别层对触发词和论元进行联合抽取,使用BIO标注的方法进行多分类任务,把上一层的输出矩阵O先输入一个全连接层,经过激活函数后得到矩阵O',然后接上一个softmax层对所有类型的向量进行归一化操作,从而实现事件触发词分类;
得到候选触发词后,使用O'这个输出矩阵对句子中的实体列表进行论元分类;对触发词包含的多个词向量进行平均池化,得到候选触发词的向量表示Ti,然后把Ti和其他每个词语的向量Ej拼接起来,并输入到全连接网络中,接上一个softmax层来实现论元分类。
6.根据权利要求5所述的方法,其特征在于,在所述将词向量表示矩阵X1、词性嵌入矩阵X2、实体类别嵌入矩阵X3拼接在一起,即可得到文本特征矩阵X之前,所述方法还包括:
通过所述基于图注意力网络的联合事件抽取模型中的ERNIE模型编码生成词向量表示矩阵X1
所述基于图注意力网络的联合事件抽取模型对输入的句子中的事件文本进行分词和词性标注,最终得到句子S对应的词性嵌入矩阵X2
按照BIO标记规则对文本进行实体类别标注,然后通过随机初始化,并且反向传播进行优化,得到训练好的实体类别向量,获得每个词对应的实体类别嵌入表示,最终得到句子S对应的实体类别嵌入矩阵X3
7.根据权利要求6所述的方法,其特征在于,所述基于图注意力网络的联合事件抽取模型对输入的句子中的事件文本进行分词和词性标注,最终得到句子S对应的词性嵌入矩阵X2,包括:
所述基于图注意力网络的联合事件抽取模型对输入的句子中的事件文本进行分词和词性标注,然后按照BIO标记规则对每个词的词性进行标记,标签包括B-pos,I-pos,E-pos,单个字符组成的词用S-pos表示,pos指的是每个词语的词性,然后通过随机初始化,并且反向传播进行优化,得到训练好的词性向量,获得每个词性对应的词性嵌入表示,最终得到句子S对应的词性嵌入矩阵X2
8.根据权利要求5所述的方法,其特征在于,所述对所述句法依赖图进行扩充的实现过程为:
定义任意之间存在路径的两个词语向量节点vi,vj的最短路径是pij,任意两个相邻词语向量节点间的边定义为(wm,wm+1);wi指的是第i个词语向量节点;
采用BiGRU网络对两个词语向量节点最短路径上的所有节点的特征进行融合,前后向GRU的输出分别为
Figure FDA0004165975250000051
和/>
Figure FDA0004165975250000052
将/>
Figure FDA0004165975250000053
和/>
Figure FDA0004165975250000054
拼接到一起,得到融合后的特征向量h,即BiGRU在t时刻的输出/>
Figure FDA0004165975250000055
将其作为这两个节点各自的周围节点;
最后,得到扩充后的句法依赖图G=(V,E),其中,V是节点的集合,包含三个子集Vc、Vw和Vb,Vc是n个字符向量节点的集合,n为句子长度,Vw是分词后的k个词语向量节点的集合,Vb是由最短路径算法计算出的每个词语向量节点的周围节点集合,大小为m。
9.根据权利要求5所述的方法,其特征在于,所述图注意力网络对句法依赖图中每个节点特征vi进行聚合计算得到聚合特征v′i的计算方法如以下公式所示:
Figure FDA0004165975250000061
其中,K是注意力头的个数,Wk是第k个注意力头相对于节点的权重矩阵,
Figure FDA0004165975250000062
是计算第k个注意力的权重系数,Ni是节点vi在句法依赖图中所有邻居节点vj的集合,σ是非线性激活函数;
经过以上的计算,得到了图注意力网络层的输出V′集合,V′集合中节点数量是n+k+m,但在后续的分类过程中不需要对k个词语向量节点和m个周围节点进行分类,所以将其舍弃,只留下前n个字符节点,将其转换成矩阵表示O。
10.根据权利要求5所述的方法,其特征在于,采用如下公式,实现事件触发词分类:
O'=tanh(WOO+bO)
Figure FDA0004165975250000063
其中,
Figure FDA0004165975250000064
是第i个实体的触发词类型概率分布,WT是事件触发词分类的参数矩阵,
Figure FDA0004165975250000065
其中nT是事件类型的数量,nc表示向量维度大小;
通过如下公式,实现论元分类:
Figure FDA0004165975250000066
其中,
Figure FDA0004165975250000067
是第j个实体在第i个候选触发词触发的事件中扮演的角色的概率分布,WA是事件论元分类的参数矩阵,/>
Figure FDA0004165975250000068
nA是论元类型的数量。
CN202310363825.9A 2023-04-06 2023-04-06 一种基于事理逻辑的联合事件抽取方法 Pending CN116383387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310363825.9A CN116383387A (zh) 2023-04-06 2023-04-06 一种基于事理逻辑的联合事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310363825.9A CN116383387A (zh) 2023-04-06 2023-04-06 一种基于事理逻辑的联合事件抽取方法

Publications (1)

Publication Number Publication Date
CN116383387A true CN116383387A (zh) 2023-07-04

Family

ID=86963046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310363825.9A Pending CN116383387A (zh) 2023-04-06 2023-04-06 一种基于事理逻辑的联合事件抽取方法

Country Status (1)

Country Link
CN (1) CN116383387A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757159A (zh) * 2023-08-15 2023-09-15 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及***
CN117332377A (zh) * 2023-12-01 2024-01-02 西南石油大学 一种基于深度学习的离散时间序列事件挖掘方法及***
CN117350386A (zh) * 2023-12-04 2024-01-05 南京信息工程大学 一种事件溯因推理方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757159A (zh) * 2023-08-15 2023-09-15 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及***
CN116757159B (zh) * 2023-08-15 2023-10-13 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及***
CN117332377A (zh) * 2023-12-01 2024-01-02 西南石油大学 一种基于深度学习的离散时间序列事件挖掘方法及***
CN117332377B (zh) * 2023-12-01 2024-02-02 西南石油大学 一种基于深度学习的离散时间序列事件挖掘方法及***
CN117350386A (zh) * 2023-12-04 2024-01-05 南京信息工程大学 一种事件溯因推理方法及***
CN117350386B (zh) * 2023-12-04 2024-03-19 南京信息工程大学 一种事件溯因推理方法及***

Similar Documents

Publication Publication Date Title
CN109992783B (zh) 中文词向量建模方法
Shen et al. Disan: Directional self-attention network for rnn/cnn-free language understanding
Chang et al. Chinese named entity recognition method based on BERT
Mueller et al. Siamese recurrent architectures for learning sentence similarity
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN116383387A (zh) 一种基于事理逻辑的联合事件抽取方法
CN111414481B (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和***
CN112732921B (zh) 一种虚假用户评论检测方法及***
CN111027595A (zh) 双阶段语义词向量生成方法
Li et al. Text-to-text generative adversarial networks
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
CN112269874A (zh) 一种文本分类方法及***
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN114547299A (zh) 一种基于复合网络模型的短文本情感分类方法及装置
Hamzah et al. The detection of sexual harassment and chat predators using artificial neural network
CN117610562B (zh) 一种结合组合范畴语法和多任务学习的关系抽取方法
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及***
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN113204640A (zh) 一种基于注意力机制的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination