CN113901229B - 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 - Google Patents

基于句法图卷积的汉越双语新闻事件因果关系抽取方法 Download PDF

Info

Publication number
CN113901229B
CN113901229B CN202111078636.4A CN202111078636A CN113901229B CN 113901229 B CN113901229 B CN 113901229B CN 202111078636 A CN202111078636 A CN 202111078636A CN 113901229 B CN113901229 B CN 113901229B
Authority
CN
China
Prior art keywords
event
chinese
vector
sentence
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111078636.4A
Other languages
English (en)
Other versions
CN113901229A (zh
Inventor
高盛祥
杨舰
余正涛
朱恩昌
寇梦珂
陈瑞清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111078636.4A priority Critical patent/CN113901229B/zh
Publication of CN113901229A publication Critical patent/CN113901229A/zh
Application granted granted Critical
Publication of CN113901229B publication Critical patent/CN113901229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于句法图卷积的汉越双语新闻事件因果关系抽取方法,属于自然语言处理技术领域。本发明步骤包括:所述方法首先利用对抗学习的思想将预训练得到的双语词向量映射到同一个语义空间中;然后利用句法图卷积神经网络捕获事件句深层语义信息。最后通过结合事件类型的交叉注意力机制得到不同语言事件句的深层次语义特征。本发明发明将从描述事件信息的汉越新闻文本中抽取出原因事件和结果事件,并以结构化的形式将其呈现出来,主要研究工作针对稀缺型语言进行开展,解决了现有的事件因果关系抽取方法对隐式因果语义关系捕获能力欠佳的问题。

Description

基于句法图卷积的汉越双语新闻事件因果关系抽取方法
技术领域
本发明涉及基于句法图卷积的汉越新闻事件因果关系抽取方法,属于自然语言处理技术领域。
背景技术
越南与我国毗邻,越南与国内交流日益密切,相关的新闻事件越来越多,而这些报道分布在国内及越南相关网站及媒体上,呈现为中文或者越南文。而新闻事件往往不是孤立存在的,事件之间存在着关联关系。如何及时有效了解国内及越南新闻事件之间的关联关系意义重大。
事件因果关系抽取是事件关联关系抽取的任务之一。事件因果关系抽取主要分为三类:基于模式匹配的方法、基于模式匹配与机器学习组合的方法和基于深度学习的方法。其中基于模式匹配的方法利用语义特征、词汇符号特征等特征通过模式匹配进行因果关系的提取。Girju等使用句法模式提取因果关系,然后使用语义约束将候选对分类为因果对或非因果对;Ittoo等提出一种基于词性、句法分析和因果模板的因果对提取方法。完全依赖于模式匹配规则的方法通常跨域适应性差,在解决特定领域的问题时可能需要广泛的领域知识。基于模式和机器学习相结合的方法主要以流水线的方式解决因果关系的抽取任务,将因果关系抽取分为两个子任务,候选因果对提取和关系分类。首先根据模板或一些线索词提取可能具有因果关系的候选事件对,然后根据语义特征和语法特征对候选因果对进行分类筛选出因果对。Luo等从大规模网络文本语料库中提取因果关系术语,然后基于点态相互信息的统计度量使用因果线索来度量网络文本语料之间的因果强度。
随着计算机能力的提升和高质量数据集的出现,且深度神经网络具有强大的表征学习能力,可以有效捕获描述事件文本中隐含的因果语义关系,基于神经网络的方法成为目前主流的方法。De Silva等使用卷积神经网络(Convolution Neural Network,CNN)对文本中的因果关系进行分类;Kruengkrai等选择使用CNN从嘈杂的文本中提取背景知识来分类常识性的因果关系;Li等提出了一种面向知识的CNN,它结合了词汇知识库中的先验知识进行因果关系分类;Dasgupta等还通过基于长短期记忆(Long Short-Term Memory,LSTM)网络的深层模型,从语言的角度确定了文本中因果关系的语言表达。基于深度神经网络的事件因果关系识别模型的性能需要大规模且高质量的标注语料。因果关系之间的实体距离有时也相距甚远,因果三元组中的长程依赖关系给深层学习模型带来了困难和模糊。为了准确地提取出因果三元组,Li等提出了一种以BiLSTM-CRF模型为架构的因果关系抽取模型SCIFI(Self-Attentive BiLSTM-CRF wIth FlaIr Embeddings)。模型使用一种新的因果关系标注方案直接抽取因果关系,为了解决数据不足的问题,将上下文嵌入应用到了到因果关系抽取任务中。为了捕获特定任务的字符特征,采用单层CNN结构与最大池化操作来学习字符级表示。通过双向的LSTM进行特征抽取。之后经过多头自注意力(Multi-Head Self-Attention,MHSA)学习给定句子中因果关系的依存关系,最终传入到CRF层进行实体的标注进行因果关系的实体对的抽取。以上基于端到端深度学习的事件因果关系抽取方法主要是在单语场景下开展的相关研究,在多语言尤其是在汉越双语场景下还未见相关报到。综上所述,汉越双语新闻事件因果关系识别目前面临着以下两个方面的问题:1)基于端到端神经网络新闻事件因果关系抽取方法,严重依赖大规模的且高质量的标注语料,而汉语-越南语的事件对齐语料稀缺,难以将两种语言很好的映射到同一个语义空间中;2)新闻事件因果关系抽取需要模型捕获事件句中深层次的语义关系,现有基于端到端深度学习的模型在事件因果关系抽取上取得了一定效果,但依然存在事件句内深层语义信息捕获不足,从而导致隐式因果关系边界识别模糊等问题。
基于以上问题,我们提出了基于句法图卷积的汉越双语新闻事件因果关系抽取方法。
发明内容
本发明提供了基于句法图卷积的汉越双语新闻事件因果关系抽取方法,以用于解汉越双语新闻事件因果关系识别目前面临的两个方面的问题;一是基于端到端神经网络新闻事件因果关系抽取方法,严重依赖大规模的且高质量的标注语料,而汉语-越南语的事件对齐语料稀缺,难以将两种语言很好的映射到同一个语义空间中;二是新闻事件因果关系抽取需要模型捕获事件句中深层次的语义关系,现有基于端到端深度学习的模型在事件因果关系抽取上取得了一定效果,但依然存在事件句内深层语义信息捕获不足,从而导致隐式因果关系边界识别模糊等问题。
本发明的技术方案是:基于句法图卷积的汉越双语新闻事件因果关系抽取方法,所述方法首先利用对抗学习的思想将预训练得到的双语词向量映射到同一个语义空间中;然后利用句法图卷积神经网络捕获事件句深层语义信息。最后通过结合事件类型的交叉注意力机制得到不同语言事件句的深层次语义特征。
作为本发明的优选方案,所述方法的具体步骤如下:
Step1、获取越南语新闻文本、汉语新闻文本,在经过过滤、去噪、筛选后依据ACE2005数据集标准结合任务标注,构建了汉越新闻事件检测数据集;
Step2、基于句法图卷积的汉越双语新闻事件因果关系抽取模型,旨在从描述事件信息的汉越新闻文本中抽取出汉越双语新闻事件之间的因果关系,该模型包含词向量表征层、句法图卷积层、交叉注意力层、分类层四个重要的子模块构成。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉越新闻文本语料,把已爬取出语料经过过滤、去噪、筛选后并以json格式储存到数据库中;
Step1.2、对爬取的语料根据ACE2005数据集标准结合任务进行标注,本发明中标注了7种事件类型和1种非事件类型;
Step1.3、构建越南语新闻文本813篇,与之相对应的中文新闻文本4065篇,30177条事件句集合。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、在词向量表征层,汉越双语新闻事件因果关系识别首先要解决的是汉越双语之间的跨语言问题。在汉越对齐语料稀缺的情况下,汉越机器翻译效果欠佳,直接将越南语翻译为汉语或者将汉越翻译为越南语会降低模型的准确率。因此,本发明通过对抗学习的方法将两种语言映射到同一语义空间下,训练汉越双语词向量;
Step2.2、在句法图卷积层中,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系;
Step2.3、交叉注意力层中选出关键信息,而忽略其他不重要的信息。交叉注意力机制针对两种语言的新闻句而言,分别利用一种语言的事件类型对另一种语言的新闻句建立注意力机制。在事件对中,为了捕获汉语事件句的深层次的语义信息,将越南语事件句所对应的事件类型与汉语事件句作注意力机制。为了捕获越南语事件句的深层次的语义信息,将汉语事件句所对应的事件类型与越南语事件句作注意力机制。事件类型的加入可以捕获句子深层次的语义信息;
Step2.4、在分类层中,首先分析汉语和越南语的语言特点,借鉴当下研究者提出的事件间因果关系特征。为了提高识别事件因果关系的性能,抽取出事件极性与事件时态两种事件间规则特征。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、给定长度为m的汉语句子向量C={c1,c2,…cm},对于C中的每一个词,ci都被标记出实体类型ei。然后分别通过词向量词表和实体向量词表获取所对应的词向量
Figure GDA0003817857350000041
和实体向量
Figure GDA0003817857350000042
最后把词向量和实体向量拼接起来作为ci最终的向量表示Mi
Figure GDA0003817857350000043
Step2.1.2、将C中的每一个词ci都按照上述方式表示成向量Mi,用
Figure GDA0003817857350000044
运算符进行向量方向的拼接操作,则句子C的语义表示矩阵XC为:
Figure GDA0003817857350000045
Step2.1.3、给定长度为n的越南语句子的向量D={d1,d2,…dn},对于D中的每一个词,di都被标记出实体类型qi,然后分别通过词向量词表和实体向量词表获取所对应的词向量
Figure GDA0003817857350000046
和实体向量
Figure GDA0003817857350000047
最后把词向量和实体向量拼接起来作为di最终的向量表示Ni表示为:
Figure GDA0003817857350000048
Step2.1.4、将D中的每一个词di都按照上述方式表示成向量Ni,用
Figure GDA0003817857350000049
运算符进行向量方向的拼接操作,则句子D的语义表示矩阵XD为:
Figure GDA00038178573500000410
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、本发明分别采用中文哈工大的LTP工具和越南语开源依存句法分析工具来构建依存句法关系。分别将不同语言的句子表示成无向图ζ=(γ,ε),其中γ和ε分别是节点集和边集。以越南语为例子,在γ中,每个vi表示wi的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,边的类型标签为K(wi,wj)。为了让信息朝相反的方向流动,添加了带有类型标签K′(wi,wj)的反向边(vj,vi)。另外,还添加了所有的自循环,即任何vi∈γ的(vi,vi);
Step2.2.2、在句法图卷积网络模块的第k层,K(u,v)表示边(u,v)的类型标签;
Figure GDA0003817857350000051
Figure GDA0003817857350000052
分别是针对类型标签K(u,v)的权值矩阵和偏差;N(v)是节点v的邻域集,包括v(自循环);f是非线性激活函数。计算节点v的图卷积向量
Figure GDA0003817857350000053
表示为:
Figure GDA0003817857350000054
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、在编码汉语事件句时,将越南语事件句所对应的事件类型与汉语事件句作注意力机制,得到汉语更深层次的语义信息。TV为越南语事件句的事件类型向量,WXH(WXH∈R2d*2d)为联合TV和HC的权重向量;α={α123,...,αn}为注意力机制的权重向量(α∈Rn),WK(WK∈R2d)为K的权重矩阵;r1(r1∈Rd)为越南语新闻句事件类型所对应汉语事件句的权重向量;gC(gC∈Rd)为通过交叉注意力机制挖掘出的深层次的汉语事件语义特征向量。具体公式表示如下:
Figure GDA0003817857350000055
α=softmax(WKK)
r1=αHC
gC=tanh(r1)。
作为本发明的优选方案,所述步骤Step2.4的具体步骤为:
Step2.4.1、事件极性:描述了事件是肯定的事件还是否定的事件。当汉语双语新闻事件对的极性相同时特征为1,极性不同时为0;
Step2.4.2、事件时态:描述的事件所发生的时态是之前的事件、此刻的事件、还是未来的事件。过去发生的事件不可能是此刻发生的事件的结果事件,未来发生的事件也不可能是之前的事件和此刻的事件的原因事件,由此可见,事件时态对因果关系的识别有着一定的作用。本发明假设事件发生在之前的特征值为0,事件正在发生或发生在未来的特征值为1;
Step2.4.3、融合事件间规则特征到所获取的深层次的语义空间下,然后,利用softmax分类器对事件对的因果关系进行分类。gC和gV分别表示汉语事件句的因果关系语义特征和越南语事件句的因果关系语义特征,u表示事件间的规则特征,y为模型的输出。具体公式表示如下:
y=softmax(W[gCgVu]+b)。
Step3、选取三个基线***设置对比实验,对比基线***与本发明方法的准确率(P)、召回率(R)和F1值。
Step3.1、实验选取了三个基线***,分别是CNN-softmax、BiLSTM-softmax、CCNN-BiLSTM-CRF与本发明的方法进行对比;
Step3.2、实验中使用用准确率(P),召回率(R),和F1值(F1)作为评价指标,A为正确识别事件因果关系的数量,B为错误识别事件因果关系的数量,C为未被发现的正确识别事件因果关系的数量。公式表示如下;
Figure GDA0003817857350000061
Figure GDA0003817857350000062
Figure GDA0003817857350000063
本发明的有益效果是:
1、本发明首先利用对抗学习的思想将预训练得到的双语词向量映射到同一个语义空间中;然后利用句法图卷积神经网络捕获事件句深层语义信息。最后通过结合事件类型的交叉注意力机制得到不同语言事件句的深层次语义特征。
2、本发明提出方法的F1值相对比基线模型提升了4.16%。进一步验证了该方法在事件因果关系抽取任务上的有效性和优越性,尤其是在低资源和多语言场景下。
3、本发明首先采用基于对抗学习的方法预训练一个汉越双语词向量。然后采用图卷积神经网络学习句法依存树中节点的上下文表示,以捕获事件句内的深层语义信息。最后利用交叉注意力机制同时对两种语言事件句进行深层次因果关系语义建模,最后将其转换为事件因果关系分类问题。在自建的汉越双语新闻事件因果关系抽取数据集上的实验证明,本发明提出的基于句法图卷积的汉越双语新闻事件因果关系抽取方法优于传统的基线方法,验证了融入句法依存信息能增强模型捕获新闻事件句深层次语义信息的能力。
附图说明
图1为本发明中基于句法图卷积的汉越双语新闻事件因果关系抽取模型结构图;
图2为本发明中的句法卷积示意图;
图3为本发明中的基于对抗学习的双语词向量训练示意图。
具体实施方式
实施例1:如图1-图3所示,基于句法图卷积的汉越双语新闻事件因果关系抽取方法,所述方法的具体步骤如下:
Step1、获取越南语新闻文本、汉语新闻文本,在经过过滤、去噪、筛选后依据ACE2005数据集标准结合任务标注,构建了汉越新闻事件检测数据集;
Step2、基于句法图卷积的汉越双语新闻事件因果关系抽取模型,旨在从描述事件信息的汉越新闻文本中抽取出汉越双语新闻事件之间的因果关系,该模型包含词向量表征层、句法图卷积层、交叉注意力层、分类层四个重要的子模块构成。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉越新闻文本语料,把已爬取出语料经过过滤、去噪、筛选后并以json格式储存到数据库中;
Step1.2、对爬取的语料根据ACE2005数据集标准结合任务进行标注,本发明中标注了7种事件类型和1种非事件类型;
Step1.3、构建越南语新闻文本813篇,与之相对应的中文新闻文本4065篇,30177条事件句集合。
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、在词向量表征层,汉越双语新闻事件因果关系识别首先要解决的是汉越双语之间的跨语言问题。在汉越对齐语料稀缺的情况下,汉越机器翻译效果欠佳,直接将越南语翻译为汉语或者将汉越翻译为越南语会降低模型的准确率。因此,本发明通过对抗学习的方法将两种语言映射到同一语义空间下,训练汉越双语词向量;
Step2.2、在句法图卷积层中,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系;
Step2.3、交叉注意力层中选出关键信息,而忽略其他不重要的信息。交叉注意力机制针对两种语言的新闻句而言,分别利用一种语言的事件类型对另一种语言的新闻句建立注意力机制。在事件对中,为了捕获汉语事件句的深层次的语义信息,将越南语事件句所对应的事件类型与汉语事件句作注意力机制。为了捕获越南语事件句的深层次的语义信息,将汉语事件句所对应的事件类型与越南语事件句作注意力机制。事件类型的加入可以捕获句子深层次的语义信息;
Step2.4、在分类层中,首先分析汉语和越南语的语言特点,借鉴当下研究者提出的事件间因果关系特征。为了提高识别事件因果关系的性能,抽取出事件极性与事件时态两种事件间规则特征。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、给定长度为m的汉语句子向量C={c1,c2,…cm},对于C中的每一个词,ci都被标记出实体类型ei。然后分别通过词向量词表和实体向量词表获取所对应的词向量
Figure GDA0003817857350000081
和实体向量
Figure GDA0003817857350000082
最后把词向量和实体向量拼接起来作为ci最终的向量表示Mi:
Figure GDA0003817857350000083
Step2.1.2、将C中的每一个词ci都按照上述方式表示成向量Mi,用
Figure GDA0003817857350000084
运算符进行向量方向的拼接操作,则句子C的语义表示矩阵XC为:
Figure GDA0003817857350000085
Step2.1.3、给定长度为n的越南语句子的向量D={d1,d2,…dn},对于D中的每一个词,di都被标记出实体类型qi,然后分别通过词向量词表和实体向量词表获取所对应的词向量
Figure GDA0003817857350000086
和实体向量
Figure GDA0003817857350000087
最后把词向量和实体向量拼接起来作为di最终的向量表示Ni表示为:
Figure GDA0003817857350000088
Step2.1.4、将D中的每一个词di都按照上述方式表示成向量Ni,用
Figure GDA0003817857350000089
运算符进行向量方向的拼接操作,则句子D的语义表示矩阵XD为:
Figure GDA00038178573500000810
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、本发明分别采用中文哈工大的LTP工具和越南语开源依存句法分析工具来构建依存句法关系。分别将不同语言的句子表示成无向图ζ=(γ,ε),其中γ和ε分别是节点集和边集。以越南语为例子,在γ中,每个vi表示wi的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,边的类型标签为K(wi,wj)。为了让信息朝相反的方向流动,添加了带有类型标签K′(wi,wj)的反向边(vj,vi)。另外,还添加了所有的自循环,即任何vi∈γ的(vi,vi);
Step2.2.2、在句法图卷积网络模块的第k层,K(u,v)表示边(u,v)的类型标签;
Figure GDA0003817857350000091
Figure GDA0003817857350000092
分别是针对类型标签K(u,v)的权值矩阵和偏差;N(v)是节点v的邻域集,包括v(自循环);f是非线性激活函数。计算节点v的图卷积向量
Figure GDA0003817857350000093
表示为:
Figure GDA0003817857350000094
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、在编码汉语事件句时,将越南语事件句所对应的事件类型与汉语事件句作注意力机制,得到汉语更深层次的语义信息。TV为越南语事件句的事件类型向量,WXH(WXH∈R2d*2d)为联合TV和HC的权重向量;α={α123,...,αn}为注意力机制的权重向量(α∈Rn),WK(WK∈R2d)为K的权重矩阵;r1(r1∈Rd)为越南语新闻句事件类型所对应汉语事件句的权重向量;gC(gC∈Rd)为通过交叉注意力机制挖掘出的深层次的汉语事件语义特征向量。具体公式表示如下:
Figure GDA0003817857350000095
α=softmax(WKK)
r1=αHC
gC=tanh(r1)。
作为本发明的优选方案,所述步骤Step2.4的具体步骤为:
Step2.4.1、事件极性:描述了事件是肯定的事件还是否定的事件。当汉语双语新闻事件对的极性相同时特征为1,极性不同时为0;
Step2.4.2、事件时态:描述的事件所发生的时态是之前的事件、此刻的事件、还是未来的事件。过去发生的事件不可能是此刻发生的事件的结果事件,未来发生的事件也不可能是之前的事件和此刻的事件的原因事件,由此可见,事件时态对因果关系的识别有着一定的作用。本发明假设事件发生在之前的特征值为0,事件正在发生或发生在未来的特征值为1;
Step2.4.3、融合事件间规则特征到所获取的深层次的语义空间下,然后,利用softmax分类器对事件对的因果关系进行分类。gC和gV分别表示汉语事件句的因果关系语义特征和越南语事件句的因果关系语义特征,u表示事件间的规则特征,y为模型的输出。具体公式表示如下:
y=softmax(W[gCgVu]+b)。
Step3、选取三个基线***设置对比实验,对比基线***与本发明方法的准确率(P)、召回率(R)和F1值。
Step3.1、实验选取了三个基线***,分别是CNN-softmax、BiLSTM-softmax、CCNN-BiLSTM-CRF与本发明的方法进行对比;
Step3.2、CNN-softmax模型采用CNN对事件句进行编码以聚合文本的上下文信息,该模型由两部分组成:CNN编码器和softmax分类器;BiLSTM-softmax是基于Bi-LSTM的端到端模型,该模型由两部分组成:Bi-LSTM编码器和softmax分类器;CCNN-BiLSTM-CRF是基于CNN和Bi-LSTM分层编码的神经序列模型;
Step3.3、实验中使用用准确率(P),召回率(R),和F1值(F1)作为评价指标。
本发明在低资源场景下进行基于句法图卷积的汉越双语新闻事件因果关系抽取实验。实验依据ACE2005数据标准结合任务构建了汉越双语新闻事件检测数据集,其中越南语新闻文本813篇,中文新闻文本4065篇,标注了7种事件类型和1种非事件类型,包括30177条事件句集合Di={e1,e2,...,en}中,i=1,2,...,7,n为事件总数。其中,事件类型和触发词如表1所示。进而对事件句集合Di进行标注,形成汉越双语新闻事件因果关系数据集。为了进行评估,将语料按照4:1:1的比例随机分成训练集、开发集和测试集,分别用于模型的训练、超参数的调优和模型的评估。
表1事件类型及触发词
Figure GDA0003817857350000101
Figure GDA0003817857350000111
为了验证基于句法图卷积的汉越双语新闻事件因果关系抽取方法的有效性我们设置了3组对比实验。表2中给出的是基线***与本发明方法的对比结果。
表2本发明方法与基线模型性能对比
模型 P(%) R(%) F1
CNN-softmax 69.43 61.74 65.36
BiLSTM-softmax 71.65 64.38 67.82
CCNN-BiLSTM-CRF 73.81 66.92 70.20
本发明方法 78.67 70.49 74.36
由表2中的实验结果可以看出,本发明提出的基于句法图卷积的汉越双语新闻事件因果关系抽取方法优于其他的基线方法。和CCNN-BiLSTM-CRF方法对比发现,本发明提出的方法在准确率(P)、召回率(R)和F1值上都有明显的提升,分别提升了4.86%,3.57%和4.16%。原因在于事件句的句法依存树通过句法边增强了句子中词与词之间的语义关联度,通过GCN聚合了邻接点的语义信息,更有利于模型捕获事件句内的因果语义信息。通过对比实验,同时我们也可以观察到,基于Bi-LSTM的模型性能明显优于基于CNN的模型性能,其可能原因是Bi-LSTM可以更有效的捕获上下文信息,学习因果关系的语义表示。
为了进一步验证本发明提出方法的有效性,本发明分别设置了以下三组消融实验:GCN层数对因果关系抽取性能的影响、交叉注意力机制对因果关系抽取性能的影响以及图卷积和事件间规则特征对因果关系抽取性能的影响。
(1)GCN层数对因果关系抽取性能的影响
由于开源工具生成的句法依存关系本身存在一定噪声,随着卷积层数的增加,噪声数据也随之增加,进而影响模型性能。实验结果如表3所示:
表3 GCN层数对模型性能的影响
层数 P(%) R(%) F1
1 78.67 70.49 74.36
2 74.35 67.87 70.96
3 73.52 65.34 69.19
由实验结果可知,随着噪声的干扰增加,模型可能会错误理解语义信息。当图卷积层数为1层时,噪声最小,此时可以相对准确的捕获句子的语义信息,进而使得汉越双语事件因果关系识别任务达到了最佳的效果。
(2)交叉注意力机制对因果关系识别性能的影响
识别因果关系的前提主要是要识别出事件类型,根据事件类型来判断关系是否具有因果关系。本发明研究的是两种语言的事件因果关系识别,根据语言存在的互补性的特征,分别利用一种语言的事件类型对另一种语言的句子做交叉注意力机制,相对于不添加交叉注意力机制而言,实验结果如表4所示:
表4交叉注意力机制对性能的影响
模型 P(%) R(%) F1
不含交叉注意力机制 73.16 66.37 69.60
本发明方法 78.67 70.49 74.36
根据对比结果,发现不含交叉注意力机制的模型效果是明显不如带有交叉注意力机制的。因为,利用一种语言事件类型与另一种语言的句子做交叉注意力机制,可以捕获不同语言间的句子的因果逻辑关系,使得汉越双语新闻事件因果关系识别模型效果达到最优。
(3)图卷积和事件间规则特征对因果关系识别性能的影响
本发明模型中在因果关系识别中,融入事件间规则特征有利于捕获深层次的具有因果逻辑关系的语义信息。作为外部知识,可以起到补充作用。但是本章的主要方法是利用图卷积的方法。为了对比图卷积和事件间规则特征的性能,作出以下实验,实验结果表5所示:
表5图卷积和事件间规则特征对性能的影响
模型 P(%) R(%) F
图卷积 73.16 66.37 69.60
事件间规则特征 65.42 57.63 61.28
本发明方法 78.67 70.49 74.36
根据实验结果可知,只使用事件间规则特征的模型效果远远低于只使用图卷积的模型效果,证明了事件因果关系的识别主要依赖于图卷积方法,而事件间规则特征是辅助,但是只取其一的模型性能不是最好的,两者结合可以使得事件因果关系识别效果达到最佳。
实验结果表明,该方法在低资源和多语言场景下在事件因果关系抽取任务上的有效性和优越性,在自建汉越双语新闻事件因果关系抽取数据集上的实验显示,本发明提出方法的F1值提升了4.16%,比较于基线模型均有明显的提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.基于句法图卷积的汉越双语新闻事件因果关系抽取方法,其特征在于:所述方法首先利用对抗学习的思想将预训练得到的双语词向量映射到同一个语义空间中;然后利用句法图卷积神经网络捕获事件句深层语义信息,最后通过结合事件类型的交叉注意力机制得到不同语言事件句的深层次语义特征;
所述方法的具体步骤如下:
Step1、获取越南语新闻文本、汉语新闻文本,在经过过滤、去噪、筛选后依据ACE2005数据集标准结合任务标注,构建了汉越新闻事件检测数据集;
Step2、基于句法图卷积的汉越双语新闻事件因果关系抽取模型,旨在从描述事件信息的汉越新闻文本中抽取出汉越双语新闻事件之间的因果关系,该模型由词向量表征层、句法图卷积层、交叉注意力层、分类层四个重要的子模块构成;
所述Step2中:
Step2.1、在词向量表征层,通过对抗学习的方法将汉越两种语言映射到同一语义空间下,训练汉越双语词向量;
Step2.2、在句法图卷积层中,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧增强信息之间的依赖关系;
Step2.3、交叉注意力层中选出关键信息,而忽略其他不重要的信息;交叉注意力机制针对两种语言的新闻句而言,分别利用一种语言的事件类型对另一种语言的新闻句建立注意力机制;在事件对中,为了捕获汉语事件句的深层次的语义信息,将越南语事件句所对应的事件类型与汉语事件句作注意力机制;为了捕获越南语事件句的深层次的语义信息,将汉语事件句所对应的事件类型与越南语事件句作注意力机制;事件类型的加入用来捕获句子深层次的语义信息;
Step2.4、在分类层中,首先分析汉语和越南语的语言特点,借鉴当下现有的事件间因果关系特征,为了提高识别事件因果关系的性能,抽取出事件极性与事件时态两种事件间规则特征;
所述Step2.1的具体步骤为:
Step2.1.1、给定长度为m的汉语句子向量C={c1,c2,…cm},对于C中的每一个词,ci都被标记出实体类型ei,然后分别通过词向量词表和实体向量词表获取所对应的词向量
Figure FDA0003817857340000011
和实体向量
Figure FDA0003817857340000012
最后把词向量和实体向量拼接起来作为ci最终的向量表示Mi
Figure FDA0003817857340000021
Step2.1.2、将C中的每一个词ci都按照上述方式表示成向量Mi,用
Figure FDA00038178573400000212
运算符进行向量方向的拼接操作,则句子C的语义表示矩阵XC为:
Figure FDA0003817857340000022
Step2.1.3、给定长度为n的越南语句子的向量D={d1,d2,…dn},对于D中的每一个词,di都被标记出实体类型qi,然后分别通过词向量词表和实体向量词表获取所对应的词向量
Figure FDA0003817857340000023
和实体向量
Figure FDA0003817857340000024
最后把词向量和实体向量拼接起来作为di最终的向量表示Ni表示为:
Figure FDA0003817857340000025
Step2.1.4、将D中的每一个词di都按照上述方式表示成向量Ni,用
Figure FDA00038178573400000211
运算符进行向量方向的拼接操作,则句子D的语义表示矩阵XD为:
Figure FDA0003817857340000026
所述Step2.2的具体步骤为:
Step2.2.1、分别采用中文哈工大的LTP工具和越南语开源依存句法分析工具来构建依存句法关系;分别将不同语言的句子表示成无向图ζ=(γ,ε),其中γ和ε分别是节点集和边集;在γ中,每个vi表示wi的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,边的类型标签为K(wi,wj),为了让信息朝相反的方向流动,添加了带有类型标签K′(wi,wj)的反向边(vj,vi);另外,还添加了所有的自循环,即任何vi∈γ的(vi,vi);
Step2.2.2、在句法图卷积网络模块的第k层,K(u,v)表示边(u,v)的类型标签;
Figure FDA0003817857340000027
Figure FDA0003817857340000028
分别是针对类型标签K(u,v)的权值矩阵和偏差;N(v)是节点v的邻域集,包括v的自循环;f是非线性激活函数,计算节点v的图卷积向量
Figure FDA0003817857340000029
表示为:
Figure FDA00038178573400000210
所述Step2.3的具体步骤为:
Step2.3.1、在编码汉语事件句时,将越南语事件句所对应的事件类型与汉语事件句作注意力机制,得到汉语更深层次的语义信息;TV为越南语事件句的事件类型向量,WXH,WXH∈R2d*2d为联合TV和HC的权重向量;α={α123,...,αn}为注意力机制的权重向量,α∈Rn,WK,WK∈R2d为K的权重矩阵;r1,r1∈Rd为越南语新闻句事件类型所对应汉语事件句的权重向量;gC,gC∈Rd为通过交叉注意力机制挖掘出的深层次的汉语事件语义特征向量;具体公式表示如下:
Figure FDA0003817857340000031
α=softmax(WKK)
r1=αHC
gC=tanh(r1);
所述Step2.4的具体步骤为:
Step2.4.1、事件极性描述:描述了事件是肯定的事件还是否定的事件;当汉越双语新闻事件对的极性相同时特征为1,极性不同时为0;
Step2.4.2、事件时态描述:描述事件所发生的时态是之前的事件、此刻的事件、还是未来的事件;过去发生的事件不可能是此刻发生的事件的结果事件,未来发生的事件也不可能是之前的事件和此刻的事件的原因事件,由此可见,事件时态对因果关系的识别有着一定的作用;设定事件发生在之前的特征值为0,事件正在发生或发生在未来的特征值为1;
Step2.4.3、融合事件间规则特征到所获取的深层次的语义空间下,然后,利用softmax分类器对事件对的因果关系进行分类;gC和gV分别表示汉语事件句的因果关系语义特征和越南语事件句的因果关系语义特征,u表示事件间的规则特征,y为模型的输出;具体公式表示如下:
y=softmax(W[gCgVu]+b)。
2.根据权利要求1所述的基于句法图卷积的汉越双语新闻事件因果关系抽取方法,其特征在于:所述Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉越新闻文本语料,把已爬取出语料经过过滤、去噪、筛选后并以json格式储存到数据库中;
Step1.2、对爬取的语料根据ACE2005数据集标准结合任务进行标注;
Step1.3、构建越南语新闻文本,和与之相对应的中文新闻文本以及事件句集合。
CN202111078636.4A 2021-09-15 2021-09-15 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 Active CN113901229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111078636.4A CN113901229B (zh) 2021-09-15 2021-09-15 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111078636.4A CN113901229B (zh) 2021-09-15 2021-09-15 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Publications (2)

Publication Number Publication Date
CN113901229A CN113901229A (zh) 2022-01-07
CN113901229B true CN113901229B (zh) 2022-09-27

Family

ID=79028492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111078636.4A Active CN113901229B (zh) 2021-09-15 2021-09-15 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Country Status (1)

Country Link
CN (1) CN113901229B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492460B (zh) * 2022-04-08 2022-07-12 东南大学 基于衍生提示学习的事件因果关系抽取方法
CN114860920A (zh) * 2022-04-20 2022-08-05 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN115577678B (zh) * 2022-09-21 2024-04-02 中国人民解放军海军工程大学 文档级事件因果关系识别方法、***、介质、设备及终端
CN116227601B (zh) * 2023-05-09 2023-07-18 济南云微软件科技有限公司 一种基于动词时态的泛化因果网络构建方法、设备及介质
CN116562302A (zh) * 2023-06-29 2023-08-08 昆明理工大学 融合汉越关联关系的多语言事件观点对象识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN111581943A (zh) * 2020-04-02 2020-08-25 昆明理工大学 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN112016293A (zh) * 2020-10-22 2020-12-01 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法
CN112668319A (zh) * 2020-12-18 2021-04-16 昆明理工大学 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113157859A (zh) * 2021-04-06 2021-07-23 北京理工大学 一种基于上位概念信息的事件检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489495B2 (en) * 2008-02-25 2016-11-08 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US9529974B2 (en) * 2008-02-25 2016-12-27 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US20160112357A1 (en) * 2012-11-08 2016-04-21 Socialtopias, Llc Method and apparatus for providing a user device with functionality enabling news feed filtering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN111581943A (zh) * 2020-04-02 2020-08-25 昆明理工大学 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN112016293A (zh) * 2020-10-22 2020-12-01 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法
CN112668319A (zh) * 2020-12-18 2021-04-16 昆明理工大学 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113157859A (zh) * 2021-04-06 2021-07-23 北京理工大学 一种基于上位概念信息的事件检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Chinese–Vietnamese bilingual news event summarization based on distributed graph ranking;Gao S;《The Journal of Supercomputing》;20191121;第76卷(第2期);1034-1048 *
Chinese-Vietnamese cross-language topic discovery method based on generative adversarial networks;Xia L J 等;《International Conference on Image, Signal Processing, and Pattern Recognition (ISPP 2022)》;20220429;331-338 *
基于双语主题和因子图模型的汉语-越南语双语事件关联分析;唐莫鸣等;《中文信息学报》;20171115(第06期);129-135+143 *
基于英语枢轴的汉-越双语词典构建方法;陈亚豪 等;《小型微型计算机***》;20201115;第41卷(第11期);2303-2307 *
融入观点句特征的汉越双语新闻情感分类;林思琦 等;《昆明理工大学学报(自然科学版)》;20201215;第45卷(第6期);67-73 *
融合依存信息和卷积神经网络的越南语新闻事件检测;王吉地等;《南京大学学报(自然科学)》;20200130(第01期);130-136 *
面向新闻领域的论元因果关系判断;牟文晶;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第1期);I138-5153 *

Also Published As

Publication number Publication date
CN113901229A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN113901229B (zh) 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及***
Liu et al. A dependency-based neural network for relation classification
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN109871955B (zh) 一种航空安全事故因果关系抽取方法
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN109977205B (zh) 一种计算机自主学习源代码的方法
Lyu et al. Partial multi-label learning via probabilistic graph matching mechanism
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN112800764B (zh) 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及***
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN117076653A (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113609838B (zh) 文档信息抽取及图谱化方法和***
CN112580330B (zh) 基于中文触发词指导的越南语新闻事件检测方法
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN111522963A (zh) 一种基于公安知识图谱引擎的智能助理应用交互方法
CN115329088A (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant