CN116578671A - 一种情感-原因对提取方法及装置 - Google Patents

一种情感-原因对提取方法及装置 Download PDF

Info

Publication number
CN116578671A
CN116578671A CN202310474990.1A CN202310474990A CN116578671A CN 116578671 A CN116578671 A CN 116578671A CN 202310474990 A CN202310474990 A CN 202310474990A CN 116578671 A CN116578671 A CN 116578671A
Authority
CN
China
Prior art keywords
clause
emotion
pair
neural network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310474990.1A
Other languages
English (en)
Inventor
朱培灿
王博韬
崔晓东
高超
王震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202310474990.1A priority Critical patent/CN116578671A/zh
Publication of CN116578671A publication Critical patent/CN116578671A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种情感‑原因对提取方法及装置,属于深度学习与情感分析领域。该方法包括:根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;根据第一子句特征、图注意力网络和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感‑原因对预测概率。

Description

一种情感-原因对提取方法及装置
技术领域
本发明属于深度学习与情感分析领域,更具体的涉及一种情感-原因对提取方法及装置。
背景技术
随着网络的迅速发展,人们可以随时随地通过互联网发布信息和分享感受。伴随各种社交媒体发布的文本信息数量迅速增加,如何基于文本分析个体的情感成为自然语言处理(NLP,Natural Language Processing)领域中一个重要的研究方向。目前情感分析的研究侧重于情感分类和情感表达,比如对文本作者所表达的情感进行检测或者对文本读者的情感进行预测,其目的在于分析针对事物的某个方面所表达的情感。除了获取表层信息外,研究者们还渴望提取和分析有关情感的深层信息。通过对情感分析问题的研究,情感成因被认为是进行深入情感分析的关键要素之一。
对于文本中某些情感背后潜在原因的研究,为更好地挖掘情感原因之间的联系,研究者们提出情感-原因对提取的任务。对于情感-原因对提取任务的研究,衍生出情感提取与原因提取两个子任务,为了解决两个子任务与情感-原因对提取通常使用分步方法与端到端的方法。
后来情感-原因对提取的方法上多使用语言学知识、深度学习模型、序列标记和注意力机制来解决该任务。研究人员利用以上方法设计各种模型,用来情感-原因对提取,挖掘情感背后产生的原因。但是此类方法大部分都严重依赖于文本特征的质量,而且特征间缺乏交互,包含的内容较为单一。
虽然上述所有的技术、模型都能够提供比较不错的结果,但是情感-原因对提取任务的研究趋势中一直致力于解决两个问题:子句特征表达能力较差,多任务间缺乏交互。
为了将子句的自然语言表示为机器可以处理的数值矩阵,其间必然存在着单词粒度特征到子句粒度特征的转变,对于不同粒度特征向量的变化,研究者们尝试利用预训练词向量生成文本特征向量,再使用注意力机制选择融合子句特征,在此基础上再训练基于情感-原因对的分类器,就能进行情感-原因对提取。然而,word2vec、Golve等词向量模型与子句特征生成机制,生成的特征向量内容单一、语义匮乏,并且现有的特征融合方法只专注于文本中的内容关系建模,而忽略了外部知识的引入。
目前的多任务的方法大多首先进行情感子句和原因子句的预测,然后对距离信息进行编码,通过拼接得到多任务模型下的融合特征。然而,现有的多任务模型无法充分发挥两个子任务对情感-原因对提取任务的促进效果,缺乏任务间的交互协作。
发明内容
本发明实施例提供一种情感-原因对提取方法及装置,用于解决现有多任务模型无法充分发挥两个子任务对情感-原因对提取任务的促进效果,缺乏任务间的交互协作的问题与子句特征表达能力较差,缺乏外部知识引入的问题。
本发明实施例提供一种情感-原因对提取方法,包括:
根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;
根据hanlp工具的语法依赖解析,得到语义依赖邻接矩阵;根据第一子句特征、注意力机制和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;
根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、注意力机制和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;
通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。
优选地,所述根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征,具体包括:
根据情感原因对特征和图注意力网络得到子句对注意力权重矩阵,根据子句对注意力权重矩阵和子句对之间匹配可能性矩阵得到图神经网络对应的子句对邻接矩阵;
根据图神经网络对应的子句对邻接矩阵、情感原因对特征通过下列公式,得到图神经网络对应的子句对特征:
其中,表示t层图神经网络对应的子句对ij特征,/>表示t层图神经网络的子句对ij和xy在邻接矩阵中对应的权重,Wt、bt是可学习的参数,dij表示t层图神经网络的子句对邻接矩阵Pt中节点ij的度表示。
优选地,所述根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量,具体包括:
所述图神经网络对应的第二子句特征如下所示:
其中,表示t层图神经网络对应的第二子句特征,/>表示t层图神经网络的子句i和j在邻接矩阵中对应的权重,Wt、bt是可学习的参数,di表示t层图神经网络的邻接矩阵At中节点i的度。
优选地,所述通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,具体包括:
通过下列公式对图神经网络对应的子句对特征向量:
其中,Wp和bp表示学习参数,表示情感-原因对预测概率,/>表示图神经网络对应的子句对特征向量。
优选地,所述根据第一子句特征、注意力机制和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵,具体包括:
所述第一子句特征如下所示:
所述语义依赖邻接矩阵如下所示:
其中,Aw表示邻接矩阵,Mclause表示语义依赖邻接矩阵,hi表示第一子句特征,αi,j表示单词隐藏状态权重,/>表示单词的隐藏状态,R表示所有单词与所有子句之间的关系矩阵。
优选地,所述根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,具体包括:
将一组情感子句的预测标签和一组原因子句的预测标签进行笛卡尔积,得到情感-原因标签乘积;
将情感-原因标签乘积与情感-原因标签进行笛卡尔积,得到子句对之间匹配可能性矩阵;
通过下列公式确定情感原因对特征:
其中,表示第二子句i的特征向量、/>表示第二子句j的特征向量,pi,j表示第二子句i与第二子句j间的距离,/>表示特征向量之间的连接。
优选地,所述根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征之前,还包括:
将所述第二子句特征向量分别输入两个预测层,通过下列公式分别得到情感子句预测概率和原因子句预测概率:
根据所述情感子句预测概率和所述原因子句预测概率,通过下列公式分别得到情感子句提取任务的损失函数和原因子句提取任务的损失函数:
其中,表示子句i的情感子句预测概率,/>表示子句i的原因子句预测概率,We、be、Wc、bc为可学习的参数,/>表示第二子句i的特征向量,/>表示子句i的情感真实标签,/>表示子句i的原因真实标签,Lemo表示情感子句提取任务的损失函数,Lcause表示原因子句提取任务的损失函数。
本发明实施例提供一种情感-原因对提取装置,包括:
第一确定单元,用于根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;
第一得到单元,用于根据hanlp工具的语法依赖解析,得到语义依赖邻接矩阵;根据第一子句特征、注意力机制和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;
第二得到单元,用于根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、注意力机制和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;
第二确定单元,用于通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。
本发明实施例提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述所述的情感-原因对提取方法。
本发明实施例提供一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述所述的情感-原因对提取方法。
发明实施例提供一种情感-原因对提取方法,该方法包括:根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;根据第一子句特征、图注意力网络和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。该方法在原情感-原因对提取数据集的基础上,通过文本语义依赖分析与预训练模型嵌入,将文本转化为图结构,使用图注意力网络以先验知识为指导,聚合节点信息得到更丰富的文本情感原因特征表示。然后通过情感-原因对的聚合与多任务间的交互机制,有效提升情感-原因对提取的准确度,该方法解决了现有多任务模型无法充分发挥两个子任务对情感-原因对提取任务的促进效果,缺乏任务间的交互协作的问题与子句特征表达能力较差,缺乏外部知识引入的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种情感-原因对提取方法流程示意图;
图2为本发明实施例提供的一种情感-原因对提取装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种情感-原因对提取方法流程示意图;如图1所示,本发明实施例提供的一种情感-原因对提取方法主要包括以下步骤:
步骤101,根据情感因果对抽取ECPE文本包括的单词隐藏状态的注意力权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;
步骤102,根据第一子句特征、图注意力网络和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;
步骤103,根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;
步骤104,通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。
该方法在进行数据处理之前,需要对数据进行预处理,本发明实施例结合ECPE(emotion-cause pair extraction,情感因果对抽取)数据集,详细介绍情感-原因对提取方法。
在实际应用中,ECPE数据集是包含文本信息和标签的中文数据集,文本信息包括:文件编号、文件子句个数、子句编号、子句的情感类别、子句中的情感词、子句分词后文本内容。其中文件标签指的是该文件的情感子句编号和对应原因子句编号,即经数据集发布者确认的每个文件的情感-原因对。
根据情感-原因对提取应用的模型所要使用的数据,需要对数据集进行数据筛选。该模型所需要的数据包括:文件编号、文件子句个数、子句编号、子句分词后文本内容。因此仅保留数据集中文件编号、文件子句个数、子句编号、子句分词后文本内容这五项属性的数据,删除其他数据。
经过上述操作,便获得了一个数据格式统一的文本数据集。
进一步地,为例能够使得模型具有很好的泛化能力,需要对数据集进行划分。具体地,经过上述数据筛选后,ECPE数据集共包括1945条文件数据,其中1746条文件内含一个情感-原因对,177条文件内含两个情感-原因对,22条文件内含两个以上情感-原因对,分别占比89.77%、9.10%、1.13%。随机选择90%的数据作为训练集进行训练,剩下的10%的数据作为测试集进行测试。最后得到训练集、测试集的比例在9:1。保证了与全数据集的一致性,更好地提高了模型的泛化能力。
进一步地,ECPE数据集被分为测试集和训练集之后,无论是测试集数据还是训练集数据,其文本数据为"word-clause-document"的结构。
在本发明实施例中,将一个文件定义为d={c1,c2,…,cn},其中,该文件内含有n个子句,把ci子句的单词序列定义为其中|ci|是子句序列的长度。
进一步地,使用预训练的BERT(Bidirectional Encoder Representations fromTransformers,一个自编码语言)模型提取所有文本的特征。首先,在每个子句的开头和结尾***[CLS]和[SEP]标记。然后将每个子句中包含的所有单词和两个特殊字符提供给BERT作为输入。使用预先训练好的BERT模型对文本进行序列嵌入ei,j={ei,1,ei,2,…,ei,m},其中ei,j∈Rm×d,k是单词嵌入的维度。m=|ci|+l,l为特殊的[CLS]和[SEP]标记字符的总和。
通过BERT模型可以获取到子句包括的单词上下文表示公式,如公式(1)所示:
ei,j=BERT(wi,j) (1)
进一步地,通过BERT模型可以获取文本特征向量{ei,1,ei,2,…,ei,m},在本发明实施例中,文本特征向量{ei,1,ei,2,…,ei,m}过一组单词级Bi-LSTM神经网络,每个Bi-LSTM网络单元对应一个单词,将每个单词与其周围单词进行交互,积累上下文信息。通过Bi-LSTM获得的第i个子句中第j个单词的隐藏状态为hi,j,通过捕获序列特征,获得单词隐藏状态序列其中,每个单词隐藏状态hi,j是前向单词隐藏状态/>和后向单词隐藏状态/>的拼接,具体如公式(2)所示:
其中,表示单词隐藏状态,/>表示前向单词隐藏状态,/>表示后向单词隐藏状态。
在步骤101中,在获取每个单词的隐藏状态之后,可以通过注意力模型来计算单词隐藏状态的注意力权重,进一步的根据每个单词隐藏状态的注意力权重以及单词的隐藏状态按照权重聚合成子句矩阵特征,在此称为ECPE文本对应的第一子句特征。
具体地,通过下列公式(3)确定每个单词隐藏状态的注意力权重:
通过下列公式(4)确定ECPE文本对应的第一子句特征:
其中,表示第i个子句中第j个单词的特征,αi,j表示第i个子句中第j个单词隐藏状态的注意力权重,m表示子句i中包括的单词的数量,/>Wa、ba都为深度学习中的未知数,按照反向传播梯度下降法算法自动计算。
在实际应用中,当确定了第一子句特征hi之后,可以得到第一子句特征序列{h1,h2,…,h|d|},进一步地,将子句特征序列{h1,h2,…,h|d|},输入到子句级Bi-LSTM中,对文档中的子句之间的潜在上下文关系进行建模,可以得到ECPE文本对应的第一子句特征向量{r1,r2,…,r|d|}。
在步骤102之前,先介绍子句语义依赖关系:
在实际应用中,由于现有方法大多利用注意机制或通过向量拼接的方法来获取语义信息,忽略了子句间的依赖关系。但子句间依赖关系包含了更丰富的结构信息,有助于减少信息的丢失,从而更深刻地理解文本。现有对子句语法分析较为成熟的模型,可以利用模型根据单词之间的依赖关系建立起依赖树,再经过转化得到子句间的语法依赖关系。
首先,利用Hanlp工具对文本信息进行句法语义依赖分析,并用邻接矩阵Aw表示单词语义依赖。然后,用R来表示子句和词的关系,具体如公式(5)所示:
ri,j表示单词j是否在子句i中(关系矩阵的逻辑1或0)。如果单词wj在子句ci内,则ri,j=1,否则ri,j=0。
在获得Aw和R后,子句间的语义依赖关系可以如公式(6)所示:
Mclause=RAwRT (6)
其中,Mclause表示由单词之间的依赖关系得到的子句之间语义依赖的邻接矩阵,即为语义依赖邻接矩阵。R表示所有单词与所有子句之间的关系矩阵。
在步骤102中,在本发明实施例中,为了促进第一子句特征向量之间的融合,将第一子句特征作为节点,以子句间的语义依赖邻接矩阵Mclause构成节点之间的边,再由全部的节点与边构成语义图。以语义依赖邻接矩阵作为指导,使用图注意力网络对子句进行图卷积,由于情感与原因是不可分割的,一些情感子句所对应的原因子句就是情感子句本身,所以在进行图卷积之前需要对子句的依赖矩阵中加上自循环。
具体地,图注意力计算公式如下公式(7)和公式(8)所示:
其中,由于图神经网络为多层结构,当前层为t层,表示上一层的输出,若当前层为第一层时,其输入第一子句特征向量{r1,r2,…,r|d|},/>表示向量的连接,/>表示将子句特征/>和子句特征/>经过维度变化后连接起来的向量;/>表示与节点i相邻的全部节点,/>表示节点i和邻居节点j经过正则化后的注意力权重,即/>表示子句之间的注意力权重;ReLU()是激活函数,wt、Wt是可学习的参数。
进一步地,当确定了子句之间的注意力权重之后,可以得到t层全部子句之间的注意力权重矩阵,进一步地,根据子句之间的注意力权重矩阵和语义依赖邻接矩阵,可以得到t层图神经网络的子句邻接矩阵,具体如下公式(9)所示:
其中,At表示t层图神经网络的子句邻接矩阵,表示子句之间的注意力权重矩阵。
进一步地,根据确定的t层图神经网络的子句邻接矩阵和第一子句特征向量相乘的结果进行聚合,可以得到图神经网络对应的第二子句特征,具体公式(10)所示:
其中,表示t层图神经网络对应的第二子句特征,di表示t层图神经网络的邻接矩阵At中节点i的度,Wt、bt是可学习的参数,/>表示t-1层图神经网络对应的第二子句特征。
进一步地,通过图神经网络对应的第二子句特征可以得到图神经网络第二子句特征向量
在步骤103中,当通过多层图注意力网络获得融合了上下文关系与语义特征的图神经网络第二子句特征向量后,可以将相同的第二子句特征向量分别输入至两个预测层,来预测子句是否是情感子句或者原因子句,即分别得到情感子句预测概率和原因子句预测概率,具体地,通过下列公式(11)和(12)分别得到情感子句预测概率和原因子句预测概率:
其中,表示子句i的情感子句预测概率,/>表示子句i的原因子句预测概率,We、be、Wc、bc为可学习的参数。
进一步地,根据情感子句预测概率与情感子句的真实标签可以确定情感子句提取任务的损失函数,根据原因子句预测概率与原因子句的真实标签可以确定原因子句提取任务的损失函数,具体如公式(13)和公式(14)所示:
其中,表示子句i的情感子句预测概率,/>表示子句i的情感真实标签。/>表示子句i的原因子句预测概率,/>表示子句i的原因真实标签,Lemo表示情感子句提取任务的损失函数,Lcause表示原因子句提取任务的损失函数。
进一步地,根据上述情感子句预测概率和原因子句预测概率的提取,最终可以分别得到一组情感子句的预测标签和一组原因子句的预测标签在实际应用中,由于情感子句的预测标签或者原因子句的预测标签表示可能性的大小,所以将一种情感子句的预测标签和一组原因子句的预测标签进行笛卡尔积,构建一组情感-原因标签乘积{x1,1,x1,2,…,x|d|,|d|},具体如公式(15)所示:
其中,xi,j表示情感子句i与原因子句j配对的可能性。
进一步地,将情感-原因标签乘积xi,j={x1,1,x1,2,…,x|d|,|d|}与自身进行笛卡尔积,可以得到子句对之间匹配的可能性矩阵,具体如公式(16)所示:
Mpair=xi,j×xi,j (16)
其中,Mpair表示子句对之间匹配可能性矩阵。
在实际应用中,由于现有方法大多情感原因配对方法,仅利用情感子句预测的特征向量与原因子句预测的特征向量/>与距离编码pi,j进行拼接,组成一个由三种特征组成的特征向量/>再将pairi,j向量作为输入,通过训练一个分类器来判断i与j之间是否构成情感-原因对。但是这样的简单处理没有考虑到情感-原因对之间的信息交互与子任务对总任务的促进。
在本发明实施例中,采用三种特征组成的特征向量来表示每一对情感原因对(情感原因对特征),如公式(17)所示:
其中,表示第二子句i的特征向量、/>表示第二子句j的特征向量,pi,j表示第二子句i与第二子句j间的距离,pi,j=j-i,/>表示向量之间的连接。
进一步地,将情感原因对特征作为图中的节点,Mpair作为节点的关系邻接矩阵,以Mpair矩阵为指导对节点间的信息进行聚合,同时由于Mpair矩阵利用了子任务的结果,使用子任务进一步增强情感-原因对的提取精度。
图注意力计算公式如(18)和(19)所示:
其中,由于图神经网络为多层结构,当前层为t层,表示上一层的输出,当前层为第一层时,输入为/> 表示与节点ij对相邻的全部节点,/>表示节点ij对和邻居节点xy对经过正则化后的注意力权重,即子句对注意力权重。ReLU()是激活函数,wt、Wt是可学习的参数。
进一步地,根据子句对注意力权重可以得到t层图神经网络所对应的子句对注意力权重矩阵,根据子句对注意力权重矩阵和情感原因对的可能性矩阵相乘,可以得到t层图神经网络的子句对邻接矩阵,具体如公式(20)所示:
其中,Pt表示t层图神经网络的子句对邻接矩阵,表示子句对注意力权重矩阵。
进一步地,根据确定的t层图神经网络的子句对邻接矩阵和第二子句特征相乘的结果进行聚合,可以得到图神经网络对应的子句对特征,具体公式(21)所示:
其中,表示t层图神经网络对应的子句对ij特征,/>表示t层图神经网络的子句对ij和xy邻接矩阵,/>表示t-1层图神经网络对应的子句对xy特征;/>表示t层图神经网络对应的子句对xy特征,Wt、bt是可学习的参数,dij表示t层图神经网络的子句对邻接矩阵Pt中节点ij的度。
进一步地,可以根据图神经网络对应的子句对特征得到图神经网络对应的子句对特征向量即通过多层图注意力网络获得融合了不同情感原因对之间的特征向量。
在步骤103中,在获得经过聚合得到的图神经网络对应的子句对特征向量之后,可以通过训练一个分类器来预测包含因果关系的对,为每个子句对预测作为情感-原因对的标签。
具体地,分类器如公式(22)所示:
其中,表示第二子句对i,j预测为情感-原因对的概率,即表示/>表示第二子句对i,j的情感-原因对预测概率,/>表示子句对特征向量,bp和Wp表示学习参数。
进一步地,根据情感-原因对提取的损失函数确定情感-原因对预测概率的精度。情感-原因对提取的损失函数如公式(23)所示:
/>
其中,表示第二子句对i,j的情感-原因对预测概率,yi,j表示第二子句ij的情感-原因对真实标签,Lpair表示情感-原因对提取任务的损失函数。
需要说明的是,在该实施例中,模型的损失函数由情感子句提取任务的损失函数、原因子句提取任务的损失函数和情感-原因对提取任务的损失函数组成,即情感子句提取任务的损失函数+原因子句提取任务的损失函数+情感-原因对提取任务的损失函数=模型的损失函数,也可以通过下列公式(24)表示:
Loss=Lpair+Lemo+Lcause (24)
其中,Loss表示模型的损失函数,Lpair表示情感-原因对提取任务的损失函数,Lemo表示情感子句提取任务的损失函数,Lcause表示原因子句提取任务的损失函数。
在本发明实施例中,将情感子句提取任务与情感子句的真实标签的交叉熵函数作为情感子句提取任务的损失函数;将原因子句提取任务与原因子句的真实标签的交叉熵函数作为原因子句提取任务的损失函数;将情感-原因对提取任务与情感-原因对的真实标签的交叉熵函数作为情感-原因对提取任务的损失函数。
综上所述,本发明实施例提供一种情感-原因对提取方法,该方法包括:根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;根据第一子句特征、图注意力网络和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。该方法在原情感-原因对提取数据集的基础上,通过文本语义依赖分析与预训练模型嵌入,将文本转化为图结构,使用图注意力网络以先验知识为指导,聚合节点信息得到更丰富的文本情感原因特征表示。然后通过情感-原因对的聚合与多任务间的交互机制,有效提升情感-原因对提取的准确度。
基于同一发明构思,本发明实施例提供了情感-原因对提取装置,由于该装置解决技术问题的原理与情感-原因对提取方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图2为本发明实施例提供的一种情感-原因对提取装置结构示意图,如图2所示,该装置包括:第一确定单元201,第一得到单元202,第二得到单元203和第二确定单元204。
第一确定单元201,用于根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;
第一得到单元202,用于根据第一子句特征、图注意力网络和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;
第二得到单元203,用于根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;
第二确定单元204,用于通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。
进一步地,所述第二得到单元203具体用于:
根据情感原因对特征和图注意力网络得到子句对注意力权重矩阵,根据子句对注意力权重矩阵和子句对之间匹配可能性矩阵得到图神经网络对应的子句对邻接矩阵;
根据图神经网络对应的子句对邻接矩阵、情感原因对特征通过下列公式,得到图神经网络对应的子句对特征:
其中,表示t层图神经网络对应的子句对ij特征,/>表示t层图神经网络的子句对ij和xy邻接矩阵,Wt、bt是可学习的参数,dij表示t层图神经网络的子句对邻接矩阵Pt中节点ij的度表示。
进一步地,所述第一得到单元202具体用于:
所述图神经网络对应的第二子句特征如下所示:
其中,表示t层图神经网络对应的第二子句特征,/>表示t层图神经网络的子句邻接矩阵,di表示t层图神经网络的邻接矩阵At中节点i的度,Wt、bt是可学习的参数。
进一步地,所述第二得到单元203具体用于:
通过下列公式对图神经网络对应的子句对特征向量:
其中,Wp和bp表示学习参数,表示情感-原因对预测概率,/>表示图神经网络对应的子句对特征向量。
进一步地,所述第一得到单元202具体用于:
所述第一子句特征如下所示:
所述语义依赖邻接矩阵如下所示:
其中,Aw表示邻接矩阵,Mclause表示语义依赖邻接矩阵,hi表示第一子句特征,αi,j表示单词隐藏状态权重,/>表示单词的隐藏状态。
进一步地,所述第二得到单元203具体用于:
将一组情感子句的预测标签和一组原因子句的预测标签进行笛卡尔积,得到情感-原因标签乘积;
将情感-原因标签乘积与情感-原因标签进行笛卡尔积,得到子句对之间匹配可能性矩阵;
通过下列公式确定情感原因对特征:
其中,表示第二子句i的特征向量、/>表示第二子句j的特征向量,pi,j表示第二子句i与第二子句j间的距离,/>表示特征向量之间的连接。
进一步地,所述第二得到单元203还用于:
将所述第二子句特征向量分别输入两个预测层,通过下列公式分别得到情感子句预测概率和原因子句预测概率:
根据所述情感子句预测概率和所述原因子句预测概率,通过下列公式分别得到情感子句提取任务的损失函数和原因子句提取任务的损失函数:
其中,表示子句i的情感子句预测概率,/>表示子句i的原因子句预测概率,We、be、Wc、bc为可学习的参数,/>表示第二子句i的特征向量,/>表示子句i的情感真实标签,/>表示子句i的原因真实标签,Lemo表示情感子句提取任务的损失函数,Lcause表示原因子句提取任务的损失函数。
应当理解,以上一种情感-原因对提取装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种情感-原因对提取装置所实现的功能与上述实施例提供的一种情感-原因对提取方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。
本发明另一实施例还提供一种计算机设备,计算机设备包括:处理器和存储器;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行上述方法实施例所示的方法流程中情感-原因对提取方法的各个步骤。
本发明另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在计算机设备上运行时,使得计算机设备执行上述方法实施例所示的方法流程中情感-原因对提取方法的各个步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种情感-原因对提取方法,其特征在于,包括:
根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;
根据第一子句特征、注意力机制和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;
根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、注意力机制和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;
通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。
2.如权利要求1所述的方法,其特征在于,所述根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征,具体包括:
根据情感原因对特征和图注意力网络得到子句对注意力权重矩阵,根据子句对注意力权重矩阵和子句对之间匹配可能性矩阵得到图神经网络对应的子句对邻接矩阵;
根据图神经网络对应的子句对邻接矩阵、情感原因对特征通过下列公式,得到图神经网络对应的子句对特征:
其中,表示t层图神经网络对应的子句对ij特征,/>表示t层图神经网络的子句对ij和xy在邻接矩阵中对应的权重,Wt、bt是可学习的参数,dij表示t层图神经网络的子句对邻接矩阵Pt中节点ij的度。
3.如权利要求1所述的方法,其特征在于,所述根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量,具体包括:
所述图神经网络对应的第二子句特征如下所示:
其中,表示t层图神经网络对应的第二子句特征,/>表示t层图神经网络的子句i和j在邻接矩阵中对应的权重,Wt、bt是可学习的参数,di表示t层图神经网络的邻接矩阵At中节点i的度。
4.如权利要求1所述的方法,其特征在于,所述通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,具体包括:
通过下列公式对图神经网络对应的子句对特征向量:
其中,Wp和bp表示学习参数,表示情感-原因对预测概率,/>表示图神经网络对应的子句对特征向量。
5.如权利要求1所述的方法,其特征在于,所述根据第一子句特征、注意力机制和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵,具体包括:
所述第一子句特征如下所示:
所述语义依赖邻接矩阵如下所示:
其中,Aw表示邻接矩阵,Mclause表示语义依赖邻接矩阵,hi表示第一子句特征,αi,j表示单词隐藏状态权重,/>表示单词的隐藏状态,R表示所有单词与所有子句之间的关系矩阵。
6.如权利要求1所述的方法,其特征在于,所述根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,具体包括:
将一组情感子句的预测标签和一组原因子句的预测标签进行笛卡尔积,得到情感-原因标签乘积;
将情感-原因标签乘积与情感-原因标签进行笛卡尔积,得到子句对之间匹配可能性矩阵;
通过下列公式确定情感原因对特征:
其中,表示第二子句i的特征向量、/>表示第二子句j的特征向量,pi,j表示第二子句i与第二子句j间的距离,/>表示特征向量之间的连接。
7.如权利要求1所述的方法,其特征在于,所述根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征之前,还包括:
将所述第二子句特征向量分别输入两个预测层,通过下列公式分别得到情感子句预测概率和原因子句预测概率:
根据所述情感子句预测概率和所述原因子句预测概率,通过下列公式分别得到情感子句提取任务的损失函数和原因子句提取任务的损失函数:
其中,表示子句i的情感子句预测概率,/>表示子句i的原因子句预测概率,We、be、Wc、bc为可学习的参数,/>表示第二子句i的特征向量,/>表示子句i的情感真实标签,/>表示子句i的原因真实标签,Lemo表示情感子句提取任务的损失函数,Lcause表示原因子句提取任务的损失函数。
8.一种情感-原因对提取装置,其特征在于,包括:
第一确定单元,用于根据情感因果对抽取ECPE文本包括的单词隐藏状态权重和每个单词的隐藏状态,确定ECPE文本对应的第一子句特征和第一子句特征向量;
第一得到单元,用于根据第一子句特征、图注意力网络和语义依赖邻接矩阵,得到图神经网络的子句邻接矩阵;根据第一子句特征向量和图神经网络的子句邻接矩阵,得到图神经网络对应的第二子句特征和第二子句特征向量;
第二得到单元,用于根据第二子句特征向量得到子句对之间匹配可能性矩阵和情感原因对特征,根据情感原因对特征、图注意力网络和子句对之间匹配可能性矩阵得到图神经网络对应的子句对特征和子句对特征向量;
第二确定单元,用于通过训练分类器对图神经网络对应的子句对特征向量进行预测,得到情感-原因对预测概率,基于情感-原因提取的损失函数提高情感-原因对预测概率的精度。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任意一项所述的情感-原因对提取方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-7任意一项所述的情感-原因对提取方法。
CN202310474990.1A 2023-04-27 2023-04-27 一种情感-原因对提取方法及装置 Pending CN116578671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310474990.1A CN116578671A (zh) 2023-04-27 2023-04-27 一种情感-原因对提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310474990.1A CN116578671A (zh) 2023-04-27 2023-04-27 一种情感-原因对提取方法及装置

Publications (1)

Publication Number Publication Date
CN116578671A true CN116578671A (zh) 2023-08-11

Family

ID=87535128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310474990.1A Pending CN116578671A (zh) 2023-04-27 2023-04-27 一种情感-原因对提取方法及装置

Country Status (1)

Country Link
CN (1) CN116578671A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787267A (zh) * 2023-12-29 2024-03-29 广东外语外贸大学 一种基于神经网络的情感原因对提取方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787267A (zh) * 2023-12-29 2024-03-29 广东外语外贸大学 一种基于神经网络的情感原因对提取方法及***
CN117787267B (zh) * 2023-12-29 2024-06-07 广东外语外贸大学 一种基于神经网络的情感原因对提取方法及***

Similar Documents

Publication Publication Date Title
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及***
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113128237B (zh) 一种服务资源的语义表征模型构建方法
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN116578671A (zh) 一种情感-原因对提取方法及装置
Sargar et al. Image captioning methods and metrics
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
CN108875024B (zh) 文本分类方法、***、可读存储介质及电子设备
CN113051904A (zh) 一种面向小规模知识图谱的链接预测方法
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN112836482A (zh) 一种基于模板的序列生成模型生成问题的方法及装置
CN113535946A (zh) 基于深度学习的文本鉴别方法、装置、设备及存储介质
CN111444714B (zh) 一种文本分析装置、方法及模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination